Self-Organizing Maps e técnicas complementares 1 Self-Organizing Maps

SUMÁRIO 1 CONSIDERAÇÕES INICIAIS

2. FUNDAMENTAÇÃO TEÓRICA 1 Geobotânica

2.3. Self-Organizing Maps e técnicas complementares 1 Self-Organizing Maps

Os Self-Organizing Maps ou mapas auto-organizáveis (SOM) constituem uma técnica de análise multivariada em redes neurais (Artificial Neural Networks, ANN) não supervisionada (Kohonen, 1982). Essa técnica, no entanto, se difere dos outros métodos em ANN por agrupar e reduzir a dimensionalidade dos dados mutuamente (Agarwal e Skupin, 2008). De acordo com Kohonen (1998 e 2013), autor e desenvolvedor da técnica, os SOM são baseados na quantificação vetorial e são capazes de converter relações estatísticas complexas e não lineares, entre dados de alta dimensionalidade, em simples relações geométricas com visualização de baixa dimensão. Na análise, as “células” de informação, dispostas em rede neural, competem entre si por meio de interações laterais múltiplas. Assim, promovem agrupamentos (domínios) não supervisionados com representações altamente visualizáveis das relações, mesmo que sutis, entre diferentes tipos de dados (Kohonen, 2001; Fraser & Dickson, 2007).

Desta forma, vetores-nós (node-vectors) são treinados para representar a estrutura e os padrões das amostras de entrada em um espaço n-dimensional de dados (Figura 2.3). O dado de saída de uma análise SOM é tipicamente um mapa auto-organizado linear, de duas dimensões, composto por “células” (denominadas nós). Cada nó representa um vetor-nó no espaço de dados, definido por suas variáveis. O número de vetores a serem lançados no espaço n-dimensional de dados (seed-vectors), e subsequentemente treinados pelo processo, é definido pelo tamanho do mapa auto-organizado de saída, estabelecido previamente pelo usuário, em consonância com o número de unidades amostrais (Fraser e Dickson, 2007).

A análise é realizada por processo interativo de dois passos: o competitivo e o cooperativo. O primeiro passo compara cada amostra a todos os seed-vectors dentro de um determinado raio da amostra (no espaço n-dimensional) e, então, um seed-vector é determinado como vencedor por sua maior similaridade (cosseno ou distância Euclidiana).

Uma vez definido o vetor vencedor do passo competitivo, suas propriedades são alteradas por um percentual, de forma a se assemelhar às propriedades do dado de entrada mais próximo. No segundo passo, o cooperativo, todos os seed-vectors dentro de um determinado raio do seed-vector vencedor têm suas propriedades também alteradas, de forma a se assemelharem ao dado de entrada em questão. Esse processo é, então, realizado para as próximas unidades amostrais. Assim, reduzindo o raio de influência e mudando o percentual de modificação aplicados aos seed-vectors durante cada interação, esses vetores tornam-se treinados (vencedores, vetores-nós ou node-vectors) para representar a estrutura dos dados originais. Centenas a milhares de interações desses dois passos (rough e fine training) podem ser realizadas sobre cada unidade amostral (Fraser e Dickson, 2007; Hodgkinson et al., 2012).

Figura 2.3. Visualização da vetorização de dados no espaço N-dimensional e esquema dos domínios formados pelas medidas de similaridade entre vetores.

Uma vez definidos todos os vetores-nós para representar a estrutura dos dados, todos os dados originais mais próximos a determinado vetor-nó são representados por ele, como um nó, no mapa 2D. O mapeamento dos dados n-dimensionais na representação 2D é realizado através de regressão. Esse mapeamento apresenta caraterística-chave de preservação das relações relativas topológicas entre os vetores-nós. No entanto, se um nó está perto de outros no mapa 2D, esses podem representar subconjuntos de um grupo

maior formado pela similaridade das unidades amostrais (Fraser e Dickson, 2007). Os nós, que representam as amostras similares no mapa 2D, são agora denominados best matching

units (BMU) e são utilizados nos processamentos subsequentes de agrupamento K-means e validação via Índice de Davies-Bouldin (Hodgkinson et al., 2009) no software SiroSOM (CSIRO Mineral Resources Flagship – Pullenvale, QLD, AUS). Existem duas métricas de validação de um SOM: a primeira, denominada erro de quantização médio (qe), refere-se à média das distâncias entre cada vetor de dados e seu BMU, e é uma medida de resolução do mapa 2D; a segundo, o erro de topologia (te), refere-se à proporção de todos os vetores de dados, de forma que o primeiro e o segundo BMU não sejam unidades adjacentes, e essa representa uma medida de preservação da topologia.

Os SOM têm apresentado resultados significativos na mineração de dados de alta dimensionalidade e análise multivariada em diversas áreas do conhecimento, como nas geociências (p.ex., Penn, 2005; Bação et al., 2005; Klose, 2006; Iwashita et al, 2011 e 2012; Carneiro et al., 2012) e na ecologia vegetal (p.ex., Foody, 1999; Zhang e Yang, 2008; Suriguga et al., 2011 e Adamczyk et al., 2013). Adamczyk et al. (2013), realizando análise temporal de dados fitossociológicos em reserva natural da Polônia central, puderam correlacionar amostragens temporais quantitativas de espécies com as condições abióticas locais. Os autores concluíram que a aplicação dos SOM fornece informações quanto à preferência de habitats pelas espécies e ajuda a indicar os fatores abióticos cruciais na formação de comunidades de plantas. Além disso, os autores acreditam que os SOM podem ser úteis e eficientes nos estudos de vegetação, mesmo em áreas edaficamente complexas.

2.3.2. Definição de domínios

Com sua primeira publicação em 1955, a técnica de agrupamento K-means continua sendo amplamente utilizada pela popularidade, simplicidade e eficiência de seu algoritmo (Jain, 2010; Benna et al., 2013). O algoritmo consiste em duas fases: primeira delas define centroides iniciais K, um para cada agrupamento (domínio); a segunda fase associa cada

ponto do dado conjunto de dados ao centroide mais próximo. Normalmente, a distância Euclidiana é utilizada para medir a distância entre a amostra e o centroide mais próximo. Quando todos os pontos são incluídos em um grupo, a primeira fase é completada e domínios preliminares são formados. Os centroides são recalculados e novos domínios são formados com os novos centroides até que esses não mudem mais (Benna et al., 2013). O índice de Davies-Bouldin (Davies e Bouldin, 1979) indica a similaridade entre os domínios, inferindo sobre a adequação das diferentes partições de dados independentemente da técnica de agrupamento utilizada e do número de domínios formados, que precisam ser ao menos dois. Esse método incorpora as características fundamentais de medidas de similaridade, bem como satisfaz certos critérios heurísticos (Davies e Bouldin, 1979). Quanto menor o índice de Davies-Bouldin mais naturais são considerados os domínios.

2.3.3. Análises estatísticas periféricas do software SiroSOM

O software SiroSOM, além de realizar os SOM e definir domínios, permite a análise do SOM através de outros métodos estatísticos, dentre eles, análises por principais componentes (APC) (Pearson, 1901) e análise de correlação entre variáveis através do coeficiente de correlação ranqueada de Spearman (Spearman, 1904 e 1906).

A APC é um sistema de representação de dados em duas até n-dimensões, por linhas (ou planos) às quais os dados apresentam melhor ajuste (Pearson, 1901). A ideia central da APC é reduzir a dimensionalidade dos dados que consistem em um grande número de variáveis inter-relacionadas, retendo ao máximo a variação presente no conjunto de dados. Isso é possível pela formação de um novo conjunto de variáveis (PCs) não correlacionadas (Jolliffe, 1986). Essas composições lineares são ordenadas de acordo com suas variações, de modo que as primeiras PCs explicam a maior parte das variações presentes nas variáveis originais (Jolliffe, 1986; Dunteman, 1989). Geometricamente, a primeira PC é a linha que apresenta maior ajuste às n observações, no espaço n-

dimensional de variáveis. Equivalentemente, a segunda PC é a linha que mais se ajusta aos resíduos da primeira componente (Dunteman, 1989).

O coeficiente de correlação ranqueada de Spearman (ρ) é uma estatística não paramétrica e representa uma extensão ranqueada do coeficiente de correlação produto- momento de Pearson (Borkowf, 2000). De acordo com Hollander et al. (2013), dentre muitas vantagens as estatísticas não paramétricas permitem ao usuário obter os exatos P-values para testes estatísticos, bem como exatas probabilidades para intervalos de confiança sem a dependência da hipótese de que a distribuição da população é normal. O coeficiente de correlação ranqueada de Spearman (ρ) é considerado significativo quando ρ ≥ |0,04|. Os valores significativos positivos indicam a ocorrência de relação diretamente proporcional entre as variáveis analisadas e os negativos indicam a ocorrência de relação inversamente proporcional entre elas. Acompanhando os valores de ρ são gerados os valores de probabilidade de t-student (desenvolvido por Sealy Gosset em 1908), como forma de validação do índice. Quando mais próximo de zero forem esses últimos, mais simétricas são consideradas as distribuições das populações analisadas.

2.4. Multiple Endmember Spectral Mixture Analysis e técnicas complementares

No documento Sensoriamento remoto hiperespectral e definição de espécies indicadoras aplicados... (páginas 65-69)