Abordagem Proposta - Contribuições a técnicas de agrupamento e visualização de dados multivaria

O método proposto, o algoritmo k-gSOM, está preocupado com a informação de dis- tância entre neurônios próximos no mapa, bem como a densidade de padrões na sua vizi- nhança. Supõe-se que, devido à atração exercida pelos padrões para os neurônios na rede, a grande maioria dos neurônios está localizada em áreas de alta densidade, enquanto que uma minoria faz a ligação entre estes grupos (neurônios interpoladores). O método proposto relaciona-se com o trabalho de Ilc & Dobnikar (2011), que consiste de duas fases: na primeira fase, uma rede SOM é treinada usando seu algoritmo tradicional, e, na se- gunda fase, o método proposto é aplicado aos neurônios da rede.

A técnica é baseada no princípio gravitacional e em uma variante do histograma de

hitsdescrito no capítulo 6. É um algoritmo de agrupamento gravitacional pois os neurô-

nios são submetidos a forças de atração uns dos outros, e todos eles tendem a se reunir na mesma posição quando o tempo se torna suficientemente grande. As informações de densidade de padrões e de distância entre os neurônios próximos são utilizadas para adaptar os seus vetores de pesos e colapsá-los, a fim de obter uma melhor visualização da matriz U.

O histograma de hits consiste numa matriz de acumulação do mesmo tamanho que o mapa, em que cada bin está associado com a posição de um neurônio na grade do SOM. O histograma de hits mostra o número de padrões para os quais cada neurônio é o BMU. Em oposição à matriz U, a informação fornecida por um histograma de hits é mais útil quando se lida com mapas de pequenas dimensões, em que o PNR é geralmente maior do que 1. Caso contrário, devido ao fenômeno de dissolução, a matriz associada com o his- tograma de hits fica muito esparsa, o que impede a exposição adequada das características de dados. A matriz P e SDH (vide capítulo 3) são exemplos de técnicas de visualização que superam esse problema usando hiperesferas com raio de Pareto e considerando mais de um BMU para cada padrão, respectivamente. Neste trabalho, os valores do histograma de hits consistem em quantos padrões estão dentro de uma hiperesfera centrada em cada neurônio. O raio da hiperesfera é considerado como o mínimo para o qual todos os neurô- nios possuem, pelo menos, um padrão associado. Ao fazer isso, a divisão por zero na Equação 7.10 é evitada (as massas dos neurônios estão associadas com o histograma de

hits), pois não há neurônios sem padrão associado.

Portanto, um neurônio wj no tempo t vai ser movido de acordo com as forças de

atração entre os seus kj vizinhos wi. A força de atração entre os neurônios wj e wiestá

relacionada com a proximidade entre eles no espaço de entrada e a razão de padrões co- muns às suas hiperesferas associadas. O número total de vizinhos kjdepende de wjestar

em uma região mais densa ou não. Sendo assim, as equações que governam a adaptação são:

7.3. ABORDAGEM PROPOSTA 71 ∆w_j(t) = 1 mj(t)kj(t) kj(t) X i=1 ( 1 + JCi, j(t) 1 − di, j(t) pi, j(t) wi(t) − wj(t) ) (7.10) kj(t) = kmax(t)Hj(t) (7.11) di, j(t) = ||wi(t) − wj(t)|| (7.12)

onde wjé o neurônio j, kjé o número efetivo de vizinhos do neurônio wj. O parâmetro kj

é proporcional à densidade de padrões onde o neurônio wj está localizado, e o seu valor

máximo possível é predeterminado no tempo t como kmax. O || · || representa a norma

Euclidiana, mj é a massa do neurônio wj e corresponde ao número de padrões dentro

da hiperesfera centrada em wj no tempo t. A distância di, j é normalizada no intervalo

[0, 1], em relação as distâncias entre todos os neurônios, e também negada na Equação 7.10, de modo a ser transformada de uma medida de dissimilaridade para uma medida de similaridade. O parâmetro JCi, j é o coeficiente de Jaccard, novamente definido pela

relação entre a as cardinalidades da interseção e da união dos conjuntos que contêm os padrões cobertos pelas hiperesferas dos neurônios wj e wi:

JCi, j(t) =|Si∩ Sj|

|Si∪ Sj|

(7.13) onde | · | é a cardinalidade conjunto, Si e Sj são o número de padrões dentro das hipe-

resferas centradas no neurônios wi e wj, respectivamente. O parâmetro pi, j é definido

como: pi, j(t) =        1 n n X q=1 mq se di, j(t) > α(t) 1, caso contrário (7.14)

onde mq corresponde à massa de um dos n neurônios cuja distância ao neurônio wj é

menor ou igual ao parâmetro α no momento t (Figura 7.1). A força de atração é penalizada pelo parâmetro pi, j se um neurônio wi está muito longe em relação a um grupo próximo

de neurônios em torno de wjque é definida por α. Assim, um neurônio winão pode atrair

um único neurônio de dentro deste grupo, mas na verdade, todo o grupo, diminuindo assim a força de atração, e compensando kjse este for excessivamente estimado.

A atração entre um número decrescente de neurônios vizinhos no espaço de entrada é considerado enquanto o algoritmo progride. Para cada neurônio wj, em cada iteração, o

número efetivo de vizinhos é uma fração de kmax que é proporcional à densidade de pa-

drões na região que o neurônio está atualmente situado: Hjé o valor do histograma de hits

gerado no tempo t e associado com o neurônio wj. Os valores de Hjsão normalizados no

intervalo [0.1, 1], de modo kjé uma percentagem diferente de zero de kmax. Ao fazer isso,

evita-se que os neurônios em pequenos grupos tenham o mesmo tamanho de vizinhança que os neurônios em grandes agrupamentos, e, portanto, reduzindo a influência deste úl- timo em relação ao primeiro. O papel do parâmetro α consiste em definir a distância mínima para a qual um conjunto de neurônios devem ser considerados como um grupo.

Figura 7.1: Caso ilustrativo onde a atração entre wj(ponto vermelho) e wi(ponto verde)

é penalizada por pi, j (média de massa do grupo de neurônios dentro do círculo de raio

α). Todos os neurônios cujas distâncias a wj são menores ou igual a α são consideradas

como pertencentes ao mesmo grupo coeso (pontos pretos) e, portanto, o parâmetro pi, j

relacionados às suas forças atrativas é igual à unidade.

Relaciona-se com a distância mínima de fusão nos algoritmos tradicionais gravitacionais. No entanto, no método proposto os neurônios não são fundidos ou eliminados, o número de neurônios é constante ao longo dos passos do algoritmo, só existe uma atualização da sua posição no espaço de entrada.

O coeficiente de Jaccard está incluído de modo a adicionar um segundo termo de atra- ção entre o neurônio wj e um determinado neurônio vizinho wi: se eles têm padrões em

comum ao considerar uma dada hiperesfera, eles devem ser reunidos de forma proporcional à interseção dividido pela totalidade de padrões associados a eles. Em cada iteração do algoritmo, são calculadas as distâncias entre todos os protótipos, bem como o raio da hiperesfera, as massas dos neurônios, os coeficientes de Jaccard e o número efetivo de vizinhos para cada neurônio, antes de utilizar os respectivos valores na Equação 7.10. Os parâmetros JCi, j, mj e kj são dependentes do raio da hiperesfera, que é calculado a cada

iteração do algoritmo. A atração entre um número decrescente de neurônios vizinhos no espaço de entrada é considerada, haja visto que kmax é uma função monotonicamente de-

crescente enquanto o algoritmo avança, bem como o parâmetro α. Neste trabalho, tanto

kmax quanto α foram ajustados para diminuir linearmente com o tempo t de acordo as

Equações 7.15 e 7.16: kmax(t) = k0− kf 1 − t T + kf (7.15) α(t) = α0− αf 1 − t T + αf (7.16)

onde t é o número total de iterações, α0e αf são os valores iniciais e finais de α, respecti-

vamente. Os parâmetros k0e kf são os valores iniciais e finais das kmax, respectivamente.

No documento Contribuições a técnicas de agrupamento e visualização de dados multivariados utilizando mapas auto-organizáveis (páginas 88-91)