• Nenhum resultado encontrado

2 REVISÃO DE LITERATURA

3.5 Criação e simulação da rede

Na criação, simulação, inicialização da rede e geração dos mapas, foi necessário o processo de aprendizagem da rede, avaliação da representatividade do mapa através dos erros de quantização e erro topográfico, e a formação da matriz unificada com os planos componentes referentes a cada indicador.

Posteriormente houve a determinação do número de agrupamentos através dos dendrogramas e índice de Davies-Bouldin, determinação da delimitação dos agrupamentos através do coeficiente de k-means, tabulação dos resultados, identificação de cada ocorrência pertencente a cada agrupamento e estabelecimento da frequência das classes representativas

de cada grupo.

3.5.1 Processo de aprendizagem

O processo de aprendizagem de uma rede envolve todas as funções utilizadas para o treinamento da mesma, essas funções utilizadas são as de configuração da rede referentes à caixa de ferramentas Somtoolbox para a geração dos mapas.

Dentro desse processo também foram escolhidas as informações que caracterizaram a rede, ou seja, número de neurônios, topologia, treinamento, assim podendo ser caracterizado como a determinação dos parâmetros da rede.

Uma vez realizada a configuração da rede e a determinação dos parâmetros, foi realizado o treinamento da rede, que é um processo automático, em que houve a geração dos mapas com seus planos componentes, neurônios com rótulos de controle, dendrograma, índice DB e mapa de agrupamentos.

Haykin (2001) discorre sobre o processo de amostragem, casamento por similaridade e atualização como passos básicos envolvidos na aplicação do algoritmo após a inicialização:

 Inicialização - O sistema escolhe os valores ao acaso para os vetores de pesos iniciais wj (0). Todavia o sistema se restringe de forma que os vetores de entrada sejam

diferentes para j= 1, 2, 3, ... l, onde l é o número de neurônios na grade. A segunda forma de iniciar adotada pelo sistema é selecionar os vetores peso através dos padrões de entrada de forma aleatória.

 Amostragem – É a retirada de uma amostra x pelo sistema do espaço de entrada, onde o vetor x representa a ativação aplicada a grade e sua dimensão é igual a m;

 Casamento por similaridade – O sistema encontrou o neurônio vencedor i(x) no tempo n usando o método de similaridade de distância euclidiana (Equação 2):

𝑖(𝑥) = arg 𝑚𝑖𝑛𝑗 ‖𝑥(𝑛) − 𝑤𝑗‖, 𝑗 = 1,2, … , 𝑙 (2)

 Atualiação – Nessa fase o programa ajustou os pesos sinápticos de todos os neurônios usando a equação de atualização (Equação 3), a taxa de aprendizagem e a função de vizinhança do neurônio vencedor são alternados dinamicamente no processo de aprendizagem de forma que se obtivesse melhores resultados.

𝑤𝑗(𝑛 + 1) = 𝑤𝑗(𝑛) + 𝜂(𝑛)ℎ𝑗,𝑖(𝑥)(𝑛)(𝑥(𝑛) − 𝑤𝑗(𝑛)) (3)

Onde:

n

(n) = Parâmetro de taxa de aprendizagem;

hj,i(n) = Função de vizinhança centrada em torno do neurônio vencedor i(x)

 Continuação – a amostragem, casamento por similaridade e atualização foi repetida pelo sistema até não se observar modificações significativas no mapa final.

Assim na fase de aprendizagem o programa ajustou os pesos, encontrou os neurônios vencedores, calculou a distância euclidiana e a determinação da posição de cada dado de entrada no mapa.

3.5.2 Avaliação da representatividade do mapa

Existem várias medidas de avaliação da qualidade de um mapa, todavia utilizou- se o erro de quantização e o erro topográfico, por já ser calculado pelo programa no processo de treinamento da rede, o número de informações por neurônio e a diagnose visual de resolução.

O erro topográfico de acordo com Costa e Netto (2007) considera a proximidade dos campos receptivos e a proporção dos objetos que indicam a descontinuidade do mapa (Equação 4). 𝑇𝑒 = 1𝑛∑ 𝑢 𝑛 𝑘=1 (𝑥𝑘) (4) Onde: Te = erro topográfico; n = número total de padrões;

u(xk) = 1 caso o primeiro e o segundo neurônios vencedores não sejam adjascentes;

u(xk) = 0 caso o primeiro e o segundo neuronio são vizinhos.

verifica quão bem ajustados estão os vetores de entrada da rede (Equação 5). 𝑄𝑒 = ∑𝑛𝑘=1‖𝑥𝑘𝑛− 𝜔𝐵𝑀𝑈‖ (5) Onde: Qe = Erro de quantização; xk= Vetor de entrada; 𝜔𝐵𝑀𝑈= Vetor peso.

Kohonen (2014) relata que o dimensionamento de uma rede SOM é um método de tentativa e erro, sendo necessário vários treinamentos de tamanhos diferentes levando em consideração a resolução suficientemente boa e a precisão estatística.

Assim em situações onde o tamanho da rede não foi considerado suficente para a representação da rede, houve a necessidade de aumentar a rede para ter uma melhor resolução (KOHONEN, 2014).

3.5.3 Análise dos mapas

Os resultados do treinamento da rede vêm através da matriz U e dos planos componentes. Na matriz U é possível verificar o grau de similaridade entre algumas regiões do mapa, todavia, mesmo nos mapas mais claros, por mais que se consiga identificar nos grupos a demarcação deles, a posição onde começa e termina cada grupo, é difusa (SILVA, 2010).

Nos planos componentes foi possível identificar quais as classes mais frequentes em cada indicador devido à coloração apresentada em cada plano e a paleta de cores lateralmente representar os códigos de transformação das informações.

Além disso, a análise dos planos componentes em conjunto demonstrou a relação entre algumas classes de indicadores diferentes.

3.5.4 Identificação e formação dos agrupamentos

grupos, ele é descoberto através de medidas de similaridade, no caso distância euclidiana. O uso de técnicas de agrupamentos hierárquicas é um dos modos de determinação do número de grupos em técnicas não hierárquicas. Outra forma de identificar a quantidade de grupos dentro de uma determinada população é através do índice DB, ele faz uma relação entre o grau de dispersão dentro e entre agrupamentos. Obtendo o dendrograma, a matriz U e o índice DB pode-se identificar o número de grupos que serão formados pelo coeficiente de k-means.

Nos dendrogramas foram usados processos hierárquicos aglomerativos onde iniciam seu processo usando medidas de similaridade (Equação 6) unindo conjuntos semelhantes entre si formando os primeiros grupos. Após a formação dos grupos o processo é reiniciado formando subgrupos dos grupos mais próximos, esse processo se repete do mais similar até o mais dissimilar, no fim forma um único grupo com todos os padrões de entrada (SOUZA, 2005). 𝑑𝑖𝑓 = [∑(𝑋𝑖𝑗− 𝑋𝑓𝑗)2 𝑝 𝑗=1 ] 1 2 (6)

O índice DB é usado como forma de avaliação de agrupamentos através da identificação de anomalias. É analisada a ligação centroide e usada como distância entre clusters, por fim é avaliado a relação inter e intra clusters, sendo selecionadas as medidas para compatibilidade com o algoritmo k-means, isso é expresso pela Equação 7 (PETROVIC, 2006). 𝐷𝐵(𝒞) = 𝐾1 ∑𝐾 𝑚𝑎𝑥𝑖≠𝑗 𝑖=1 {∆(𝐶𝛿(𝐶𝑖)+ ∆(𝐶𝑖,𝐶𝑗)𝑗)} (7) Onde: K = número de clusters; ∆(Ci) = distância intra-clusters; ⸹(Ci, Cj) = distância inter-clusters; ∆(Cj) = diametro do centroide.

em K-classes com semelhanças de acordo com medidas de similaridade.

O processo se deu pela separação de k vetores aleatoriamente tornando-os como centroides dos agrupamentos recém-desenvolvidos, pelo mesmo temporariamente, em seguida o sistema calcula as distâncias euclidianas entre os centroides e os padrões de entrada associando cada vetor ao centroide mais similar (PALAMARA, PIGLIONE e PICCININI, 2014). Após a divisão dos padrões de entrada, foram calculados pelo sistema os novos centroides (Equação 8) 𝐶𝑖 = 𝑚1 𝑖 ∑ 𝑋𝑗𝑖 𝑚𝑖 𝑗=1 (8) Onde:

ci = centroide do cluster Ci;

mi = número de dados xj reunidos no cluster Ci.

Após a geração dos mapas com os agrupamentos os mesmos foram analisados e separados, levando em consideração todos os indicadores avaliados. Cada grupo foi representado pela classe com maior frequência dentro daquele indicador.

Documentos relacionados