• Nenhum resultado encontrado

4.3 Mapas de tamanhos diferentes

4.3.3 Estrutura de fusão com validação cruzada

A estrutura com 49 mapas de tamanhos diferentes foi testada através da validação cruzada estratificada. Como descrito no capítulo anterior, os conjuntos de dados são divi-

4.3. MAPAS DE TAMANHOS DIFERENTES 59

didos em 10 subconjuntos e a cada simulação, um subconjunto é retirado para teste e os outros 9 formam o conjunto de treinamento.

A Tabela 4.9 mostra as principais medidas estatísticas obtidas para o algoritmo através da validação cruzada estratificada. As equações que deram melhores resultados para os conjuntos de dados são as equações 3.1 (média simples dos vetores de peso dos neurônios dos mapas) e equação 3.2 (média ponderada entre os pesos dos neurônios e seus res- pectivos hits). Quanto às abordagens de ordenação e fusão, a primeira mostrou-se mais eficiente para grande parte dos conjuntos de dados, em que os mapas são ordenados pelo índice de validação e combinados pelo critério da melhora do MSQE.

60 CAPÍTULO 4. RESUL T ADOS

Tabela 4.9: Resultados para a validação cruzada estratificada

No Dataset Equação Abordagem Valor Valor Valor Q1 Q2 Q3 Desvio

máximo mínimo médio (mediana) padrão

01 BC Wisconsin 3.2 2 0.9547 0.9853 0.9412 0.9412 0.9498 0.9559 0.0174 02 Chainlink 3.2 1 0.6770 0.7600 0.5500 0.6500 0.6750 0.7100 0.0576 03 Column 3.1 4 0.6613 0.8065 0.5161 0.5484 0.6774 0.7419 0.1056 04 Engytime 3.1 2 0.9451 0.9732 0.8732 0.9195 0.9573 0.9656 0.0319 05 Heart 3.2 1 0.7882 0.9000 0.633 0.7667 0.7833 0.8148 0.077 06 Hepatitis 3.2 2 0.6714 0.8750 0.500 0.6250 0.6697 0.7500 0.1188 07 Ionosphere 3.2 1 0.7250 0.8333 0.5833 0.6944 0.7083 0.7778 0.0698 08 Iris 3.1 1 0.8800 0.9333 0.800 0.8667 0.8667 0.9333 0.0422 09 Lsun 3.2 2 0.8900 1 0.7750 0.800 0.9125 0.9500 0.0843 10 PimaIndians 3.1 4 0.6433 0.7403 0.5325 0.6104 0.6429 0.6753 0.0587 11 Seeds 3.1 1 0.8810 1 0.7619 0.8574 0.8810 0.9048 0.0683 12 Tetra 3.1 1 0.9925 1 0.9500 1 1 1 0.0169 13 TwoDiamonds 3.1 1 0.9988 1 0.9875 1 1 1 0.0039 14 Wine 3.1 4 0.9090 0.9444 0.8125 0.8889 0.9444 0.9444 0.0509 15 Wingnut 3.1 3 0.7587 0.7941 0.7157 0.7255 0.7647 0.7843 0.0294

4.4. RESUMO 61

A Figura 4.46 mostra o boxplot que resume as informações da Tabela 4.9. Os números no eixo das abscissas representam os conjuntos de dados.

Figura 4.46: Acurácia com validação cruzada estratificada. Fonte: Elaborada pelo autor.

4.4

Resumo

Neste capítulo foram mostrados os resultados obtidos com as simulações computacio- nais, para a fusão de mapas de tamanhos iguais e de tamanhos diferentes. Sendo a primeira abordagem um experimento fatorial, o custo computacional foi bem mais elevado do que a segunda abordagem, uma vez que havia maior quantidade de elementos variando. Para os mapas de tamanhos diferentes, como pode ser observado, os resultados obtidos para as duas estruturas, com 7 e com 49 mapas, alcançaram resultados muito semelhantes em termos de acurácia. As divergências encontradas relacionam-se às porcentagens de hits e BMUs considerados na fusão. A validação cruzada estratificada obteve bons resultados de estimação da acurácia do algoritmo desenvolvido. No próximo capítulo são apresentadas as principais conclusões deste trabalho.

Capítulo 5

Conclusão

Neste Capítulo são apresentadas as considerações finais e indicações para trabalhos futuros.

5.1

Considerações finais

Este trabalho apresentou um novo método para combinar os resultados de mapas de Kohonen que compõem um comitê de máquinas, baseado na ordenação por índices de validação de agrupamentos e pelo MSQE, usando como critério de fusão a melhoria destes índices de validação e do MSQE dos mapas fundidos.

O método desenvolvido foi empregado na fusão de mapas de tamanhos iguais e, de maneira inédita, em mapas de tamanhos diferentes, onde foi imposta uma limitação para a fusão através da porcentagem de BMUs.

As simulações computacionais propiciaram uma avaliação de diferentes configura- ções de tamanhos de mapas, número de subconjuntos e variações na quantidade de dados para o treinamento dos mapas além de uso de cinco diferentes índices de validação de agrupamento na ordenação e fusão dos mapas.

Considerando que a primeira abordagem (mapas de tamanhos iguais) foi um experi- mento fatorial fica claro que o custo computacional foi bem mais elevado do que a segunda abordagem (mapas de tamanhos diferentes), pois há variações de diversos parâmetros.

Na fusão de mapas de tamanhos diferentes os resultados obtidos para as duas estru- turas definidas, com 7 e com 49 mapas, alcançaram resultados muito semelhantes em termos de acurácia.

Os conjuntos de dados testados tem características diversas, como pode ser observado na Tabela 4.1 e nas Figuras A.1 e A.2. Porém, uma limitação deste trabalho é que os algoritmos não foram testados em conjuntos de dados com elevado número de classes e instâncias. O conjunto Tetra possui o maior número de classes (4) e o conjunto Engytime,

64 CAPÍTULO 5. CONCLUSÃO

o maior número de instâncias (4096). Isso foi uma opção adotada, para que o tempo de execução do algoritmo não fosse tão elevado, para o caso dos mapas de tamanhos iguais. Outra limitação deste trabalho é o fato de que, para os mapas de tamanhos diferentes, foram testadas apenas uma proporção de conjunto de treinamento e teste da rede neural, isto é, fixaram-se valores únicos de 80% para treinamento e 20% para teste. Não foi investigado aqui se outras proporções fixas, ou proporções diferentes para cada conjunto de dados, poderiam alcançar resultados melhores de acurácia.

Embora para alguns conjuntos de dados não houve aumento na acurácia, o teste de Wilcoxon demonstrou que, em geral, o método proposto neste trabalho obteve resultados significativos e melhores do que um único mapa.

5.1.1

Mapas de tamanhos iguais

Quanto aos mapas de tamanhos iguais, os resultados mostram que quanto mais simples a equação de fusão melhores as acurácias alcançadas.

Dentre as quatro abordagens definidas na Subseção 3.1.3, os melhores resultados fo- ram observados quando o critério de fusão (que define se a fusão entre dois mapas será mantida ou descartada) é a melhora do índice de validação. Ou seja, o objetivo deste trabalho foi alcançado.

Com relação à utilização do método de Bagging para a re-amostragem, o mesmo mostrou-se eficaz. Para 20% dos conjuntos de dados avaliados, a porcentagem de 50% levou aos melhores valores de acurácia. O fato de que os conjuntos de dados onde a por- centagem da re-amostragem foi de 90% conduzir a bons resultados mostra que é possível obter boas acurácias sem que seja necessário utilizar todos os elementos do conjunto de treinamento.

A quantidade de subconjuntos de dados, ou seja, a quantidade de mapas disponíveis para comporem o comitê influencia diretamente na acurácia alcançada.

5.1.2

Mapas de tamanhos diferentes

Com relação às fusões de mapas de tamanhos diferentes, de um modo geral baixos valores da porcentagem de hits e BMUs resultaram nas melhores acurácias.

Quanto às abordagens definidas na Subseção 3.1.3, observa-se, tal como para a fusão de mapas iguais, que apenas as abordagens 1 (Mapas ordenados pelo índice de validação e combinados pelo critério da melhora do MSQE) e 2 (Mapas ordenados pelo MSQE e combinados pelo critério da melhora do índice de validação) levaram aos melhores resultados.

Documentos relacionados