• Nenhum resultado encontrado

ser executado novamente sempre que se desejar modificar o algoritmo, além disso, tem um custo computacional alto, podendo ser proibitiva para casos em que a base de dados contém muitos atributos.

Sendo assim, o objetivo principal deste trabalho foi definir uma abordagem indepen- dente do algoritmo de aprendizagem e de baixo custo computacional que otimizasse a diversidade de comitês de classificadores, através da seleção de subconjuntos de atributos diversos. Isso foi feito utilizando metaheurísticas com inspiração biológica, que são algo- ritmos de fácil implementação, baixo custo computacional e eficientes na determinação de soluções subótimas.

As metaheurísticas utilizadas foram: Algoritmos Genéticos, Colônia de Formigas e Nuvem de Partículas, em versões mono-objetivo e biobjetivo. Foi realizada uma análise comparativa dos resultados obtidos e buscou-se identificar a diferença no desempenho entre:

• Comitês sem seleção de atributos x Comitês com seleção de atributos;

• Comitês com seleção aleatória dos atributos x Comitês com seleção de atributos feita pelas metaheurísticas;

• Algoritmos Genéticos x Colônia de Formigas x Nuvem de Partículas; • Metaheurísticas mono-objetivo x Metaheurísticas biobjetivo.

Foi realizado, ainda, uma análise para determinar se existe correlação entre a interseção de atributos nos subconjuntos selecionados e a acurácia do comitê.

8.2

Conclusões Obtidas

A análise dos experimentos foi dividida em quatro fases, na primeira objetivou-se com- parar os melhores resultados mono-objetivo com os melhores resultados biobjetivo, defi- nindo para cada método de seleção de atributos qual modelo, mono-objetivo ou biobjetivo, produz melhores resultados para o problema em questão. Além disso, foi feita uma com- paração dos melhores resultados com seleção de atributos e dos resultados sem seleção

8.2 Conclusões Obtidas 146 de atributos, para determinar se a seleção foi benéfica aos sistemas de classificação. As seguintes conclusões foram obtidas:

• Na versão mono-objetivo, o PSO e o ACO apresentaram melhor desempenho na seleção de subconjuntos diversos de atributos, minimização da correlação interclassi- ficadores, enquanto o AG obteve melhor desempenho na seleção de atributos diversos para um mesmo conjunto, minimização da correlação intraclassificadores;

• Os sistemas de classificação com seleção de atributos utilizando as duas versões bi- objetivo implementadas tanto do PSO quanto do AG tiveram um desempenho muito próximo, com uma diferença média de 0,27 e 0,33 pontos percentuais, respectiva- mente. Já os sistemas com os atributos selecionados pelas duas versões biobjetivo do ACO, bACO1 e bACO2, tiveram uma diferença mais significativa, de 1,15 pontos percentuais;

• Para todas as metaheurísticas estudadas, PSO, ACO e AG, a seleção de atributos feita pelas versões biobjetivo proporcionaram melhores resultados no desempenho dos sistemas de classificação que a seleção feita pelas versões mono-objetivo;

• A diferença entre as versões biobjetivo e mono-objetivo foi mais expressiva no PSO, cuja versão biobjetivo produziu melhores resultados em 85% dos casos e a diferença média no desempenho dos sistemas foi de 1,13 pontos percentuais. O AG foi o método cuja diferença entre as versões mono e biobjetivo foi menor, sendo a versão biobjetivo melhor em 63% dos casos e tendo uma diferença média de 0,53 pontos percentuais no desempenho dos sistemas de classificação;

• Para todas as metaheurísticas estudadas, PSO, ACO e AG, os sistemas de classifi- cação com seleção de atributos tiveram desempenho médio superior aos sistemas de classificação sem seleção de atributos, com a base de dados completa;

• A diferença entre as versões com seleção de atributos e sem seleção foi mais expressiva no PSO, onde os sistemas com seleção foram superiores aos sistemas sem seleção em 89% dos casos e com uma diferença média de 2,12 pontos percentuais entre os desempenhos dos referidos sistemas. O ACO foi o método com menor quantidade de

8.2 Conclusões Obtidas 147 casos em que a versão com seleção de atributos foi superior a versão sem seleção, 70% dos casos, mas ainda assim é um resultado significativo. A menor diferença média no desempenho dos sistemas com e sem seleção foi dos sistemas com seleção feita pelo AG, com 1,98 pontos percentuais, mas ainda assim, um resultado significativo. A segunda fase da análise buscou comparar as metaheurísticas utilizadas para seleção dos atributos, ACO, AG e PSO, agrupando seus resultados por objetivo. Foram compara- dos também os resultados dos sistemas de classificação utilizando seleção de atributos feita por um método randômico, seleção de atributos aleatória. As seguintes conclusões foram obtidas:

• Os sistemas de classificação com seleção de atributos feita pelas três metaheurísticas estudadas tiveram desempenho superior estatisticamente aos sistemas com seleção aleatória. Sendo a diferença média entre o desempenho desses sistemas bastante expressiva, em torno de 5,16 pontos percentuais. Isso mostra a real utilidade no emprego das metaheurísticas para selecionar os atributos, visto que uma seleção indiscriminada não obtém os mesmos resultados;

• Dentre as três metaheurísticas, a que proporcionou resultados mais baixos foi o ACO, ficando em média a 1,66 pontos percentuais abaixo do PSO e 2,06 pontos percentuais abaixo do AG;

• O AG proporcionou os melhores resultados para a seleção de atributos com mini- mização da correlação intraclassificadores, ou seja, o AG foi a metaheurística que conseguiu com mais êxito selecionar atributos diversos dentro de um mesmo con- junto, diminuindo a redundância dos dados e aumentando a diversidade interna dos classificadores base;

• Já em relação à minimização da correlação interclassificadores, o PSO foi a metaheu- rística que obteve melhores resultados, conseguindo com mais êxito formar conjuntos diversos de atributos, produzindo comitês de classificadores diversos;

• Na versão biobjetivo, o desempenho dos sistemas com seleção feita pelo PSO foi consideravelmente melhor que os demais, obtendo os melhores resultados em 78% dos casos;

8.2 Conclusões Obtidas 148 • Interessante observar ainda que os sistemas com seleção feita pelo AG nas versões mono e biobjetivo tiveram pouca diferença em seu desempenho, em média 0,53 pontos percentuais, enquanto que os sistemas com seleção feita pelo ACO e pelo PSO tiveram uma diferença de desempenho entre as versões mono e biobjetivo maior, 1,17 e 1,13 pontos percentuais, respectivamente.

A terceira fase apresentou uma análise sobre a interseção dos atributos para determinar se existe uma correlação linear entre a interseção de atributos nos subconjuntos selecionados e a acurácia do comitê. Para isso, foi calculada a interseção média dos atributos para cada um dos casos estudados, ou seja, foi calculada a porcentagem média de atributos repetidos utilizados na construção dos comitês. Além disso, foi feito o cálculo do coeficiente de correlação de Pearson entre a quantidade média de atributos repetidos e o erro do comitê, a fim de identificar se há uma correlação linear entre a interseção dos atributos e o desempenho do comitê. As conclusões obtidas foram as seguintes:

• O PSO foi a metaheurística que selecionou subconjuntos de atributos com menor interseção, enquanto o ACO selecionou subconjuntos com maior interseção dos atri- butos;

• O cálculo do coeficiente de correlação de Pearson mostrou não haver uma correlação linear forte entre a interseção dos atributos na seleção de subconjuntos de atributos para comitês de classificadores e o erro do comitê para os experimentos feitos.

Por fim, uma análise sobre os comitês foi feita levando em consideração os métodos de combinação empregados e a estrutura dos comitês (homogênea e heterogênea) para identi- ficar os métodos com melhor e pior desempenho e analisar seu comportamento utilizando os dados selecionados pelas metaheurísticas mono-objetivo e biobjetivo. As seguintes con- clusões foram obtidas:

• Todos os métodos de combinação tiveram melhor desempenho médio quando utiliza- ram a base de dados reduzida pela seleção de atributos biobjetivo;

• O método de combinação que apresentou melhor desempenho médio na maioria dos casos foi o SVM;

8.3 Trabalhos Futuros 149