Comparação Entre as Abordagens - Seleção e ponderação de características: uma metodologia que i

Table 6.7: Taxas de acerto, desvios padrão (em %), k vizinhos e f número de características obtidos pelo TS/k-NN+Relief

Base x k f Liver 80.83 ±1.19 5 5 Pima 88.72 ±1.21 5 3 Heart 85.70 ±1.37 9 7 Australian 93.08 ±0.80 5 7 Ionosphere 94.85 ±1.32 5 23 Sonar 95.23 ±1.46 3 38

6.7 Comparação Entre as Abordagens

Esta seção tem por objetivo confrontar os resultados de todas as abordagens utilizadas neste trabalho: (1) k-NN, (2) Relief /k-NN, (3) SA/k-NN, (4) TS/k-NN, (5) SA/k-NN + Relief e (6) TS/k-NN + Relief. A Tabela 6.8 traz os as taxas de acerto destes métodos.

Na comparação do k-NN com o Relief /k-NN, pode-se perceber que este último obteve melhores resultados para 4 das 6 bases analisadas. Apenas nas duas menores bases, Liver e Pima, não houve ganho na acurácia que caiu de 67.12% para 62.30% na base Liver e de 71.47% para 69.68% na Pima. Logo, para a maioria das bases, realizar um pré-processamento nas bases de forma a ponderá-las é uma proposta interessante.

Quando da comparação dos métodos que realizaram busca global, os wrappers SA/k-NN e TS/k-NN, pode ser visto que o segundo deles é sempre mais eficiente e apresenta taxas de classificação melhores para todas as bases analisadas. Note ainda que estes métodos globais superam em muito os resultados do k-NN e do Relief /k-NN. Para a base Heart, por exemplo, houve o maior ganho, que foi 19,58 pontos percentuais do TS/k-NN em cima do resultado do Relief/k-NN.

Table 6.8: Taxas de acerto e desvios padrão (em %) obtidas pelo k-NN, Relief/k-NN, SA/k-NN, TS/k-NN, SA/k-NN + Relief, TS/k-NN + Relief

Base k-NN Relief/k-NN SA/k-NN TS/k-NN SA+Relief TS+Relief

Liver 67.12 ±1.30 62.30 ±0.56 81.18 ±1.68 81.76 ±1.23 80.57 ±1.92 80.83 ±1.19 Pima 71.47 ±0.88 69.68 ±0.34 84.85 ±2.19 87.27 ±1.17 82.85 ±1.83 88.72 ±1.21 Heart 67.61 ±1.07 68.07 ±0.55 82.35 ±1.80 87.65 ±0.66 84.68 ±1.54 85.70 ±1.37 Australian 71.68 ±0.82 78.16 ±0.30 87.65 ±1.92 92.94 ±0.81 87.57 ±2.03 93.08 ±0.80 Ionosphere 85.41 ±0.55 85.54 ±0.33 92.94 ±1.32 94.71 ±1.21 93.17 ±1.34 94.85 ±1.32 Sonar 82.15 ±1.02 83.71 ±0.44 94.71 ±1.91 97.65 ±1.27 94.76 ±1.88 95.23 ±1.46

Sobre os métodos que além de otimização global, realizaram refinamento de pesos local, pode-se dizer que a abordagem que utilizou TS como algoritmo global fornece sempre taxas mais elevadas de acerto que a abordagem utilizando SA, mantendo a tendência de superioridade

6.7. COMPARAÇÃO ENTRE AS ABORDAGENS 61 do TS sobre o SA já constatada.

Das 6 bases estudadas, Heart, Ionosphere e Sonar tiveram ganho na utilização da etapa local de ajustes, para a abordagem que utilizou SA na etapa global. A base Heart apresentava 82.35% de acerto antes do ajuste local de pesos e passou a acertar 84.68%, Ionosphere acertava 92.94% e passou a 93.17%, por fim, Sonar passou de 94.71% para 94.76%.

Já a abordagem que utilizou TS como algoritmo de busca global, trouxe ganho de acurácia também para 3 bases das 6 analisadas: Pima, Australian e Ionosphere. Pima aumentou sua taxa de acerto de 87.27% para 88.72%, Australian de 92.94% para 93.08% e em Ionosphere, a taxa subiu de 94.71% para 94.85%.

Pelos resultados até então analisados, pôde-se avaliar que utilizar otimização global, apesar de todo o custo associado à busca, é bastante eficiente do ponto de vista de melhoria de classificação. Dentre os dois algoritmos de busca global estudados, o Tabu Search apresentou sempre melhores resultados que o Simulated Annealing. E, ainda, a idéia de ajustar suavemente os pesos advindos da etapa de ajuste global, funcionou bem em 50% das situações observadas. A Tabela 6.9, a seguir, agrupa os valores de k vizinhos e número f resultante de carac- terísticas coletados nos experimentos de todos os métodos estudados.

Table 6.9: Número de k vizinhos e quantidade f de características obtidas pelo k-NN, Relief/k-NN, SA/k-NN, TS/k-NN, SA/k-NN + Relief, TS/k-NN + Relief

k-NN Relief SA/k-NN TS/k-NN SA + Relief TS + Relief

Base k f k f k f k f k f k f Liver 9 6 1 6 9 6 5 5 9 6 5 5 Pima 9 8 1 8 9 7 5 3 9 7 5 3 Heart 9 13 1 13 7 9 9 7 7 9 9 7 Australian 9 14 1 14 3 9 5 7 3 9 5 7 Ionosphere 1 34 1 34 1 30 5 23 1 30 5 23 Sonar 1 60 1 60 1 52 3 38 1 52 3 38

A primeira observação a ser feita é a de que as implementações de k-NN e Relief /k-NN não reduzem a quantidade de atributos, por isso, os valores constantes na coluna f para estes algoritmos está preenchida com o tamanho original das bases de dados.

Outra observação é que o Relief /k-NN utiliza sempre 1 vizinho na sua implementação. Já os valores de k referentes ao k-NN, foram obtidos após experimentações prévias, como relatado na descrição de seus experimentos.

As abordagens que utilizaram apenas busca global, SA/k-NN e TS/k-NN, realizam Ponderação e Seleção. Pela observação da Tabela 6.9, pode ser visto que, com exceção da base Pima na abordagem que usa SA, todos os conjuntos de características foram reduzidos. Destaque para a redução que o TS/k-NN conseguiu na base Sonar, que originalmente possui 60 características e passou a ter 38, com ganho também na acurácia, como visto na Tabela 6.8.

Não há redução de características ou otimização de k na etapa local de otimização da metodologia proposta, logo, estes valores correspondem aos mesmo obtidos nos experimentos

6.7. COMPARAÇÃO ENTRE AS ABORDAGENS 62 do SA/k-NN e TS/k-NN.

Durante a análise de taxas de acerto percentuais para o método que utiliza SA, foi visto que Liver, Pima e Australian foram as 3 bases que não obtiveram êxito após a etapa de ajuste fino de pesos. Um fato interessante de ser observado é que Liver e Pima, por exemplo, encontraram o valor 9 para k "ótimo", ou seja, 9 vizinhos mais próximos foram utilizados na etapa global de busca em seu resultado final. Já na etapa local, vale lembrar que o Relief /k-NN tem a restrição de utilizar apenas 1 vizinho mais próximo na sua implementação. Esta restrição pode ter feito a diferença para que estas bases, justamente as com valor de k mais alto, não obtivessem sucesso com o uso da metodologia aqui proposta.

Coincidentemente, na abordagem que utiliza o TS, a base Heart, que obteve o número de vizinhos k igual a 9, também não obteve êxito com a metodologia. Outra base na qual não houve melhorias dos resultados da abordagem apenas local foi a Liver. Também é interessante perceber que a mesma base, Liver, foi uma nas quais a Ponderação do Relief /k-NN não surtiu efeito, perdendo em resultados para o tradicional k-NN. Mantem-se, então, a tendência de perda com a Ponderação para esta base.

Foi visto que busca global além de aumentar a acurácia, também realiza significativas reduções na dimensionalidade do conjunto de entradas. E, ainda, que a metodologia proposta, pode aumentar ainda mais a eficiência da classificação através do simples ajuste fino de pesos.

Observou-se que o uso do Relief /k-NN tradicional como método de refinamento local, muitas vezes, não surtiu o efeito desejado devido às suas limitações já expostas, por exemplo, a de utilizar apenas 1 vizinho na sua avaliação. Também o método de ajuste de pesos, como discutido ao longo do Capítulo 5, precisou de alterações para que os ajustes não fossem tão bruscos e chegassem à idéia de refinamento desejada nesta dissertação. Possivelmente a queda na taxa de acurácia quando da utilização da etapa de refinamento se deu devido a não garantia de convergência do Relief.

63 63 63

7

Conclusão

Este capítulo apresenta as considerações finais sobre o trabalho desenvolvido nesta dissertação. A Seção 7.1 traz considerações sobre os resultados observados. Na Seção 7.2, são destacadas as principais contribuições desta dissertação e na Seção 7.3 algumas sugestões de trabalhos futuros são discutidas.

7.1 Considerações finais

A escolha do conjunto de características é uma tarefa de difícil execução, principalmente quando não se tem o total conhecimento do domínio do problema analisado e de sua complexidade. É importante que se escolham características com bom poder discriminatório entre classes. Quanto melhor esta escolha, melhor os resultados fornecidos pelo classificador.

Sabe-se que o número de características obsrvadas pode ser imenso, como é típico em aplicações de Data Minning, e quanto maior esse número, maior a complexidade computacional associada. Isto significa dizer que há mais custo envolvido, seja tempo de processamento, uso excessivo de recursos, mais parâmetros ajustáveis, maior complexidade conceitual, entre outros.

Dada a complexidade e a importância de se realizar bem a tarefa de selecionar as características de entrada, é crescente a pesquisa na área de Seleção de características. Seleção tenta obter um número suficientemente pequeno de características de modo que seja mantida a qualidade da informação e a capacidade de generalização, ou seja, diminuir o conjunto de atributos ao mesmo tempo que melhora a classificação.

Além de Seleção, outra importante tarefa que pode ser executada sobre os dados é a análise da relevância de cada elemento do conjunto. Ponderação é responsável por esta tarefa de atribuir pesos maiores às características mais relevantes dentro do conjunto.

Foi objetivo deste trabalho estudar a utilização simultânea de Seleção e Ponderação, com vista na melhoria da taxa de acerto do classificador e redução de complexidade dos dados.

7.2. CONTRIBUIÇÕES 64

No documento Seleção e ponderação de características: uma metodologia que integra otimização global e local (páginas 61-65)