Comparações entre SSF e ACA - Resultados e Discussão

4.5 Resultados e Discuss˜ao

4.5.2 Comparac¸˜oes entre SSF e ACA

Seguindo procedimento análogo àquele usado na Seção 4.5.1 para analisar os resultados obtidos, nas Tabelas4.10,4.11e4.12são apresentados o número de Vitórias/Empates/Derrotas comparando-se os algoritmos par-a-par considerando, respectivamente, os critérios número de atributos selecionados, a taxa de erro obtida peloNBe a taxa de erro obtida peloKNN.

Algoritmo SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2

SSF-R-1 — 12/0/0 0/6/6 10/0/2 2/1/9 6/0/6 SSF-R-2 0/0/12 — 0/0/12 0/5/7 2/0/10 2/1/9 SSF-SU-1 6/6/0 12/0/0 — 12/0/0 2/3/7 7/0/5 SSF-SU-2 2/0/10 7/5/0 0/0/12 — 2/0/10 2/3/7 ACA-1 9/1/2 10/0/2 7/3/2 10/0/2 — 12/0/0 ACA-2 6/0/6 9/1/2 5/0/7 7/3/2 0/0/12 —

Tabela 4.10: Vit´orias/Empates/Derrotas para os algoritmos da 1a_{coluna considerando o n´umero}

de atributos selecionados entreSSF-R,SSF-SUeACA.

Algoritmo SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2

SSF-R-1 — 4/4/4 4/6/2 5/2/5 8/1/3 6/1/5 SSF-R-2 4/4/4 — 7/1/4 4/6/2 9/0/3 8/0/4 SSF-SU-1 2/6/4 4/1/7 — 4/1/7 7/3/2 4/1/7 SSF-SU-2 5/2/5 2/6/4 7/1/4 — 8/0/4 5/1/6 ACA-1 3/1/8 3/0/9 2/3/7 4/0/8 — 3/1/8 ACA-2 5/1/6 4/0/8 7/1/4 6/1/5 8/1/3 —

Tabela 4.11: Vit´orias/Empates/Derrotas para os algoritmos da 1a _{coluna considerando o erro}

obtido pelo classificadorNButilizando os subconjuntos de atributos selecionados pelos algorit- mosSSF-R,SSF-SUeACA.

A Tabela4.10 mostra que o algoritmo ACA tende a selecionar menos atributos do que as variantes do algoritmoSSF. O ACA selecionou menos ou o mesmo número de atributos em aproximadamente 74% dos casos em relação às outras variantes do SSF. Em contrapartida, quando utilizada a medidaSUno lugar da medida R no algoritmo SSFo número de atributos selecionados diminuiu na maior parte (56%) das bases de dados.

Algoritmo SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2 SSF-R-1 — 3/4/5 4/7/1 5/2/5 9/1/2 9/0/3 SSF-R-2 5/4/3 — 6/3/3 4/6/2 9/1/2 7/1/4 SSF-SU-1 1/7/4 3/3/6 — 3/3/6 9/1/2 7/0/5 SSF-SU-2 5/2/5 2/6/4 6/3/3 — 10/0/2 6/1/5 ACA-1 2/1/9 2/1/9 2/1/9 2/0/10 — 2/1/9 ACA-2 3/0/9 4/1/7 5/0/7 5/1/6 9/1/2 —

Tabela 4.12: Vit´orias/Empates/Derrotas para os algoritmos da 1a _{coluna considerando o erro}

obtido pelo classificadorKNNutilizando os subconjuntos de atributos selecionados pelos algo- ritmosSSF-R,SSF-SUeACA.

Quando o classificadorNBé utilizado para avaliar os subconjuntos de atributos, o algoritmo SSF-R apresentou superioridade em relação aoACA, obtendo resultados melhores ou iguais em aproximadamente 70% das bases de dados, e quando o classificadorKNNé utilizado, o número de vitórias ou empates aumenta para aproximadamente 80% das bases. Tais resultados sugerem que as diferenças do algoritmoSSF em relação ao algoritmo ACA (critério de validação de partição e critério para a seleção dos atributos dos grupos) são importantes e permitem a identificação de melhores subconjuntos de atributos peloSSF.

Nas Tabelas 4.13 e 4.14 são apresentadas as categorias da avaliação multicritério obtidas para os classificadoresNBeKNN, respectivamente. É poss´ıvel constatar que o algoritmoSSF- R obteve em geral os melhores resultados. Os testes estat´ısticos sugerem (α=10%) que os algoritmosACA-1,ACA-2 eSSF-SU-1 obtiveram resultados significativamente piores do que a utilização de todos os atributos quando o KNN foi utilizado para avaliar os subconjuntos. Quando considerado o classificador NB, apenas o algoritmo ACA-1 obteve resultados significativamente (α =5%) piores do que o uso de todos os atributos. Os testes estat´ısticos não indicaram diferenças estatisticamente significantes entre os resultados obtidos pelo ACA e as variantes doSSF. Sob o ponto de vista de número de atributos selecionados, o algoritmoSSF-R- 2 foi pior (α=5%) do que os algoritmosACA-1,SSF-R-1 eSSF-SU-1, assim como oSSF-SU-2 foi pior do que oACA-1 e oSSF-SU-1. Conforme esperado, as variantes que selecionam dois atributos por grupo foram mais eficientes computacionalmente (α=5%) do que as variantes que selecionam um atributo por grupo. A única exceção se deu para o parSSF-SU-1 eSSF-R-2 que não apresentou diferença estatisticamente significante.

Base SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2 Bio1 NNN NNN NN NN NN NN Bio2 NN NN NN NN NN NN Bio3 NNN NNN NN NN NN NN Bio4 NN NN NN NN NN NN Bio5 NNN NN NNN NN NNN NNN Yeast NNN NNN NNN NNN NN NN Iono NNN NNN NNN NNN NN H Pima _⋄ H _⋄ H H H Wisc NN NN NN NN NN NN Spam _⋄ N _⋄ N H _⋄ Colon NNN NNN NNN NNN NNN NNN Leu H H H H NN NN

Tabela 4.13: Avaliação multicritério (Seção4.2) considerando o erro obtido pelo classificador NButilizando os atributos selecionados pelos algoritmosSSF-R,SSF-SUeACA.

4.5 Resultados e Discuss˜ao 45

Algoritmo SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2 Bio1 NNN NNN NNN NNN NN NN Bio2 NN NN NN NN NN NN Bio3 NNN NNN NN NN NN NN Bio4 NN NN NN NN NN NN Bio5 NN NN NN NN NN NN Yeast NN N NN N NN NN Iono NNN NNN NNN NNN NN NNN Pima H H H H H H Wisc NN NN NN NN NN NN Spam NN N NN N NN NN Colon H H H _⋄ NNN NNN Leu _⋄ H _⋄ H NN NN

Tabela 4.14: Avaliação multicritério (Seção4.2) considerando o erro obtido pelo classificador KNNutilizando os atributos selecionados pelos algoritmosSSF-R,SSF-SUeACA.

Conforme realizado na seção anterior, deseja-se também comparar os dois algoritmos quando estes selecionam (aproximadamente) o mesmo número de atributos. Neste caso, são comparados os algoritmosSSF-R-2 eACA-2. Para realizar essa comparação foram realizados dois experimentos. No primeiro, o valor de k (número de grupos) é definido pelo algoritmo SSF-R-2 e então o ACA-2 realiza o agrupamento de atributos para este valor de número de grupos. Na sequência, os subconjuntos de atributos selecionados são comparados considerando o erro obtido pelos classificadores. O segundo experimento é análogo, mas neste o valor dek é definido pelo ACA-2. Dessa forma, ambos os algoritmos atuam como se conhecimento de dom´ınio estivesse dispon´ıvel. Em ambos os experimentos foi considerado o valor dek obtido em cada pasta da validação cruzada, objetivando-se obter estimativas adequadas da capaci- dade de generalização dos classificadores obtidos. Nas Tabelas4.15e4.16são apresentados as médias e desvios padrão dos resultados obtidos. O teste estat´ıstico adotado (Wilcoxon Signed-

Rank) sugere que quando o valor dek foi definido peloSSF-R-2, o algoritmoSSF-R-2 obteve melhores resultados (α=10%) do que oACA-2 considerando a taxa de erro obtido pelo classifi- cadorNB. Quando o valor dek foi definido peloACA-2, considerando a taxa de erro obtida no KNN, o ACA-2 obteve melhores resultados que oSSF-R-2 (α=5%). Tais resultados demons- tram uma relac¸˜ao de equil´ıbrio entre os dois algoritmos quando o valor de “k” pode ser definido

a priorifazendo uso de, por exemplo, conhecimento de dom´ınio dispon´ıvel.

Tabela 4.15: Erros de classificação — média (desvio padrão) — obtidos peloSSF-R-2 eACA-2 utilizando valor dek definido peloSSF-R-2.

Base SSF-R-2 ACA-2 %-KNN %-NB %-KNN %-NB Bio1 0,00 (0,00) 0,00 (0,00) 0,25 (0,75) 0,00 (0,00) Bio2 3,00 (1,87) 2,75 (2,08) 2,00 (1,50) 1,75 (1,95) Bio3 0,00 (0,00) 0,00 (0,00) 0,00 (0,00) 0,00 (0,00) Bio4 4,50 (2,69) 5,00 (3,35) 4,75 (2,61) 3,50 (2,00) Bio5 0,75 (1,14) 0,50 (1,00) 0,25 (0,75) 0,00 (0,00) Yeast 2,43 (3,23) 1,95 (2,39) 2,95 (2,41) 4,45 (5,22) Iono 11,39 (5,25) 14,22 (3,91) 11,94 (7,70) 15,08 (6,94) Pima 33,46 (5,22) 30,21 (6,10) 34,51 (5,91) 29,69 (3,57) Wisc 6,00 (1,67) 5,28 (2,11) 6,89 (1,76) 5,86 (1,75) Spam 10,54 (1,29) 22,34 (2,10) 10,17 (1,81) 31,04 (3,17) Colon 43,10 (24,22) 38,81 (21,3) 42,14 (21,48) 57,14 (21,08) Leu 37,68 (9,46) 36,07 (15,36) 37,50 (14,29) 38,57 (12,45)

Tabela 4.16: Erros de classificação — média (desvio padrão) — obtidos peloSSF-R-2 eACA-2 utilizando valor dek definido peloACA-2.

Base SSF-R-2 ACA-2 %-KNN %-NB %-KNN %-NB Bio1 0,00 (0,00) 0,25 (0,75) 0,25 (0,75) 0,25 (0,75) Bio2 2,75 (2,08) 2,50 (2,24) 1,75 (1,14) 1,50 (2,00) Bio3 1,75 (2,51) 2,50 (1,94) 0,50 (1,00) 1,00 (1,22) Bio4 8,00 (3,67) 6,00 (1,66) 4,25 (2,25) 4,00 (1,66) Bio5 0,75 (1,14) 0,50 (1,00) 0,25 (0,75) 0,00 (0,00) Yeast 10,33 (7,86) 6,38 (5,02) 4,45 (3,49) 7,40 (7,16) Iono 10,83 (4,76) 12,25 (2,54) 12,83 (5,33) 32,48 (4,49) Pima 38,02 (5,01) 32,30 (5,31) 37,25 (5,25) 34,52 (5,54) Wisc 6,00 (1,67) 5,28 (2,11) 6,89 (1,76) 5,86 (1,75) Spam 19,82 (2,89) 43,73 (6,04) 13,39 (1,03) 34,10 (1,84) Colon 25,48 (14,13) 30,71 (26,03) 24,29 (13,38) 42,38 (17,65) Leu 25,00 (5,53) 20,71 (12,86) 19,29 (13,87) 8,04 (8,65)

No documento Seleção de atributos via agrupamento (páginas 69-72)