• Nenhum resultado encontrado

Comparac¸˜oes entre SSF e ACA

No documento Seleção de atributos via agrupamento (páginas 69-72)

4.5 Resultados e Discuss˜ao

4.5.2 Comparac¸˜oes entre SSF e ACA

Seguindo procedimento an´alogo `aquele usado na Sec¸˜ao 4.5.1 para analisar os resultados obtidos, nas Tabelas4.10,4.11e4.12s˜ao apresentados o n´umero de Vit´orias/Empates/Derrotas comparando-se os algoritmos par-a-par considerando, respectivamente, os crit´erios n´umero de atributos selecionados, a taxa de erro obtida peloNBe a taxa de erro obtida peloKNN.

Algoritmo SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2

SSF-R-1 — 12/0/0 0/6/6 10/0/2 2/1/9 6/0/6 SSF-R-2 0/0/12 — 0/0/12 0/5/7 2/0/10 2/1/9 SSF-SU-1 6/6/0 12/0/0 — 12/0/0 2/3/7 7/0/5 SSF-SU-2 2/0/10 7/5/0 0/0/12 — 2/0/10 2/3/7 ACA-1 9/1/2 10/0/2 7/3/2 10/0/2 — 12/0/0 ACA-2 6/0/6 9/1/2 5/0/7 7/3/2 0/0/12 —

Tabela 4.10: Vit´orias/Empates/Derrotas para os algoritmos da 1acoluna considerando o n´umero

de atributos selecionados entreSSF-R,SSF-SUeACA.

Algoritmo SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2

SSF-R-1 — 4/4/4 4/6/2 5/2/5 8/1/3 6/1/5 SSF-R-2 4/4/4 — 7/1/4 4/6/2 9/0/3 8/0/4 SSF-SU-1 2/6/4 4/1/7 — 4/1/7 7/3/2 4/1/7 SSF-SU-2 5/2/5 2/6/4 7/1/4 — 8/0/4 5/1/6 ACA-1 3/1/8 3/0/9 2/3/7 4/0/8 — 3/1/8 ACA-2 5/1/6 4/0/8 7/1/4 6/1/5 8/1/3 —

Tabela 4.11: Vit´orias/Empates/Derrotas para os algoritmos da 1a coluna considerando o erro

obtido pelo classificadorNButilizando os subconjuntos de atributos selecionados pelos algorit- mosSSF-R,SSF-SUeACA.

A Tabela4.10 mostra que o algoritmo ACA tende a selecionar menos atributos do que as variantes do algoritmoSSF. O ACA selecionou menos ou o mesmo n´umero de atributos em aproximadamente 74% dos casos em relac¸˜ao `as outras variantes do SSF. Em contrapartida, quando utilizada a medidaSUno lugar da medida R no algoritmo SSFo n´umero de atributos selecionados diminuiu na maior parte (56%) das bases de dados.

Algoritmo SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2 SSF-R-1 — 3/4/5 4/7/1 5/2/5 9/1/2 9/0/3 SSF-R-2 5/4/3 — 6/3/3 4/6/2 9/1/2 7/1/4 SSF-SU-1 1/7/4 3/3/6 — 3/3/6 9/1/2 7/0/5 SSF-SU-2 5/2/5 2/6/4 6/3/3 — 10/0/2 6/1/5 ACA-1 2/1/9 2/1/9 2/1/9 2/0/10 — 2/1/9 ACA-2 3/0/9 4/1/7 5/0/7 5/1/6 9/1/2 —

Tabela 4.12: Vit´orias/Empates/Derrotas para os algoritmos da 1a coluna considerando o erro

obtido pelo classificadorKNNutilizando os subconjuntos de atributos selecionados pelos algo- ritmosSSF-R,SSF-SUeACA.

Quando o classificadorNB´e utilizado para avaliar os subconjuntos de atributos, o algoritmo SSF-R apresentou superioridade em relac¸˜ao aoACA, obtendo resultados melhores ou iguais em aproximadamente 70% das bases de dados, e quando o classificadorKNN´e utilizado, o n´umero de vit´orias ou empates aumenta para aproximadamente 80% das bases. Tais resultados suge- rem que as diferenc¸as do algoritmoSSF em relac¸˜ao ao algoritmo ACA (crit´erio de validac¸˜ao de partic¸˜ao e crit´erio para a selec¸˜ao dos atributos dos grupos) s˜ao importantes e permitem a identificac¸˜ao de melhores subconjuntos de atributos peloSSF.

Nas Tabelas 4.13 e 4.14 s˜ao apresentadas as categorias da avaliac¸˜ao multicrit´erio obtidas para os classificadoresNBeKNN, respectivamente. ´E poss´ıvel constatar que o algoritmoSSF- R obteve em geral os melhores resultados. Os testes estat´ısticos sugerem (α=10%) que os algoritmosACA-1,ACA-2 eSSF-SU-1 obtiveram resultados significativamente piores do que a utilizac¸˜ao de todos os atributos quando o KNN foi utilizado para avaliar os subconjuntos. Quando considerado o classificador NB, apenas o algoritmo ACA-1 obteve resultados signi- ficativamente (α =5%) piores do que o uso de todos os atributos. Os testes estat´ısticos n˜ao indicaram diferenc¸as estatisticamente significantes entre os resultados obtidos pelo ACA e as variantes doSSF. Sob o ponto de vista de n´umero de atributos selecionados, o algoritmoSSF-R- 2 foi pior (α=5%) do que os algoritmosACA-1,SSF-R-1 eSSF-SU-1, assim como oSSF-SU-2 foi pior do que oACA-1 e oSSF-SU-1. Conforme esperado, as variantes que selecionam dois atributos por grupo foram mais eficientes computacionalmente (α=5%) do que as variantes que selecionam um atributo por grupo. A ´unica excec¸˜ao se deu para o parSSF-SU-1 eSSF-R-2 que n˜ao apresentou diferenc¸a estatisticamente significante.

Base SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2 Bio1 NNN NNN NN NN NN NN Bio2 NN NN NN NN NN NN Bio3 NNN NNN NN NN NN NN Bio4 NN NN NN NN NN NN Bio5 NNN NN NNN NN NNN NNN Yeast NNN NNN NNN NNN NN NN Iono NNN NNN NNN NNN NN H Pima H H H H Wisc NN NN NN NN NN NN Spam N N H Colon NNN NNN NNN NNN NNN NNN Leu H H H H NN NN

Tabela 4.13: Avaliac¸˜ao multicrit´erio (Sec¸˜ao4.2) considerando o erro obtido pelo classificador NButilizando os atributos selecionados pelos algoritmosSSF-R,SSF-SUeACA.

4.5 Resultados e Discuss˜ao 45

Algoritmo SSF-R-1 SSF-R-2 SSF-SU-1 SSF-SU-2 ACA-1 ACA-2 Bio1 NNN NNN NNN NNN NN NN Bio2 NN NN NN NN NN NN Bio3 NNN NNN NN NN NN NN Bio4 NN NN NN NN NN NN Bio5 NN NN NN NN NN NN Yeast NN N NN N NN NN Iono NNN NNN NNN NNN NN NNN Pima H H H H H H Wisc NN NN NN NN NN NN Spam NN N NN N NN NN Colon H H H NNN NNN Leu H H NN NN

Tabela 4.14: Avaliac¸˜ao multicrit´erio (Sec¸˜ao4.2) considerando o erro obtido pelo classificador KNNutilizando os atributos selecionados pelos algoritmosSSF-R,SSF-SUeACA.

Conforme realizado na sec¸˜ao anterior, deseja-se tamb´em comparar os dois algoritmos quando estes selecionam (aproximadamente) o mesmo n´umero de atributos. Neste caso, s˜ao comparados os algoritmosSSF-R-2 eACA-2. Para realizar essa comparac¸˜ao foram realizados dois experimentos. No primeiro, o valor de k (n´umero de grupos) ´e definido pelo algoritmo SSF-R-2 e ent˜ao o ACA-2 realiza o agrupamento de atributos para este valor de n´umero de grupos. Na sequˆencia, os subconjuntos de atributos selecionados s˜ao comparados considerando o erro obtido pelos classificadores. O segundo experimento ´e an´alogo, mas neste o valor dek ´e definido pelo ACA-2. Dessa forma, ambos os algoritmos atuam como se conhecimento de dom´ınio estivesse dispon´ıvel. Em ambos os experimentos foi considerado o valor dek obtido em cada pasta da validac¸˜ao cruzada, objetivando-se obter estimativas adequadas da capaci- dade de generalizac¸˜ao dos classificadores obtidos. Nas Tabelas4.15e4.16s˜ao apresentados as m´edias e desvios padr˜ao dos resultados obtidos. O teste estat´ıstico adotado (Wilcoxon Signed-

Rank) sugere que quando o valor dek foi definido peloSSF-R-2, o algoritmoSSF-R-2 obteve melhores resultados (α=10%) do que oACA-2 considerando a taxa de erro obtido pelo classifi- cadorNB. Quando o valor dek foi definido peloACA-2, considerando a taxa de erro obtida no KNN, o ACA-2 obteve melhores resultados que oSSF-R-2 (α=5%). Tais resultados demons- tram uma relac¸˜ao de equil´ıbrio entre os dois algoritmos quando o valor de “k” pode ser definido

a priorifazendo uso de, por exemplo, conhecimento de dom´ınio dispon´ıvel.

Tabela 4.15: Erros de classificac¸˜ao — m´edia (desvio padr˜ao) — obtidos peloSSF-R-2 eACA-2 utilizando valor dek definido peloSSF-R-2.

Base SSF-R-2 ACA-2 %-KNN %-NB %-KNN %-NB Bio1 0,00 (0,00) 0,00 (0,00) 0,25 (0,75) 0,00 (0,00) Bio2 3,00 (1,87) 2,75 (2,08) 2,00 (1,50) 1,75 (1,95) Bio3 0,00 (0,00) 0,00 (0,00) 0,00 (0,00) 0,00 (0,00) Bio4 4,50 (2,69) 5,00 (3,35) 4,75 (2,61) 3,50 (2,00) Bio5 0,75 (1,14) 0,50 (1,00) 0,25 (0,75) 0,00 (0,00) Yeast 2,43 (3,23) 1,95 (2,39) 2,95 (2,41) 4,45 (5,22) Iono 11,39 (5,25) 14,22 (3,91) 11,94 (7,70) 15,08 (6,94) Pima 33,46 (5,22) 30,21 (6,10) 34,51 (5,91) 29,69 (3,57) Wisc 6,00 (1,67) 5,28 (2,11) 6,89 (1,76) 5,86 (1,75) Spam 10,54 (1,29) 22,34 (2,10) 10,17 (1,81) 31,04 (3,17) Colon 43,10 (24,22) 38,81 (21,3) 42,14 (21,48) 57,14 (21,08) Leu 37,68 (9,46) 36,07 (15,36) 37,50 (14,29) 38,57 (12,45)

Tabela 4.16: Erros de classificac¸˜ao — m´edia (desvio padr˜ao) — obtidos peloSSF-R-2 eACA-2 utilizando valor dek definido peloACA-2.

Base SSF-R-2 ACA-2 %-KNN %-NB %-KNN %-NB Bio1 0,00 (0,00) 0,25 (0,75) 0,25 (0,75) 0,25 (0,75) Bio2 2,75 (2,08) 2,50 (2,24) 1,75 (1,14) 1,50 (2,00) Bio3 1,75 (2,51) 2,50 (1,94) 0,50 (1,00) 1,00 (1,22) Bio4 8,00 (3,67) 6,00 (1,66) 4,25 (2,25) 4,00 (1,66) Bio5 0,75 (1,14) 0,50 (1,00) 0,25 (0,75) 0,00 (0,00) Yeast 10,33 (7,86) 6,38 (5,02) 4,45 (3,49) 7,40 (7,16) Iono 10,83 (4,76) 12,25 (2,54) 12,83 (5,33) 32,48 (4,49) Pima 38,02 (5,01) 32,30 (5,31) 37,25 (5,25) 34,52 (5,54) Wisc 6,00 (1,67) 5,28 (2,11) 6,89 (1,76) 5,86 (1,75) Spam 19,82 (2,89) 43,73 (6,04) 13,39 (1,03) 34,10 (1,84) Colon 25,48 (14,13) 30,71 (26,03) 24,29 (13,38) 42,38 (17,65) Leu 25,00 (5,53) 20,71 (12,86) 19,29 (13,87) 8,04 (8,65)

No documento Seleção de atributos via agrupamento (páginas 69-72)