Análise de Desempenho com Self-Training - 6 Resultados Experimentais

6 Resultados Experimentais

6.1.1 Análise de Desempenho com Self-Training

Conforme explicado anteriormente, nesta seção serão apresentados os resultados de cada um dos métodos, de acordo com o percentual de instâncias inicialmente rotuladas, utilizando o algoritmo self-training. A Tabela 3 apresenta a média aritmética da acurácia e do desvio padrão de cada método usando Naive Bayes, árvore de decisão, Ripper e k -NN como algoritmos de classificação (para ver as informações que geraram esta tabela consultar as Tabelas 6 a 13 no Apêndice A).

De acordo com os dados marcados em negrito na Tabela 3, conclui-se que usando os classificadores Naive Bayes e k -NN todos os métodos obtiveram melhor acurácia do que o ST original, para todas as porcentagens de instâncias inicialmente rotuladas que foram analisadas. Enquanto que usando árvore de decisão e Ripper, 71,42% (5 de 7) dos métodos alcançaram melhores resultados do que o ST Original quando utilizou-se, respectivamente, 25% e 15% dos dados inicialmente rotulados. Avaliando de maneira geral os resultados obtidos utilizando o processo de rotulagem do self-training, é possível concluir que, os métodos propostos alcançaram melhores acurácias do que o ST Original e o ST Limiar fixo, respectivamente, em 85 e 82 de 120 casos, o que equivale a aproximadamente 70% dos casos.

É importante enfatizar que, usando Naive Bayes, todos os métodos propostos - FlexCon- G, FlexCon e FlexCon-C - obtiveram melhor acurácia do que o ST Original e o ST Limiar fixo, quando o percentual de instâncias inicialmente rotuladas foi 5%. Desta maneira, diz- se que tais métodos podem se adaptar bem quando utilizarem bases de dados do mundo real, que normalmente possuem uma pequena quantidade de instâncias rotuladas. Ade- mais, este mesmo resultado pode ser observado para os métodos FlexCon e FlexCon-C, quando usando 20% e 25% dos dados inicialmente rotulados. Ao contrário do classificador Naive Bayes, utilizando árvore de decisão, os métodos tiveram melhor desempenho que o ST Original e o ST Limiar fixo quando utilizam 25% de instâncias rotuladas no início do processo.

Tabela 3: Acurácia média de todos os métodos com os classificadores Naive Bayes, árvore de decisão, Ripper e k-NN usando self-training

% instâncias rotuladas inicialmente

Método 5% 10% 15% 20% 25% Naive Bayes ST Original 67,77 ± 14,69 68,67 ± 15,15 69,60 ± 15,81 70,11 ± 16,55 70,31 ± 16,67 ST Limiar fixo 68,96 ± 17,82 70,33 ± 17,79 71,13 ± 18,49 70,81 ± 18,05 71,38 ± 18,09 FlexCon-G 69,20 ± 17,47 69,50 ± 18,55 70,48 ± 17,65 70,72 ± 17,93 70,40 ± 18,18 FlexCon(s) 69,90 ± 17,10 70,66 ± 17,72 70,80 ± 18,08 71,06 ± 18,02 72,38 ± 17,44 FlexCon(v) 70,00 ± 16,97 70,89 ± 17,36 71,09 ± 17,12 71,76 ± 17,65 71,58 ± 18,17 FlexCon-C1(s) 70,11 ± 17,31 70,71 ± 17,09 70,92 ± 18,19 71,49 ± 17,92 71,64 ± 18,50 FlexCon-C1(v) 69,58 ± 17,48 70,81 ± 17,78 70,89 ± 17,80 71,45 ± 18,23 71,74 ± 18,00 FlexCon-C2 69,83 ± 17,44 70,67 ± 18,20 71,69 ± 17,58 71,54 ± 18,12 71,55 ± 18,74 Árvore de decisão ST Original 70,57 ± 17,21 75,56 ± 14,71 77,27 ± 14,28 78,60 ± 13,87 79,04 ± 13,91 ST Limiar fixo 68,94 ± 18,80 75,50 ± 14,95 77,33 ± 13,99 78,46 ± 13,96 78,93 ± 13,91 FlexCon-G 68,88 ± 19,06 75,70 ± 14,51 77,11 ± 14,07 78,54 ± 13,85 79,85 ± 13,12 FlexCon(s) 69,59 ± 18,62 75,78 ± 14,32 77,50 ± 13,97 78,88 ± 13,40 79,88 ± 13,07 FlexCon(v) 69,42 ± 18,94 75,52 ± 14,65 77,90 ± 13,80 78,53 ± 13,57 79,04 ± 13,77 FlexCon-C1(s) 69,07 ± 18,91 75,21 ± 14,83 76,76 ± 14,25 78,84 ± 13,39 79,07 ± 13,46 FlexCon-C1(v) 69,04 ± 19,14 75,48 ± 14,48 77,23 ± 14,09 78,08 ± 13,86 79,38 ± 13,01 FlexCon-C2 69,50 ± 18,78 76,32 ± 13,83 77,85 ± 13,67 78,57 ± 13,99 80,03 ± 12,73 Ripper ST Original 68,62 ± 16,32 72,88 ± 14,60 75,67 ± 13,65 77,64 ± 12,92 78,62 ± 13,01 ST Limiar fixo 67,23 ± 16,70 72,27 ± 14,40 75,85 ± 13,56 77,16 ± 13,29 78,05 ± 13,68 FlexCon-G 67,00 ± 16,87 72,39 ± 14,83 75,40 ± 13,55 77,30 ± 13,26 77,34 ± 13,57 FlexCon(s) 69,36 ± 16,21 73,53 ± 13,88 76,18 ± 13,11 77,54 ± 12,89 78,52 ± 13,32 FlexCon(v) 68,37 ± 16,91 73,22 ± 14,16 75,08 ± 13,60 77,15 ± 13,48 78,38 ± 12,73 FlexCon-C1(s) 68,59 ± 16,71 72,55 ± 14,95 76,15 ± 13,12 77,42 ± 12,91 78,49 ± 12,60 FlexCon-C1(v) 68,03 ± 16,90 72,34 ± 14,69 75,94 ± 13,18 77,77 ± 13,20 78,67 ± 12,72 FlexCon-C2 68,85 ± 16,53 74,07 ± 13,75 75,88 ± 13,19 77,54 ± 12,91 78,68 ± 12,91 k -NN ST Original 73,63 ± 13,99 76,12 ± 13,99 77,90 ± 13,88 79,23 ± 13,77 79,24 ± 13,90 ST Limiar fixo 76,03 ± 14,29 78,70 ± 13,81 80,11 ± 13,83 80,96 ± 13,80 82,06 ± 12,85 FlexCon-G 75,07 ± 14,90 78,71 ± 13,52 79,20 ± 13,87 80,38 ± 13,06 81,03 ± 12,58 FlexCon(s) 76,09 ± 14,51 78,36 ± 13,91 80,32 ± 13,45 80,98 ± 13,35 82,02 ± 13,13 FlexCon(v) 75,83 ± 14,63 78,87 ± 14,00 80,33 ± 13,32 81,01 ± 13,49 81,73 ± 12,76 FlexCon-C1(s) 76,06 ± 14,13 79,13 ± 13,25 79,79 ± 13,85 80,83 ± 13,60 81,81 ± 12,88 FlexCon-C1(v) 76,34 ± 14,14 78,90 ± 13,93 79,99 ± 13,51 81,38 ± 13,15 81,33 ± 12,89 FlexCon-C2 75,99 ± 14,85 78,94 ± 13,88 79,98 ± 13,68 80,96 ± 13,39 81,99 ± 13,02

Ainda observando a Tabelas 3, desta vez olhando para as células sombreadas de amarelo, é possível afirmar que usando Naive Bayes, árvore de decisão, Ripper e k -NN os métodos propostos são melhores do que o método ST Limiar fixo em 70% (21 de 30), 76,66% (23 de 30), 83,33% (25 de 30) e 43,33% (13 de 30) dos casos, respectivamente. Além disso, observa-se que os métodos propostos obtiveram melhor desempenho do que o ST Limiar fixo utilizando os classificadores Naive Bayes, árvore de decisão e Ripper com 5%, 10%, 20% e 25% dos dados inicialmente rotulados. Estes resultados demonstram que os métodos, quando utilizam estes classificadores, se adaptam bem tanto aos maiores quanto aos menores valores de percentuais de instâncias rotuladas inicialmente.

Avaliando o desempenho dos métodos, ainda na Tabela 3, para definir um método que se destaque dos demais para cada percentual de instâncias inicialmente rotuladas, observa- se que obtiveram a maior acurácia com 5%, 10%, 15%, 20% e 25%, respectivamente:

1. Naive Bayes: FlexCon-C1(s), FlexCon(v), FlexCon-C2, FlexCon(v), FlexCon(s);

2. Árvore de decisão: ST Original, FlexCon-C2, FlexCon(v), FlexCon(s), FlexCon- C2;

3. Ripper: FlexCon(s), FlexCon-C2, FlexCon(s), FlexCon-C1(v), FlexCon-C2;

4. k -NN: FlexCon-C1(v), FlexCon-C1(s), FlexCon(v), FlexCon-C1(v), ST Limiar fixo.

Diante do exposto, é notório que para os classificadores Naive Bayes e Ripper o melhor método é sempre um dos propostos. Enquanto que para árvore de decisão e k -NN os métodos propostos se destacaram como melhores em 4 dos 5 percentuais de instâncias inicialmente rotuladas.

O desvio padrão apresentado na Tabela 3, foi calculado considerando a acurácia média das 30 bases de dados utilizadas nos experimentos desta tese, sendo assim os altos valores podem ser justificados devido as bases de dados possuírem características diferentes e consequentemente acurácias divergentes. Além disso, percebe-se que os menores valores do desvio padrão são identificados quando utiliza-se os maiores percentuais de instâncias inicialmente rotuladas, do contrário os maiores desvios padrão se localizam nos menores percentuais, exceto para o algoritmo Naive Bayes cujos valores são semelhante para todos os percentuais de instâncias inicialmente rotuladas.

A Figura 12 apresenta um gráfico que indica a quantidade de vezes que cada método alcançou o melhor desempenho em relação a todos os outros métodos, de acordo com cada

percentual inicialmente rotulado e cada classificador. Para explicar melhor, considere o seguinte exemplo, o FlexCon-C1(s) obteve acurácia superior aos demais métodos em dois casos: 1) com o classificador Naive Bayes usando 5% dos dados inicialmente rotulados; 2) com o classificador k -NN usando 10% dos dados inicialmente rotulados; por isso este

Figura 12: Quantidade de vezes que cada método obteve maior desempenho em relação ao percentual inicialmente rotulado (self-training)

método aparece, no gráfico, com a barra no número dois do eixo y. Diante do exposto, observa-se que o FlexCon-C2 se destaca com acurácia superior em 5 de 20 casos, sendo 4 com AD e Ripper (usando 10% e 25%) e 1 com NB (usando 15%). Em seguida, os métodos FlexCon(s) e FlexCon(v) com o desempenho melhor em 4 dos 20 casos, cada um e o FlexCon-C1(v) com 3 casos.

Após analisar o desempenho dos métodos separados por classificadores, serão explo- rados os resultados de cada método separadamente. Como forma de explorar todos os resultados de cada um dos métodos descritos nesta tese, as Figuras 13 e 14 apresentam gráficos, do tipo boxplot, produzidos a partir das 300 medidas de acurácia (10 repetições de cada uma das 30 bases de dados) alcançadas por cada método, usando o self-training. Estes gráficos foram organizados por método, então cada gráfico possui as acurácias de um único método, separados por classificadores e percentuais de instâncias rotuladas no início do processo. Nestes gráficos, o eixo x contém o percentual de instâncias rotuladas no início do processo (5%,10%,15%,20%,25%), enquanto que o eixo y são os valores das acurácias. Além disso, como cada gráfico possui o desempenho dos quatro classificadores, estes foram separados por cores: vermelho, azul, amarelo e verde representam, respectivamente, Naive Bayes, árvore de decisão, Ripper e k -NN.

Analisando os referidos gráficos, olhando para os percentuais inicialmente rotulados, constata-se que, em todos os métodos, os valores das acurácias sobem a medida que o percentual de instâncias rotuladas aumenta. Em outras palavras, quanto maior o percentual

Figura 13: Desempenho do ST Original e ST limiar fixo para os quatro classificadores (self-training)

de instância rotuladas inicialmente, melhor o desempenho de cada um dos métodos para todos os classificadores. Diante do exposto, é possível observar que as maiores acurácias são obtidas usando 25% dos dados inicialmente rotulados, para todos os métodos (100% dos casos).

Adicionalmente, observa-se que os classificadores com maior diferença de acurácia do menor para o maior percentual de instâncias inicialmente rotuladas são a árvore de decisão e o Ripper, na maioria dos casos. Já o Naive Bayes e o k -NN se desempenham de forma semelhante para todos os percentuais de instâncias rotuladas no início do processo. Além disso, verifica-se que o Naive Bayes foi o classificador com maior quantidade de valores discrepantes em todos os métodos.

No documento Uma proposta de automatização do processo de rotulagem de instâncias em algoritmos de aprendizado semissupervisionado (páginas 73-77)