• Nenhum resultado encontrado

6 Resultados Experimentais

6.1.2 Análise de Desempenho com Co-Training

Os resultados relativos ao desempenho de cada método utilizando o algoritmo co- training com os classificadores Naive Bayes, árvore de decisão, Ripper e k -NN são apre- sentados na Tabela 4 (Para visualizar os dados que geraram cada uma destas tabelas, consultar: Tabelas 14 a 20 no Apêndice B). De acordo com os dados apresentados na Ta- bela 4, observa-se que todos os métodos obtiveram acurácia maior do que o CT Original em 100% dos casos (valores em negrito).

Comparando as acurácias dos métodos propostos com as do CT Limiar fixo (células sombreadas de amarelo na Tabela 4) , o Naive Bayes alcançou melhores resultados em 3

Figura 14: Desempenho dos métodos propostos para os quatro classificadores (self- training)

Tabela 4: Acurácia média de todos os métodos com os classificadores Naive Bayes, árvore de decisão, Ripper e k-NN usando co-training

% instâncias rotuladas inicialmente

Método 5% 10% 15% 20% 25% Naive Bayes CT Original 59,90 ± 19,47 61,59 ± 18,89 62,75 ± 18,50 63,13 ± 18,67 63,89 ± 18,62 CT Limiar fixo 61,98 ± 17,72 64,34 ± 17,57 65,32 ±17,90 65,89 ± 18,26 66,81 ± 17,45 FlexCon-G 60,54 ± 18,50 62,24 ± 18,00 63,47 ± 18,45 63,52 ± 18,09 64,69 ± 18,02 FlexCon(s) 61,83 ± 19,01 63,64 ± 18,91 64,22 ± 18,53 65,23 ± 18,20 65,37 ± 18,40 FlexCon(v) 62,25 ± 18,73 63,58 ± 18,21 64,82 ± 18,30 65,16 ± 18,24 65,50 ± 18,36 FlexCon-C1(s) 62,25 ± 17,96 63,74 ± 17,86 64,72 ± 18,39 65,35 ± 18,39 65,97 ± 18,41 FlexCon-C1(v) 61,69 ± 18,31 63,90 ± 18,50 64,82 ± 18,23 65,46 ± 18,43 65,66 ± 18,41 FlexCon-C2 61,87 ± 18,20 64,21 ± 18,22 64,91 ± 17,84 65,98 ± 17,79 66,09 ± 18,08 Árvore de decisão CT Original 59,63 ± 20,92 63,18 ± 20,10 65,90 ± 18,81 66,98 ± 18,22 68,43 ± 17,95 CT Limiar fixo 62,09 ± 19,99 68,66 ± 16,75 70,00 ± 15,74 71,03 ± 15,29 72,26 ± 14,79 FlexCon-G 59,79 ± 20,66 66,26 ± 17,77 67,03 ± 17,75 68,90 ± 16,71 70,06 ± 16,63 FlexCon(s) 61,39 ± 20,54 67,45 ± 18,19 68,60 ± 17,73 69,81 ± 17,23 70,72 ± 16,35 FlexCon(v) 61,83 ± 20,30 67,47 ± 17,92 68,63 ± 17,48 69,97 ± 16,84 70,10 ± 16,79 FlexCon-C1(s) 61,36 ± 21,28 66,11 ± 18,86 68,17 ± 17,91 68,87 ± 17,55 69,92 ± 16,98 FlexCon-C1(v) 61,17 ± 20,85 66,70± 18,79 68,46 ± 17,71 69,47 ± 17,00 69,91 ± 16,86 FlexCon-C2 61,73 ± 20,33 67,14 ± 18,35 68,19 ± 17,46 69,92 ± 16,70 70,24 ± 16,21 Ripper CT Original 59,26 ± 16,78 63,19 ± 15,64 65,07 ± 15,91 66,64 ± 15,77 68,65 ± 15,87 CT Limiar fixo 64,07 ± 16,33 67,92 ± 15,30 69,63 ± 14,80 70,38 ± 14,29 71,66 ± 14,12 FlexCon-G 60,68 ± 17,04 64,16 ± 15,57 65,73 ± 14,95 67,26 ± 14,93 68,63 ± 14,20 FlexCon(s) 62,70 ± 18,54 66,31 ± 17,86 67,00 ± 17,60 68,58± 17,04 69,52 ± 16,97 FlexCon(v) 62,88 ± 18,58 66,10 ± 18,30 67,30 ± 17,87 68,72 ± 17,19 69,44 ± 16,87 FlexCon-C1(s) 61,86 ± 18,35 66,00 ± 17,48 67,24 ± 17,58 68,37 ± 16,85 69,82 ± 16,33 FlexCon-C1(v) 62,16 ± 18,96 65,53 ± 17,55 67,23 ± 17,05 68,38 ± 16,89 69,38 ± 16,43 FlexCon-C2 61,38 ± 19,86 65,25 ± 18,57 66,92 ± 17,97 67,84 ± 17,49 69,53 ± 16,69 k -NN CT Original 65,15 ± 17,88 69,04 ± 17,32 70,71 ± 17,05 72,25 ± 16,87 72,88 ± 17,01 CT Limiar fixo 70,28 ± 14,66 72,79 ± 14,06 74,41 ± 13,32 75,07 ± 13,27 75,66 ± 12,81 FlexCon-G 67,84 ± 18,14 70,78 ± 16,61 71,93 ± 16,37 72,60 ± 16,36 73,73 ± 15,61 FlexCon(s) 68,49 ± 17,30 70,84 ± 16,03 72,34 ± 15,76 73,24 ± 15,26 73,93 ± 15,00 FlexCon(v) 67,72 ± 17,78 71,14 ± 16,52 72,26 ± 15,24 73,28 ± 15,24 73,92 ± 15,01 FlexCon-C1(s) 68,18 ± 17,98 70,28 ± 16,72 72,19 ± 15,98 73,29 ± 15,42 74,56 ± 14,37 FlexCon-C1(v) 68,58 ± 17,02 70,83 ± 16,79 72,84 ± 15,57 73,68 ± 15,08 74,70 ± 14,87 FlexCon-C2 67,86 ± 16,97 71,14 ± 15,43 72,28 ± 15,63 73,38 ± 14,74 74,63 ± 14,29

de 30 casos e usando os demais classificadores nenhum dos métodos propostos superaram a acurácia deste método. Este resultado pode ser justificado pela quantidade de instâncias rotuladas durante o processo de rotulagem, pois os métodos propostos rotulam todas as instâncias não rotuladas, enquanto o CT Limiar fixo não rotula as instâncias cuja taxa de confiança seja menor do que o limiar inicialmente definido. Este comportamento dos métodos propostos implica na possibilidade de inclusão de instâncias com baixa confi- ança, que podem influenciar negativamente a predição dos classificadores. Do contrário, o procedimento do CT Limiar fixo pode acarretar na inclusão de poucas instâncias no con- junto de treinamento. Desta maneira, o conjunto de treinamento pode conter apenas as instâncias cuja predição é confiável, afetando positivamente a predição dos classificadores.

Para comprovar a justificativa acima foram criados dois gráficos, mostrados na Fi- gura 15, que apresentam o percentual médio de instâncias rotuladas usando os métodos com limiar fixo e os propostos. Nos referidos gráficos, o eixo x representa o percentual de instâncias rotuladas inicialmente e o eixo y representa o percentual médio de instâncias incluídas no conjunto de dados rotulados durante o processo de rotulagem. As barras na cor vermelha indicam os 100% de instâncias rotuladas pelos métodos propostos, enquanto que as cores verde, azul, amarelo e marrom representam o método de limiar fixo usando os classificadores Naive Bayes, árvore de decisão, Ripper e k -NN, respectivamente.

Figura 15: Percentual médio de instâncias rotuladas usando os métodos de limiar fixo e os propostos

Analisando a Figura 15, observa-se que o ST Limiar fixo (gráfico da esquerda) cujo desempenho se aproxima dos métodos com limiar flexível, rotula aproximadamente 80% das instâncias utilizando o limiar fixo em 95%. Usando este mesmo valor de limiar, o método CT Limiar fixo (gráfico da direita) rotula no pior e melhor caso, respectivamente, 30% e 70% das instâncias do conjunto de dados não rotulados. Por outro lado, os métodos propostos, que utilizam limiar flexível, rotulam todo o conjunto de dados não rotulados e iniciam seu processo de rotulagem com o limiar em 95%, mas necessitam decrescer esse valor para conseguir incluir as instâncias remanescentes. Diante do exposto, é possível reafirmar que a pequena quantidade de instâncias rotuladas no CT Limiar fixo pode estar afetando positivamente a predição dos classificadores, devido à construção de um conjunto de treinamento formado apenas por instâncias cuja predição é confiável.

Adicionalmente, foi realizado um experimento amostral com o método FlexCon(s) no qual o processo de rotulagem é interrompido no momento em que não existir nenhuma nova instância a ser rotulada, em vez de rotular todas as instâncias do conjunto de dados não rotulados. As acurácias de tal experimento estão sendo mostradas na Tabela 5 na linha denominada FlexCon(s)-CP (acurácia média gerada a partir da Tabela 22 no Apêndice C). As demais linhas da referida tabela foram replicadas da tabela 4 para comparação dos

resultados. Os valores em negrito representam os casos em que o FlexCon(s)-CP alcançou acurácia superior ao CT Original e ao FlexCon(s), enquanto que as células sombreadas de amarelo refletem as situações em que o FlexCon(s)-CP obteve desempenho superior ao CT Limiar fixo.

Tabela 5: Acurácia média do FlexCon(s) usando critério de parada (co-training)

% instâncias rotuladas inicialmente

Método 5% 10% 15% 20% 25% Naive Bayes CT Original 59,90 ± 19,47 61,59 ± 18,89 62,75 ± 18,50 63,13 ± 18,67 63,89 ± 18,62 CT Limiar fixo 61,98 ± 17,72 64,34 ± 17,57 65,32 ± 17,90 65,89 ± 18,26 66,81 ± 17,45 FlexCon(s) 61,83 ± 19,01 63,64 ± 18,91 64,22 ± 18,53 65,23 ± 18,20 65,37 ± 18,40 FlexCon(s)-CP 63,21 ± 17,93 64,63 ± 17,80 65,48 ± 18,18 65,63 ± 18,37 65,93 ± 18,42 Árvore de decisão CT Original 59,63 ± 20,92 63,18 ± 20,10 65,90 ± 18,81 66,98 ± 18,22 68,43 ± 17,95 CT Limiar fixo 62,09 ± 19,99 68,66 ± 16,75 70,00 ± 15,74 71,03 ± 15,29 72,26 ± 14,79 FlexCon(s) 61,39 ± 20,54 67,45 ± 18,19 68,60 ± 17,73 69,81 ± 17,23 70,72 ± 16,35 FlexCon-CP 64,56 ± 19,53 69,49 ± 16,44 71,06 ± 15,66 71,45 ± 15,74 72,39 ± 15,04 Ripper CT Original 59,26 ± 16,78 63,19 ± 15,64 65,07 ± 15,91 66,64 ± 15,77 68,65 ± 15,87 CT Limiar fixo 64,07 ± 16,33 67,92 ± 15,30 69,63 ± 14,80 70,38 ± 14,29 71,66 ± 14,12 FlexCon(s) 62,70 ± 18,54 66,31 ± 17,86 67,00 ± 17,60 68,58 ± 17,04 69,52 ± 16,97 FlexCon(s)-CP 65,35 ± 16,90 67,85 ± 16,25 69,59 ± 14,98 70,20 ± 14,94 71,49 ± 14,23 k -NN CT Original 65,15 ± 17,88 69,04 ± 17,32 70,71 ± 17,05 72,25 ± 16,87 72,88 ± 17,01 CT Limiar fixo 70,28 ± 14,66 72,79 ± 14,06 74,41 ± 13,32 75,07 ± 13,27 75,66 ± 12,81 FlexCon(s) 68,49 ± 17,30 70,84 ± 16,03 72,34 ± 15,76 73,24 ± 15,26 73,93 ± 15,00 FlexCon(s)-CP 69,79 ± 16,26 72,35 ± 15,18 73,40 ± 14,74 74,22 ± 14,44 74,73 ± 14,16

Observando os dados da Tabela 5, percebe-se que o método FlexCon(s)-CP alcançou acurácia maior do que os métodos CT Original e FlexCon(s) em todos os casos (valo- res marcados em negrito). Além disso, o FlexCon(s)-CP obteve desempenho melhor do que o CT Limiar fixo em 3 e 5 dos 5 percentuais inicialmente rotulados usando Naive Bayes e Ripper, respectivamente (células sombreadas de amarelo). Nos demais casos, o Flexcon(s)-CP mostrou-se com desempenho semelhante ao CT Limiar fixo. Diante do exposto, conclui-se que os métodos propostos podem estar rotulando instâncias cuja con- fiança na predição seja muito baixa e por isso o seu desempenho não esteja sendo superior ao do CT Limiar fixo. No entanto, identifica-se um tradeoff em que os métodos propos- tos rotulam todas as instâncias do conjunto de dados não rotulado, embora diminua seu desempenho em relação ao CT Limiar fixo.

Fazendo uma análise dos resultados da Tabela 4 comparando apenas a acurácia dos métodos propostos sem considerar o CT Original e o CT Limiar fixo, é possível observar

que o FlexCon-C2, usando Naive Bayes, o FlexCon(v), utilizando árvore de decisão e Rip- per e o FlexCon-C1 (v) com k -NN, foram os que se mostraram com melhor desempenho. Em outras palavras, estes métodos obtiveram maior acurácia do que os demais na maioria dos 5 percentuais de instâncias inicialmente rotuladas.

Seguindo a mesma dinâmica do self-training, o desvio padrão apresentado na Tabela 4, foi calculado considerando a acurácia média das 30 bases de dados utilizadas nos expe- rimentos desta tese, sendo assim os altos valores podem ser justificados devido as bases de dados possuírem características diferentes e consequentemente desempenhos distintos. Além disso, percebe-se que utilizando os algoritmos Naive Bayes e Ripper o desvio padrão é semelhante para todos os percentuais de instâncias inicialmente rotuladas, enquanto que para Árvore de decisão e k -NN os valores são equivalentes quando os percentuais são mai- ores do que 5%.

A Figura 16 apresenta um gráfico que indica a quantidade de vezes que cada método alcançou o melhor desempenho, de acordo com cada percentual inicialmente rotulado e

Figura 16: Quantidade de vezes que cada método obteve maior desempenho em relação ao percentual inicialmente rotulado (co-training)

cada classificador. Analisando os dados de maneira geral, observa-se que o FlexCon(v) se destaca com a melhor acurácia em 9 de 20 casos, sendo 3 com NB, AD e Ripper (usando 5%), 2 com AD e k -NN (usando 10%), 2 com AD e 2 com Ripper (ambos utilizando 15% e 20%). Em seguida, o método FlexCon-C2 com o desempenho melhor em 5 dos 20 casos, o FlexCon-C1(v) em 4 casos, o FlexCon(s) com 2 casos e o FlexCon-C1(s) com 1 caso.

Seguindo a mesma lógica do self-training, para o co-training, também foram gerados gráficos, do tipo boxplot, produzidos a partir das 300 acurácias (10 repetições de cada uma das 30 bases de dados) alcançadas por cada método. Tais gráficos, foram organizados por método e são mostrados nas Figuras 17 e 18. Diante do exposto, cada gráfico possui as acurácias de um único método, separados por classificadores e percentuais de instâncias rotuladas no início do processo. Nestes gráficos, o eixo x contém o percentual de instâncias

rotuladas inicialmente (5%,10%,15%,20%,25%), e o eixo y são os valores das acurácias. Além disso, cada gráfico possui o desempenho dos quatro classificadores, estes foram separados por cores: vermelho, azul, amarelo e verde representam, respectivamente, Naive Bayes, árvore de decisão, Ripper e k -NN.

Figura 17: Desempenho do CT Original e CT limiar fixo para os quatro classificadores (co-training)

Analisando os gráficos citados acima, olhando para os percentuais inicialmente rotu- lados, constata-se que a conclusão é semelhante a do self-training, pois quanto maior o percentual, maior os valores das acurácias. Diante do exposto, é possível perceber que as maiores acurácias são obtidas usando 25% dos dados inicialmente rotulados, para todos os métodos (100% dos casos).

Adicionalmente, observa-se que os classificadores com maior diferença de acurácia do menor para o maior percentual de instâncias inicialmente rotuladas são a árvore de decisão e o Ripper, na maioria dos casos. Já o Naive Bayes e o k -NN têm desempenho semelhante para todos os percentuais de instâncias rotuladas no início do processo. Olhando agora os valores discrepantes, verifica-se que o Naive Bayes possui uma grande quantidade em todos os métodos e percentuais inicialmente rotulados, exceto no CT original e FlexCon- G. Já o k -NN obteve acurácias discrepantes nos métodos FlexCon-G, FlexCon(s e v) e FlexCon-C1(s e v).

Documentos relacionados