• Nenhum resultado encontrado

6 Resultados Experimentais

6.2 Análise Estatística

Após avaliar o desempenho de cada método utilizando Naive Bayes, árvore de decisão, Ripper e k -NN como algoritmos de classificação no procedimento de rotulagem, foi reali- zada uma análise estatística dos resultados. Como explicado anteriormente, os testes de Friedmann e post-hoc Nemenyi foram usados para comparar o desempenho de diferentes métodos aplicados a conjuntos de dados distintos.

O teste estatístico foi aplicado separadamente para os algoritmos self-training e co- training. No entanto, foram considerados cada percentual de instâncias inicialmente ro- tuladas e os quatro classificadores juntos com o intuito de facilitar a visualização dos resultados. Primeiramente, executou-se o teste de Friedmann no qual se observou que os desempenhos dos diferentes métodos são distintos de forma estatística. A diferença significativa foi detectada pelo teste de Friedmann, com p-valor < 0, 001, para todas as proporções dos dados inicialmente rotulados.

Diante da diferença estatística apresentada pelo teste de Friedmann, o teste pareado, post-hoc Nemenyi, foi então aplicado para comparar os diferentes métodos dois a dois em cada percentual inicialmente rotulado. O resultado deste teste será explicado nas próximas seções utilizando os diagramas de diferença crítica (do inglês, Critical difference diagram) apresentados nas Figuras 19 e 20. Os métodos localizados mais à esquerda são considerados melhores do que os da direita, do ponto de vista estatístico. Os métodos conectados pela barra horizontal são aqueles cujo desempenho é semelhante e por isso não possuem diferença estatística. Do contrário, os métodos que não são ligados pela barra horizontal são diferentes do ponto de vista estatístico e o método mais à esquerda é superior ao da direita.

6.2.1

Análise Estatística com o Algoritmo Self-Training

A Figura 19 apresenta os diagramas de diferença crítica obtidos a partir do teste es- tatístico post-hoc Nemenyi para o algoritmo self-training. Tal figura contém os diagramas separados por percentual de instâncias inicialmente rotuladas. A primeira observação que pode ser realizada nestes diagramas é que os métodos FlexCon e FlexCon-C obtiveram os melhores rankings, ou seja, aparecem mais à esquerda na maioria dos casos. O FlexCon-C2 destaca-se como superior do ponto de vista estatístico, pois está sempre à esquerda do diagrama e possui diferença crítica em relação a pelo menos um dos métodos em 4 dos 5 percentuais de instâncias inicialmente rotuladas. Além disso, este método alcançou o me-

Figura 19: Resultado estatístico dos métodos por percentual de instâncias inicialmente rotuladas (self-training)

nor ranking quando utilizou os menores percentuais de instâncias inicialmente rotuladas (5%, 10% e 15%).

Analisando os diagramas da referida figura, observa-se que a diferença entre todos os métodos e o original são estatisticamente significantes em todos os percentuais de instâncias inicialmente rotuladas, exceto o FlexCon-G com 5%, 15% e 25%. Considerando o desempenho estatístico dos métodos propostos em relação ao método de limiar fixo, verifica-se que os propostos estão sempre posicionados mais à esquerda. Isto significa que os métodos propostos possuem melhor ranking do que o limiar fixo, embora sejam estatisticamente semelhantes.

6.2.2

Análise Estatística com o Algoritmo Co-Training

A Figura 20 apresenta os diagramas de diferença crítica obtidos a partir do teste estatístico post-hoc Nemenyi para o algoritmo co-training. Assim como no self-training, os diagramas estão separados por percentual de instâncias inicialmente rotuladas. Analisando os diagramas da referida figura, observa-se que a diferença entre todos os métodos e o original são estatisticamente significantes, exceto o FlexCon-G com 5% e 20%.

Olhando para o diagrama que utiliza 5% de instâncias inicialmente rotuladas, constata- se que o método FlexCon (s e v) é estatisticamente semelhante ao método de limiar fixo. Este pode ser considerado um bom resultado, pois além desta semelhança, o FlexCon se adaptou bem, do ponto de vista estatístico, usando poucas instâncias inicialmente rotu- ladas. Conforme justificado anteriormente, o método que usa limiar fixo alcançou melhor desempenho do que os demais, devido rotular poucas instâncias. Sendo assim, o seu con- junto de treinamento pode ser formado apenas por instâncias com alta confiabilidade. Da mesma maneira, justifica-se a obtenção de uma boa posição no ranking do teste estatístico. Corroborando a análise de desempenho realizada anteriormente, apesar do limiar fixo obter melhor desempenho estatístico, é possível notar que os métodos FlexCon e FlexCon- C, em todos os diagramas, obtiveram bons valores de ranking, ou seja, foram posicionados à esquerda do diagrama.

6.3

Considerações Finais

Neste capítulo foram apresentados e discutidos os resultados dos experimentos reali- zados de acordo com as configurações descritas no Capítulo 5. Tais experimentos aplicam,

Figura 20: Resultado estatístico dos métodos por percentual de instâncias inicialmente rotuladas (co-training)

aos algoritmos self-training e co-training, os métodos de aprendizado de máquina semis- supervisionado propostos neste trabalho. A análise experimental foi realizada sob duas perspectivas, inicialmente foi avaliado o desempenho de cada método, a partir da acurácia e desvio padrão, utilizando os algoritmos self-training e co-training. Por conseguinte, foi efetuada a análise estatística separada em duas seções: a primeira trata dos resultados com o algoritmo self-training e a segunda com o co-training.

Os resultados (acurácia e desvio padrão) provenientes da aplicação do self-training mostraram que, com os classificadores Naive Bayes e k -NN, todos os métodos alcançaram melhor desempenho do que o ST Original. Ademais, a maioria dos métodos, 68,33% (82 de 120), obtiveram acurácia maior do que o ST Limiar fixo. Por outro lado, utilizando o co-training, todos os quatro classificadores obtiveram desempenho melhor do que o ST Original.

A avaliação do ponto de vista estatístico foi realizada utilizando o teste de Friedmann e o post-hoc Nemenyi, que comparou os métodos propostos aos originais separando por percentual de instâncias inicialmente rotuladas. A partir desta investigação observou- se que os métodos propostos são melhores do ponto de vista estatístico na maioria dos casos. Resumindo, os resultados apresentados nesta tese são promissores, uma vez que os métodos propostos, obtiveram um desempenho melhor do que os métodos originais e limiar fixo, na maioria dos casos, tanto em relação a acurácia e desvio padrão quanto na análise estatística.

Documentos relacionados