• Nenhum resultado encontrado

4.5 Interface com o Usuário

5.4.1 Testes com Variações de Parâmetros no Pré-Processamento

5.4.1.1 Precisão

A precisão é determinada pela relação entre o número de documentos classificados de forma correta em uma determinada classe e o número de documentos classificados (corretamente ou não) naquela classe. A Precisão é usada para verificar a qualidade dos resultados, é uma medida de fidelidade. Quanto maior a precisão, mais precisamente a regra será correta para os exemplos da classe.

A Precisão foi utilizada como uma das métricas para avaliar o impacto da variação de parâmetros no pré-processamento dos dados. Por ser uma métrica que não captura a eficácia de um classificador, quando os dados de teste não estão balanceados, será possível visualizar a diferença do desempenho apresentado pelas métricas: Precisão e Área sob a Curva ROC. Os testes feitos com a utilização das quatro especificações de pré-processamento para os cinco algoritmos de classificação citados no inicio da subseção, primeiramente usaram as três maiores classes, quanto ao número de depoimentos colhidos (Figura 5.1). As classes são: Anorexia, Autismo e Toc (com 47, 52 e 46 documentos respectivamente, totalizando 145 arquivos textuais). Ao aplicar os quatro tipos de configurações de pré-processamento citados na Tabela 5.2, com o uso dos respectivos algoritmos de classificação, Árvore de Decisão (J48), KNN (IBK), Naive Bayes, Random Forest e SVM (SMO), foram obtidas as seguintes Matrizes de Confusão (para três classes):

Como pode ser visto na Figura 5.2, os melhores resultados são conseguidos com o uso das configurações dos pré-processamento PP1 e PP4. Em ambos é feita a análise de frequência

5.4. METODOLOGIA DE EXPERIMENTOS 59

Figure 5.1: Precisão dos Algoritmos de Classificação com o Uso de Três Classes (Autoria Própria).

Figure 5.2: Matrizes de Confusão do Algoritmo J48 (Autoria Própria).

5.4. METODOLOGIA DE EXPERIMENTOS 60

das palavras, a conversão das letras para minúsculas, a toquenização e a remoção de stopwords. A diferença entre as configurações de pré-processamento PP1 e PP4, que apresentaram os melhores resultados para esse caso específico, está no uso do stemming. A configuração do pré-processamento PP4 faz uso dessa técnica e a do PP1 não. Porém, o stemming não interviu no resultado da matriz de confusão referente a essas duas opções de configurações de pré- processamento. Nos testes com algoritmo de classificação Árvore de Decisão, o pior resultado foi obtido com a configuração do pré-processamento PP3, que usou apenas a técnica de toquenização.

Os resultados das técnicas de pré-processamento usadas para a classificação com o algoritmo KNN são mostradas nas matrizes de confusão (Figura 5.3). Como visto, independente da configuração de pré-processamento aplicada, todos os resultados do KNN, com o uso da Distância Euclidiana, foram inferiores aos do algoritmo Árvore de Decisão. O pior resultado alcançado para as predições das classes Anorexia e Autismo foi com a configuração do pré- processamento PP4. Porém, para predição da classe Toc, as configurações de pré-processamento inferiores foram PP1 e PP3, com resultados iguais.

Figure 5.4: Matrizes de Confusão do Algoritmo Naive Bayes (Autoria Própria).

O algoritmo Naive Bayes, em geral, apresentou resultados inferiores ao algoritmo Árvore de Decisão e superiores ao KNN (Figura 5.4). O número de acertos do algoritmo Naive Bayes nas classes Anorexia e Autismo é menor do que os presentes nos resultados da Árvore de Decisão. Apenas em relação a classe Toc, o número de acertos do Naive Bayes é inferiores ao número de acertos do algoritmo KNN.

Os resultados conseguidos com o algoritmo Random Forest foram muito bons em comparação ao Naive Bayes e KNN (Figura 5.5). Em confronto com Árvore de Decisão, o Random Forestteve desempenho igual nas classes Autismo e Toc com a configuração de pré- processamento PP4, e superior na classe Toc com a de PP1 e Autismo com a de PP3. As configurações de pré-processamento mais eficientes nessa execução, assim como na Árvore de Decisão, foram as de PP1 e PP4. A configuração do pré-processamento PP4 faz uso do stemming e, em contraposição as configurações de PP1, teve mais acertos na classe Autismo e mais erros

5.4. METODOLOGIA DE EXPERIMENTOS 61

Figure 5.5: Matrizes de Confusão do Algoritmo Random Forest (Autoria Própria).

nas classes Anorexia e Toc.

Figure 5.6: Matrizes de Confusão do Algoritmo SVM (Autoria Própria).

O algoritmo SVM se mostrou o mais eficiente nos testes de classificação de texto (Figura 5.6). Nas configurações de pré-processamento PP1, PP2 e PP4 houve apenas um único erro de predição na classe Anorexia. Usando a configuração PP3 que não usa as técnicas de análise de frequência de palavras, conversão de letras para minúsculas, remoção de stopwords e stemming, ocorreram seis erros de predição ao total, três na classe Anorexia, dois na classe Autismo e um na classe Toc.

Em seguida, foram feitos os mesmos testes (de variações das especificações na fase de pré-processamento) com o acréscimo de uma classe Figura 5.7, denominada Esquizofrenia (com 23 documentos). A adição dessa classe com menor número de depoimentos contribuiu para diminuição do valor da precisão, nas quatro especificações de pré-processamento testadas nos cinco algoritmos, diminuindo assim o desempenho do classificador.

5.4. METODOLOGIA DE EXPERIMENTOS 62

Figure 5.7: Precisão dos Algoritmos de Classificação com o Uso de Quatro Classes (Autoria Própria).

configurações de pré-processamentos que obtiveram melhor desempenho, tanto com o uso de 3 classes como de 4 classes, foram PP1 e PP4, ou seja, a utilização das técnicas de análise da frequência de palavras, conversão das letras para minúsculas, remoção de stopwords e stemming contribuíram para o melhor desempenho dos algoritmos de classificação. Apenas para a utilização do algoritmo KNN, que possui o pior desempenho nos testes realizados, PP2 e PP3 mostraram valores superiores.

Documentos relacionados