5. EXPERIMENTOS REALIZADOS E ANÁLISE DOS RESULTADOS
5.1. EXPERIMENTOS REALIZADOS
5.1.5. EXPERIMENTOS COM A BASE QUE UTILIZA A MINERAÇÃO DE TEXTOS
Nesta etapa dos experimentos os algoritmos são executados com o conjunto de dados enriquecido pela Mineração de Textos e onde se utiliza a ponderação dos termos dada pela frequência. Na Figura 21 são apresentados os resultados obtidos para os diferentes algoritmos de classificação nessa situação.
Figura 21 – Acurácia obtida na base com Mineração de Textos e ponderada pela Frequência dos Termos
A seguir são apresentadas as matrizes de confusão dos algoritmos e suas medidas de precisão.
A Tabela 13 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo algoritmo SVM.
58,41% 69,17% 75,54% 80,03% 80,11% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% MLP k-NN Naïve Bayes J48 SVM
TF
Tabela 13 – Matriz de confusão obtida pelo algoritmo SVM na base com Mineração de Textos e ponderada pela Frequência dos Termos
SVM Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 4544 456
Migrou 1533 3467
A Tabela 14 apresenta três medidas de desempenho do algoritmo SVM, permitindo a visualização dos resultados obtidos.
Tabela 14 - Medidas de desempenho do algoritmo SVM na base com Mineração de Textos e ponderada pela Frequência dos Termos
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,909 0,307 0,748
Migrou 0,693 0,091 0,884
Média 0,801 0,199 0,816
A Tabela 15 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo algoritmo J48. Tabela 15 - Matriz de confusão obtida pelo algoritmo Árvore de Decisão J48 na base
com Mineração de Textos e ponderada pela Frequência dos Termos
J48 Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 4311 689
Migrou 1308 3692
A Tabela 16 apresenta três medidas de desempenho do algoritmo J48, permitindo a visualização dos resultados obtidos.
Tabela 16 - Medidas de desempenho do algoritmo j48 na base com Mineração de Textos e ponderada pela Frequência dos Termos
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,862 0,262 0,767
Migrou 0,738 0,138 0,843
Média 0,800 0,200 0,805
A Tabela 17 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo Naïve Bayes.
Tabela 17 - Matriz de confusão obtida pelo algoritmo Naïve Bayes na base com Mineração de Textos e ponderada pela Frequência dos Termos
Naïve Bayes Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 4281 719
Migrou 1727 3273
A Tabela 18 apresenta três medidas de desempenho do algoritmo Naïve Bayes, permitindo a visualização dos resultados obtidos.
Tabela 18 - Medidas de desempenho obtidas pelo algoritmo Naïve Bayes na base com Mineração de Textos e ponderada pela frequência dos termos
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,856 0,345 0,713
Migrou 0,655 0,144 0,820
Média 0,755 0,245 0,766
A Tabela 19 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo algoritmo K-NN.
Tabela 19 - Matriz de confusão obtida pelo K-NN na base com Mineração de Textos e ponderada pela frequência dos termos
K-NN Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 4503 497
Migrou 2586 2414
A Tabela 20 apresenta três medidas de desempenho do algoritmo K-NN, permitindo a visualização dos resultados obtidos.
Tabela 20 - Medidas de desempenho obtidas pelo algoritmo K-NN na base com Mineração de Textos e ponderada pela Frequência dos Termos
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,901 0,517 0,635
Migrou 0,483 0,099 0,829
Média 0,692 0,308 0,732
A Tabela 21 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo algoritmo Redes Neurais MLP.
Tabela 21 - Matriz de confusão obtida pelo algoritmo Rede Neural MLP na base com Mineração de Textos e ponderada pela frequência dos termos
MLP Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 3342 1658
Migrou 2501 2499
A Tabela 22 apresenta três medidas de desempenho da Rede Neural MLP, permitindo a visualização dos resultados obtidos.
Tabela 22 - Medidas de desempenho da Rede Neural MLP na base com Mineração de Textos e ponderada pela Frequência dos Termos
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,668 0,500 0,572
Migrou 0,500 0,332 0,601
Média 0,584 0,416 0,587
5.1.6. EXPERIMENTOS COM A BASE QUE UTILIZA A MINERAÇÃO DE TEXTOS E FOI PONDERADA POR TF-IDF
Outro meio de avaliar a base que possui dados textuais é ponderando-a com outras métricas. Nessa seção são apresentados os resultados da execução dos algoritmos com a base enriquecida e ponderada pelo método TF-IDF.
Figura 22 – Acurácia obtida na base enriquecida e ponderada por TF-IDF A Tabela 23 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtida pelo algoritmo J48.
70,71% 76,34% 79,21% 80,56% 80,70% 64,00% 66,00% 68,00% 70,00% 72,00% 74,00% 76,00% 78,00% 80,00% 82,00% MLP k-NN Naïve Bayes SVM J48
TF-IDF
Tabela 23 - Matriz de confusão obtida pelo algoritmo Árvore de Decisão J48 na base com Mineração de Textos e ponderada por TF-IDF
J48 Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 4356 644
Migrou 1286 3714
A Tabela 24 apresenta três medidas de desempenho do algoritmo J48, permitindo a visualização dos resultados obtidos.
Tabela 24 - Medidas de desempenho obtidas pelo algoritmo J48 na base com Mineração de Textos e ponderada por TF-IDF
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,871 0,257 0,772
Migrou 0,743 0,129 0,852
Média 0,807 0,193 0,812
A Tabela 25 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtida pelo algoritmo SVM.
Tabela 25 – Matriz de confusão obtida pelo algoritmo SVM na base com Mineração de Textos e ponderada por TF-IDF
SVM Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 4470 530
Migrou 1414 3586
A Tabela 26 apresenta três medidas de desempenho do algoritmo SVM, permitindo a visualização dos resultados obtidos.
Tabela 26 - Medidas de desempenho obtidas pelo algoritmo SVM na base com Mineração de Textos e ponderada por TF-IDF
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,894 0,283 0,760
Migrou 0,717 0,106 0,871
Média 0,806 0,194 0,815
A Tabela 27 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtida pelo algoritmo Naïve Bayes.
Tabela 27 - Matriz de confusão obtida pelo algoritmo Naïve Bayes na base com Mineração de Textos e ponderada por TF-IDF
Naïve Bayes Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 4250 750
Migrou 1329 3671
A Tabela 28 apresenta três medidas de desempenho do algoritmo Naïve Bayes, permitindo a visualização dos resultados obtidos.
Tabela 28 - Medidas de desempenho obtidas pelo algoritmo Naïve Bayes na base com Mineração de Textos e ponderada por TF-IDF
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,850 0,266 0,762
Migrou 0,734 0,150 0,830
Média 0,792 0,208 0,796
A Tabela 29 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtidas pelo algoritmo K-NN.
Tabela 29 - Matriz de confusão obtida pelo algoritmo K-NN na base com Mineração de Textos e ponderada por TF-IDF
K-NN Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 4669 331
Migrou 2035 2965
A Tabela 30 apresenta três medidas de desempenho do algoritmo K-NN, permitindo a visualização dos resultados obtidos.
Tabela 30 - Medidas de desempenho obtidas pelo algoritmo K-NN na base com Mineração de Textos e ponderada por TF-IDF
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,934 0,407 0,696
Migrou 0,593 0,066 0,900
Média 0,763 0,237 0,798
A Tabela 31 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtida pelo algoritmo redes neurais MLP.
Tabela 31 - Matriz de confusão obtida pela Rede Neural MLP na base com Mineração de Textos e ponderada por TF-IDF
MLP Classes previstas
Não Migrou Migrou
Classes corretas Não Migrou 3957 1043
Migrou 1886 3114
A Tabela 32 apresenta três medidas de desempenho da rede neural MLP, permitindo a visualização dos resultados obtidos.
Tabela 32 - Medidas de desempenho obtidas pela Rede Neural MLP na base enriquecida e ponderada por TF-IDF
Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão
Não Migrou 0,791 0,377 0,677
Migrou 0,623 0,209 0,749
Média 0,707 0,293 0,713
Para finalizar a Tabela 33 apresenta um resumo das precisões obtidas nos experimentos pelos diversos algoritmos nas diferentes bases: (1) inicial, (2) enriquecida pela Mineração de Textos e ponderada por TF e (3) enriquecida pela Mineração de Textos e ponderada por TF-IDF.
Tabela 33 - Tabela comparativa das precisões médias dos resultados
Neural Rede K-NN Naïve Bayes SVM J48
Base sem Mineração de
Textos 0,684 0,664 0,745 0,739 0,767
Base com Mineração de Textos e Ponderada pela
Frequência dos Termos 0,587 0,732 0,766 0,816 0,805
Base com Mineração de Textos e Ponderada por TF-
IDF 0,713 0,798 0,796 0,815 0,812