• Nenhum resultado encontrado

EXPERIMENTOS COM A BASE QUE UTILIZA A MINERAÇÃO DE TEXTOS

5. EXPERIMENTOS REALIZADOS E ANÁLISE DOS RESULTADOS

5.1. EXPERIMENTOS REALIZADOS

5.1.5. EXPERIMENTOS COM A BASE QUE UTILIZA A MINERAÇÃO DE TEXTOS

Nesta etapa dos experimentos os algoritmos são executados com o conjunto de dados enriquecido pela Mineração de Textos e onde se utiliza a ponderação dos termos dada pela frequência. Na Figura 21 são apresentados os resultados obtidos para os diferentes algoritmos de classificação nessa situação.

Figura 21 – Acurácia obtida na base com Mineração de Textos e ponderada pela Frequência dos Termos

A seguir são apresentadas as matrizes de confusão dos algoritmos e suas medidas de precisão.

A Tabela 13 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo algoritmo SVM.

58,41% 69,17% 75,54% 80,03% 80,11% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% MLP k-NN Naïve Bayes J48 SVM

TF

Tabela 13 – Matriz de confusão obtida pelo algoritmo SVM na base com Mineração de Textos e ponderada pela Frequência dos Termos

SVM Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 4544 456

Migrou 1533 3467

A Tabela 14 apresenta três medidas de desempenho do algoritmo SVM, permitindo a visualização dos resultados obtidos.

Tabela 14 - Medidas de desempenho do algoritmo SVM na base com Mineração de Textos e ponderada pela Frequência dos Termos

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,909 0,307 0,748

Migrou 0,693 0,091 0,884

Média 0,801 0,199 0,816

A Tabela 15 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo algoritmo J48. Tabela 15 - Matriz de confusão obtida pelo algoritmo Árvore de Decisão J48 na base

com Mineração de Textos e ponderada pela Frequência dos Termos

J48 Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 4311 689

Migrou 1308 3692

A Tabela 16 apresenta três medidas de desempenho do algoritmo J48, permitindo a visualização dos resultados obtidos.

Tabela 16 - Medidas de desempenho do algoritmo j48 na base com Mineração de Textos e ponderada pela Frequência dos Termos

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,862 0,262 0,767

Migrou 0,738 0,138 0,843

Média 0,800 0,200 0,805

A Tabela 17 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo Naïve Bayes.

Tabela 17 - Matriz de confusão obtida pelo algoritmo Naïve Bayes na base com Mineração de Textos e ponderada pela Frequência dos Termos

Naïve Bayes Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 4281 719

Migrou 1727 3273

A Tabela 18 apresenta três medidas de desempenho do algoritmo Naïve Bayes, permitindo a visualização dos resultados obtidos.

Tabela 18 - Medidas de desempenho obtidas pelo algoritmo Naïve Bayes na base com Mineração de Textos e ponderada pela frequência dos termos

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,856 0,345 0,713

Migrou 0,655 0,144 0,820

Média 0,755 0,245 0,766

A Tabela 19 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo algoritmo K-NN.

Tabela 19 - Matriz de confusão obtida pelo K-NN na base com Mineração de Textos e ponderada pela frequência dos termos

K-NN Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 4503 497

Migrou 2586 2414

A Tabela 20 apresenta três medidas de desempenho do algoritmo K-NN, permitindo a visualização dos resultados obtidos.

Tabela 20 - Medidas de desempenho obtidas pelo algoritmo K-NN na base com Mineração de Textos e ponderada pela Frequência dos Termos

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,901 0,517 0,635

Migrou 0,483 0,099 0,829

Média 0,692 0,308 0,732

A Tabela 21 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada pela frequência dos termos obtida pelo algoritmo Redes Neurais MLP.

Tabela 21 - Matriz de confusão obtida pelo algoritmo Rede Neural MLP na base com Mineração de Textos e ponderada pela frequência dos termos

MLP Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 3342 1658

Migrou 2501 2499

A Tabela 22 apresenta três medidas de desempenho da Rede Neural MLP, permitindo a visualização dos resultados obtidos.

Tabela 22 - Medidas de desempenho da Rede Neural MLP na base com Mineração de Textos e ponderada pela Frequência dos Termos

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,668 0,500 0,572

Migrou 0,500 0,332 0,601

Média 0,584 0,416 0,587

5.1.6. EXPERIMENTOS COM A BASE QUE UTILIZA A MINERAÇÃO DE TEXTOS E FOI PONDERADA POR TF-IDF

Outro meio de avaliar a base que possui dados textuais é ponderando-a com outras métricas. Nessa seção são apresentados os resultados da execução dos algoritmos com a base enriquecida e ponderada pelo método TF-IDF.

Figura 22 – Acurácia obtida na base enriquecida e ponderada por TF-IDF A Tabela 23 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtida pelo algoritmo J48.

70,71% 76,34% 79,21% 80,56% 80,70% 64,00% 66,00% 68,00% 70,00% 72,00% 74,00% 76,00% 78,00% 80,00% 82,00% MLP k-NN Naïve Bayes SVM J48

TF-IDF

Tabela 23 - Matriz de confusão obtida pelo algoritmo Árvore de Decisão J48 na base com Mineração de Textos e ponderada por TF-IDF

J48 Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 4356 644

Migrou 1286 3714

A Tabela 24 apresenta três medidas de desempenho do algoritmo J48, permitindo a visualização dos resultados obtidos.

Tabela 24 - Medidas de desempenho obtidas pelo algoritmo J48 na base com Mineração de Textos e ponderada por TF-IDF

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,871 0,257 0,772

Migrou 0,743 0,129 0,852

Média 0,807 0,193 0,812

A Tabela 25 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtida pelo algoritmo SVM.

Tabela 25 – Matriz de confusão obtida pelo algoritmo SVM na base com Mineração de Textos e ponderada por TF-IDF

SVM Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 4470 530

Migrou 1414 3586

A Tabela 26 apresenta três medidas de desempenho do algoritmo SVM, permitindo a visualização dos resultados obtidos.

Tabela 26 - Medidas de desempenho obtidas pelo algoritmo SVM na base com Mineração de Textos e ponderada por TF-IDF

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,894 0,283 0,760

Migrou 0,717 0,106 0,871

Média 0,806 0,194 0,815

A Tabela 27 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtida pelo algoritmo Naïve Bayes.

Tabela 27 - Matriz de confusão obtida pelo algoritmo Naïve Bayes na base com Mineração de Textos e ponderada por TF-IDF

Naïve Bayes Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 4250 750

Migrou 1329 3671

A Tabela 28 apresenta três medidas de desempenho do algoritmo Naïve Bayes, permitindo a visualização dos resultados obtidos.

Tabela 28 - Medidas de desempenho obtidas pelo algoritmo Naïve Bayes na base com Mineração de Textos e ponderada por TF-IDF

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,850 0,266 0,762

Migrou 0,734 0,150 0,830

Média 0,792 0,208 0,796

A Tabela 29 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtidas pelo algoritmo K-NN.

Tabela 29 - Matriz de confusão obtida pelo algoritmo K-NN na base com Mineração de Textos e ponderada por TF-IDF

K-NN Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 4669 331

Migrou 2035 2965

A Tabela 30 apresenta três medidas de desempenho do algoritmo K-NN, permitindo a visualização dos resultados obtidos.

Tabela 30 - Medidas de desempenho obtidas pelo algoritmo K-NN na base com Mineração de Textos e ponderada por TF-IDF

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,934 0,407 0,696

Migrou 0,593 0,066 0,900

Média 0,763 0,237 0,798

A Tabela 31 apresenta a matriz de confusão do experimento com a base enriquecida e ponderada por TF-IDF obtida pelo algoritmo redes neurais MLP.

Tabela 31 - Matriz de confusão obtida pela Rede Neural MLP na base com Mineração de Textos e ponderada por TF-IDF

MLP Classes previstas

Não Migrou Migrou

Classes corretas Não Migrou 3957 1043

Migrou 1886 3114

A Tabela 32 apresenta três medidas de desempenho da rede neural MLP, permitindo a visualização dos resultados obtidos.

Tabela 32 - Medidas de desempenho obtidas pela Rede Neural MLP na base enriquecida e ponderada por TF-IDF

Classe Taxa de verdadeiro positivo Taxa de falso positivo Precisão

Não Migrou 0,791 0,377 0,677

Migrou 0,623 0,209 0,749

Média 0,707 0,293 0,713

Para finalizar a Tabela 33 apresenta um resumo das precisões obtidas nos experimentos pelos diversos algoritmos nas diferentes bases: (1) inicial, (2) enriquecida pela Mineração de Textos e ponderada por TF e (3) enriquecida pela Mineração de Textos e ponderada por TF-IDF.

Tabela 33 - Tabela comparativa das precisões médias dos resultados

Neural Rede K-NN Naïve Bayes SVM J48

Base sem Mineração de

Textos 0,684 0,664 0,745 0,739 0,767

Base com Mineração de Textos e Ponderada pela

Frequência dos Termos 0,587 0,732 0,766 0,816 0,805

Base com Mineração de Textos e Ponderada por TF-

IDF 0,713 0,798 0,796 0,815 0,812

Documentos relacionados