Comparativo na tarefa de classificação de polaridades

FRAMEWORK DE EXPANSÃO DE RECURSOS

5.1.1 Comparativo na tarefa de classificação de polaridades

Usamos os classificadores apresentados naSubseção 4.2.3 para avaliar o TTsBR em comparação aos demais córpus já existentes. Primeiramente avaliamos cada método sobre o TTsBR para avaliar qual a média de F-Measure obtida na classificação de polaridades.

Os experimentos mostrados naTabela 14apresentam valores de F1 para cada classe, sendo que os experimentos foram feitos usando os subconjuntos de treino e teste discutidos na

Subseção 4.1.4.

Tabela 14 – Avaliação do TTsBR na classificação de polaridades em três classes usando configuração Treino/Teste.

Classificador F-Pos F-Neu F-Neg F-Measure SVM 73.3 47.2 62.2 60.89 Naive Bayes 70.4 48.2 58.8 59.12 Regressor Logístico 76.6 51.7 66.3 64.87 Multilayer Perceptron 76.3 51.9 65.6 64.60 Árvore de Decisão 67.8 40.3 55.4 54.50 Random Forest 74.9 43.2 68.4 62.18

Fonte: Elaborada pelo autor.

O classificador que obteve os melhores resultados foi o que usa Regressão Logística, atingindo 64% na classificação com três classes, porém a Multilayer Perceptron (MLP) também chegou a resultados semelhantes.

A classe neutra obteve os piores resultados de F-Measure com todos os classificadores. Isso pode indicar a complexidade que a presença da classe neutra adiciona à tarefa de clas- sificação de polaridades. Comparando os resultados com três classes aos obtidos somente na classificação binária, apresentados na Tabela 15, observamos uma diferença média de 18% a mais na classificação binária.

Essa diferença vai ao encontro de outros experimentos obtidos na literatura, como os valores de estado-da-arte na classificação de polaridades no inglês, onde o maior valor obtido na classificação binária foi 89, 9% enquanto a avaliação com cinco classes obtêm 52, 4% (ZHOU et al.,2016).

Tabela 15 – Avaliação do TTsBR na classificação binária de polaridades usando configuração Treino/Teste.

Classificador F-Pos F-Neg F-Measure SVM 84, 4 74.7 79, 57 Naive Bayes 81, 4 70, 4 75, 92 Regressor Logístico 86, 4 77, 5 81, 95 Multilayer Perceptron 87,0 79,2 83,11 Árvore de Decisão 80, 9 70, 0 75, 43 Random Forest 74.9 78, 4 82, 85

Fonte: Elaborada pelo autor.

Na classificação binária, o método que obteve melhores resultados foi a MLP, sendo que resultados semelhantes foram obtidos com Random Forest e com Regressão Logística. Esses resultados ficam próximos dos obtidos na literatura em trabalhos no Twitter, como emAlves et al.(2014), que obteve F-Measure de 80% no córpus da Copa das Confederações.Moraes et al.

(2016) também usou o Twitter como base de dados, porém sua avaliação foi feita com medida de acurácia, o que não avaliamos em nossos experimentos, pois essa medida só deve ser utilizada com córpus balanceados.

Para comparar mais precisamente as avaliações de córpus, utilizamos nossos classificadores para avaliar todos os córpus da literatura sob os mesmos ambientes. Para esse comparativo não utilizamos os subconjuntos de treino e teste do TTsBR, mas o 10-fold cross validation. A utilização de um córpus único de avaliação para todos os modelos afetaria diretamente córpus de domínios e gêneros diferentes do conjunto de avaliação, o que fugiria da proposta desse experimento, que é somente observar a classificação de cada córpus da literatura em seu próprio domínio.

Primeiramente avaliamos o único córpus que possui anotação da classe neutra - o ReLi. ATabela 16apresenta os resultados obtidos em ambos os córpus ressaltando os maiores valores obtidos em cada um. A distribuição de F-Measure das classes difere entre os córpus: enquanto o TTsBR obtém os maiores valores de F-Measure para as duas classes polares, mas os menores para a classe neutra (semelhante aos obtidos naTabela 14).

Enquanto a diferença de documentos entre as classes minoritária (negativa) e demais pode justificar os baixos valores obtidos no ReLi, a diferença no TTsBR não é tão significativa - a classe neutra só contém 500 tweets a menos que a negativa, enquanto a diferença entre F-Measureé de quase 20% em alguns classificadores.

Como já citado anteriormente, uma das possíveis razões para esse comportamento na classificação é a ausência de features discriminativas para a classe neutra. A literatura possui uma carência grande no estudo de tal segmento, portanto o uso de algum modelo de representação que consiga discriminar neutralidade para os classificadores pode ser muito relevante na análise de três classes.

5.1. Experimentos com o TTsBR 85

Tabela 16 – Classificação de polaridades em três classes com os córpus ReLi e TTsBR.

TTsBR ReLi

Classificador F-Pos F-Neu F-Neg F-Measure F-Pos F-Neu F-Neg F-Measure SVM 70, 7 44, 5 60, 7 59, 23 58, 4 85, 4 26,3 56, 75 Naive Bayes 68, 7 44, 1 56, 2 56, 36 55, 4 84, 6 24, 6 54, 88 Regressor Logístico 73, 6 46,3 63, 1 61, 06 60,0 87,8 22, 4 56,78 Multilayer Perceptron 74,1 45, 5 63,9 61,23 58, 1 87, 6 15, 2 53, 65 Árvore de Decisão 66, 7 42, 8 54, 5 54, 73 49, 4 83, 0 15, 5 49, 34 Random Forest 73, 6 41, 5 64, 1 59, 77 48, 2 87, 2 5, 8 47, 10

Fonte: Elaborada pelo autor.

Em seguida apresentamos os resultados obtidos com a classificação binária dos dados. A mesma configuração de 10-fold cross validation foi utilizada para esses experimentos, sendo que os córpus ReLi e TTsBR foram limitados a suas classes polares.

Além disso, os experimentos usando o córpus Pelesent foram feitos usando como repre- sentação word-embeddings com 600 dimensões, como descrito naSubseção 4.2.2. Utilizamos essa representação por questões de recursos computacionais disponíveis, visto que a utilização de bag-of-words consome oito vezes mais memória que as word-embeddings de tamanho fixo, tornando inviável o armazenamento em memória das centenas de milhares de documentos que o córpus Pelesent é constituído.

Tabela 17 – Comparação de classificação de córpus usando SVM com duas classes.

Córpus F-Pos F-Neg F-Measure Buscapé-1 82,95 82,39 82,67 Buscapé-2 83,89 83,26 83,58 Mercado Livre 93,28 93,13 93,20 Eleições Dilma 94,22 85,97 90,09 Eleições Serra 89,03 98,22 93,63 Pelesent* 78,37 69,59 73,98 Reli 91,35 51,54 71,45 TTsBR 82,37 72,99 77,68

Fonte: Elaborada pelo autor.

ATabela 17apresenta os resultados obtidos com o classificador SVM. Os córpus que obtiveram os melhores valores de F-Measure foram os das Eleições Presidenciais - isso se repetiu nos demais classificadores, portanto acreditamos ser indício de que as features utilizadas são eficientes na divisão do espaço para a classificação de polaridades.

Os resultados obtidos com o SVM no córpus Mercado Livre ficaram 2% abaixo dos relatados emAvanço, Brum e Nunes(2016) usando o mesmo classificador aliado a um classificador baseado em léxico. Optamos por não utilizar a abordagem híbrida por conta da próxima

etapa do framework, onde precisamos inserir a classe neutra na classificação. A inserção de uma nova classe demandaria novas regras linguísticas para a identificação da classe neutra, portanto utilizamos exclusivamente classificadores baseados em AM.

É possível também observar a diferença entre o TTsBR e o ReLi quando avaliados em duas e três classes (Tabela 16), como o aumento considerável da F1 obtida na classe negativa do córpus ReLi.

Usando o classificador Naive Bayes, obtivemos valores inferiores aos do SVM em cerca de 8%, como demonstra aTabela 18. Essa redução é observada igualmente nos trabalhos da literatura (AVANÇO,2015;ALVES et al.,2014). A incerteza do Naive Bayes aumentou a lacuna nos córpus balanceados (Buscapé-1, Buscapé-2 e Mercado Livre), algo não tão agravado usando SVM.

Tabela 18 – Comparação de classificação de córpus usando Naive Bayes com duas classes.

Córpus F-Pos F-Neg F-Measure Buscapé-1 76,59 73,32 74,95 Buscapé-2 77,89 73,95 75,92 Mercado Livre 84,10 82,79 83,44 Eleições Dilma 89,94 75,15 82,54 Eleições Serra 67,42 93,44 80,43 Pelesent 66,14 63,00 64,57 Reli 90,14 42,02 66,08 TTsBR 80,06 69,03 74,54

Fonte: Elaborada pelo autor.

ATabela 19apresenta os resultados obtidos com a Regressão Logística. Esse método obteve os melhores resultados emJunior et al.(2017) na tarefa de classificação de polaridade em cross-domain(onde os córpus de treino e teste são de domínios diferentes).

A Regressão Logística conseguiu resultados melhores que os do SVM em córpus onde os dados se encontravam mais balanceados (Buscapé-1, Buscapé-2, Mercado Livre e TTsBR). O classificador SVM consegue generalizar melhor os dados com menos exemplos, enquanto a Regressão Logística precisa de maior representação dos dados para dividir o espaço corretamente.

O melhor resultado obtido no córpus Buscapé-1 foi no modelo treinado usando Regressão Logística.

Usamos também uma MLP com duas camadas e 200 neurônios para a classificação (Ta- bela 20). A MLP é um dos métodos mais robustos que utilizamos na classificação, portanto obteve resultados muito satisfatórios, sendo o método que obteve a maior F-Measure nos córpus Buscapé-2, Mercado Livre, Pelesent e no TTsBR.

5.1. Experimentos com o TTsBR 87

Tabela 19 – Comparação de classificação de córpus usando Regressão Logística com duas classes.

Córpus F-Pos F-Neg F-Measure Buscapé-1 85,51 84,31 84,91 Buscapé-2 86,83 86,11 86,47 Mercado Livre 94,57 94,46 94,52 Eleições Dilma 94,13 85,45 89,78 Eleições Serra 88,71 98,22 93,46 Pelesent 78,35 69,58 73,95 Reli 92,03 44,51 68,26 TTsBR 84,78 75,99 80,38

Fonte: Elaborada pelo autor.

das técnicas mais recentes de Deep Learning. Uma das desvantagens desse classificador é o overfitting, onde a função se aproxima tanto dos pontos que perde seu potencial de generalização, ou seja, perde sua eficiência para dados não vistos. Algo que podemos observar é a classificação no córpus ReLi, onde existem tão poucos documentos negativos que a maioria dos dados é rotulada como positiva, diminuindo drasticamente a F1 da classe negativa quando comparado aos outros classificadores.

Tabela 20 – Comparação de classificação de córpus usando Multilayer Perceptron com duas classes.

Córpus F-Pos F-Neg F-Measure Buscapé-1 84,97 83,49 84,23 Buscapé-2 88,06 87,27 87,66 Mercado Livre 94,81 94,72 94,76 Eleições Dilma 95,53 89,34 92,43 Eleições Serra 87,76 98,07 92,91 Pelesent 78,16 69,95 74,05 Reli 91,80 32,83 62,32 TTsBR 85,08 76,85 80,96

Fonte: Elaborada pelo autor.

ATabela 21apresenta os resultados obtidos com Árvore de Decisão. Os valores foram semelhantes aos obtidos com Naive Bayes, portanto abaixo dos demais.

Outra abordagem foi o uso de Random Forest na classificação de polaridades. Sendo o Random Forest um comitê de Árvores de Decisão, seus resultados superaram consideravelmente o modelo anterior, atingindo o maior valor de F-Measure no córpus Eleições-Dilma. Os resultados podem ser vistos naTabela 22.

Tabela 21 – Comparação de classificação de córpus usando Árvores de Decisão com duas classes.

Córpus F-Pos F-Neg F-Measure Buscapé-1 79,59 78,42 79,00 Buscapé-2 79,42 79,11 79,26 Mercado Livre 87,32 87,10 87,20 Eleições Dilma 94,47 86,72 90,59 Eleições Serra 84,48 97,44 90,95 Pelesent 66,40 56,78 61,66 Reli 89,49 38,98 64,23 TTsBR 79,53 67,42 74,05

Fonte: Elaborada pelo autor.

Tabela 22 – Comparação de classificação de córpus usando Random Forest com duas classes.

Córpus F-Pos F-Neg F-Measure Buscapé-1 83,57 82,43 83,00 Buscapé-2 85,04 85,00 85,02 Mercado Livre 92,93 92,99 92,96 Eleições Dilma 96,11 90,19 93,15 Eleições Serra 88,33 98,26 93,30 Pelesent 74,56 51,90 63,22 Reli 91,79 19,04 55,41 TTsBR 84,73 75,40 80,06

Fonte: Elaborada pelo autor.

No documento Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado (páginas 109-114)