• Nenhum resultado encontrado

FRAMEWORK DE EXPANSÃO DE RECURSOS

5.2.2 Framework de Expansão com o TTsBR completo

Utilizando nosso framework, expandimos o TTsBR usando os 117.050 documentos não anotados que haviam sido extraídos da mesma forma que os dados que formaram o córpus. Para cada classificador utilizado, usamos a abordagem iterativa para avaliar todos os tweets, ordenar todos por probabilidade e definimos vários thresholds para adicionar os dados de diferentes maneiras.

Após todas as iterações, definidas pelo threshold de adição, avaliamos o córpus na classificação de polaridades usando o conjunto de testes que serviu de held-out para a avaliação. Treinamos um modelo com cada córpus gerado para cada classificador usado, ou seja, cada córpus foi avaliado seis vezes (uma com cada classificador) para que pudéssemos observar se a diferença de valores de cada córpus se mantinha com diferentes classificadores.

Por conta do elevado número de execuções e dos diversos resultados gerados, as tabelas relacionadas a essa subseção estão apresentadas no Apêndice D, ao final deste documento. As tabelas estão organizadas por threshold de adição, classificador utilizado na expansão e classificador usado na avaliação. É importante ressaltar que os valores obtidos representam a média de cinco execuções de cada avaliação. Cada córpus foi gerado somente uma vez.

Para facilitar a comparação das avaliações de cada córpus, calculamos a média das F-Measureobtidas com cada classificador e apresentamos naTabela 30. O valor obtido com a mesma avaliação usando somente o conjunto de treinamento do TTsBR foi de 61, 03% de F-Measure.

O córpus expandido que obteve os melhores valores na avaliação foi o originado por meio da MLP. Uma observação interessante é que durante a avaliação do TTsBR (Tabela 14), o classificador que obteve os melhores valores foi a Regressão Logística, seguido de perto pela MLP (diferença de 0, 20%), entretanto, o classificador que obteve a melhor F1 para a classe neutra foi a MLP. Essa informação é importante, visto que um dos grandes desafios na expansão é evitar o enviesamento da classificação, pois ele ocasiona ruído no córpus gerado e esse erro pode se propagar na classificação.

Tabela 30 – Resumo da F-Measure média obtida com os córpus expandidos usando self-training com três classes. Classificador 40% 30% 25% 20% 10% 5% 1% SVM Linear 59,58 58,73 59,47 58,73 55,80 54,15 52,12 Naive Bayes 54,97 53,69 52,73 52,41 50,18 49,45 47,09 Regressão Logística 59,91 58,41 58,12 57,04 53,2 50,86 48,76 MLP 62,14 61,65 61,74 61,40 61,19 61,02 61,04 Árvore de Decisão 57,85 57,54 58,39 56,44 58,29 58,45 57,93 Random Forest 57,72 55,99 54,33 53,31 49,61 49,23 49,06

5.2. Experimentos com expansão semissupervisionada 97

AFigura 21apresenta graficamente os valores daTabela 30com a adição de uma linha representando o TTsBR como córpus de treinamento (sem self-training).

Figura 21 – Gráfico de F-Measure média obtida com cada córpus expandido usando self-training na avaliação em três classes.

Fonte: Elaborada pelo autor.

Em geral os métodos obtiveram os melhores resultados usando thresholds maiores, o que diminui o número de iterações, mas aumenta o número de documentos adicionados em cada passo. Ainda que a maior parte dos valores tenha ficado abaixo dos resultados com o TTsBR, ressalta-se que os córpus expandidos possuem cerca de oito vezes mais documentos anotados que o TTsBR, sendo que a parcela anotada manualmente corresponde apenas a 10%. No caso do classificador MLP, por exemplo, os resultados ficaram até melhores para thresholds altos.

Os resultados que mostraram valores mais baixos de F-Measure foram os obtidos no córpus gerado pelo classificador Naive Bayes. Esse resultado vai ao encontro da avaliação apre- sentada naTabela 14, onde o mesmo classificador obteve os menores resultados na classificação. Acreditamos que um fator que influencia muito nessa classificação é o desbalanceamento do córpus. NaTabela 35podemos ver a distribuição de classes geradas para cada córpus com os diferentes thresholds de adição. O córpus final de todos os métodos de classificação e com todas as porcentagens de adição sempre obtém o menor número de documentos neutros, sendo que essa diferença é em média de 10% de documentos a menos do que os da classe negativa e quase 30% a menos do que os da classe positiva (majoritária). Esse desbalanceamento é ainda mais evidente quando aumentamos as iterações, ou seja, com thresholds menores como 1% e 5%.

Nos piores casos, somente 3% dos documentos do córpus final são classificados como negativos, sendo que os documentos anotados manualmente (que fazem parte do córpus final), representam cerca de 1/3 desses documentos. Curiosamente, apesar do baixo valor obtido nas avaliações, o classificador Naive Bayes não sofre tanto com esse desbalanceamento quando

muitas iterações são feitas, ainda que os baixos resultados indiquem que muitos documentos estejam sendo incorretamente etiquetados nesses casos.

Uma explicação para esse fenômeno é que o desbalanceamento do TTsBR influencia muito nas primeiras iterações do framework, portanto esse desbalanceamento é propagado até o fim da execução, fazendo com que poucos documentos neutros sejam adicionados e, consequentemente, a distância entre as classes majoritárias e minoritárias aumente ainda mais.

Se observarmos o comportamento da avaliação do córpus gerado com SVM, vamos identificar uma queda brusca na avaliação a partir do threshold de 10%. Observando aTabela 35, vemos que com thresholds maiores que esse teremos uma distribuição muito próxima de 20%, enquanto que a partir dos experimentos com 10% temos a classe neutra em 13%, depois 10% (com thresholdde 5%) e finalmente 7% (com treshold de 1%).

Como não sabemos a verdadeira distribuição dos dados, é difícil saber qual a distribuição ideal para o córpus final, mas nos baseando na anotação do TTsBR, teríamos como distribuição 44% documentos na classe positiva, 26% na classe neutra e 29% na classe negativa. Nos córpus onde obtivemos os melhores valores de F-Measure, as distribuições de classes são bem semelhantes a essas, como é o caso da Árvore de Decisão, que se manteve com bons resultados inclusive com baixo threshold, e com a MLP com poucas iterações.

Para a classificação binária, utilizamos os mesmos córpus formados ignorando-se a classe neutra. Realizar uma nova expansão não faria sentido, pois entre os documentos do córpus sem anotação teremos a ocorrência de sentenças neutras.

Os resultados obtidos com a classificação binária (seguindo a mesma abordagem de média de F-Measure da classificação anterior) estão dispostos naTabela 31.

Como apresentado anteriormente, a classificação binária costuma obter resultados muito superiores à classificação em três classes. A avaliação no conjunto de teste (held-out) obteve 79,8% de F-Measure média com os classificadores, porém mesmo nesse caso poucos córpus conseguiram superar esses valores.

O córpus gerado com a MLP se destacou novamente dos demais obtendo valores superi- ores aos do córpus manual com quase todos os valores de threshold usados. Já o córpus gerado com Naive Bayes continuou sendo o menos confiável, obtendo valores muito abaixo dos demais.

É interessante observarmos naFigura 22que o comportamento das avaliações binárias difere um pouco das avaliações com três classes, pois com muitas iterações (threshold de 1%), existe um ganho de performance na avaliação com a Árvore de Decisão e a Random Forest, assim como a queda de F-Measure não é tão drástica quanto na avaliação em três classes.

Uma possível causa é que a classe neutra age como uma zona de incerteza na classificação. Sendo bem definidos os espaços de documentos positivos e negativos (graças a features mais discriminativas para essas classes), os documentos classificados como neutros podem ser vistos

5.2. Experimentos com expansão semissupervisionada 99

Tabela 31 – Resumo da F-Measure média obtida com os córpus expandidos usando self-training na classificação binária. Classificador 40% 30% 25% 20% 10% 5% 1% SVM Linear 78,4 78,2 78,6 78,6 77,5 76,4 75,5 Naive Bayes 74,4 74,1 73,6 72,9 72,6 67,2 63,3 Regressão Logística 79,2 78,5 78,1 78,2 76,8 75,9 73,1 MLP 80,3 80,8 80,1 80,0 80,5 79,5 80,2 Árvore de Decisão 76,1 76,0 76,2 76,6 75,4 76,9 76,2 Random Forest 74,5 72,68 70,8 70,4 69,4 69,9 70,6

Fonte: Elaborada pelo autor.

como incertos para a classificação binária. Ignorando a classe neutra, restam apenas documentos que foram etiquetados com mais confiança nas classes polares extremas e isso faz com que a propagação de erro nas iterações seja reduzida.

Figura 22 – Gráfico de F-Measure média obtida com cada córpus expandido usando self-training na avaliação binária.

Fonte: Elaborada pelo autor.

Os resultados obtidos com a expansão do TTsBR foram promissores, porém o des- balanceamento dos córpus deixa uma margem grande para a desconfiança na anotação semi- automática. Buscando diminuir um pouco esse enviesamento, realizamos experimentos fazendo under-samplingdo TTsBR.