• Nenhum resultado encontrado

FRAMEWORK DE EXPANSÃO DE RECURSOS

4.1.3 Revisão da anotação

Para a avaliação dos modelos de classificação e extensão semissupervisionada, precisa- mos separar uma parcela do córpus anotado. Esse trecho será tratado nessa seção como córpus de teste.

O córpus de teste é uma parcela de aproximadamente 10% do córpus completo onde os modelos serão avaliados quanto a sua eficiência, portanto realizamos uma revisão das anotações desse trecho com dois supervisores. Um grupo de documentos já anotados foi selecionado aleatoriamente e anotado novamente por dois anotadores especialistas. Durante essa anotação, os supervisores tiveram acesso a etiqueta já agregada a cada documento, na forma da cor de fundo do documento: verde, se positivo; vermelho, se negativo; cinza, se neutro, como pode ser visto naFigura 17.

Os supervisores poderiam modificar ou manter a etiqueta previamente estabelecida pelo anotador. Os documentos utilizados nessa etapa foram sorteados da anotação feita por um dos outros quatro anotadores, porém ambos os supervisores receberam os mesmos documentos. Dessa maneira, os documentos do conjunto de teste possuem três anotações, referentes ao anotador e aos dois supervisores.

Novamente, alguns tweets obtiveram empate nas anotações (30 documentos). Esses tweetsestão listados noApêndice C. Em 16 casos, a opção Não tenho certeza não foi marcada por nenhum anotador. Podemos observar que no empate em três anotadores, cada um etiquetou

4.1. Extração de dados e anotação 67

Figura 17 – Ambiente de anotação para a revisão do córpus de teste.

Fonte: Elaborada pelo autor.

com uma categoria cada um dos tweets. Abaixo temos alguns exemplos desse grupo:

"higiene mental é a palavra-chave" "fé no pai que hj a miriam sai"

"mds tenho escola de manhã e ainda to aki tbm quem manda ser tão emocionate"

Nos casos acima podemos observar que somente as informações dos tweets não são suficientes para se identificar inequivocamente qual o alinhamento semântico da intenção do autor. Isso ilustra um pouco do desafio que o domínio proporciona na classificação de polaridades em três classes.

Os tweets da etapa de concordância também foram utilizados na composição do conjunto de treino, visto que cada um dos 300 tweets possui seis anotações, o que aumenta a confiança da polaridade escolhida.

4.1.4

O TweetSentBR

O córpus final totalizou 15.000 documentos, sendo 47 descartados por conta do empate na anotação.

O córpus de treinamento possui 12.990 tweets, enquanto o de teste soma 2.010. Para definir as etiquetas dos documentos do conjunto de treinamento usamos votação majoritária entre as múltiplas anotações. ATabela 10apresenta a distribuição de classes para cada conjunto e para cada classe.

Tabela 10 – Dados do córpus compilado.

Córpus Positivos Neutros Negativos Total Treino 5.741 (44, 2%) 3.410 (26, 3%) 3.839 (29, 5%) 12.990 Teste 907 (45, 1%) 516 (25, 7%) 587 (29, 2%) 2.010 Total 6.648 (44, 3%) 3.926 (26, 1%) 4.426 (29, 6%) 15.000

Fonte: Elaborada pelo autor.

Observamos naTabela 10um desbalanceamento entre as classes, algo que propicia ruído em classificadores baseados em AM (BRUM; ARAUJO; KEPLER,2016;MONARD; BATISTA,

2002), porém, usando a técnica de under-sampling para reduzir o número de documentos da classe majoritária, ainda teremos 10.230 documentos no conjunto de treino, o que satisfaz nosso objetivo inicial.

Os tweets anotados foram escolhidos aleatoriamente dentre os obtidos na extração inicial; naTabela 11podemos ver a distribuição de hashtags de busca no TTsBR.

Nenhum tweet sobre o programa “Popstar” está presente no córpus de teste, porém existem documentos sobre o programa no córpus de treinamento.

Dos 15.000 tweets do córpus, 12.990 (86, 6%) possuem anotação individual, enquanto 1.727 (11, 5%) possuem anotação tripla e 283 (1.9%) possuem sete etiquetas. Decidimos dispo- nibilizar no córpus todas as anotações, assim como a quantidade de usuários que marcaram a opção “Não tenho certeza” e a etiqueta final obtida por votação majoritária.

Realizamos uma avaliação simples das palavras contidas no TTsBR usando TF-idf para medir quais termos são mais relevantes para as classes mais polares do córpus. Os cinco termos mais relevantes para as classes estão apresentados naTabela 12.

Podemos observar a presença de palavras positivas (“amo”, “fofura”) na classe positiva, assim como adjetivos pejorativos na classe negativa. Um fenômeno interessante é a presença do termo “tirem”, característico de reality shows onde os usuários pedem que um participante seja retirado do programa por não simpatizarem com o indivíduo.

4.1. Extração de dados e anotação 69

Tabela 11 – Distribuição de hashtags no TTsBR.

Programa Hashtag Associada Quantidade Porcentagem Encontro com F. B. #encontro 2.166 14.44% Vídeo Show #videoshowaovivo 2.006 13.37% Altas Horas #altashoras 1.119 7.46% Conversa com P. B. #conversacombial 1.314 8.76% Mais Você #maisvoce 1.184 7.89% É de Casa #édecasa 259 1.72% Popstar #palcopospstar 0 0.00% Domingo Legal #domingolegal 293 1.95% The Noite com D. G. #thenoite 1.252 8.34% Master Chef #masterchefBR 5.407 36.04%

Fonte: Elaborada pelo autor.

representa alguns tweets indicando programas com grande audiência gerados automaticamente, nomes de emissoras (“redeTV”, “globo”) e verbos genéricos (“apresentado”, “marcaram”).

Tabela 12 – Termos mais relevantes para cada classe no TTsBR usando TF-idf.

# Classe Positiva Classe Negativa 1 amo ridículo 2 fofura péssimo 3 adorando lixo 4 emocionada tirem 5 linda mala

Fonte: Elaborada pelo autor.

A lista de termos positivos ainda compreendia emojis positivos (como carinhas feli- zes, corações e indicativos de “top”), enquanto na classe negativa foram encontradas carinhas zangadas e desinteressadas, termos de deboche (“mimimi”), palavrões e termos irônicos como “aham” (que indica concordância, mas nesse caso dá tom sarcástico aos tweets).

Uma das preocupações com recursos linguísticos como córpus obtidos em redes sociais é com a política de privacidade das redes. O Twitter proíbe a reprodução de textos oriundos de usuários da rede social, portanto disponibilizamos somente os ids dos tweets, junto com uma ferramenta de crawling baseada na API do Twitter, que permite a extração dos dados. Dessa maneira é possível disponibilizar a base anotada para que outros pesquisadores possam utilizá-la legalmente. A seguir temos um trecho do TTsBR disponibilizado:

id hashtag labels hard sent group 863044774588272640 #encontro [1,1,1,1,1,1,1] 0 1 test 865217606143418368 #encontro [-1] 0 -1 train 864667631642705920 #masterchefbr [-1,-1,0] 2 -1 test 865063232201011201 #TheNoite [1,0,1,1,1,0,0] 2 1 test 864668391008763905 #masterchefbr [0,0,0,0,0,0,0] 0 0 test 864647552087543808 #masterchefbr [0] 0 0 train 865582747703816192 #encontro [1] 0 1 train 862169393844846593 #masterchefbr [0,1,1,0,1,-1,0] 0 - 864702535134851073 #TheNoite [1,0,-1] 0 - 862147013667934210 #masterchefbr [1,-1,0] 0 -

A primeira coluna apresenta o id do tweet, na segunda temos a hashtag de onde o tweet foi originado. A coluna seguinte traz o conjunto de etiquetas dos anotadores: 1, 3 ou 7 valores -1 (negativo); 0 (neutro) ou 1 (positivo). Em seguida, o número de usuários que assinalaram a opção “Não tenho certeza”, a etiqueta final do tweet e, por último, o grupo ao qual o documento pertence: teste, treino ou nenhum dos anteriores (para documentos empatados).

O TTsBR está disponível livremente na internet2para replicação e uso em AS e outras tarefas de PLN.

Além do TTsBR, durante a extração de tweets ainda coletamos 117.050 documentos sem etiquetas para serem utilizados na etapa de expansão de córpus, descrita naSubseção 4.2.4.

4.2

Classificação e expansão

A segunda etapa do nosso trabalho compreendeu a investigação de classificadores de sentimentos. Nessa etapa utilizamos o córpus TTsBR para treinar e testar classificadores clássicos já utilizados em trabalhos da literatura para Português Brasileiro.

Nessa seção discutiremos a etapa de pré-processamento dos dados, a modelagem das representações utilizadas e os algoritmos implementados para a classificação de polaridade multiclasse.