• Nenhum resultado encontrado

TRABALHOS RELACIONADOS

3.1.1 Córpus em Inglês

Turney(2002) fez o primeiro trabalho sobre Análise de Sentimentos da literatura. O autor buscava propor um algoritmo de aprendizado não supervisionado que classificasse reviews em “recomendado” e “não recomendado”.

O córpus formado era composto de 410 reviews de produtos e serviços obtidos no site Epinions, que reúne reviews de carros (Honda Acoord e Volkswagen Jetta), bancos (Bank of Americae Washington Mutual), filmes (Matrix e Pearl Harbor) e destinos de viagens (Cancun e Puerto Vallarta). A anotação usada no córpus é a nota do usuário fornecida no review. As notas são medidas com estrelas, sendo que o autor considera reviews com até 3 estrelas como não recomendados, e acima disso como recomendados.

Pang, Lee e Vaithyanathan(2002) decidiram focar no domínio de reviews de filmes. Os autores citam que uma das motivações foi o trabalho apresentado anteriormente, que identificou os reviews de filmes como sendo o domínio de maior complexidade na análise. O trabalho reuniu reviews do IMDB1, sendo que os autores usaram uma escala numérica para avaliar os reviews(estrelas ou notas). Após a coleta, os documentos eram convertidos para uma das três classes, positiva, negativa ou neutra. Apesar da conversão em três classes, o trabalho manteve o foco na classificação binária, ignorando a classe neutra do conjunto usado nos experimentos. Uma das preocupações dos autores foi o grande número de reviews de um mesmo usuário, o que enviesaria o córpus em um padrão linguístico individual, ou de um pequeno grupo de usuários muito atuantes na rede. Para contornar isso, os autores estabeleceram um limite máximo de 20 reviewsde cada usuário para cada polaridade. Ao todos eles coletaram reviews de 144 usuários, obtendo 752 negativos e 1301 positivos.

EmPang e Lee(2005), os autores consideram uma variação na binarização das classes de sentimento. Eles propõem que as opiniões podem obedecer escalas, aumentando sua classificação para três e quatro classes. Os autores coletaram 5.331 reviews positivos e a mesma quantidade de negativos.

Hu e Liu (2004) apresentam um córpus composto por 314 reviews sobre 5 produtos extraídos do site Amazon2contendo anotação de polaridades para aspectos. A anotação foi feita em nível de aspecto, pois o trabalho teve o objetivo de sumarizar opiniões de produtos. O córpus ainda foi expandido com reviews de mais 12 produtos nos anos seguintes (DING; LIU; YU,

2008;LIU et al.,2015), totalizando 7.356 sentenças.

Blitzer et al.(2007) investigaram a adaptação de classificadores de sentimentos para diferentes domínios. Para essa tarefa, os autores compilaram um córpus com reviews de quatro tipos de produtos (livros, DVDs, eletrônicos e artigos para cozinha). Eles usaram as notas de usuários para a anotação, presentes em uma escala de 0 a 5. Os reviews com nota abaixo de 3 foram anotados como negativos, enquanto os com notas maiores foram anotados como positivos. Reviews considerados neutros foram descartados. O córpus final conta com 1.000 reviewspositivos e 1.000 reviews negativos.

Socher et al.(2013) utilizaram o córpus apresentado emPang e Lee(2005) para propor uma anotação mais completa para os reviews, rebatizando o córpus com o nome de Stanford Sentiment Treebank (SST). Os autores usaram um parser (KLEIN; MANNING,2003) para extrair as árvores sintáticas das 10.662 sentenças do córpus, totalizando 215.154 sintagmas. Após a divisão, os autores usaram o Amazon Mechanical Turk para anotar os sintagmas com uma interface contendo uma barra deslizante com 25 valores possíveis, como pode ser observado na

Figura 9. Os anotadores recebiam trechos da árvore sintática em diferentes níveis e anotavam a polaridade do trecho usando essa interface.

1 <www.imdb.com>Acessado em 24 de Fevereiro de 2017. 2 <amazon.com>Acessado em 26 de Fevereiro de 2017.

3.1. Córpus de Sentimentos 37

Figura 9 – Interface de anotação contendo 25 possíveis valores em uma barra deslizante.

Fonte:Socher et al.(2013).

Essa anotação mais composicional foi motivada pelo método de classificação proposto pelos autores no trabalho. A Recursive Neural Tensor Network (RNTN) realiza uma análise composicional usando como entrada a árvore sintática da sentença analisada, portanto era necessário que cada sintagma da composição fosse anotado quanto à polaridade.

O córpus final obtido tem 11.855 sentenças, e isso se deve ao fato de que, durante o parsing sintático, algumas sentenças foram divididas, originando novas. Isso fez com que o córpus aumentasse em 1.193 documentos.

Os valores coletados eram normalizados para cinco classes, o que foi denominado pelos autores de análise fine-grained. Os dados estão disponíveis em<http://nlp.stanford.edu/ sentiment/>, junto com uma interface de demonstração.

O SemEval3é um evento que vem há anos contribuindo para o avanço da área de PLN. O evento traz competições das mais diversas tarefas, como similaridade semântica, entailment, tradução e AS. Geralmente o evento disponibiliza um córpus para treino e grupos de pesquisa interessados se inscrevem e desenvolvem modelos de classificação para esses córpus. Os modelos são enviados e um conjunto de testes desconhecido é utilizado para avaliar os modelos de classificação. Os córpus usados no evento são disponibilizados aos usuários, aumentando a gama de recursos disponíveis para as tarefas.

As tarefas de AS do SemEval trabalham com o Twitter, pela facilidade de se obter documentos, pela ampla variedade de assuntos disponíveis e pelos desafios característicos do ambiente. Uma compilação das estatísticas dos córpus já anotados no evento pode ser vista na

Tabela 3. Os córpus apresentados são referentes às três últimas edições do evento.

A primeira edição a apresentar uma tarefa de AS foi em 2013 (NAKOV et al.,2013), com duas tarefas: desambiguação de polaridade lexical e classificação de polaridade de mensagens. A primeira tarefa apresentava um fragmento de um tweet (uma instância de palavra ou um

Tabela 3 – Estatísticas dos córpus do SemEval de 2013 até 2015.

Dataset Positiva Negativa Neutra Total Twitter2013-train 3.662 1.466 4.600 9.728 Twitter2013-dev 575 340 739 1.654 Twitter2013-test 1.572 601 1.640 3.813 SMS2013-test 492 394 1.270 2.093 Twitter2014-test 982 202 669 1.853 Twitter2014-sarcasm 33 40 13 86 LiveJournal2014-test 424 304 411 1.142 Twitter2015-test 1.040 365 987 2.392

Fonte: Adaptada deNakov et al.(2016).

sintagma) e os participantes deveriam construir classificadores que determinassem a polari- dade (positiva, neutra ou negativa) do fragmento. A segunda tarefa consistia na classificação de mensagens (SMS) nas três polaridades da tarefa anterior. A tarefa deixou como recurso um córpus anotado para treino e um para validação, assim como dois córpus para avaliação de cada uma das tarefas (um com tweets e um com SMS). Ambos os córpus de treino e validação consistiam de tweets.

Na edição do ano seguinte, as mesmas duas tarefas foram propostas (ROSENTHAL et al.,2014) A organização do evento incentivou os usuários a usarem os córpus apresentados no ano anterior para treinarem seus modelos. Para a avaliação, foram apresentados três córpus. O primeiro é semelhante ao apresentado no ano anterior, com tweets diversos anotados quanto à polaridade. O segundo trata de tweets contendo sarcasmo, também anotados em três polaridades. O terceiro córpus usado na avaliação é composto por sentenças retiradas do LiveJournal4, outra rede social onde usuários podem criar blogs e fóruns sobre assuntos diversos. O córpus foi criado para identificar se os classificadores treinados com tweets poderiam ser usados para classificar sentenças de outras redes sociais.

A edição de 2014 ainda contou com uma tarefa de extração de aspectos, apresentando alguns assuntos relacionados a classificação de polaridade, entretanto, por essa tarefa apresentar mais desafios na extração de aspectos, decidimos não tratar delas nessa monografia.

A popularidade da tarefa em 2014 fez com que os organizadores propusessem mais tarefas de AS para o SemEval de 2015 (ROSENTHAL et al.,2015). A primeira e a segunda tarefas foram mantidas, desambiguação de polaridade contextual e classificação de polaridade de mensagem. Uma tarefa de classificação de polaridade para tópicos em mensagens foi adicionada. Nessa tarefa os classificadores construídos deveriam, dado um tópico e uma mensagem, analisar a sentença para encontrar a polaridade sob a qual o tópico específico estava sendo avaliado. Outra nova tarefa foi a de detecção de tendência para tópico, na qual os modelos construídos deveriam analisar um

3.1. Córpus de Sentimentos 39

conjunto de tweets de um certo período sobre um tópico específico e classificar o sentimento global em cinco classes – fortemente positivo, fracamente positivo, neutro, fracamente negativo, ou fortemente negativo. A última tarefa adicionada foi a de determinar o grau de positividade de um termo. Nessa tarefa eram apresentadas palavras, ou sintagmas, e os classificadores deveriam atribuir um valor entre 0 e 1 indicando o quão positivo esse termo seria.

NaFigura 10podemos ver uma instrução para a anotação dos tweets, assim como uma screenshotda interface de anotação usada. A anotação foi abrangente o suficiente para que o mesmo córpus criado pudesse ser utilizado para todas as tarefas propostas.

Figura 10 – Instruções e interface de anotação de tweets para o Mechanical Turk.

Fonte:Rosenthal et al.(2015).

A última edição (NAKOV et al.,2016) contou com cinco tarefas distintas: a classifica- ção de polaridade em três classes; a classificação de opinião sobre um determinado tópico; a classificação em cinco classes sobre um determinado tópico; a distribuição de tweets positivos e negativos sobre um tópico; e a distribuição em cinco classes de tweets sobre um determinado assunto.

A edição mais recente do evento5apresenta três tarefas na área de AS: a classificação de emoção, onde um tweet é usado para prever uma intensidade emocional; a previsão de emojis, onde tweets em inglês e espanhol são disponibilizados e um emoji deve ser selecionado como sumarizador da emoção do documento; e a detecção de ironia.

NaTabela 4temos um resumo dos córpus apresentados nessa subseção. Podemos ob- servar que a variação de domínios, tamanhos e anotações tornam difícil a comparação dos córpus de sentimentos. O destaque maior é o Stanford Sentiment Treebank, que é o córpus mais

utilizado nas aplicações de Deep Learning que vêm atingindo os melhores resultados nos últimos anos (KIM,2014;TAI; SOCHER; MANNING,2015;KUMAR et al.,2016).

Tabela 4 – Resumo de córpus de sentimentos em inglês encontrados na literatura.

Córpus Domínio Anotação Tamanho do córpus

Turney(2002) Reviewsdiversos 2 classes 410 reviews

Pang, Lee e Vaithya-

nathan(2002) Reviewsde filmes 2 classes 2.053 reviews

Pang e Lee(2005) Reviewsde filmes 4 classes 10.662 reviews

Hu e Liu(2004) Reviewsde produtos Aspectos, 5 classes 7.356 sentenças

Blitzer et al.(2007) Reviewsde produtos 2 classes 2.000 reviews

Socher et al.(2013) Reviewsde filmes 5 classes 11.855 sentenças

Nakov et al.(2013) Tweetse SMS 3 classes 17.288 documentos

Rosenthal et al.(2014) Tweetse LiveJournal 3 classes 3.081 documentos

Rosenthal et al.(2015) Tweets 3 classes 2.392 tweets

Nakov et al.(2016) Tweets 5 classes 22.761 tweets

Fonte: Elaborada pelo autor.