Métodos usados para inglês - TRABALHOS RELACIONADOS

TRABALHOS RELACIONADOS

3.2.1 Métodos usados para inglês

O primeiro trabalho a propor um método de classificação de polaridade foi apresentado em Turney (2002). O autor sugere um método baseado em léxico para a classificação de “recomendação”, ou não, dado um review de produto. O autor se refere a essa divisão como “orientação semântica”.

Inicialmente, o autor aplica um etiquetador morfossintático e identifica padrões de bigramas entre os cinco considerados pelo autor – 1) Ocorrência de um adjetivo e um substantivo (singular ou plural); 2) Um advérbio seguido de um adjetivo; 3) Um adjetivo seguido de outro; 4) Um substantivo seguido de adjetivo; 5) Um advérbio seguido de verbo. Os padrões 2, 3 e 4 não podem ser seguidos de um substantivo.

O segundo passo consiste em estimar a orientação semântica dos padrões encontrados usando o algoritmo Point-wise mutual information (PMI). O PMI calcula a associação semântica

3.2. Análise de Sentimentos 47

entre duas palavras por meio da seguinte equação (CHURCH; HANKS,1990):

PMI(word1, word2) = log2

P(word₁) ∩ P(word₂) P(word1)P(word2)

(3.1) Para o cálculo da orientação semântica, o autor usa como word1os bigramas extraídos

da sentença, e como word2dois termos que representam positividade e negatividade. O termo

representando positividade é a palavra “excellent” e o termo representando negatividade é a palavra “poor”. As probabilidades de cada palavra são obtidas via um operador NEAR, presente em uma ferramenta de Information Retrieval (IR) usada pelo autor. Assumindo um padrão de bigrama encontrado no review, phrase, podemos calcular a orientação semântica de phrase com:

SO(phrase) = PMI(phrase, ”excelent”) − PMI(phrase, ”poor”) (3.2) No terceiro passo são extraídas as orientações semânticas de todos os bigramas do review e é calculada a média. Caso a média seja positiva, o review é considerado “recomendado”, em caso contrário, “não recomendado”.

O autor mediu a acurácia da classificação nos reviews de carros, bancos, filmes e destinos de viagens, sendo que os melhores resultados foram obtidos nos reviews de carros (84, 00%) e os piores em filmes (65, 83%). Usando todo o córpus, a acurácia total foi de 74, 39%.

Pang, Lee e Vaithyanathan(2002) usaram uma abordagem baseada em AM para classificar reviews de filmes em positivos e negativos. Os autores usaram três classificadores (Máxima Entropia, Naive Bayes e SVM) com diversas combinações de features.

Os autores usaram uma bag-of-words com features de representação de documentos. Essa abordagem testa diversas combinações de features para obter os melhores resultados para cada classificador. As features usadas na modelagem foram unigramas, bigramas, POS- tagging, adjetivos e a posição das palavras no review. Os autores mediram a acurácia dos classificadores (fazendo cross-validation) nas oito seguintes combinações de features:

∙ Frequência de unigramas: Representar os reviews com uma bag-of-words com a frequên- cia de cada termo. Os melhores resultados foram obtidos com Naive Bayes (78, 7% de acurácia).

∙ Presença de unigramas: Representar os reviews com uma bag-of-words com a presença (0 ou 1) de cada unigrama. O melhor resultado foi obtido com SVM (82, 9% de acurácia). ∙ Unigramas e bigramas: Representar os reviews com bigramas e unigramas concatenados.

Foi usada somente a presença/ausência dos termos na modelagem e a melhor acurácia foi relatada com SVM (82, 7%).

∙ Presença de bigramas: Representar os reviews somente usando presença/ausência de bigramas. O melhor resultado foi obtido com Máxima Entropia (77, 4%)

∙ Unigramas e POS-tags: Representar os reviews com unigramas concatenando as palavras com sua etiqueta morfossintática. Os autores propuseram essa alternativa para reduzir a ambiguidade dos termos, por exemplo, diferenciando “I love this movie” (positivo) de “This is a love story” (neutro). No exemplo citado, a primeira instância de love seria um verbo, enquanto a segunda um adjetivo. O melhor resultado obtido foi com o classificador SVM (81, 9%), mas ainda ficou abaixo da modelagem usando somente unigramas. ∙ Adjetivos: Nessa modelagem foram usados somente os adjetivos para representar os

reviews. O melhor resultado foi obtido com Máxima Entropia (77, 7%), mas ainda assim foi mais baixo do que esperado pelos autores.

∙ Sub-conjunto de unigramas: Os autores buscaram eliminar unigramas menos frequentes da modelagem, reduzindo os 16.165 unigramas menos frequentes para uma representação com 2.633. O corte conseguiu obter resultados quase tão bons quanto com todos os unigramas usando SVM (81, 4%).

∙ Unigramas e posição: Os autores propuseram um modelo de representação que leva em consideração a posição das palavras no review. Segundo eles, uma estrutura de review de filme inicia com a discussão do enredo e termina sumarizando as opiniões do autor. Eles adicionaram junto dos unigramas a informação de posição (dividindo o review em quatro partes iguais). O melhor resultado foi obtido com SVM (81, 6%).

O trabalho é um dos pioneiros na AS, fazendo um estudo linguístico e experimentando muitas combinações de features para a classificação binária de polaridades. O melhor resultado obtido foi usando SVM modelado com unigramas (82, 9% de acurácia).

Um ramo da AM que vem crescendo em popularidade é o Deep Learning (DL). As arquiteturas multi-camadas encontraram na AS um desafio que combina a complexidade da PLN com as características subjetivas da semântica.

Socher et al.(2013) foi um dos trabalhos mais importantes para a popularização da AS entre os modelos de DL. Os autores apresentam um córpus anotado em cinco classes de polaridade para reviews de filmes, junto de uma arquitetura neural recursiva que faz uso de um tensor para analisar composicionalmente as sentenças e inferir sua polaridade.

Os autores propuseram duas maneiras de avaliar o córpus, usando as cinco classes analisadas, e usando somente duas (pos/neg). O córpus rapidamente se tornou uma espécie de benchmarkpara modelos de DL. A seguir apresentaremos sucintamente alguns métodos de DL que usaram o córpus SST.

3.2. Análise de Sentimentos 49

Le e Mikolov(2014) usaram uma modificação do word2vec (MIKOLOV et al.,2013), um modelo de espaço vetorial que apresenta indícios de captura de informações semânticas e sintáticas das palavras dado seu contexto. Os autores propuseram um modelo semelhante ao word2vec, chamado Paragraph Vector, que extrai representações vetoriais de documentos. Os autores usaram Regressão Logística para predizer as polaridades das sentenças do SST usando as representações geradas pelo Paragraph Vector.

Além desses modelos, outras abordagens de DL se destacaram na classificação de polaridades, como a rede neural convolucional proposta porKim(2014), a arquitetura em árvore usando neurônios de long short-term memory, proposta emTai, Socher e Manning(2015), a rede de memória dinâmica proposta emKumar et al.(2016), e a arquitetura bidirecional proposta em

Zhou et al.(2016). ATabela 6apresenta os resultados obtidos com os modelos aqui apresentados usando a acurácia como medida comparativa.

Tabela 6 – Resultados dos trabalhos apresentados avaliados no córpus Stanford Sentiment Treebank.

Trabalho Fine-grained Classificação binária

Socher et al.(2013) 45, 7% 85, 4%

Le e Mikolov(2014) 48, 7% 87, 8%

Kim(2014) 48, 0% 88, 1%

Tai, Socher e Manning(2015) 51, 0% 88, 0%

Kumar et al.(2016) 52, 1% 88, 6%

Zhou et al.(2016) 52, 4% 89, 5%

Fonte: Elaborada pelo autor.

Alguns trabalhos apresentam uma abordagem semissupervisionada para gerar classificadores que possam treinar com dados anotados e não anotados. Dados não anotados são geralmente mais numerosos que dados anotados e mais fáceis de serem encontrados.

Dasgupta e Ng(2009) propõem uma abordagem semissupervisionada na classificação bi- nária de polaridade usando active learning (COHN; ATLAS; LADNER,1994;TONG; KOLLER,

2001) para anotar reviews com grande incerteza na anotação.

Os autores propõem uma abordagem “Minere os fáceis e classifique os difíceis”. A definição de reviews “fáceis” vem da ausência de ambiguidade na polaridade do documento, enquanto o oposto é considerado uma anotação “difícil”. Para classificar esses reviews, os autores propõem o uso de um algoritmo de agrupamento espectral (NG et al.,2001) para agrupar reviews não ambíguos em dois clusters (positivos e negativos). Esse processo é iterativo e inicia com o algoritmo agrupando todos os reviews no plano. A cada iteração, os reviews mais ambíguos vão sendo removidos até que restem dois clusters de reviews, um positivo e um negativo.

dor SVM para classificar os demais documentos. Nesse ponto é feita a incorporação do active learning, onde um processo de aprendizado semissupervisionado recebe alguns documentos anotados para os quais o classificador obteve maior incerteza na classificação. Esses documentos seriam aqueles cuja classificação os tenha colocado mais próximos do hiperplano de corte.

O SVM é treinado com os dados anotados e aplicado no restante do córpus. Os 10 documentos mais próximos do hiperplano (com maior incerteza) são anotados manualmente e o modelo é retreinado com esses dados adicionados ao conjunto de treinamento. Alé disso, os autores propõem a utilização de um ensemble com cinco classificadores, treinados com trechos diferentes do córpus anotado.

Para a avaliação do método, os autores usaram os córpus propostos emPang, Lee e Vaithyanathan(2002), de reviews de produtos, eBlitzer et al.(2007), do mesmo domínio. As métricas utilizadas foram a acurácia dos classificadores e Adjusted Rand Index (usada com tarefas de agrupamento). Os autores compararam com três baselines: o algoritmo de clustering espectral proposto em Kamvar et al.(2003); um classificador SVM transdutivo (WANG; SHEN; PAN,2007); e uma abordagem de active learning descrita emTong e Koller(2001).

ATabela 7apresenta os resultados obtidos em cinco córpus, sendo o primeiro (MOV), o córpus de reviews de filmes apresentado emPang, Lee e Vaithyanathan(2002) e, os demais, os conjuntos apresentados emBlitzer et al.(2007). As primeiras três linhas se referem aos baselines. A linha 4 trata do uso do SVM nos primeiros dados, a linha 5, após o uso de active learning, e a linha 6, com o uso do ensemble de cinco classificadores.

Tabela 7 – Resultados de acurácia e ARI para os dados..

Accuracy Adjusted Rand Index System Variation MOV KIT ELE BOO DVD MOV KIT ELE BOO DVD 1 Semi-supervised spectral learning 67.3 63.7 57.7 55.8 56.2 0.12 0.08 0.01 0.02 0.02 2 Transductive SVM 68.7 65.5 62.9 58.7 57.3 0.14 0.09 0.07 0.03 0.02 3 Active learning 68.9 68.1 63.3 58.6 58.0 0.14 0.14 0.08 0.03 0.03 4 Our approach (after 1st step) 69.8 70.8 65.7 58.6 55.8 0.15 0.17 0.10 0.03 0.01 5 Our approach (after 2nd step) 73.5 73.0 69.9 60.6 59.8 0.22 0.21 0.16 0.04 0.04 6 Our approach (after 3rd step) 76.2 74.1 70.6 62.1 62.7 0.27 0.23 0.17 0.06 0.06

Fonte:Dasgupta e Ng(2009).

EmSilva et al.(2016) os autores propõem um framework para aprendizado semissupervisionado para classificação de tweets. A abordagem faz uso do algoritmo C3E (ACHARYA et al.,2011). O algoritmo combina classificação e clustering, usando uma matriz de similaridade para definir a distribuição de probabilidades de classes para cada instância dos documentos.

Os autores utilizaram córpus do eventos SemEval (NAKOV et al.,2016) e compararam a abordagem com um classificador SVM, uma abordagem de self-training e uma abordagem de co-training(ambas utilizando SVM) – uma abordagem baseada em léxico também foi avaliada. Os dados usados para o treinamento inicial do modelo variaram de 5% até 40%, sendo que quanto mais dados foram utilizados, maior foi a F-Measure obtida na avaliação.

3.2. Análise de Sentimentos 51

A abordagem dos autores obteve melhores resultados nos córpus LiveJournal e SMS2013 usando a partir de 10% dos dados como treinamento inicial. No córpus Twitter2014 o método superou a F-Measure dos demais usando 5% dos dados, 20%, 30% e 40%. A F-Measure mais alta obtida foi 68, 51% usando a abordagem dos autores no córpus LiveJournal.

No documento Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado (páginas 72-77)