I
NTRODUÇÃO À
A
NÁLISE DE
S
ENTIMENTOS
Thiago A. S. Pardo
Núcleo Interinstitucional de Linguística Computacional (NILC)
Departamento de Ciências de Computação
Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo
D
EFINIÇÃO
Área de estudo que analisa as opiniões,
sentimentos, avaliações, apreciações, atitudes e
emoções das pessoas em relação a entidades
como produtos, serviços, organizações, indivíduos,
questões, eventos, tópicos e todos os seus
atributos relacionados
(Liu, 2012)
Muitos
nomes relacionados
, utilizados de forma
intercambiável, em geral, mas com algumas
nuances diferentes
Análise de sentimentos, mineração de opiniões,
extração de opiniões, mineração de sentimentos,
análise de subjetividade, etc.
O
RIGEM DOS TERMOS
Primeiros trabalhos
que mencionaram os termos
sentiment analysis e opinion mining
Nasukawa, T. and Yi, J. (2003). Sentiment analysis:
capturing favorability using natural language processing.
In the Proceedings of the 2nd International Conference
on Knowledge Capture, pp. 70-77.
Dave, K.; Lawrence, S.; Pennock, D.M. (2003). Mining
the peanut gallery: opinion extraction and semantic
classification of product reviews. In the Proceedings of
the 12th International Conference on World Wide Web,
P
RIMÓRDIOS DA ÁREA
Alguns trabalhos antes de 2000, com interpretação de
metáforas, subjetividade, adjetivos e pontos de vista
Florescimento a partir de 2000
Várias aplicações, em vários domínios
Disponibilidade de muitos dados com opiniões na mídia
social, principalmente na web
Blogs, microblogs, fóruns de discussão, comentários, revisões,
etc.
Web 2.0
Interesses de outras áreas: ciência política, economia,
ciências sociais, psicologia, etc.
E também de diferentes campos dentro da Computação:
PLN, mineração de dados/textos/web, recuperação de
informação
R
AZÕES PARA INTERESSE
Opiniões são influenciadoras de nossos
comportamentos
Sempre se quer saber a opinião dos outros
Do lado das
empresas
Aceitação de produtos e serviços
Desempenho do concorrente
Retroalimentação da linha de fabricação
Do lado dos
consumidores
Qualidade de produtos e serviços
Análise de custo-benefício
Do ponto de vista
acadêmico
Desafios: volume de dados, língua real, aplicações em
R
AZÕES PARA INTERESSE
Até
recentemente
Indivíduos consultavam amigos e familiares
Empresas conduziam/contratavam pesquisas de
opinião, enquetes com usuários, etc.
Então a web
e a tecnologia da linguagem
E
XEMPLOS
:
PRIMAVERA
ÁRABE
E
XEMPLOS
:
P
OLÍTICA
E
XEMPLOS
:
E
LEIÇÕES
140 characters to victory? Using Twitter to predict
D
ESAFIOS
Web
Muita informação (relevante e irrelevante)
Fontes e formatos diversos
Dados não estruturados
Variável temporal
Dados que não seguem a norma culta da escrita
Gírias, abreviaturas, oralidade, marcas textuais típicas da
web, etc.
Fatos vs. boatos
Malícia, manipulação
E
XEMPLOS DE REVISÕES DE PRODUTO
N
ÍVEIS DE ANÁLISE
Documentos
Um documento/texto expressa uma opinião positiva ou
negativa sobre determinado tópico?
Em geral, considera-se que há somente um tópico (mas pode não
ser o caso)
Sentenças
Uma sentença é positiva, negativa ou neutra em relação a
algo?
Aspectos
Nível mais sofisticado e, portanto, desafiador
Aspectos positivos e negativos de uma entidade alvo
Apesar da qualidade de chamada do iphone ser boa, a vida útil
P
OLARIDADE DAS OPINIÕES
Polaridade, orientação semântica
Positiva
Negativa
Neutra
A definição pode variar: “sem polaridade” ou “com mais de
uma polaridade”?
E, em alguns casos, ambígua, polivalente
Eu gosto da escola, mas o professor é chato!
T
IPOS DE OPINIÕES
Regulares
Diretas
A Coca-Cola tem um gosto bom.
Indiretas
Depois de tomar o remédio, a dor passou.
Comparativas
Múltiplas entidades
T
IPOS DE SENTENÇAS
Nem sempre o sentimento é explícito!
Sentenças subjetivas
(caso mais comum)
Essa refrigerante é ruim!
Eu amo esse smartphone.
Sentenças objetivas
A câmera quebrou em 2 dias.
A gasolina durou 10 dias.
Essa máquina usa muita água.
O colchão formou um vale.
P
ONTO DE VISTA
Depende de quem fala/ouve
As ações do Google dispararam hoje!
Se for um acionista do Google,
sentimento positivo
M
OMENTO EM QUE É DITO
Variável temporal
A tela desse celular é grande
Se hoje,
sentimento positivo
O
PINIÃO
=
QUÍNTUPLA
(entidade, aspecto/atributo, sentimento, emissor,
tempo)
Liu (2012)
Id: Abc123 on 5-1-2008 “I bought an iPhone a few days ago. It is
such a nice phone. The touch screen is really cool. The voice
quality is clear too. It is much better than my old Blackberry,
which was a terrible phone and so difficult to type with its tiny
keys. However, my mother was mad with me as I did not tell her
before I bought the phone. She also thought the phone was too
expensive, …”
Quíntuplas
(iPhone, GENERAL, +, Abc123, 5-1-2008)
O
PINIÃO
=
QUÍNTUPLA
(entidade, aspecto/atributo, sentimento, emissor,
tempo)
Uma tarefa de Extração de Informação
Análise Semântica, principalmente
Reconhecimento de Entidades Nomeadas
Resolução de Correferências
Identificação e Normalização Temporal
Etc.
O
PINIÃO
=
QUÍNTUPLA
Nem sempre trivial
Como seriam os casos abaixo?
O banco do carro está feio.
Essa câmera é cara.
O
PINIÃO
=
QUÍNTUPLA
Nem sempre trivial
Como seriam os casos abaixo?
O banco do carro está feio.
Aspecto = “banco” ou “aparência do banco”?
Essa câmera é cara.
Aspecto = “câmera” ou “preço”?
(há aspectos implícitos!)
Eu posso instalar esse software facilmente.
E
XEMPLOS DE SISTEMAS
E
XEMPLOS DE SISTEMAS
E
XEMPLOS DE SISTEMAS
E
XEMPLOS DE SISTEMAS
E
XEMPLOS DE SISTEMAS
Sumários (parcialmente) abstrativos
(López Condori e Pardo,
2017)
E
XERCÍCIO
Considerando o texto de crítica ao livro
“Crepúsculo” de Stephenie Meyer, faça:
E
XERCÍCIO
Considerando o texto de crítica ao livro
“Crepúsculo” de Stephenie Meyer, faça:
E
XERCÍCIO
Considerando o texto de crítica ao livro
“Crepúsculo” de Stephenie Meyer, faça:
E
XERCÍCIO
–
GABARITO
E
XERCÍCIO
–
GABARITO
L
ÉXICOS DE SENTIMENTOS
Termos que expressam sentimentos, opinião
Podem ser fortes indícios de sentimentos positivos e
negativos
Palavras “
boas
”: maravilhoso, ótimo, incrível
Palavras “
más
”: terrível, pobre, engolir
Expressões: “me custou os olhos da cara”, “da
L
ÉXICOS PARA O PORTUGUÊS
WordnetAffectBR
(Pasqualotti e Vieira, 2008)
OpinionLexicon
(Souza et al., 2011)
30.678 entradas
SentiLex
(Silva et al., 2012)
82.347 entradas
LIWC - Linguistic Inquiry and Word Count
(Balage Filho et al., 2013)
127.149 entradas, distribuídas em diversas classes semânticas
Onto.PT
(Oliveira et al., 2014)
10.318 synsets
“polarizados”
E
XEMPLO DO
LIWC
Identificadores de classes semânticas
124: humans
125: affect
127: negemo
L
ÉXICOS DE SENTIMENTOS
Necessários, mas não suficientes para análise de
sentimentos
Dificuldades
Negações
Palavras “dúbias”: ímpar, curioso, único, mirabolante
Variação conforme o domínio: tela grande vs. bateria
grande
Sarcasmo:
“Que aparelho ótimo! Parou de funcionar no
L
ÉXICOS DE SENTIMENTOS
Necessários, mas não suficientes para análise de
sentimentos
Dificuldades
A presença de termos de sentimentos não implica na
presença de sentimentos (como em perguntas e
condicionais)
Qual câmera é boa?
Vs.
“Alguém sabe como arrumar essa porcaria de câmera?”
Se eu encontrar uma boa câmera, vou comprá-la.
Vs.
“Se estiver procurando por um bom carro, compre um
Toyota”
Presença de sentimentos sem termos de sentimentos
Essa máquina usa muita água.
C
ÓRPUS PARA O PORTUGUÊS
Notícias, posts em blogs, tweets, etc.
Marcados com polaridade (positiva, negativa e, às
vezes, neutra)
Mas há também “outras espécies”
Com anotação manual e pré-definida (número de
estrelas, por exemplo)
C
ÓRPUS PARA O PORTUGUÊS
Revisões de serviços de lojas online
(Siqueira e Barros, 2010)
2.200 opiniões
SentiCorpus-PT – opiniões sobre debates políticos
(Carvalho et
al., 2011)
2.795 opiniões, com aproximadamente 8.000 sentenças
ReLi
– Resenhas de Livros
(Freitas et al., 2012)
1.600 resenhas, de 14 livros diferentes, totalizando 12.470
sentenças e 259.978 palavras
Revisões de veículos
(Ribeiro et al., 2012)
112.742 documentos, com 295.378 sentenças
Córpus Buscapé
– revisões de produtos eletrônicos
(Hartmann et
al., 2014)
85.910 revisões, com 4.097.905 palavras
C
ÓRPUS PARA O PORTUGUÊS
7x1-PT – tweets durante o jogo do Brasil e Alemanha na Copa 2014
(Moraes et al., 2015)
2.728 tweets, com 35.024 palavras
Córpus de notícias políticas do Brasil
(Arruda et al., 2015)
131 notícias, com 1.447 parágrafos e 65.675 palavras
Emoções
em notícias
(Dosciatti et al., 2015)
2.000 documentos
OpiSums-PT
– sumários de opinião
(López Condori et al., 2017)
170 sumários (extrativos e abstrativos) para opiniões sobre 13 livros e 4
produtos eletrônicos
Computer-Br
– tweets relacionados a computadores
(Moraes, 2016)
2.317 tweets, com 34.437 palavras
E
XEMPLO
: O
PI
S
UMS
-PT
A
NÁLISE DE ERROS
(D
URAN ET AL
., 2014)
Sobre córpus Buscapé
(Hartmann et al., 2014)
Palavras que não constam no léxico da língua
portuguesa
44
Razões
Ocorrência
Erros ortográficos comuns
44%
Nomes próprios
24%
Estrangeirismos
8%
Acrônimos
5%
Internetês
4%
Abreviações
2%
Outros
13%
A
NÁLISE DE ERROS
(D
URAN ET AL
., 2014)
Sobre córpus Buscapé
(Hartmann et al., 2014)
Correções simples e impacto no desempenho de um
tagger
Correção
Impacto
Letras maiúsculas e minúsculas
+ 15,9%
Pontuação
+ 4,3%
Ortografia
+ 2,9%
N
ORMALIZADOR TEXTUAL
UGCNormal
(Duran et al., 2015)
Melhores resultados: 89% de correções apropriadas
Impacto no desempenho de um tagger: de 91,3 para
93,1%
C
LASSIFICADOR DE POLARIDADE
Avanço e Nunes (2014)
C
LASSIFICADOR DE POLARIDADE
Avanço e Nunes (2014)
Com base no método abrangente de Taboada et al. (2011)
Medida-f de
73%
sobre
C
LASSIFICADOR DE POLARIDADE
:
MAIS UM PASSO
Comparação entre aprendizado de máquina e
métodos baseados em léxico
(Avanço et al., 2016)
Método baseado em léxico com incorporação de
modelo vetorial para palavras desconhecidas
Melhores resultados:
84,2%
de medida-f
AM e atributos investigados: bag of words, palavras
positivas e negativas, resultados prévios de outros
classificadores, etc.
Melhores resultados:
95,6%
de medida-f, com SVM
50
C
LASSIFICADOR DE POLARIDADE
:
MAIS UM PASSO
Comparação entre aprendizado de máquina e
métodos baseados em léxico
(Avanço et al., 2016)
Método baseado em léxico com incorporação de
modelo vetorial para palavras desconhecidas
Melhores resultados:
46,9%
de medida-f
AM e atributos investigados: bag of words, palavras
positivas e negativas, resultados prévios de outros
classificadores, etc.
Melhores resultados:
60,9%
de medida-f, com SVM
51
Córpus de livros
I
DENTIFICAÇÃO E AGRUPAMENTO DE ASPECTOS
Subsídio para a extração mais confiável de
aspectos
(Vargas e Pardo, 2017)
I
DENTIFICAÇÃO E AGRUPAMENTO DE ASPECTOS
Subsídio para a extração mais confiável de
S
UMARIZAÇÃO DE OPINIÕES
Sumários extrativos e abstrativos
(López Condori e Pardo, 2017)
54
Exemplo de
sumário
extrativo
estruturado
S
UMARIZAÇÃO DE OPINIÕES
Sumários extrativos e abstrativos
(López Condori e Pardo, 2017)
Bons resultados de informatividade e de qualidade
linguística, superando estado da arte
55
Rsumm
(Ribaldo et al., 2016)
: sistema tradicional de sumarização, provavelmente
o melhor para o português
S
UMARIZAÇÃO DE OPINIÕES
Sumários extrativos e abstrativos
(López Condori e Pardo, 2017)
Resultados de “utilidade” no suporte à decisão de uma
A
NÁLISE DE SENTIMENTOS
Polaridade é só o início
Emoções, sentimentos, afeto, avaliação, etc.
Grande grupo de elementos inter-relacionados
Estudados em diferentes frentes
Computação
Linguística
Psicologia
Etc.
E
MOÇÕES UNIVERSAIS
Ekman (1993) e o estudo das emoções básicas
E
MOÇÕES UNIVERSAIS
Homem de uma comunidade isolada na Nova Guiné, de uma
cultura não letrada
Expressão de (algumas) emoções podem ser “
universais
”
E
VIDÊNCIAS VARIADAS
Estudo com atletas: artistas marciais (de judô) de
35 países diferentes mostraram expressões
similares nas Olimpíadas de Atenas
Independência de idade
Recém-nascidos
Desde cedo, demonstram “aversão”
Aos dois anos, “raiva” e “tristeza”
Na pré-escola, todas as emoções básicas
Idosos
Independência de religião e organização familiar
6
EMOÇÕES BÁSICAS
Tradicionalmente, evidências para 6 emoções
“universalmente” distinguidas pelas faces
Raiva, medo, nojo/aversão, tristeza, felicidade e
surpresa
Mas há outras sendo investigadas
“desprezo” entrou para o grupo recentemente
M
UITA VARIAÇÃO
M
UITA VARIAÇÃO
Tema polêmico
(Cambria et al., 2012)
The distinction between
guilt
and
shame
, for
example, is based in the attribution of negativity to
the self or to the act. So, guilt arises when believing
to have done a bad thing, and shame arises when
thinking to be a bad person.
R
ODA DAS EMOÇÕES
Plutchik (2001)
Há diversas propostas
na mesma linha,
de vários autores
diferentes
A
PPRAISAL
T
HEORY
(M
ARTIN E
W
HITE
, 2005)
D
OMÍNIOS DA EMOÇÃO
E
NGAJAMENTO
Uso de recursos para posicionamento do falante,
por meio de
Relatos ou citações
Expressão de possibilidade
Negação
Afirmação
Contra-argumentação
Enquanto isso (e não estamos inventando isso), duas
pessoas foram detidas no aeroporto depois que um
passageiro americano disse ter ouvido um deles se chamar
de terrorista bósnio. (O homem disse, de fato, que ele era um
“guitarrista bósnio”).
A
TITUDE
Valoração pela qual o falante evidencia
julgamentos e associa respostas emocionais ou
afetivas a outros falantes ou processos
3 subsistemas
Afeto: caracterização do fenômeno com referência à emoção
Julgamento: questões éticas, avaliação do comportamento
humano a partir de normas sociais
Apreciação: avaliação de objetos e produtos a partir de
princípios estéticos e sistemas de valor social
G
RADAÇÃO
Polarização da emoção (positiva ou negativa) e
intensidade
Força: trata da intensificação e quantificação dos
appraisals
Eu estou muito muito muito feliz.
Foco: enfatiza ou suaviza uma categoria
Eles jogam futebol de verdade
E
STUDO LOCAL
Trabalho de Mestrado da UNISINOS
(Cosme, 2014)
A emoção de satisfação de alunos de cursos EAD:
perspectivas de investigação e de análise utilizando a
Appraisal Theory
I
NTRODUÇÃO À
A
NÁLISE DE
S
ENTIMENTOS
Thiago A. S. Pardo
Núcleo Interinstitucional de Linguística Computacional (NILC)
Departamento de Ciências de Computação
Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo
R
EFERÊNCIAS
Arruda, G.D.; Roman, N.T.; Monteiro, A.M. (2015). An Annotated Corpus for Sentiment Analysis in Political News. In the Proceedings of the Brazilian Symposium in Information and Human Language Technology (STIL), pp. 101-110.
Avanço, L.V. and Nunes, M.G.V. (2014). Lexicon-based Sentiment Analysis for Reviews of Products in Brazilian Portuguese. In the Proceedings of the Brazilian Conference on Intelligent Systems, pp. 277-281.
Balage Filho, P.P.; Aluísio, S.M.; Pardo, T.A.S. (2013). An Evaluation of the Brazilian Portuguese LIWC Dictionary for Sentiment Analysis. In the Proceedings of the 9th Brazilian Symposium in Information and Human Language
Technology (STIL), pp. 215-219.
Balage Filho, P.P. and Pardo, T.A.S. (2014). BuscaOpinioes: Searching for Opinions over the Internet. In the (on-line) Proceedings of the PROPOR Workshop of Software Demonstrations, pp. 1-3.
Burnap, P.; Gibson, R.; Sloan, L.; Southern, R.; Williams, M. (2015). 140 characters to victory? Using Twitter to predict the UK 2015 General Election. Electoral Studies, Vol. 41, pp. 230-233.
Cambria, E.; Livingstone, A.; Hussain, A. (2012). The Hourglass of Emotions. In the Proceedings of the Cognitive Behavioural Systems, pp. 144-157.
Carvalho, P.; Sarmento, L.; Teixeira, J.; Silva, M.J. (2011). Liars and saviors in a sentiment annotated corpus of comments to political debates. In the Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pp. 564–568.
Cosme, C.A. (2014). A emoção de satisfação de alunos de cursos EAD: perspectivas de investigação e de análise utilizando a Appraisal Theory. Dissertação de Mestrado. Universidade do Vale do Rio dos Sinos.
Dave, K.; Lawrence, S.; Pennock, D.M. (2003). Mining the peanut gallery: opinion extraction and semantic
classification of product reviews. In the Proceedings of the 12th international conference on World Wide Web, pp. 519-528.
Duran, M.S.; Avanço, L.V.; Aluísio, S.M.; Pardo, T.A.S.; Nunes, M.G.V. (2014). Some issues on the normalization of a corpus of products reviews in Portuguese. In the Proceedings of the EACL 9th Web as Corpus Workshop (WaC), pp.
R
EFERÊNCIAS
Duran, M. S.; Avanço, L.V.; Nunes, M.G.V. (2015). A Normalizer for UGC in Brazilian Portuguese. In the Proceedings of the ACL Workshop on Noisy User-generated Text, pp. 38-47.
Ekman, P. (1993). Facial Expression and Emotion. American Psychologist, Vol. 48, N. 4, pp. 384-392.
Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. (2012). Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In Anais do XI Encontro de Linguística de Corpus.
Hartmann, N.S.; Avanço, L.V.; Balage Filho, P.P.; Duran, M.S.; Nunes, M.G.V.; Pardo, T.A.S.; Aluísio, S.M. (2014). A Large Corpus of Product Reviews in Portuguese: Tackling Out-Of-Vocabulary Words. In the Proceedings of the 9th Language Resources and Evaluation Conference (LREC), pp. 3865-3871.
Hu, M. and Liu, B. (2004). Mining and summarizing customer reviews. In the Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 168-177.
Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers.
Liu, B.; Hu, M.; Cheng, J. (2005). Opinion observer: analyzing and comparing opinions on the Web. In the Proceedings of the 14th international conference on World Wide Web, pp. 342-351.
López Condori, R.E. (2015). Sumarização automática de opiniões baseada em aspectos. Dissertação de Mestrado. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, July, 160p.
López Condori, R.E.; Avanço, L.V.; Balage Filho, P.P.; Bokan Garan, A.Y.; Cardoso, P.C.F.; Dias, M.S.; Nóbrega, F.A.A.; Sobrevilla Cabezudo, M.A.; Souza, J.W.C.; Zacarias, A.C.I.; Seno, E.M.R.; Di Felippo, A.; Pardo, T.A.S. (2015). A Qualitative Analysis of a Corpus of Opinion Summaries based on Aspects. In the Proceedings of the 9th Linguistic Annotation Workshop - LAW, pp. 62-71.
R
EFERÊNCIAS
Martin, J.R. and White, P.R.R. (2005). The language of evaluation: appraisal in English. New York: Palgrave Macmillan.
Moraes, S.M.W.; Manssour, I.H.; Silveira, M.S. (2015). 7x1PT: um Corpus extraído do Twitter para Análise de Sentimentos em Língua Portuguesa. In the Proceedings of the Brazilian Symposium in Information and Human Language Technology (STIL), pp. 21-25.
Moraes, S. (2016). Comparing Approaches for Subjectivity Classification: a Study on Portuguese Tweets. In the Proceedings of the International Conference on the Computational Processing of Portuguese (PROPOR), pp. 86-94.
Oliveira, H.G.; Santos, A.P.; Gomes, P. (2014). Assigning Polarity Automatically to the Synsets of
a Wordnet-like Resource. In the Proceedings of the 3rd Symposium on Languages, Applications and Technologies, pp. 169-184.
Pasqualotti, P.R. and Vieira, R. (2008). WordnetAffectBR: uma base lexical de palavras de emoções para a língua portuguesa. Novas Tecnologias na Educação, Vol. 6, N. 2, pp. 1-10.
Plutchik, R. (2001). The Nature of Emotions. American Scientist, Vol. 89, pp. 344-350.
Nasukawa, T. and Yi, J. (2003). Sentiment analysis: capturing favorability using natural language processing. In the Proceedings of the 2nd International Conference on Knowledge Capture, pp. 70-77.
Dosciatti, M.M.; Ferreira, L.P.C.; Paraiso, E.C. (2015). Anotando um Corpus de Notícias para a Análise de
Sentimento: um Relato de Experiência. In the Proceedings of the Brazilian Symposium in Information and Human Language Technology (STIL), pp. 121-130.
Ribaldo, R.; Cardoso, P.C.F.; Pardo, T.A.S. (2016). Exploring the subtopic-based relationship map strategy for multi-document summarization. Journal of Theoretical and Applied Computing - RITA, Vol. 23, N. 1, pp. 183-211.
Ribeiro, S.; Junior, Z.; Meira,W.; Pappa, G.L. (2012). Positive or negative? Using blogs to assess vehicles features. In