• Nenhum resultado encontrado

Mineração da opinião sobre aspectos de candidatos a eleições em comentários de notícias

N/A
N/A
Protected

Academic year: 2021

Share "Mineração da opinião sobre aspectos de candidatos a eleições em comentários de notícias"

Copied!
10
0
0

Texto

(1)

Minerac¸˜ao da opini˜ao sobre aspectos de candidatos a eleic¸˜oes

em coment´arios de not´ıcias

Leonardo Augusto S´apiras, Karin Becker

Instituto de Inform´atica – Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal 15.064 – 91.501-970 – Porto Alegre – RS – Brazil

{lasapiras,karin.becker}@inf.ufrgs.br

Resumo. A classificac¸˜ao autom´atica da opini˜ao p´ublica sobre aspectos de can-didatos a eleic¸˜oes, a partir de opini˜oes dispon´ıveis na web, ´e um problema complexo para a Minerac¸˜ao de Opini˜oes. Este artigo descreve uma experiˆencia de minerac¸˜ao de opini˜oes em n´ıvel de aspecto no contexto de coment´arios de leitores de jornais sobre not´ıcias eleitorais. Nosso desafio ´e identificar e suma-rizar a opini˜ao baseada em aspectos a partir de fontes de opini˜oes fracamente estruturadas. Mostramos ser poss´ıvel identificar, classificar a polaridade e su-marizar a opini˜ao de leitores de um jornal sobre os aspectos Sa´ude e Educac¸˜ao relacionados a candidatos de uma eleic¸˜ao municipal.

Abstract. The automatic classification of opinions about aspects of political candidates, from public web data, is a complex Opinion Mining problem. This paper describes a case study of aspect-based opinion mining in the context of comments that newspaper readers express about political news. Our challenge is to identify and summarize opinions on aspects of election candidates, using an ill-structured source of opinion. Our case study propose techniques that can be used to identify, classify and summarize opinions on Health and Education issued by readers about political candidates.

1. Introduc¸˜ao

A opini˜ao p´ublica sobre entidades e seus aspectos expressa em documentos textuais pode ser analisada e sintetizada atrav´es de Minerac¸˜ao de Opini˜oes, que realiza essas ativida-des combinando t´ecnicas de minerac¸˜ao de dados com processamento de linguagem na-tural [Liu 2012]. Os trabalhos pioneiros nessa ´area buscaram identificar a opini˜ao global contida em revis˜oes sobre produtos e servic¸os, escritas por usu´arios [Pang and Lee 2008, Tsytsarau and Palpanas 2012]. Como um substancial avanc¸o, a opini˜ao passou a ser detalhada em termos dos diferentes aspectos de produtos/servic¸os [Hu and Liu 2004, Guo et al. 2009, Qiu et al. 2011, Liu et al. 2013], tais como o prec¸o, capacidade ou de-sempenho de um computador. Essas opini˜oes detalhadas s˜ao extremamente ´uteis e influ-enciam potenciais consumidores.

Revis˜oes de produto s˜ao fontes de opini˜ao bem estruturadas e possi-bilitam obter a opini˜ao p´ublica sobre entidades e seus aspectos mais facil-mente [Tsytsarau and Palpanas 2012, Liu 2012], porque o alvo da opini˜ao ´e a entidade sendo revisada. Por outro lado, as opini˜oes expressas em fontes de opini˜oes menos estru-turadas, tais como redes sociais [Tumasjan et al. 2010, Castellanos et al. 2011], blogs e not´ıcias [Balahur et al. 2010], s˜ao mais dif´ıceis de serem mineradas porque as tarefas de

(2)

encontrar o conte´udo de opini˜ao, e o seu alvo, s˜ao bem mais complexas. Ao contr´ario do contexto de revis˜ao de produtos, no qual o objeto da revis˜ao ´e a entidade alvo da opini˜ao, documentos nessas m´ıdias podem conter opini˜oes sobre m´ultiplas entidades, sobre aspec-tos espec´ıficos destas, ou mesmo podem n˜ao conter nenhuma opini˜ao.

Este artigo descreve uma experiˆencia de minerac¸˜ao de opini˜oes em n´ıvel de as-pecto no contexto de coment´arios de leitores de jornais sobre not´ıcias eleitorais. Nosso de-safio ´e identificar e sumarizar a opini˜ao baseada em aspectos a partir de fontes de opini˜oes fracamente estruturadas. Aplicamos a minerac¸˜ao de opini˜oes em fontes de dados relacio-nadas com eleic¸˜oes, j´a que a plataforma eleitoral de candidatos inclui propostas relevantes para a populac¸˜ao em diversas ´areas, tais como sa´ude, educac¸˜ao, seguranc¸a, as quais s˜ao exploradas durante uma campanha com o intuito de obter votos. Essas ´areas s˜ao tratadas neste trabalho como os aspectos de um candidato sobre os quais os leitores podem opinar. Assim, partimos da premissa que, al´em da percepc¸˜ao global de um candidato, ´e poss´ıvel identificar a opini˜ao p´ublica em relac¸˜ao a aspectos espec´ıficos deste. Por exemplo, deseja-se identificar que a percepc¸˜ao sobre um candidato X em relac¸˜ao `a sa´ude ´e mais positiva que a do candidato Y, mas no que se refere `a educac¸˜ao a percepc¸˜ao ´e mais negativa.

A contribuic¸˜ao do presente trabalho ´e uma abordagem para minerar e sumari-zar, em n´ıvel de aspecto, opini˜oes sobre candidatos a eleic¸˜oes, a qual foi aplicada a um estudo de caso. Ela integra resultados parciais de experimentos sobre extrac¸˜ao de aspectos [Sapiras and Becker 2014], e de minerac¸˜ao de opini˜oes em n´ıvel de sentenc¸a sobre a mesma fonte de opini˜oes fracamente estruturada [Tumitan and Becker 2013, Tumitan and Becker 2014], a saber, opini˜oes expressas por leitores de jornal em co-ment´arios como reac¸˜oes a not´ıcias. Em nosso conhecimento, este ´e um trabalho pioneiro de minerac¸˜ao de opini˜oes em n´ıvel de aspecto fora do contexto de revis˜oes de produtos.

O restante deste artigo est´a estruturado como segue: a Sec¸˜ao 2 descreve os tra-balhos relacionados; a Sec¸˜ao 3 detalha um estudo de caso para minerar a opini˜ao sobre aspectos de entidades pol´ıticas; a Sec¸˜ao 4 apresenta conclus˜oes e trabalhos futuros.

2. Trabalhos relacionados

A minerac¸˜ao de opini˜oes pode ser dividida em trˆes grandes

tare-fas [Tsytsarau and Palpanas 2012]: a) identificac¸˜ao de conte´udo subjetivo e do alvo das opini˜oes; b) classificac¸˜ao da polaridade das opini˜oes; c) sumarizac¸˜ao das opini˜oes atrav´es de m´etricas e/ou recursos visuais. A minerac¸˜ao de opini˜oes pode ser realizada em n´ıvel de documento, sentenc¸a ou aspecto, sendo este ´ultimo o foco deste trabalho.

M´etodos para classificac¸˜ao da polaridade de opini˜oes incluem abor-dagens baseadas em dicion´ario, aprendizagem de m´aquina, estat´ısticas e semˆanticas [Tsytsarau and Palpanas 2012], sendo as duas primeiras as mais fre-quentemente empregadas [Liu 2012]. A abordagem baseada em dicion´arios requer bons l´exicos sentimento para a l´ıngua alvo, e pesquisas mostram a importˆancia de dicion´arios de dom´ınio (e.g. [Hu and Liu 2004]). J´a para bons resultados usando aprendizagem de m´aquina, ´e necess´ario um extenso corpus anotado para treino.

O trabalho pioneiro na identificac¸˜ao de opini˜ao em n´ıvel de aspecto foi o de [Hu and Liu 2004], o qual utiliza regras de associac¸˜ao envolvendo substantivos. [Qiu et al. 2011] utilizam dependˆencias sint´aticas para identificar o alvo da opini˜ao, mas

(3)

bons analisadores sint´aticos n˜ao est˜ao dispon´ıveis para o portuguˆes. Modelos mais sofis-ticados de co-ocorrˆencia (e.g. [Guo et al. 2009]) tamb´em foram propostos com o mesmo fim. Essas pesquisas exploram revis˜ao de produtos, que s˜ao fontes de opini˜ao mais es-truturadas, pois: (i) geralmente apresentam opini˜oes sobre uma ´unica entidade, (ii) expli-citam a entidade-alvo da opini˜ao, (iii) pertencem ao mesmo dom´ınio (e.g. inform´atica, cinema). N˜ao se pode assumir tais caracter´ısticas em fontes de dados menos estruturados, como blogs ou redes sociais, pois esses tipos de documentos podem apresentar opini˜oes sobre m´ultiplos alvos (ou mesmo n˜ao conter opini˜ao) e em dom´ınios sem relac¸˜ao entre si. Trabalhos que usam fontes de opini˜ao fracamente estruturadas (e.g. tweets, co-ment´arios) identificam o alvo de opini˜ao no momento da extrac¸˜ao, usando um conjunto de termos que representam a entidade alvo. Trabalhos que se prop˜oem a fazer previs˜oes sobre eleic¸˜oes pol´ıticas baseadas em sentimentos usando tweets [Tumasjan et al. 2010, O’Connor et al. 2010] ou coment´arios de jornais [Tumitan and Becker 2014] usam essa estrat´egia e realizam a minerac¸˜ao de opini˜oes em n´ıvel de documento ou sentenc¸a. LCI [Castellanos et al. 2011] monitora o sentimento em tweets, agrupando os termos mais fre-quentes em t´opicos e sumarizando as opini˜oes envolvendo esses termos. O Observat´orio da Web1monitora tweets sobre v´arios assuntos, incluindo eleic¸˜oes, sumarizando os

prin-cipais t´opicos, mas sem envolver minerac¸˜ao da opini˜oes.

Modelos visuais para a tarefa de sumarizac¸˜ao s˜ao propostos em trabalhos como [Hu and Liu 2004, Castellanos et al. 2011]. Em n´ıvel de aspecto, um modelo comum mostra a quantidade de opini˜oes positivas/negativas para cada um dos aspectos de um pro-duto frequentemente citados [Hu and Liu 2004]. LCI [Castellanos et al. 2011] usa este modelo de sumarizac¸˜ao para entidades e seus aspectos, al´em de propor uma nuvem de termos para os aspectos mais comentados.

O presente artigo integra contribuic¸˜oes desenvolvidas em trabalhos pr´evios dos autores. Experimentos para extrair aspectos de coment´arios de not´ıcias foram reportados em [Sapiras and Becker 2014], mas n˜ao envolveram minerac¸˜ao de opini˜oes. Observamos como comportamento dos leitores que os coment´arios n˜ao necessariamente tˆem relac¸˜ao com o conte´udo da not´ıcia (e.g. uma not´ıcia sobre transportes pode ter coment´arios opi-nando sobre sa´ude, transportes ou corrupc¸˜ao). Assim, optamos por considerar todos co-ment´arios, e experimentamos diferentes t´ecnicas probabil´ısticas de co-ocorrˆencia para identificar aspectos. O processo de minerac¸˜ao de opini˜oes para o mesmo estudo de caso foi detalhado em [Tumitan and Becker 2013], incluindo a extrac¸˜ao e pr´e-processamento de coment´arios, identificac¸˜ao dos candidatos alvo, e classificac¸˜ao da opini˜ao em n´ıvel de sentenc¸a. A classificac¸˜ao da polaridade usando l´exicos de sentimento e aprendi-zado supervisionado foi comparada em [Tumitan and Becker 2014], tamb´em em n´ıvel de sentenc¸a. O presente trabalho diferencia-se destes ao propor uma abordagem para mine-rar e sumarizar opini˜oes em n´ıvel de aspecto para a mesma fonte de opini˜oes fracamente estruturada, a saber, coment´arios de jornais sobre candidatos a eleic¸˜oes.

3. Estudo de caso

3.1. Objetivo

Neste estudo de caso realizamos uma experiˆencia pioneira de minerac¸˜ao de opini˜oes em n´ıvel de aspecto fora do contexto de revis˜ao de produtos. Tal como em

(4)

[Tumitan and Becker 2013], usamos como fonte de opini˜ao coment´arios sobre not´ıcias envolvendo eleic¸˜oes municipais de 2012 da cidade de S˜ao Paulo, e os trˆes candidatos a prefeito mais comentados (i.e. Serra, Russomanno e Haddad). As not´ıcias e coment´arios foram extra´ıdos da Folha de S˜ao Paulo, e o per´ıodo analisado corresponde ao mˆes que antecede o primeiro turno da eleic¸˜ao. O objetivo do estudo foi propor uma abordagem que permitisse detalhar a opini˜ao dos leitores em relac¸˜ao a aspectos espec´ıficos destes candidatos (e.g. a percepc¸˜ao de X sobre sa´ude ´e mais positiva que a dos candidatos Y e Z no mesmo aspecto), e aplic´a-la sobre o corpus escolhido. Consideramos os mesmos aspectos j´a explorados em [Sapiras and Becker 2014]: sa´ude e educac¸˜ao.

3.2. Abordagem proposta

A abordagem proposta para o estudo de caso ´e apresentada na Figura 1. As caixas com fundo cinza correspondem `as t´ecnicas discutidas em trabalhos pr´evios dos autores e as com fundo verde correspondem `as etapas desenvolvidas no pre-sente artigo. Uma vez extra´ıdos os coment´arios dos jornais relevantes ao estudo de caso [Tumitan and Becker 2013], dois procedimentos s˜ao realizados: a) a identificac¸˜ao dos coment´arios envolvendo os aspectos alvo de acordo [Sapiras and Becker 2014]; e b) a minerac¸˜ao de opini˜oes em n´ıvel de sentenc¸a, para sentenc¸as mencionando os can-didatos observados [Tumitan and Becker 2014]. O n´ıvel de sentenc¸a foi adotado para a polarizac¸˜ao da opini˜ao porque cada coment´ario pode envolver opini˜oes sobre mais de um candidato. Ent˜ao, a relac¸˜ao entre as sentenc¸as polarizadas e os respectivos coment´arios ´e analisada para verificar se se referem a algum aspecto espec´ıfico. Finalmente, a opini˜ao dos leitores ´e sumarizada por candidato e por seus aspectos. Na discuss˜ao que segue, sejam A = {ai} um conjunto de aspectos, E = {ej} um conjunto de candidatos

monito-rados e C = {ck} um conjunto de coment´arios.

Figura 1. Abordagem de minerac¸˜ao de opini ˜oes em n´ıvel de aspecto.

Extrac¸˜ao de coment´arios: extrac¸˜ao de coment´arios sobre not´ıcias eleitorais, identifica-das usando r´otulos pr´e-definidos em um indexador de not´ıcias (Google Reader). O pr´e-processamento elimina coment´arios duplicados (similaridade superior a 85% usando cosseno), ou muito curtos (at´e 3 palavras). Os detalhes da extrac¸˜ao e lim-peza de coment´arios s˜ao relatados em [Tumitan and Becker 2013].

Identificac¸˜ao de coment´arios que mencionam aspectos: identificac¸˜ao dos co-ment´arios Ca ⊆ C que contˆem termos representativos de cada aspecto

a∈ A, de acordo o m´etodo detalhado na Sec¸˜ao 3.4.

Divis˜ao de coment´arios em sentenc¸as: utilizando o m´odulo punkt do NLTK2, treinado

para portuguˆes, os coment´arios s˜ao divididos em sentenc¸as. A relac¸˜ao entre

(5)

sentenc¸a e coment´ario de origem ´e armazenada, criando o conjunto de sentenc¸as S ={< si, ck>: ck ∈ C}.

Identificac¸˜ao de sentenc¸as que mencionam entidades eleitorais: filtragem de todas sentenc¸as de S que fazem menc¸˜oes expl´ıcitas aos candidatos e ∈ E, criando um conjunto SM = {< si, ej, ck >: ej ∈ E ∧ < si, ck >∈ S}. As menc¸˜oes

s˜ao identificadas usando os nomes dos candidatos (e.g. Serra, Russomano) e suas variac¸˜oes (e.g. vampissera, tarussomano), encontradas a partir de express˜oes re-gulares.

Polarizac¸˜ao de sentenc¸as: as sentenc¸as com menc¸˜oes SM s˜ao polarizadas em trˆes clas-ses, gerando o conjunto SP = {< si, ej, pol, ck >: pol ∈ {pos, neut, neg} ∧

< si, ej, ck >∈ SM}. Os detalhes relacionados `a classificac¸˜ao das opini˜oes s˜ao

discutidos na Sec¸˜ao 3.5.

Associac¸˜ao das sentenc¸as polarizadas aos aspectos: as sentenc¸as com opini˜oes sobre aspectos espec´ıficos s˜ao separadas, usando o seu relacionamento com os respec-tivos coment´arios. Para cada aspecto a ∈ A, buscamos as sentenc¸as SPa = {<

si, ej, pol, ca>: ca ∈ Ca}, SPa ⊆ SP , considerando estas como opini˜oes sobre o

aspecto a do candidato ej.

Sumarizac¸˜ao da opini˜ao sobre as entidades e seus aspectos: sumarizac¸˜ao das opini˜oes sobre os candidatos em geral, e sobre seus aspectos, de acordo com os mecanismos apresentados na Sec¸˜ao 3.6. Agregamos as sentenc¸as por coment´ario e candidato, para representar o n´umero de pessoas emitindo opini˜oes sobre cada candidato.

3.3. Corpus e Gold Standard

O corpus utilizado consiste de coment´arios de not´ıcias sobre as eleic¸˜oes municipais de S˜ao Paulo relativos aos meses de setembro e outubro de 2012. Ap´os pr´e-processamento, o corpus foi reduzido a 14.848 coment´arios, divididos em 79.752 sentenc¸as. Deste corpus, foram extra´ıdos dois subconjuntos de dados a serem usados como Gold Standard.

Todos os dados foram anotados por trˆes anotadores, em que somente anotac¸˜oes com no m´ınimo duas concordˆancias foram consideradas. Os anotadores foram orientados a basear sua avaliac¸˜ao apenas no conte´udo explicitamente escrito, sem usar julgamento pr´oprio ou conhecimento do dom´ınio pol´ıtico para inferir entendimento. A concordˆancia dos anotadores para polaridade foi 91,81%, e para aspectos, 85,75%.

Os datasets 1 e 2 s˜ao subconjunto dos coment´arios sobre eleic¸˜oes munici-pais de 2012, enquanto que o Dataset3 foi criado para as pesquisas relatas em [Tumitan and Becker 2014], e envolve eleic¸˜oes de 2010. A identificac¸˜ao de aspectos foi validada usando o Dataset1. Os datasets 2 e 3 foram utilizadas para treinar e testar os classificadores de opini˜ao.

• Dataset1: aleatoriamente, foram selecionadas 407 not´ıcias eleitorais do corpus, as quais foram anotadas em relac¸˜ao aos t´opicos que evocavam (i.e. sa´ude ou educac¸˜ao). Dos respectivos coment´arios, foram selecionadas tamb´em aleatoria-mente 2072 sentenc¸as, em que cada anotador deveria avaliar se a sentenc¸a evocava um dos t´opicos, quais candidatos eram explicitamente mencionados, se expressava uma opini˜ao e a respectiva polaridade. Assumiu-se que todo coment´ario que con-tivesse pelo menos uma sentenc¸a anotada como evocando um dado t´opico, por transitividade, tamb´em mencionava aquele t´opico.

(6)

• Dataset2: aleatoriamente foram selecionadas 1071 sentenc¸as de coment´arios do mesmo corpus, as quais foram anotadas no tocante `a polaridade, possuindo 732 sentenc¸as negativas, 180 neutras e 159 positivas.

• Dataset3: considerando as eleic¸˜oes presidenciais e governamentais de S˜ao Paulo de 2010, foram selecionadas aleatoriamente 990 sentenc¸as de coment´arios ex-tra´ıdos segundo o mesmo processo, que, ap´os anotac¸˜ao quanto `a polaridade, re-sultaram em 356 sentenc¸as negativas, 480 neutras e 154 positivas.

3.4. Identificac¸˜ao de Aspectos

A Figura 2 detalha a abordagem utilizada para encontrar os aspectos [Sapiras and Becker 2014], a qual visa identificar os coment´arios que mencionam determinado aspecto com base em um conjunto de termos representativos do mesmo. Dado um conjunto de not´ıcias sobre um dado aspecto (documentos de dom´ınio), os ter-mos representativos s˜ao encontrados com base na co-ocorrˆencia entre terter-mos encontrados nestes documentos (palavras candidatas), e um conjunto de palavras-semente.

Figura 2. Processo de identificac¸˜ao de aspectos.

No estudo de caso, as palavras-semente foram definidas pelos pr´oprios autores a partir do conhecimento do dom´ınio. Exemplos de palavras-semente para Sa´ude s˜ao “hospital”, “m´edico” e “vacinac¸˜ao”, e para o aspecto Educac¸˜ao, “aula” e “escola”.

O processo de identificac¸˜ao dos termos representativos tem in´ıcio com a extrac¸˜ao de documentos espec´ıficos do dom´ınio de cada aspecto. Nosso estudo de caso utiliza um corpora de not´ıcias classificadas pelo Jornal Folha de S˜ao Paulo para os aspectos sa´ude e educac¸˜ao. O processo de extrac¸˜ao desse corpora resultou em 1000 not´ıcias com o r´otulo Educac¸˜ao, e 1000 not´ıcias com o r´otulo Sa´ude.

De cada um desses corpora, foram extra´ıdas, usando NLTK, todas as palavras existentes, junto com suas respectivas frequˆencias e classes gramaticais (part-of-speech tags). Stopwords foram eliminadas. Foram consideradas como palavras candidatas ape-nas os substantivos que apareciam no respectivo corpus (e.g. not´ıcias sobre sa´ude) e que n˜ao apareciam no outro (e.g. not´ıcias sobre educac¸˜ao).

Dentre as t´ecnicas de co-ocorrˆencia examinadas, os melhores resultados foram obtidos com EMIM (Expected Mutual Information Measure), detalhada na Equac¸˜ao 1.

(7)

Dado que x representa uma palavra candidata e y representa uma palavra-semente, a ´e n´umero de vezes que as palavras x e y co-ocorrem em um documento; b ´e o n´umero de vezes que x ocorre em um documento e y n˜ao ocorre; c ´e o n´umero de vezes que y ocorre e x n˜ao ocorre, e d ´e o n´umero de vezes que nem x nem y ocorrem um documento.

EM IM(x,y) = log2

a(a + b + c + d)

(a + b)(a + c) (1)

Um termo x ´e considerado como representativo quando: a) EMIM(x, y) > 0, e b) x e y co-ocorrem em, no m´ınimo, 10 documentos do dom´ınio, em que estes li-mites foram fixados empiricamente. Em nossos experimentos, melhor detalhados em [Sapiras and Becker 2014], obtivemos 73,83% de precis˜ao, 79,8% de revocac¸˜ao e 76,7% de F-score para o aspecto Sa´ude. J´a para o aspecto Educac¸˜ao, obtivemos 70,54% de pre-cis˜ao, 80,53% de revocac¸˜ao e 75,21% de F-score. Tamb´em experimentamos as t´ecnicas LSI e Phi-squared, mas essas apresentaram resultados inferiores.

3.5. Polarizac¸˜ao de Opini˜ao

Usamos a experiˆencia desenvolvida em [Tumitan and Becker 2014] para polarizar as sentenc¸as, com a diferenc¸a de que consideramos trˆes classes: positivo, neutro e ne-gativo. Optamos por utilizar apenas t´ecnicas de aprendizagem de m´aquina, testando diferentes classificadores no WEKA [Hall et al. 2009]. Os melhores resultados foram obtidos usando o algoritmo SMO para treinar um classificador Support Vector Ma-chine (SVM). Para preparac¸˜ao de features, utilizamos unigramas, representac¸˜ao de pe-sos usando TF-IDF e selec¸˜ao de atributos utilizando a t´ecnica BestFirst. Testamos v´arias outras preparac¸˜oes (e.g. n-gramas, stopwords, representac¸˜ao bin´aria e frequˆencia, outras func¸˜oes de selec¸˜ao), mas os resultados foram inferiores e n˜ao s˜ao descritos aqui.

A Tabela 1 apresenta os resultados usando Precis˜ao, Revocac¸˜ao, Medida-F e a res-pectiva m´edia ponderada. Foram feitos dois experimentos: com validac¸˜ao cruzada, e com conjuntos de treino e teste distintos. Na abordagem SVM (Cross-validation), mesclamos os datasets 2 e 3, e verificamos o desempenho do classificador utilizando validac¸˜ao cru-zada com 10 folds. J´a na segunda abordagem, utilizamos o Dataset3 como conjunto de treinamento e o Dataset2 como conjunto de teste. Os resultados s˜ao animadores quanto `a precis˜ao, mas com baixa revocac¸˜ao para algumas classes, em particular a neutra. O pior desempenho da segunda abordagem ´e devido a overfiting, j´a que termos distintos foram usados em cada eleic¸˜ao. Por exemplo, nas eleic¸˜oes de 2010 existiam v´arias referˆencias `as primeiras candidatas `a presidˆencia (e.g. ”guerreira”, ”presidenta”), enquanto que, em 2012, foram evocados feitos passados dos candidatos e os escˆandalos de seus partidos.

Tabela 1. Resultados da polarizac¸˜ao das sentenc¸as com Precis˜ao (P), Revocac¸˜ao (R), F-score (F), respectivas m´edias ponderadas (WP, WR, WF) e Acur´acia (A).

Abordagem Polaridade P(%) R(%) F(%) WP(%) WR(%) WF(%) A(%)

SVM (Cross-validation) PositivoNeutro 86,693,7 51,926,8 64,941,7 83,9 82,5 79,5 82,46 Negativo 81,6 98,5 89,3

SVM (Com conjunto de teste) PositivoNeutro 76,292,5 48,420,6 59,233,6 79,3 77,3 73,2 77,31 Negativo 76,8 97,5 85,9

(8)

Os melhores resultados foram obtidos para a classe negativa, j´a que h´a um n´umero muito maior de sentenc¸as negativas, quando comparado `as demais classes. No futuro, reavaliaremos os resultados com classes mais equilibradas. A sumarizac¸˜ao dos resultados descrita na pr´oxima sec¸˜ao utiliza SVM com validac¸˜ao cruzada, pois foi a que apresentou o melhor desempenho.

3.6. Sumarizac¸˜ao

O modelo visual de sumarizac¸˜ao adotado, exemplificado nas Figuras 3 e 4, ´e seme-lhante ao apresentado em [Castellanos et al. 2011]. Atrav´es dele, ´e poss´ıvel visualizar a percepc¸˜ao da populac¸˜ao sobre cada candidato em geral, os aspectos analisados em par-ticular, bem como os termos mais comentados em cada t´opico.

Figura 3. Modelo visual de sumarizac¸˜ao de opini ˜oes.

A opini˜ao sobre cada candidato ´e sumarizada usando o n´umero absoluto e per-centual de coment´arios positivos, negativos ou neutros. O mesmo ´e feito especificamente para cada aspecto. Os resultados mostrados na Figura 3 correspondem `a aplicac¸˜ao da abordagem proposta no corpus completo (i.e. 14.848 coment´arios).

Agregamos as opini˜oes por coment´arios para representar pessoas emitindo opini˜oes. O uso de sentenc¸as, como em [Tumitan and Becker 2014], provocaria distorc¸˜oes nos resultados, e.g. um coment´ario com diversas sentenc¸as negativas teria mais peso que um coment´ario com uma ´unica sentenc¸a positiva. Classificamos um coment´ario ck ∈ C como positivo em relac¸˜ao a uma entidade ej, se contiver mais sentenc¸as

positi-vas spi ∈ P relacionadas a ck que mencionem ej, do que negativas. Caso o n´umero de

sentenc¸as negativas seja superior, o coment´ario ´e classificado como negativo, se n˜ao, ele ´e neutro. Note-se que o mesmo coment´ario pode ser contabilizado para mais de um can-didato, caso expresse opini˜oes sobre m´ultiplos candidatos. Neste caso, s˜ao contabilizadas as sentenc¸as referentes a cada candidato. A mesma l´ogica foi aplicada na sumarizac¸˜ao dos coment´arios por aspecto.

Com base na sumarizac¸˜ao apresentada na Figura 3, conclu´ımos que os leitores expressam um n´umero substancialmente maior de opini˜oes negativas, tanto para os can-didatos em geral, quanto para seus aspectos. Observamos tamb´em que, apesar de existir

(9)

uma grande quantidade de coment´arios com opini˜ao sobre os candidatos, a proporc¸˜ao em relac¸˜ao ao total de coment´arios foi relativamente baixa (51%). Al´em disso, a quanti-dade de opini˜ao da populac¸˜ao sobre os aspectos analisados (sa´ude e educac¸˜ao) tamb´em foi baixa. Isso est´a relacionado ao fato de que o conte´udo dos coment´arios apresenta opini˜oes sobre outros aspectos (e.g. corrupc¸˜ao) ou opini˜oes diretas aos candidatos. Considerando que dois candidatos haviam sido ex-ministros de educac¸˜ao e sa´ude, ´e interessante inter-pretar os coment´arios por aspecto. Os leitores tˆem uma percepc¸˜ao mais positiva sobre educac¸˜ao do ex-ministro da sa´ude do que o ex-ministro da educac¸˜ao sobre educac¸˜ao.

A nuvem de palavras (Figura 4) mostra os termos representativos para cada as-pecto, em que o tamanho das palavras est´a relacionado `a frequˆencia de ocorrˆencia de tais termos nos coment´arios.

(a) Sa´ude (b) Educac¸˜ao

Figura 4. Nuvem de palavras para termos representativos de cada aspecto.

4. Conclus˜oes

Este artigo apresentou uma proposta de minerac¸˜ao de opini˜ao p´ublica em n´ıvel de as-pecto para entidades eleitorais, considerando uma fonte de opini˜ao fracamente estrutu-rada. Desenvolvemos um estudo de caso completo, no qual, identificamos, classificamos e sumarizamos a percepc¸˜ao dos leitores de um jornal sobre os aspectos sa´ude e educac¸˜ao de candidatos, baseado em seus coment´arios. Em nosso conhecimento, trata-se de um tra-balho pioneiro de minerac¸˜ao de opini˜oes em n´ıvel de aspecto fora do contexto de revis˜oes de produtos. No estudo de caso, foi poss´ıvel observar que apesar de existir uma grande quantidade de opini˜oes em relac¸˜ao aos candidatos, a quantidade em relac¸˜ao aos aspectos analisados ´e pequena. Isso se deve ao fato da populac¸˜ao apresentar opini˜oes sobre outras dimens˜oes destes candidatos.

Este trabalho apresenta limitac¸˜oes, que ser˜ao tratadas em trabalhos futuros, tais como a extens˜ao do estudo de caso para outros aspectos, o uso de corpus balance-ado para classificac¸˜ao de opini˜oes, o tratamento de opini˜oes irregulares e impl´ıcitas e a identificac¸˜ao autom´atica das entidades eleitorais nos coment´arios. Tamb´em ´e impor-tante a identificac¸˜ao autom´atica de aspectos. Para resolver o problema de uma sentenc¸a expressar opini˜oes sobre v´arios candidatos (e.g. “X ´e horr´ıvel, votarei em Y”), a soluc¸˜ao seria polarizar a opini˜ao em n´ıvel de cl´ausulas. Pretendemos tamb´em aplicar nossa abor-dagem para as eleic¸˜oes presidenciais de 2014 e utilizar outros meios al´em de coment´arios de not´ıcias, tais como posts em redes sociais.

Referˆencias

Balahur, A., Steinberger, R., Kabadjov, M., Zavarella, V., Van Der Goot, E., Halkia, M., Pouliquen, B., and Belyaeva, J. (2010). Sentiment analysis in the news. In Procee-dings of the Seventh International Conference on Language Resources and Evaluation (LREC), volume 10, page 2216.

(10)

Castellanos, M., Dayal, U., Hsu, M., Ghosh, R., Dekhil, M., Lu, Y., Zhang, L., and Schrei-man, M. (2011). Lci: a social channel analysis platform for live customer intelligence. In Proceedings of the 2011 ACM SIGMOD International Conference on Management of data, SIGMOD ’11, pages 1049–1058, New York, NY, USA. ACM.

Guo, H., Zhu, H., Guo, Z., Zhang, X., and Su, Z. (2009). Product feature categorization with multilevel latent semantic association. In Proceedings of the 18th ACM Con-ference on Information and Knowledge Management, CIKM ’09, pages 1087–1096, New York, NY, USA. ACM.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H. (2009). The weka data mining software: an update. ACM SIGKDD Explorations Newsletter, 11(1):10–18.

Hu, M. and Liu, B. (2004). Mining and summarizing customer reviews. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’04, pages 168–177, New York, NY, USA. ACM.

Liu, B. (2012). Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers.

Liu, Q., Gao, Z., Liu, B., and Zhang, Y. (2013). A logic programming approach to aspect extraction in opinion mining. In Proceedings of the 2013 IEEE/WIC/ACM Internatio-nal Conferences on Web Intelligence, pages 276–283.

O’Connor, B., Balasubramanyan, R., Routledge, B. R., and Smith, N. A. (2010). From tweets to polls: Linking text sentiment to public opinion time series. ICWSM, 11:122– 129.

Pang, B. and Lee, L. (2008). Opinion mining and sentiment analysis. Found. Trends Inf. Retr., 2(1-2):1–135.

Qiu, G., Liu, B., Bu, J., and Chen, C. (2011). Opinion word expansion and target extrac-tion through double propagaextrac-tion. Computaextrac-tional Linguistics, 37(1):9–27.

Sapiras, L. and Becker, K. (2014). Identificac¸˜ao de aspectos de candidatos eleitorais em coment´arios de not´ıcias. In Anais do III Brazilian Workshop on Social Network Analysis and Mining - BraSNAM 2014.

Tsytsarau, M. and Palpanas, T. (2012). Survey on mining subjective data on the web. Data Min. Knowl. Discov., 24(3):478–514.

Tumasjan, A., Sprenger, T. O., Sandner, P. G., and Welpe, I. M. (2010). Predicting electi-ons with twitter: What 140 characters reveal about political sentiment. In ICWSM’10. Tumitan, D. and Becker, K. (2013). Tracking Sentiment Evolution on User-Generated

Content: A Case Study on the Brazilian Political Scene. In Anais do XXVIII Simp´osion Brasileiro de Banco de Dados, pages 135–144.

Tumitan, D. and Becker, K. (2014). Sentiment-based features for predicting election polls: a case study on the brazilian scenario. In Proceedings of the 2014 IEEE/WIC/ACM International Conferences on Web Intelligence, page 8p. IEEE Computer Society.

Referências

Documentos relacionados

Em primeiro lugar, faremos uma análise pontuando algumas considerações acerca do marco da Assistência Social dentro do contexto da Constituição Federal de 1988, destacando a

Raichelis 1997 apresenta cinco categorias que na sua concepção devem orientar a análise de uma esfera pública tal como são os conselhos: a visibilidade social, na qual, as ações e

Derivaram de ações capazes de interferir no dimensionamento desta unidade, especialmente que atuassem sobre as vazões e qualidades de água a demandar e

Se pensarmos nesse compromisso de engajamento como fator primordial para o exercício de ativismo pelas narrativas artísticas, a proposta de divisão dos conceitos

Justificativa: Como resultado da realização da pesquisa de Mestrado da aluna foram encontradas inconsistências na informação sobre o uso de Fitoterápicos pelos

Por outro lado, esta investigação concorre para a construção de uma linha de cuidados para a pessoa dependente e o familiar cuidador e para o planeamento de práticas educativas

Este dado diz respeito ao número total de contentores do sistema de resíduos urbanos indiferenciados, não sendo considerados os contentores de recolha

dois gestores, pelo fato deles serem os mais indicados para avaliarem administrativamente a articulação entre o ensino médio e a educação profissional, bem como a estruturação