• Nenhum resultado encontrado

Somasundaran e Weibe conduziram duas experimentações com seus corpora de debates. A primeira configuração utiliza somente as informações do dicionário de argumentações polarizadas. Na segunda configuração, as autoras buscam identificar a polaridade(positiva , negativa , ou neutra) de cada sentença dos posts e então, atribuir esta polaridade às palavras de classes abertas presentes em cada sentença analisada. Para esta tarefa, Somasundaran e Weibe identificaram as palavras opinativas presentes nas sentenças dos posts com o auxílio do léxico MPQA (Wilson et al., 2005). Assim, a polaridade de cada sentença é definida pela soma da polaridade das palavras opinativas. Para a classificação das posturas dos posts nos debate, Somasundaran e Weibe utiliza- ram o algoritmo de aprendizagem supervisionada SVM da ferramenta Weka9(Hall et al., 2009). O melhor resultado obtido pelas autores foi 70,59% de acurácia.

Outra linha de trabalho relacionada à AS em debates ideológicos é a detecção de subgrupos de debatedores que possuem pontos de vista distintos (Abu-Jbara et al.,2012). Para detectar as posturas dos usuários, o sistema de Abu-Jbara et al. utiliza uma aborda- gem baseada em regras para a identificar as opiniões relacionadas, bem como os tópicos sendo discutidos. Posteriormente, os autores contabilizam a frequência com que cada usuário interage ou menciona um assunto, e a quantidade de vezes que os usuários expres- sam aspectos positivos e negativos sobre cada tópico do debate. Os clusters são formados através de algoritmos de aprendizagem não supervisionada10.

3.3

AS em Debate Não Ideológicos

Esta seção apresentará duas abordagens para Análise de Sentimento em debates não- ideológicos, i.e., aqueles debates sem conteúdo político (e.g., debates sobre produtos/- marcas, animais, personagens de filmes, etc.).

O trabalho deWalker et al.(2012), já mencionado aqui nesta dissertação, investigou a polaridade de 14 debates distintos, sendo 10 debates ideológicos, e 4 não ideológicos. Para a classificação automática, Walker et al. conduziram dois experimentos utilizando diversos algoritmos de Aprendizagem Supervisionada. O primeiro experimento foi conduzido baseado nos atributos ilustrados na figura3.2, com exceção do último atributo.

Para a segunda experimentação, os autores construíram um grafo para representar os repliespresentes nos debates, e além disso acrescentaram o atributo contexto, que foi excluído no primeiro momento. Este atributo é responsável por adicionar as informações

9http://www.cs.waikato.ac.nz/ml/weka/ 10http://java-ml.sourceforge.net/

Figura 3.2 Lista de atributos utilizados pelo classificador do trabalho de (Walker et al.,2012). Na coluna da esquerda estão os atributos, e na coluna da direita, existe uma breve explanação sobre cada um dos atributos.

do post pai, i.e., o comentário que está no nível logo acima no grafo.

Figura 3.3 Resultados do primeiro experimento desenvolvido em (Walker et al., 2012). Os primeiros quatro debates que estão sobre a linha horizontal são debates não ideológicos. Na coluna da esquerda são apresentados os valores das acurácias relacionadas aos atributos utilizados na classifiação. Os demais debates apresentados são ideológicos.

Inspirado no trabalho de Thomas et al. (2006), um outro experimento teve como foco a classificação dos posts agrupados por autores. Em seguida, eles estenderam o experimento aplicando o algoritmo MinCut (Bansal et al.,2008). Contudo, os resultados dessa experimentação não foram divulgados pelos autores pois, segundo eles próprios, não houve melhoras na acurácia desta experimentação.

As figuras3.3e3.4apresentam os resultados deWalker et al.(2012). Como é possível ser observado na figura 3.3, os resultados obtidos sobre os debates não ideológicos (67,69%) são ligeiramente superiores em relação aos resultados obtidos com os debates ideológicos (65,38%). Já a figura3.4mostra os resultados do segundo experimento, e como é possível ver, este resultados se mostraram superiores em relação aos valores

3.3. AS EM DEBATE NÃO IDEOLÓGICOS

Figura 3.4 Resultados do segundo experimento desenvolvido em (Walker et al.,2012).

apresentados no experimento anterior. As melhores taxas de acurária foram: 75,38% nos debates não ideológicos, e 69,23% nos debates ideológicos. Em relação ao corpus Firefox vs. Internet Explorer, que é explorado tanto nesta dissertação como no trabalho deSomasundaran e Wiebe(2009), obtive 63,75% na classificação sem contexto. Já na classificação com contexto, sua melhor acurácia foi 66,25%.

Uma das principais contribuições da área, e referência base para esta pesquisa de mestrado, é o trabalho de Somasundaran e Wiebe(2009). As autoras desenvolveram uma abordagem não-supervisionada para a classificação das posturas em posts de debates polarizados com dois tópicos (e.g., iPhone x Blackberry). Para a realização deste trabalho, elas coletaram textos de debates sobre produtos no site convinceme11.

Tabela 3.1 Quantidade de posts nos corpora de debates de Somasundaran e Weibe (Somasundaran e Wiebe,2009).

Tópicos dos debates Total de Posts utilizados de cada debate Firefox vs. Internet Explorer 169

Blackberry vs. iPhone 24

Sony Ps3 vs. Nintendo Wii 68

Opera vs. Firefox 16

Windows vs. Mac 27

As autoras disponibilizaram seus corpora para livre download12. A tabela3.1apre- senta os tópicos dos debates dos corpora, e a quantidade posts em cada corpus. As informações aqui apresentadas fazem referência aos dados divulgados pelas autoras.

11www.convinceme.net

Para identificar as opiniões contidas nos debates, as autoras buscaram no texto palavras que estão contidas no léxico subjetivo MPQA (Wilson et al.,2005). Se uma palavra desse léxico é identificada no texto, logo, atribui-se a esssa palavra a sua polaridade no dicionário, podendo ser positiva (+), negativa (-), ou neutra (*). A seção3.4irá apresentar esse dicionário com mais detalhes, uma vez que esse léxico foi utilizado neste trabalho de mestrado na etapa de classificação de sentimento.

Para emparelhar essas opiniões às entidades (atributos) que elas avaliam, Somasunda- ran e Weibe criaram um sistema baseado em regras sintáticas, e utilizaram o parser de dependência de Stanford13para extrair essas informações. A figura3.5apresenta algumas das regras desenvolvidas pelas autoras.

Figura 3.5 Exemplos de regras sintáticas utilizadas por Somasundaran e Weibe.

Assim que os pares (aspecto-opinião) são criados, as autoras abstraem suas represen- tações para aspecto+ ou aspecto-, de acordo com a polaridade das opiniões. Logo, o par (popup-annoying)será reescrito como popup-.

Em uma segunda etapa do trabalho, Somasundaran e Weibe mineram a Web em busca de identificar as preferências expressas pelos participantes dos debates em suas argumentações. As autoras defendem que os participantes de debates tendem a destacar os atributos que são fundamentais para suas posturas, expressando opiniões positivas sobre os aspectos que os agradam, e opiniões negativas sobre os atributos que os desagradam. Para realização desta tarefa, as autoras reuniram textos de weblogs e fóruns sobre os tópicos relacionados aos debates sendo analisados (e.g., iPhone e Blackberry), e identificaram os pares (aspecto-opinião) de maneira semelhante ao procedimento usado nos textos dos debates. Para cada aspecto-i dos pares encontrados no corpus da Web, é

3.3. AS EM DEBATE NÃO IDEOLÓGICOS

calculada a seguinte probabilidade condicional (Eq. 3.1):

P topico´ q j aspectoip ! = #topico´ qj, aspectoip #aspectoip  3.1 Onde p = q = +, -, * denotam a polaridade dos aspectos e tópicos, respectivamente; j = 1 , 2 e i = 1 ... M, onde M representa o número de aspectos individuais dentro do corpus.

A figura3.6apresenta os resultados de algumas dessas probabilidades. De acordo com a figura, podemos destacar que o atributo email+ é mais frequente em textos com aspectos positivo sobre o tópico Blackberry do que do tópico iPhone. De maneira semelhante, o atributo keyboard+ também é mais comum em textos sobre Blackberry do que em textos relacionados ao iPhone.

Figura 3.6 Resultados das probabilidades apresentadas no trabalho de Somasundaran e Weibe sobre o debate iPhone vs. Blackberry

Na etapa de classificação dos posts, as autoras formularam um problema de Progra- mação Linear Inteira14. Em um de seus experimentos, elas contabilizam as concessões encontradas nos corpora com o auxílio de uma lista de conectivos de discurso Penn Discourse Treebank(Prasad et al.,2008). A estratégia básica deste procedimento foi determinar a posição dos conectivos no texto, e inverter a(s) polaridade(s) do(s) par(es) de uma das sentenças. Se o conectivo estiver no meio da sentença, os pares pertencentes à sentença que precede o conectivo terão suas polaridades invertidas. Se o conectivo estiver no início da sentença, esta é separa em uma sub-sentença até primeira vírgula encontrada, e todos os pares nesta sub-sentença terão suas polaridades invertidas.

A contribuiçãoSomasundaran e Wiebe(2009) foi apresentada em dois experimentos (OpPr, e OpPr + Disc) . Como visto na figura 3.7, no OpPr onde a classificação dos postsé conduzida sem a análise de concessões, e o melhor resultado obtido foi 66,67% de acurácia no corpus Windows vs.Mac. Já o OpPr + Disc faz a análise de concessões

Figura 3.7 Resultados deSomasundaran e Wiebe(2009)

e também obteve o resultado de 66,67% de acurácia no mesmo corpus. Os números apresentados no corpus Opera vs. Firefox são superiores em relação aos outros corpora, porém esses resultados são obtidos sobre a análise de quatro posts deste debate.