• Nenhum resultado encontrado

4.4 Classificação de Sentimento

4.4.5 Criação e Análise do Grafo de Replies

O último submódulo deste processo de classificação de sentimento analisa as estruturas de replies presentes nos debates. Como visto no capítulo3, alguns trabalhos já utilizaram esta estrutura para tentar inferir concordância/discórdia entre os participantes no debate. Contudo, neste módulo, os replies irão formar uma rede de discórdia entre os participantes do debate.

Um dos sites de debates que foram utilizados para a criação dos corpora possui uma característica peculiar quanto a estrutura de replies. No site convinceme.net, quando um indivíduo discorda do ponto de vista de outro participante do debate, o usuário pode enviar uma mensagem direcionada ao post do participante em que ele discorda. Se houver uma réplica, esta mensagem será uma nova thread com o link rebuttal, que é uma mensagem de discórdia à argumentação prévia dentro do debate. Desta forma, o convinceme.net garante que a estrutura de replies só tenha um nível. Dentro desse contexto, o método proposto pra este módulo é responsável por identificar quais posts são do tipo rebuttal, e a quais comentários estes replies se direcionam, e assim, inferir a classificação dos posts.

Como visto na figura 4.7, a entrada deste submódulo recebe a classificação dos posts, juntamente com os links de replies, i.e. os posts identificados como rebuttal são novamente analisados a fim de identificar a qual comentário este reply foi direcionado. O quadro 4.8 apresenta exemplos de comentários e de replies do debate Windows vs. Mac6. Após esta análise nos replies, cria-se uma matriz de adjacência para a representação do grafo.

A matriz de adjacência é definida como uma matriz n x n A(G)=[aij], onde i = j = 0 ... n, sendo n o número de vértices, e aija aresta que liga os vértices vie vj. Nesta matriz, se aijtiver valor igual a 1, isso significa que os vértices vi e vj são adjacentes. Caso aij seja igual a 0, os vértices vie vjnão são vértices adjacentes, e dessa forma não haverá ligação entre eles. Os vértices do grafo formado pela matriz de adjacência são os posts dos debates, e as arestas são as ligações entre os posts e os replies identificados nesta rede de discórdia.

Após a fase de criação do grafo, o passo seguinte é classificar os posts do debate de acordo com a de entrada deste submódulo (classicação do submódulo anterior), levando em conta as ligações formadas na fase de criação do grafo. Como dito anteriormente, os replies presentes no convinceme.net são mensagens de dicórdia a outros comentários dentro do debate, e portanto, suas stance são contrárias. Dessa forma, a análise feita sobre o grafo de replies percorre todos vértices do grafo, e verifica a existência de alguma

4.4. CLASSIFICAÇÃO DE SENTIMENTO

Quadro 4.8:Exemplos de posts e replies do debate Windows vs. Mac

Usuário Postura Rebuttalpara Posts

shem Windows is Better —— For all my gaming needs, windows has kept me happy for a long long time.

xboteb13 Mac is Better shem You can dual-boot Windows on a Mac (though I don’t see why you would). The only reason you think games are better on a PC is because they have better graphics cards. BUT this does NOT prove that Windows (an operating system) is better than Mac OS (an operating system). You are saying that the hardware that has Windows installed on it is better. That’s fine.

gaara42 Windows is Better —— Forgot to add this in my last argument, but Windows also has games, were as Macs don’t have nearly as many. For many people, such as myself, this is a big differentiator for with less games the Macs don’t fulfil the needs of certain people.

xboteb13 Mac is Better gaara42 "Forgot to add this in my last argument, but Windows also has games, were as Macs don’t have nearly as many. For many people, such as myself, this is a big differentiator for with less games the Macs don’t fulfil the needs of certain people."

Off of this...

1) Many game developers create games for Windows, but many also create games for universal platforms, meaning Mac and Windows.

2) You can dual-boot Windows on a computer running Mac OS.

ligação a outro vértice. Se o vértice (origem) possuir uma arestra (i.e. é um comentário que recebeu um reply), é verificado a stance do vértice adjacente, esta postura é invertida e então é atribuída ao vértice origem.

4.5

Considerações Finais

Neste capítulo, foi apresentado o ASDP, um processo de Análise de Sentimento em cima de debates não ideológicos. Através do uso de padrões linguísticos, o protótipo ASDP propõe um método para a classificação de sentimento em debates polarizados. As principais características deste protótipo são: a utilização de padrões linguísticos para identificação de opiniões em debates não polarizados, uma abordagem para Resolução de Anáfora, a Análise de Concessões, e por último, uma Análise em cima da Rede de Rebuttal.

Como foi abordado anteriormente, o ASDP não possui a etapa de extração de ca- racterística, sendo uma tarefa proposta como trabalho futuro. A etapa de detecção de subjetividade consiste apenas em verificar se os posts possuem ou não opiniões através do uso do léxico subjetivo. Os posts que contêm palavras opinativas serão analisados, e os comentários sem opiniões serão automaticamente removidos.

No próximo capítulo, serão apresentados os resultados dos experimentos, como também comparações com outras duas abordagens encontradas na literatura, o trabalho de (Somasundaran e Wiebe,2009), e o trabalho de (Walker et al.,2012).

5

Experimentos e Resultados

Este capítulo apresenta os experimentos realizados para avaliação da ASDP, processo proposto para Análise de Sentimento em Debates Polarizados.

Primeiramente, a seção5.1detalha a base de dados utilizada para a experimentação. Em seguida, a seção 5.2apresenta as métricas usadas na avaliação dos experimentos realizados. A seção5.3descreve os experimentos e os resultados obtidos, e a seção5.4 mostra que os resultados obtidos pelo ASDP estão próximos aos resultados de outros trabalhos da literatura. Finalmente, a seção5.5traz as considerações finais deste capítulo.

Foram realizados três experimentos, sempre utilizando um léxico (dicionário) sub- jetivo para auxiliar a determinar a polaridade dos textos. Utilizamos o léxico MPQA (Wilson et al.,2005) ampliado por um pequeno dicionário auxiliar de gírias com polari- dades. Esse dicionário de gírias foi criado durante a realização do mestrado, com base nos textos dos debates estudados. Nesses textos, o uso de gírias é bastante comum, pois os participantes dos debates tendem a usarem gíria com uma carga opinativa.

Conforme foi apresentado no capítulo4, a etapa de classificação de sentimento do ASDP possui cinco submódulos (ver figura 4.7). Para a realização dos testes foram propostas três configurações diferentes.

O primeiro experimento classifica o sentimento dos posts de debates somente com base no léxico subjetivo. O segundo experimento trata da resolução de anáfora e faz a análise de concessões dos textos dos debates. A resolução de anáfora é responsável por determinar a qual entidade um determinado pronome se refere (Mitkov,1999). Já concessões ocorrem quando um autor, apesar de enaltecer alguns pontos de vista do lado oposto do debate, permanece fiel às suas convicções, e não troca de lado no debate.

No terceiro experimento, adicionamos a informação dos links de rebuttal dos debates do site convinceme.net. Estes links são replies sobre alguns comentários nos quais o autor pode discordar diretamente de uma argumentação dada por outro participante do debate.

Para analisar essa informação, foi necessário mapear todos os posts do debate em um grafo. Cada nó do grafo representa o post e o respectivo autor. As arestas diretamente conectadas representam as ligações entre os posts e os replies, os quais, por sua vez, representam quem direcionou um critica para outrem.

5.1

Corpora de Debates

Os corpora de debates foram criados a partir dos sites de discussão online convinceme1e createdebate2. Outros sites de debates polarizados são: forandagainst.com, e debatepoli- tics.com. Os textos extraídos foram sobre debates não ideológicos, que são argumentações contra ou a favor entre tópicos referentes a produtos/marcas e detalhes técnicos.

Os textos dos debates foram extraídos da Web por um crawler. Ao total, foram reunidos cerca de 807 posts de debates entre produtos como: 225 comentários no debate Internet Explorer vs. Firefox, 88 comentários no debate PlayStation 3 vs. Nintendo WII, entre outros. A tabela 5.1apresenta a quantidade de posts extraídos por debate pelo Webcrawler.

Tabela 5.1 Quantidade de posts extraídos por debate.

Debate Número de Posts

Desenvolvimento

Mac OS X Leopard vs. Windows Vista 58

Mac vs. Pc 17

Windows vs. Mac 27

Experimentos

Firefox vs. Internet Explorer 225 iPhone vs. Blackberry 27

Opera vs. Firefox 16

Sony Ps3 vs. Nintendo Wii 88 Sony Ps3 vs. Xbox 360 349

Nos sites convinceme.net e createdebate.com, o usuário que iniciar um debate deve fornecer um título que irá informar o tópico em discussão no debate. Em cada debate, existem duas colunas que servem para separar as argumentações a favor das argumen- tações contrárias sobre o mesmo tema. Além disso, o usuário tem direito de discordar

1www.convinceme.net 2www.createdebate.com

5.1. CORPORA DE DEBATES

diretamente de uma argumentação do debate utilizando os replies. No convinceme.net, o rebuttalé um reply direto ao post, no qual o autor pode argumentar diretamente sobre o post em questão, ou até mesmo sobre o autor deste. O quadro 5.1 apresenta alguns postsque são rebuttals presentes no debate Internet Explorer vs. Firefox, e o quadro 5.2 apresenta exemplos de posts comuns, ou seja, não são do tipo rebuttal.

Quadro 5.1: Exemplos de posts de rebuttal do debate Firefox vs. Internet Explorer.

Stance Post

Pro-Firefox Firefox is Free Software. Nothing more. Pro-Internet Explorer when have you ever paid for MSIE? lol. Pro-Firefox Thats the funniest thing i’ve read today. Pro-Internet Explorer I like those cute little popup windows. You

don’t get those with Firefox.

Quadro 5.2: Exemplos de posts Pro-Firefox, Pro-Internet Explorer.

Stance Post

Pro-Firefox Beginner use IE, Advance user choose Fire- fox!

Pro-Internet Explorer IE is much easier to use. It also is more visually pleasing. It is much more secure as well.

Pro-Firefox I can reconfigure Firefox very easily to meet my needs as my life changes. If I need great SEO extensions I can get them. If I need an HTML color picker instead when I get more involved with other elements of site development, FF is easily remodeled to suit my new browsing needs. The breadth and variety of FF add-ons is a critical advantage. Pro-Internet Explorer I used to be a firefox user but I only have

2GBs of RAM on my system and I like to use more than one program at a time. Firefox sucks up way too much memory to justify the one or two advantages.

Apesar dos sites de debate convince.net e createdebate.com fornecerem uma marca- ção inicial determinada pela coluna escolhida pelo usuário, todos os posts foram marca- dos manualmente com uma das seguintes classificações: pro-produt_1, pro-produto_2, sem_opinião (none). A marcação dos textos foi feita manualmente porque, apesar dos postsestarem organizados no site de forma que suas localizações nas colunas do site

representem sua marcação, muitos usuários, por falta de conhecimento ou por negligên- cia, acabam argumentando a favor de (ou contra) um produto na coluna onde deveriam argumentar contra o (ou a favor do) outro produto. Além disso, foram também retiradas manualmente as ironias, visto que esse tipo de post não são tratados neste trabalho.

Para facilitar a realização dos experimentos, todos os posts selecionados foram armazenados em planilhas excel. Para trabalhar com esses dados nesse tipo de arquivo, utilizamos a API Apache POI3. Todos os dados de cada post são armazenados em uma linha da planilha, que está organizada em cinco colunas. O quadro 5.3 mostra quais são as informações armazenadas para cada post. Todas as planilhas com os corpora estão disponíveis na Web4.

Quadro 5.3: Dados armazenados sobre cada post na base de dados. Número Autor Título Marcação manual Texto

A primeira coluna representa somente a numeração do post no arquivo, a fim de manter uma ordem. A segunda coluna contém o nome do autor. Esta informação é utilizada para geração da rede de rebuttal, para auxiliar a classificação dos posts no debate. O nome do autor é utilizado para identificar para qual postagem está sendo direcionado o rebuttal.

As colunas título e texto são referentes ao título e ao texto do post respectivamente. A coluna da marcação manual representa a categoria de cada post definida manualmente. Por exemplo, no debate “Internet Explorer vs. Firefox”, um post que é favorável ao Firefox receberá marcação de “firefox”, e caso o post seja pró-Internet Explorer, sua marcação será “internetexplorer”.