• Nenhum resultado encontrado

A.1

Resumo

Este trabalho tem o objetivo de formar um córpus de tweets sobre comentários de pro- gramas televisivos, anotados quanto a sua polaridade, ou seja, se transmitem opinião negativa, positiva ou neutra. A metodologia de anotação desse córpus prevê uma parcela anotada ma- nualmente e uma parcela anotada automaticamente por meio de classificadores baseados em Aprendizado de Máquina.

Este documento descreve as regras de anotação manual de um trecho do córpus, bem como ilustra, com exemplos do corpus, alguns conceitos fundamentais para a anotação e alguns fenômenos observados empiricamente nos documentos coletados.

A.2

Origem dos dados

Os dados do corpus foram extraídos da rede social Twitter usando como palavras-chaves algumas hashtags de programas televisivos em exibição. Tweets de usuários “verificados”, ou seja, que representam uma entidade (celebridades, programas, emissoras) foram removidos, assim como RTs (retweets), que são compartilhamentos de tweets já publicados, para evitar enviesamento e replicação de documentos.

Nesta etapa as entidades foram mantidas, assim como as hashtags e os usuários das pos- tagens. O anotador se compromete a não divulgar esses dados, mantendo o sigilo e a privacidade dos usuários da rede social.

A.3

Tarefa

A tarefa consiste na anotação de blocos de tweets, separados em "Fases". As fases são sequenciais, de modo que apenas quando o anotador tiver anotado todos os tweets de uma fase é que ele terá acesso ao bloco da fase subsequente (no entanto, é permitido voltar a uma fase anterior para eventuais correções).

A Fase 1 compreende um bloco comum a todos os anotadores, que servirá para o cálculo de concordância. As demais são distintas para os diferentes anotadores.

Em cada etapa, e para cada tweet, o anotador deve escolher necessariamente entre 3 opções - Negativo, Neutro ou Positivo - dependendo de sua percepção quanto à polaridade do sentimento do autor, subjacente ao texto apresentado. Apesar de envolver subjetividade, ambiguidade, dúvidas decorrente do vocabulário, da escassez de contexto, etc., o anotador deve necessariamente escolher uma das opções.

Em caso de se sentir completamente dividido entre mais de uma opção, deve escolher uma delas e também assinalar o quadro "Não tenho certeza", que fica abaixo das 3 opções principais. Apenas nesse caso é que esse quadro deve ser assinalado, ou seja, será natural ter dúvidas entre mais de uma opção, mas na maioria dos casos, haverá uma tendência para uma delas. Nesses casos, não é preciso informar a falta de certeza. Por exemplo, ao anotar "Pra mim #HellsKitchenBR é pau a pau com #MasterChefBr bora fazer um disputa conjunta!", percebe- se que há uma opinião implícita sobre os programas, que, para um anotador, poderia tanto ser positiva quanto negativa. Nesse caso, ele deve escolher uma delas e assinalar "Não tenho certeza". O conjunto de casos assinalados dessa forma poderão ser úteis para nos esclarecer sobre eventuais erros dos sistemas automáticos de anotação.

A classe Positiva é caracterizada por textos que descrevem sentimentos de prazer, satis- fação, elogio, recomendação. Nesse domínio, tweets positivos podem se referir ao programa ou a qualquer outra entidade do domínio do programa (apresentador, atração, quadro, música, audiência, etc.). Comparações positivas com outros programas ("esse show é muito melhor que aquele") ou com edições anteriores ("hoje o programa está muito melhor que ontem") também refletem positividade. Expressões factuais eventualmente têm polaridade, como em ("o programa começou mais cedo, vou poder assistir inteiro"), que indica uma satisfação do autor. O uso de emoticons também ajudam a atribuir polaridade positiva, como em "Essas músicas ".

Uma pergunta que talvez ajude o anotador quanto a esta classe é:

“O tweet reflete uma intenção do autor em mostrar um sentimento positivo?” A classe Negativa é o oposto da anterior, ou seja, deve ser atribuída aos tweets cujos tex- tos descrevem sentimentos negativos, de insatisfação, discordância ou desgosto pelo programa ou por qualquer outra entidade do domínio do programa (apresentador, atração, quadro, música, audiência, etc.). Negatividade pode ser explícita ("#altashoras de hoje ta bem ruim hein..

A.4. Exemplos 125

?"), ou pode estar implícita na forma de uma sugestão (“poderiam melhorar esse apresentador, né?”), na insatisfação com alguma atração (“esse quadro é horroroso”) ou na discordância de algo referente ao programa ("por que continuam falando disso? Já deu desse assunto!”). Informações factuais também podem carregar polaridade negativa, como em ("entro no twitter e recebo um spoiler de #HellsKitchenBR no meio da fuça.... –’").

Uma pergunta que talvez ajude o anotador quanto a esta classe é:

“O tweet reflete uma intenção do autor em mostrar um sentimento negativo?” A classe Neutra deve ser escolhida sempre que o anotador não conseguir identificar no texto uma opinião (positiva ou negativa) explícita ou implícita. Incluem as expressões factuais típicas, que não carregam polaridade, como em ("Começou o programa."), opiniões imprecisas, como em ("não sei o que pensar desse cantor"), comentários aos quais não é possível atribuir polaridade, com em ("além do que foi dito no programa, gostaria de adicionar Y e Z") e ("cheguei em casa e está passando o programa, vou assistir").

Uma sentença que talvez ajude o anotador quanto a esta classe pode ser:

“O tweet não reflete nem sentimento positivo, nem sentimento negativo do autor.”

A.4

Exemplos

∙ Classe positiva

– Gostei muito desse óculos do @lopesjoca tá lindo com cara de intelectual ? #VídeoShowAoVivo – Essa mulher que faz a voz da siri e do google tradutor é mó linda #TheNoite

– Eu amo as músicas do Luan, na moral #altashoras

– um dos melhores comediantes do brasil, tirullipa!! #TheNoite

– Luan e Justin,2 cantores pra quem já torci o nariz e hj canto em voz alta: faxinando, no banheiro,no carro... #LuanNoAltasHoras #altashoras

– Cara, só tou dando risada boa hoje no programa #Altashoras xD – #HellsKitchenBR Amando o programa de hoje , só comida boa. – #AltasHoras está maravilhoso com @danielamercury

∙ Classe negativa

– Espero que o #DomingoLegal se reinvente e volte melhor depois dessa chuva de reprise. Mistura jornalismo e entretenimento que dá uma virada.

– Todo mundo começou a rir quando Luan disse que tinha ido pro Paraguai, incrível como brasileiro é baba ovo da america do norte #altashoras

– Depois que a @flora_reginatto saiu esse programa perdeu toda a graça que tinha, não assisto mais!! #HellsKitchenBR

– Nunca fiquei tão bravo numa eliminação quanto hoje. Mas fazer o que, né? #Hells- KitchenBR

– Falando sério, essa chef me irrita as vezes haha #HellsKitchenBR – Porque o @oserginho grita tanto? #altashoras

– #MasterChefBR CADE O SOMMMMM????? – Mano Isso ai tá muito errado #HellsKitchenBR

– O programa tá religioso Jesus é Abraão . Socorro #AltasHoras ∙ Classe neutra

– Rio de Janeiro || 14h08 #VídeoShowAoVivo 16.5, #BalançoGeralRJ 10.1, #ClubeDo- Chaves 9.1

– Daqui a pouco, logo após #TheNoite fique bem informado durante toda a madrugada com o #SBTNoticias, continue no SBT

– #HellsKitchenBR vi essa tag achei que era de demolidor

– eu e minha mãe ficamos imitando o jacquin fazendo o barulhinho com a língua quando ele tá provando a comida #MasterChefBR

– ela ta muito diferente..fico impressionada #TheNoite – Vamos acorda esse prédio!!!!! #AltasHoras @luansantana

– vamo preparando o core pra ver quem vai sentar na graxa #MasterChefBR – #Thenoite Do crente ao ateu ninguém explica Deus

– Hoje a comida deve estar boa... Até agora ninguém reclamou de nada #HellsKit- chenBR

127

APÊNDICE

B