• Nenhum resultado encontrado

3.3 Primeiras An´ alises aos Dados Recolhidos

3.3.2 Emo¸c˜ oes

Para se obter a emo¸c˜ao representativa de um tweet ´e necess´ario analisar o seu conte´udo. Tal como existem l´exicos que associam defini¸c˜oes ou informa¸c˜ao morfol´ogica `as palavras de uma l´ıngua, existem l´exicos que lhes associam informa¸c˜ao relativa `as emo¸c˜oes normalmente transmitidas. Dada a sua simplicidade, a explora¸c˜ao de l´exicos deste tipo em an´alise de sentimentos ou reconhecimento de emo¸c˜oes acaba por ser bastante utilizada. Isto, se os l´exicos do tipo desejado, efetivamente, existirem. Neste contexto, existem l´exicos que associam emo¸c˜oes tanto a palavras como a emojis e emoticons, o que faz sentido dada a interliga¸c˜ao entre muitos destes s´ımbolos e a emo¸c˜ao que se pretende transmitir. A emo¸c˜ao pode ser representada atrav´es de uma simples palavra (modelos categ´oricos) ou atrav´es de valores de valˆencia, ativa¸c˜ao e outros.

No l´exico LEED (Rodrigues et al., 2018a), s˜ao apresentados emojis com o mesmo alias, mas com pequenas diferen¸cas nas imagens e nos valores de valˆencia e ativa¸c˜ao. Tal se deve ao facto da lista incluir variantes de emojis de v´arias plataformas (Android, iOS, Facebook, Emojipedia). N˜ao incluindo as pr´oprias do Twitter, foi calculada a m´edia dos valores para o mesmo alias, e utilizada na an´alise com l´exicos.

Para palavras, foi utilzado o l´exico ANEW-PT, original em l´ıngua inglesa e adaptado para a portuguesa de forma controlada por Soares et al. (2012). Mais recentemente foi

Defini¸c˜ao de Objetivos publicado um l´exico, NRC-VAD 17, que inclui um maior n´umero de termos, mas cuja

vers˜ao em portuguˆes decorre de uma tradu¸c˜ao autom´atica. Por essa raz˜ao, apresentam-se os resultados com base no l´exico ANEW-PT. O l´exico ANEW-PT n˜ao inclui diferentes valores para a mesma palavra em inglˆes. No entanto, em alguns casos foi obtida a mesma tradu¸c˜ao portuguesa para distintas palavras em inglˆes, o que obrigou a fazer a mesma pondera¸c˜ao entre valores como no caso dos emojis.

Na an´alise que recorre a l´exicos torna-se necess´ario utilizar a vers˜ao lematizada dos tweets, porque ´e nessa forma que as palavras est˜ao listadas no l´exico.

Existem v´arias formas de conciliar as palavras e os emojis/emoticons para se obterem as coordenadas resultantes por tweets. A forma mais ´obvia ´e, num s´o c´alculo, contabilizar todos os elementos presentes e calcular a m´edia dos valores de valˆencia e ativa¸c˜ao. Outra seria contabilizar apenas os emojis/emoticons presentes, e na sua ausˆencia, contabilizar as palavras. Os resultados apresentados aqui decorrem de uma l´ogica diferente, definida ap´os um conjunto preliminar de experiˆencias:

1. Dada a forte liga¸c˜ao entre emojis/emoticons e emo¸c˜oes (veja-se, por exemplo Wood and Ruder, 2016), se existir um emoji/emoticon no final do tweet, os seus valo- res de valˆencia e ativa¸c˜ao s˜ao atribu´ıdos ao tweet. Se v´arios elementos gr´aficos se encontrarem no final do tweet, ´e calculada a m´edia dos seus valores.

2. Se n˜ao existir um emoji/emoticon no final, ´e calculada a m´edia de todos os elementos gr´aficos presentes no tweet.

3. S´o no caso de n˜ao existirem elementos gr´aficos presentes ´e que se calcula a m´edia dos valores das palavras do tweet presentes no l´exico ANEW-PT.

4. No caso de ausˆencia de elementos inclu´ıdos nos l´exicos, ´e atribu´ıda a neutralidade de valˆencia e ativa¸c˜ao.

Os resultados de todas as l´ogicas aqui referidas s˜ao muito semelhantes. A l´ogica enu- merada foi escolhida por apresentar uma melhoria residual de desempenho quando testada no conjunto anotado via crowdsourcing, que ´e tratado no cap´ıtulo seguinte. De qualquer maneira, o desempenho ´e claramente baixo, obtendo-se uma medida F1 de 0.27 para valˆencia e 0.05 para ativa¸c˜ao, quando testada sobre a totalidade do conjunto anotado, sem valida¸c˜ao cruzada. Nas mesmas condi¸c˜oes e sem o uso da melhor combina¸c˜ao de algoritmo e do tipo de features, foram obtidas atrav´es de classifica¸c˜ao supervisionada, as medidas F1 de 0.95 e 0.94, para valˆencia e ativa¸c˜ao, respetivamente, o que levou mais `a frente a rejeitar a abordagem baseada em l´exicos.

A figura 3.1 apresenta o espectro emocional simplificado a trˆes valores de valˆencia e de ativa¸c˜ao.

De seguida ´e apresentada a ordena¸c˜ao decrescente das percentagens dos grupos emo- cionais de valˆencia negativa:

V-A+ (vermelho): psor´ıase (16.8%), asma (16.3%), dermatite at´opica (14.1%), di- abetes (11.8%), urtic´aria (8.7%), vitiligo (5.1%).

V-A0 (laranja): nenhum conjunto alcan¸cou 0.1% nesta categoria.

V-A- (amarelo): asma (3.63%), psor´ıase (2.25%), dermatite at´opica (2.24%), ur- tic´aria (2.21%), diabetes (1.76%), vitiligo (1.38%).

Figura 3.1: Espectro emocional do conjunto total de tweets respectivo a cada doen¸ca, por todos os quadrantes considerados e suas fronteiras. Resultados obtidos da an´alise de l´exicos LEED e ANEW-PT.

Destaca-se a grande propor¸c˜ao de tweets de valˆencia neutra (cinzento), e a maior propor¸c˜ao de tweets identificados com valˆencia positiva (azul e verde) em rela¸c˜ao aos tweets identificados com valˆencia negativa (amarelo e vermelho).

A propor¸c˜ao de tweets associada `as fronteiras (ativa¸c˜ao m´edia) dos quadrantes ver- melho e amarelo (V-A0, laranja) e dos quadrantes azul e verde (V+A0, azul-esverdeado) n˜ao s˜ao percet´ıveis, porque esta simplifica¸c˜ao n˜ao ´a adequada aos valores obtidos pelos l´exicos: as regi˜oes interm´edias s˜ao caracterizadas por um s´o valor discreto e n˜ao um inter- valo cont´ınuo de valˆencia/ativa¸c˜ao.

Tendo em conta a an´alise de t´opicos, a grande propor¸c˜ao de tweets neutros percet´ıvel nos espectros emocionais parece estar associada `a presen¸ca de tweets que n˜ao mencionam o estado de sa´ude pessoal do autor. Assim se evidencia de forma especial nos conjuntos respetivos `as duas doen¸cas com maior propor¸c˜ao de tweets neutros: urtic´aria, pelo uso conhecido da doen¸ca no sentido figurado; e vitiligo, por um grande n´umero de publica¸c˜oes que comentam a mudan¸ca da colora¸c˜ao de pele de Michael Jackson, ou fazem referˆencia a Winnie Harlow, uma modelo famosa que porta vitiligo.