• Nenhum resultado encontrado

Um estudo sobre a classificação de polaridade de emojis em postagens relacionadas ao uso de sistemas

N/A
N/A
Protected

Academic year: 2021

Share "Um estudo sobre a classificação de polaridade de emojis em postagens relacionadas ao uso de sistemas"

Copied!
51
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO CEARÁ CAMPUS RUSSAS

CURSO DE GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

ISAIAS FERREIRA SOARES

UM ESTUDO SOBRE A CLASSIFICAÇÃO DE POLARIDADE DE EMOJIS EM POSTAGENS RELACIONADAS AO USO DE SISTEMAS

RUSSAS 2019

(2)

ISAIAS FERREIRA SOARES

UM ESTUDO SOBRE A CLASSIFICAÇÃO DE POLARIDADE DE EMOJIS EM POSTAGENS RELACIONADAS AO USO DE SISTEMAS

Trabalho de Conclusão de Curso apresentado ao Curso de Graduação em Ciência da Computação do Campus Russas da Universidade Federal do Ceará, como requisito parcial à obtenção do grau de bacharel em Ciência da Computação. Orientadora: Profa. Dra. Marília Soares Mendes

RUSSAS 2019

(3)

Dados Internacionais de Catalogação na Publicação Universidade Federal do Ceará

Biblioteca Universitária

Gerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)

S654e Soares, Isaias Ferreira.

Um estudo sobre a classificação de polaridade de emojis em postagens relacionadas ao uso de sistemas / Isaias Ferreira Soares. – 2019.

50 f. : il. color.

Trabalho de Conclusão de Curso (graduação) – Universidade Federal do Ceará, Campus de Russas, Curso de Ciência da Computação, Russas, 2019.

Orientação: Profa. Dra. Marília Soares Mendes.

1. Avaliação textual. 2. Análise de Sentimentos. 3. Emojis. I. Título.

(4)

ISAIAS FERREIRA SOARES

UM ESTUDO SOBRE A CLASSIFICAÇÃO DE POLARIDADE DE EMOJIS EM POSTAGENS RELACIONADAS AO USO DE SISTEMAS

Trabalho de Conclusão de Curso apresentado ao Curso de Graduação em Ciência da Computação do Campus Russas da Universidade Federal do Ceará, como requisito parcial à obtenção do grau de bacharel em Ciência da Computação.

Aprovada em:

BANCA EXAMINADORA

Profa. Dra. Marília Soares Mendes (Orientadora) Universidade Federal do Ceará (UFC)

Prof. Dr. Alexandre Matos Arruda Universidade Federal do Ceará (UFC)

Profa. Dra. Maria Elizabeth Sucupira Furtado Universidade de Fortaleza (UNIFOR)

(5)

AGRADECIMENTOS

Primeiramente a Deus, por ter me proporcionado força para toda a vivência nesta universidade, passando por todas as vitórias e derrotas, proporcionando tanto alegrias, como também tristezas, mas que ao fim todas fazem parte da minha evolução como ser humano.

A minha família, que me apoiou em todas as decisões que eu tomei. Ao meu pai, José Dijanir Rodrigues Soares que é além do meu pai, meu melhor amigo e o homem em que eu me inspiro, que eu possuo como objetivo para me tornar uma pessoa melhor. A minha mãe, Gisélia Ferreira Soares, por juntamente com meu pai, ter-me dado a melhor educação possível que uma pessoa pode ter e que me ensinou que este é sempre o caminho correto a seguir. A Tia e Madrinha, uma segunda mãe, Francisca Maria de Moura, a segunda mulher que eu mais respeito e admiro nessa vida, por conta de toda sua força e batalha para ser a pessoa forte que é hoje. A minha avó, Matilde Ferreira de Moura, por ter me dado bastante apoio durante essa jornada. A minha irmã, Isabele Ferreira Soares, mesmo sendo totalmente diferente de mim, me ajudou a crescer e ser uma pessoa melhor.

A minha professora orientadora, Marília Soares Mendes, por ter me dado a opor-tunidade de participar do seu projeto de pesquisa e posteriormente aceitado me orientar nesta pesquisa. Obrigado por ter me ensinado uma visão muito melhor do que a que eu possuía sobre pesquisa, me dando mais certeza ainda que quero seguir como pesquisador, por ter me ajudado muito durante este ano inteiro como orientando, me ensinando muito e mostrando quando eu estava errado, permitindo assim que pudesse sempre melhorar. A senhora é uma inspiração como pesquisadora, simplesmente obrigado.

A minha namorada, Caiala Mariana Quixadá Monteiro, uma mulher que apareceu já no final da minha graduação, mas que mesmo em tão pouco tempo, me ensinou uma visão sobre coisas que eu desconhecia, por ter-me ajudado e apoiado em todos os momentos complicados e difíceis ao fim da minha graduação.

Ao meu colega de projeto e amigo, Thiago Hellen Oliveira da Silva. Obrigado por ter-me ajudado desde que eu entrei no grupo MALTU e durante toda a caminhada para o desenvolvimento desta pesquisa, por todas as conversas, brincadeiras, conselhos e claro as vezes em que eu te pedi ajuda, e você sem o mínimo hesito se propôs a me ajudar.

Ao meu sensei e professor, Daniel Márcio Batista de Siqueira, que além de ter me ensinado muito sobre a computação, foi a pessoa que me demonstrou a arte linda, que é o Karatê, mudando assim minha mente e percepção sobre a vida, contribuindo também para minha

(6)

evolução como pessoa.

Ao professor, Marcos Vinícius de Andrade Lima, que me ajudou quando eu tive a minha primeira derrota na faculdade, me mostrando uma visão diferente da que eu tinha e ensinando muito sobre como funciona a vivência na faculdade.

Aos meus amigos de graduação, Erik Almeida, Carlos Victor, Guilherme Sombra, Hugo Venâncio, Igor Mendes, Marcos de Alencar, Marcos Paulo, Mateus Oliveira, Thomas Dillan, Vinicius Almeida, Alex Frederico, Isaac Rahel, Marilia Cristina, Tágila Lima, Paloma Bispo e José Leandro por me ajudarem durante toda essa jornada, de altos e baixos, mas que juntos conseguimos superar. Aos que não são da turma, mas que são tão amigos quanto, Elis Ionara, Nathalia Gonçalves, Alex Santos, Sabrina Oliver, Paula Gama e Neto Guimarães, por todas as conversas e risadas proporcionadas. E por último, mas não menos importante, minha amiga Bianca Carvalho, a segunda Cientista Social que eu mais admiro, uma mulher de um sorriso sem igual, que me ajudou muito a entender uma condição da minha vida e que me deu diversos conselhos.

Aos meus colegas de treino de Karatê, em especial ao meu amigo e rival Marcos de Alencar.

Aos professores e professoras que contribuíram para a minha formação acadêmica com seus conhecimentos.

Por fim, a todos que fizeram parte e me ajudaram de forma direta ou indiretamente a minha formação acadêmica e como pessoa.

(7)

“A person grows up when he’s able to overcome hardships. Protection is important, but there are some things that a person must learn on his own.”

(8)

RESUMO

O trabalho visa trazer um estudo envolvendo o impacto dos emojis para a classificação de polaridade em Postagens Relacionadas ao Uso (PRUs), que são definidas como um texto ou um comentário que é feito de forma espontânea por usuários, referindo-se ao uso do sistema. Os emojis, por sua vez, estão relacionados diretamente na comunicação, seja ela uma simples mensagem ou uma postagem em um sistema social. Eles são usados como forma de expressão, podendo ser um sentimento criado a partir do uso ou até mesmo uma emoção. No âmbito da avaliação de sistemas, existe a avaliação com base no texto, chamada a avaliação textual. Essa forma de avaliação utiliza as PRUs, a fim de obter alguma percepção sobre um sistema, mas ela não avalia o uso dos emojis e o seu impacto na avaliação. Os emojis estão diretamente ligados aos sentimentos expressos por usuários, e uma das análises feitas na avaliação textual, é a análise de sentimentos, buscando entender como que o usuário está se sentindo em relação ao sistema social. Este trabalho, propõe analisar o impacto que os emojis possuem nas PRUs, quando se trata de analisar o tipo de postagem (elogio, crítica, dúvida, comparação, ajuda e sugestão) ou o sentimento expresso na mesma. Foi realizada uma investigação usando 254 PRUs a fim de analisar o uso de emojis e como eles influenciam no momento de classificar as postagens, por tipo de PRU e por polaridade, realizando uma classificação manual das postagens, para que tivesse uma relação entre os emojis usados, com a polaridade e os tipos de PRUs. Posteriormente foi realizada uma classificação automática, utilizando um algoritmo desenvolvido neste trabalho, para que, fosse possível verificar a influência dos emojis na classificação. Como resultado desse estudo, foi obtida a eficiência do algoritmo. Foi testada a classificação automática e foi constatado 73,6% e 65,3% de acerto para a classificação por sentimento e tipo, respectivamente. Também foram obtidas relações entre emojis de cada tipo e polaridade.

(9)

ABSTRACT

The work aims to bring a study of the impact of emoji for polarity classification PRUs, which are defined as a text or a comment that is made spontaneously by users, referring to the use of the system. Emojis, in turn, are directly related to communication, be it a simple message or a post in a social system. They are used as a form of expression, and can be a feeling created from use or even an emotion. In the context of systems evaluation, there is evaluation based on the text, called textual evaluation. This form of evaluation uses PRUs in order to gain some insight into a system, but it does not evaluate the use of emoji and its impact on evaluation. The emoji are directly linked to the feelings expressed by users, and one of the analyzes in textual assessment is the analysis of feelings, trying to understand how the user is feeling about the social system. This work proposes to analyze the impact that have the emojis PRUs, when it comes to analyzing post type (cheer, critical questions, comparison, helps and suggestion) or expressed in the same sense. An investigation using 254 PRUs order to consider the use emojis and how they influence at the time of classifying the threads was performed by type PRU and polarity, performing a manual sorting of the posts, that have a relation among the emoji used, with the polarity and types of PRUs. Subsequently an automatic classification was performed, using an algorithm developed in this work, so that it was possible to verify the influence of the emojis in the classification. As a result of this study, the efficiency of the algorithm was obtained. The automatic classification was tested and it was found 73.6% and 65.3% of correctness for the classification by feeling and type, respectively. Relations between emoji of each type and polarity were also obtained.

(10)

LISTA DE FIGURAS

Figura 1 – Sentimento e emoção expressos por emoticons e emoji . . . 19

Figura 2 – Tela principal da ferramenta UUX-Posts . . . 23

Figura 3 – Tela de padrões da ferramenta UUX-Posts . . . 24

Figura 4 – Arquitetura do Sistema . . . 27

Figura 5 – Exemplo de extração realizada na UUX-Posts para utilização no experimento. 31 Figura 6 – Exemplo da tabela gerada no algoritmo, para a realização do experimento. . 33

Figura 7 – Quantidade de postagens por sentimento (por porcentagem). . . 35

Figura 8 – Quantidade de postagens de cada tipo. . . 36

Figura 9 – Quantidade de postagens com emojis por dispositivo. . . 37

Figura 10 – Gráfico com o resultado da classificação automática. . . 43

Figura 11 – Gráfico com o resultado da classificação automáitca. . . 44

(11)

LISTA DE TABELAS

Tabela 1 – Exemplos de postagens para as polaridades. . . 17

Tabela 2 – Exemplos de sentenças objetivas e subjetivas, com e sem a presença de sentimentos. . . 18

Tabela 3 – Parte do dicionário de emoticons. . . 26

Tabela 4 – Resumo comparativo entre os trabalhos. . . 30

Tabela 5 – Data e quantidade das postagens extraídas. . . 32

Tabela 6 – Análise do uso de emojis em postagens por dispositivo. . . 33

Tabela 7 – Tabela de classificação por: PRU/Não-PRU, tipo, análise de sentimento e artefato. . . 34

Tabela 8 – Algumas postagens classificadas em PRU e Não-PRU. . . 35

Tabela 9 – Algumas postagens classificadas em PRU, Não-PRU e sua polaridade. . . . 35

Tabela 10 – Algumas postagens classificadas em PRU, Não-PRU, polaridade e seu tipo. 36 Tabela 11 – Algumas postagens classificadas por dispositivo. . . 37

Tabela 12 – Dicionário de emojis usado como entrada no algoritmo para classificação. . 38

Tabela 13 – Base de dados usada como entrada no algoritmo para classificação. . . 39

Tabela 14 – Relação de alguns emojis com sua polaridade. . . 40

Tabela 15 – Relação dos emoticons com seu respectivo tipo . . . 41

Tabela 16 – Base de dados de emojis usada como entrada. . . 42

Tabela 17 – Principais emoticons, relacionado a cada polaridade. . . 45

Tabela 18 – Exemplos de emoticons de expressão, relacionados a cada polaridade. . . . 46

Tabela 19 – Porcentagem dos emojis. . . 46

(12)

SUMÁRIO 1 INTRODUÇÃO . . . 13 1.1 Motivação . . . 15 1.2 Objetivos . . . 15 1.2.1 Objetivo geral . . . 15 1.2.2 Objetivo específicos . . . 16 1.3 Metodologia . . . 16 1.4 Organização do Trabalho . . . 16 2 FUNDAMENTAÇÃO TEÓRICA . . . 17 2.1 Análise de sentimentos . . . 17 2.2 SentiStrenght . . . 19 2.3 Recuperação da Informação . . . 20

2.4 Avaliação Textual de Sistemas . . . 21

2.5 Ferramenta de avaliação textual de sistemas . . . 22

3 TRABALHOS RELACIONADOS . . . 25

3.1 Trabalhos relacionados à análise de sentimentos . . . 25

3.2 Trabalhos relacionados à análise de polaridade para avaliação textual . 28 3.3 Tabela Comparativa . . . 30

4 EXPERIMENTO . . . 31

4.1 Extração das postagens . . . 31

4.2 Classificação das postagens . . . 33

4.3 Resultados . . . 34

4.3.1 Classificação de PRUs . . . 34

4.3.2 Classificação por polaridade . . . 35

4.3.3 Classificação por tipos . . . 36

4.3.4 Classificação por artefato . . . 37

5 ALGORITMO DE CLASSIFICAÇÃO AUTOMÁTICA . . . 38

5.1 Concepção do Algoritmo . . . 38

5.2 Funcionamento do Algoritmo . . . 38

5.2.1 Classificação por polaridade . . . 39

(13)

5.3 Teste do Algoritmo . . . 42

5.3.1 Classificação automática de polaridade . . . 43

5.3.2 Classificação automática por tipo . . . 43

6 DISCUSSÃO . . . 45

7 CONCLUSÃO . . . 48

(14)

13

1 INTRODUÇÃO

O número de usuários de Sistemas Sociais (SS), aplicativos de transporte e delivery vem aumentando consideravelmente nos últimos anos. Com isso, faz-se necessário que sejam feitas constantes mudanças para melhoria destes sistemas. Em desenvolvimento de sistemas, a forma de investigar o que pode ser melhorado é realizando avaliações.

Existem vários métodos para avaliar a qualidade de um sistema, sendo esses, classifi-cados em três categorias: investigação, observação de uso e de inspeção (BARBOSA; SILVA, 2010). Existem métodos presentes na categoria de investigação, que tomam como base as opiniões dos usuários sobre o sistema, como os métodos entrevista e questionário. Esses métodos coletam informações do usuários sobre o que eles acham sobre o sistema, do seu uso em si. Com isso, o avaliador é capaz de interpretar e analisar as concepções, opiniões, expectativas e comportamentos dos usuários (BARBOSA; SILVA, 2010). De maneira geral, eles permitem a identificação de problemas enfrentados por usuários, mas também, podem ser utilizados, em fases iniciais de desenvolvimento do design (BARBOSA; SILVA, 2010). Com isso, ao utilizar-se dessas técnicas, que realizam a coleta de opiniões dos usuários, pode-utilizar-se obter críticas ou sugestões sobre o sistema, podendo, então, entender o que precisa ser melhorado.

Um método de avaliação da opinião dos usuários é um Método de Avaliação Textual chamado de Metodologia para Avaliação da Interação em Sistemas Sociais a partir da Linguagem Textual do Usuário (MALTU), proposto por Mendes (2015), que consiste em coletar e analisar narrativas dos usuários (geralmente postagens em SS) a fim de avaliar ou obter alguma percepção sobre o sistema. Para a obtenção de resultados em uma avaliação, os autores analisam as denominadas PRUs (MENDES, 2015). Uma PRU (Postagem Relacionada ao Uso do sistema) pode ser definida como um texto ou um comentário que é feito de forma espontânea por usuários, referindo-se ao uso do sistema. Por exemplo, a seguinte PRU: "O Twitter é uma ótima rede social, mas ultimamente ele tá dando uns bugs com a página principal.". Este exemplo foi postado por um usuário se referindo ao sistema. Ele apresenta um elogio ao sistema, mas indica também, um problema dele. Essa PRU foi retirada de uma seção de avaliações e opiniões da AppStore relacionada ao aplicativo do Twitter.

A MALTU propõe a extração e classificação de PRUs em categorias para fornecer um resultado de avaliação do sistema. As categorias são: a) funcionalidade; b) tipo; c) intenção; d) análise de sentimentos; e) critérios de qualidade de uso; e f) artefato (MENDES, 2015).

(15)

14

2015; FREITAS; SILVA; MENDES, 2016; MENDES; FURTADO, 2017; SILVA; FREITAS; MENDES, 2017; LIMA et al., 2017; LIMA; MENDES; CRUZ, 2019), no entanto, em nenhuma destas avaliações foi considerado o uso dos emojis no estudo de expressão de sentimentos. Este uso ainda não foi avaliado pela MALTU.

O uso de emojis podem expressar, de forma mais explícita, o sentimento do usuário, facilitando, por exemplo, a classificação de PRUs por polaridade, já que muitos emojis são usados como formas de expressão. Um exemplo seria um sorriso representado da seguinte maneira:

. Alguns trabalhos têm focado em investigar a polaridade somente por textos (MENDES, 2015; MENDES; FURTADO, 2017; LIMA et al., 2017; YOU, 2016; LIMA; MENDES; CRUZ, 2019) e outros usando emoticons (AGARWAL et al., 2011; YOU, 2016). Emoticons são representações visuais, com o objetivo de denotar emoção em um meio que possui apenas a escrita (FERREIRA, 2012). Existe uma ferramenta chamada UUX-Posts (MENDES, 2015) para apoiar a metodologia MALTU. Esta ferramenta possibilita a classificação automática de PRUs e Não-PRUs, na categoria tipo de postagem, possui os seguintes tipos: 1) elogio, 2) crítica, 3) dúvida, 4) comparação, 5) ajuda e 6) sugestão, sendo eles voltados a como o usuário esta em relação as funcionalidades do sistema. No entanto, ela não classifica automaticamente a categoria de polaridade por textos e nem por emojis.

Como dito anteriormente, os emojis são recursos utilizados para expressar sentimen-tos em uma Postagem Relacionada ao Uso (PRU), tornando-se assim uma variável importante no momento da análise por polaridade. Neste sentido, este trabalho visa propor a classificação da polaridade em PRUs por emojis. Será utilizado o SS Twitter, visando responder as seguintes perguntas:

1. Quais são os emojis mais frequentes quando uma postagem é classificada em positiva, negativa, neutra?;

2. Os emojis de expressão ( , , ), refletem na classificação por análise de sentimentos?;

3. Quais são os emojis mais frequentes quando uma postagem é classificada na categoria por tipo (elogio, crítica, dúvida, comparação, ajuda e sugestão)?; 4. Qual o resultado de uma avaliação de sistemas, usando as seguintes categorias nas

PRUs: a) tipo de postagem; b) análise de sentimentos; e c) artefato, associadas aos emojis?;

(16)

15

1.1 Motivação

Este trabalho faz parte do projeto de pesquisa intitulado: Avaliação da interação em sistemas sociais a partir da linguagem textual do usuário, coordenado pela Profa. Dra. Marília Soares Mendes, iniciado em 2015 e financiado pela Fundação Cearense de Apoio ao Desen-volvimento Científico e Tecnológico (FUNCAP) no período de 2015 a 2018. A partir de 2018 teve o apoio do programa Programa Institucional de Bolsas de Iniciação em Desenvolvimento Tecnológico e Inovação (PIBITI) (firmado, mediante convênio, entre Universidade Federal do Ceará (UFC), o Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e a FUNCAP.), que possibilitou uma bolsa de iniciação científica para o autor deste trabalho. Este projeto tem por objetivo estudar e implementar novas técnicas de avaliação da interação em sistemas a partir da linguagem textual do usuário. O autor deste trabalho faz parte como bolsista do projeto desde Agosto de 2018 e durante este período teve experiências com: Extração; Classificação de Postagens; Análise de Sentimentos e manutenção de uma ferramenta de extração e classificação de postagens chamada UUX-Posts.

As experiências obtidas durante o tempo no projeto motivou a pesquisa de novas formas de classificação de postagens que podem ser usadas na Metodologia MALTU de avaliação textual. A avaliação textual de PRUs é de extrema importância para a evolução de sistemas, um dos pontos é o sentimento expresso nas PRUs. Considerando o sentimentos dos usuários presentes nas PRUs, pode-se verificar alguns benefícios, como a maior precisão em dizer a satisfação de um usuário, com alguma funcionalidade, por exemplo a seguinte PRU: "esperando o twitter colocar a opção de “editar tweet“ , há uma crítica ao Twitter, por não fornecer a opção de edição, representando, assim, uma insatisfação do usuário nesse contexto para com o Twitter. Com isso, surgiu a pergunta se e como os emojis presentes nas PRUs, influenciam no sentimento da sentença.

1.2 Objetivos

1.2.1 Objetivo geral

Investigar a análise de sentimentos por emojis em PRUs do Twitter, usando a meto-dologia MALTU.

(17)

16

1.2.2 Objetivo específicos

• Fornecer um estado da arte sobre análise de sentimentos, recuperação da infor-mação e o uso de emojis;

• Apresentar resultados de um experimento de Análise de Sentimentos por emojis para avaliação do Twitter.

1.3 Metodologia

A metodologia usada neste trabalho seguiu uma abordagem teórica e uma prática. Na abordagem teórica, foram realizados os estudos de temas relacionados ao contexto deste trabalho como: analise de sentimentos, recuperação da informação, avaliação textual de sistemas.

Na abordagem prática, foi realizado um experimento de avaliação de PRUs usando emojis. Para isso, são executadas as seguintes etapas: extração de postagens, remoção de postagens que não possuem emojis, classificação das postagens em PRUs e Não-PRUs, clas-sificação em tipo de PRUs, clasclas-sificação por polaridade, por artefato e análise dos resultados, desenvolvimento de algoritmo para classificação automática e análise dos resultados.

1.4 Organização do Trabalho

Este trabalho está organizado da seguinte forma, o próximo capítulo apresenta os conhecimentos teóricos necessários para o entendimento da pesquisa e a resolução do problema. No Capítulo 3, são apresentados alguns trabalhos relacionados e a relação deles com esta pesquisa. No Capítulo 4 é apresentado o experimento realizado, detalhando todos os seus passos e os resultados obtidos. No Capítulo 5 é apresentado o algoritmo de classificação automática, seguido da discussão, conclusão e referências utilizadas.

(18)

17

2 FUNDAMENTAÇÃO TEÓRICA

Este capítulo visa fornecer um embasamento teórico sobre os assuntos desta pesquisa, visando melhorar o entendimento sobre eles. Este capítulo aborda conceitos como: análise de sentimentos, SentiStrenght, avaliação textual de sistemas e recuperação da informação.

2.1 Análise de sentimentos

Segundo Wilson, Wiebe e Hoffmann (2009), a análise de sentimentos é um tipo de análise de subjetividade que enfoca o reconhecimento de opiniões, emoções e avaliações positivas e negativas expostas em linguagem natural.

A análise de sentimentos é o campo de estudo que analisa as opiniões das pessoas, sentimentos, avaliações, atitudes e emoções relacionadas a produtos, serviços, organizações, pessoas, problemas, eventos etc., que são expressas em textos (revisões, blogs, discussões, notícias), comentários, feedback, ou quaisquer outros documentos) (LIU, 2012, p. 1).

Em uma classificação com base no sentimento, deve-se ser atribuída uma das seguin-tes polaridades: positiva, neutra e negativa, exemplificada na seguinte Tabela 1.

Tabela 1 – Exemplos de postagens para as polaridades.

Positiva Neutra Negativa

É a melhor rede social! Atualizem os tópicos mundiais O Twitter ta um nojo!

Este é um excelente aplicativo! Sem memória para armazenar Esta muito ruim, não carrega nada. Fonte: Elaborado pelo autor.

Segundo Liu (2012), existem, ainda, outros dois conceitos que estão profundamente associados a opinião e ao sentimento, sendo eles: subjetividade e objetividade. Uma sentença objetiva é dita quando os fatos sobre o contexto estão sendo apresentados, sendo eles informações comuns aos envolvidos. Já uma sentença subjetiva é quando se está expressando de forma mais pessoal, demonstrando seu ponto de vista ou perspectiva sobre o determinado contexto. Resumindo, sentenças subjetivas apresentam sentimentos pessoais, opiniões ou crenças, e as sentenças objetivas expressam conhecimentos sobre os fatos do mundo, podendo haver a presença ou ausência de sentimentos.

(19)

18

A Tabela 2 ilustra alguns exemplo de sentenças objetivas e subjetivas com presença e ausência de sentimentos.

Tabela 2 – Exemplos de sentenças objetivas e subjetivas, com e sem a presença de sentimentos.

Tipo Sentimento Sentença

Objetiva Ausência "Comprei uma nova televisão." Objetiva Presença "Então, ela parou de funcionar ontem." Subjetiva Ausência "Eu acho que ele já tem televisão." Subjetiva Presença "Odiei a nova televisão que comprei!" Fonte: (MENDES, 2015)

Para Medhat, Hassan e Korashy (2014), as técnicas existentes para a análise de sentimentos podem também ser classificadas segundo abordagens que utilizam:

• Baseadas em léxico, que utilizam léxico de sentimentos. Utilizando-se de uma coleção de termos (itens) de sentimentos já conhecidos e pré-compilados, pos-suindo duas abordagens, sendo elas, a baseada em dicionário, onde se tem um conjunto de dados obtidos de forma manual que possuem orientações conhecidas, podendo ser incrementado com outros dados manualmente, ou a baseada em cor-pus, que são utilizadas para dados de contextos específicos, necessitando que os dados possuam padrões sintáticos ou dados com padrões que tenham semelhança aos que pretendem ser analisados (MEDHAT; HASSAN; KORASHY, 2014); • Baseadas em aprendizado de máquina, que usam algoritmos já conhecidos para

classificação de textos, podendo ser divididos em algoritmos supervisionados e não supervisionados. Os algoritmos supervisionados utilizam documentos previamente rotulados para o treinamento e a geração de hipóteses. Os algorit-mos não-supervisionados utilizam conjuntos de dados não rotulados, formando clusters (dados com padrões similares) (MATSUBARA, 2004);

• Híbridas, que utilizam de ambas as abordagens mencionadas.

Os sentimentos também estão ligados a outros elementos usados de forma textual, os chamados emoticons. Eles podem influenciar na análise de sentimentos feita a uma sentença, sendo assim uma varíavel que pode ser levada em consideração. Um exemplo de relação de polaridade com os emoticons é a Figura 1, apresentada a seguir.

A Figura 1 apresenta a relação entre emoticons e polaridade criada por Wolny (2016). Os emoticons são utilizados por usuários a fim de representar um sentimento (positivo, negativo e neutro), mas um sentimento positivo pode expressar mais de uma emoção, por exemplo:

(20)

19

um sentimento positivo, pode expressar emoções como, felicidade, riso e sorriso (linha 1). Os emoticons são a representação dos caracteres em relação a emoção, por exemplo: ":)"que representa um sorriso. Enquanto isso, os emojis são a representação visual desses caracteres, por exemplo o sorriso é representado da seguinte forma: . Neste trabalho, é usado apenas o emojis e voltado para que seja realizada uma avaliação, apenas o sentimento (positivo, negativo e neutro).

Figura 1 – Sentimento e emoção expressos por emoticons e emoji

Fonte: (WOLNY, 2016) traduzido pelo autor.

2.2 SentiStrenght

O SentiStrength1 é um programa para análise de sentimentos. O algoritmo do SentiStrength utiliza de abordagem léxica para classificar textos sociais da web e regras para detectar a força dos sentimentos em textos curtos informais escritos em inglês (THELWALL, 2017).

O funcionamento dele se da seguinte forma: são atribuídas a um dicionário: palavras e uma força para cada palavra. Para classificar uma sentença, é atribuída a cada palavra da sentença, uma força que varia de 1 a 5 para um sentimento positivo e uma força variante de -1

(21)

20

a -5 para um sentimento negativo, sendo que, para os valores positivos, quanto maior o valor, mais positiva é aquela palavra, já para os valores negativos, quanto menor o valor, mais negativa é a palavra. Por exemplo, se uma palavra for valorada com uma pontuação de 3, será julgado que ela possui um sentimento positivamente moderado, da mesma forma para o negativo, se possuir um valor como -5, ela tem um sentimento extremamente negativo, para classificar como neutro, o valor será 0, isso se dará pela ausência da palavra no dicionário. Isso permite que duas valorações sejam atribuídas, pois assim garante a detecção do sentimento expresso, ao invés de apenas a polaridade em geral (THELWALL; BUCKLEY; PALTOGLOU, 2012).

A classificação do sentimento para a toda a sentença, se dá pela maior valoração entre as palavras contidas na sentença dada como entrada. Por exemplo, caso a sentença possua nas suas palavras a maior positiva valoração 5 e maior valoração negativa -3, será classificada toda a sentença como positiva, possuindo um valor igual a 2, da mesma forma para o negativo. Já para um sentimento neutro, se as duas maiores valorações forem equivalentes, por exemplo, uma palavra com valoração positiva igual a 4 e uma palavra com valoração negativa igual a -4, é atribuído um valor neutro.

Exemplificando no contexto de uma PRU retirada do twitter, seria da seguinte ma-neira: "Ora acho Twitter legal, ora acho tedioso!", a valoração atribuída às palavras seriam por exemplo: "Ora[0] acho[0] o[0] legal[4], ora[0] acho[0] tedioso[-4]!". Com isso, o SentiS-trength, irá observar as duas maiores forças, tanto positiva quanto negativa, neste caso, 4 e -4 respectivamente, portanto, essa PRU será classificada como neutra.

2.3 Recuperação da Informação

A Recuperação da Informação (RI) consiste no processo de encontrar documentos textuais não estruturados que possuam relevância (SILBERSCHATZ; SUNDARSHAN; KORTH, 2016), tomando como base ou referência, uma palavra-chave ou um conjunto de palavras-chaves para que se tenha uma melhor formulação de qual informação se quer recuperar. Normalmente, os documentos que irão ser recuperados, possuem, grande ligação com as palavras-chaves usadas. Exemplificando uma busca por uma informação, seria a procura por artigos sobre "análise de sentimentos", usaríamos as palavras "análise"e "sentimentos", com isso teríamos documento sobre análise de sentimentos (SILBERSCHATZ; SUNDARSHAN; KORTH, 2016).

Dada a grande base de informações e documentos existentes, a RI enfrenta um grande problema: normalmente, de forma manual, recuperar essas informações seria praticamente

(22)

21

impossível, já que o montante de documentos retornados a partir de uma pesquisa tende a ser muito grande. Com isso, uma das formas para se recuperar as informações desejadas, é com o uso de sistemas de busca (DETERS; ADAIME, 2003). Com isso, os estudos que relacionam RI buscam a melhora nas formas de buscas existentes.

2.4 Avaliação Textual de Sistemas

A avaliação textual consiste na utilização das narrativas dos usuários com o intuito de avaliar ou obter alguma percepção sobre o sistema a ser avaliado (MENDES, 2015). Com este método de avaliação é possível avaliar um sistema a partir de um ou mais padrões de qualidade de uso, como, por exemplo: usabilidade, eXperiência do Usuário (UX) ou suas facetas (eficiência, eficácia, segurança, utilidade, aprendizado, etc.)(HEDEGAARD; SIMONSEN, 2013; MENDES, 2015; MENDES et al., 2015)

Neste trabalho é utilizada uma metodologia para avaliação de sistemas denominada MALTU (MENDES, 2015), que utiliza as PRUs, para obter uma percepção do sistema a ser avaliado. A autora sugere a coleta das próprias postagens dos usuários no sistema, para que se possua uma maior espontaneidade do usuário (MENDES, 2015). De acordo com Mendes (2015) esta metodologia possui cinco etapas definidas para que seja feita a avaliação, sendo elas:

• Definição do contexto de avaliação: etapa que define o contexto de uso do sistema, o domínio do sistema e os objetivos que a avaliação possui;

• Extração das PRUs: etapa em que são obtidas as PRUs do sistema que será avaliado, podendo ser obtidas de duas formas: extração manual ou extração automática. A extração manual é quando o avaliador obtém as postagens sem usar qualquer processo automático. Os padrões de extração podem ser usados tanto na forma manual como automática. Já a extração automática consiste no uso de ferramentas como apoio na obtenção das postagens, como a UUX-Posts2(MENDES, 2015; MENDES; FURTADO, 2017) que extrai e classifica as postagens de forma automática.

• Classificação das PRUs: esta etapa envolve a classificação de uma PRU em diferentes categorias sugeridas pela MALTU, sendo elas:

– Tipo (crítica, elogio, dúvida, comparação, sugestão e ajuda); – Intenção emocional (visceral, comportamental, reflexiva);

(23)

22

– Análise de sentimentos (positiva, neutra ou negativa);

– Funcionalidade (classificação das funcionalidades do sistema); – Critérios de qualidade de uso (usabilidade ou UX e suas facetas); – Artefato (dispositivo usado pelo usuário).

• Interpretação dos resultados: nesta etapa, os dados são organizados de modo a demonstrar as relações entre eles, utilizando de gráficos, tabelas, cálculos de media, entre outros indicadores relevantes;

• Relato dos resultados: etapa em que é gerado um relatório possuindo as seguintes informações:

– contexto do uso do sistema;

– os objetivos e escopo da avaliação;

– informação da forma de extração e classificação (manual ou automática); – informações sobre os participantes da avaliação (avaliadores: quantidade,

experiência etc.);

– informação do artefato utilizado;

– tabelas e gráficos que representem relacionamentos entre os resultados; – uma lista das funcionalidades.

Sendo este trabalho localizado na categoria de análise de sentimentos, tendo como o enfoque considerar especificamente os emojis utilizados nas postagens dos usuários para a verificação da polaridade, serão utilizadas as seguintes classificações: tipo (crítica, elogio, dúvida, comparação, sugestão e ajuda), análise de sentimentos (positiva, neutra ou negativa) e artefato.

2.5 Ferramenta de avaliação textual de sistemas

Para apoiar a metodologia MALTU, foi proposta por Mendes (2015), descrita também em Mendes e Furtado (2017), uma ferramenta, denominada UUX-Posts, que fornece uma forma mais automatizada para as etapas da metodologia. A ferramenta permite, por exemplo, extrair postagens de SS ou submeter uma planilha que já possua postagens de usuários e, com isso, classificar as postagens em PRUs e nas outras categorias ou que foram propostas por Mendes (2015).

A Figura 2 ilustra a tela principal da ferramenta UUX-Posts, na qual o usuário poderá acessar a ferramenta e extrair postagens ou verificar as funcionalidades presentes, contato ou informações sobre o projeto.

(24)

23

Figura 2 – Tela principal da ferramenta UUX-Posts

Fonte: http://uuxposts.russas.ufc.br/

A ferramenta UUX-Posts foi desenvolvida usando as linguagens PHP3, AJAX, JavaScript4. A coleta das postagens é realizada em perfis públicos do SS e posteriormente o avaliador pode também obter uma planilha contendo as PRUs, podendo assim, fazer uma classificação de forma manual, caso deseje. A UUX-Posts atualmente disponibiliza 3 formas para se extrair e classificar das postagens (MENDES, 2015):

• Padrões Gramaticais;

• Tipos de PRUs (críticas, dúvidas, elogios, etc);

• Facetas de Usabilidade e/ou UX (Eficácia, Eficiência, Segurança, etc.).

3 https://www.php.net/ 4 https://www.javascript.com/

(25)

24

A Figura 3 ilustra a tela de extração da ferramenta UUX-Posts, onde se pode extrair postagens do SS Twitter, através dos padrões disponibilizados.

Figura 3 – Tela de padrões da ferramenta UUX-Posts

(26)

25

3 TRABALHOS RELACIONADOS

Este capítulo apresenta alguns trabalhos que fazem o uso de conceitos e técnicas similares às propostas por este trabalho.

3.1 Trabalhos relacionados à análise de sentimentos

No trabalho de You (2016) foram propostos 4 desafios, sendo eles: 1) como aprender a trabalhar com base de dados de treinamento de grande escala fracamente rotulados, 2) como generalizar e ampliar o modelo aprendido por outros domínios, 3) propor novos modelos de multimodalidade que são capazes de integrar diferentes recursos de modalidade para análise de sentimentos, e 4) demonstrar um conjunto de dados de emoção visual recentes.

You (2016) apresenta duas abordagens a serem trabalhadas: 1) análise de sentimento com modalidades únicas, e 2) a união entre a análise visual e textual. Para isso ele propôs para a análise de sentimento visual, o uso de um algoritmo ("Progressive CNN"), que usa a base de dados fracamente rotulada, de forma progressiva reduzindo, assim, o impacto das bases na classificação. Já na utilização de forma conjunta da análise visual e textual, faz uso de uma regressão consistente de modalidade cruzada, que possui o foco em reforçar a consistência das tarefas entre as duas modalidades, tanto textual quanto visual e também propõe o foco na aprendizagem de mapeamento semântico, para ambos os dados visuais e textuais.

O trabalho de You (2016) verifica a existência da relação entre o conteúdo textual e o visual (imagens e vídeos), analisando o impacto que existe na mudança do sentimento expressado por usuários. O que se assemelha ao objetivo proposto por este trabalho, que é a verificação da influência de algo visual (como emojis) na análise do sentimento, mas diferentemente deste autor, este trabalho não irá utilizar todos conteúdos multimídias como, por exemplo: fotos de usuários e vídeos que possuam o rosto de pessoas e sim emojis.

Outro trabalho é o de Agarwal et al. (2011), eles analisam o sentimento expresso em postagens do SS Twitter, construindo um modelo para que seja possível a classificação das postagens pelo seu sentimento, seja ele positivo, negativo ou neutro. As classificações se dão em duas tarefas: 1) uma tarefa em que se classifica de forma binária o sentimento em classes, positivas e negativas; e 2) a outra tarefa que executa a classificação em 3 classes: positiva, negativa e neutra. Os autores (AGARWAL et al., 2011) usam 3 modelos para o experimento, sendo eles:

(27)

26

• Unigram Model: para este foi utilizado um modelo já existente, que se demons-trou bom para a análise de sentimentos de dados do Twitter.

• Feature Based Model: neste modelo, foram usados as features já existentes e propostas em literaturas antigas, e também propõe novas features.

• Tree Kernel Based Model: neste foi proposta uma nova representação em árvore para as postagens obtidas no Twitter.

Na realização do experimento, os autores obtiveram a percepção de que as features que possuem alguma ligação com recursos como: emoticons e hashtags podem aumentar o valor do classificador. Outros dados do Twitter utilizados são anotados de forma manual e possuem a vantagem em cima dos dados já utilizados, pois eles são coletados continuamente e, com isso, representam um conjunto real de tweets em termos de uso de linguagem.

Como resultados, os autores criaram uma relação entre os emoticons e suas respecti-vas polaridades, exemplificada na Tabela 3:

Tabela 3 – Parte do dicionário de emoti-cons. Emoticon Polaridade :-) :) :o) :] :3 :c) Positivo :D C: Extremamente positivo :-( :( :c :[ Negativo D8 D; D= DX v.v Extremamente Negativo : | Neutro

Fonte: (AGARWAL et al., 2011) Traduzido pelo autor.

Por fim, eles disponibilizam também dois recursos: 1) um dicionário com anotações manuais para emoticons, criando uma relação entre o emoticon e sua polaridade, ilustrado na Tabela 3; e 2) um dicionário de acrônimos que foi coletado da web, com traduções inglesas de mais de 5000 acrônimos usados frequentemente.

Kumar e Sebastian (2012) apresentam uma pesquisa que visa utilizar a análise de sentimentos para que se possa avaliar o humor dos usuários em SS e detectar qualquer sentimento antagônico ou negativo que esteja crescente nos SS. Os autores acreditam que a tendência de pesquisas em mineração de sentimentos no Twitter possui um conjunto de aplicações práticas, tanto com negócios (inteligência de marketing, marcação e melhoria de benchmark de produtos e serviços), como em tecnologias de subcomponentes (sistemas de recomendações, perguntas e respostas) aplicados a política.

(28)

27

Figura 4 – Arquitetura do Sistema

Fonte: (KUMAR; SEBASTIAN, 2012)

Com isso, os autores da pesquisa, Kumar e Sebastian (2012), foram motivados a propor um modelo para que se possa recuperar tweets, com base em tópicos pré-determinados, usando a Interface de Programação de Aplicativos (API) do Twitter e calculando a orientação e pontuação do sentimento em cada tweet.

Para os autores, as palavras que usuários utilizam para expressar opiniões, sejam elas positivas, negativas ou neutras, são denominadas palavras de opinião. Com isso definido, eles propuseram um abordagem hibrida, que envolve tanto o uso de técnicas baseadas em corpus, quanto as baseadas em dicionários, levando, também, em consideração o uso de emoticons, para que se possa encontrar a semântica das palavras.

(29)

28

proposta é dividida em 3 módulos, sendo eles, módulo de pre-processamento, módulo de pontuação e módulo de pontuação de sentimento de tweet. No primeiro módulo, os autores preparam o arquivo que contém os indicadores de opinião (adjetivo, o advérbio e o verbo), juntamente com os emoticons e alguns intensificadores para a emoção, como número de pontos de exclamação e a quantidade de palavras de um tweet que estão descritas em fonte caixa alta. No segundo módulo, é definida a pontuação semântica para cada indicador, usando a abordagem baseada em corpus para os adjetivos e a baseada em dicionário para verbos e advérbios. No terceiro módulo, são utilizadas as informações dos outros módulos para definir a pontuação do sentimento para o tweet.

3.2 Trabalhos relacionados à análise de polaridade para avaliação textual

Lima et al. (2017) apresentaram uma investigação sobre a classificação automática da polaridade de opiniões em PRUs. Tomando como base uma análise em cima de postagens provindas de um sistema acadêmico com características sociais, os autores realizaram duas investigações: uma em que se aplica um classificador automático e a outra que utiliza algoritmos de mineração de dados. Na primeira investigação, eles utilizam a ferramenta Sentistrength, podendo classificar palavras de um idioma específico em 3 valores: positivo (variando de 1 a 5), negativo (variando de -1 a -5) e 0, que acarreta em uma polaridade neutra. Na segunda investigação, os autores usam a ferramenta RapidMiner e o algoritmo NaiveBayes, para que possam obter a classificação da polaridade das PRUs. Os autores apresentam as palavras mais relevantes para cada polaridade, suas características e uma discussão sobre o que se foi investigado.

O trabalho Lima et al. (2017) fornece características das palavras mais relevantes para cada polaridade, fazendo uma investigação de uma base de dados de PRUs, assemelhando-se, assim, ao trabalho proposto que visa verificar também a relevância de termos, no contexto da polaridade. No entanto, eles não investigaram como os emojis influenciam o resultado de uma avaliação do sistema por polaridade e seus impactos na avaliação.

Outro trabalho, escrito por Lima, Mendes e Cruz (2019), propõe investigar meios para a melhoria da detecção automática de sentimentos em PRUs, usando um classificador baseado em léxico, denominado SentiStrength1. A investigação se deu seguindo 5 passos: 1) extração de dados; 2) classificação de dados; 3) preparação de dados; 4) enriquecimento léxico;

(30)

29

5) aplicação no SentiStrength. Os passos foram:

1. foi feita a extração de PRUs com base na seção de opiniões extraídas da loja de aplicativos da plataforma android, de 3 aplicativos: Google Maps, Waze, GPS Brasil, resultando em um total de 1286 postagens. Os autores aplicaram alguns processos de pré-processamento, como retirada de duplicatas e a divisão das postagens em sentenças, enriquecendo, assim, a diversidade e a quantidade da base de postagens. Obtendo, no final de toda extração, 2108 postagens para o experimento;

2. foi realizada uma classificação de sentimento de forma manual para que se tivesse depois uma base para comparação com o resultado obtido no SentiStrength, tornando, assim, possível o uso de métricas para medir a eficiência entre o dicionário original e o enriquecido. Sendo a classificação feita por 2 pessoas e validada por uma terceira, resultando em 2018 postagens um total de 880 positivas, 525 neutras e 723 negativas;

3. a preparação foi realizada após a extração e classificação dos dados, com o auxilio de um algoritmo escrito em Python, que realiza a remoção de caracteres especiais, emoticons, sinais de pontuação e de acentuação. As postagens também foram transformadas todas em caixa-baixa, pelo formato que o SentiStrength trabalha. Posteriormente, foram feitas duas investigações com outros dicionários; 4. o enriquecimento necessitava do cálculo da medida estatística TF-IDF, neces-sitando assim de múltiplos documentos. Com a criação de 3 documentos, o primeiro contendo apenas as postagens positivas, o segundo apenas as neutras e o terceiro somente negativas. Sendo essas sentenças escolhidas de forma aleatória a partir de um algoritmo randômico feito em Java. Garantindo, assim, a não ten-denciosidade do resultado e também uma quantidade proporcional de postagens positivas, negativas e neutras. Por fim, foram geradas duas listas com base em um algoritmo escrito em Python, com apoio da biblioteca TextBob (LORIA et al., 2014) para calcular as palavras mais relevantes segundo a métrica TF-IDF. Sendo esse processo, executado para os dois dicionários: o original e o lematizado. 5. aplicação no SentiStrength: que retorna a maior força positiva e negativa de uma

sentença, tornando possível ser inferida quando é positiva, negativa ou neutra. Todo o procedimento de aplicação do SentiStrength, foi realizado 10 vezes, para

(31)

30

que se fossem geradas bases de teste e treinamento diferentes, mas que possuem a mesma base de origem, garantindo, assim, a validade dos resultados, constatando um certo padrão nos valores obtidos.

O trabalho Lima, Mendes e Cruz (2019), visa investigar a melhoria causada a um classificador baseado em léxico a partir de enriquecimento de dicionário, para que se possa ter uma detecção automática de sentimentos em PRUs. Diferentemente deste trabalho que realiza a análise de sentimento em PRUs, visando os emojis.

3.3 Tabela Comparativa

A Tabela 4 apresenta um breve resumo sobre os trabalhos apresentados e demonstra as principais características de cada um. Este trabalho visa, principalmente, o estudo do sen-timento relacionado aos emojis, e como eles impactam na classificação de PRUs, fornecendo, também, o resultado de uma avaliação do sistema.

Tabela 4 – Resumo comparativo entre os trabalhos.

Trabalho Base da

da-dos Análise de Sentimento Emojis Avaliação do Sistema You (2016) Textos Diversos

Sim Não Não

Agarwal et al. (2011)

Sistemas Sociais

Sim Sim Não

Kumar e Se-bastian (2012)

Postagens Twitter

Sim Não Não

Lima et al. (2017)

Sistema Acadêmico

Sim Não Não

Lima, Mendes e Cruz (2019) Comentários obtidos em loja de aplicativos (apps de mobilidade urbana)

Sim Não Não

Este trabalho Postagens Twitter

Sim Sim Sim

Fonte: Elaborada pelo Autor.

Embora todos os trabalhos apresentados neste capítulo trabalhem com a análise de sentimentos e textos obtidos em SS, apenas o trabalho de (AGARWAL et al., 2011) utiliza emojis. Porém, ele não realiza uma avaliação do sistema usado durante a pesquisa, diferenciando assim com o foco deste trabalho, que além de realizar a análise de sentimentos, também apresenta uma avaliação do sistema usado, no caso o Twitter.

(32)

31

4 EXPERIMENTO

Este capítulo descreve as seguintes etapas executadas no experimento: 1) extração das postagens; 2) classificação das postagens; e 3) resultados, explicadas a seguir.

4.1 Extração das postagens

O sistema escolhido para a investigação foi o Twitter e a ferramenta utilizada para extração a UUX-Posts1. A coleta foi feita em dias alternados para que não tivessem postagens repetidas, iniciada dia 20/03/2019 até a data da última extração dia 02/05/2019 (Tabela 5). Nas extrações foram utilizados os padrões propostos por Mendes (2015) que estão implementados na ferramenta, como por exemplo: os padrões de tipo de postagem (elogio, crítica, dúvida, etc.), facetas de UUX (eficácia, eficiência, etc.) ou mesmo classes gramaticais (verbos, substantivos, etc.). Um exemplo de extração está representado na Figura 5. A Figura ilustra uma planilha com as postagens extraídas na data 06/04/2019. Cada postagem é composta por um identificador (ID) e o dispositivo de onde ela foi enviada. O dispositivo também é uma classe de classificação proposta pela metodologia MALTU (MENDES, 2015). O nome do usuário é omitido, ficando com uma tag {USER}, pois faz parte da política de privacidade da ferramenta UUX-Post2. Figura 5 – Exemplo de extração realizada na UUX-Posts para utilização no experimento.

Fonte: http://uuxposts.russas.ufc.br/

1 http://uuxposts.russas.ufc.br/

(33)

32

Tabela 5 – Data e quantidade das postagens extraídas.

Data da extração Quantidade de

Pos-tagens extraídas Padrões Utilizados 20/03/2019 1147 Adjetivos 22/03/2019 1419 Elogio 24/03/2019 1460 Crítica 26/03/2019 1444 Dúvida 29/03/2019 1451 Comparação 01/04/2019 1419 Sugestão 03/04/2019 687 Eficácia 05/04/2019 455 Eficiência 07/04/2019 400 Segurança 15/04/2019 2772 Elogio e Crítica 17/03/2019 2738 Elogio e Dúvida 19/03/2019 2772 Elogio e Comparação 21/04/2019 2718 Elogio e Sugestão 23/04/2019 979 Eficiência e Eficácia 25/04/2019 817 Eficiência e Segurança 27/04/2019 809 Eficiência e Utilidade 02/05/2019 1618 Aprendizado e Eficácia 07/05/2019 996 Afeto e Eficácia 09/05/2019 646 Confiança e Eficácia 11/05/2019 2776 Crítica e Dúvida

Total de postagens extraídas 29523 Fonte: Elaborada pelo autor.

Posteriormente, a extração é transformada em um arquivo Json3, pois possui uma formatação que ajuda no momento de tratar as sentenças. O tratamento foi feito por um algoritmo desenvolvido pelo autor desta pesquisa, escrito em Python, que executa as seguintes etapas: 1) separação apenas de postagens que possuem emojis; 2) remoção de postagens que se repetem; 3) separação dos emojis utilizados naquela base de extração; 4) contagem de vezes em que o emoji se repete por postagem e na base de extração como um todo; e 5) verificação de qual dispositivo originou-se a postagem. Para que fosse gerada apenas uma planilha com as postagens que possuem emojis, para a realização da classificação, ilustrada na Figura 6.

(34)

33

Figura 6 – Exemplo da tabela gerada no algoritmo, para a realização do experimento.

Fonte: Elaborada pelo autor.

A Figura 6 é gerada como saída do algoritmo explicado usando como entrada o arquivo json gerado na extração de postagens realizada na UUX-Posts4, ela é composta pelos seguintes campos: Data de quando a postagem foi feita, ID da postagem, postagem e os emojis que cada postagem possui, bem como a quantidade deles por postagem.

O algoritmo gera, também, uma tabela (Tabela 6) para relacionar a quantidade de postagens obtidas, separando elas por dispositivos, mostrando o total de postagens, o número de postagens por dispositivo com e sem emoji.

Tabela 6 – Análise do uso de emojis em postagens por dispositivo.

Dispositivo Qtd. sem Emoji Qtd. com Emoji Quantidade total

Twitter para Android 7761 927 8688

Twitter para iPhone 3681 416 4097

Twitter para Web App 1369 107 1476

Twitter para Web Client 2091 58 2149

Twitter para iPad 57 2 59

Device not cataloged 590 37 627

Total 15549 1547 17096

Fonte: Elaborada pelo autor.

4.2 Classificação das postagens

Com as postagens já obtidas, a primeira classificação feita foi em PRUs e Não-PRUs, descartando as Não-PRUs, pois não influenciam no contexto do trabalho. Em seguida, as PRUs são classificadas pelas seguintes categorias sugeridas pela metodologia MALTU (MENDES, 2015): classificação por tipo (crítica, elogio, dúvida, comparação, sugestão e comparação), por análise de sentimentos (positiva, negativa e neutra) e por artefato (dispositivo utilizado).

(35)

34

Vale destacar que as três primeiras classificações (PRUs, tipo e análise de sentimentos) foram realizadas de forma manual e a última, por artefato, foi realizada automaticamente pelo algoritmo já citado anteriormente, desenvolvido nesta pesquisa. A classificação manual se justifica pelo fato da ferramenta ainda não ser tão precisa na classificação por PRU/Não-PRU e por tipo e ainda não possuir classificação automática por análise de sentimentos (MENDES; FURTADO, 2018). A classificação manual se deu da seguinte forma: uma pessoa atuou como o classificador, e outra revisava a classificação, tomando duas semanas (até a última extração) para que se tivesse os dados classificados. A Tabela 7 ilustra um trecho da planilha classificada nas categorias explicadas acima.

Tabela 7 – Tabela de classificação por: PRU/Não-PRU, tipo, análise de senti-mento e artefato.

PRU/Não-PRU Tipo Análise de Sentimento Artefato

PRU Crítica Negativa Twitter para Android

Não-PRU Twitter para Web Client

PRU Dúvida Negativa Twitter para Android

Não-PRU Twitter para Android

Não-PRU Twitter para Android

Não-PRU Twitter para Android

Não-PRU Twitter para iPhone

PRU Elogio Postiva Twitter para Android

PRU Elogio Postiva Twitter para iPhone

Não-PRU Twitter para Android

Fonte: Elaborada pelo autor.

4.3 Resultados

Esta seção apresenta os resultados obtidos a partir do experimento realizado.

4.3.1 Classificação de PRUs

O autor realizou a classificação manual das postagens por PRU e Não-PRU. A base de dados contém 1547 postagens, e foram classificadas 254 como PRU e 1293 como Não-PRU. A Tabela 8 ilustra parcialmente a base de dados classificada.

(36)

35

Tabela 8 – Algumas postagens classificadas em PRU e Não-PRU.

Fonte: Elaborada pelo autor.

4.3.2 Classificação por polaridade

Juntamente com a classificação manual em PRU e Não-PRU, citada anteriormente o autor deste trabalho também realizou a classificação por polaridade. A Tabela 9 ilustra parcialmente a base de dados classificada.

Tabela 9 – Algumas postagens classificadas em PRU, Não-PRU e sua polaridade.

Fonte: Elaborada pelo autor.

A partir da classificação por polaridade foi possível perceber uma predominância nas postagens com a polaridade negativa, como pode-se perceber no gráfico representado pela Figura 7, que demonstra essa informação.

Figura 7 – Quantidade de postagens por sentimento (por porcentagem).

(37)

36

4.3.3 Classificação por tipos

Juntamente com a outras classificações manuais já citadas, o autor deste trabalho também realizou a classificação por tipo de PRU. A Tabela 10 ilustra parcialmente a base de dados classificada.

Tabela 10 – Algumas postagens classificadas em PRU, Não-PRU, polaridade e seu tipo.

Fonte: Elaborada pelo autor.

A partir da classificação por tipo foi possível perceber uma maior quantidade nas postagens do tipo: crítica e elogio, como pode-se perceber no gráfico representado pela Figura 8, que demonstra essa informação.

Figura 8 – Quantidade de postagens de cada tipo.

(38)

37

4.3.4 Classificação por artefato

A classificação por artefato foi feita de forma automática, já que é um do atributos obtidos durante a extração. A Tabela 11 ilustra parcialmente a base de dados classificada. Tabela 11 – Algumas postagens classificadas por dispositivo.

Fonte: Elaborada pelo autor.

E a partir desses dados, pode-se perceber que, em sua grande maioria, os usuários do Twitter, são também usuários de dispositivos Android, seguidos por usuários de iPhone, como ilustrado no gráfico representado pela Figura 9.

Figura 9 – Quantidade de postagens com emojis por dispositivo.

(39)

38

5 ALGORITMO DE CLASSIFICAÇÃO AUTOMÁTICA

Este capítulo visa apresentar o algoritmo desenvolvido neste trabalho, que realiza a classificação automática das postagens. Sendo divido em: 1) concepção; 2) funcionamento; e 3) testes.

5.1 Concepção do Algoritmo

O algoritmo para classificação automática é escrito na linguagem python, para realizar a classificação automática das PRUs, a partir dos emojis presentes na sentença. Ele classifica a PRU, tanto por seu tipo (elogio, crítica, dúvida, comparação, ajuda e sugestão), como também por sua polaridade (positiva, negativa ou neutra).

O algoritmo realiza a classificação tomando como regra uma base de dados gerada no experimento deste trabalho, sendo ela composta pelas respectivas colunas: emojis, a polaridade dividida em 3 classes (positiva, negativa e neutra) e os tipos de PRU (elogio, crítica, dúvida, comparação, ajuda e sugestão) que cada emoji possui, contendo um total de 283 emojis distintos, ilustrada parcialmente na Tabela 12. Relacionando assim os emojis, com os tipos de PRU e sua polaridade. As regras para classificação tanto por tipo, quanto por polaridade serão descritas nas duas próximas seção.

Tabela 12 – Dicionário de emojis usado como entrada no algoritmo para classificação.

Fonte: Elaborada pelo autor.

5.2 Funcionamento do Algoritmo

O algoritmo recebe como entrada as PRUs a serem classificadas, ilustradas, parcial-mente, na Figura 13. As postagens são analisadas individualmente pelo algoritmo de classificação, por polaridade e por tipo, que são explicadas a seguir. Ao final o algoritmo, retorna as postagens com suas respectivas classificações. Para realizar o calculo da precisão do algoritmo e, assim,

(40)

39

obter os resultados gerados por ele, é utilizada a seguinte Equação 5.1.

Precisao= TotalClassi f icadoAutomaticamente

TotalDePostagens × 100 (5.1)

Tabela 13 – Base de dados usada como entrada no algoritmo para classificação.

Fonte: Elaborada pelo autor.

5.2.1 Classificação por polaridade

Uma das classificações automáticas realizada pelo algoritmo é a classificação de postagens por polaridade (positiva, negativa, neutra). Para realizar esta classificação, o algoritmo usa de uma abordagem que baseia-se na utilizada pelo SentiStrength1.

Primeiramente, é calculada a polaridade mais forte em cada emoji. A polaridade foi calculada com base no dicionário do algoritmo. Um exemplo do calculo dessa polaridade é o seguinte: como se pode observar na Tabela 14, o emoji , possui a maior polaridade para positiva, então neste caso o emoji é considerado como positivo. Em casos que o emoji não tiver um valor predominante entre as três classes da polaridade, ele não é utilizado para classificação. Em seguida, a classificação é realizada. A classificação por polaridade ocorre da seguinte forma, os emojis de cada postagem são listados e é feito o calculo da soma de cada uma de suas polaridades (somado 1 quando o emoji tem polaridade positiva, subtraído 1 quando o emoji é negativo, caso seja neutro não é atribuído nenhum valor). Caso a soma da polaridade da sentença seja maior que 0, ela é classificada como positiva, caso o resultado seja menor que 0 ela é classificada como negativa e caso a soma seja igual a 0, a sentença é classificada como neutra. Por exemplo, a seguinte PRU: "Tô adorando o Twitter bem dark ", esses dois emoji

(41)

40

possuem o sentimento predominante positivo, com base no experimento realizado nesta pesquisa (ilustrado na seguinte Tabela 14), com isso o calculo para a polaridade dos emoji, irá definir que ambos possuem sentimento positivo, sendo assim o valor do auxiliar será 2, com isso o algoritmo irá classificar a sentença com polaridade positiva. O algoritmo é representado no pseudo-código 1.

Tabela 14 – Relação de alguns emojis com sua polaridade.

Fonte: Elaborado pelo autor.

Algoritmo 1: Classificação por polaridade Input: BaseDeDadosComPRU s

Output: Postagens classificadas por polaridade. begin

dicionarioEmo jis;

for cada PRU ∈ BaseDeDadosComPRUs do for cada emoji ∈ dicionarioEmoji do

if emoji ∈ PRU then

if emoji == positivo then valorAux += 1

if emoji == negativo then valorAux -= 1 end if valorAux == 0 then PRU← Neutra if valorAux > 0 then PRU← Positiva if valorAux < 0 then PRU← Negativa end end

5.2.2 Classificação por tipo

Para a classificação automática por tipo de PRU (elogio, dúvida, crítica, comparação, ajuda e sugestão), primeiramente são calculados quais são os tipos de PRU, relacionados a cada emoticon presentes na sentença, para fazer o cálculo é utilizada a base de dados dos emojis e

(42)

41

seus tipos, ilustrada parcialmente na Tabela 12, onde possui a relação criada pela classificação manual feita pelo o autor deste trabalho.

Em seguida, a classificação é realizada. A classificação por tipo (elogio, crítica, dúvida, comparação, ajuda e sugestão) ocorre da seguinte forma: é usada uma abordagem parecida com a usada na classificação por polaridade, só que aqui se armazena a quantidade de vezes que um tipo se repete na postagem em relação ao tipo dos emojis presentes na sentença, por fim, é verificado qual o tipo com maior repetição e é atribuído aquele tipo à sentença. Quando não der para usar essa abordagem, que seria quando a repetição dos tipos presentes na postagem fossem iguais, será então atribuído ambos os tipos para a sentença. Por exemplo, na sentença "Tô adorando o Twitter bem dark ", tomando a entrada do algoritmo que possui a relação entre emoticon e tipo de PRU, o emoji , possui tipo predominante: sugestão e o emoticon , possui tipo predominante: elogio, ilustrado parcialmente na Tabela 15, sendo a quantidade de cada tipo presente na sentença seria: sugestão: 1 e elogio: 1, sendo assim, a sentença será classificada com ambos os tipos, sugestão e elogio. O algoritmo é representado no pseudo-código 2.

Tabela 15 – Relação dos emoticons com seu respectivo tipo .

(43)

42

Algoritmo 2: Classificação por tipo Input: BaseDeDadosComPRU s

Output: Postagens classificadas por polaridade. begin

dicionarioEmo jis;

for cada emoji ∈ dicionarioEmoji do if verifica tipo do emoji then

soma +1 para o respectivo tipo end

for maiores tipos do emoji do

for cada emoji ∈ BaseDeDadosComPRUs do postagem← tipo

end end end

5.3 Teste do Algoritmo

Para a realização dos testes, foram usadas as bases de dados criadas a partir da extração e classificação manual realizada no experimento (4). São utilizadas duas bases de dados uma contendo apenas postagens já classificadas como PRU, porém sem as categorias de classificação e outra base contendo os dados dos emojis, sendo eles: o próprio emoji (um total de 283); o valor de cada polaridade; e o valor de cada tipo. Ilustrado, parcialmente, na Tabela 16.

Tabela 16 – Base de dados de emojis usada como entrada.

(44)

43

5.3.1 Classificação automática de polaridade

O algoritmo foi utilizado para classificar apenas as postagens PRUs presentes na base de dados já classificada manualmente no primeiro experimento. Com isso, foi dada como entrada para ao algoritmo apenas as PRUs em sua totalidade. Com a execução do algoritmo pode-se obter a porcentagem de acertos e erros que o ele teve, calculado a partir da comparação dada de forma automática pelo algoritmo e a classificação manual previamente feita e validada. A base de dados possui em sua totalidade 1547 postagens, dentre elas 254 foram classificadas previamente de forma manual como PRU. A saída do algoritmo retorna a as postagens classificadas em sua polaridade. A partir da equação 5.1, foi obtido que o algoritmo classificou corretamente 187(73,6%) e errou 67(26,4%) postagens, de um total de 254 postagens usadas, sendo considerado um acerto, quando o valor da polaridade gerada pela classificação automática, é igual ao valor obtido na classificação manual. No gráfico ilustrado pela Figura 10, é demonstrado o resultado da classificação realizada pelo algoritmo.

Figura 10 – Gráfico com o resultado da classificação automática.

Fonte: Elaborado pelo autor.

5.3.2 Classificação automática por tipo

No teste da classificação automática por tipo, usando a equação 5.1, o resultado foi de 166 (65,3%) postagens classificadas corretamente e errou 88 (34,7%) postagens classificadas

(45)

44

incorretamente, de um total de 254 postagens, sendo considerado um correto, quando o valor do tipo gerado pela classificação automática, é igual ao valor obtido na classificação manual. No gráfico ilustrado pela Figura 11, é demonstrado o resultado da classificação realizada pelo algoritmo.

Figura 11 – Gráfico com o resultado da classificação automáitca.

(46)

45

6 DISCUSSÃO

Neste capítulo é feita uma discussão sobre as perguntas levantadas no capítulo 1, expondo as repostas e uma discussão sobre os resultados obtidos neste trabalho e sobre alguns fatores que podem enviesar esta pesquisa.

1. Quais são os emojis mais frequentes quando uma postagem é classificada em positiva, negativa, neutra?

Com a classificação da base de dados feita e validada, pôde-se obter a relação que cada emoji usado possui com cada polaridade. Com isso é possível perceber onde cada emoji mais influência durante a expressão do sentimento. A Tabela 17 ilustra os 3 emojis que possuem a maior influência nas polaridades positiva, negativa, neutra respectivamente, a partir da base de dados extraída.

Tabela 17 – Principais emoticons, relacionado a cada polaridade.

Fonte: Elabora pelo autor.

2. Os emojis de expressão ( , , ), refletem na classificação por análise de sentimentos?

Os emojis possuem uma influência na classificação de sentimentos, já que eles representam, de forma visual, uma expressão, feliz ou triste por exemplo. Com base na Tabela 19, pode-se perceber a relação entre os principais emojis e a classificação por análise de sentimentos em polaridade. Na primeira linha da tabela, tem-se o emoji que obteve 100% das classificações como "Positiva". Já para a segunda linha, tem-se o emoji, que obteve a maior predominância (95,65%) de classificação para "Negativa", sendo esses emojis ilustrados na Tabela 17. De acordo com a base de dados usada nesta pesquisa, podemos perceber que apesar da maioria das postagens quando usam emojis são Não-PRU, os emojis contidos nas PRUs conseguem representar o sentimento dos usuários em relação ao uso do sistema. Como apresentado na Tabela 18.

(47)

46

Tabela 18 – Exemplos de emoticons de expressão, relacionados a cada polari-dade.

Fonte: Elabora pelo autor.

Tabela 19 – Porcentagem dos emojis.

Fonte: Elabora pelo autor.

3. Quais são os emojis mais frequentes quando uma postagem é classificada na categoria por tipo?

Foi obtido o relacionamento de cada emoji com os de tipos de PRUs, sendo eles: 1) elogio; 2) crítica, 3) dúvida; 4) comparação; 5) ajuda; e 6) sugestão. Essa relação é ilustrada a seguir, na Tabela 20.

Tabela 20 – Principais emoticons, relacionado a cada tipo.

Fonte: Elaborada pelo autor.

4. Os usuários de qual dispositivo usam mais emojis?

Foi observado que os dispositivos: Android e iPhone, possuem a grande maioria das postagens PRUs com emoji, sendo responsáveis por 59,9% e 26,8% respectivamente. Isso demonstra que das PRUs com emoji avaliada nesta, em sua grande maioria, fazem parte do conjunto de usuários referentes a Android e iPhone.

5. Qual o resultado de uma avaliação de sistemas, usando as seguintes categorias nas PRUs: 1) tipo de postagem; 2) análise de sentimentos; 3) artefato, associadas a emojis?

(48)

47

possuem emoticons, é perceptível que as PRUs, em sua maioria, foram do tipo Crítica, ilustrada na Figura 8, com o sentimento negativo, conforme a Figura 7, sendo elas em sua maioria, postadas a partir de um dispositivo Android. Com isso, pode-se perceber que existem mais coisas a serem melhoradas no Twitter com base nas postagens extraídas, um exemplo é grande quantidade de usuários que criticam o Twitter, por não ter uma função de editar tweet.

6. Tipo x Polaridade

A partir do experimento realizado e a classificação automática, pode-se perceber que existe uma relação entre o tipo e a polaridade. Isto é visto, já que durante o experimento, em sua grande maioria as PRUs classificadas como negativa, indicam uma crítica e a positivas são elogios, demonstrando assim uma possível existência desta relação. Esse fator não foi estudado nesta pesquisa, mas é algo a ser feito em algum trabalho futuro.

7. Fatores

Foi utilizada a mesma base de dados para a os testes do algoritmo, pois existia uma limitação nas postagens, já que são utilizadas apenas as postagens que possuem emojis e era necessário uma grande quantidade. É observado nas postagens extraídas que apenas 9.05% do total de postagens possuem com emojis, sendo assim, é uma quantidade pequena em relação as todas as postagens extraídas, ilustrado no gráfico representado pela Figura 12. Por outro lado, o uso da mesma base também possibilitou calcular a precisão do algoritmo com a comparação das duas classificações (manual e automática).

Figura 12 – Total de Postagens.

(49)

48

7 CONCLUSÃO

A partir dos experimentos realizados neste trabalho conclui-se que os emojis impac-tam sim, tanto na classificação por tipo, como, principalmente, na classificação por polaridade, pois muitos representam um claro sentimento positivo ou negativo, por exemplo. A classificação automática demonstra que, mesmo levando apenas em consideração os emojis, para designar um sentimento presente na sentença, podemos sim classificar de forma correta e com uma precisão ligeiramente alta. Todavia, pode-se, ainda, melhorar esta classificação, fazendo um estudo buscando novas abordagens em tratar os sentimentos dos emojis, ou até mesmo fazer a classificação tomando a polaridade das palavras de uma sentença juntamente com os emoticons.

Como trabalho futuros, deve-se buscar aumentar mais a base de dados de emojis e sua relação com a polaridade e tipo de PRU, tornando assim, a classificação cada vez mais precisa. Buscar outros algoritmos que melhorem a classificação com base nos emojis. Fazer uma comparação com outros tipos de classificação por polaridade a fim de observar se a classificação por emoji é equivalente a classificação automática textual. Realizar uma investigação a fim de observar e entender o comportamento da ironia presente nas PRUs e nos emojis, já que não foi um ponto investigado neste trabalho, mas é algo que acontece, como na Tabela 16, onde na primeira linha temos um emoji positivo, mas que foi também é usado como crítica. Por fim, avaliar o uso dos emojis em outros sistemas.

Referências

Documentos relacionados

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

esta espécie foi encontrada em borda de mata ciliar, savana graminosa, savana parque e área de transição mata ciliar e savana.. Observações: Esta espécie ocorre

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

libras ou pedagogia com especialização e proficiência em libras 40h 3 Imediato 0821FLET03 FLET Curso de Letras - Língua e Literatura Portuguesa. Estudos literários

da quem praticasse tais assaltos às igrejas e mosteiros ou outros bens da Igreja, 29 medida que foi igualmente ineficaz, como decorre das deliberações tomadas por D. João I, quan-

Este capítulo tem uma abordagem mais prática, serão descritos alguns pontos necessários à instalação dos componentes vistos em teoria, ou seja, neste ponto

Após a colheita, normalmente é necessário aguar- dar alguns dias, cerca de 10 a 15 dias dependendo da cultivar e das condições meteorológicas, para que a pele dos tubérculos continue

Para preparar a pimenta branca, as espigas são colhidas quando os frutos apresentam a coloração amarelada ou vermelha. As espigas são colocadas em sacos de plástico trançado sem