• Nenhum resultado encontrado

Modelo para mineração de texto e classificação de sentimento automática em conteúdo de redes sociais digitais

N/A
N/A
Protected

Academic year: 2021

Share "Modelo para mineração de texto e classificação de sentimento automática em conteúdo de redes sociais digitais"

Copied!
5
0
0

Texto

(1)

Modelo para minerac¸˜ao de texto e classificac¸˜ao de sentimento

autom´atica em conte ´udo de redes sociais digitais

Kelvin Ramires Capobianco1, Sylvio Barbon J ´unior1

1Departamento de Computac¸˜ao – Universidade Estadual de Londrina (UEL)

Caixa Postal 10.011 – CEP 86057-970 – Londrina – PR – Brasil

kelvinramires@gmail.com, barbon@uel.br

Abstract. With the success in popularity and volume of data easily accessible, the Digital Social Networks like Twitter, are subject to various evaluation me-chanisms of content for knowledge extraction. This assay aims to present a mo-del of text mining techniques in conjunction with sentiment analysis grouping subjects / conversations on Twitter. The results seek to present an important contribution model and stimulus for further studies in the area.

Resumo. Com o sucesso em popularidade e volume de dados de f´acil acesso, as Redes Sociais Digitais, como o Twitter, s˜ao alvo de diversos mecanismos de avaliac¸˜ao de conte´udo para a extrac¸˜ao de conhecimento. Assim, este tra-balho tem como objetivo apresentar um modelo para utilizac¸˜ao de t´ecnicas de minerac¸˜ao de texto em conjunto com an´alise de sentimento agrupando assun-tos/conversas no Twitter. Os resultados procuram apresentar uma importante contribuic¸˜ao do modelo e est´ımulo para mais estudos na ´area.

1. Introduc¸˜ao

Redes sociais digitais s˜ao aplicativos com a capacidade de conectar pessoas e organizac¸˜oes com afinidades por diferentes tipos de relac¸˜oes. O crescimento e sucesso desse tipo de aplicativo est´a diretamente ligado ao avanc¸o da internet.

Twitter, Facebook e Instagram s˜ao alguns exemplos de software sociais que atingi-ram grau elevado de sucesso. Entre eles o Twitter se destaca pela quantidade de usu´arios e a velocidade com que eles aumentam. Em 2013 o mesmo apresentava cerca de 200 milh˜oes de usu´arios [2] e atualmente apresenta por volta de 500 milh˜oes, sendo o Bra-sil o segundo pa´ıs que mais os apresenta. 1. Outro ponto de destaque ´e seu m´etodo de funcionamento, o qual pode ser nomeado de microblogging, isto pois usu´arios comparti-lham breves textos (140 caracteres ´e a quantidade m´axima permitida) que s˜ao acess´ıveis a qualquer outro que desejar receber informac¸˜oes sobre tal perfil ou procurar pelo assunto abordado.

M´ıdias sociais geram uma grande quantidade de dados, e estes podem ser mani-pulado e analisados a fim de compreender um pouco mais sobre: sentimento, forma de escrita, opini˜oes e marketing. Considerando a relevˆancia destas informac¸˜oes faz-se ne-cess´aria a utilizac¸˜ao de uma forma de obtˆe-la de forma automatizada e quantificada, como a minerac¸˜ao de texto em conjunto com an´alise de sentimento. A minerac¸˜ao de texto con-siste em t´ecnicas para obtenc¸˜ao de informac¸˜oes significativas a partir de um texto, sendo

1

(2)

ele n˜ao estruturado ou semi-estruturado [7]. A an´alise de sentimento busca determinar a partir de uma opini˜ao um sentimento, seja ele em relac¸˜ao a uma pessoa, servic¸o, produto ou mesmo outra opini˜ao. Este ´e determinado de acordo com a polaridade (positiva ou negativa) da opini˜ao.

O grande volume de texto se mostra adequado `a utilizac¸˜ao destas t´ecnicas, por´em, a informalidade lingu´ıstica apresentada nas redes sociais digitais pode gerar graves pro-blemas. Dentre eles est´a o ru´ıdo, prejudicando a utilizac¸˜ao de algoritmos de indexac¸˜ao de texto para classificar a relevˆancia das palavras, e o sarcasmo e ironia, que dificultam a polarizac¸˜ao das opini˜oes gerando resultados n˜ao esperados.

Este projeto est´a dividido em mais cinco sec¸˜oes que s˜ao apresentadas e organiza-das da seguinte forma. Na Sec¸˜ao 2 ´e apresentada a fundamentac¸˜ao te´orico-metodol´ogica e o estado da arte, em seguida, na Sec¸˜ao 3 os objetivos ser˜ao apresentados. A Sec¸˜ao 4 apre-senta como os objetivos ser˜ao alcanc¸ados, englobando os procedimentos metodol´ogicos, m´etodos e t´ecnicas. Na sec¸˜ao 5 ´e demonstrado o cronograma e o tempo estimado para as atividades a serem desenvolvidas. A Sec¸˜ao 6 apresenta o que este trabalho espera atingir e contribuir.

2. Fundamentac¸˜ao Te´orico-Metodol´ogica e Estado da Arte

2.1. Minerac¸˜ao de texto e redes sociais digitais

Utilizar redes sociais digitais em conjunto com minerac¸˜ao de texto ´e atualmente explo-rado de diversas formas. O Twitter gera uma base de dados muito grande, que pode ser agrupada de acordo com assuntos ou eventos como a copa do mundo. Nota-se que ´e ne-cess´ario trabalhar os dados obtidos a fim de evitar ru´ıdos lingu´ısticos, al´em de ser poss´ıvel utilizar algoritmos de clusterizac¸˜ao (como o k-means) para analisar os resultados obtidos [1].

Em outra abordagem procura-se mostrar como o Twitter esta relacionado `as gran-des marcas. Os resultados mostram o mesmo como uma ferramenta confi´avel para an´alise de marcas, por´em a n˜ao remoc¸˜ao do ru´ıdo pode atrapalhar os resultados [4]. Em [3] as t´ecnicas de minerac¸˜ao de texto s˜ao utilizadas para demonstrar que atualmente as empresas (pizzarias) necessitam entender a an´alise feita nos softwares sociais e transformar estes dados em vantagens para realizac¸˜ao de marketing na internet, uma ferramenta que cresce a cada dia e possibilita uma relac¸˜ao de proximidade entre a empresa e o consumidor.

Al´em de ser usada para empresas e marketing em geral, estas t´ecnicas podem ser utilizadas para resolver outros tipos de problemas. Em [9], com auxilio destas uma forma para avaliar incidentes envolvendo incˆendios naturais e relacionar atributos entre eles ´e desenvolvida.

2.2. An´alise de sentimento e polarizac¸˜ao

Em seus primeiros trabalhos, a an´alise de sentimento buscava determinar os sentimentos em textos criados para avaliar um produto ou servic¸o (reviews). Em [6] isto ´e abordado com sucesso. Em contrapartida o avanc¸o da internet possibilitou que novas formas de debates fossem criadas, como f´oruns de discuss˜ao online. Ao manifestar uma opini˜ao nestes f´oruns ´e comum receber diversas respostas (sendo elas positivas ou negativas). Este tipo de interac¸˜ao ´e chamado de debate polarizado. Em [8] a dificuldade de realizar uma

(3)

an´alise de sentimento em um debate polarizado ´e retratada. A postura dos participantes foi avaliada em 14 debates distintos (10 ideol´ogicos e 4 n˜ao ideol´ogicos) e de acordo com os resultados apenas 78,26% das postagens foram classificadas de forma correta, o que mostra que automatizar o processo de an´alise desse tipo de debates n˜ao ´e trivial.

Para resolver este problema um modelo para an´alise de sentimento em debates polarizados foi proposto em [5]. Os padr˜oes lingu´ısticos, contexto e ocorrˆencia s˜ao uti-lizados para identificar as opini˜oes expressas nos textos, al´em disso, este modelo trata dois fenˆomenos lingu´ısticos: An´afora e concess˜oes que podem prejudicar a an´alise. Cada opini˜ao ´e representada por uma tripla (produto, palavra opinativa e sentenc¸a) e sua pola-ridade inicial ´e dada utilizando as classes gramaticais de acordo com a palavra opinativa da tripla. Este modelo foi avaliado em trˆes experimentos (com trˆes configurac¸˜oes dife-rentes). O primeiro utilizando apenas padr˜oes lingu´ısticos obteve taxas entre 50% e 65% de acur´acia em trˆes debates, o segundo utilizando a resoluc¸˜ao de an´aforas e concess˜oes apresentou melhora de 10% a 12% na taxa de acur´acia anterior em dois dos trˆes testes e o terceiro agregando a an´alise do grafo de respostas apresentou melhora de 10% na acur´acia para todos os experimentos. ´E poss´ıvel perceber um aumento na porcentagem ao utilizar este modelo, por´em o crescimento n˜ao ´e t˜ao discrepante em relac¸˜ao ao obtido com o uso da an´alise de sentimento padr˜ao.

3. Objetivos

Este trabalho tem como objetivo desenvolver um modelo autom´atico utilizando t´ecnicas de minerac¸˜ao de texto, dentre elas a reduc¸˜ao do ru´ıdo, an´alise morfol´ogica e classificac¸˜ao da relevˆancia das palavras, e a classificac¸˜ao de sentimento de acordo com a avaliac¸˜ao de polarizac¸˜ao em uma base de dados obtida no Twitter obtendo um crescimento na taxa de acur´acia em relac¸˜ao a literatura padr˜ao.

4. Procedimentos metodol´ogicos/M´etodos e t´ecnicas

O software social escolhido foi o Twitter, o mesmo apresenta grande volume de dados e assuntos, utilizando sua API (Application Programming) 2 para obter estes dados. A

linguagem de programac¸˜ao a ser utilizada ser´a o Java.

O modelo proposto ser´a dividido em quatro camadas, sendo elas: Pr´e-processamento, agrupamento, an´alise e avaliac¸˜ao de polarizac¸˜ao.

4.1. Pr´e-Processamento

Na camada de pr´e-processamento todo o dado obtido ser´a manipulado a fim de eliminar poss´ıveis ru´ıdos. A primeira etapa ´e a correc¸˜ao ortogr´afica, pois palavras escritas de forma errada podem atrapalhar a avaliac¸˜ao dos dados. A segunda etapa ´e ajustar as g´ırias utilizadas na internet para conte´udos formais, a terceira etapa ´e determinar uma lista de stopwords(palavras a serem evitadas), encontrar e removˆe-las.

4.2. Agrupamento

Nesta camada, como o nome sugere, os tweets (nome dado as postagens na rede social) ser˜ao agrupados de acordo com o assunto e conversa. Em suma, os que apresentarem um

(4)

assunto mas tamb´em apresentarem respostas ser˜ao agrupados de acordo com assunto e conversa, aos que n˜ao apresentarem respostas ser˜ao apenas agrupados de acordo com seu assunto.

4.3. An´alise

Ap´os serem agrupados os dados ir˜ao para a camada de an´alise, quando ser´a avaliada a classificac¸˜ao morfol´ogica de cada palavra e em seguida ser´a analisada a relevˆancia delas com o algoritmo de indexac¸˜ao IDF (Inverse Document Frequency). Sendo assim, ser´a poss´ıvel relacionar a relevˆancia com a classe gramatical de cada palavra. As palavras e suas classes gramaticais ainda ajudar˜ao na avaliac¸˜ao de polarizac¸˜ao.

4.4. Avaliac¸˜ao de polarizac¸˜ao

Com a ajuda de uma base polarizada em portuguˆes, a polaridade dos tweets ser´a avaliada. Como os mesmos passaram pela camada de agrupamento, sera poss´ıvel determinar o sentimento em relac¸˜ao a determinados assuntos, assim como o sentimento de cada parte em uma conversa.

Em seguida ser˜ao gerados alguns grafos para auxiliar a avaliac¸˜ao dos resultados, entre eles est˜ao: grafos relacionando classe gramatical com a relevˆancia das palavras e relacionando sentimentos com os assuntos ou conversas.

5. Cronograma de Execuc¸˜ao

Atividades necess´arias para o desenvolvimento do projeto: 1. Levantamento bibliogr´afico;

2. Obtenc¸˜ao de uma base de dados no Twitter; 3. Implementac¸˜ao do modelo proposto; 4. Avaliac¸˜ao dos resultados;

5. Escrita do relat´orio final;

Tabela 1. Cronograma de Execuc¸ ˜ao

ago set out nov dez jan fev Atividade 1 X X X

Atividade 2 X X

Atividade 3 X X X

Atividade 4 X X

Atividade 5 X X

6. Contribuic¸˜oes e/ou Resultados esperados

Com este trabalho, ´e esperado que seja poss´ıvel relacionar as t´ecnicas de minerac¸˜ao de texto em conjunto com an´alise de sentimento em redes sociais digitais, possibilitando que sejam gerados resultados satisfat´orios quando o modelo for aplicado, mostrando a relac¸˜ao da relevˆancia das palavras com assuntos e o sentimento gerado por diversos assuntos ou conversas. Al´em disso ´e esperado que a classificac¸˜ao gramatical possa ajudar na resoluc¸˜ao de conflitos como ironia e sarcasmo, que podem gerar falsas polaridades.

(5)

7. Espac¸o para assinaturas

Londrina, 03 de agosto de 2015.

—————————————— ——————————————

Aluno Orientador

Referˆencias

[1] Daniel Godfrey, Caley Johns, Carl Meyer, Shaina Race, and Carol Sadek. A case study in text mining: Interpreting twitter data from world cup tweets. arXiv preprint ar-Xiv:1408.5427, 2014.

[2] Jennifer Golbeck. Analyzing the social web. Newnes, 2013.

[3] Wu He, Shenghua Zha, and Ling Li. Social media competitive analysis and text mining: A case study in the pizza industry. International Journal of Information Management, 33(3):464–472, 2013.

[4] Mohamed M Mostafa. More than words: Social networks’ text mining for consumer brand sentiments. Expert Systems with Applications, 40(10):4241–4251, 2013. [5] Francisco A Ricarte Neto and Fl´avia de Almeida Barros. Asdp: um processo para an´alise

de sentimento em debates polarizados.

[6] Nelson Rocha Silva, Diego Lima, and Fl´avia Barros. Sapair: Um processo de an´alise de sentimento no n´ıvel de caracter´ıstica. In 4nd International Workshop on Web and Text Intelligence (WTI’12), Curitiba, 2012.

[7] M Sukanya and S Biruntha. Techniques on text mining. In Advanced Communication Control and Computing Technologies (ICACCCT), 2012 IEEE International Confe-rence on, pages 269–271. IEEE, 2012.

[8] Marilyn A Walker, Pranav Anand, Rob Abbott, Jean E Fox Tree, Craig Martell, and Joseph King. That is your evidence?: Classifying stance in online political debate. Decision Support Systems, 53(4):719–729, 2012.

[9] Dake Zhang and Kang Jiang. Application of data mining techniques in the analysis of fire incidents. Procedia Engineering, 43:250–256, 2012.

Referências

Documentos relacionados

a) “Ao fundo da nossa rua, depois de todas as casas, depois de todas as árvores, depois do campo de ervas altas e do ribeiro de água gelada, há um muro”.. Depois, transforma as

• Pour arrêter votre brosse Oral-B ® Sonic Complete™.. lorsqu’elle est en mode « Clean » ou « Soft », appuyez sur le bouton marche/arrêt et

Não se está perante a situação de uma única falta injustificada; só se pode falar em falta de assiduidade se houver alguma continuidade, o que não implica que tenham de ser faltas

Lembramos que, na forma do Regimento Interno, em seu artigo 30 § 2°, o prazo para apresentação do parecer é de 30 (trinta) dias, e que deve ser precedido de ementa e encerrado

O segundo Beneficiário será designado pelo Segurado na Proposta de Adesão, podendo ser substituído a qualquer tempo, mediante solicitação formal assinada pelo próprio Segurado, para

Júri de Seleção de trabalhos Ginecologia/ Obstetrícia Hélder Ferreira Luís Guedes Martins Júri de Prémio CO Ginecologia/ Obstetrícia Anabela Branco José Cabral Luísa Vieira

Resposta: Conforme item 3.1.9.5 do Anexo 02 do Edital, caso o atestado apresente mais do que 12 meses de prestação de serviços ininterruptos, será considerada a média mensal do

No período de primeiro de janeiro a 30 de junho de 2011, foram encaminhadas, ao Comitê de Segurança do Paciente da instituição sede do estudo, 218 notificações de