Uso da minerac¸˜ao de texto para detecc¸˜ao de usu´arios
influentes no Facebook
Gustavo Scaloni Vendramini1, Sylvio Barbon J ´unior1
1Departamento de Computac¸˜ao – Universidade Estadual de Londrina (UEL)
Caixa Postal 10.011 – CEP 86057-970 – Londrina – PR – Brasil
vendramini.gu@gmail.com, barbon@uel.br
Abstract. This work intends to apply text mining techniques with in order to recognize influential users based on the content they publish.
Resumo. Este trabalho pretende aplicar t´ecnicas de minerac¸˜ao de texto com o objetivo de reconhecer usu´arios influentes com base no conte´udo que eles publicam.
1. Introduc¸˜ao
Nos ´ultimos anos temos visto um enorme crescimento na quantidade de informac¸˜oes tex-tuais dispon´ıveis na web. Com uma riqueza de opini˜oes expressas na forma texto, em grupos de not´ıcias, sites de avaliac¸˜ao e m´ıdias sociais. Nesse contexto, a minerac¸˜ao de texto tornou-se extremamente importante, permitindo a extrac¸˜ao de conhecimento ´util e detecc¸˜ao de tendˆencias desconhecidos na vasta quantidade de dados [8].
O Facebook ´e uma m´ıdia social em que mais da metade de seus 1 bilh˜ao de usu´arios est˜ao ativos todos os dias atualizando status, trocando mensagens e postando conte´udos. Seguindo esta linha, este trabalho pretende desenvolver uma soluc¸˜ao para identificac¸˜ao de usu´arios influˆentes no Facebook [9].
2. Fundamentac¸˜ao Te´orico-Metodol´ogica e Estado da Arte
2.1. Minerac¸˜ao de Texto
A minerac¸˜ao de dados ou descoberta de conhecimento em dados pode ser definida como a ciˆencia de extrair conhecimento ´util a partir de reposit´orios de dados. De maneira an´aloga `a minerac¸˜ao de dados, a minerac¸˜ao de texto pode ser definida como um processo de descoberta de conhecimento ´util a partir de colec¸˜oes de documentos textuais. Por meio de um conjunto de ferramentas de an´alise procura-se extrair informac¸˜oes novas e ´uteis que est˜ao contidas em um ou mais documento de texto como not´ıcias de jornal, e-mails, artigos ou midias sociais, atrav´es da identificac¸˜ao e explorac¸˜ao de padr˜oes e tendˆencias [2] [4] [3].
A minerac¸˜ao de dados pressup˜oe que os dados j´a foram armazenados em um for-mato estruturado, em contrapartida, nos sistemas de minerac¸˜ao de texto ´e necess´ario dei-xar os dados que est˜ao na forma n˜ao estruturada em um formato intermedi´ario mais ex-plicitamente estruturado. Este processo de transformac¸˜ao dos dados faz parte da primeira etapa da minerac¸˜ao de texto, o pr´e-processamento dos dados, que envolve quebrar o texto em frases e palavras, reduc¸˜ao do dicion´ario atrav´es da remoc¸˜ao de artigos, conjunc¸˜oes, preposic¸˜oes, palavras sem conte´udo e reduc¸˜ao de um termo ao seu radical (stemming) [4] [7].
Ap´os os dados serem preparados s˜ao aplicados as operac¸˜oes do n´ucleo de um sistema de minerac¸˜ao de texto que envolve a descoberta de padr˜oes, an´alise de tendˆencias e algoritmos de descoberta de conhecimento. Entre os padr˜oes comumente utilizados para descoberta de conhecimento em dados textuais est˜ao a an´alise de distribuic¸˜ao, frequencia e regra de associac¸˜ao [4].
Sistemas de minerac¸˜ao de texto geralmente contam com uma camada de apresentac¸˜ao dos resultados em que ferramentas de visualizac¸˜ao como gr´afos s˜ao utili-zadas para facilitar a navegac¸˜ao e explorac¸˜ao dos resultados. E tamb´em contam com t´ecnicas de refinamento que permite interagir com o resultado para a otimizac¸˜ao da des-coberta [4].
2.2. Estado da Arte
Segundo L. Ampofo et al [1] o crescente volume e disponibilidade dos dados digitais on-line em ambientes de m´ıdia social como Twitter, Facebook, oferece novas oportunidades para pesquisadores investigar o comportamento social, cultural, econˆomico e pol´ıtico.
Estudos recentes ressaltam a importancia das m´ıdias sociais para auxiliar o mar-keting e alavancar as vendas das empresas. Uma pesquisa mostrou o uso da minerac¸˜ao de texto para realizar uma an´alise competitiva em dados gerados por usu´arios no Twitter e no Facebook sobre trˆes grandes redes de pizzarias [6].
Ainda, [5] apresentou que as postagens no mural do Facebook podem prever par-cialmente trac¸os psicol´ogicos de auto-monitorizac¸˜ao1dos usu´arios do Facebook.
1algu´em que est´a preocupado com a forma como s˜ao percebidos pelos outros e vai realmente mudar seu
3. Objetivos
O objetivo deste trabalho ´e desenvolver uma soluc¸˜ao para reconhecer usu´arios influentes no Facebook com base no conte´udo que eles publicam.
4. Procedimentos metodol´ogicos/M´etodos e t´ecnicas
Para alcanc¸ar o objetivo do trabalho ser´a dado continuidade ao levantamento bibliogr´afico e estudo dos algoritmos de classificac¸˜ao de texto. Em seguida inicia-se o estudo da API Graph do Facebook que permitir´a montar um base de dados para realizar experimen-tos. Para finalizar ser´a aplicada as t´ecnicas de minerac¸˜ao de dados a fim de encontrar os usu´arios que mais propagam conte´udo relevante.
5. Cronograma de Execuc¸˜ao
Atividades:
1. Leitura bibliogr´afica;
2. Estudo detalhado dos m´etodos; 3. Implementac¸˜ao e Testes; 4. Escrita do TCC;
5. Conclus˜aoo e revis˜ao do trabalho;
Tabela 1. Cronograma de Execuc¸ ˜ao
fev mar abr mai jun jul ago set out nov Atividade 1 X X X X
Atividade 2 X X X X X X
Atividade 3 X X X X X
Atividade 4 X X X X X X
6. Contribuic¸˜oes e/ou Resultados esperados
Espera-se com este trabalho levantar os algoritmos de minerac¸˜ao de texto que apresentem bons resultados para a identificac¸˜ao de forma automatizada de pessoas influentes no Fa-cebook. Esta soluc¸˜ao ser´a um facilitador para aqueles que desejam propragar conte´udo por meio de usu´arios e n˜ao sabem quais s˜ao as melhores escolhas.
7. Espac¸o para assinaturas
Londrina, 31 de Marc¸o de 2014.
—————————————— ——————————————
Referˆencias
[1] Lawrence Ampofo, Simon Collister, Ben O Loughlin, and Andrew Chadwick. Text Mi-ning and Social Media: When Quantitative Meets Qualitative, and Software Meets Humans. (October 2013), 2014.
[2] R.E. Banchs. Text Mining with MATLAB . SpringerLink : B¨ucher. Springer, 2012.R
[3] R. Bilisoly. Practical Text Mining with Perl. Wiley Series on Methods and Applications in Data Mining. Wiley, 2011.
[4] R. Feldman and J. Sanger. The Text Mining Handbook: Advanced Approaches in Analy-zing Unstructured Data. Cambridge University Press, 2007.
[5] Qiwei He, Cees A.W. Glas, Michal Kosinski, David J. Stillwell, and Bernard P. Veld-kamp. Predicting self-monitoring skills using textual posts on facebook. Computers in Human Behavior, 33(0):69 – 78, 2014.
[6] Wu He, Shenghua Zha, and Ling Li. Social media competitive analysis and text mining: A case study in the pizza industry. International Journal of Information Management, 33(3):464–472, June 2013.
[7] Andreas Hotho, Andreas Nurnberger, and Gerhard PaaB. A brief survey of text mining. LDV Forum - GLDV Journal for Computational Linguistics and Language Techno-logy, 2005.
[8] A. Kao and S.R. Poteet. Natural Language Processing and Text Mining. Springer, 2007. [9] M.A. Russell and M. Russell. Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites. Head First Series. O’Reilly Media, Incorporated, 2011.