Uso da mineração de texto para detecção de usuários influentes no Facebook

(1)

Uso da mineração de texto para detecção de usuários

influentes no Facebook

Gustavo Scaloni Vendramini1, Sylvio Barbon J ´unior1

1_{Departamento de Computac¸˜ao – Universidade Estadual de Londrina (UEL)}

Caixa Postal 10.011 – CEP 86057-970 – Londrina – PR – Brasil

vendramini.gu@gmail.com, barbon@uel.br

Abstract. This work intends to apply text mining techniques with in order to recognize influential users based on the content they publish.

Resumo. Este trabalho pretende aplicar técnicas de mineração de texto com o objetivo de reconhecer usuários influentes com base no conteúdo que eles publicam.

(2)

1. Introduc¸˜ao

Nos últimos anos temos visto um enorme crescimento na quantidade de informações tex-tuais dispon´ıveis na web. Com uma riqueza de opiniões expressas na forma texto, em grupos de not´ıcias, sites de avaliação e m´ıdias sociais. Nesse contexto, a mineração de texto tornou-se extremamente importante, permitindo a extração de conhecimento útil e detecção de tendências desconhecidos na vasta quantidade de dados [8].

O Facebook é uma m´ıdia social em que mais da metade de seus 1 bilhão de usuários estão ativos todos os dias atualizando status, trocando mensagens e postando conteúdos. Seguindo esta linha, este trabalho pretende desenvolver uma solução para identificação de usuários influêntes no Facebook [9].

(3)

2. Fundamentação Teórico-Metodológica e Estado da Arte

2.1. Minerac¸˜ao de Texto

A mineração de dados ou descoberta de conhecimento em dados pode ser definida como a ciência de extrair conhecimento útil a partir de repositórios de dados. De maneira análoga à mineração de dados, a mineração de texto pode ser definida como um processo de descoberta de conhecimento útil a partir de coleções de documentos textuais. Por meio de um conjunto de ferramentas de análise procura-se extrair informações novas e úteis que estão contidas em um ou mais documento de texto como not´ıcias de jornal, e-mails, artigos ou midias sociais, através da identificação e exploração de padrões e tendências [2] [4] [3].

A mineração de dados pressupõe que os dados já foram armazenados em um for-mato estruturado, em contrapartida, nos sistemas de mineração de texto é necessário dei-xar os dados que estão na forma não estruturada em um formato intermediário mais ex-plicitamente estruturado. Este processo de transformação dos dados faz parte da primeira etapa da mineração de texto, o pré-processamento dos dados, que envolve quebrar o texto em frases e palavras, redução do dicionário através da remoção de artigos, conjunções, preposições, palavras sem conteúdo e redução de um termo ao seu radical (stemming) [4] [7].

Após os dados serem preparados são aplicados as operações do núcleo de um sistema de mineração de texto que envolve a descoberta de padrões, análise de tendências e algoritmos de descoberta de conhecimento. Entre os padrões comumente utilizados para descoberta de conhecimento em dados textuais estão a análise de distribuição, frequencia e regra de associação [4].

Sistemas de mineração de texto geralmente contam com uma camada de apresentação dos resultados em que ferramentas de visualização como gráfos são utili-zadas para facilitar a navegação e exploração dos resultados. E também contam com técnicas de refinamento que permite interagir com o resultado para a otimização da des-coberta [4].

2.2. Estado da Arte

Segundo L. Ampofo et al [1] o crescente volume e disponibilidade dos dados digitais on-line em ambientes de m´ıdia social como Twitter, Facebook, oferece novas oportunidades para pesquisadores investigar o comportamento social, cultural, econˆomico e pol´ıtico.

Estudos recentes ressaltam a importancia das m´ıdias sociais para auxiliar o mar-keting e alavancar as vendas das empresas. Uma pesquisa mostrou o uso da mineração de texto para realizar uma análise competitiva em dados gerados por usuários no Twitter e no Facebook sobre três grandes redes de pizzarias [6].

Ainda, [5] apresentou que as postagens no mural do Facebook podem prever par-cialmente traços psicológicos de auto-monitorização1_{dos usuários do Facebook.}

1_{alguém que está preocupado com a forma como são percebidos pelos outros e vai realmente mudar seu}

(4)

3. Objetivos

O objetivo deste trabalho é desenvolver uma solução para reconhecer usuários influentes no Facebook com base no conteúdo que eles publicam.

(5)

4. Procedimentos metodológicos/Métodos e técnicas

Para alcançar o objetivo do trabalho será dado continuidade ao levantamento bibliográfico e estudo dos algoritmos de classificação de texto. Em seguida inicia-se o estudo da API Graph do Facebook que permitirá montar um base de dados para realizar experimen-tos. Para finalizar será aplicada as técnicas de mineração de dados a fim de encontrar os usuários que mais propagam conteúdo relevante.

(6)

5. Cronograma de Execuc¸˜ao

Atividades:

1. Leitura bibliogr´afica;

2. Estudo detalhado dos métodos; 3. Implementação e Testes; 4. Escrita do TCC;

5. Conclus˜aoo e revis˜ao do trabalho;

Tabela 1. Cronograma de Execuc¸ ˜ao

fev mar abr mai jun jul ago set out nov Atividade 1 X X X X

Atividade 2 X X X X X X

Atividade 3 X X X X X

Atividade 4 X X X X X X

(7)

6. Contribuic¸˜oes e/ou Resultados esperados

Espera-se com este trabalho levantar os algoritmos de mineração de texto que apresentem bons resultados para a identificação de forma automatizada de pessoas influentes no Fa-cebook. Esta solução será um facilitador para aqueles que desejam propragar conteúdo por meio de usuários e não sabem quais são as melhores escolhas.

(8)

7. Espac¸o para assinaturas

Londrina, 31 de Marc¸o de 2014.

—————————————— ——————————————

(9)

Referˆencias

[1] Lawrence Ampofo, Simon Collister, Ben O Loughlin, and Andrew Chadwick. Text Mi-ning and Social Media: When Quantitative Meets Qualitative, and Software Meets Humans. (October 2013), 2014.

[2] R.E. Banchs. Text Mining with MATLAB . SpringerLink : B¨ucher. Springer, 2012.R

[3] R. Bilisoly. Practical Text Mining with Perl. Wiley Series on Methods and Applications in Data Mining. Wiley, 2011.

[4] R. Feldman and J. Sanger. The Text Mining Handbook: Advanced Approaches in Analy-zing Unstructured Data. Cambridge University Press, 2007.

[5] Qiwei He, Cees A.W. Glas, Michal Kosinski, David J. Stillwell, and Bernard P. Veld-kamp. Predicting self-monitoring skills using textual posts on facebook. Computers in Human Behavior, 33(0):69 – 78, 2014.

[6] Wu He, Shenghua Zha, and Ling Li. Social media competitive analysis and text mining: A case study in the pizza industry. International Journal of Information Management, 33(3):464–472, June 2013.

[7] Andreas Hotho, Andreas Nurnberger, and Gerhard PaaB. A brief survey of text mining. LDV Forum - GLDV Journal for Computational Linguistics and Language Techno-logy, 2005.

[8] A. Kao and S.R. Poteet. Natural Language Processing and Text Mining. Springer, 2007. [9] M.A. Russell and M. Russell. Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites. Head First Series. O’Reilly Media, Incorporated, 2011.