• Nenhum resultado encontrado

Compreendendo Mecanismos de Influência em Redes Sociais Online através do Comportamento dos Usuários

N/A
N/A
Protected

Academic year: 2021

Share "Compreendendo Mecanismos de Influência em Redes Sociais Online através do Comportamento dos Usuários"

Copied!
76
0
0

Texto

(1)

Curso de Pós-Graduação em Engenharia da Informação

Dissertação de Mestrado

Davi Brandão Zanotto

Compreendendo Mecanismos de Influência em Redes

Sociais Online através do Comportamento dos Usuários

Santo André

2015

(2)

Dissertação de Mestrado

Davi Brandão Zanotto

Compreendendo Mecanismos de Influência em Redes

Sociais Online através do Comportamento dos Usuários

Trabalho apresentado como requisito parcial para obtenção do título de Mestre em Engenha-ria da Informação, sob orientação do Professor Doutor Carlos Alberto Kamienski.

Santo André

2015

(3)
(4)
(5)
(6)

O primeiro agradecimento não poderia ser para outra pessoa senão meu orientador, Carlos Kamienski. Agradeço, sem saber como recompensá-lo, por tudo que me proporcionou durante esses anos de pesquisa em que trabalhamos juntos. Sua dedicação, seriedade, comprometimento e cobrança foram essenciais para me motivar e me manter focado neste trabalho. Espero que continue sempre assim para que outros alunos possam desfrutar desse sentimento que pude conhecer.

Não foi fácil seguir os caminhos do mundo acadêmico. Diferentes oportunidades, que poderiam proporcionar melhores condições financeiras e até sociais surgiram durante esse período. No entanto, visando o futuro, é preciso tomar decisões difíceis e que nos fazem viver um presente mais complicado, em alguns termos. Tudo isso se transforma em uma missão bem mais fácil quando se tem o amor da sua vida ao seu lado, apoiando e refrescando em sua memória que algo maior está acontecendo. Waleska, agradeço por todo amor e dedicação, como esposa, e por tudo que você me proporciona desde os tempos de faculdade, me fazendo sentir-se maior do que realmente sou.

Agradeço à minha família, que me apoiou quando decidi sair de Maceió e ir morar em São Paulo. Agradeço, em especial, a minha mãe que me direcionou para tomar a decisão de qual curso eu deveria escolher na faculdade e me orientou a estudar no Instituto Federal, o início de todo esse caminho.

Agradeço também aos meus amigos, professores e colegas de mestrado e professores e colegas da faculdade que, de tantas formas diferente, puderam me proporcionar o sentimento que tenho ao escrever este texto.

(7)

O presente trabalho apresenta uma abordagem de análise da rede social Twitter a fim de entender como os usuários se tornam influentes, através das suas características pessoais e das características dos seus tuítes. As redes sociais online vêm sendo utilizadas, cada vez mais, para análises de diferentes áreas de pesquisa que se propõem a entender como as relações humanas ocorrem e como são estruturadas. Este projeto se propõe a entender como os conteúdos são difundidos no Twitter, quais as características dos usuários denominados influentes, por serem formadores de opinião, e as características das mensagens que se tornaram virais. Entender como as pessoas se comportam em um grupo é um grande desafio. Com este objetivo, foi criado um coletor de dados para capturar tuítes criados em sete temas diferentes e servir como entrada de dados para as análises de influência através de diferentes técnicas, como: contagem de retuítes e menções, entendimento de quais características costumam apresentar os tuítes que alcançam maior disseminação, criação de grafos relacionando usuários, seus seguidores, tuítes e retuítes para aplicar técnicas de redes complexas e análise com mineração de dados utilizando árvore de decisão. A estratégia utilizada foi aplicar diferentes técnicas para comparar os resultados e chegar em um modelo que possa prever quando um conteúdo ou usuário será influente. Ao todo, foram coletados mais de 62 milhões de tuítes entre os anos de 2014 e 2015. Apesar da grande quantidade de dados, não foi possível desenvolver um padrão exato de como um usuário ou conteúdo se torna influente, porém foi possível entender diversas características que estão presentes nesses usuários e que podem ser utilizadas para aumentar o potencial de disseminação de um conteúdo específico.

Palavras-chaves: Redes sociais online, mineração de dados, marketing viral, marketing

(8)

This paper presents an analitical approach of the social network Twitter in order to understand how its users become influential through their personal characteristics and the characteristics of their tweets. Online social networks have been increasingly used for analysis of different areas of research that intend to understand how human relationships occur and how they are structured. This project aims at understanding how content is spread on Twitter, what the characteristics of users called influential are, for being opinion leaders, and characteristics of messages that have gone viral. Understanding how people behave in a group is a great challenge. For this purpose, a data collector has been created to capture tweets created in seven different themes as well as to serve as input for the analyzes of influence through different techniques, such as, counting retweets and mentions, understanding of what features usually present tweets that reach further spread, creating graphs relating users, followers, tweets and retweets to apply techniques of complex networks and analysis with data mining using decision tree. The strategy used was to apply different techniques to compare results and get a model that can predict when content or user is influential. In all, we collected more than 62 million tweets between the years 2014 and 2015. Despite the large amount of data, it was not possible to develop an accurate standard for how a user or content becomes influential, but it was possible to understand several characteristics that these users are presenting and can be used to increase the potential for dissemination of specific content.

Keywords: Online social network, data mining, viral marketing, marketing on social

(9)

Figura 1 – Exemplo de rede no formato de grafo . . . 19

Figura 2 – Exemplo de Árvore de Decisão . . . 23

Figura 3 – Informações do aplicativo criado no Twitter . . . 28

Figura 4 – Exemplo de requisição de dados utilizando Twitter Explorer . . . 28

Figura 5 – Arquitetura para descoberta dos usuários influentes . . . 30

Figura 6 – Volume de dados no Neo4J . . . 35

Figura 7 – Pequena amostra do grafo criado . . . 35

Figura 8 – Workflow de Árvore de Decisão no KNIME . . . 41

Figura 9 – Ranking dos 20 usuários mais retuitados e sua audiência referente ao tema Fórmula 1 . . . 44

Figura 10 – Comparativo dos retuítes para o tema Fórmula 1 . . . 44

Figura 11 – Ranking dos 20 usuários mais mencionados e sua audiência referente ao tema Fórmula 1 . . . 45

Figura 12 – Comparativo das menções para o tema Fórmula 1 . . . 46

Figura 13 – Ranking dos 20 usuários mais retuitados e sua audiência referente ao tema Black Friday . . . 47

Figura 14 – Comparativo dos retuítes para o tema Black Friday . . . 47

Figura 15 – Ranking dos 20 usuários mais mencionados e sua audiência referente ao tema Black Friday . . . 48

Figura 16 – Comparativo das menções para o tema Black Friday . . . 49

Figura 17 – Distribuição Empírica Acumulada de Retuítes (Fórmula 1) . . . 50

Figura 18 – Distribuição Empírica Acumulada de Retuítes (Black Friday) . . . 50

Figura 19 – Distribuição Empírica Acumulada de Menções (Fórmula 1) . . . 50

Figura 20 – Distribuição Empírica Acumulada de Menções (Black Friday) . . . 51

Figura 21 – Comparativo dos retuítes e menções por Distribuições Empíricas Acu-muladas entre os temas. . . 53

Figura 22 – Quantidade de retuítes por dia da semana . . . 55

Figura 23 – Quantidade de retuítes por horário . . . 56

Figura 24 – Quantidade de retuítes por quantidade de hashtags em um tuíte . . . . 57

Figura 25 – Quantidade de retuítes por quantidade de imagens em um tuíte . . . . 57

Figura 26 – Quantidade de retuítes por quantidade de URLs em um tuíte . . . 58

Figura 27 – Quantidade de retuítes por usuários que são verificados pelo Twitter. . 59

Figura 28 – Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu o tuíte possui . . . 60

Figura 29 – Quantidade de retuítes por quantidade de amigos do usuário que escre-veu o tuíte. . . 61

(10)

Figura 31 – Gráfico de Limiar do tema Copa do Mundo e FIFA . . . 63

Figura 32 – Gráfico de Limiar do tema Big Brother Brasil . . . 64

Figura 33 – Árvore de decisão gerada no KNIME para predição de tuítes influentes, por tema . . . 65

Figura 34 – Gráfico de correlação entre as variáveis utilizadas para gerar o modelo de árvore de decisão . . . 68

(11)

Tabela 1 – Tabela com os temas das coletas, período e quantidade de tuítes coletados 42

Tabela 2 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Copa do Mundo e FIFA . . . 64

Tabela 3 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Big Brother Brasil . . . 65

Tabela 4 – Tabela com o resultado obtido da aplicação da árvore de decisão nos temas coletados . . . 67

(12)

1 INTRODUÇÃO . . . 13

2 ESTADO DA ARTE . . . 16

2.1 Marketing Viral . . . 16

2.2 Redes Sociais Online . . . 17

2.3 Redes Complexas . . . 18

2.4 Análise de Influência em Redes Sociais Online . . . 21

2.5 Trabalhos Relacionados . . . 23

3 METODOLOGIA . . . 27

3.1 Passo 1: Extração de dados do Twitter . . . 27

3.2 Passo 2: Análise de influência por contagem de Retuítes e Menções 29 3.3 Passo 3: Análise de influência por métricas de Redes Complexas e algoritmo TunkRank . . . 31

3.4 Passo 4: Identificação das características presentes em conteúdos virais . . . 35

3.5 Passo 5: Análise de comportamentos por algoritmos de mineração de dados . . . 37

4 RESULTADOS . . . 42

4.1 Passo 1: Extração de dados do Twitter . . . 42

4.2 Passo 2: Análise de influência por contagem de Retuítes e Menções 43 4.2.1 Análise sobre a Fórmula 1 . . . 43

4.2.2 Análise sobre o Black Friday . . . 46

4.2.3 Comparativo dos resultados entre os dois assuntos . . . 49

4.3 Passo 4: Identificação das características presentes em conteúdos virais . . . 54

4.3.1 Quantidade de retuítes por dia da semana . . . 54

4.3.2 Quantidade de retuítes por horário . . . 55

4.3.3 Quantidade de retuítes por quantidade de hashtags em um tuíte . . . 56

4.3.4 Quantidade de retuítes por quantidade de imagens em um tuíte . . . 56

4.3.5 Quantidade de retuítes por quantidade de URLs em um tuíte . . . 57

4.3.6 Quantidade de retuítes por usuários que são verificados pelo Twitter (usuários oficiais) . . . 58

4.3.7 Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu o tuíte possui . . . 59

(13)

tuíte . . . 59

4.3.9 Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário . 60 4.4 Passo 5: Análise de comportamentos por algoritmos de mineração de dados . . . 61

4.4.1 Momento 1: base de dados preliminar . . . 62

4.4.1.1 Copa do Mundo e FIFA . . . 62

4.4.1.2 Big Brother Brasil . . . 64

4.4.2 Momento 2: base de dados completa. . . 66

5 CONCLUSÕES . . . 70

5.1 Principais resultados . . . 70

5.2 Contribuições . . . 71

5.3 Trabalhos Futuros . . . 72

(14)

1 Introdução

As primeiras iniciativas de marketing digital tiveram início no fim da década de 80 com a veiculação de banners nos primeiros serviços de assinatura de internet nos EUA, denominados banner ad. O Marketing Digital teve seu crescimento na mesma época em que ocorreu o surgimento de grandes portais da internet e mecanismos de pesquisa, como AOL1, Yahoo!2 e MSN3. Foi quando surgiu o e-mail marketing que, dentro das estratégias

de marketing digital, tem a finalidade de estabelecer ou melhorar o relacionamento com os clientes, além de estar ligado à chamada consciência de marca. Outra grande inovação veio em 1998 com a criação de um modelo diferente, dando início à veiculação de anúncios de texto junto aos resultados naturais de pesquisa.

Atualmente, campanhas de marketing digital são veiculadas por e-mails, mensagens de texto, mensagens de voz, blogs e redes sociais online, como Facebook4 e Twitter5. A

estratégia é criar artificialmente uma propaganda boca-a-boca entre os clientes potenciais (ARTHUR et al., 2009), fazendo com que a marca seja divulgada de forma exponencial a partir de uma pessoa influente e de confiança, proporcionando aumento de credibilidade dessa propaganda. Tal estratégia é conhecida por marketing viral.

O investimento realizado em marketing para a disseminação e consistência da marca é expressivo. Com o surgimento das redes sociais, o marketing digital está cada vez mais explorando esse meio por ser uma estratégia viável e concentrar um público notório. Entretanto, é necessário montar uma campanha focada nesse público, com uma estratégia bem definida, para conseguir a disseminação da mensagem que a marca quer passar de forma viral. Faz parte dessa estratégia conseguir montar uma campanha que chame atenção dos usuários formadores de opinião e repliquem-na como um boca-a-boca online.

Apesar do termo “marketing viral” estar diretamente relacionado à área de Marke-ting, onde surgiu, o foco desta estratégia não é somente em vendas mas, principalmente, na difusão de informações e conteúdos de forma exponencial.

Existem várias ferramentas de rede social online sendo utilizadas ao redor do mundo. As mais utilizadas são Facebook e Twitter. O Facebook é, disparado, a rede social mais utilizada no mundo e informações da empresa referentes ao primeiro quadrimestre de 20136 apontam que atualmente existem mais de 1 bilhão de usuários em todo o mundo

1 http://www.aol.com/ 2 http://br.yahoo.com/?p=us 3 http://www.msn.com/?st=1 4 http://www.facebook.com/ 5 https://twitter.com/

(15)

e mais de 665 milhões de mensagens são trocadas diariamente. Os números apontam ainda que existem 150 bilhões de conexões entre usuários e houve mais de 1 trilhão de postagens recomendadas. Em segundo lugar, vem o Twitter, com 904 milhões de usuários cadastrados7.

Sendo assim, este projeto busca responder a seguinte pergunta: é possível criar uma mensagem que atraia o interesse de usuários formadores de opinião em divulgá-la e provocar um comportamento viral?

Para responder essa questão, este trabalho se propõe a estudar, primeiramente, a rede social online Twitter, entender como as informações são distribuídas entre os usuários e identificar quais são os principais responsáveis pela disseminação de conteúdo em determinados assuntos, baseado nas funcionalidades desta rede social que têm o objetivo de espalhar informações. São elas: Seguidores, Retuítes e Menções, as quais serão melhor explicadas na seção Metodologia.

De forma específica, os itens abaixo precisam ser realizados para o cumprimento do objetivo:

1. Desenvolver um algoritmo que colete informações públicas dos usuários e armazene-as em um banco de dados.

2. Identificar os usuários mais influentes, ou seja, formadores de opinião.

3. Analisar a amostra para identificação dos padrões de difusão das informações e entender o comportamento dos usuários mais influentes na rede social.

4. Realizar experimentos para indução de comportamento viral em conteúdos criados na rede social online.

A coleta das mensagens no Twitter se dá através de requisições HTTP8,

utilizando-se do método GET ou POST, e o resultado é obtido no formato JSON9. Todas as mensagens

possuem: um identificador único (ID), o usuário remetente, indica se é uma replicação ou uma mensagem original, indica quais outros usuários estão sendo mencionados, dentre outros metadados.

A conexão criada entre o coletor de dados e o servidor do Twitter fica ativa e as mensagens (tuítes) são coletadas assim que são enviadas por qualquer usuário que tenha configurações de privacidade definidas como pública. Para enviar a requisição HTTP e obter informações é necessário informar o que está sendo pesquisado, através de palavras-chave que deverão estar contidas no texto. Neste método de coleta, chamado Streaming,

7 http://blog.peerreach.com/2013/11/4-ways-how-twitter-can-keep-growing/ acessado em 07 de

dezem-bro de 2013.

8 Hypertext Transfer Protocol. Documentação disponível em http://www.w3.org/Protocols/ 9 http://www.json.org/

(16)

as mensagens enviadas antes de estabelecer a conexão não são coletadas, como pode ser consultado na documentação da API10 do Twitter. Mais detalhes serão explicados na seção

Metodologia.

O algoritmo de coleta dos dados foi desenvolvido na linguagem Python11, compilado

e executado em um servidor Linux Ubuntu 12.04. Sua implementação é realizada através da biblioteca Python-Twitter12. Esta biblioteca foi escolhida após inúmeros testes com outras

bibliotecas que não se mostraram sólidas, principalmente pela falta de documentação.

Após o período de coleta, esses dados serão tratados e dois rankings serão criados:

1. Quantidade de retuítes por usuário; e

2. Quantidade de menções por usuário.

Com esses rankings em mãos, será possível analisar como as informações são espalhadas na rede e quais são os principais usuários responsáveis por tal espalha-mento/disseminação.

A contagem de Retuítes e Menções é uma das formas de medir quem são os usuários mais influentes da amostra. Também existem outras métricas para inferir que um usuário é influente, as quais serão melhor descritas na próxima seção.

Este projeto, além dessa introdução, está dividido em quatro seções onde serão abordados os objetivos de forma específica e detalhada, são elas: estado da arte, metodologia, resultados, plano de trabalho e conclusões.

10 https://dev.twitter.com/docs 11 http://www.python.org/

(17)

2 Estado da Arte

2.1

Marketing Viral

Com a crescente rejeição dos consumidores às formas tradicionais de anúncios de publicidade como TV, outdoors, e jornais, os profissionais de marketing vêm cada vez mais alternando as estratégias de propagandas, incluindo as estratégias de marketing viral (LESKOVEC; ADAMIC; HUBERMAN, 2007).

Uma das primeiras definições de marketing viral surgiu no boletim informativo do Nestcape, em 1997, como “rede boca-a-boca aprimorada”. Segundo (JURVETSON, 2000), a inspiração para o termo “marketing viral” surgiu originalmente a partir do padrão de anúncio adotado pelo Hotmail1 que conseguiu aumentar sua rede de usuários de forma exponencial. A estratégia adotada não tem relação com vírus maliciosos tradicionais da internet. O Hotmail incluiu um campo promocional com um link (URL clicável) em cada mensagem de e-mail enviada por um usuário de sua rede. Assim, cada cliente torna-se um vendedor involuntário simplesmente usando o produto. Fazendo uma analogia à medicina, o objetivo desta técnica é semelhante ao comportamento epidêmico que um vírus possui, fazendo com que a informação divulgada alcance o maior número de pessoas contidas em uma rede.

(HILL; PROVOST; VOLINSKY, 2006) define que o termo marketing viral está relacionado a qualquer estratégia que encoraja indivíduos a transmitir uma mensagem de marketing para outros, criando o potencial de crescimento exponencial da exposição e influência da mensagem.

O marketing viral é mais poderoso do que a publicidade de terceiros porque transmite uma aprovação implícita de um amigo, mesmo sendo claramente delimitado como um anúncio. Os destinatários de uma mensagem de e-mail do Hotmail aprendem não só que o produto funciona, mas também que seu amigo é um usuário. Como afirma (JURVETSON, 2000), um elemento-chave da marca do consumidor é a filiação de uso: eu

quero ser um membro do grupo – composto por meus amigos – que usa este produto?

Recentemente, o marketing viral está sendo vastamente explorado em redes sociais online, por conta da concentração de usuários e distinção de vários nichos de mercado e interesses contidos nessas redes.

(18)

2.2

Redes Sociais Online

Dentre as definições de sites de redes sociais, (ELLISON et al., 2007) define que são serviços baseados na web que permitem aos indivíduos construir um perfil público ou semi-público dentro de um sistema limitado; articular uma lista de outros usuários com quem eles compartilham uma conexão; e ver e percorrer a sua lista de conexões e aquelas feitas por outros dentro do sistema. A natureza e nomenclatura dessas conexões podem variar de site para site. Ainda segundo o autor, o que torna uma rede social única não é o fato de permitir que usuários conheçam estranhos, mas sim o fato de permitir que os usuários possam se pronunciar e tornar visíveis em suas redes. E isso faz com que usuários conheçam outros a partir da troca de interesses em comum.

Apesar dos diferentes sites de redes sociais desenvolverem uma grande variedade de recursos técnicos para aumentar a interatividade na ferramenta, todos os SNSs (Social

Network Sites) tem o princípio de perfis de usuários e sua lista de amigos (conexões) que

são também usuários deste sistema. Perfis são páginas únicas onde o usuário insere uma introdução / apresentação sobre a sua pessoa.

Para participar de uma SNS, é solicitado ao indivíduo que preencha diversos campos com informações pessoais e algumas perguntas. O perfil é gerado a partir das respostas a essas questões e informações pessoais, que normalmente são sua idade, onde vive, interesses e sua apresentação para os outros usuários. Alguns sites também permitem que se carregue uma foto pessoal, conteúdos multimídia e a personalização do seu perfil, como a imagem de plano de fundo. Outros sites, como o Facebook, permitem que os usuários adicionem módulos (aplicações e jogos) aos seus perfis.

Após estar participando de uma SNS, o usuário deve identificar outros usuários da rede social os quais possui um relacionamento. A nomenclatura desses relacionamentos variam de site para site, podendo ser “Amigos”, “Contatos”, “Fãs” e “Seguidores”. A maioria das SNSs exigem uma confirmação bidirecional para criação do relacionamento de amizade, entretanto outras não fazem essa exigência. A nomenclatura das conexões criadas de forma unidirecional são comumente “Fãs” ou “Seguidores”, mas não é uma regra. O termo “amigos” pode ser enganoso, porque a conexão não significa necessariamente uma amizade, no termo literal, afinal as razões pelas quais as pessoas se conectam à outras pessoas são variadas (BOYD, 2006).

Por concentrar quantidade expressiva de informações, existem vários estudos de mineração de dados em redes sociais online. Tradicionalmente, os modelos construídos para análise dessas redes são descritivos e não preditivos. Porém, um trabalho muito relevante pode ser feito para prever o comportamento futuro da rede. Tipicamente, essas redes possuem dezenas de milhões de nós (usuários), e muitas vezes contêm quantidades substanciais de informação ao nível dos nós individuais, suficientes para construir modelos

(19)

de predição desses indivíduos, conforme (DOMINGOS,2005).

Neste projeto, a rede social online escolhida para coleta de informações e estudo dos comportamentos dos usuários foi o Twitter. Informações divulgadas pela empresa, referente aos dados de outubro de 2013, apontam que atualmente existem mais de 904 milhões de usuários cadastrados, porém apenas 232 milhões são usuários ativos, e um número em torno de 500 milhões de mensagens são enviadas diariamente na rede2. Ainda,

24% do total de usuários do Twitter são usuários Norte-Americano e o Brasil ocupa a quinta colocação com 4,3% deste total, o que corresponde a aproximadamente 10 milhões de usuários.

No twitter, usuários podem enviar mensagens de até 140 caracteres. São mensagens curtas e objetivas, muitas vezes com link para o conteúdo citado de forma completa, principalmente quando o usuário é uma empresa ou agência de notícias. É muito eficiente para a difusão de informações visto que as mensagens, chamadas tuítes, são exibidas para todos os seguidores do usuário remetente. A funcionalidade seguir é utilizada por um usuário A quando este deseja ser informado dos tuítes enviados por um usuário B e também pode ser utilizada como uma forma de expressar amizade entre duas pessoas.

Outras funcionalidades importantes do Twitter são: retuíte e menção. Quando um usuário lê um tuíte o qual ele se interessa e deseja que seus seguidores também o vejam, ele pode retuítar o tuíte de interesse e fazer com que essa mensagem seja espalhada na rede dos seus seguidores. A menção, por sua vez, é representa pelo comando @usuario_mencionado e é utilizada quando um usuário A deseja citar um usuário B em seu tuíte. Essas duas funcionalidades são essenciais para a difusão de informações nesta rede social e serão analisadas neste trabalho.

É importante mencionar que existe uma política de privacidade no Twitter. O usuário pode configurá-la para que seus tuítes sejam privados e somente pessoas autorizadas possam visualizá-los. Outra opção de configuração é a busca através do e-mail do usuário que pode ser desabilitada. Neste trabalho, somente os tuítes públicos foram coletados para pesquisa.

2.3

Redes Complexas

Para o claro entendimento da arquitetura de uma rede social online, é necessário conhecer o que são as redes complexas. (NEWMAN, 2003) afirma que os sistemas no formato de rede são muito comuns na natureza, por exemplo, a Internet, a World Wide Web, rede de colaboração de atores em bancos de dados de filmes, sistemas biológicos como redes neurais ou redes de proteína (STROGATZ,2001). Portanto, a área de Redes

2 http://www.mediabistro.com/alltwitter/twitter-ipo-filing_b50130 acessado em 09 de dezembro de

(20)

Complexas que analisa redes da natureza é multidisciplinar, podendo estar relacionada à áreas com foco em gerar conhecimentos qualitativos, ao explicar determinados fenômenos, ou à áreas que se propõem a fornecer ferramentas quantitativas para o estudo das redes, oferecendo suporte à validação das conclusões de teorias qualitativas.

A principal ferramenta de estudo das redes complexas é a Teoria dos Grafos, oriunda da área da Matemática Discreta. (NEWMAN,2003) define redes como sendo um conjunto de objetos, que podem ser chamados de vértices e/ou nós, os quais possuem conexões entre eles, chamadas arestas e estão representadas na figura 1. Do ponto de vista da arquitetura de uma rede social online, é claramente identificável uma topologia de grafos, onde os usuários são vértices e as conexões de amizades, compartilhamento de conteúdo e recomendações são as arestas.

Figura 1 – Exemplo de rede no formato de grafo

A teoria dos grafos surgiu em 1736, na antiga Prússia, hoje Rússia, quando Euler solucionou o problema das pontes de Königsberg. O problema consistia em sete pontes e os moradores desta cidade discutiam a possibilidade de atravessar todas elas sem nenhuma repetição. Euler provou a impossibilidade da teoria através de um grafo (BOCCALETTI et al.,2006). Ao longo dos anos, a Teoria dos Grafos continuou a ser utilizada para resolver problemas pequenos, com poucos nós e vértices.

O primeiro modelo de redes complexas surgiu com a proposta dos pesquisadores Erdös e Rényi, em 1959, baseado em grafos aleatórios. Essa proposta afirmava que as conexões entre os nós eram estabelecidas de forma aleatória. Este foi o primeiro e muito importante passo no estudo de modelos de redes complexas. No entanto, essa teoria não se aplica à realidade das redes reais da natureza conforme foi comprovado por (BARABÁSI; ALBERT, 1999).

Com o crescimento da Internet e a evolução computacional, foi possível analisar enormes redes reais e, consequentemente, suas características passaram a ser conhecidas. Assim, novos modelos de redes complexas surgiram, como o de Rede de Mundo Pequeno, proposto por (WATTS; STROGATZ, 1998), e o de Redes Sem Escala, proposto por Barabási e Albert(BARABÁSI; ALBERT, 1999).

(21)

As redes sociais são distribuídas de acordo com a lei de potência das redes sem-escala, que prediz que poucos vértices são altamente conectados, enquanto outros possuem proporcionalmente um número muito pequeno de arestas. Os vértices altamente conectados, isto é, nós com mais ligações do que a média, são chamados de “Hubs”. Os hubs representam um importante papel dentro do estudo da propagação de informação, visto que uma de suas características é diminuir a distância entre pares de vértices e conectando sub-redes. As redes que possuem essa característica são denominadas redes sem escala.

A fim de possibilitar a interpretação das leis de potência em redes e grafos que serão utilizadas neste trabalho, são apresentadas a seguir algumas métricas de redes complexas. Para um entendimento mais profundo, é recomendado a leitura do trabalho de (NEWMAN,

2003).

• Grau dos Vértices: É a quantidade de relacionamentos (arestas) de um nó (vértice). Esses relacionamentos podem ser bidirecionados ou direcionados: grau de saída e grau de entrada.

• Coeficiente de agrupamento (CA): O coeficiente de agrupamento de um vértice é uma medida que caracteriza agrupamento e possui destaque especial na teoria das redes complexas. Ele é dado através da probabilidade de se encontrar uma triangulação em uma tripla de vértices. Isto é, dado que o vértice a está conectado ao vértice b e c, o CA é a probabilidade de que b esteja conectado a c. O cálculo é aplicado a todos os vértices adjacentes e o resultado é um valor entre 0 e 1. O CA de um grafo é a média entre o CA de seus vértices.

• Assortatividade: De acordo com (NEWMAN,2002), assortatividade é uma medida típica de redes sociais. Uma rede exibe propriedades assortativas quando vértices com muitas conexões tendem a se conectar a outros vértices com muitas conexões. Para caracterizar a assortatividade de uma rede, medimos o grau médio de todos os vizinhos dos vértices com grau k, dado por knn(k). A assortatividade ou disassortatividade de uma rede é geralmente estimada avaliando os valores de knn(k) em função de k. Valores crescentes indicam assortatividade, isto é, vértices com graus maiores tendem a se conectar a vértices com um número maior de conexões. Valores decrescentes indicam uma rede disassortativa.

• Betweenness: É uma medida relacionada à centralidade dos vértices ou de arestas na rede. O betweenness B(e) de uma aresta e é definido como o número de caminhos mínimos entre todos os pares de vértices em um grafo que passam por e. Se existem múltiplos caminhos mínimos entre um par de nós, cada caminho recebe um peso de forma que a soma dos pesos de todos os caminhos seja 1.

(22)

2.4

Análise de Influência em Redes Sociais Online

(SUN; TANG,2013) afirmam que a influência social é a mudança de comportamento de uma pessoa por causa da relação percebida com outras pessoas, organizações e sociedade em geral.

Conforme (NEWMAN,2003), as redes também têm sido estudadas extensivamente nas ciências sociais. Na década de 1930, sociólogos perceberam a importância dos padrões de conexão entre as pessoas para compreender como funciona a sociedade humana. Estudos de redes típicos da sociologia envolvem a circulação de questionários, perguntando aos entrevistados para detalhar suas interações com os outros. Pode-se então usar as respostas para reconstruir uma rede na qual os vértices representam os indivíduos e as arestas representam as interações entre eles. Questões típicas que buscam ser respondidas em redes sociais são relacionadas à centralidade (quais indivíduos são mais ligados a outros ou tem mais influência) e conectividade (como os indivíduos estão ligados uns aos outros através da rede).

O trabalho de (LIU et al., 2012) desenvolveu um modelo para identificação da topologia da rede formada a partir da amostra coletada no Facebook, modelo este que parte de duas hipóteses:

1. Usuários com interesses similares possuem forte influência uns sobre os outros.

2. Usuários os quais as ações frequentemente se correlacionam também possuem forte influência uns sobre os outros.

(LIU et al., 2012) observam que a influência do usuário existe quando tem relações de similaridade. Em redes reais, a semelhança pode ser calculada com base no conteúdo de informação associada a cada usuário. Por exemplo, na rede de citação, se o conteúdo do documento D1 é muito semelhante ao documento D2, podemos considerar que D1 “copia” várias ideias de D2, assim D1 é muito influenciado por D2.

Ainda, a frequência de recorrência entre usuários é comumente usada para indicar a força de correlação entre os dois nós, que é indicado pelos pesos das arestas em redes. Assim, a força de influência entre dois nós seria ampliada por meio da frequente recorrência entre eles. Por exemplo, se um autor A cita uma série de artigos do autor B, então A deve ser fortemente influenciado por B. No Twitter, por exemplo, se o usuário A “retuíta” ou menciona muitas mensagens postadas pelo usuário B, então é muito provável que B tem uma forte influência sobre A. Com base nestas considerações, (LIU et al.,2012) propõe um modelo probabilístico gerador capaz de aprender conjuntamente os interesses dos usuários e a força que existe na influência direta entre os usuários, de forma quantitativa, através de técnicas de mineração de dados.

(23)

(HAND; MANNILA; SMYTH,2001) descreve o conceito de mineração de dados (em inglês, data mining) como sendo a análise de um conjunto de dados, frequentemente um grande conjunto de dados, a fim de identificar relações inesperadas e organizar os dados de um novo modo, um novo ponto de vista, para que possa ser entendível e utilizável.

O interesse em extrair informações valiosas e não previstas em grandes bases de dados é crescente. A evolução em tecnologias de armazenamento de dados e na obtenção de dados digitais resultou em um grande crescimento de bases de dados robustas. Dados de transações de supermercado, registros de cartões de crédito, detalhes de ligações telefônicas, estatísticas governamentais, base de dados de moléculas, registros medicinais e base de dados de redes sociais, são alguns exemplos de áreas que possuem um vasto volume de dados digitais armazenados.

Muitas técnicas de análise estatísticas utilizam dados que são coletados através de estratégias eficientes para responder questões específicas. Diferentemente da análise de mineração de dados que, segundo (HAND; MANNILA; SMYTH,2001), tem como objetivo encontrar conexões entre dados em uma coleção de dados independente da estratégia de como esses dados foram obtidos. Por esta razão, o termo “mineração de dados” é frequentemente utilizado como uma análise de dados secundária.

Para a análise em um pequeno conjunto de dados, seria necessário apenas discutir os conceitos clássicos de exploração de dados, já praticados pelos estatísticos. Quando o analista se depara com um enorme conjunto de dados surgem novos problemas. Alguns desses problemas estão relacionados a como armazenar os dados e mantê-los acessíveis, porém outros se referem à questões fundamentais: como determinar a representatividade dos dados, como analisar os dados em um prazo razoável e como decidir quando uma relação aparente é meramente uma ocorrência casual e que não reflete a realidade. Normalmente, a análise dos dados se baseiam na generalização de uma amostra da população. Essas análises são realizadas, por exemplo, para prever o comportamento futuro de consumidores ou determinar as propriedades de estruturas de proteínas que ainda não foram descobertas. Porém, como afirmam (HAND; MANNILA; SMYTH, 2001), muitas informações não são possíveis de serem identificadas através de abordagens padrões de estatística porque muitas vezes os dados não são amostras aleatórias, mas sim amostras de conveniência ou de oportunidade. Muitas vezes os dados são generalizados para facilitar a compreensão do resultado, por exemplo a análise do censo completo de um país específico ou uma base de dados com milhões de registros de transações financeiras, porém nem sempre o resultado obtido da generalização se aplica à toda a base.

As seguintes etapas devem ser realizadas durante o processo de análise de bancos de dados volumosos: seleção dos dados necessários, pre-processamento dos dados, transfor-mação (se necessário), executar algoritmos de mineração de dados para extrair padrões e relacionamentos e, em seguida, interpretar e avaliar as estruturas descobertas.

(24)

Existem alguns tipos de categorias de análise na mineração que são utilizadas para extrair informações dos dados selecionados, por exemplo: análise exploratória de dados (EDA, em inglês), modelo descritivo, modelo de predição: classificação e regressão, associação, recuperação de conteúdo - comumente utilizada para análise de textos e imagens (HAND; MANNILA; SMYTH, 2001).

Modelos preditivos tem como objetivo permitir que o analista preveja um valor desconhecido de uma variável de interesse, a partir dos valores conhecidos e outras variáveis. Um exemplo pode ser o diagnóstico médico de um paciente a partir dos resultados de uma série de testes. Outro exemplo é estimar a probabilidade em que um consumidor comprará o produto A a partir de uma lista de vários produtos que ele já comprou.

Este trabalho está utilizando o modelo de árvore de decisão para classificar e prever quais tuítes tem tendência a serem influentes. Este método funciona como um fluxograma em forma de árvore, onde cada nó (não folha) indica um teste feito sobre um valor (por exemplo, quantidade_de_caracteres > 20). As ligações entre os nós representam os valores possíveis do teste do nó superior, e as folhas indicam a classe (categoria) a qual o registro pertence. Dessa forma, uma vez que se tem o modelo definido, basta aplicar novos tuítes neste fluxo da árvore (mediante os testes nos nós não-folhas) começando no nó raiz até chegar a uma folha. No entanto, é necessário analisar detalhadamente os dados que serão colocados como entrada do algoritmo para garantir bons resultados. A figura 2exemplifica uma árvore de decisão como um modelo para saber quais clientes são propensos a comprar um determinado produto (na maior parte das vezes homens entre 20 e 30 anos).

Figura 2 – Exemplo de Árvore de Decisão

2.5

Trabalhos Relacionados

A pesquisa aqui desenvolvida envolve o estudo de diferentes áreas. Foram estudados trabalhos em redes sociais, marketing, mineração de dados, redes complexas e redes de recomendações. Essas áreas trabalham com conceitos ou possuem estruturas que permitem a análise de influência entre usuários, objetivo geral deste trabalho.

(25)

Aplicando técnicas de mineração de dados em redes sociais, (DOMINGOS, 2005) desenvolveu um modelo que permite medir o valor da rede de um cliente. Para cada cliente, o modelo identifica qual a probabilidade de um cliente comprar algum produto, em função das propriedades intrínsecas entre o cliente e o produto e da influência de vizinhos do cliente na rede social. Seu principal interesse é a relação entre o cliente e produtos ao invés de a propagação da informação por um cliente. (ARTHUR et al., 2009) gerou modelos estatísticos com o objetivo de elaborar estratégias de vendas e aumentar a probabilidade de receita de uma empresa. Sua estratégia baseia-se na exploração e influência em redes sociais cruzando informações de geração de receita a partir de cada usuário da rede. Seu modelo oferta um produto gratuitamente e analisa a influência gerada a partir desta venda gratuita posteriormente no processo. Não é analisado o comportamento dos usuários, mas sim, a relação de receita de um produto antes e depois de informações obtidas na rede.

(NEWMAN, 2005) e (BORGATTI; EVERETT, 2006) analisaram redes complexas baseada em sua centralidade. (BORGATTI; EVERETT,2006) desenvolveu um framework para medir centralidade durante análises de redes sociais. (NEWMAN, 2005) utilizou a métrica de intermediação (betweenness) e afirma que que esta métrica é, de certa forma, uma medida de influência que um nó possui sobre a disseminação de informações através da rede. A variação do método proposto por este autor é que seu algoritmo não considera somente os caminhos mais curtos, mas sim todos os caminhos que envolvem os vértices e seus relacionamentos. Na presente pesquisa, somente algumas métricas de redes complexas serão utilizadas, não explorando o assunto como um todo.

Além de estudar métricas de redes complexas, também se fez necessário o estudo de trabalhos em redes de recomendação para conhecer as técnicas utilizadas. (TOGNERI,

2013) estudou a importância das localidades geográficas na difusão online de informação, fornecendo, dentre as principais contribuições, uma metodologia para análise de reco-mendações através da localidade das pessoas. (MINHANO, 2010) teve como objetivo e principais contribuições a caracterização do comportamento dos usuários de uma rede de recomendações, a demonstração da sobreposição de perfis dos usuários nas redes de recomendações e social online e a demonstração empírica das relações sociais que são invisíveis aos profissionais de marketing no momento de criação de suas campanhas em uma base de dados com, aproximadamente, 21 milhões de usuários e 80 milhões de relações entre eles.

Utilizando técnicas de mineração de dados, o estudo de (JUNIOR,2014) analisou redes de computadores e Redes Definidas por Software, a fim de prever os fluxos de pacotes e instalar, com antecipação, esses fluxos nos switches para minimizar as consultas enviadas por um switch ao controlador, autorizando a comunicação antes da chegada do primeiro pacote e aumentando a eficiência nessa comunicação. Essas técnicas podem ser manipuladas e aproveitadas na pesquisa por redes de influência.

(26)

Para estudos de influência em redes sociais, (KIMURA et al., 2010) pesquisou uma solução para otimizar a busca combinatória por usuários influentes em redes sociais de larga escala, dado que essa análise necessita grandes processamentos computacionais. Utilizando-se de redes reais de larga escala, como redes de blogs, aplicou seu método e obteve melhor performance do que métodos convencionais. Diferentemente da presente pesquisa, o autor não faz coleta em redes sociais online.

(KWAK et al., 2010) estudaram influência na rede social Twitter. Compararam três diferentes medidas de influência - número de seguidores, o ranking de mensagens da página dos usuários (page-rank), e número de retuítes - descobrindo que o ranking dos usuários mais influentes é diferente dependendo da métrica utilizada. (WENG et al.,2010) comparou o número de seguidores e o page-rank com uma medida de page-rank modificada que representaram os tópicos, e também descobriu que a classificação depende da medida de influência utilizada.

(CHA et al., 2010) tem como objetivo analisar a rede social Twitter como meio de difusão de notícias e estudou os tipos e graus de influência na rede. Para tal analise, criou ranking de usuários mais influentes a partir das métricas de retuíte e menções e comparou a força de associação entre as métricas utilizando a teoria de “Spearman’s rank correlation coefficient”. O presente trabalho se diferencia deste porque não fez cruzamentos entre os tópicos para encontrar usuários em comum e analisar sua influência desta forma e também não se limitou à análise de informações por somente notícias. Já o artigo de (BAKSHY et al.,2011), se diferencia do trabalho de (CHA et al.,2010) e deste trabalho principalmente por fazer análise de influência somente dos tuítes que continham links (URL). Seu objetivo não era identificar a influência dos usuários, mas sim o espalhamento de links externos pela rede do Twitter.

(GABIELKOV; RAO; LEGOUT, 2014) afirma ter coletado todo o grafo social do Twitter, somando 505 milhões de usuários conectados através de 23 bilhões relacionamentos. Os autores também afirmam que esta é a maior e mais completa coleta realizada no Twitter. Segundo (GABIELKOV; RAO; LEGOUT, 2014), a propagação da informação é uma combinação de dois fenômenos. O primeiro fenômeno é que o conteúdo da mensagem enviada na rede social irá determinar sua probabilidade de ser retransmitida. O segundo, é que a estrutura do grafo social irá restringir a propagação das mensagens. O artigo foca no segundo fenômeno, ou seja, como a estrutura do grafo social do Twitter restringe a propagação de informações.

A pesquisa de (GABIELKOV; RAO; LEGOUT, 2014) se difere desta pesquisa porque se baseia em identificar grupos de usuários que não estão mais utilizando a rede, grupos de usuários que fazem spam e grupos de usuários regulares. Identificou também que os registros do Twitter no ano de 2009 não representam mais a atual estrutura do grafo e exploram a evolução temporal para entender as diferenças de utilização do Twitter desde sua

(27)

criação. (MEEDER et al.,2011) examinou um grafo formado por, aproximadamente, 1.800 celebridades do Twitter e 862 milhões de relacionamentos e concluiu que a representação da estrutura do grafo e seu crescimento sofre influência direta de eventos do mundo real e mudanças na interface do Twitter para recomendação de usuários.

(BRODER et al., 2000), por sua vez, faz um estudo analisando a Web como uma rede de grafo. Os vértices desse grafo são as páginas estáticas e os relacionamentos são os links que cada página faz referenciando outra página Web. Dentre as análises realizadas faz parte a visão da estrutura macroscópica que serviu de base para o trabalho de (GABIELKOV; RAO; LEGOUT,2014). Suas principais contribuições foram: elaboração de estratégias para coletar dados na web, entender o comportamento da criação de conteúdo web, predição da evolução das estruturas Web. Este trabalho se assemelha a esta pesquisa por tratar os dados coletados como grafos, no entanto seu objetivo não é analisar influência de usuários e sua base de dados é composta por páginas Web e não pela rede social Twitter.

Baseado em dados coletados do Twitter, (SHARMA et al., 2012) focou, em seu estudo, na análise semântica de metadados coletados, como nome e descrição dos usuários. Seu objetivo foi fornecer uma base para construção de melhores serviços de busca e recomendação no Twitter. Utilizou a métrica da quantidade de seguidores do usuário para criar um ranking dos usuários mais influentes e especialistas em um determinado tema. Relacionado a este trabalho, (WENG et al.,2010) e (PAL; COUNTS, 2011) utilizaram características extraídas do grafo do Twitter e dos tuítes postados pelos usuários para identificar se um usuário está relacionado a um determinado tópico.

As pesquisas citadas nesta seção serviram de base para os estudos de influência em redes sociais online. Diferentes áreas pesquisando em torno do mesmo tema permite uma análise macro do problema. Sendo assim, este trabalho pôde aproveitar algumas técnicas de cada área específica.

(28)

3 Metodologia

Para o cumprimento do objetivo deste trabalho, a metodologia desenvolvida com-preende os seguintes passos:

1. Extração de dados do Twitter

2. Análise de influência por contagem de Retuítes e Menções

3. Análise de influência por métricas de Redes Complexas e algoritmo TunkRank

4. Identificação das características presentes em conteúdos virais

5. Análise de comportamentos por algoritmos de mineração de dados

3.1

Passo 1: Extração de dados do Twitter

O primeiro passo é a extração de dados do Twitter. A extração será feita através do protocolo HTTP, o qual fará requisições de dados ao servidor do Twitter e terá como resultado um conjunto de dados no formato JSON.

Entretanto, o Twitter exige que seja enviado na requisição uma chave de acesso e uma chave secreta. Para obtenção dessas duas chaves, é necessário o registro de um novo aplicativo por seu usuário da rede social1. A figura 3 exibe as informações do aplicativo

criado.

O Twitter disponibiliza uma ferramenta própria para desenvolvedores executarem requisições HTTP e analisarem a estrutura de dados retornada, denominada Twitter Explorer2, e é nesta ferramenta também que é possível gerar a chave de acesso para

requisições próprias. Os usuários do Twitter definem as permissões de visibilidade dos seus dados pessoais, informa se o aplicativo pode ler os tuítes da sua linha do tempo, informa se o aplicativo pode visualizar seus seguidores e a quem você segue, atualizações do seu perfil e tuítes postados pelo usuário. Os níveis de visibilidade de uma informação pode ser: público, somente pessoas autorizadas pelo usuário ou privadas. Se a permissão for pública, significa que qualquer usuário do Twitter pode visualizá-la. Sabendo disso, apenas os tuítes definidos como públicos serão coletados nesse trabalho para análise. A figura 4

demonstra o resultado de uma requisição de dados da linha do tempo do usuário “Davi Zanotto” utilizando o Twitter Explorer. Note que a coluna “Request” exibe a requisição HTTP dos dados e a coluna “Response” exibe os dados retornados, no formato JSON:

1 https://dev.twitter.com/apps/new 2 https://dev.twitter.com/console

(29)

Figura 3 – Informações do aplicativo criado no Twitter

Figura 4 – Exemplo de requisição de dados utilizando Twitter Explorer

Entretanto, esta ferramenta é muito limitada no sentido de consultar e extrair dados, pois é necessário a intervenção do analista para informar o ID de usuário que se deseja consultar e as informações retornadas precisam ser analisadas manualmente.

Por esta razão, foi desenvolvido um algoritmo que faz as requisições HTTP e armazena os dados em arquivos. Este algoritmo, desenvolvido na linguagem Python, utiliza

(30)

a biblioteca Python-Twitter que é responsável por encapsular os métodos HTTP da API do Twitter. Utilizando esta biblioteca, não é necessário que o programador desenvolva requisições GET ou POST, ao invés disso, o programador utilizará métodos já existentes dessa biblioteca para consultar os dados. Por exemplo, o programador não precisará enviar a requisição HTTP da forma como no exemplo da figura 4. A requisição será realizada apenas com a chamada do método pythonT witter.userT imeline().

Para coleta de dados no Twitter, existem duas APIs com diferentes objetivos:

1. REST API: tem como objetivo consultar dados de histórico dos usuários, como tuítes enviados, dados pessoais, seguidores, dentre outras informações de histórico dos usuários.

2. Streaming API: seu objetivo é criar uma conexão ativa com o servidor do Twitter e, utilizando um filtro de palavras-chave, coletar todos os tuítes enviados desde a criação dessa conexão que contenham essas palavras. Nesse caso, apenas os tuítes enviados a partir da hora em que foi estabelecida a conexão serão coletados.

Para o cumprimento do objetivo deste trabalho, a Streaming API é a mais indicada porque será possível fazer coleta em tempo real de assuntos específicos, dados as palavras-chave.

3.2

Passo 2: Análise de influência por contagem de Retuítes e

Men-ções

Uma vez que já é possível coletar os dados na rede, em tempo real, é necessário definir métricas para avaliar a influência dos usuários. Baseado no trabalho de (CHA et al., 2010), os seguintes dados serão utilizadas:

• Quantidade de seguidores; • Quantidade de retuítes; • Quantidade de menções.

(CHA et al.,2010) e (BAKSHY et al.,2011) afirmam que a quantidade de seguidores representam a audiência de determinado usuário. Isto porque, no Twitter, quando um usuário envia um tuíte, todos os seus seguidores irão receber essa mensagem. Então, teoricamente, quanto maior a quantidade de seguidores de um usuário, maior será o espalhamento de determinado conteúdo.

(31)

A segunda métrica definida, quantidade de retuítes, segundo (CHA et al., 2010), representa o valor do conteúdo de um tuíte. Quando um usuário lê um tuíte e se identifica com este conteúdo, ele tende a retuíta-lo para que os seus seguidores também vejam este mesmo tuíte. Esta funcionalidade é muito poderosa porque é a responsável pela difusão exponencial de conteúdos na rede. É importante citar que esta funcionalidade tem mais poder de difusão de conteúdo do que simplesmente a funcionalidade de seguidores. Ou seja, se um tuíte é enviado por um usuário que possui 100 seguidores, 100 pessoas poderão ver este tuíte; entretanto, se esse tuíte for retuitado por 1 pessoa que tem 1.000 seguidores, mais mil pessoas poderão ver este tuíte.

A quantidade de menções representa o valor de nome de determinado usuário(CHA et al.,2010), ou seja, o poder de engajamento de determinado usuário perante os outros. Pessoas públicas e celebridades costumam ser muito mais mencionados do que pessoas comuns.

Baseado nesses estudos, a figura5 exibe a arquitetura construída neste trabalho para coleta, tratamento e análise dos dados:

Figura 5 – Arquitetura para descoberta dos usuários influentes

Esta arquitetura identifica as etapas necessárias para o identificação dos usuários mais influentes. Entretanto, ela pode ser dividida em dois momentos:

1. Coleta dos dados

2. Tratamento e análise

Para a coleta dos dados, será utilizada a Streaming API do Twitter, descrita anteriormente. Todos os tuítes que forem coletados deverão ser armazenados em um arquivo de saída do algoritmo desenvolvido neste projeto. Apesar de todos os campos recebidos do Twitter serem armazenados, os campos utilizados nessa metodologia serão: identificador único do tuíte, data e hora de criação, mensagem, usuário que criou o tuíte,

(32)

usuários retuitados (se houver), usuários mencionados (se houver) para cada tuíte coletado. Dessa forma, foi possível diminuir o tamanho do arquivo em 10 vezes comparado ao tamanho total de cada JSON do tuíte. Esse processo de coleta pode durar horas, dias, meses, dependendo apenas da estratégia definida pelo analista.

O segundo momento é o tratamento e análise dos dados. Uma vez que milhares de

tuítes foram coletados e armazenados em arquivo, é necessário a criação de um algoritmo

para tratamento desses dados. Esse tratamento deverá ler os dados e organizá-los em rankings de quantidade de retuítes por usuários e quantidade de menções por usuário. A audiência de um usuário (seguidores) será realizada manualmente em um processo externo. Para isso, um algoritmo foi desenvolvido, também em Python, com este objetivo. Os rankings de retuítes e menções foram gravados em arquivos diferentes e os dados no formato CSV, em que as colunas são separadas por ponto-e-vírgula. Isto porque facilita a análise em um editor de planilhas, como o OpenCalc ou Excel.

No entanto, a contagem de retuítes e menções são métricas que indicam somente quais usuários são influentes na amostra coletada. Se utilizando somente dessas métricas, não é possível saber o porquê que este usuário é influente e, ainda, se ele realmente é influente ou se algum outro usuário, o verdadeiro formador de opinião, foi o responsável por difundir seu conteúdo através de retuítes.

Sendo assim, outras duas métricas deverão ser utilizadas para validar a métrica de contagem, são elas:

1. Métricas de Redes Complexas

2. Fórmula de Tunk Rank

3.3

Passo 3: Análise de influência por métricas de Redes Complexas

e algoritmo TunkRank

As métricas de centralidade de redes complexas serão implementada para auxiliar o entendimento de influência dos usuários no Twitter. O objetivo é ranquear os usuários de acordo com a centralidade destes, onde serão analisadas: centralidade de grau, betweenness,

closeness e autovetor (semelhante ao PageRank).

Para aplicar as métricas citadas, a amostra coletada do Twitter será inserida em um banco de dados de grafos, que faz parte da malha de bancos de dados NoSQL (Not

Only SQL) que vêm sendo vastamente utilizada recentemente em projetos de Big Data

(CHANG et al., 2008). Existem outros tipos de bancos de dados, além de grafos, como por exemplo: bancos de dados chave/valor e bancos de dados orientados a documentos. Por conta da estrutura das redes sociais online, o banco de dados de grafos faz a melhor

(33)

representação dos dados, onde cada usuário é um vértice e seus relacionamentos são as arestas, conforme já foi explicado anteriormente.

A grande vantagem de implantar um banco de dados de grafos nesse projeto ocorre porque ele já possui, em sua biblioteca nativa, vários algoritmos de redes complexas implementados. Sendo assim, basta usar a API e chamar seus métodos de betweenness,

closeness, menor caminho, dentre outros.

Outra opção existente para validar a influência de um usuário é a implementação de um algoritmo recursivo chamado Tunk Rank. Esta função matemática pode ser representada por: Inf luence(X) = X Y ∈F ollowers(X) (1 + p ∗ Inf luence(Y )) ||F ollowing(Y )|| (3.1) (3.2) Onde:

• Inf luence(X) é o número esperado de usuários que irão ler um tuíte escrito e postado pelo usuário X, incluindo os retuítes. Para simplificar, o autor assumiu que se uma pessoa ler a mesma mensagem mais de uma vez (por causa dos retuítes), ambas as leituras serão contadas.

• Se X é seguidor de Y , então existe uma probabilidade de 1/||F ollowing(X)|| de que

X lerá o tuíte postado por Y , onde F ollowing(X) é o conjunto de pessoas que X

segue no Twitter. Isso porque todos os tuítes postados por cada um dos usuários que X segue, aparece em sua timeline.

• Se X leu o tuíte de Y , então existe uma probabilidade constante p de que X irá retuítar esta mensagem.

Claramente, esta fórmula matemática é simplista em suas hipóteses, porém é possível se obter bons resultados quanto à influência de cada usuário. Sua recursividade termina quando o usuário Y não segue outro usuário, retornando 0.

Se fez necessário adaptar a fórmula sugerida por Daniel Tunkelang para utilização neste trabalho, porque ela exige que se tenha toda a rede de usuários e seus seguidores até o fim, o que não é viável porque o Twitter não disponibiliza esses dados em tempo hábil. Dessa forma, decidiu-se inserir no banco de dados de grafos todos os usuários que escreveram tuítes coletados via Streaming API, seus seguidores e os seguidores dos seguidores. Ou seja, serão inseridos três níveis na hierarquia de seguidores de um usuário. Essa coleta dos seguidores se dará por largura e não por profundidade.

(34)

Outra adaptação necessária é a realização de experimentos para o valor de p da fórmula, visto que a probabilidade de que um usuário retuíte um tuíte não é fixa. Sendo assim, é sugerido que p seja:

1. Igual para todos os usuários, calculado a partir da média de retuítes na amostra (somando todos os retuítes);

2. Individual para cada usuário X, calculado a partir da média de retuítes desse usuário na amostra;

3. Para cada dupla de usuários X e Y, calculado a partir da probabilidade de um usuário Y retuitar um usuário X baseado na amostra.

Para validação da influência de um usuário, tanto com algoritmos de redes complexas quanto com o algoritmo recursivo TunkRank, será necessário a inserção dos seguidores de cada usuário da amostra. Para tal, será necessário utilizar a REST API do Twitter se utilizando do método user_lookup.

O banco de dados de grafos escolhido para este trabalho foi o Neo4J, por ser o mais consolidado do mercado atualmente. Será utilizada a versão Community, visto que também existe a versão Enterprise que é paga, executando na versão 2.0.1 em um servidor simples, com processador QuadCore, 8GB de memória RAM e 1TB de disco rígido.

Em comum entre as técnicas de redes complexas e do algoritmo TunkRank, é necessário a inserção dos seguidores de cada usuário coletado. Contudo, a inserção de seguidores é muito custosa, visto que é necessário enviar uma requisição ao Twitter, utilizando a REST API, a cada 20 seguidores de 1 usuário da amostra. Por dia, é possível inserir, em média, 10 milhões de seguidores no banco. Alguns usuários, por si só, possuem mais que 10 milhões de seguidores.

Então, para criação do grafo no Neo4J foi escolhida a seguinte estratégia:

• De toda a amostra coletada, escolher um tema e extrair somente 1 milhão de tuítes; • Inserir no Neo4J os 1 milhão de tuítes e os usuários que escreveram e retuitaram cada tuíte, que também tem na amostra, com o relacionamento “Wrote” e “Retweeted”;

• Capturar para cada um dos usuários inseridos no Neo4J, seus seguidores via REST API junto ao Twitter;

• Inserir os seguidores no Neo4J com o relacionamento “Followed”;

• Após algumas semanas de inserção, notou-se a inviabilidade da inserção dos seguidores de todos os usuários. Sendo assim, a estratégia foi alterada para inserir 2 níveis de seguidores dos 30 usuários que tiveram maior contagem de retuítes.

(35)

Foi construído então um grafo direcionado e muito volumoso. A figura 6 exibe a tela de administração do Neo4J e seu volume. Este BD possui aproximadamente 33 milhões de vértices e 42 milhões de arestas. Já a figura 7 exibe uma pequena amostra real da estrutura do grafo gerado neste projeto. A estrutura do grafo possui dois tipos de nós (vértices):

• User • Tweet

e três tipos de relacionamentos (arestas):

• Wrote: usuário que escreveu o tuíte;

• Retweeted: usuários que retuitaram um tuíte;

• Followed: usuários que seguem outros usuários no Twitter.

Dentre as propriedades de cada usuário que é armazenado no Neo4J, as seguintes propriedades estão sendo inseridas:

• id: identificador único de cada usuário, gerado pelo Twitter; • name: nome do usuário exibido em seu perfil;

• screen_name: nome único, que também serve de identificador de um usuário; • created_at: data e hora de criação do perfil;

• location: local onde vive o usuário;

• friends_count: quantidade total de usuários que este perfil segue; • followers_count: quantidade total de usuários que seguem este perfil; • statuses_count: quantidade total de tuítes criados por este usuário;

• listed_count: quantidade total de listas que o usuário está inserido, listas estas criadas por outros usuários

• favourites_count: quantidade total de usuários que “favoritaram” este perfil • verified: indicador para saber se é um perfil real, muito útil quando o perfil é de

(36)

Figura 6 – Volume de dados no Neo4J

Figura 7 – Pequena amostra do grafo criado

Não foi possível realizar os experimentos com medidas de redes complexas e com o algoritmo TunkRank porque a inserção de usuários e seus seguidores dentro do grafo não foi finalizada. A reconstrução da rede social Twitter é muito custosa e lenta, então estes testes passaram a fazer parte da estratégia de trabalhos futuros.

3.4

Passo 4: Identificação das características presentes em

conteú-dos virais

Durante pesquisas sobre as características existentes em conteúdos virais, foi possível observar que existem estudos apontando qual o melhor dia para escrever um tuíte, qual o melhor horário, quantos caracteres o tuíte deve possuir, dentre outras características. O pesquisador Dan Zarella publicou um infográfico em seu blog3 analisando as características

(37)

de influência em relação à taxa de cliques (CTR - em inglês) que os usuários realizam em URLs dentro dos tuítes. A métrica da taxa de cliques é utilizada para descobrir a proporção da frequência com que as pessoas que visualizam um anúncio clicam nele. Algumas das características exibidas no infográfico, são:

• Os tuítes que possuem entre 120 e 130 caracteres são os que possuem maior CTR; • Os tuítes postados entre a sexta-feira e domingo possuem maior CTR do que tuítes

postados no resto da semana;

• Os tuítes postados durante o final da tarde de um dia possuem maior CTR do que tuítes postados pela manhã ou madrugada.

Seguindo esse raciocínio, este passo da metodologia tem o objetivo de identificar as características que podem ser utilizadas para compreender o comportamento dos usuários e dos tuítes na amostra coletada neste trabalho. Através de histogramas será possível entender em quais ocasiões as interações entre os usuários ocorrem. Sabendo-se que as interações entre os usuários são realizadas através de tuítes, retuítes, menções, hashtags, dentre outras funcionalidades fornecidas pelo Twitter, estudar o momento em que estas mais ocorrem pode fornecer uma visão macro (estatística) da amostra, o que irá auxiliar a elaboração de estratégias para criar mensagens mais atrativas a um determinado público. Por exemplo, se neste passo for possível perceber que os tuítes escritos em uma quinta-feira, entre as 20 horas e 23 horas, são relativamente mais retuitados que os tuítes criados nos outros dias e outros horários, provavelmente será uma melhor estratégia criar o conteúdo neste período quando se tem o objetivo de alcançar o maior número de usuários neste tema.

Vários cenários podem ser analisados através dos histogramas. A princípio, foram definidos os seguintes cenários:

1. Quantidade de retuítes por dia da semana;

2. Quantidade de retuítes por horário;

3. Quantidade de retuítes por quantidade de hashtags em um tuíte;

4. Quantidade de retuítes por quantidade de imagens em um tuíte;

5. Quantidade de retuítes por quantidade de URLs em um tuíte;

6. Quantidade de retuítes por usuários que são verificados pelo Twitter (usuários oficiais);

7. Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu o tuíte possui;

(38)

8. Quantidade de retuítes por quantidade de amigos do usuário que escreveu o tuíte;

9. Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário;

Para gerar os gráficos dos cenários acima, será utilizada a mesma base de dados descrita com mais detalhes no passo 5, a seguir. O objetivo dessa base de dados é registrar os tuítes de forma sumarizada, ou seja, é feito um levantamento dos tuítes coletados em JSON, seus metadados são agrupados e sumarizados de acordo com os retuítes de um tuíte origem e, por fim, são inseridos no banco de dados. Dessa forma, é possível fazer o cruzamento das variáveis necessárias para os cenários citados anteriormente.

Uma vez realizada a consulta SQL à base de dados e obtendo os resultados exigido no cenário, por exemplo: para o cenário 1 é necessário agrupar os tuítes escritos em cada dia da semana (segunda-feira, terça-feira, etc, até domingo) e somar a quantidade de retuítes recebidos, o resultado é exportado em um arquivo CSV que pode ser visualizado em softwares de planilha eletrônica para manipulação e criação dos gráficos, de acordo com a necessidade.

Através da análise desses gráficos, acredita-se que é possível entender melhor a amostra de tuítes coletada e elaborar estratégias mais embasadas quando se desejar criar conteúdo que gere impacto de difusão na rede.

3.5

Passo 5: Análise de comportamentos por algoritmos de

mine-ração de dados

Uma outra forma de conhecer os usuários mais influentes da amostra é conhecer o comportamento dos usuários no Twitter e das mensagens que estes costumam propagar na rede. Estes comportamentos envolvem: quais tipos de mensagens e temas costumam escrever, quantos caracteres costumam utilizar, qual horário o usuário costuma estar ativo na rede, utiliza-se de imagens e/ou links em suas mensagens, dentre outras características.

O passo anterior dessa metodologia realiza o levantamento de algumas informações deste tipo através de histogramas e permite a análise empírica da distribuição dos retuítes. O grande diferencial deste passo é que, através de algumas técnicas de mineração de dados, um modelo é gerado baseado em todas as variáveis que forem elencadas para serem analisadas, ou seja, é possível analisar uma quantidade maior de cenários, a correlação entre as variáveis e a quantidade de retuítes e o tempo exigido para esse esforço é consideravelmente menor do que a análise via histogramas. O processador do servidor é o responsável pela análise e não o pesquisador de forma empírica.

Como já foi citado, é essencial o entendimento desse comportamentos, mesmo que de forma qualitativa, para que seja possível provocar o comportamento viral de um conteúdo,

Referências

Documentos relacionados

Dentro do contexto da produção siderúrgica nacional (Quadro 6), a produção brasileira de aço bruto, acumulada no 1º semestre de 2013, totalizou 11,7 milhões de toneladas de

a) Sistema de produto: produção integrada: soja, capim e algodão. O capim é cultivado como espécie formadora de palha; não é colhido ou pastejado, correspondendo, portanto, a um

The strict partition problem is relaxed into a bi-objective set covering problem with k-cliques which allows over-covered and uncovered nodes.. The information extracted

Contudo, não é possível imaginar que essas formas de pensar e agir, tanto a orientada à Sustentabilidade quanto a tradicional cartesiana, se fomentariam nos indivíduos

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

O presente estudo foi realizado com o objetivo de descrever o perfil das mulheres que tiveram parto na maternidade do Hospital Universitário Polydoro Ernani de São Thiago em

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças