• Nenhum resultado encontrado

Identificação de Usuários Influentes no Twitter

N/A
N/A
Protected

Academic year: 2021

Share "Identificação de Usuários Influentes no Twitter"

Copied!
7
0
0

Texto

(1)

Identificação de Usuários Influentes no Twitter

Ronan Lopes

Universidade Federal de São João del-Rei Dep. de Ciência da Computação

São João del-Rei, Brasil

lopesronanufsj@gmail.com

Ramon Vieira

Universidade Federal de São João del-Rei Dep. de Ciência da Computação

São João del-Rei, Brasil

r_vieira5@hotmail.com

1.

INTRODUÇÃO

Com a intensifica¸c˜ao do uso de redes sociais por usu´arios da web, tem-se gerado uma grande quantidade de dados provenientes das intera¸c˜oes desses usu´arios com a rede. Jun-tamente com o volume de dados, cresce tamb´em o inter-esse na descoberta de conhecimento, sobretudo a respeito de opini˜oes e tendˆencias disseminadas na rede. Esse inter-esse impulsiona o desenvolvimento de t´ecnicas de minera¸c˜ao de dados, que permitem extrair informa¸c˜oes impl´ıcitas em bases de dados.

Entender como os usu´arios se comportam em uma rede so-cial auxilia em tomadas de decis˜oes, como por exemplo, em estrat´egias de marketing. Exemplificando, ´e provavelmente mais eficaz iniciar uma campanha eleitoral a partir de um usu´ario do qual partem conte´udos amplamente propagados na rede. Outro exemplo de aplica¸c˜ao ´e em sistemas de re-comenda¸c˜ao, onde a identifica¸c˜ao de grupos de usu´arios na rede permite a ado¸c˜ao de um m´etodo mais efetivo de re-comenda¸c˜ao de conte´udo.

A fim de verificar o comportamento de uma rede de usu´arios no Twitter1, o trabalho apresentado neste artigo tem por ob-jetivo determinar os usu´arios mais influentes da rede. Para tal, utilizou-se uma base de dados do Reality Show Big Brother Brasil 20142. O objetivo ´e aplicar diferentes m´ etri-cas dispon´ıveis na literatura, de forma a obter uma medida de influˆencia h´ıbrida, que levem em considera¸c˜ao diferentes aspectos da rede. Busca-se tamb´em verificar se a opini˜ao disseminada pelos usu´arios assinalados como mais influentes refletem no resultado do pared˜ao (evento semanal do Reality Show onde o p´ublico vota pela sa´ıda de um participante da casa).

2.

TRABALHOS RELACIONADOS

Em busca de m´etricas de influˆencia a serem aplicadas e apoio `a constru¸c˜ao da metodologia a ser utilizada, fez-se o es-tudo de alguns artigos cient´ıficos que propunham diferentes

1http://www.twitter.com 2

http://www.bbb.globo.com/

.

m´etodos para identifica¸c˜ao de usu´arios influentes. Foram se-lecionados aqueles que abordaram cen´arios mais pr´oximos e apresentaram t´ecnicas mais aplic´aveis ao contexto. A seguir, faz-se uma breve descri¸c˜ao desses trabalhos, juntamente com as principais contribui¸c˜oes de cada um deles.

O primeiro trabalho foi desenvolvido por Weng et al. [1] e prop˜oe uma m´etrica de influˆencia que extende o algoritmo de PageRank3. A analogia feita ao algoritmo de PageR-ank ´e que, assim como uma p´agina da web, um usu´ario do Twitter tem alta influˆencia se a soma de influˆencia dos seus seguidores ´e alta; e sua influˆencia em cada seguidor, por sua vez, ´e determinada pela quantidade de conte´udo que o seguidor recebe dele. Al´em disso, o algoritmo acrescenta o peso de uma medida de similaridade entre dois usu´arios de acordo com os t´opicos em que est˜ao interessados. A in-fluˆencia dos usu´arios ´e calculada para cada t´opico da base, mas pode-se obter uma medida geral de influˆencia, atrav´es do montante de influˆencia do usu´ario. A efic´acia do Twit-terRank foi demonstrada atrav´es de sua correla¸c˜ao com os ranks gerados por outros algoritmos.

O trabalho desenvolvido por Valiati et al.[2] tamb´em trata-se de uma extens˜ao do algoritmo PageRank. Entretanto, diferencia-se do primeiro trabalho em duas quest˜oes prin-cipais: n˜ao ´e topic-sensitive e n˜ao leva em considera¸c˜ao a rede de seguidores por quest˜oes de eficiˆencia, uma vez que as requisi¸c˜oes `a API do Twitter s˜ao estritamente limitadas. O trabalho modela a rede como um grafo bipartido, que associa usu´arios a conte´udos propagados por eles, e con-te´udo ao usu´ario que o originou. Dessa forma, utiliza-se uma defini¸c˜ao circular de influˆencia e relevˆancia, onde um usu´ario ´

e influente se dissemina conte´udo relevante, e um conte´udo ´

e relevante se ´e disseminado por usu´arios influentes. In-tuitivamente, a influˆencia de um usu´ario pode ser definida pela probabilidade de um randomsurfer (usu´ario que navega aleatoriamente pelo grafo bipartido) visitar esse usu´ario. O algoritmo demonstrou sua efic´acia no contexto de recomen-da¸c˜ao de conte´udo, onde se o modelo ´e capaz de recomendar conte´udo para os usu´arios de forma acurada, pode-se inferir que a identifica¸c˜ao de relevˆancia do conte´udo foi bem suce-dida.

Muhammad U. Ilyas e Hayder Radha [3] prop˜oem uma medida de centralidade em redes chamada PCC (Principal Component Centrality), que consiste em considerar a ma-triz de adjacˆencia do grafo que representa a rede como uma matriz de covariˆancia e partindo dela encontrar os P tores mais significativos da matriz. A partir desses autove-tores forma-se um autoespa¸co e o valor do PCC de cada

3

(2)

n´o ´e dado pela norma da distˆancia euclidiana a partir da origem do autoespa¸co encontrado. Essa medida de centrali-dade foi comparada com outra medida bastante utilizada, o EVC (eigenvector centrality), obtendo resultados melhores em rela¸c˜ao ao n´umero de comunidades (centros) encontra-dos. O EVC tem a limita¸c˜ao de se concentrar apenas na maior comunidade, n˜ao revelando outras comunidades que podem ter importˆancia significativa. Isso n˜ao ocorre com o PCC, conforme comprovado atrav´es de testes em uma rede de amigos do Orkut e de uma rede de jogos Fighters Club no Facebook.

Changhyun Lee, Haewoon Kwak, Hosung Park, and Sue Moon[4] prop˜oem um m´etodo diferente para medir usu´arios influentes no Twitter, usando o conceito de leitores efetivos. Um leitor efetivo de um usu´ario u ´e um seguidor do usu´ario u que foi exposto pela primeira vez a um determinado trend-ing topic atrav´es de um tweet do usu´ario u. A influˆencia de um usu´ario u ´e medida como o total de leitores efetivos para todos os tweets que o usu´ario u postou. Usando essa medida de influˆencia, chegou-se ao resultado de que a maioria dos usu´arios influentes s˜ao agˆencias de not´ıcias, que tem uma influˆencia significativa na divulga¸c˜ao de informa¸c˜oes. Com-para¸c˜oes quantitativas com o m´etodo que usa a contagem de n´umero de seguidores mostraram que apenas 34% de usu´arios influentes coincidiram, considerando os 1000 mais influentes. O n´umero de influentes comuns, em compara¸c˜ao com o PageRank, foi ainda menor, o que mostra a singular-idade desse m´etodo frente aos existentes.

2.1

TwitterRank

Atrav´es de an´alises de conjunto de dados de usu´arios do Twitter, foi constatado que 72.4% dos usu´arios do Twitter segue mais de 80% de seus seguidores, e 80.5% dos usu´arios tem 80% dos usu´arios que est˜ao seguindo seguindo-os de volta. De acordo com estudos recentes, essa presen¸ca de re-ciprocidade pode ser explicado pelo fenˆomeno de homofilia. Com base nessa constata¸c˜ao, foi proposta uma forma de medir a influˆencia de usu´arios do Twitter com base nessa descoberta.

Figure 1: Base de Dados: Usu´arios de Singapura 72.4% dos usu´arios seguem mais de 80% dos seus seguidores e 80.5% dos usu´arios tem seus amigos seguindo-os de volta.

Para responder a quest˜ao sobre a presen¸ca de homofilia na base:

- Usu´arios que se seguem s˜ao mais similares do que aque-les que n˜ao?

Identificar o interesse dos usu´arios (hashtags pouco pre-sentes na base)

Para identificar os interesses, aplica-se uma t´ecnica de aprendizado n˜ao-supervisionado: Latent Dirichlet Alloca-tion (LDA)

Cada documento D (tweet) est´a associado com uma dis-tribui¸c˜ao de t´opicos T, e cada t´opico T est´a associado a uma distribui¸c˜ao de palavras

Sa´ıda: Matriz DxT, onde D ´e o n´umero de usu´arios e T o n´umero de t´opicos.

Testando a hip´otese:

- Calcular a m´edia da distˆancia de t´opicos de cada usu´ario para seus amigos

- Mesmo c´alculo para o mesmo n´umero de usu´arios, em que n˜ao haja rela¸c˜ao entre os usu´arios

dist(i, j) =p2 ∗ DJ S(i, j)

Djs: Jensen-Shannon Divergence

Matriz com probabilidade de transi¸c˜ao de um usu´ario ui

para uj, para um dado t´opico t:

Pt(i, j) = |τj| P a:sif ollowssa|τa| ∗ simt(i, j) onde: simt(i, j) = 1 − |DTit0 − DT 0 jt| Exemplo:

Vetor de influˆencia t´opico-espec´ıfica para um t´opico t: −−→

T Rt= γPt×

−−→

T Rt+ (1 − γ)Et

(3)

entre 0 e 1 que controla a probabilidade dessa transi¸c˜ao e TR ´e inicializado como um vetor uniforme

Resultados:

2.2

Usuários Influentes / Conteúdo Relevante

Usu´arios Influentes / Conte´udo Relevante Modelado como um grafo bi-partido:

O grafo bipartido G(U, C, F, E) pode ser representado por duas matrizes, M e L. A matriz M = (mij) ´e |U |x|C| e

mij= 1/qi

Usu´arios Influentes / Conte´udo Relevante Al´em disso, L = (lij) ´e |C|x|U | e lij= 1 se o usu´ario uj criou o conte´udo

ciou lij = 0, caso contr´ario.

C´alculo do vetor de Influˆencia/relevˆancia: pk= pk−1M L, onde p0 = vetor uniforme

rk= rk−1LM , onde p0 = vetor uniforme

Esse modelo apresenta dois problemas importantes: A poss´ıvel presen¸ca de usu´arios dangling A poss´ıvel existˆ en-cia de buckets

Solu¸c˜ao: Adi¸c˜ao de mecanismo de amortecimento d. Novo modelo:

pk= dpk−1M L + (1 − d)u rk= drk−1LM + (1 − d)u

- Utilizou-se d=0.85

Ap´os reformular as equa¸c˜oes acima algebricamente, a fim de obter-se a forma n˜ao recursiva:

p = (1 − d)u(I − dM L)−1 r = (1 − d)u(I − dLM )−1

Problema: computa¸c˜ao custosa.

Solu¸c˜ao: aplicar o m´etodo das potˆencias para solu¸c˜ao aproximada, mas eficiente.

Resultados:

(4)

2.3

Principal Component Centrality

Para calcular a influˆencia dos usu´arios, essa m´etrica utiliza a modelagem da rede de usu´arios do Twitter como um grafo, e a partir do c´alculo de centralidade nesse grafo pode-se estimar o quanto um determinado usu´ario ´e influente nessa determinada rede.

Essa m´etrica ´e baseada em uma outra m´etrica bastante difundida no estudo de redes sociais, o EVC (centralidade de autovetor). Para calcular a centralidade de cada n´o, o EVC d´a uma pontua¸c˜ao a esse n´o do grafo em rela¸c˜ao aos seus vizinhos. Isso ´e feito relacionando tanto o n´umero de liga¸c˜oes entre os n´os, a robustez entre essas liga¸c˜oes e por fim `as centralidades dos n´os vizinhos. Para poder encon-trar os valores exatos das centralidades, sendo que n˜ao pode ser feito calculando a centralidade de cada n´o por vez, ´e utilizando o autovetor principal da matriz de adjacˆencia do grafo. Essa caracter´ıstica permite que o EVC de um deter-minado n´o, assim como o closeness e o betweenness, forne¸ca uma perspectiva de toda a rede. Cada n´o receber´a um valor de centralidade que indica o ”grau” de conex˜ao ao n´o mais central, ou mais dominante. Por´em o EVC tem uma car-acter´ıstica que pode n˜ao ser muito interessante em determi-nadas bases de dados: ´e uma m´etrica que foca somente na maior comunidade de n´os centrais, ignorando que existam outras vizinhan¸cas de n´os com centralidades menores por´em que podem ser igualmente importantes.

Visando obter uma m´etrica que consiga detectar m´ultiplas comunidades em um grafo, foi desenvolvida uma m´etrica nova chamada PCC (Principal Component Centrality). Essa m´etrica utiliza uma t´ecnica de redu¸c˜ao de dimensionalidade chamada PCA na matriz de adjacˆencia do grafo, transfor-mando o espa¸co vetorial formado pela matriz de adjacˆencia do grafo, em que cada dimens˜ao representa um n´o e suas adjacˆencias, em outro espa¸co vetorial reduzido, no qual se preserve o m´aximo de informa¸c˜ao poss´ıvel. Ap´os fazer essa redu¸c˜ao, calcula-se a centralidade de cada n´o como a distˆ an-cia euclidiana entre a origem do espa¸co vetorial e a proje¸c˜ao do n´o nesse espa¸co reduzido.

Para a escolha de uma dimens˜ao apropriada para a re-du¸c˜ao, ´e feito um c´alculo de phase angle entre o autovetor do EVC e o vetor de distˆancias calculado pelo PCC para uma dimens˜ao d. A dimens˜ao d ´e escolhida se a varia¸c˜ao entre o phase angle para uma dimens˜ao d e uma dimens˜ao d − 1 for pequena, indicando que a partir dali os valores do PCC n˜ao sofrer˜ao grandes altera¸c˜oes.

2.4

Leitores Efetivos

A dinamicidade do Twitter, onde a qualquer momento um usu´ario ou um grupo de usu´arios pode causar uma mudan¸ca repentina da opini˜ao geral sobre um determinado assunto, faz com que a temporalidade dos posts tenha grande relevan-cia na identifica¸c˜ao de usu´arios influentes. Por´em, muitas das abordagens atualmente utilizadas para essa an´alise, como o n´umero de seguidores e o PageRank, n˜ao utilizam

infor-Figure 2: Exemplo de c´alculo de centralidade usando o PCC

ma¸c˜oes temporais para esse fim. De modo a usar essas in-forma¸c˜oes temporais, foi desenvolvida uma m´etrica chamada Leitores Efetivos.

Ao analisar a maneira como se d´a a difus˜ao de informa¸c˜ao no Twitter, constatou-se que o n´umero de usu´arios do Twit-ter que recebem tweets sobre um deTwit-terminado trending topic cresce de forma acelerada no in´ıcio do per´ıodo de evidˆencia de um determinado trending topic. Em contrapartida, o n´umero de usu´arios que escrevem tweets sobre esse determi-nado trending topic apresenta um crescimento muito menor. Conforme o tempo vai passando, o n´umero cumulativo de usu´arios que recebe tweets se estabiliza, enquanto o n´umero de escritores continua crescendo.

Ao se fazer uma an´alise mais atenta percebe-se que o n´umero de leitores proporcionalmente ao n´umero de escritores ´

e muito maior no in´ıcio do per´ıodo de evidˆencia, decaindo conforme o tempo passa e o n´umero de escritores aumenta. Com base nessa observa¸c˜ao, pode-se dizer que um usu´ario que escreve um determinado conte´udo no in´ıcio do per´ıodo ´

e mais influente do que outro que escrever em um per´ıodo posterior, pois o primeiro atinge muito mais usu´arios do que o segundo.

Desse modo, pode-se medir a influˆencia atrav´es dos chama-dos leitores efetivos. Um leitor efetivo de um tweet t postado por um usu´ario u ´e qualquer usu´ario f, seguidor de u, que tem contato com um determinado trending topic atrav´es do tweet t.

Caso f tenha sido exposto a uma determinado trending topic atrav´es de tweets de v´arios usu´arios a quem segue, o usu´ario f ser´a o leitor efetivo do tweet do usu´ario que postou a informa¸c˜ao primeiro, de modo que cada usu´ario seja leitor efetivo de apenas 1 tweet.

A influˆencia de cada usu´ario ´e calculada como o somat´orio das influˆencias de todos os tweets postados por aquele usu´ario. A influˆencia de cada tweet ´e o n´umero de leitores efetivos que receberam aquele tweet.

3.

METODOLOGIA

A seguir ´e descrita a metodologia utilizada para a formu-la¸c˜ao do trabalho. Primeiramente foi feito um estudo de como cada m´etrica funciona, de forma a auxiliar na etapa posterior de implementa¸c˜ao. Depois dessa etapa segue o pr´e-processamento da base de dados utilizada, assim como a constru¸c˜ao do grafo posteriormente utilizada para as m´ etri-cas de Usu´arios Influentes/Conte´udo Relevante e PCC.

Ap´os essa etapa de pr´e-processamento, foi feita a imple-menta¸c˜ao das m´etricas Usu´arios Influentes/Conte´udo Rele-vante, PCC e TwitterRank, descritas a seguir. A m´etrica

(5)

Ef-fective Readers n˜ao pˆode ser implementada devido a falta de informa¸c˜oes relativas aos trending topics na base de tweets que foi utilizada para as an´alises das demais medidas de centralidade.

3.1

Modelagem do grafo

O grafo G = (V, E) foi modelado de forma que, cada el-emento de V representa um usu´ario que gera tweets ou ´e mencionado em um tweet, e o conjunto E ´e composto por arestas que indicam uma rela¸c˜ao entre um par de usu´arios, na qual um usu´ario cita o outro usu´ario atrav´es de um tweet. Para as m´etricas grau de entrada, PageRank e betweenness, esse grafo foi modelado como um grafo direcionado. J´a para o PCC, o grafo foi modelado de forma n˜ao-direcionada.

Para a m´etrica Usu´arios Influentes / Conte´udo Relevante, o modelo de grafo utilizado foi um grafo bipartido que as-socia usu´arios a conte´udos, e foi modelado atrav´es de duas matrizes M e L.

3.2

Usuários Influentes/Conteúdo Relevante

A implementa¸c˜ao foi feita usando duas matrizes: M e L. A matriz M ´e uma matriz de dimens˜oes |U|x|C|, onde |U| ´e o n´umero de usu´arios e |C| a quantidade de conte´udo. Cada linha i da matriz ´e preenchida com o valor inverso da quan-tidade de conte´udo propagado pelo usu´ario i. A matriz L, de dimens˜oes inversas (|C|x|U|) representa a cria¸c˜ao de con-te´udo por parte dos usu´arios, onde cada posi¸c˜ao (i,j) cont´em o valor 1 caso o conte´udo i tenha sido originado pelo usu´ario j, e 0 caso contr´ario.

Utilizando o m´etodo das potˆencias apresentado anterior-mente, utilizou-se como Z1 a matriz M e Z2 como a ma-triz L, uma vez que o objetivo ´e somente a identifica¸c˜ao de usu´arios influentes. Para o parˆametro k, utilizou-se 10 it-era¸c˜oes onde verificou-se que os resultados mantinham-se, alterando somente o valor obtido pela m´etrica para valores mais precisos. Para o parˆametro de amortiza¸c˜ao d, utilizou-se o mesmo parˆametro dos autores do artigo (0.85).

Para a base de dados utilizada, foi necess´aria utilizar ar-tif´ıcios de implementa¸c˜ao para contornar o problema de falta de mem´oria. Para a matriz M, foi feita sua representa¸c˜ao atrav´es de um vetor, uma vez que o valor para cada linha se mant´em, e alterou-se os m´etodos para que esse vetor fosse tratado como uma matriz. Para a matriz L, uma vez que est´a ´e esparsa, utilizou-se uma representa¸c˜ao por dicion´arios, onde somente armazena-se as tuplas onde o valor ´e diferente de 0.

3.3

Principal Component Centrality

Para a implementa¸c˜ao da m´etrica de centralidade PCC, o m´etodo que foi utilizado para extra¸c˜ao de autovalores e autovetores de uma matriz foi o SVD (Singular Value De-composition), presente na biblioteca Numpy. Esse m´etodo consiste em fatorar uma matriz qualquer em trˆes matrizes

M = U ΣV∗

onde U ´e uma matriz unit´aria m × m real or complexa, Σ ´e uma matriz retangular diagonal m × n com n´umeros reais n˜ao-negativos na diagonal, e V* (a conjugada transposta de V) ´e uma matriz unit´aria n × n real ou complexa. Ao aplicar o SVD na matriz de adjacˆencia M do grafo G, as matrizes U e Σ cont´em os valores dos autovetores e dos autovalores, respectivamente. Esses valores foram calculados para cada valor de dimens˜ao d at´e que o phase angle se estabilizasse a

partir de uma determinada dimens˜ao n.

Para que a implementa¸c˜ao feita fosse validada, a imple-menta¸c˜ao foi executada para a base de dados do Orkut, uma das bases de dados utilizada na extra¸c˜ao de usu´arios influ-entes pelos autores que propuseram a m´etrica. Ao avaliar os resultados, chegou-se a um resultado semelhante, no qual o usu´ario mais influente detectado foi o usu´ario 692, e em seguida usu´arios com ids pr´oximos a 43000, o que validou a utiliza¸c˜ao do mesmo na utiliza¸c˜ao em outras bases de dados.

Figure 3: Compara¸c˜ao entre os resultados originais e os obtidos pela nossa implementa¸c˜ao

4.

RESULTADOS

Figure 4: Valores do PCC para uma base

rela-cionada ao jogo Argentina x Ir˜a

Para identifica¸c˜ao de usu´arios influentes, utilizaremos uma base de tweets coletada no dia do jogo entre Argentina e Ir˜a, ocorrido durante o per´ıodo de Copa do Mundo. Al´em das m´etricas apresentadas, ser˜ao utilizadas tamb´em outras m´etricas relacionadas a grafos, como o grau de entrada, o PageRank e o closenness. Na figura 4 ´e mostrado grafi-camente como est´a distribu´ıda as influˆencias dos usu´arios nessa rede.

Outra forma a ser utilizada ´e a correla¸c˜ao entre as m´ etri-cas, ou seja, de que maneira cada m´etrica est´a relacionada com cada uma das outras. Isso ser´a feito atrav´es do coefi-ciente de correla¸c˜ao de Pearson, representado por ρ. Este coeficiente assume valores dentro do intervalo [−1, 1], sendo que quanto mais o coeficiente estiver pr´oximo de 1, mais as vari´aveis est˜ao correlacionadas de forma positiva, ou seja, s˜ao diretamente proporcionais, e quanto mais pr´oxima de -1 for o coeficiente, isso significa que existe uma correla¸c˜ao negativa, isto ´e, as vari´aveis (ou as m´etricas avaliadas) s˜ao inversamente proporcionais. Quanto mais pr´oximo de 0 for o coeficiente, menos correlacionadas est˜ao as vari´aveis, tanto positivamente como negativamente. Esse coeficiente ´e cal-culado atrav´es da seguinte f´ormula:

ρ =

Pn

i=1(xi− x)(yi− y)

pPn

(6)

onde x1, x2, ..., xn e y1, y2, ..., yns˜ao as medidas de

centrali-dade para cada usu´ario e as m´edias aritm´eticas de ambas as m´etricas s˜ao dadas por

x = 1 n· n X i=1 xi e y = 1 n· n X i=1 yi

Aplicando a f´ormula de correla¸c˜ao nas m´etricas geradas para a base de dados do Big Brother Brasil, identificou-se a divis˜ao de dois grupos de m´etricas. O primeiro, onde est˜ao contidas as m´etricas de grau de entrada e PageRank, s˜ao baseadas basicamente no grau da rede. O segundo grupo, que cont´em as m´etricas de Betweenness, PCC e o algoritmo da UFMG s˜ao baseadas em centralidade de grafos. Observa-se na tabela 1 de correla¸c˜ao que as m´etricas de um grupo s˜ao altamente correlacionadas entre si e pouco relacionadas com o outro grupo.

Table 1: Tabela de Correla¸c˜ao - Base do BBB

Grau PageR. Betw. PCC UFMG

Grau 1.0 0.81 0.32 -0.01 0.25

PageR. 0.81 1.0 0.18 -0.05 0.10

Betw. 0.32 0.18 1.0 0.56 0.65

PCC -0.01 -0.05 0.56 1.0 0.69

UFMG 0.25 0.10 0.65 0.69 1.0

Como pode se observar, a tabela ´e representada por uma matriz sim´etrica, e sua diagonal principal tem sempre o valor 1.0, pois o coeficiente de correla¸c˜ao entre um conjunto de valores e ele mesmo ´e sempre 1.0. Calculando-se a corre-la¸c˜ao para a base do jogo entre Argentina e Ir˜a da copa do mundo, verificou-se que as mesmas observa¸c˜oes feitas acima se mantiveram, conforme pode-se observar na tabela 2.

Table 2: Tabela de Correla¸c˜ao - Argentina x Ir˜a

Grau PageR. Betw. PCC UFMG

Grau 1.0 0.73 -0.18 -0.14 -0.11

PageR. 0.73 1.0 0.05 0.03 0.007

Betw. -0.18 0.05 1.0 0.51 0.56

PCC -0.14 0.03 0.51 1.0 0.60

UFMG -0.11 0.007 0.56 0.60 1.0

A fim de fazer ainda uma an´alise mais semˆantica, fez-se uma verifica¸c˜ao do conte´udo dos usu´arios identificados como mais influentes na base do Big Brother Brasil. Para cada m´etrica, ´e exibido abaixo o usu´ario identificado como mais influente e a opini˜ao disseminada por ele:

• Grau de Entrada:

@Tropa Clanessa: “#FORAAMANDA VOTEM VOTEM http://t.co/O71znFWeWX“.

• Betweenness e UFMG:

@EitaBBB: “@ka up Mutirao no @Portal Clanessa ate o encerramento dos votos, vem participa #ForaA-manda #FicaVanessa http://t.co/tf7Mll9x6v“.

• PageRank:

@HugoGloss: “Obaaaaaa! Amandaaaaa foraaaaa!!! Vai fazer propaganda da Koleston, querida #BBB14”. .

• PCC:

@VAZA03PANACAS: “#FORAAMANAJAAAAAAAA #VAZAAAAAAAAAAMANAJAAAAAAAAA #foraa-manda #BBB14”.

Conforme pode se verificar, todos os usu´arios identificados como mais influentes influenciavam a sa´ıda da Amanda no pared˜ao. Tal opini˜ao mostrou-se coerente com o resultado do pared˜ao: a candidata Amanda foi eliminada.

5.

CONCLUSÃO

Por fim, ap´os a aplica¸c˜ao das m´etricas e an´alise dos re-sultados, identificou-se algumas particularidades sobre cada uma dessas m´etricas:

• Grau de Entrada: M´etrica simples que geralmente identifica pessoas famosas ou spammers.

• Betweenness: Usu´arios que s˜ao o centro do fluxo de informa¸c˜ao. Geralmente f˜a-clubes ou repassadores de conte´udo.

• PageRank: Altamente correlacionado com o grau de entrada, e portanto, tamb´em identifica usu´arios desses grupos.

• Leitores Efetivos: Identifica agˆencia de not´ıcias e jornais, que tem acesso mais r´apido `as informa¸c˜oes e as divulgam primeiro.

• PCC: Voltado para identifica¸c˜ao de comunidades de usu´arios influentes TwitterRank: Usu´arios mais influ-entes de acordo com assunto de interesse.

• UFMG: Identifica usu´arios comuns, cujo conte´udo ´e muito repercutido.

Essas particularidades fazem cada m´etrica mais apropri-ada em aplica¸c˜oes diferentes. Uma vez que o conceito de in-fluˆencia ´e subjetivo, deve-se avaliar os aspectos relevantes da aplica¸c˜ao a fim de tomar-se uma decis˜ao acerca da m´etrica a ser utilizada.

6.

REFERÊNCIAS

[1] J. Weng, E. Lim, J. Jiang and Q. He. TwitterRank: finding topic-sensitive influential twitterers. In Proceedings of the third ACM international conference on Web search and data mining, pages 261-270, 2010. Everyone’s an influencer: quantifying influence on twitter

[2] H. Valiati, A. Silva, S. Guimar˜aes and W. Jr.

Detec¸c˜ao de Conte´udo Relevante e Usu´arios Influentes no Twitter. In (http://homepages.dcc.ufmg.br/ ar-lei/pubs/brasnam12.pdf), Departamento de Ciˆencia da Computa¸c˜ao, UFMG, Belo Horizonte.

[3] M. Ilyas and H. Radha. Identifying Influential Nodes in Online Social Networks Using Principal Component Centrality. In Proceedings of IEEE International Conference on Communications, pages 1-5, 2011.

(7)

[4] C. Lee, H. Kwak, H. Park and S. Moon. Finding Influentials Based on the Temporal Order of Information Adoption in Twitter. In Proceedings of the 19th International Conference on World Wide Web, pages 1137-1138, 2010.

Referências

Documentos relacionados

Objetivos: Avaliar a prevalência de SE em uma grande população de LESJ, assim como sua possível associação com dados demográficos, manifestações clínicas,

Tabela 2 – Atividades desenvolvidas na área de medicina veterinária preventiva durante o Estágio Curricular Supervisionado em Medicina Veterinária na empresa

Finally, the need for further integration between the CAPS-ad and the external environment is highlighted, especially with other mental health services, so as to optimize user care

No resultado referente ao mês de abril, já descontados os efeitos sazonais, o índice chegou ao nível de 108,6 pontos, o que representa um avanço de 0,7 pontos na passagem de

As referências teóricas, as atividades problematizadoras realizadas e as informações obtidas durante as etapas da pesquisa evidenciam diversos obstáculos para o ensino e a

Embora os dois novos módulos sejam do mesmo fabricante, modelo e lote de fabricação, para validar a similaridade entre eles, em 9 dez. Os valores obtidos podem ser

Parágrafo 1º – Poderão participar neste campeonato atletas nascidos até 1995 na categoria Livre, na categoria Veterano.. atletas nascidos até o ano de 1974 e na categoria

Nesta direção, os objetivos específicos foram os seguintes: a Identificar o perfil socioeducacional dos jovens participantes da pesquisa para conhecer o contexto dos