Identificação de Usuários Influentes no Twitter
Ronan Lopes
Universidade Federal de São João del-Rei Dep. de Ciência da Computação
São João del-Rei, Brasil
lopesronanufsj@gmail.com
Ramon Vieira
Universidade Federal de São João del-Rei Dep. de Ciência da Computação
São João del-Rei, Brasil
r_vieira5@hotmail.com
1.
INTRODUÇÃO
Com a intensifica¸c˜ao do uso de redes sociais por usu´arios da web, tem-se gerado uma grande quantidade de dados provenientes das intera¸c˜oes desses usu´arios com a rede. Jun-tamente com o volume de dados, cresce tamb´em o inter-esse na descoberta de conhecimento, sobretudo a respeito de opini˜oes e tendˆencias disseminadas na rede. Esse inter-esse impulsiona o desenvolvimento de t´ecnicas de minera¸c˜ao de dados, que permitem extrair informa¸c˜oes impl´ıcitas em bases de dados.
Entender como os usu´arios se comportam em uma rede so-cial auxilia em tomadas de decis˜oes, como por exemplo, em estrat´egias de marketing. Exemplificando, ´e provavelmente mais eficaz iniciar uma campanha eleitoral a partir de um usu´ario do qual partem conte´udos amplamente propagados na rede. Outro exemplo de aplica¸c˜ao ´e em sistemas de re-comenda¸c˜ao, onde a identifica¸c˜ao de grupos de usu´arios na rede permite a ado¸c˜ao de um m´etodo mais efetivo de re-comenda¸c˜ao de conte´udo.
A fim de verificar o comportamento de uma rede de usu´arios no Twitter1, o trabalho apresentado neste artigo tem por ob-jetivo determinar os usu´arios mais influentes da rede. Para tal, utilizou-se uma base de dados do Reality Show Big Brother Brasil 20142. O objetivo ´e aplicar diferentes m´ etri-cas dispon´ıveis na literatura, de forma a obter uma medida de influˆencia h´ıbrida, que levem em considera¸c˜ao diferentes aspectos da rede. Busca-se tamb´em verificar se a opini˜ao disseminada pelos usu´arios assinalados como mais influentes refletem no resultado do pared˜ao (evento semanal do Reality Show onde o p´ublico vota pela sa´ıda de um participante da casa).
2.
TRABALHOS RELACIONADOS
Em busca de m´etricas de influˆencia a serem aplicadas e apoio `a constru¸c˜ao da metodologia a ser utilizada, fez-se o es-tudo de alguns artigos cient´ıficos que propunham diferentes
1http://www.twitter.com 2
http://www.bbb.globo.com/
.
m´etodos para identifica¸c˜ao de usu´arios influentes. Foram se-lecionados aqueles que abordaram cen´arios mais pr´oximos e apresentaram t´ecnicas mais aplic´aveis ao contexto. A seguir, faz-se uma breve descri¸c˜ao desses trabalhos, juntamente com as principais contribui¸c˜oes de cada um deles.
O primeiro trabalho foi desenvolvido por Weng et al. [1] e prop˜oe uma m´etrica de influˆencia que extende o algoritmo de PageRank3. A analogia feita ao algoritmo de PageR-ank ´e que, assim como uma p´agina da web, um usu´ario do Twitter tem alta influˆencia se a soma de influˆencia dos seus seguidores ´e alta; e sua influˆencia em cada seguidor, por sua vez, ´e determinada pela quantidade de conte´udo que o seguidor recebe dele. Al´em disso, o algoritmo acrescenta o peso de uma medida de similaridade entre dois usu´arios de acordo com os t´opicos em que est˜ao interessados. A in-fluˆencia dos usu´arios ´e calculada para cada t´opico da base, mas pode-se obter uma medida geral de influˆencia, atrav´es do montante de influˆencia do usu´ario. A efic´acia do Twit-terRank foi demonstrada atrav´es de sua correla¸c˜ao com os ranks gerados por outros algoritmos.
O trabalho desenvolvido por Valiati et al.[2] tamb´em trata-se de uma extens˜ao do algoritmo PageRank. Entretanto, diferencia-se do primeiro trabalho em duas quest˜oes prin-cipais: n˜ao ´e topic-sensitive e n˜ao leva em considera¸c˜ao a rede de seguidores por quest˜oes de eficiˆencia, uma vez que as requisi¸c˜oes `a API do Twitter s˜ao estritamente limitadas. O trabalho modela a rede como um grafo bipartido, que associa usu´arios a conte´udos propagados por eles, e con-te´udo ao usu´ario que o originou. Dessa forma, utiliza-se uma defini¸c˜ao circular de influˆencia e relevˆancia, onde um usu´ario ´
e influente se dissemina conte´udo relevante, e um conte´udo ´
e relevante se ´e disseminado por usu´arios influentes. In-tuitivamente, a influˆencia de um usu´ario pode ser definida pela probabilidade de um randomsurfer (usu´ario que navega aleatoriamente pelo grafo bipartido) visitar esse usu´ario. O algoritmo demonstrou sua efic´acia no contexto de recomen-da¸c˜ao de conte´udo, onde se o modelo ´e capaz de recomendar conte´udo para os usu´arios de forma acurada, pode-se inferir que a identifica¸c˜ao de relevˆancia do conte´udo foi bem suce-dida.
Muhammad U. Ilyas e Hayder Radha [3] prop˜oem uma medida de centralidade em redes chamada PCC (Principal Component Centrality), que consiste em considerar a ma-triz de adjacˆencia do grafo que representa a rede como uma matriz de covariˆancia e partindo dela encontrar os P tores mais significativos da matriz. A partir desses autove-tores forma-se um autoespa¸co e o valor do PCC de cada
3
n´o ´e dado pela norma da distˆancia euclidiana a partir da origem do autoespa¸co encontrado. Essa medida de centrali-dade foi comparada com outra medida bastante utilizada, o EVC (eigenvector centrality), obtendo resultados melhores em rela¸c˜ao ao n´umero de comunidades (centros) encontra-dos. O EVC tem a limita¸c˜ao de se concentrar apenas na maior comunidade, n˜ao revelando outras comunidades que podem ter importˆancia significativa. Isso n˜ao ocorre com o PCC, conforme comprovado atrav´es de testes em uma rede de amigos do Orkut e de uma rede de jogos Fighters Club no Facebook.
Changhyun Lee, Haewoon Kwak, Hosung Park, and Sue Moon[4] prop˜oem um m´etodo diferente para medir usu´arios influentes no Twitter, usando o conceito de leitores efetivos. Um leitor efetivo de um usu´ario u ´e um seguidor do usu´ario u que foi exposto pela primeira vez a um determinado trend-ing topic atrav´es de um tweet do usu´ario u. A influˆencia de um usu´ario u ´e medida como o total de leitores efetivos para todos os tweets que o usu´ario u postou. Usando essa medida de influˆencia, chegou-se ao resultado de que a maioria dos usu´arios influentes s˜ao agˆencias de not´ıcias, que tem uma influˆencia significativa na divulga¸c˜ao de informa¸c˜oes. Com-para¸c˜oes quantitativas com o m´etodo que usa a contagem de n´umero de seguidores mostraram que apenas 34% de usu´arios influentes coincidiram, considerando os 1000 mais influentes. O n´umero de influentes comuns, em compara¸c˜ao com o PageRank, foi ainda menor, o que mostra a singular-idade desse m´etodo frente aos existentes.
2.1
TwitterRank
Atrav´es de an´alises de conjunto de dados de usu´arios do Twitter, foi constatado que 72.4% dos usu´arios do Twitter segue mais de 80% de seus seguidores, e 80.5% dos usu´arios tem 80% dos usu´arios que est˜ao seguindo seguindo-os de volta. De acordo com estudos recentes, essa presen¸ca de re-ciprocidade pode ser explicado pelo fenˆomeno de homofilia. Com base nessa constata¸c˜ao, foi proposta uma forma de medir a influˆencia de usu´arios do Twitter com base nessa descoberta.
Figure 1: Base de Dados: Usu´arios de Singapura 72.4% dos usu´arios seguem mais de 80% dos seus seguidores e 80.5% dos usu´arios tem seus amigos seguindo-os de volta.
Para responder a quest˜ao sobre a presen¸ca de homofilia na base:
- Usu´arios que se seguem s˜ao mais similares do que aque-les que n˜ao?
Identificar o interesse dos usu´arios (hashtags pouco pre-sentes na base)
Para identificar os interesses, aplica-se uma t´ecnica de aprendizado n˜ao-supervisionado: Latent Dirichlet Alloca-tion (LDA)
Cada documento D (tweet) est´a associado com uma dis-tribui¸c˜ao de t´opicos T, e cada t´opico T est´a associado a uma distribui¸c˜ao de palavras
Sa´ıda: Matriz DxT, onde D ´e o n´umero de usu´arios e T o n´umero de t´opicos.
Testando a hip´otese:
- Calcular a m´edia da distˆancia de t´opicos de cada usu´ario para seus amigos
- Mesmo c´alculo para o mesmo n´umero de usu´arios, em que n˜ao haja rela¸c˜ao entre os usu´arios
dist(i, j) =p2 ∗ DJ S(i, j)
Djs: Jensen-Shannon Divergence
Matriz com probabilidade de transi¸c˜ao de um usu´ario ui
para uj, para um dado t´opico t:
Pt(i, j) = |τj| P a:sif ollowssa|τa| ∗ simt(i, j) onde: simt(i, j) = 1 − |DTit0 − DT 0 jt| Exemplo:
Vetor de influˆencia t´opico-espec´ıfica para um t´opico t: −−→
T Rt= γPt×
−−→
T Rt+ (1 − γ)Et
entre 0 e 1 que controla a probabilidade dessa transi¸c˜ao e TR ´e inicializado como um vetor uniforme
Resultados:
2.2
Usuários Influentes / Conteúdo Relevante
Usu´arios Influentes / Conte´udo Relevante Modelado como um grafo bi-partido:
O grafo bipartido G(U, C, F, E) pode ser representado por duas matrizes, M e L. A matriz M = (mij) ´e |U |x|C| e
mij= 1/qi
Usu´arios Influentes / Conte´udo Relevante Al´em disso, L = (lij) ´e |C|x|U | e lij= 1 se o usu´ario uj criou o conte´udo
ciou lij = 0, caso contr´ario.
C´alculo do vetor de Influˆencia/relevˆancia: pk= pk−1M L, onde p0 = vetor uniforme
rk= rk−1LM , onde p0 = vetor uniforme
Esse modelo apresenta dois problemas importantes: A poss´ıvel presen¸ca de usu´arios dangling A poss´ıvel existˆ en-cia de buckets
Solu¸c˜ao: Adi¸c˜ao de mecanismo de amortecimento d. Novo modelo:
pk= dpk−1M L + (1 − d)u rk= drk−1LM + (1 − d)u
- Utilizou-se d=0.85
Ap´os reformular as equa¸c˜oes acima algebricamente, a fim de obter-se a forma n˜ao recursiva:
p = (1 − d)u(I − dM L)−1 r = (1 − d)u(I − dLM )−1
Problema: computa¸c˜ao custosa.
Solu¸c˜ao: aplicar o m´etodo das potˆencias para solu¸c˜ao aproximada, mas eficiente.
Resultados:
2.3
Principal Component Centrality
Para calcular a influˆencia dos usu´arios, essa m´etrica utiliza a modelagem da rede de usu´arios do Twitter como um grafo, e a partir do c´alculo de centralidade nesse grafo pode-se estimar o quanto um determinado usu´ario ´e influente nessa determinada rede.
Essa m´etrica ´e baseada em uma outra m´etrica bastante difundida no estudo de redes sociais, o EVC (centralidade de autovetor). Para calcular a centralidade de cada n´o, o EVC d´a uma pontua¸c˜ao a esse n´o do grafo em rela¸c˜ao aos seus vizinhos. Isso ´e feito relacionando tanto o n´umero de liga¸c˜oes entre os n´os, a robustez entre essas liga¸c˜oes e por fim `as centralidades dos n´os vizinhos. Para poder encon-trar os valores exatos das centralidades, sendo que n˜ao pode ser feito calculando a centralidade de cada n´o por vez, ´e utilizando o autovetor principal da matriz de adjacˆencia do grafo. Essa caracter´ıstica permite que o EVC de um deter-minado n´o, assim como o closeness e o betweenness, forne¸ca uma perspectiva de toda a rede. Cada n´o receber´a um valor de centralidade que indica o ”grau” de conex˜ao ao n´o mais central, ou mais dominante. Por´em o EVC tem uma car-acter´ıstica que pode n˜ao ser muito interessante em determi-nadas bases de dados: ´e uma m´etrica que foca somente na maior comunidade de n´os centrais, ignorando que existam outras vizinhan¸cas de n´os com centralidades menores por´em que podem ser igualmente importantes.
Visando obter uma m´etrica que consiga detectar m´ultiplas comunidades em um grafo, foi desenvolvida uma m´etrica nova chamada PCC (Principal Component Centrality). Essa m´etrica utiliza uma t´ecnica de redu¸c˜ao de dimensionalidade chamada PCA na matriz de adjacˆencia do grafo, transfor-mando o espa¸co vetorial formado pela matriz de adjacˆencia do grafo, em que cada dimens˜ao representa um n´o e suas adjacˆencias, em outro espa¸co vetorial reduzido, no qual se preserve o m´aximo de informa¸c˜ao poss´ıvel. Ap´os fazer essa redu¸c˜ao, calcula-se a centralidade de cada n´o como a distˆ an-cia euclidiana entre a origem do espa¸co vetorial e a proje¸c˜ao do n´o nesse espa¸co reduzido.
Para a escolha de uma dimens˜ao apropriada para a re-du¸c˜ao, ´e feito um c´alculo de phase angle entre o autovetor do EVC e o vetor de distˆancias calculado pelo PCC para uma dimens˜ao d. A dimens˜ao d ´e escolhida se a varia¸c˜ao entre o phase angle para uma dimens˜ao d e uma dimens˜ao d − 1 for pequena, indicando que a partir dali os valores do PCC n˜ao sofrer˜ao grandes altera¸c˜oes.
2.4
Leitores Efetivos
A dinamicidade do Twitter, onde a qualquer momento um usu´ario ou um grupo de usu´arios pode causar uma mudan¸ca repentina da opini˜ao geral sobre um determinado assunto, faz com que a temporalidade dos posts tenha grande relevan-cia na identifica¸c˜ao de usu´arios influentes. Por´em, muitas das abordagens atualmente utilizadas para essa an´alise, como o n´umero de seguidores e o PageRank, n˜ao utilizam
infor-Figure 2: Exemplo de c´alculo de centralidade usando o PCC
ma¸c˜oes temporais para esse fim. De modo a usar essas in-forma¸c˜oes temporais, foi desenvolvida uma m´etrica chamada Leitores Efetivos.
Ao analisar a maneira como se d´a a difus˜ao de informa¸c˜ao no Twitter, constatou-se que o n´umero de usu´arios do Twit-ter que recebem tweets sobre um deTwit-terminado trending topic cresce de forma acelerada no in´ıcio do per´ıodo de evidˆencia de um determinado trending topic. Em contrapartida, o n´umero de usu´arios que escrevem tweets sobre esse determi-nado trending topic apresenta um crescimento muito menor. Conforme o tempo vai passando, o n´umero cumulativo de usu´arios que recebe tweets se estabiliza, enquanto o n´umero de escritores continua crescendo.
Ao se fazer uma an´alise mais atenta percebe-se que o n´umero de leitores proporcionalmente ao n´umero de escritores ´
e muito maior no in´ıcio do per´ıodo de evidˆencia, decaindo conforme o tempo passa e o n´umero de escritores aumenta. Com base nessa observa¸c˜ao, pode-se dizer que um usu´ario que escreve um determinado conte´udo no in´ıcio do per´ıodo ´
e mais influente do que outro que escrever em um per´ıodo posterior, pois o primeiro atinge muito mais usu´arios do que o segundo.
Desse modo, pode-se medir a influˆencia atrav´es dos chama-dos leitores efetivos. Um leitor efetivo de um tweet t postado por um usu´ario u ´e qualquer usu´ario f, seguidor de u, que tem contato com um determinado trending topic atrav´es do tweet t.
Caso f tenha sido exposto a uma determinado trending topic atrav´es de tweets de v´arios usu´arios a quem segue, o usu´ario f ser´a o leitor efetivo do tweet do usu´ario que postou a informa¸c˜ao primeiro, de modo que cada usu´ario seja leitor efetivo de apenas 1 tweet.
A influˆencia de cada usu´ario ´e calculada como o somat´orio das influˆencias de todos os tweets postados por aquele usu´ario. A influˆencia de cada tweet ´e o n´umero de leitores efetivos que receberam aquele tweet.
3.
METODOLOGIA
A seguir ´e descrita a metodologia utilizada para a formu-la¸c˜ao do trabalho. Primeiramente foi feito um estudo de como cada m´etrica funciona, de forma a auxiliar na etapa posterior de implementa¸c˜ao. Depois dessa etapa segue o pr´e-processamento da base de dados utilizada, assim como a constru¸c˜ao do grafo posteriormente utilizada para as m´ etri-cas de Usu´arios Influentes/Conte´udo Relevante e PCC.
Ap´os essa etapa de pr´e-processamento, foi feita a imple-menta¸c˜ao das m´etricas Usu´arios Influentes/Conte´udo Rele-vante, PCC e TwitterRank, descritas a seguir. A m´etrica
Ef-fective Readers n˜ao pˆode ser implementada devido a falta de informa¸c˜oes relativas aos trending topics na base de tweets que foi utilizada para as an´alises das demais medidas de centralidade.
3.1
Modelagem do grafo
O grafo G = (V, E) foi modelado de forma que, cada el-emento de V representa um usu´ario que gera tweets ou ´e mencionado em um tweet, e o conjunto E ´e composto por arestas que indicam uma rela¸c˜ao entre um par de usu´arios, na qual um usu´ario cita o outro usu´ario atrav´es de um tweet. Para as m´etricas grau de entrada, PageRank e betweenness, esse grafo foi modelado como um grafo direcionado. J´a para o PCC, o grafo foi modelado de forma n˜ao-direcionada.
Para a m´etrica Usu´arios Influentes / Conte´udo Relevante, o modelo de grafo utilizado foi um grafo bipartido que as-socia usu´arios a conte´udos, e foi modelado atrav´es de duas matrizes M e L.
3.2
Usuários Influentes/Conteúdo Relevante
A implementa¸c˜ao foi feita usando duas matrizes: M e L. A matriz M ´e uma matriz de dimens˜oes |U|x|C|, onde |U| ´e o n´umero de usu´arios e |C| a quantidade de conte´udo. Cada linha i da matriz ´e preenchida com o valor inverso da quan-tidade de conte´udo propagado pelo usu´ario i. A matriz L, de dimens˜oes inversas (|C|x|U|) representa a cria¸c˜ao de con-te´udo por parte dos usu´arios, onde cada posi¸c˜ao (i,j) cont´em o valor 1 caso o conte´udo i tenha sido originado pelo usu´ario j, e 0 caso contr´ario.
Utilizando o m´etodo das potˆencias apresentado anterior-mente, utilizou-se como Z1 a matriz M e Z2 como a ma-triz L, uma vez que o objetivo ´e somente a identifica¸c˜ao de usu´arios influentes. Para o parˆametro k, utilizou-se 10 it-era¸c˜oes onde verificou-se que os resultados mantinham-se, alterando somente o valor obtido pela m´etrica para valores mais precisos. Para o parˆametro de amortiza¸c˜ao d, utilizou-se o mesmo parˆametro dos autores do artigo (0.85).
Para a base de dados utilizada, foi necess´aria utilizar ar-tif´ıcios de implementa¸c˜ao para contornar o problema de falta de mem´oria. Para a matriz M, foi feita sua representa¸c˜ao atrav´es de um vetor, uma vez que o valor para cada linha se mant´em, e alterou-se os m´etodos para que esse vetor fosse tratado como uma matriz. Para a matriz L, uma vez que est´a ´e esparsa, utilizou-se uma representa¸c˜ao por dicion´arios, onde somente armazena-se as tuplas onde o valor ´e diferente de 0.
3.3
Principal Component Centrality
Para a implementa¸c˜ao da m´etrica de centralidade PCC, o m´etodo que foi utilizado para extra¸c˜ao de autovalores e autovetores de uma matriz foi o SVD (Singular Value De-composition), presente na biblioteca Numpy. Esse m´etodo consiste em fatorar uma matriz qualquer em trˆes matrizes
M = U ΣV∗
onde U ´e uma matriz unit´aria m × m real or complexa, Σ ´e uma matriz retangular diagonal m × n com n´umeros reais n˜ao-negativos na diagonal, e V* (a conjugada transposta de V) ´e uma matriz unit´aria n × n real ou complexa. Ao aplicar o SVD na matriz de adjacˆencia M do grafo G, as matrizes U e Σ cont´em os valores dos autovetores e dos autovalores, respectivamente. Esses valores foram calculados para cada valor de dimens˜ao d at´e que o phase angle se estabilizasse a
partir de uma determinada dimens˜ao n.
Para que a implementa¸c˜ao feita fosse validada, a imple-menta¸c˜ao foi executada para a base de dados do Orkut, uma das bases de dados utilizada na extra¸c˜ao de usu´arios influ-entes pelos autores que propuseram a m´etrica. Ao avaliar os resultados, chegou-se a um resultado semelhante, no qual o usu´ario mais influente detectado foi o usu´ario 692, e em seguida usu´arios com ids pr´oximos a 43000, o que validou a utiliza¸c˜ao do mesmo na utiliza¸c˜ao em outras bases de dados.
Figure 3: Compara¸c˜ao entre os resultados originais e os obtidos pela nossa implementa¸c˜ao
4.
RESULTADOS
Figure 4: Valores do PCC para uma base
rela-cionada ao jogo Argentina x Ir˜a
Para identifica¸c˜ao de usu´arios influentes, utilizaremos uma base de tweets coletada no dia do jogo entre Argentina e Ir˜a, ocorrido durante o per´ıodo de Copa do Mundo. Al´em das m´etricas apresentadas, ser˜ao utilizadas tamb´em outras m´etricas relacionadas a grafos, como o grau de entrada, o PageRank e o closenness. Na figura 4 ´e mostrado grafi-camente como est´a distribu´ıda as influˆencias dos usu´arios nessa rede.
Outra forma a ser utilizada ´e a correla¸c˜ao entre as m´ etri-cas, ou seja, de que maneira cada m´etrica est´a relacionada com cada uma das outras. Isso ser´a feito atrav´es do coefi-ciente de correla¸c˜ao de Pearson, representado por ρ. Este coeficiente assume valores dentro do intervalo [−1, 1], sendo que quanto mais o coeficiente estiver pr´oximo de 1, mais as vari´aveis est˜ao correlacionadas de forma positiva, ou seja, s˜ao diretamente proporcionais, e quanto mais pr´oxima de -1 for o coeficiente, isso significa que existe uma correla¸c˜ao negativa, isto ´e, as vari´aveis (ou as m´etricas avaliadas) s˜ao inversamente proporcionais. Quanto mais pr´oximo de 0 for o coeficiente, menos correlacionadas est˜ao as vari´aveis, tanto positivamente como negativamente. Esse coeficiente ´e cal-culado atrav´es da seguinte f´ormula:
ρ =
Pn
i=1(xi− x)(yi− y)
pPn
onde x1, x2, ..., xn e y1, y2, ..., yns˜ao as medidas de
centrali-dade para cada usu´ario e as m´edias aritm´eticas de ambas as m´etricas s˜ao dadas por
x = 1 n· n X i=1 xi e y = 1 n· n X i=1 yi
Aplicando a f´ormula de correla¸c˜ao nas m´etricas geradas para a base de dados do Big Brother Brasil, identificou-se a divis˜ao de dois grupos de m´etricas. O primeiro, onde est˜ao contidas as m´etricas de grau de entrada e PageRank, s˜ao baseadas basicamente no grau da rede. O segundo grupo, que cont´em as m´etricas de Betweenness, PCC e o algoritmo da UFMG s˜ao baseadas em centralidade de grafos. Observa-se na tabela 1 de correla¸c˜ao que as m´etricas de um grupo s˜ao altamente correlacionadas entre si e pouco relacionadas com o outro grupo.
Table 1: Tabela de Correla¸c˜ao - Base do BBB
Grau PageR. Betw. PCC UFMG
Grau 1.0 0.81 0.32 -0.01 0.25
PageR. 0.81 1.0 0.18 -0.05 0.10
Betw. 0.32 0.18 1.0 0.56 0.65
PCC -0.01 -0.05 0.56 1.0 0.69
UFMG 0.25 0.10 0.65 0.69 1.0
Como pode se observar, a tabela ´e representada por uma matriz sim´etrica, e sua diagonal principal tem sempre o valor 1.0, pois o coeficiente de correla¸c˜ao entre um conjunto de valores e ele mesmo ´e sempre 1.0. Calculando-se a corre-la¸c˜ao para a base do jogo entre Argentina e Ir˜a da copa do mundo, verificou-se que as mesmas observa¸c˜oes feitas acima se mantiveram, conforme pode-se observar na tabela 2.
Table 2: Tabela de Correla¸c˜ao - Argentina x Ir˜a
Grau PageR. Betw. PCC UFMG
Grau 1.0 0.73 -0.18 -0.14 -0.11
PageR. 0.73 1.0 0.05 0.03 0.007
Betw. -0.18 0.05 1.0 0.51 0.56
PCC -0.14 0.03 0.51 1.0 0.60
UFMG -0.11 0.007 0.56 0.60 1.0
A fim de fazer ainda uma an´alise mais semˆantica, fez-se uma verifica¸c˜ao do conte´udo dos usu´arios identificados como mais influentes na base do Big Brother Brasil. Para cada m´etrica, ´e exibido abaixo o usu´ario identificado como mais influente e a opini˜ao disseminada por ele:
• Grau de Entrada:
@Tropa Clanessa: “#FORAAMANDA VOTEM VOTEM http://t.co/O71znFWeWX“.
• Betweenness e UFMG:
@EitaBBB: “@ka up Mutirao no @Portal Clanessa ate o encerramento dos votos, vem participa #ForaA-manda #FicaVanessa http://t.co/tf7Mll9x6v“.
• PageRank:
@HugoGloss: “Obaaaaaa! Amandaaaaa foraaaaa!!! Vai fazer propaganda da Koleston, querida #BBB14”. .
• PCC:
@VAZA03PANACAS: “#FORAAMANAJAAAAAAAA #VAZAAAAAAAAAAMANAJAAAAAAAAA #foraa-manda #BBB14”.
Conforme pode se verificar, todos os usu´arios identificados como mais influentes influenciavam a sa´ıda da Amanda no pared˜ao. Tal opini˜ao mostrou-se coerente com o resultado do pared˜ao: a candidata Amanda foi eliminada.
5.
CONCLUSÃO
Por fim, ap´os a aplica¸c˜ao das m´etricas e an´alise dos re-sultados, identificou-se algumas particularidades sobre cada uma dessas m´etricas:
• Grau de Entrada: M´etrica simples que geralmente identifica pessoas famosas ou spammers.
• Betweenness: Usu´arios que s˜ao o centro do fluxo de informa¸c˜ao. Geralmente f˜a-clubes ou repassadores de conte´udo.
• PageRank: Altamente correlacionado com o grau de entrada, e portanto, tamb´em identifica usu´arios desses grupos.
• Leitores Efetivos: Identifica agˆencia de not´ıcias e jornais, que tem acesso mais r´apido `as informa¸c˜oes e as divulgam primeiro.
• PCC: Voltado para identifica¸c˜ao de comunidades de usu´arios influentes TwitterRank: Usu´arios mais influ-entes de acordo com assunto de interesse.
• UFMG: Identifica usu´arios comuns, cujo conte´udo ´e muito repercutido.
Essas particularidades fazem cada m´etrica mais apropri-ada em aplica¸c˜oes diferentes. Uma vez que o conceito de in-fluˆencia ´e subjetivo, deve-se avaliar os aspectos relevantes da aplica¸c˜ao a fim de tomar-se uma decis˜ao acerca da m´etrica a ser utilizada.
6.
REFERÊNCIAS
[1] J. Weng, E. Lim, J. Jiang and Q. He. TwitterRank: finding topic-sensitive influential twitterers. In Proceedings of the third ACM international conference on Web search and data mining, pages 261-270, 2010. Everyone’s an influencer: quantifying influence on twitter
[2] H. Valiati, A. Silva, S. Guimar˜aes and W. Jr.
Detec¸c˜ao de Conte´udo Relevante e Usu´arios Influentes no Twitter. In (http://homepages.dcc.ufmg.br/ ar-lei/pubs/brasnam12.pdf), Departamento de Ciˆencia da Computa¸c˜ao, UFMG, Belo Horizonte.
[3] M. Ilyas and H. Radha. Identifying Influential Nodes in Online Social Networks Using Principal Component Centrality. In Proceedings of IEEE International Conference on Communications, pages 1-5, 2011.
[4] C. Lee, H. Kwak, H. Park and S. Moon. Finding Influentials Based on the Temporal Order of Information Adoption in Twitter. In Proceedings of the 19th International Conference on World Wide Web, pages 1137-1138, 2010.