• Nenhum resultado encontrado

Métricas de redes complexas

Redes complexas

2.4 Métricas de redes complexas

A caracterização da topologia de redes complexas é geralmente feita a partir de medidas estruturais. Existem mais de uma centena de medidas de rede (10). Nesta tese, utilizamos algumas das mais comuns, descritas a seguir.

2.4.1 Grau e strength

O grau (degree) é uma das mais simples medidas de centralidade, já que vértices importantes (ou centrais) são aqueles com alto grau. O grau de um dado nó vi corresponde

ao número de arestas a ele associado. Em termos da matriz de adjacência A, o grau do vértice i é ki = M X j=1 aij = M X i=1 aij. (2.3)

Uma quantidade importante relacionada à medida de grau é o expoente da lei de potência γk da distribuição livre de escala. Se kmin for o menor grau para o qual a

lei de potência é obedecida, então γk e o respectivo erro ǫ(γk) podem ser calculados

analiticamente (2): γk = 1 + M  ln M Y i=1 ki kmin− 12   −1 , (2.4) ǫ(γk) = √ M  ln M Y i=1 ki kmin− 12   −1 = γk− 1 √ M . (2.5)

Note que neste caso os pesos das arestas não são considerados. Quando a matriz W é usada na equação 2.3, a medida de grau é denominada como strength, que é dada por

si = M X j=1 wij = M X i=1 wij. (2.6)

Exemplos de aplicações desta medida ocorrem em redes sociais (para verificar o grau de influência de cada indivíduo) e em redes de citações (para verificar o número de citações recebidos por um artigo científico).

2.4. Métricas de redes complexas 45

2.4.2 Caminhos mínimos e diâmetro

A medida de caminhos mínimos está relacionada com a medida de centralidade (close-

ness centrality (10)). Seja dist(i, j) o comprimento do menor caminho ligando dois vértices vi e vj. O comprimento médio dos caminhos mínimos do vértice vi, denotado como Li, é

calculado como Li = 1 M − 1 M X j=1 dist(i, j). (2.7)

O fator M − 1 é usado no denominador, uma vez que a influência do próprio vértice nos caminhos mínimos é desconsiderada (dist(i, i) = 0). Além da média obtida na equação 2.7, outra medida importante referente às distâncias geodésicas é o diâmetro d, definido como

d= max dist(i, j).

A interpretação desta medida em nível textual pode ser realizada comparando-se as palavras com altos e baixos valores de caminhos mínimos. A Tabela 2.2 compara a média dos caminhos mínimos para palavras de mesma frequência no livro “The adventures of

Sally”. As palavras com menores valores de L incluem os personagens “Sally” (L = 2, 35

e N = 347) e “Fillmore” (L = 2, 45 e N = 349), além das palavras de alta frequência, tais como “say” (L = 2, 45 e N = 349), “good” (L = 2, 46, N = 107) e “man” (L = 2, 50,

N = 193). As palavras assumindo os maiores valores de L foram: “white-clad” (L = 6, 33

e N = 1), “affability” (L = 6, 31 e N = 1), “whirl” (L = 5, 89 e N = 1), “jazz” (L = 5, 87 e N = 1) e “war-aims” (L = 5, 84 e N = 1). Interessantemente, todas estas cinco palavras apareceram apenas uma vez no texto, indicando que uma das razões pela qual uma palavra assume um alto valor de L é a baixa frequência N. No entanto, L não é uma consequência apenas da frequência N das palavras, uma vez que palavras pouco frequentes também podem assumir baixos valores de L. De acordo com os resultados da Tabela 2.2, a frequência não possui uma alta influência em L, já que a correlação Corr(L,N) = −0, 36.

Tabela 2.2– Comparação do comprimento médio dos caminhos mínimos L para palavras com a mesma frequência N no livro “The adventures of Sally”. Para um dado valor de N, L pode assumir uma ampla gama de valores como consequência da dependência de L na conectividade dos vizinhos. Palavra Ni Li Palavra Ni Li red 5 3,71 earth 5 2,99 shudder 4 3,97 lucky 4 3,00 Maxwell 3 5,55 funny 3 3,10 dark 2 5,15 kiss 2 3,08 affability 1 6,34 repose 1 3,11

2.4.3 Betweenness

Outro conceito de centralidade, diferente do grau, é denominado betweenness (B). Esta quantidade associa altos valores de centralidade para vértices bastante acessados por caminhos mínimos. Vértices com altos valores de betweenness possuem considerável influência na rede devido ao controle da distribuição de informação. Em sistemas de informação, vértices com altos valores de betweenness são fundamentais para manter a estrutura da rede, pois sua remoção causa grande impacto na eficiência de distribuição de informação (10). Para calcular o betweenness quando há mais de um caminho mínimo entre dois vértices, associa-se um peso inversamente proporcional ao número de caminhos mínimos entre eles. Deste modo, se existem nL caminhos mínimos entre um par de vértices,

então cada um dos caminhos é ponderado com um peso igual a n−1

L . O betweenness é

então calculado como a soma dos pesos associados aos caminhos mínimos. Nesta tese, a medida de betweeness é definida de maneira normalizada de modo a eliminar correlações com outras medidas (p.e. o grau k). Se ηsit é o número de caminhos geodésicos de vs a vt

que passam por vi, e ηst é o número de caminhos mínimos que conectam vs a vt, então o betweenness é dado por:

Bi = 1 M2 M X s=1 M X t=1 ηsit ηst . (2.8)

Com esta normalização o valor de B fica limitado ao intervalo [0, 1].

No contexto de análise textual, palavras de alta frequência tendem a possuir altos valores de B. No entanto, algumas palavras podem desempenhar um papel de ponto de articulação ligando conceitos relacionados a comunidades distintas. Para ilustrar este conceito, a Tabela 2.3 mostra que as palavras com valores similares de N podem assumir diferentes valores de B. Uma comparação entre as colunas da esquerda e da direita sugere que as palavras com altos valores de B conectam conceitos de comunidades semânticas distintas por causa da sua alta probabilidade em aparecer em vários contextos. Portanto, de modo análogo ao coeficiente de aglomeração C, o betweenness parece quantificar a variedade de contextos em que uma palavra pode aparecer. No entanto, note que B utiliza os padrões de conectividade global, enquanto que C utiliza apenas informação local.

2.4.4 Coeficiente de aglomeração

Vértices de redes também são caracterizados por atributos da sua vizinhança. O coeficiente de aglomeração (clustering coefficient) quantifica como o subgrafo formado pela vizinhança de um vértice se aproxima de um clique (i.e., um subgrafo totalmente conectado). Vértices com máximo valor de aglomeração satisfazem a propriedade de

2.4. Métricas de redes complexas 47

Tabela 2.3– Comparando o betweenness B de palavras com frequência similares no livro “The adventures of Sally”. Para um dado valor de frequência N, o betweenness pode variar bastante. Mesmo palavras de baixa frequência podem assumir altos valores de betweenness caso elas apareçam em vários contextos. Palavra N B Palavra N B say 349 745.634 Sally 347 1.192.881 know 143 243.357 Fillmore 138 393.955 tell 65 53.904 Gerald 62 108.528 allow 20 15.816 Roville 21 32.449 heaven 10 1.147 second 10 22.004 rugger 5 855 worthy 5 10.503 fish 4 174 spectator 4 14.746 paper-knife 3 233 group 3 8.320 worship 2 44 sell 2 8.346 thaw 1 11 price 1 8.295

transitividade de vizinhos: se dois vértices vj e vk são vizinhos de vi, então vj e vk também

são vizinhos entre si. Matematicamente, o coeficiente de aglomeração Ci do vértice vi é

definido como a razão entre a quantidade Ψi de ligações entre vizinhos de vi, dado por

Ψi = M X j=1 M X l=1 aijajlali (2.9)

e o máximo número possível de links entre eles, quando todos estão ligados entre si, formando um clique de ki(ki− 1) conexões. Por definição, quando o vértice possui menos

de dois vizinhos, seu coeficiente de aglomeração é igual a zero. Em resumo:

Ci =    2Ψi/(k2i − ki) para ki >1, 0 para ki ≤ 1. (2.10)

Em várias redes, existe clara relação entre o coeficiente de aglomeração C e o grau k. As formas mais comuns de correlações ocorrem com C ∼ k−3/4 (2).

A fim de verificar a relação do coeficiente de aglomeração com a função das palavras em textos, isolamos as palavras (e seus vértices vizinhos) com os maiores e menores valores de coeficiente de aglomeração no livro “The Adventures of Sally”, de P. G. Wodehouse. Estas palavras estão mostradas na Tabela 2.4. A partir da definição, espera-se que as palavras assumindo os maiores valores de C possuam vários vizinhos conectados entre si. Este é o caso por exemplo das palavras “sand” e “excitement”. Por outro lado, palavras cujos vizinhos não estão relacionados entre si apresentam baixos valores de C (p.e., não existe ligação entre os vizinhos de “full” ou entre os vizinhos de “high”. Qualitativamente, o coeficiente de aglomeração verifica como as palavras estão conectadas a contextos específicos. De fato, as palavras “sand” e “excitement” tendem a aparecer em contextos mais restritos, enquanto que “full” tende a ocorrer em vários contextos. Portanto, a

medida de aglomeração parece ser útil para quantificar a especificidade de contexto das palavras.

Tabela 2.4– Palavras do livro “The adventures of Sally” que apresentam os maiores e menores valores

de coeficiente de aglomeração (o coeficiente de aglomeração médio hCi = 0, 085 no livro), para palavras com Ni= 5. As cinco palavras com Ci= 0 foram selecionadas aleatoriamente

dentre as 18 palavras com Ni= 5 e Ci= 0.

Palavra Vizinhos C

shortly twelve, see, say, Sally, newsnever, heaven, find, enter e Carmylle 0,27

excitement thing, suppressed, Sally, mince, last,can, come, bristle, brief e apart 0.25

sand watch, want, sit, shuffling, seat,here, golden, first, dard e Roville 0,18

nose voice, tip, sort, smut, smooth,Sally, oh, glance, tell e come 0,18

country time, still, somewhere, say, placemay, happen, great e glorious 0,18

startle shy, seem, mill, little, gratify, gather,first, everyday, displeased e conderably 0,00

high recess, mouth, motive, lapse, figureeven, disposal, critical, collar e check 0,00

gold voice, spin, pencil, loan, knobinformation, high, heavy, frame e buy 0,00

gift tongue, take, sort, potential e meanfew, easily, compensating, blessing e acquire 0,00

full tuesday, peal, later, home e happygratitude, gleaming, glance, color e battle 0,00

2.4.5 Assortatividade

Em algumas redes vértices possuem uma classificação natural. Por exemplo, em redes sociais pessoas são classificadas por idade, sexo ou raça. Na análise dos padrões de conectividade das redes muitas vezes há interesse em saber se as ligações são estabele- cidas preferencialmente entre vértices de uma mesma classe ou entre vértices de classes distintas. Este tipo de análise é feita com a medida de assortatividade. Um dos tipos de assortatividade mais estudados em redes complexas quantifica a correlação dos graus de vértices conectados. Esta correlação de grau pode ser expressa em termos da probabilidade condicional de que um vértice com grau k esteja conectado com um vértice de grau k:

P(k|k) = hkiP (k, k

)