Assortatividade e estruturas de comunidades

4.3 Propriedades e modelos de redes

4.3.4 Assortatividade e estruturas de comunidades

Algumas redes possuem vértices de diferentes tipos. Um exemplo clássico são as redes sociais. Nelas os nós representam indivíduos e as ligações representam relações sociais entre eles. Em redes cujos indivíduos são de fato heterogêneos, uma questão de interesse é saber como indivíduos de tipos distintos interagem entre si. Por exemplo, quão provável é o relacionamento de amizade entre indivíduos de classes sociais distintas. Uma medida que responde a esse questionamento é o coeficiente de assortatividade. Seja E uma matriz de cujas entradas são dadas poreij,eij o número de ligações conectando vértices do tipoi a vértices do tipo j (ou

a soma dos pesos das conexões de vértices do tipo i a vértices do tipo j, no caso de redes ponderadas). E pode ser normalizada como

E = E

1 00 1 01 1 02 1 00 1 01 1 02 1 03 k P ( k)

Figura 4.5: Distribuição de grau média de 10 redes geradas segundo o modelo deBarabási & Albert(1999) com 1000 nós em0 = 5.

onde_{kEk representa a soma de todas as entradas de E. A probabilidade de um vértice do tipo i} possuir um vizinho do tipoj é dada pela probabilidade condicional P (j|i),

P (j_{|i) =} Peˆij

kˆeik

. P

jP (j|i) = 1. Gupta et al.(1989) sugere que o coeficiente de assortatividade, i.e., a fração de

ligações entre indivíduos do mesmo tipo, é dada por ˜

Q = P

iP (i|i) − 1

q− 1 ,

ondeq é o número de tipos de vértices existentes na rede. 0 ≤ ˜Q≤ 1. Caso ˜Q = 1, significa que as interações se dão exclusivamente entre indivíduos do mesmo tipo; caso ˜Q = 0, as interações se dão aleatoriamente, independente do tipo dos vértices. No entanto, ˜Q tanto não trata matrizes assimétricas, como pesa igualmente os tipos, independente do número de nós de cada tipo, isto é, de suas expectativas.Newman(2003a) propôs um coeficiente de assortatividade alternativo,

Q = Tr e− ke

2_k

1− ke2_k ,

ondeTr e é a soma dos elementos da diagonal principal da matriz E, enquanto queke2_{k é a soma}

do quadrado de todos os elementos em E. Q retorna o valor 0 no caso de ligações aleatórias, enquanto que1 no caso de assortatividade máxima. Porém, os resultados não se alteram no caso de uma matriz assimétrica transposta e o nível de contribuição do tipo para o coeficiente é ponderado pelo número de indivíduos do tipo.

Um caso particular de análise de assortatividade se dá avaliando os nós de acordo com a sua conectividade (Newman,2002), no que é algumas vezes denominado correlação de grau. Nesse caso, os indivíduos são avaliados com relação à tendência de estarem conectados a outros

indivíduos que possuem o mesmo grau, por exemplo, nós bastante conectivos estarem conectados a nós bastante conectivos, ou nós pouco conectivos estarem conectados a nós bastante conectivos. Frequentemente observado em redes sociais, o primeiro caso é dito assortativo. Frequentemente observado em redes tecnológicas, redes de informação e redes biológicas, o segundo caso é dito dissortativo, para o qualQ retorna valores negativos (Newman,2002,2003b).

De um modo geral, o fenômeno da assortatividade sugere que indivíduos com experiências em comum estejam conectados entre si. Em redes sociais, por exemplo, muitas das relações entre os indivíduos ocorrem em razão de interesses em comum, ocupações em comum, faixa etária, entre outros critérios que os fazem semelhantes. Esse tipo de organização é denominada estrutura de comunidade, e estão presentes em diversos tipos de sistemas interconectados. Radicchi et al.(2004) apresentam duas definições para comunidades, uma do ponto de vista qualitativo e outra do ponto de vista quantitativo. Do ponto de vista qualitativo, se as ligações entre vértices de uma subrede são mais densas que as ligações com o restante da rede, a subrede é dita uma comunidade. Do ponto de vista quantitativo, por outro lado, uma subrede é dita uma comunidade simplesmente se a soma das ligações de suas vértices para dentro da subrede for maior que a soma das ligações de seus vértices para fora da subrede. Allém dos motivos supracitados, a identificação e caracterização dessas estruturas é importante pois, indivíduos em uma mesma comunidade tendem a compartilhar propriedades e dinâmicas (Clauset et al.,2004; Holme et al.,2003).

No sentido de validar uma partição de uma rede em comunidades,Newman & Girvan(2004) propuseram uma medida denominada modularidade. Considere uma rede representada através da matriz de adjacências generalizada W,wij > 0 se existe uma aresta (vi, vj), caso contrário,

wij = 0, e uma partição disjunta da rede em C comunidades. Compomos uma matriz E, C× C,

entre asC comunidades, onde as entradas na diagonal principal, eii, informam a fração de pesos

de arestas entre nós de uma mesma comunidade e as entradas no triângulo superior e inferior, eij,i6= j, informam a fração de pesos de arestas entre nós em comunidades distintas3. O índice

de modularidade da partição é dado por

Q =X

(eii− a2i), (4.22)

ondeai = Pjeij. Essa medida varia no intervalo[−1, 1]. Quanto maior Q melhor a partição

de comunidades. Como pode-se presumir, a modularidade é uma reinterpretação da medida de assortatividade, onde as comunidades são os tipos de nós (Clauset et al.,2004;Newman,2006b; Fortunato,2010).

De outra maneira, a Eq.4.22pode ser definida explicitamente em função das arestas,

eij = 1 2m X u,v wuvδ(cu, i)δ(cv, j),

3_{Ao calcular a fração de pesos de arestas cada aresta deve ser considerada apenas uma vez, isto é, em se tratando}

de uma matriz de misturas simétrica, os pesos de arestas conectando nós de comunidades distintas deve ser dividido entre as entradaseijeeji.

ai = 1 2m X u kuδ(cu, i), δ(cu, cv) = X i δ(cu, i)δ(cv, i), ondeku =Pvwuvem =Pu P

vwuv. No caso de partições rígidas, temos oδ de Kronecker,

δ(cu, cv) = 1 se cu = cv, caso contrárioδ(cu, cv) = 0. Logo,

Q = P i 1 2m P u,vwuvδ(cu, i)δ(cv, i)−2m1 P ukuδ(cu, i)2m1 P vkvδ(cv, i) = _2m1 P uv wuv− kukv 2m P iδ(cu, i)δ(cv, i) = _2m1 P uv wuv− k_2mukv δ(cu, cv).

O primeiro termo da equação à direita, 1 2m

wuvδ(cu, cv),

corresponde à fração de pesos de arestas entre nós do mesmo tipo, isto é, da mesma comunidade; e o segundo termo, 1 2m X uv kukv 2m δ(cu, cv),

corresponde à mesma quantia, porém se as arestas fossem estabelecidas ao acaso, sem qualquer denominação de tipo, como uma hipótese nula ou amostra de controle. Portanto, Q ≈ 0, caracteriza a inexistência de comunidades eQ≈ 1 − 1

C caracteriza a existência de comunidades

totalmente independentes. Em redes reais, tipicamenteQ assume valores no intervalo [0.3, 0.7] para comunidades bem definidas.

A medida de modularidade tem sido utilizada em diversos trabalhos para a identificação da melhor partição de uma rede em comunidades, i.e., detecção de comunidades (Newman, 2004b;Clauset et al.,2004;Guimerà et al.,2004;Duch & Arenas,2005;Guimerà & Amaral, 2005;Pujol et al.,2006;Ye et al.,2008). Outras abordagens para a detecção de comunidades também têm sido consideradas na literatura: métodos hierárquicos (Girvan & Newman,2002; Zhou,2003b,a;Newman & Girvan,2004), métodos que mimetizam dinâmicas em redes, tais como sincronização (Reichardt & Bornholdt,2004;Arenas et al.,2006) e competição (Quiles et al.,2008), métodos baseados em análise espectral (Newman,2006a) e até mesmo em teoria de informação (Ziv et al.,2005). Mais recentemente, até mesmo abordagens semissupervisionadas foram propostas (Breve et al.,2012;Ma et al.,2010;Allahverdyan et al.,2010;Decelle et al., 2011;Steeg et al.,2014;Zhang et al.,2014). Análises comparativas entre diversos métodos podem ser encontradas em (Newman,2004a; Danon et al.,2005; Lancichinetti & Fortunato, 2009). Uma revisão mais extensa por ser encontrada em (Fortunato,2010).

Girvan & Newman(2002) propuseram um modelo para a construção de redes aleatórias como comunidades bem definidas. Originalmente, são geradas redes com n = 128 nós divididos em C = 4 comunidades, cada uma com 32 vértices; e grau médio_{hki = 16. Ligações são} estabelecidas entre pares de vértices aleatoriamente, com probabilidadespin entre nós definidos

em uma mesma comunidade epout entre nós definidos em comunidades distintas. Contudo,

configurações diversas têm sido utilizados na literatura. Seja pout = 1− pin, o número de

ligações de um nó para outra comunidades é dado por Zout = pouthki. Esse parâmetro é

tipicamente definido como parâmetro de mistura entre as comunidades. A Figura4.6apresenta um exemplo construído de acordo com esse modelo. Duas coleções de benchmarks de detecção de comunidades bastante abrangentes considerando esse modelo são encontradas em (Danon et al.,2005;Lancichinetti & Fortunato,2009).

Figura 4.6: Redes com comunidades bem definidas geradas pelos modelos de redes de Gir- van-Newman com 1024 nós, _{hki = 16 e 4 comunidades bem definidas (Z}out = 2) de igual

tamanho.

No entanto, como discutido anteriormente, redes reais são frequentemente caracterizadas por distribuições de grau heterogêneas e comunidades de tamanhos variados.Lancichinetti et al. (2008) propuseram, portanto, um modelo de rede que define ambas a distribuições de grau e de tamanhos de comunidades como leis de potência, respectivamente, com expoenteγ ∈ {2, 3} e β _{∈ {1, 2}}4_{. O modelo de configuração proposto por}_{Molloy & Reed}₍₁₉₉₅_{) é utilizado para} construir redes com o grau de seus nós definido a partir da distribuição com expoenteγ; os extremos da distribuição,kminekmax, são definidos de modo que grau médiohki seja satisfeito.

Cada nó compartilha uma fração1_{− µ de suas arestas com outros nós da mesma comunidade} e uma fraçãoµ de suas arestas com nós de outras comunidades, µ _{∈ [0, 1]. O tamanho das} comunidades é obtido da distribuição com expoenteβ de modo que a soma de seus tamanhos

é igual an e as restrições de tamanho, smin esmax, são impostas de acordo com a definição

das comunidades,smin > kmin esmax > kmax. O número de nós é dado pelo parâmetrosn. A

Figura4.7apresenta um exemplo construído de acordo com esse modelo.

Figura 4.7: Redes com comunidades bem definidas geradas pelos modelos de redes de Lanci- chinette-Fortunato-Radichi com 1024 nós,_{hki = 16, distribuição de grau heterogênea (γ = 2),} comunidade com tamanhos variados porém homogêneos (β = 1) e comunidades bem definidas (µ = 0.2).

No documento Rotulação de indivíduos representativos no aprendizado semissupervisionado baseado... (páginas 79-84)