Comunidades em redes - Aspectos mesoscópicos de redes

A.2 Fronteira eficiente do portfólio de ações para o período MT (Temer)

2.5 Aspectos mesoscópicos de redes

2.5.2 Comunidades em redes

Em ciência de redes, podemos dizer que as comunidades são um grupo de nós que têm alta preferência para se ligarem a outros de mesma comunidade do que de outras. A figura 2.18 mostra o trabalho dos autores Blondel et al. (2008) no estudo de comunidades sociais.

Formalmente, uma comunidade é um subgrafo local densamente conectado (ou um clique) em uma rede (BARABASI, 2016). Cliques são raros em redes, pois dependem de um subgrafo completo. Dessa maneira, pode-se relaxar essa restrição, definindo dois tipos de comunidades, a forte, onde cada nó da comunidade (C) tem mais ligações dentro de C do que fora de C, e a fraca, onde a soma dos graus internos de C é maior do que a soma dos graus externos à C (RADICCHI et al., 2004).

Para encontrarmos o número de comunidades em uma rede, precisamos de um algoritmo de partição, a fim de encontrarmos, ao melhor das hipóteses, n subgrafos não sobrepostos. Examinado todas as partições do grafo, seleciona-se a que melhor satisfaça nossa definição de comunidade. Essa não é uma tarefa plausível, pois a complexidade computacional em inspecionar todas as partições cresce exponencialmente com N (RADICCHI et al., 2004). Dessa maneira, necessitamos algoritmos que não dependam dessa restrição.

No caso do agrupamento do tipo hierárquico, inicia-se por construir uma matriz de similaridade para a rede. Então, o algoritmo hierárquico escolhido identifica os grupos de nós com a maior similaridade. Pode-se dividir os algoritmos hierárquicos em dois, sendo:

Figura 2.18 – Representação gráfica de comunidades extraídas de dois milhões de cidadãos da Bélgica acerca da língua falada, obtida por contatos telefônicos: cor mais escura (vermelho) para francês e mais clara (verde) para alemão. Nota- se também como os nós na intersecção dos grupos também contêm várias subcomunidades. Este exemplo nos mostra a importância dos agrupamentos na topologia das redes.

Fonte:Blondel et al. (2008).

• aglomerativos: juntam nós com a maior similaridade entre si.

• divisivos: divide as comunidades, retirando as ligações que conectam nós com baixa similaridade.

A definição da similaridade entre um nó i e outro j não é trivial. Porém, pode-se utilizar o algoritmo de Ravasz (RAVASZ; BARABáSI, 2003) segundo o qual nós que se conectam direta- mente um com o outro e compartilham múltiplos vizinhos têm mais chance de pertencer a uma mesma comunidade, sugerindo, dessa maneira, maior potencial de similaridade. No método aglomerativo, depois de aplicado o algoritmo, deve-se decidir o procedimento de aglomeração. Pode-se decidir entre vários algoritmos tradicionais, como o de ligação simples, ligação completa, ligação média e método de Ward’s. O algoritmo de Ravasz (RAVASZ; BARABáSI, 2003)

avalia a similaridade entre nij para cada outro par da rede, até que se encontre aquele com

maior similaridade entre si, ligando o par. O processo de cálculo da nova similaridade continua, até que todos os nós estejam ligados numa única comunidade. Processo semelhante ocorre com os algoritmos de ligação simples, completa e média listados anteriormente. Após esse processo, deve-se proceder o corte no dendrograma formado, encontrando os grupos da rede. Um problema é que o algoritmo não nos fornece este corte.

Já no método divisivo removem-se sistematicamente todos as ligações que se conectam a diferentes comunidades. Define-se uma medida de centralidade entre as ligações e aplica-se um método hierárquico, já visto. Recordemos que ligações com alta centralidade por serem ’pontes’ nas redes, devem ser removidas. Dessa maneira, ligações com baixa centralidade estão dentro de comunidades, enquanto ligações com alta centralidade estão intercomunidades (entre elas). O algoritmo de Girvan-Newman (NEWMAN, 2003) utiliza a centralidade betweenness, xij,

e remove sistematicamente as ligações com maior xij. O processo de recálculo das centralidades

continua até que todas as ligações sejam removidas. Agora, podemos utilizar a medida da modularidade M para obter um corte otimizado do dendrograma.

A modularidade (M) é uma medida associada a uma partição. Ela mede a diferença entre o diagrama real da rede, Aij, e o número esperado de ligações entre i e j, pij, caso esse

diagrama fosse aleatório. Assim

Mc= 1 2L

X

i,j∈c (Aij − pij) (2.39)

Dessa maneira, se Mc é positivo, então um subgrafo Cc tem mais ligações do que

esperado por (2.37). Assim, representa uma potencial comunidade. Caso Mc = 0, então a

conectividade dos nós é explicada por um processo aleatório. Finalmente, caso Mc< 0, os nós

de Ccnão formam nenhuma comunidade. A figura 2.19 ilustra esse conceito.

Utilizando (2.37), e somando para todas Cccomunidades, temos que a modularidade Mc

é igual Mc= nc

X

c=1 ( Lc L − kc 2L 2) , (2.40)

onde Lcé o número de ligações totais dentro de uma comunidade Cc, e kcé o número total de

grau dos nós que estão dentro dessa comunidade.

Dessa maneira, a partição que tiver a máxima modularidade M para uma dada rede, oferece a estrutura ótima de comunidades (NEWMAN, 2003). O algoritmo ’Greedy’ busca a

Figura 2.19 – A ilustração acima verifica a medida de modularidade M para várias parti- ções da rede. Em (d), temosM < 0, neste caso cada nó é uma comunidade. Em (c), temosM = 0, assim, temos uma comunidade somente. Em (b) obser- vamos queM > 0, assim, temos duas comunidades, porém ainda não é seu valor máximo, o qual se apresenta em (a), sendo entãoM = 0, 41 a partição ótima encontrada para a rede. Nota: versão colorida na opção eletrônica.

Fonte:Barabasi (2016).

maior modularidade M , ligando novos pares de nós que apresentem ∆M > 0 (NEWMAN, 2003).

Apesar de ser um dos algoritmos mais utilizados em comunidades em redes, a modularidade também tem suas limitações, como (NEWMAN, 2010;BARABASI, 2016):

• a maximização de modularidade não consegue detectar comunidades cuja soma de grau de todos os seus nós seja igual ou menor que√2L. Dessa maneira, pequenas comunidades, normalmente presentes em redes reais, ficarão forçadas a se juntarem a outras maiores. • em certos casos, fica difícil distinguir a partição ótima de numerosas outras subótimas

partições nas quais a modularidade é muito próxima. Segundo Barabasi (2016), isto decorre do fato de que a função modularidade não tem um pico ao redor de um simples valor, mas tem um ’platô’ com valores muito próximos à Mmax.

No documento A informação mútua como medida de dependência não linear na estrutura de rede do mercado brasileiro de ações (páginas 51-54)