Modularidade em redes complexa - Formalismos matemáticos da teoria de grafos em redes complexas

Capítulo 2. Uma análise da integração entre visões externalistas e internalistas na evo-

2.4. Formalismos matemáticos da teoria de grafos em redes complexas

2.4.6 Modularidade em redes complexa

A determinação de comunidades ou a análise de modularidade em grafos e redes é um assunto bastante explorado nas ciências da computação. A formulação matemática deste problema é denominada partição de grafos (graph clustering). Segundo Shaeffer (2007) é uma partição que se refere à otimização combinatória de vértices em função das distâncias, das intermediações de conectividades entre diferentes regiões topológicas de uma rede e da desigualdade triangular expressa pelos diferentes coeficientes de aglomeração. O referido problema de particionamento modular consiste encontrar um conjunto k de clusters (ou comunidades) que particione os elementos de uma rede com base na similaridade e interdependência funcional dos seus atributos. Esse objetivo consiste em maximizar a singularidade integrativa entre elementos dentro de um mesmo comunidade ao mesmo passo que a minimiza em relação aos elementos de clusters diferentes. As comunidades em uma rede correspondem aos subconjuntos de vértices com ligações fortes em seu interior e ligações fracas exteriores.

Ao longo dos últimos anos, diversas métricas e seus respectivos algoritmos foram desenvolvidos para detecção de modularidade em redes. Segundo Barbosa et al. (2011), dentre os múltiplos avanços significativos, podemos destacar os trabalhos de Girvan e Newman (2002) e de Clauset,

Newman e Moore (2004), os quais têm sido largamente empregados em diversas pesquisas contemporâneas. Suas contribuições mais evocadas serão sucintamente descritas a seguir:

1) Girvan e Newman propuseram um algoritmo heuristicamente fundado no conceito de centralidade de intermediação para determinação de clusters em grafos clássicos, ou seja, não direcionados, com representação G = (V, E). Simplificadamente, o algoritmo procede da seguinte forma: as arestas com maior valor de intermediação (generalização da medida de centralidade definida para os vértices) são admitidas como as ligações entre os clusters. Dessa forma, a rede é dividida ou particionada pela eliminação, uma por vez, das arestas do grafo com maior valor de intermediação. Caso seja necessário, após a remoção das arestas com os mais altos valores de intermediação são recalculados novos valores de intermediação e caminhos mínimos e, então, os passos se repetem consecutivamente até atingirem um critério de parada – previamente determinado ou estabelecido pelo operador.

2) Segundo Clauset, Newman e Moore (2004), uma vez gerada uma rede complexa, a estrutura de comunidades pode ser avaliada através da métrica de modularidade expressa na equação abaixo:

𝑄 =

1 2𝑚∑(𝐴

𝑖𝑗

−

𝑘

_𝑖

𝑘

_𝑗

2𝑚)𝛿(𝑐

𝑖

𝑐

𝑗 𝑖𝑗

)

Onde m é o número de arestas da rede; 𝐴_𝑖𝑗, o elemento da linha i e coluna j da matriz de adjacência A (ou seja, 𝐴_𝑖𝑗 é igual a 1 (um), caso exista conexão entre os vértices i e j, e a 0 (zero), no caso contrário); ki, o grau do vértice i (isto é, o número de vértices com os quais o vértice i está conectado); kj, o grau do vértice j; ci, a comunidade do vértice i; e cj, a comunidade do vértice j. A função δ é igual a 1 (um) caso i e j pertençam à mesma comunidade, e a 0 (zero) no caso contrário. Q ≥ 0,3 indica uma estrutura válida de comunidades; caso contrário, a rede é considerada aleatórias.

Esta métrica de modularidade tem sido utilizada no desenvolvimento de diversos algoritmos mais recentes, os quais têm demonstrado grande eficiência na detecção de comunidades, mesmo em redes muito grandes (Sousa & Zhao, 2015), tais como os algoritmos de: Fast Greedy, proposto pelos próprios Clauset, Newman e Moore (2004); Eigen Vector, proposto por Newman, 2006; Walk Trap, proposto por Pons e Latapy, 2006; e o Multilevel, proposto por Blondel et. al, 2008. Sendo que o algoritmo utilizado para extração de comunidades em nossa pesquisa foi o último mencionado, proposto por Blondel et al. (2008), em razão

clusters (modularity class) – o software Gephi foi adotado para confecção, cálculo e visualização de redes das redes neste trabalho (apresentaremos este software com mais detalhes posteriormente).

Um bom exemplo de análise de modularidade em redes se encontra no trabalho de Blondel e colaboradores (2008), que investigaram a estrutura das comunidades sociais da Bélgica, que abriga uma sociedade bicultural, na medida em que 59% dos seus cidadãos são flamengos (Flemish) e falam holandês, e 40% são valões (Walloons) e falam francês. As questões a serem respondidas eram as seguintes: A Bélgica é uma sociedade que configura uma rede densa e integrada onde as relações de conectividades sociais não segregam os indivíduos entre flamengos ou valões? Ou teríamos uma ruptura entre duas nações dentro das mesmas fronteiras? O trabalho teve como fonte de dados os registros de chamadas através de telefones celulares, com os indivíduos sendo os vértices na rede e as conexões regulares com outros indivíduos por meio de chamadas de celular, as arestas. Sendo uma rede ponderada pelo número de conexões via chamada. A análise de modularidade mostrou que a rede social da Bélgica é dividida em dois grandes grupos de comunidades segregadas eticamente e que os indivíduos em uma destas comunidades raramente falam com pessoas da outra. A Figura 15 mostra o padrão de modularidade encontrado por Blondel et al. (2008).

Figura 15: Representação gráfica da rede de comunidades extraída a partir de uma rede de telefonia móvel belga, por Blondel et al. (2008).

Fonte: Blondel et al. 2008.

Em vermelho, são representados os cidadãos valões e, em verde, os flamengos; em destaque, um "zoom" sobre uma pequena comunidade híbrida de valões e flamengos, indivíduos bilíngues que integram a comunicação entre os dois

2.4.7 As relações de Homofilia e Heterofilia entre membros das diferentes comunidades (módulos ou clusters) e a métrica do E-I index

Para medir o grau de integração entre as diferentes comunidades, pode ser utilizada uma métrica chamada índice E-I (E-I index), a qual foi empregada no presente trabalho. Ela permite avaliar a tendência à homofilia (formação de laços entre semelhantes) ou heterofilia (formação de laços entre diferentes) nas

comunidades obtidas na análise da modularidade das redes.A relação E / I (ou

o índice E-I), Krackhardt (1985), sendo uma métrica que foi inicialmente desenvolvida no tratamento de redes sociais, com o intuito de se mensurar a densidade relativa de conexões internas dentro de um grupo social, em comparação com o número de conexões que estes membros internos estabelecem com os membros pertencentes a comunidades externas. Para além das redes sociais, essa métrica tem sido utilizada como ferramenta matemática para compreender as relações entre comunidades em diferentes tipos de redes.

Krackhardt e Stern (1988) apresentam a seguinte equação para o cálculo das relações de homofilia e heterofilia entre membros de diferentes comunidades:

𝐸 − 𝐼 𝐼𝑛𝑑𝑒𝑥 =

(𝐸𝐿−𝐼𝐿)

(𝐸𝐿+𝐼𝐿)

Sendo (

𝐸𝐿)

o número de arestas externas a uma dada comunidade e (

𝐼𝐿)

, o número de arestas internas à mesma. Os valores possíveis desta métrica se encontram num intervalo de -1 a 1, sendo que a tendência a -1 indica um aumento da homofilia, a tendência a 1, um aumento da heterofilia, e os valores em torno do zero (0,0), o caráter bitransitivo de conceitos que se relacionam igualitariamente com os membros internos e externos à comunidade em que se encontram.

2.5 Os fundamentos teóricos matemáticos das redes complexas e o seu tratamento em redes conceituais

As redes conceituais, assim como as demais redes complexas, são modeladas matematicamente com base nos fundamentos da Teoria de Grafos. Desse modo, são caracteristicamente representadas através de uma estrutura dinâmica de auto-organização topológica que conecta sem hierarquização os seus vértices através de arestas em uma arquitetura aberta e não linear. Os grafos são constructos matemáticos que exibem topologias variáveis e a sua estruturação representacional permite a manipulação de grandes quantidades de dados. Diversos cálculos matemáticos podem ser realizados tendo como base os parâmetros que caracterizam as diferentes topologias obtidas. Estas diferentes topologias podem ter as suas propriedades descritas e classificadas através da generalização de padrões comuns que têm sido largamente estudados e compreendidos (Newman, 2003).

Segundo Biggs (1986), existe uma forte concordância entre os historiadores da matemática que afirmam que os primeiros fundamentos da Teoria dos Grafos surgiram ainda em meados do século XVIII, como resultado – matemático

suíço (mas que viveu a maior parte da sua vida na Rússia e na antiga Prússia); um dos mais renomados matemáticos de todos os tempos que teve suas contribuições para as ciências matemáticas equiparadas aos avanços promovidos pelos trabalhos de outros grandes nomes como Newton, Arquimedes ou Gauss. Os primórdios de uma formulação matemática historicamente consagrada, e ainda fundamentalmente útil na resolução de problemas em nossa contemporaneidade, teria sido, de modo curioso, estimulada pela resolução de um problema aparentemente simples que Euler se propôs a solucionar. O problema consistia em desvendar um tradicional enigma das sete pontes de Königsberg, cidade da Rússia onde viveu por vários anos, o enigma era o seguinte: a cidade de Königsberg foi construída as margens rio Pregel e era entrecortada pelo seu leito, configurava uma topografia regional bastante particular, na qual incluía duas grandes porções territoriais de ilhas que estavam conectadas entre si e ao continente através de sete pontes – existiria um caminho possível para se percorrer as diferentes regiões desconectadas cruzando as sete pontes e passando apenas uma vez por cada uma delas? O grande mérito de Euler foi visualizar a questão esquematicamente concebendo o primeiro “Grafo” da história da matemática, onde as regiões foram representadas por nodos e as pontes da cidade representadas por arestas que formavam ligações entre os pontos. Embora, Euler tenha concluído que, de fato, não existe um caminho possível que satisfaça o enigma proposto, justifica categoricamente que a existência, ou não, de um caminho desejado era uma propriedade que poderia ser particularmente descrita através de um formalismo matemático; e assim, torna-se o fundador da Teoria de Grafos. Abaixo na Figura 16 trazemos uma representação esquemática do famoso enigma das sete pontes de Königsberg.

Figura 16: Representação esquemática do famoso enigma das sete pontes de Königsberg.

Fonte: Página da Encyclopaedia Britannica

No documento O uso de redes conceituais em uma análise das relações entre visões internalistas e externalistas na evo-devo (páginas 73-78)