• Nenhum resultado encontrado

3.2 Modelos Teóricos de Redes

3.2.1 Modelo de Barabási-Albert

Tradicionalmente, a topologia das redes complexas eram descritas pela teoria de gra- fos aleatórios de Erdös e Rényi (ER) [96]. Com o avanço computacional foi possível analizar uma grande quantidade de dados de redes reais. Barabási et al.exploraram vários bancos de dados (com um número grande de informações) que descrevem a topologia de grandes redes e abrangem áreas muito diversas como a WWW ou a rede de citações. Eles mostraram que, independentemente do sistema e a identidade dos seus constituintes, a probabilidade P (k) de um vértice na rede interagir com k outros vértices decai como uma lei de potência dada por P (k) ∼ k−γ. Este resultado indica que redes grandes tendem a auto organizar-se em uma topologia livre de escala, uma característica imprevisível por todos os modelos de redes aleatórias existentes [12]. Para explicar a origem desta invariância de escala, Barabási mostrou que os modelos de redes aleatórias existentes não incorporam duas características chaves observadas em redes reais, a saber crescimento e ligação preferencial.

Os pólos representam a diferença mais marcante entre uma rede aleatória e uma rede livre de escala. Na World Wide Web (WWW), existem páginas com um número excepcional de ligações(links), como por exemplo o google.com ou facebook.com, por isso, poderíamos dizer que esses são dois pólos na rede WWW. Na rede metabólica os pólos são moléculas como o ATP ou ADP, portadores de energia, que estão envolvidas em um número muito

grande de reações químicas. Podemos então fazer os seguintes questionamentos:

• Por que tais sistemas tão diferentes como a WWW ou as células, convergem para uma arquitetura similar?

• Por que o modelo de rede aleatória de Erdös e Rényi falha para reproduzir os pólos e as leis de potência observadas em redes reais?

A resposta a essa pergunta surgiu em 1999, quando Barabási e Albert destacaram a ausência de duas suposições no modelo de redes aleatórias de Erdös e Rényi.

1. O modelo de redes aleatórias assume um número fixo de sítios, no entanto, em redes reais o número de nós cresce continuamente graças à adição de novos sítios á rede. Por exemplo, em 1991 a WWW tinha um único nó. A primeira “webpage” foi construída por Tim-Berners-Lee, o criador da Web. Hoje a Web tem cerca de 1012 documentos. Um número extraordinário, que foi alcançado pela contínua adição de novos documentos por milhões de indivíduos e instituições [97]. Outro exemplo do aumento do número de nós em redes reais é a rede de atores que continua a aumentar através do lançamento de novos filmes. Então, a primeira proposta de Barabási e Albert era modelar estas redes de maneira dinâmica e não estática, como era proposto o modelo de Erdös e Rényi. Sua abordagem reconheceu que as redes são o produto de um processo de crescimento constante.

2. O modelo de redes aleatórias assume que a escolha para interação entre os parceiros de um nó é completamente aleatória e isso implica em que todos os sítios possuem a mesma chance de receber ligações. Barabási e Albert, no entanto, perceberam que na maioria das redes reais os novos nós preferem se conectar com os nós mais conectados, um processo que eles chamaram de ligação preferencial. Por exemplo, nenhum cientista conseguirá ler mais todos os artigos científicos que são publicados a cada ano. No entanto, o artigo mais citado, que geralmente é aquele que mais ouvimos falar, é o que, provavelmente, será lido. Como geralmente citamos os artigos que lemos, nossas citações são desviadas para as publicações mais citadas, que representa os nós de alto grau da rede de citação.

Podemos dizer então que o modelo de rede aleatória difere de redes reais em duas caracte- rísticas importantes: Crescimento e Ligação preferencial. Existem muitas outras diferenças

6

THE BARABÁSI-ALBERT MODEL

Nodes Prefer to Link to the More Connected Nodes

The random network model assumes that we randomly choose the in-

teraction partners of a node. Yet, most real networks new nodes prefer

to link to the more connected nodes, a process called preferential attach-

ment (Figure 5.2).

Consider a few examples:

• We are familiar with only a tiny fraction of the trillion or more docu-

ments available on the WWW. The nodes we know are not entirely ran-

dom: We all heard about Google and Facebook, but we rarely encoun-

ter the billions of less-prominent nodes that populate the Web. As our

knowledge is biased towards the more popular Web documents, we

are more likely to link to a high-degree node than to a node with only

few links.

• No scientist can attempt to read the more than a million scientific pa-

pers published each year. Yet, the more cited is a paper, the more likely

that we hear about it and eventually read it. As we cite what we read,

our citations are biased towards the more cited publications, repre-

senting the high-degree nodes of the citation network.

• The more movies an actor has played in, the more familiar is a casting

director with her skills. Hence, the higher the degree of an actor in the

actor network, the higher are the chances that she will be considered

for a new role.

In summary, the random network model differs from real networks in

two important characteristics:

(A) Growth

Real networks are the result of a growth process that continuously

increases N. In contrast the random network model assumes that the

number of nodes, N, is fixed.

(B) Preferential Attachment

In real networks new nodes tend to link to the more connected nodes.

In contrast nodes in random networks randomly choose their inter-

action partners.

There are many other differences between real and random networks,

some of which will be discussed in the coming chapters. Yet, as we show

next, these two, growth and preferential attachment, play a particularly im-

portant role in shaping a network’s degree distribution.

Networks are not static, but grow via the

addition of new nodes:

(a) The evolution of the number of WWW

hosts, documenting the Web’s rapid

growth. After http://www.isc.org/solu-

tions/survey/history.

(b) The number of scientific papers published

in

Physical Review since the journal’s

founding. The increasing number of pa-

pers drives the growth of both the science

collaboration network as well as of the cita-

tion network shown in the figure.

(c) Number of movies listed in IMDB.com,

driving the growth of the actor network.

Figure 5.1

The Growth of Networks

(a)

(b)

(c)

WORLD WIDE WEB

ACTOR NETWORK

CITATION NETWORK

GROWTH AND PREFERENTIAL ATTACHMENT

YEARS

1880 50000 100000 150000 200000 250000 0 1900 1920 1940 1960 1980 2000 2020

NUMBER OF MOVIES

YEARS

YEARS

1880 1900 1920 1940 1960 1980 2000 2020 1982 0x100 1x108 2x108 3x108 4x108 5x108 6x108 8x108 9x108 1x109 7x108 1987 1992 1997 2002 2007 2012

NUMBER OF HOSTS

0 50000 100000 150000 200000 250000 300000 400000 450000 350000

NUMBER OF PAPERS

Figura 3.1: A evolução do número de hosts WWW, documentando o rápido crescimento da Web. Figura retirada da referência [3]

entre as redes reais e aleatórios, no entanto, estes dois mecanismos, crescimento e ligação pre- ferencial, desempenham um papel importante, principalmente na definição da distribuição de grau da rede.

Sendo assim, estes dois ingredientes crescimento e ligação preferencial são a es- sência do modelo BA e geram uma rede com distribuição de conectividade em lei de potência com um expoente fixo [12]. É importante destacar que o modelo proposto por Barabási não foi o primeiro a incluir ligação preferencial e obter uma distribuição em lei de potência, acredita-se que a primeira consideração de ligação preferencial se deu por volta de 1923 pelo matemático Húngaro György Pólya, por este motivo, em matemática, a ligação preferencial é frequentemente chamada de Processo Pólya. Logo após, em1925, Yule usou a ligação pre- ferencial para explicar a distribuição da lei de potência do número de espécies por gênero de plantas com flores, processo que ficou conhecido como “Processo de Yule” [98]. Poste- riormente muitos outros modelos com estas características surgiram, propostos por Robert Gibrat (1931), George Kinsley (1941), Herbert Alexander Simon (1955), Derek de Solla Price (1968) e Robert Merton (1976) [3].

propuseram um modelo de rede com topologia em livre escala e que consiste no seguinte algoritmo:

1. Inicia-se a rede com um número pequeno m0 de sítios;

2. A cada passo de tempo adiciona-se um novo nó à rede que se ligará preferencialmente a m(≤ m0) sítios diferentes pré-existentes no sistema. A probabilidade de um sítio pré-existente i da rede receber a nova ligação é proporcional à sua conectividade, e é dada por: Y (ki) = ki P jkj (3.13) onde ki é a conectividade do sítio i

3. Repete-se o passo anterior até o tamanho desejado do sistema, depois de t passos de tempo este procedimento resulta em uma rede com N = t+m0sítios e m0+mtligações, onde m é a quantidade de ligações que o sítio faz quando chega à rede.

É notório que essa regra de ligação preferencial privilegia os sítios que possuem maior conectividade de tal forma que estes têm mais chances de adquirir ligações (ver Fig. 3.2). Outra importante característica desse modelo é que a idade do sítio é um fator determinante para ele tornar-se pólo. Uma vez que um dado sítio tornou-se o pólo dominante da rede, dado um intervalo de tempo apropriado, sítios mais jovens nunca conseguirão obter um grau maior do que este, ou seja, nunca terão a chance de tornarem-se pólos também. Foi mostrado numericamente por Barabási e Albert [46] que a distribuição de conectividade desses sítios segue uma lei de potência com expoente γ = 2.9 ± 0.1. Reproduzimos o resultado numérico da distribuição de conectividade para modelo BA (ver Fig. 3.3a) e encontramos o valor de γ em acordo com o resultado encontrado pelos autores. Barabási e Albert mostraram numeri- camente que P (k) independe de m, que é o único parâmetro do modelo. Dessa forma, a lei de potência observada para redes reais, descreve sistemas de diferentes tamanhos e estágios de desenvolvimento. Eles esperavam que o modelo fornecesse uma distribuição cujas princi- pais características fossem independentes do tempo. De fato, eles mostraram numericamente que P (k) é independente do tempo, indicando que apesar do crescimento contínuo da rede o sistema se auto organiza em um estado estacionário de livre escala [46].

A dependência temporal da conectividade de um sítio pode ser calculada analitica- mente, usando a abordagem de campo médio. Barábasi, Albert e Jeong analisaram a evolução temporal da conectividade dos sítios através de um tratamento contínuo introduzido em [46]. Reproduziremos os resultados abaixo:

Figura 3.2: Exemplo ilustrativo de crescimento de uma rede de Barabási para m0= 3 e m = 1.

Tratamento contínuo do modelo BA

Assumimos que ki é uma variável contínua e real, dessa forma a probabilidade Πiki pode ser interpretada como uma taxa contínua da mudança de k. Sendo assim, esperamos que a taxa com que ki varie seja proporcional a Π(ki). Portanto , ki satisfaz a:

∂ki ∂t = AΠ(ki) = A ki PN −1 j=1 kj (3.14) onde N = m0+t. A constante A é igual a m uma vez que a mudança na conectividade a cada passo de tempo é ∆k = m. O valor de Pm0+t−1

j=1 kj dependerá do tempo, de maneira que a cada passo de tempo a soma das conectividades aumenta 2mt, isso significa quePjkj = 2mt 3.14 torna-se: ∂ki ∂t = m ki 2mt = ki 2t (3.15)

Z ki(t) ki(t0)=m dki ki = Z t t0 dt 2t ln  ki(t) m  = ln  t t0 1/2 ki(t) = m  t t0 1/2 (3.16) Este resultado oferece-nos informações importantes do modelo:

• O grau de cada nó aumenta seguindo uma lei de potência com o mesmo expoente dinâmico β = 1/2. Então, todos os nós seguem a mesma lei e dinâmica. Este resultado implica na impossibilidade de que sítios jovens possam tornar-se pólos após a rede atingir um tamanho considerável.

• O crescimento nos graus é sub-linear (isto é β < 1). Esta é uma consequência da natureza de crescimento no modelo BA: Cada novo nó tem mais nós para se conectar do que os nós anteriores. Portanto ao passar do tempo os nós existentes competem por ligações com uma “piscina” crescente de outros nós.

• Quanto mais cedo um nó é adicionado à rede maior será o seu grau. Assim, os pólos possuem alto grau porque foram adicionados com bastante antecedência em relação aos outros sítios da rede. Este fenômeno é bastante comum no mundo do marketing e dos negócios.

Podemos usar a propriedade 3.16 para calcular o valor de γ analiticamente. A probabilidade que ki(t) < k é dada por P (ki(t) < k). Usando 3.16 podemos escrever:

P (ki(t) < k) = P m  t ti 1/2 < k ! P (ki(t) < k) = P  m2  t ti  < k2  P (ki(t) < k) = P  m2t k2 < ti  P (ki(t) < k) = P  ti > m2t k2  (3.17)

Assumindo-se que os nós são adicionados em intervalos de tempo iguais, a densidade de probabilidade de ti é dada por:

Pi(ti) = 1 N =

1

m0+ t (3.18)

Substituindo 3.18 em 3.14 encontramos a seguinte relação:

P  ti > m2t k2  = 1− P  ti ≤ m2t k2  P  ti > m2t k2  = 1 m 2t k2(t + m 0) (3.19)

Calculando agora a densidade de probabilidade para P (k) temos:

P  ti > m2t k2  ≡ P (ki(t) < k) P (k) = ∂P (ki(t) < k) ∂k P (k) =  2m2t m0+ t  k−3 P (k) ∼ k−3 (3.20)

Com o resultado 3.20 o modelo BA mostra que a distribuição de conectividade é independente de m e do tamanho da rede N = m0+ t.

Além da distribuição em lei de potência, o modelo BA tem outras propriedades que podem não concordar com resultados empíricos de muitas redes reais. Uma característica bem comum de várias redes reais é a coexistência do alto valor do coeficiente de agregação e baixo valor do menor caminho médio (efeito de mundo pequeno), esta combinação não ocorre no modelo BA. Barabási e Albert calcularam o comprimento do menor caminho hli e perceberam que este é muito menor para o modelo BA do que para grafos aleatórios com o mesmo tamanho N. Foi mostrado também que hli cresce aproximadamente com ln N quando m = 1 [8].

100 101 102 103 104

k

10-8 10-6 10-4 10-2 100

P(k)

γ = 2.92

(a) 100 101 102 103 104 105

t/t

i 100 101 102

<k

i

>

β10 = 0.50 β97 = 0.49 (b)

Figura 3.3: (a) Distribuição de conectividade em Lei de Potência para o modelo BA. Simulação realizada param = 1, N = 2× 105 e 2× 103 amostras. (b) Evolução temporal da conectividade dos

sítios i = 10 e i = 97. Simulação realizada para a rede BA com m = 1, N = 105 e 1000 amostras. Figura retirada da referência [1].

O modelo BA com m = 1 corresponde a um grafo tipo árvore e o coeficiente de agregação de grafos desse tipo é zero, pois não existem circuitos fechados (panelinhas). Por- tanto, para calcular o coeficiente de agregação neste modelo é preciso considerar m > 1. Acreditava-se que para redes livres de escala o coeficiente de agregação seria cerca de cinco vezes maior do que para grafos aleatórios de mesmo tamanho, pensava-se ainda que este fator aumentaria lentamente com o número de nós da rede (ver Fig. 3.4). Ao realizar as simula- ções, no modelo BA, evidenciou-se que o coeficiente de agregação decresce com o tamanho da rede, obedecendo a uma lei de potência C ∼ N−0.75 [8]. Este resultado mostra que quando N → ∞ o coeficiente de agregação se aproxima de zero, discordando das observações do coeficiente de agregação em redes reais. O baixo coeficiente de agregação não está, contudo, relacionado ao mecanismo de ligação preferencial. Existem muitos modelos de redes com ligação preferencial e simultaneamente com coeficiente de agregação alto. Usando a teoria contínua, Barabási et al. [3], mostraram analiticamente que o coeficiente e agregação do modelo BA é dado por C ∼ (ln N)2/N. Este resultado é bastante diferente do encontrado para redes aleatórias C ∼ 1/N. Devido à presença do termo (ln N)2 pode-se dizer que o mo- delo BA é localmente mais agregado do que o modelo de redes aleatórias [46]. No entanto, o resultado analítico do modelo BA só comprova o fato de que este modelo não é apropriado para descrever sistemas em que o coeficiente de agregação aumenta com o tamanho da rede. Outro resultado importante do modelo BA é que existe uma diferença notável no efeito de pequeno mundo para m = 1 e m > 1. Como podemos ver nas equações 3.21, o comprimento do menor caminho médio difere para m = 1 e m > 1 [55]:

hli(m = 1) ∼ ln N e hli(m > 1) ∼ ln N

ln ln N (3.21)

O modelo BA é um modelo que gera uma rede com distribuição de conectividade em lei de potência, porém, quando comparado a redes reais, é evidente que apresenta limitações: 1. Expoente fixo − este modelo prediz uma distribuição de conectividade em lei de potência com expoente fixo, enquanto que os expoentes medidos para redes reais variam geralmente entre 2 e 5 [3].

2. Distribuição de grau em lei de potência − redes reais também podem apresentar outros tipos de distribuição para conectividade dos sítios da rede, como por exemplo, exponenciais cortadas.

Capítulo 3. Mecânica Estatística e Modelos Teóricos de Redes

48

erated by the SF model is different from the topology

of a random network with power-law degree distribution

(Sect. V). The dynamical process that generates the

network introduces nontrivial correlations that affect all

topological properties.

2. Node degree correlations

In the random graph models with arbitrary degree dis-

tribution (see Abello et al. 2000 and Newman et al. 2000)

the node degrees are uncorrelated. Krapivsky and Red-

ner (2000) have shown that in the SF model correlations

develop spontaneously between the degree of connected

nodes.

Let us consider all node pairs with degree k and l con-

nected by an edge. Without loss of generality we assume

that the node with degree k was added later to the sys-

tem, implying that k < l since, according to Eq. (80),

older nodes have higher degree than younger ones, and

for simplicity we use m = 1. Denoting by N

kl

(t) the

number of connected pairs of nodes with degree k and l,

we have

dN

kl

dt

=

(k− 1)N

k−1,l

− kN

kl

!

k

kN (k)

+

(l− 1)N!

k,l−1

− lN

kl k

kN (k)

+ (l− 1)N

l−1

δ

k1

.

(94)

The first term on the r.h.s. accounts for the change in

N

kl

due to the addition of an edge to a node of degree

k− 1 or k which is connected to a node of degree l. Since

the addition of a new edge increases the node’s degree by

1, the first term in the numerator corresponds to a gain

in N

kl

, while the second to a loss. The second term on

the r.h.s. incorporates the same effects as the first ap-

plied to the other node. The last term takes into account

the possibility that k = 1, thus the edge that is added to

the node with degree l− 1 is the same edge that connects

the two nodes.

This equation can be transformed into a time-

independent recursion relation using the hypotheses

!

k

kN (k)

→ 2t and N

kl

(t)

→ tn

kl

. Solving for n

kl

we

obtain

n

kl

=

4(l− 1)

k(k + 1)(k + l)(k + l + 1)(k + l + 2)

+

12(l− 1)

k(k + l− 1)(k + l)(k + l + 1)(k + l + 2).

(95)

For a network with an arbitrary degree distribution, if

the edges are placed randomly, n

kl

= n

k

n

l

. The most

important feature of the result (95) is that the joint dis-

tribution does not factorize, i.e. n

kl

̸= n

k

n

l

. This indi-

cates the spontaneous appearance of correlations between

≪ k ≪ l, and n

kl

n

kl

≃ k

−2

l

−2

,

(96)

but even then it is different from n

kl

= k

−3

l

−3

, expected

if correlations are absent from the network. This result

offers the first explicit proof that the dynamical process

that creates the scale-free network builds up nontrivial

correlations between the nodes that are not present in

the uncorrelated models discussed in Sect.V.

3. Clustering coefficient

While the clustering coefficient has been much inves-

tigated for the WS model (Sect. VI.B.2), there is no

analytical prediction for the SF model. Figure 24 shows

the clustering coefficient of the SF network with average

degree

⟨k⟩ = 4 and different sizes, compared with the

clustering coefficient C

rand

=

⟨k⟩/N of a random graph.

We find that the clustering coefficient of the scale-free

network is about 5 times higher than that of the random

graph, and this factor slowly increases with the number

of nodes. However, the clustering coefficient of the SF

model decreases with the network size following approx-

imately a power-law C

∼ N

−0.75

, which, while a slower

decay than the C =

⟨k⟩N

−1

decay observed for random

graphs, is still different from the behavior of the small-

world models, where C is independent of N .

102 103 104 105

N

10-5 10-4 10-3 10-2 10-1

C

scale-free model random graph

FIG. 24. Clustering coefficient versus size of the SF model with ⟨k⟩ = 4, compared with the clustering coefficient of a random graph, Crand ≃ ⟨k⟩/N.

31

(a)

assuming N >> 1, in agreement with the numerical re-

sults ( Fig. 22b).

Since the continuum theory predicts that after a tran-

sient period the average degree of all nodes should have

the same value given by Eq. (92), we expect that the

degree distribution becomes a Gaussian around its mean

value. Indeed, Fig. 22b shows that the shape of P (k)

changes from the initial power-law to a Gaussian.

Motivated by correlations between stocks in finantial

markets and airline route maps, a prior model incorpo-

rating preferential attachment, while keeping N constant

was independently proposed and studied by Amaral et al.

(1999).

0 50 100 k 10-7 10-5 10-3 10-1 P(k) 100 101 102 103 k 10-5 10-4 10-3 10-2 10-1 100 101 103 105 t 0 10 20 30 40 ki (t) 0 50000 t 0 10 20 ki (t)

(a)

(b)

FIG. 22. (a) Degree distribution for model A for m0 = m = 1

(circles), m0 = m = 3 (squares), m0 = m = 5 (diamonds)

and m0 = m = 7 (triangles). The size of the network is N =

800, 000. Inset: time evolution for the degree of two vertices added to the system at t1 = 7 and t2 = 97. Here m0 = m = 3.

The dashed line follows ki(t) = m ln(m0+ t− 1).(b) The de-

gree distribution for model B for N = 10, 000 and t = N (circles), t = 5N (squares), and t = 40N (diamonds). Inset: time dependence of the degrees of two vertices. The system size is N = 10, 000. After Barab´asi, Albert and Jeong (1999).

Documentos relacionados