Modelo M1: Dist Homog´enea com Hashing Est´atico

atribu´ıdo um subconjunto H(n) diferente do atribu´ıdo aos outros nós e 2) nenhuma entrada de H ficará por atribuir, restri¸cões que podem ser formalizadas pelas seguintes expressões:

\ n∈N H(n) = ⊘ (3.1) [ n∈N H(n) = H (3.2)

As express˜oes anteriores traduzem o particionamento de H em #N subconjuntos disjuntos.

3.2.2 Quota (Real) de um N´o

Sendo H o total de entradas da DHT, 1/H corresponde à quota (real) da DHT, associada a cada entrada, donde a quota (real) associada a um nó n, detentor de H(n) entradas, é

Qr(n) = H(n)

H , ∀n ∈ N (3.3)

, para um total de H = #H entradas dispon´ıveis, que irá obedecer à seguinte expressão:

H = X

n∈N

H(n) (3.4)

3.2.3 Qualidade da Distribui¸c˜ao

A defini¸cão de uma distribui¸cão de entradas através de um conjunto de nós comporta, em primeira instância, a defini¸cão do número de entradas a atribuir a cada nó. Nos nossos modelos, esse número é suficiente para alimentar uma métrica de qualidade da distribui¸cão. Ora, a qualidade de uma certa distribui¸cão pode ser veiculada por qualquer métrica esta- t´ıstica que indique, directa ou indirectamente, o grau de aproxima¸cão entre a quota real de cada nó e uma sua quota ideal, que convencionamos designar por Qi(n) e obedece a:

n∈N

Qi(n) = 1 (3.5)

A quota ideal de um nó corresponde a uma certa fraçcão do número de entradas da DHT que o nó é suposto gerir. Como as entradas da DHT são, por defini¸cão, indivis´ıveis, então a fraçcão efectivamente gerida (a quota real), poderá ser diferente da fraçcão pretendida (a quota ideal). Um modelo de distribui¸cão que tenha como objectivo maximizar, permanentemente, a qualidade da distribui¸cão, terá de minimizar, permanentemente, e em simultâneo para todos os nós, a discrepância entre as suas quotas ideais e as reais.

3.3 Modelo M1: Dist. Homog´enea com Hashing Est´atico 37

3.3 Modelo M1: Dist. Homog´enea com Hashing Est´atico

Considere-se uma DHT operada sob Hashing Estático (ou seja, com H constante) mas em que se admite a varia¸cão do número de nós que suportam a DHT (ou seja, N pode variar).

3.3.1 Quota Ideal de um N´o

Assumindo uma participa¸cão homogénea de nós computacionais no suporte a uma DHT, então todos têm direito à mesma fraçcão da DHT, donde a quota ideal comum a todos é:

Qi(n) = Q(n) = 1

N, ∀n ∈ N (3.6)

Esta quota não é estática, variando em fun¸cão do número efectivo de nós da DHT, N .

3.3.2 M´etricas de Qualidade

Neste contexto, a qualidade da distribui¸cão de uma DHT pode ser, numa primeira aproxima¸cão, aferida pela Soma dos Desvios Absolutos (SDA) das quotas reais face às ideais:

SDA[Q(n)] = X

n∈N

|∆[Q(n)]| (3.7)

com

∆[Q(n)] = Qr(n) − Q(n), ∀n ∈ N (3.8)

A Soma dos Desvios Absolutos (SDA)2 representa uma medida intuitiva de dispersão, mas a sua manipula¸cão matemática pode ser complicada, pela utiliza¸cão de valores absolutos. Neste sentido, o Desvio Quadrático Médio, ou até mesmo o Desvio Padrão, constituem métricas de utiliza¸cão mais disseminada, dado que evitam os referidos problemas [GC97]. O Desvio Padrão Absoluto, como métrica alternativa a SDA[Q(n)], é neste caso dado por:

σ[Q(n)] = s P n∈N[Qr(n) − Q(n)]2 N = s X n∈N [∆[Q(n)]2_{× Q(n)]} _(3.9)

Frequentemente, recorre-se também ao Desvio Padrão Relativo3_{, obtido pela divisão do}

Desvio Padrão Absoluto pela Média. Esta medida tem a vantagem de permitir comparar a dispersão de séries de natureza eventualmente diferente, face às suas Médias individuais. Tendo em conta que Q(n) assume, no caso presente, o papel de Média, então o Desvio Padrão Relativo correspondente ao Desvio Padrão Absoluto definido anteriormente será:

σ[Q(n)] = σ[Q(n)]

Q(n) (3.10)

Ou o Desvio Absoluto Médio (DAM), dado pela divisão de SDA pela dimensão da amostra.

38 3.3 Modelo M1: Dist. Homog´enea com Hashing Est´atico

3.3.3 Fun¸c˜ao Objectivo

Informalmente, o objectivo do modelo M1 é “maximizar a qualidade da distribui¸cão, man- tendo H constante e permitindo a varia¸cão de N ”. A qualidade da distribui¸cão será tanto maior quanto menor for o valor de SDA[Q(n)], σ[Q(n)] ou σ[Q(n)]. Estas métricas são, por defini¸cão, correlacionadas. Todavia, tendo em conta os méritos do uso do Desvio Padrão Relativo, fixa-se a “minimiza¸cão de σ[Q(n)]” para fun¸cão objectivo do modelo M1.

3.3.4 Procedimento de (Re)Distribui¸c˜ao

No modelo M1 de distribui¸cão homogénea, o número de entradas da DHT atribu´ıdo a cada nó n ∈ N é então definido de forma a minimizar σ[Q(n)]. Essa defini¸cão ocorre, a primeira vez, durante a cria¸cão da DHT, com base num valor inicial de N , mas tem de ser refeita sempre que o valor N se altera, ou seja, sempre que a DHT ganhar ou perder um ou mais nós. Assim, i) sempre que a DHT ganhar um nó, este terá de receber entradas, cedidas de um ou mais dos outros nós; ii) complementarmente, sempre que a DHT perder um nó, as entradas deste nó terão de ser redistribu´ıdas, por um ou mais dos outros nós. 3.3.4.1 Defini¸cão do Número Espec´ıfico de Entradas por Nó

Genericamente, o Procedimento de (Re)Distribui¸cão do modelo M1 reparte, o mais equi- tativamente poss´ıvel, as entradas da DHT (em número H), pelos seus nós (em número N4), respeitando a indivisibilidade das entradas. Assim, numa primeira fase, atribuem-se Hdiv(n) = H div N entradas a cada nó (em que div representa a divisão inteira), do que

resulta a atribui¸c˜ao de um total de entradas Hdiv = Hdiv(n) × N ; depois, atribuem-se as

Hmod = H − Hdiv entradas remanescentes, uma a uma, a outros tantos n´os. Este acerto

pode explorar uma certa ordem (lexicográfica, baseada na identifica¸cão dos nós, ou tem- poral, baseada no instante da sua jun¸cão à DHT) para determinar os nós beneficiados. No final do processo, o conjunto de nós N será divis´ıvel em dois subconjuntos: um, em que cada nó tem Hdiv entradas; outro, em que cada nó tem Hdiv+ 1 entradas; ou seja: será de

uma unidade a diferen¸ca máxima entre o número entradas de qualquer par de nós, o que faz da distribui¸cão alcan¸cada uma distribui¸cão perfeita, pela defini¸cão da seçcão 2.6.4.1.

3.3.4.2 Transferˆencias de Entradas entre N´os

O procedimento acima descrito apenas define o número final (total) de entradas por cada nó, de forma a maximizar a qualidade da distribui¸cão. De facto, o procedimento não inclui a defini¸cão 1) da identidade dos nós que têm de ceder/receber entradas, nem 2) do número individual de entradas que cada nó deve ceder/receber. No primeiro caso, já se deu a entender (rever seçcão 3.1) que a identidade das entradas a movimentar é irrelevante. No segundo caso, a defini¸cão em causa pode socorrer-se de uma tabela de distribui¸cão (T D), de esquema < n, H(n) >, que regista o número de entradas H(n) de cada nó n ∈ N . Assim, a compara¸cão das versões da T D anterior e posterior à aplica¸cão do Procedimento de (Re)Distribui¸cão, permite identificar quais os nós que devem ceder/receber entradas e

3.3 Modelo M1: Dist. Homog´enea com Hashing Est´atico 39

em que quantidade. Depois, resta definir os actores de cada transferência a realizar, ou seja, associar cada nó doador a um ou mais nós beneficiários; essa associa¸cão pode ser i) definida de forma centralizada por um nó coordenador, ou ii) inferida de forma autónoma e determin´ıstica por qualquer nó da DHT (o que exige que cada um deles disponha das duas versões da T D e aplique um critério comum (predefinido) de ordena¸cão dessas tabelas). Idealmente, as movimenta¸cões de entradas deveriam realizar-se em paralelo, apenas com a interven¸cão dos nós afectados, e tolerando acessos à DHT por parte de aplica¸cões clientes. As metodologias que acabamos de definir para a transferência de entradas entre nós, no caso do modelo M1, são também aplicáveis aos restantes modelos apresentados neste cap´ıtulo, pelo que nos iremos abster de retomar o tema na apresenta¸cão desses modelos.

3.3.5 Qualidade da Distribui¸cão Número de Nós 128 256 384 512 640 768 896 1024 Q u a lid a d e d a D is tr ib u iç ã o 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 H = 128 H = 256 H = 512 H = 1024 a) Número de Nós 8 16 24 32 40 48 56 64 Q u a lid a d e d a D is tr ib u iç ã o 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 H = 2 H = 4 H = 8 H = 16 H = 32 H = 64 b) Figura 3.1: σ[Q(n)] para N ≤ H e a) H ∈ {128, 256, ..., 1024}, b) H ∈ {2, 4, ..., 64}. As figuras 3.1.a) e 3.1.b) apresentam resultados da simula¸cão do modelo M1, expressos na métrica σ[Q(n)], para valores de H ∈ {2, 4, 8, ..., 1024} e de N ≤ H. Os resultados foram separados em duas figuras para melhor visualiza¸cão dos valores obtidos para H ≤ 64. Para cada valor de H, parte-se de uma situa¸cão com apenas um nó (ou seja, todas as entradas da DHT estão concentradas num só nó), e vão-se acrescentando5 _{nós, um-a-um,}

até que N = H (i.e., cada nó comporta uma só entrada). À medida que se acrescentam nós, é aplicado o procedimento da seçcão 3.3.4.1, para minimizar σ[Q(n)]. Assim, as figuras apresentam, para cada valor de H e de N , o valor correspondente da métrica σ[Q(n)]. Da observa¸cão das figuras resulta a identifica¸cão de i) uma gama de varia¸cão, e de ii) um padrão de evolu¸cão, comuns para os vários valores de H. De facto, σ[Q(n)] oscila entre valores m´ınimos que podem chegar a zero, e máximos que crescem linearmente até ao máximo absoluto de ≈ 0.35 (ou, equivalentemente, de 35%); os m´ınimos são obtidos quando H é divis´ıvel por N o que, sendo H uma potência de 2, acontece apenas quando N é também uma potência de 2; o máximo absoluto é obtido aproximadamente a meio do intervalo entre dois m´ınimos consecutivos. Este padrão repete-se para valores H > 1024.

40 3.4 Modelo M2: Dist. Homog´enea com Hashing Dinˆamico

Outra conclusão relevante, que se extrai da observa¸cão das figuras, pela compara¸cão dos resultados obtidos para um mesmo valor de N e vários valores de H, é a de que quanto maior for H, menor é σ[Q(n)], ou seja, melhor é a qualidade da distribui¸cão. Esta observa¸cão encontra justifica¸cão na seguinte argumenta¸cão, de carácter intuitivo: para o mesmo número de nós, um maior número total de entradas permite ajustar, de forma mais precisa, as quotas reais às ideais. Desta maneira, a fixa¸cão de um valor de H revela- se contra-producente, quer sob o ponto de vista da limita¸cão natural que impõe ao grau de distribui¸cão da DHT (pois N ≤ H é um invariante intr´ınseco de qualquer DHT), quer pelo facto de, para valores de N próximos de H, a qualidade da distribui¸cão tender a piorar6.

No documento Co-operação de tabelas de Hash distribuídas em clusters heterogéneos (páginas 57-61)