Tempos de Reten¸c˜ao de Estado - Bounded Correctness do Algoritmo DNR

4.2 Bounded Correctness do Algoritmo DNR

4.2.2 Tempos de Reten¸c˜ao de Estado

lema12. O tempo m´ınimo que um nodo deve permanecer no estado sem-falha de forma a ter este estado diagnosticado ´e (1 + ρ)W + (1 + ρ)π + (D + 2)∆send init+ (D +

2)∆send max+ Θ.

prova. Como um nodo envia requisi¸cões de teste a todos os seus vizinhos após recuperar, o tempo m´ınimo que um nodo deve permanecer neste novo estado, isto é, o tempo de reten¸cão de estado para nodos no estado sem-falha, do inglês node working state holding time, SHTw node, é computado como segue: o tempo de espera para recupera¸cão

W , que é calculado abaixo, é somado com o intervalo de tempo máximo necessário para enviar requisi¸cões de teste e receber informa¸cões das tabelas de estados como resposta, o qual é 2(∆send init+ ∆send max), mais o tempo para disseminar as mensagens de healing

finais por toda a rede. Se, por outro lado, testes simultˆaneos ocorrem, o processo de healing pode levar ainda um intervalo de testes extra para concluir, e o lema segue.

lema13. O tempo m´ınimo que um enlace deve permanecer no estado sem-falha de forma a ter este estado diagnosticado ´e 2(1 + ρ)π + (D + 1)∆send init+ (D + 2)∆send max−

∆send min+ Θ.

prova. Como um enlace não tém tempo de espera para recupera¸cão tampouco envia requisi¸cões de teste, o tempo de reten¸cão de estado para enlaces no estado sem- falha, do inglês link working state holding time, SHTw link, deve ser maior que a latência

máxima de diagnóstico calculada para o diagnóstico de enlaces recentemente recuperados, no lema 11.

O tempo de reten¸cão de estado acima é válido desde que ambos os nodos adjacentes ao enlace estejam no estado sem-falha. De fato, se um dos nodos está falho, o enlace é ainda considerado não-respondendo, independentemente de quanto tempo ele permanece sem-falha. Se ambos os nodos estão falhos, o enlace é considerado inating´ıvel após ambos os nodos serem também diagnosticados como inating´ıveis. A despeito disto, o enlace é considerado sem-falha tão logo ambos os nodos recuperem e enviem requisi¸cões de teste.

lema 14. O tempo m´ınimo que um nodo deve permanecer falho de forma a ter diagnosticado o estado n˜ao-respondendo de todos os seus enlaces adjacentes ´e (3+4ρ)π/2+ (2D + 1 + ρ)∆send init/2 + (2D + 5(1 + ρ))∆send max/2 − 3(1 + ρ)∆send min/2 + Θ, com

tempo de espera para recupera¸c˜ao W igual a (1 + ρ)π/2 − (3 − 4ρ)∆send init/2 + (1 +

4ρ)∆send max/2 − 3∆send min/2.

prova. Considere-se um nodo que acabou de se tornar falho. O nodo falhou por crash após ter assumido o papel de testador ou de testado para cada um de seus enlaces adjacentes. Isto afeta tanto a latência de diagnóstico como o tempo de reten¸cão de estado. De forma a computar o tempo de reten¸cão de estado para nodos no estado não-respondendo, do inglês node unresponsive state holding time, SHTu node ambos os

casos ser˜ao levados em conta.

Primeiro será considerado o caso no qual o nodo Y falha imediatamente após enviar uma requisi¸cão de teste, portanto tendo assumido o papel de testado para o intervalo de testes seguinte. Em outras palavras: Y falha no tempo t + ∆send init imediatamente após

enviar uma requisi¸c˜ao de teste, a qual demora um intervalo de ∆send min para chegar ao

nodo X. Se o testador X permanecer sem-falha, no intervalo de testes seguinte ele enviará uma requisi¸cão de teste para Y e haverá um time-out na resposta ao teste. X detectará o time-out após t + ∆send init+ ∆send min+ (1 + ρ)π + 2(1 + 2ρ)(∆send init+ ∆send max).

Portanto o tempo m´ınimo que um nodo deve permanecer falho de forma a ter este estado diagnosticado deve ser maior ou igual à diferen¸ca entre o instante em que X detectou o time-out e o instante em que X recebeu a última requisi¸cão de teste de Y , o que resulta (1 + ρ)π + 2(1 + 2ρ)(∆send init + ∆send max). Chame-se a este resultado de

γtested. Ele ser´a ´util mais tarde na prova do teorema 8.

Sup˜oe-se agora que o nodo Y se tornou falho no tempo t + ∆send init, ap´os enviar

uma requisi¸cão de teste para X, a qual é recebida no máximo no tempo t + ∆send init+

∆send max. Se Y recupera, ele enviará outra requisi¸cão de teste, a qual será recebida por

X no m´ınimo no tempo t + ∆send init + SHT + (1 − ρ)W + ∆send init+ ∆send min.

A diferen¸ca entre os dois instantes de tempo nos quais X recebe requisi¸c˜oes de teste de Y ´e SHT + (1 − ρ)W + ∆send init − ∆send max+ ∆send min. Esta diferen¸ca deve

ser maior que γtested mais D(∆send init+ ∆send max) + Θ de forma a permitir que o evento

de falha seja diagnosticado. Portanto SHTu tested > (1 + ρ)π − (1 − ρ)W + (D + 1 +

De maneira análoga, considere-se um nodo Y que falha por crash após ter assumido o papel de testador para um enlace. Neste caso, se o vizinho envia uma requisi¸cão de teste no tempo t, o pior caso se dá quando o evento de falha ocorre no tempo t + 2∆send init+

∆send min.

A diferen¸ca máxima entre os dois instantes de tempo em que respostas de testes consecutivas são recebidas pelo mesmo nodo é computada como segue. A primeira resposta a um teste enviada por Y é recebida por X no tempo t + 2(∆send init+ ∆send min)

e a segunda resposta a um teste enviada por Y ´e recebida no tempo t + 2(1 + ρ)π + 2(∆send init + ∆send max). Para que o evento de falha seja detectado, o time-out em X

deve expirar no m´aximo no tempo t + 2(1 + ρ)π + 2(1 + 2ρ)(∆send init+ ∆send max). A

diferen¸ca de tempo entre o instante em que o nodo X detecta um time-out e a primeira resposta a um teste ´e recebida ´e 2(1 + ρ)π + 4ρ∆send init+ 2(1 + 2ρ)∆send max− 2∆send min.

Chame-se a este resultado de γtester.

Suponha-se agora que o nodo Y se torna falho no tempo t + 2∆send init+ ∆send max

após ter recebido uma requisi¸cão de teste e ter respondido. A resposta ao teste é recebida por X no máximo após ∆send max. Isto resulta t+2(∆send init+∆send max). A requisi¸cão de

teste enviada por Y ap´os recuperar ´e recebida por X no m´ınimo no tempo t+ 2∆send init+

∆send max+ SHT + (1 −ρ)W + ∆send init+ ∆send min. A diferen¸ca entre estes dois instantes

de tempo deve ser maior que γtester mais D(∆send init+ ∆send max) + Θ de forma a permitir

que o evento seja diagnosticado. Isto resulta SHTu tester > 2(1 + ρ)π − (1 − ρ)W + (D −

1 + 4ρ)∆send init+ (D + 3 + 4ρ)∆send max − 3∆send min+ Θ.

Como SHTu tester > SHTu tested, SHTu tester ´e empregado abaixo para calcular W

e o tempo de reten¸c˜ao de estado final. Considere-se SHTw node como calculado no lema

12. Minimizando com respeito a W , tal como em [Subbiah e Blough, 2004], pode ser conclu´ıdo que ao passo em que W cresce, SHTw node monotonicamente tamb´em cresce,

enquanto SHTu tester monotonicamente decresce. Para W = 0, SHTw node < SHTu tester.

Portanto SHTw node e SHTu tester cruzam em algum ponto W > 0 e o tempo de reten¸c˜ao

de estado ´e minimizado quando SHTu tester = SHTw node. Resolvendo para W obtemos

calculada acima para SHTu tester resulta no tempo de reten¸c˜ao de estado para nodos no

estado sem-falha, do inglˆes node unresponsive state holding time SHTu node enunciado.

lema 15. O tempo m´ınimo que um enlace deve permanecer no estado falho de forma a ser diagnosticado como n˜ao-respondendo ´e 2(1 + ρ)π + (D + 4ρ)∆send init+ (D +

2 + 4ρ)∆send max − 2∆send min+ Θ.

prova. Analogamente ao lema 13 acima, o tempo de reten¸c˜ao de estado para enlaces no estado falho, do inglˆes link unresponsive state holding time, SHTu link, deve

ser maior que a latência máxima para diagnosticar um enlace que acabou de se tornar não-respondendo, como calculado no lema 10.

No documento Um algoritmo de diagnóstico distribuído para redes particionáveis de topologia arbitrária (páginas 103-107)