O Algoritmo RDZ - Algoritmos de Diagn´ostico para Redes de Topologia Arbitr´aria

2.2 Algoritmos de Diagn´ostico para Redes de Topologia Arbitr´aria

2.2.3 O Algoritmo RDZ

O algoritmo descrito nesta se¸cão tem seu nome das iniciais de seus autores. Neste algoritmo, proposto por [Rangarajan, Dahbura e Ziegler, 1995], a rede tem topologia arbitrária e um nodo sem-falha sabe quais são seus vizinhos. Os nodos falham segundo o modelo crash e um nodo sem-falha é capaz de testar um nodo vizinho e de responder a um teste feito por um de seus vizinhos. Um nodo sem-falha pode se tornar falho e um nodo falho pode se recuperar a qualquer tempo.

O algoritmo não distingue entre uma falha em um nodo e uma falha em um canal de comunica¸cão. Assim, o nodo que manda uma mensagem para um nodo vizinho recebe uma resposta de teste ou um acknowledgement dentro de um certo per´ıodo somente se o outro nodo está sem-falha. Os enlaces de comunica¸cão têm atraso limitado.

por exatamente um outro nodo. Cada nodo sem-falha é responsável por assegurar que exatamente um de seus vizinhos sem-falha (se existe um nestas condi¸cões) o está tes- tando. Desta forma, um nodo sem-falha pode requisitar que um nodo vizinho se torne seu testador.

Nodos falhos não são monitorados e um nodo que recupera não depende de que outros nodos detectem esta ocorrência. Um nodo recém recuperado não tem conhecimento sobre o estado dos demais nodos da rede. Quando um nodo detecta que um nodo que ele está monitorando tornou-se falho ou que um nodo falho recuperou, ele propaga esta informa¸cão para todos os seus vizinhos, que a propagam por sua vez a seus vizinhos na rede e assim por diante.

2.2.3.1 A Transa¸c˜ao de Valida¸c˜ao

O algoritmo executa em dois passos: deteçcão de falhas em nodos vizinhos e dissemina¸cão de informa¸cão sobre as mesmas. Um evento é definido como a transi¸cão de um nodo tanto do estado sem-falha para o estado falho como do estado falho para o estado sem-falha.

Nodos testam outros nodos periodicamente e o nodo que detecta uma falha propaga esta informa¸cão para os demais. A informa¸cão é propagada por meio de uma transa¸cão de valida¸cão: quando um nodo propaga informa¸cão para outro, o primeiro determina antes se o segundo está falho, e o faz enviando uma mensagem e esperando uma confirma¸cão. Assim, existem dois mecanismos de deteçcão de falhas: um é através do teste propriamente dito e o outro é através de um timeout de uma mensagem enviada como parte de uma transa¸cão de valida¸cão. Se um nodo não responde corretamente a uma mensagem de valida¸cão, o nodo que a enviou dissemina informa¸cão sobre este evento de falha; assim, transa¸cões de valida¸cão são também utilizadas como testes.

Os dados que são enviados na mensagem da transa¸cão de valida¸cão consistem, entre outros, de um vetor de eventos, event[n], onde n é o número de nodos da rede, com cada entrada contendo um contador de eventos detectados para aquele nodo. O contador de eventos é inicializado com 0 e incrementado a cada evento detectado, de forma que um contador par significa nodo sem-falha, enquanto que um contador ´ımpar significa nodo

falho. Este vetor ´e c´opia de um vetor similar, mantido localmente em cada nodo.

Quando um nodo sem-falha recebe uma transa¸cão de valida¸cão, ele checa se a informa¸cão contida na mensagem é a mesma, ou considerada antiga ou considerada nova, comparada com suas próprias informa¸cões. Se a informa¸cão é a mesma, então o nodo que recebeu a mensagem tem a mesma informa¸cão que o nodo que a enviou a respeito do estado de todos os nodos do sistema. Se a informa¸cão é antiga, então o nodo que recebeu a mensagem tem informa¸cão mais recente a respeito de pelo menos um dos nodos e a mesma informa¸cão a respeito dos demais nodos. Ainda, se a informa¸cão recebida é nova, então o nodo que a recebeu tem informa¸cão mais antiga do que aquele que a enviou a respeito de pelo menos um dos nodos da rede e tem a mesma ou nova informa¸cão sobre o restante dos nodos.

Se a informa¸cão recebida é a mesma, então esta informa¸cão não é propagada adi- ante pelo nodo. Se a informa¸cão recebida é antiga, então a informa¸cão da mensagem é atualizada e enviada como resposta ao nodo (e somente ao nodo) que a enviou. Se a informa¸cão recebida é nova, a informa¸cão local e a informa¸cão contida na mensagem são ambas atualizadas conforme o caso e uma transa¸cão de valida¸cão é enviada a todos os vizinhos do nodo que a recebeu.

E utilizado um vetor de bits de tamanho igual ao número de nodos no sistema, no qual uma entrada é assinalada com 1 se a mensagem já visitou aquele nodo. Este vetor é utilizado para diminuir o número de mensagens redundantes e é inicializado com 0 quando um nodo forma uma mensagem para enviá-la.

2.2.3.2 Nodos ´Orf˜aos

Um nodo do sistema é dito órfão se não há nenhum outro nodo que seja seu testador. Isto pode ocorrer tanto para nodos no estado falho como para nodos no estado sem-falha. Se um nodo se torna falho, após a deteçcão deste evento o nodo que o testava deixa de testá- lo e ele se torna um órfão falho. Quando um nodo falho é reparado, ele requisita a cada um seus vizinhos, um por um, que o testem, até obter uma resposta positiva, ocasião em que ele deixa de estar órfão. O nodo que aceitou testar o nodo recém recuperado detecta

este novo evento e envia uma transa¸c˜ao de valida¸c˜ao a todos os seus vizinhos.

Se o testador de um nodo se torna falho, o nodo se torna um órfão sem-falha e pode não detectar imediatamente que não está sendo testado. Quando um de seus vizinhos sem-falha lhe envia uma mensagem contendo possivelmente a informa¸cão sobre a falha do nodo testador, o nodo percebe que está órfão e então solicita a um de seus vizinhos que o teste.

Um nodo órfão sem-falha pode se tornar falho antes que a informa¸cão sobre a falha de seu testador chegue até ele. Se isso ocorrer, a falha do nodo órfão não é detectada de imediato. Quando outro nodo envia a este uma mensagem sobre o novo estado da rede, por exemplo, a de que seu testador tornou-se falho, detecta a falha do nodo órfão e inicia uma dissemina¸cão sobre ela.

2.2.3.3 A Falha Jellyfish

Se ocorre a falha simultânea de vários nodos, vizinhos a um componente conexo de nodos sem-falha, então estas falhas serão detectadas se ao menos um dos nodos falhos for testado por um dos nodos sem-falha. A falha de um dos nodos é detectada pelo nodo testador e a falha dos demais através dos timeouts das transa¸cões de valida¸cão.

Entretanto, se os nodos formarem uma configura¸cão chamada pelos autores de jellyfish (em português, medusa), onde há um conjunto de nodos que testam todos uns aos outros, formando um anel, e esta configura¸cão for vizinha a um componente conexo de nodos sem-falha, em que nenhum deles testa um dos nodos da jellyfish, é poss´ıvel que a falha simultânea de todos os nodos da configura¸cão jellyfish não seja detectada.

A Figura 2.8 mostra uma configura¸c˜ao deste tipo, em que o nodo B e o nodo C formam a cabe¸ca da jellyfish, com “tent´aculos” emergindo para os nodos A e nodo D.

Os autores argumentam quanto à pequena probabilidade de forma¸cão de uma configura¸cão jellyfish com vários nodos, entretanto esta configura¸cão pode ocorrer em qualquer sistema de topologia arbitrária e corresponde efetivamente a uma situa¸cão de falha não detectável.

A

B

C

D

Figura 2.8: Um exemplo de jellyfish.

No documento Um algoritmo de diagnóstico distribuído para redes particionáveis de topologia arbitrária (páginas 45-49)