Gest˜ao de estado - Gestão de estado eficiente no serviço de coordenação DDS

A recuperação de estado num serviço BFT é parte fundamental da concepção deste tipo de serviços, sendo portanto largamente discutido [2, 9, 11, 12, 20, 27].

Nesta secção vão ser apresentados os protocolos de recuperação de estado que per- mitem ao DDS recuperar o seu estado após a ocorrência de falhas parciais e também de falhas totais.

3.3.1 Transferˆencia de estado

Na ocorrência de uma falha parcial, em que apenas f réplicas falham, estas réplicas podem recuperar os seus estados a partir das restantes réplicas que se tenham mantido em funcionamento e com o estado consistente.

Quando uma réplica recupera de uma falha, pede o estado a uma das réplicas que se manteve em funcionamento e pede ainda os hashes dos estados das restantes réplicas para conseguir validar o estado recebido.

Esta recuperação de estado a partir de outras réplicas faz parte dos protocolos ofere- cidos pela biblioteca BFT-SMaRt [41], pelo que não serão dados mais detalhes quanto à implementação desta transferência de estados.

3.3.2 Sincronizac¸˜ao de estados iniciais

Em caso de falha total, onde todas as r´eplicas param de funcionar (p.ex., devido a uma falha de energia), o sistema tem de ser capaz de reiniciar e reconstruir todo o estado anterior `a falha.

Apesar de ser de extrema importância, apenas o serviço de coordenação Sinfonia [2] faz referência a um protocolo capaz de recuperar o sistema deste tipo de falhas. O protocolo mencionado faz uso de uma réplica de gestão do sistema, responsável por iniciar a troca de estados entre as réplicas reiniciadas, o que pode ser um ponto único de falha do protocolo, já que esta réplica pode também falhar e comprometer assim a transferência de estados e a garantia de durabilidade dos dados. O DDS evita este ponto único de falha usando uma troca de mensagens entre as réplicas ao invés de uma réplica que faz a comunicação entre elas.

Existem n = 3f + 1 réplicas do serviço, das quais apenas f podem apresentar estado persistente inválido (p.ex., por ter os seus ficheiros de logs e checkpoints corrompidos antes da falha total). Durante a execução do protocolo, se uma réplica enviar informação

Cap´ıtulo 3. DDS – Durable DepSpace 30

incorrecta, isso pode bloquear a execução do protocolo, levando a que as réplicas reiniciem e voltem a tentar sincronizar-se. Por essa razão, o protocolo executa entre 3 e 3 + f rondas, onde as réplicas trocam mensagens entre si. Estas f rondas adicionais correspon- dem a uma ronda por cada réplica que contenha algum estado corrompido. Este estado terá de ser recuperado por inteiro através da transferência dos estados das n − f réplicas que contêm o estado correcto.

O protocolo de sincronização está dividido em dois algoritmos (descoberta do estado iniciale transferência e instalação do estado), descritos a seguir.

O algoritmo de descoberta do estado inicial processa-se da seguinte forma:

1. Uma réplica reinicia e envia uma mensagem às restantes réplicas com o formato hREINIT, id, last log eidi, onde id corresponde ao identificador da réplica e last log eid ao número de sequência da última operação do seu log;

• Ao receber esta mensagem, uma r´eplica guarda o last log eid da mensagem e, caso o seu id seja superior ao da mensagem, responde com uma mensagem semelhante, com os seus id e last log eid;

• Se for a ´unica r´eplica a reiniciar:

– Se as restantes réplicas não falharam, a réplica não vai obter qualquer resposta, pelo que o protocolo de transferência de estados é activado (ver secção 3.3.1);

– Se as restantes réplicas falharam, a réplica espera que elas reiniciem e lhe enviem uma mensagem igual à descrita anteriormente.

2. Caso receba 3f mensagens de réplicas diferentes, a réplica ordena todos os last log eids recebidos por ordem decrescente e escolhe o (f + 1)-ésimo last log eid como last commited eid;

• Como os last log eids estão ordenados por ordem decrescente, o (f + 1)- ésimo corresponde ao last log eid que f + 1 réplicas receberam e guardaram nos seus respectivos logs;

3. A r´eplica envia para todas as restantes uma mensagem com o formato hSTATE, id,

ckp, logi, onde id corresponde ao identificador da réplica e ckp ao hash do estado recuperado do seu checkpoint e log ao hash das last commited eid operações recuperadas do seu log;

4. Na presenc¸a de pelo menos f + 1 hashes semelhantes de checkpoints e de logs, a r´eplica verifica se estes hashes coincidem com o seus;

(a) Caso coincidam, a réplica instala o seu ckp e as last commited eid operações do seu log;

Cap´ıtulo 3. DDS – Durable DepSpace 31

(b) Caso contr´ario precisa de obter o estado das restantes r´eplicas (executando o algoritmo descrito a seguir);

5. Caso não existam f +1 hashes semelhantes de checkpoints e de logs, significa que o estado da réplica que tem o last log eid escolhido não é correcto, pelo o protocolo remove a réplica com o estado incorrecto e volta ao passo 1;

O algoritmo de transferência e instalação do estado funciona da seguinte forma: 1. Caso se verifique o passo 4b do algoritmo anterior, a obtenção do estado das restan-

tes r´eplicas pode processar-se de trˆes formas diferentes:

• Apenas o hash do checkpoint da réplica difere dos restantes: a réplica envia uma mensagem com o formato hGET CKP, idi a uma réplica escolhida aleatoriamente de entre as que possuem o hash do checkpoint correcto;

• Apenas o hash do log da réplica difere dos restantes: a réplica envia uma mensagem com o formato hGET LOG, idi a uma réplica escolhida aleatoriamente de entre as que possuem o hash do log correcto;

• Ambos os hashes diferem: a r´eplica envia uma mensagem com o formato hGET ALL STATE, idi a uma r´eplica escolhida aleatoriamente de entre as que possuem os hashes do log e do checkpoint correctos.

2. Em resposta a estas mensagens, as restantes r´eplicas respondem com:

• Uma mensagem com o formato hCKP STATE, id, ckpi, onde ckp ´e o estado contido no seu ficheiro de checkpoint;

• Uma mensagem com o formato hLOG STATE, id, logi, onde log ´e o estado

contido no seu ficheiro de log;

• Uma mensagem com o formato hALL STATE, id, ckp, logi, contento o estado de ambos os ficheiros log e checkpoint.

3. Ao receber a resposta, a r´eplica verifica cria o hash do estado contido na mensagem e verifica se coincide com os hashes recebidos anteriormente;

• Caso coincida, a r´eplica instala o estado;

• Caso contrário, a réplica escolhe outra réplica de entre as que possuem os hashescorrectos e repete o pedido de estado;

4. Para finalizar, todas as r´eplicas criam um novo checkpoint do seu estado.

No final do protocolo, todas as réplicas possuem o estado confirmado do sistema antes da falha total ocorrer (i.e., todas as operações dos clientes que obtiveram respostas estão nesse estado), podendo começar a executar operações de clientes como se fossem as primeiras operações a serem recebidas (do ponto de vista da biblioteca de replicação).

Cap´ıtulo 3. DDS – Durable DepSpace 32

No documento Gestão de estado eficiente no serviço de coordenação DDS (páginas 49-52)