Primeiro N´ıvel: Adaptação Paramétrica Usando Checkpointing

usados pela técnica de tolerância a falhas em uso sejam suficientes para manter o sistema em equil´ıbrio com seus objetivos. O segundo n´ıvel de adaptação lida com variaç ões mais significativas do ambiente de execução que provocam uma degradação de desempenho da abordagem de tolerância a falhas em uso que não podem ser contornadas apenas através de adaptações paramétricas, exigindo uma reconfiguraç ão estrutural da técnica de tolerância a falhas, substituindo-se a abordagem em uso por outra. As heur´ısticas utilizadas nestes dois n´ıveis de adaptação foram baseadas no trabalho de Chtepen [5], estendendo-se suas regras, como o objetivo de se obter um melhor desempenho com aplicaç ões do tipo bag-of-tasks, que compreende a classe de aplicações mais utilizada em desktop grids e ajustando seus parâmetros para uso eficiente nesta classe de grades computacionais. Também tratamos um efeito que causa repetidas reconfiguraç ões na técnica de tolerância a falhas, o qual chamamos de efeito

ping-pong.

4.2 Primeiro N´ıvel:

Adapta¸c˜ao Param´etrica Usando

Checkpointing

A técnica de checkpointing naturalmente produz uma sobrecarga sobre o tempo de execução das tarefas, uma vez que é necessário parar o processo a cada vez que é salvo o estado do progresso da aplicação. A periodicidade estática nas tomadas dos checkpoints das tarefas torna esta abordagem não muito vantajosa quando levamos em consideração a volatilidade dos recursos em desktop grids. Um recurso é dito volátil quando, em seu hist órico de funcionamento, ele apresenta um grande n úmero de falhas ou, em se tratando de desktop grids, o proprietário do recurso não o disponibiliza com muita frequência para executar as tarefas da grade. Já os recursos estáveis são aqueles que são menos suscet´ıveis a falhas e, portanto, estão na maior parte do tempo dispon´ıveis ou executando as computaç ões submetidas à grade.

Nas abordagens estáticas, o checkpointing pode ser configurado com intervalos curtos para evitar que as tarefas, ao serem recuperadas das falhas, executem o m´ınimo poss´ıvel para retornar ao mesmo estado de quando falharam. Contudo, essa configuração irá executar muitas vezes o procedimento que para e salva o estado

4.2 Primeiro N´ıvel: Adaptação Paramétrica Usando Checkpointing 49 da tarefa, prolongando o tempo de sua conclusão. Quando o ambiente se torna estável em relação à disponibilidade dos recursos, essa sobrecarga é desnecessária. Por outro lado, em ambientes voláteis, a definição de longos intervalos para a tomada do

checkpointing pode levar a muita reexecução de c ódigo da aplicação e, dependo do grau

de volatilidade dos recursos do ambiente, o checkpointing das tarefas pode nem chegar a ser feito. Se conhecermos o grau de volatilidade dos recursos da grade, podemos estimar intervalos de checkpointing que se ajustam melhor a cada situac¸˜ao.

A fim de reduzir a sobrecarga desnecessária causada pelo checkpointing, o modelo utilizado em nossa abordagem ajusta os intervalos entre os checkpoints de cada tarefa de acordo com a volatilidade do recurso em que está executando. Então, se os processos executam em recursos estáveis, esse ajuste é feito de forma que os intervalos entre checkpoints são alargados e, portanto, é reduzida a quantidade de vezes que são feitos. De outra forma, se os processos executam em recursos voláteis, os intervalos são reduzidos e, consequentemente, uma maior quantidade de checkpoint será feita, garantindo que sejam salvos estados mais pr óximos do estado de execução do momento da falha.

Nossa abordagem configura o intervalo de periodicidade por meio de regras baseadas em duas estimativas: uma previsão sobre o tempo que irá ocorrer a pr óxima falha do recurso (failPrediction) e outra sobre o tempo de conclusão da tarefa

(taskConcTimePrediction). A primeira,failPrediction, ´e calculada obtendo-

se, primeiramente, o instante em que ocorreu a última falha do recurso. Ap ós isso, calculamos o MTBF do recurso e adicionamos esse valor ao instante da sua última falha. Já o taskConcTimePrediction, pode ser estimado utilizando-se algoritmos de predição [46] que seguem basicamente duas abordagens. Na primeira abordagem, calcula-se a estimativa do tempo de execução da aplicação baseado no registro de execuç ões anteriores da mesma ou de aplicações semelhantes. A segunda abordagem é baseada no conhecimento do modelo de execução da aplicação. O c ódigo da aplicação é analisado, estimando-se o tempo de execução de cada tarefa de acordo com a capacidade dos recursos da grade [12]. Para estimar a capacidade de processamento de um recurso, pode ser tomada como base uma medição do hardware (como CPU e mem ória) ao realizar o processamento de um dado tipo de aplicação. Um benchmark anal´ıtico poderia ser usado como forma de ordenar os recursos de acordo com a sua eficiência para executar um determinado tipo de c ódigo computacional [16].

4.2 Primeiro N´ıvel: Adaptação Paramétrica Usando Checkpointing 50 O algoritmo da Figura 4.1 descreve as condiç ões em que o intervalo entre

checkpointing de cada tarefa aumenta ou diminui na estrat´egia auton ˆomica proposta

neste trabalho.

para cadarecurso fa¸ca

para cadatarefa em execu¸c˜ao no recurso fa¸ca

se estRemExecT ime < resMT BF ent˜ao

newInterval = 2 ∗ prevInterval;

sen˜ao se estRemExecT ime >= resMT BF ent˜ao

newInterval = prevInterval/2;

fim

se newInterval < minInterval ent˜ao

newInterval = minInterval;

fim

se newInterval > maxInterval ent˜ao

11 newInterval = maxInterval; 12 fim 13 fim 14 fim 15

Figura 4.1:Heur´ıstica de adaptação paramétrica usando checkpointing.

Quando o tempo restante estimado para o término da tarefa for menor que o tempo médio entre falhas do recurso (estRemExecT ime < resMT BF ), há menor probabilidade de ocorrer uma falha com esse recurso enquanto a tarefa estiver executando nele. Baseado nessa probabilidade, reduzimos a frequência com que se faz o checkpoint dessa tarefa, através do incremento do intervalo que estabelece essa periodicidade, a fim de reduzir o overhead introduzido por esta técnica. Caso a situação seja a inversa, quando o tempo estimado para o restante da execução da tarefa for maior ou igual ao tempo médio entre falhas do recurso (estRemExecT ime ≥ resMT BF ), existe uma probabilidade maior de que ocorra uma falha enquanto a tarefa estiver executando e, por isso, o intervalo da periodicidade tem seu valor subtra´ıdo, fazendo-se checkpointing com mais frequência. Para evitar que o intervalo cresça

4.3 Primeiro N´ıvel: Adaptação Paramétrica Usando Replicação 51

No documento Uma Abordagem Autonômica para Tolerância a Falhas na Execução de Aplicações em Desktop Grids (páginas 52-55)