Provisionamento e Coordenac¸˜ao de Recursos sob Demanda

manda

Dentro do nosso conhecimento, nós somos o primeiro grupo a investigar o potencial do uso de redes de broadcast para a construção de infraestruturas computacionais distribu´ıdas instantâneas e sob demanda [Batista et al. 2007] [Costa et al. 2009]. Existem, entretanto, alguns outros trabalhos que apresentam convergência com a nossa pesquisa.

O framework FALKON (Fast and Light-weight tasK executiON) [Raicu et al. 2007; Raicu et al. 2008] tem como foco a possibilidade de execução rápida de aplicações HTC em clusters computacionais baseando-se na integração de escalonadores multi-n´ıvel e despa- chantes (dispatchers) simplificados para oferecer alto desempenho. O escalonamento multi- n´ıvel do FALKON separa a aquisição de recursos (através de requisições em lote para escalonadores, por exemplo) da distribuição de tarefas, em um processo similar ao da abordagem OddCI.

7.2 Provisionamento e Coordenac¸˜ao de Recursos sob Demanda 137

abstração de fork de máquina virtual que instantaneamente duplica uma VM em múltiplas réplicas executando em diferentes servidores através do uso de um esquema de comunicação um-para-muitos, como os sistemas OddCI. Usando uma técnica de distribuição multicast, SNOWFLOCK fornece uma eficiente clonagem em memória de VMs ativas que, potencialmente, pode escalar para centenas de réplicas consumindo poucos recursos de I/O da nuvem. Assim como o OddCI, SNOWFLOCK também aborda a instanciação, sob demanda, de mi- lhares de VMs paralelas em determinados ambientes de computação na nuvem, mas que, diferentemente da nossa abordagem, requer a pré-alocação de recursos f´ısicos e a integração de sua API nas aplicações em tempo de compilação.

Em termos de alocação de recursos sob demanda, o projeto NEPHELE [Warneke e Kao 2009] foi um dos primeiros frameworks para processamento paralelo que, explicitamente, buscou explorar a alocação dinâmica de recursos para escalonamento e execução de tarefas em ambientes de nuvem. Baseando-se em grafos de execução (execution graphs) elaborados pelo usuário, o framework NEPHELE também traz a possibilidade, como o OddCI, para alocar e desalocar, automaticamente, recursos computacionais durante a execução de uma aplicação.

Francois et al. [Francois, State e Festor 2007a] mostram que hackers, quando usando bot- nets, enfrentam os mesmos problemas de coordenação escalável endereçados no Cap´ıtulo 5. Uma botnet é uma rede de computadores comprometidos (bots) controlados remotamente por um botmaster. Estas estruturas provaram sua eficiência no controle de redes P2P com mais de 400.000 nós [McLaughlin 2004]. O uso de soluções de gerenciamento de serviços de rede inspirados em modelos de malware para controle de redes de larga escala foi proposto por Francois et al. em trabalhos subsequentes [Francois, State e Festor 2007b; Francois, State e Festor 2008]. Os principais benef´ıcios destes modelos são: a) a capacidade de gerenciar um grande número de nós heterogêneos, e b) flexibilidade no uso, porque os controles e mecanismos de propagação são independentes das aplicações.

Desde que milhões de PNAs ativos podem estar enviando heartbeat messages para o Controller, simultaneamente, mecanismos de hierarquização, otimização e distribuição de frequência de envio devem ser incorporadas ao manuseio de tais mensagens para que as mesmas não representem um gargalo no sistema. Abordagens para problemas similares já foram propostas em outros contextos [Francois, State e Festor 2007a].

Na outra extremidade do processo, a infraestrutura de retaguarda precisa estar devida- mente aprovisionada para usufruir plenamente da potencial vazão de processamento su- portada pela instância OddCI criada. Neste sentido, a taxa na qual o Backend consegue despachar tarefas para os dispositivos pode limitar o poder de computação potencialmente dispon´ıvel na instância OddCI. Entretanto, há diversas abordagens que podem ser adotadas na montagem do Backend para impedir que o mesmo seja um gargalo para o sistema. Um exemplo de abordagem aplicável é o projeto do servidor de tarefas (Task Server) usado no BOINC [Anderson 2004], um middleware para computação voluntária, que consegue dis- tribuir cerca de8, 8 milhões de tarefas por dia (101, 85 tarefas por segundo) usando apenas um único computador de baixo custo. Com o uso de dois computadores adicionais, a sua capacidade aumenta para23, 6 milhões de tarefas por dia (273, 14 tarefas por segundo).

Fedak at al. [Fedak et al. 2010] constru´ıram uma plataforma experimental para computação distribu´ıda usando dispositivos de baixa capacidade conectados através de banda larga, chamada DSL-Lab, que oferece a possibilidade para pesquisadores realizarem expe- rimentos em condições próximas àquelas que normalmente estão dispon´ıveis com conexões domésticas com a Internet. Os resultados confirmam que é poss´ıvel construir uma pilha completa de software em uma plataforma de design leve e de baixo custo sobre os dispositivos conectados em banda larga implementando gestão de recursos, eficiência energética, segurança e conectividade.

As estratégias propostas para o provisionamento OddCI para controlar o tamanho de instância e garantir que ele é adequado para a vazão requerida pelo cliente estão alinhadas com outras iniciativas de pesquisa. Aron e Chana propuseram um framework que oferece pol´ıticas de provisionamento para agendamento e alocação de recursos, e demonstraram que uma abordagem baseada no provisionamento de QoS é eficaz para minimizar o custo e o tempo de submissão de aplicações (submission burst time) [Aron e Chana 2012]. Rood e Lewis [Rood e Lewis 2009] estudaram a indisponibilidade freqüente e volátil de grades computacionais baseadas em recursos voluntários e usaram um modelo multi-estado para anali- sar um log de disponibilidade de máquinas baseado em dados coletados do Condor [Litzkow, Livny e Mutka 1988]. Partindo desse estudo, desenvolveram técnicas de predição para pre- ver transições de recursos nos estados do modelo e, com base em tais previsões, propuseram técnicas de replicação de tarefas e escalonadores que são capazes de replicar as tarefas que

7.2 Provisionamento e Coordenac¸˜ao de Recursos sob Demanda 139

são mais prováveis de falhar, melhorando a eficiência da execução das aplicações.

Considerando contextos com recursos computacionais não dedicados, a previsão de disponibilidade dos dispositivos representa um aspecto relevante do provisionamento. A disponibilidade de recursos no middleware para grades computacionais Condor é modelada em5 estados [Litzkow, Livny e Mutka 1988; Rood e Lewis 2009]: dispon´ıvel, usuário presente, limiar de CPU excedido, evicção de tarefa ou encerramento elegante (graceful shutdown) e indispon´ıvel. Tais estados diferenciam os tipos de indisponibilidade refletindo as pol´ıticas que os donos dos recursos preferem (por exemplo, permitir o uso do recurso mesmo quando parte do processamento estiver sendo utilizada). Com base nesses estados e no histórico de disponibilidade dos recursos [Rood e Lewis 2009], usam preditores para análise de intervalos considerando osN dias anteriores no mesmo horário da previsão (N-Day) ou considerando as N horas anteriores ao horário da previsão (N-Recent). A forma de análise considera o número de transições do estado dispon´ıvel para cada outro estado de indisponibilidade (transactional) e calculam a porcentagem de tempo que o recurso permanece em cada estado (durational), utilizando uma inferência sobre esses valores como a probabilidade do recurso mudar para o estado a seguir. Além disso, um esquema de ponderação que considera um peso igual, onde todas as transições possuem a mesma influência no comportamento futuro do recurso (equal weighting). Outro esquema tem ponderação de tempo, onde as transições que ocorreram mais próximas do horário previsto emN dias anteriores recebem um peso maior (time weighting) e, por fim, há a possibilidade de maior ponderação para a transição mais recente, não considerando o horário do dia (frehness weighting). Os resultados de maior acurácia de predição para o estado dos recursos entre os propostos foram de 77, 3% para a combinação transitional/N-recent/freshness (TRF) e 78, 3% para a combinação transitional/N-Day/equal(TDE). Essas duas combinações superaram outros preditores para recursos aplicáveis em grades computacionais como Saturating and History Counter predictors [Mickens e Noble 2006], Multi-State and Single State Sliding Window predictors [Dinda 2006] e Ren Predictor [Ren et al. 2007]. A abordagem TRF é semelhante à técnica de seleção por ranqueamento que usamos no Cap´ıtulo 5 mas requereu algumas simplificações para eliminar estados não naturais em alguns contextos nos quais os sistemas OddCI podem operar.

No documento Just in time clouds: uma abordagem baseada em recursos terceirizados para a ampliação da elasticidade de provedores de computação na nuvem. (páginas 153-157)