Escalonamento de Tarefas Divisíveis em Redes Estrela

(1)

Escalonamento de Tarefas Divis´ıveis em Redes Estrela

Elbio Renato Torres Abib1∗_{, Celso Carneiro Ribeiro}2

1_{Departamento de Informática – União Pioneira de Integração Social} SEPS 712/912, Conj. A - Asa Sul – 70390-125 Bras´ılia, DF

2_{Departamento de Informática – Pontif´ıcia Universidade Católica do Rio de Janeiro} Rua Marquês de São Vicente, 225 RDC – 22453-900 Rio de Janeiro, RJ

elbio02781@upis.br, celso@inf.puc-rio.br

Abstract. The divisible job scheduling problem consists of determining how to divide the data to be processed among processors and in which order each frac-tion should be sent to them. It is considered the divisible load scheduling prob-lem in star networks with heterogeneous computers and links. Original mixed integer linear programming formulations of this problem are proposed, as well as new heuristics and a new algorithm with complexity O(n) to find the optimal solution for a special case.

Resumo. O problema de escalonamento de tarefas divis´ıveis consiste em de-terminar como uma carga a ser processada deve ser dividida entre proces-sadores e em que ordem cada fração de carga será enviada a cada processador. Considera-se o escalonamento em redes estrela com computadores e enlaces heterogêneos. Para este problema são propostas formulações originais como modelos de programação linear inteira mista, novas heur´ısticas e um novo al-goritmo de complexidade O(n) para a solução ótima de um caso especial.

1. Introduc¸˜ao

O grande aumento de performance das redes de computadores, combinado com a proliferação de computadores de baixo custo e alto desempenho, trouxe à tona ambi-entes de meta-computação, ou grids [Foster e Kesselman 2004]. Estes ambiambi-entes po-dem combinar milhares de computadores de centenas de dom´ınios diferentes, conectados através de redes locais ou pela rede mundial. A grande heterogeneidade deste tipo de ambiente, somada a muitas restrições de segurança (tanto em termos de acesso, como de comunicação entre processadores), vêm impulsionando o estudo de um tipo especial de tarefa, as chamadas tarefas divis´ıveis.

O conceito de tarefas divis´ıveis foi introduzido originalmente por Robertazzi et al. [Cheng e Robertazzi 1988] e tem sido bastante estudado nos últimos anos. Uma tarefa divis´ıvel é caracterizada por poder ser dividida arbitrariamente em um número qualquer de frações de carga, podendo cada parte ser processada em paralelo, sem restrições de precedência. Este modelo permite inclusive uma divisão fracionária da carga, o que sim-plifica o seu estudo sem reduzir muito sua generalidade, uma vez que pressupõe-se uma alta granularidade de dados.

(2)

Muitas aplicações modernas podem ser modeladas como tarefas divis´ıveis. Como exemplos, pode-se citar a busca por um padrão de imagem num grande banco de imagens, coloração de grafos, junções em banco de dados, entre ou-tros [Drozdowski e Wolniewicz 2000]. Este modelo de carga divis´ıvel fornece uma maneira simples, porém realista, para o mapeamento de tarefas independentes em plataformas heterogêneas, cuja boa aderência às situações reais é apresentada em [Drozdowski e Wolniewicz 2000].

Assim como nos demais trabalhos relacionados ao escalonamento de tarefas di-vis´ıveis, considera-se apenas grids dedicados, ou seja, sistemas heterogêneos inteiramente dedicados à execução da tarefa divis´ıvel. Ao contrário de grids não-dedicados, onde pode existir grande flutuação no poder computacional dispon´ıvel em cada processador.

No trabalho é apresentado o modelo de sistema considerado, os métodos encontra-dos na literatura para o escalonamento de tarefas divis´ıveis, bem como os novos resultaencontra-dos obtidos em [Abib e Ribeiro 2004]. Por fim são apresentados resultados computacionais que comparam as principais técnicas apresentadas.

1.1. Modelo de sistema

Assim como em [Beaumont et al. 2003], segue-se o paradigma mestre/escravo (ou mestre/trabalhador), onde n processadores escravos s˜ao referenciados como P1, P2, . . . ,

Pn e o processador mestre como P0. Neste modelo, o processador mestre não participa da computação, sem perda de generalidade.

A topologia de interconexão dos processadores é do tipo estrela, formada por n enlaces que ligam o processador mestre P0 aos demais. Assume-se que o mestre utiliza a rede de forma seqüencial, ou seja, ele envia dados a no máximo um processador por vez, sem possibilidade de concorrência. Esta caracter´ıstica, comumente assumida nos trabalhos relacionados, pode ser justificada pela implementação no processador mestre ou por propriedades dos enlaces de rede.

Uma vez definido que o processador P0 enviará uma quantidade de dados α (me-dida em unidades de informação, e.g. três imagens) para o processador Pi, o enlace de

comunicação será utilizado por um per´ıodo de tempo gi + Giαi, onde gi é a latência de

comunicação e Gi é o inverso da taxa de transmissão do enlace entre P0 e Pi.

Ap´os Pireceber todos os αi dados, ele ir´a processa-los por um per´ıodo de tempo

igual a wiαi, onde wi ´e o tempo necess´ario para o processamento de uma unidade de

informação. É importante salientar que o modelo assume comunicação e computação concorrentes, o que é aproveitado por certas técnicas de escalonamento.

1.2. Escalonamento de tarefas divis´ıveis

Com o objetivo de facilitar o estudo do comportamento de diferentes escalonadores, foi desenvolvido um módulo que permite a visualização do comportamento do sistema com um gráfico de Gantt, dada uma série de decisões de escalonamento (como na Figura 1).

No problema de escalonamento de tarefas divis´ıveis, tem-se como principal parâmetro de performance, o chamado makespan, que consiste no tempo de término do último processador que participa da computação da carga W . Sua minimização é o obje-tivo das técnicas apresentadas.

(3)

É dito que um escalonamento é feito em um único per´ıodo se a tarefa divis´ıvel é particionada e, dada uma ordem de envio, cada processador Pi que participará do

proces-samento recebe uma única parcela αi numa única vez, i = 1, . . . , n. No gráfico da

Figura 1, por exemplo, é apresentado um escalonamento ótimo onde P6 foi o primeiro processador a receber carga, seguido por P1, P8 e assim por diante. As barras pretas indicam as latências de comunicação(gi), as cinzas-escuras indicam o tempo variável de

comunicac¸˜ao(Giαi) e as cinzas-claras indicam o tempo de processamento(wiαi). Nota-se

que todos os processadores receberam carga uma ´unica vez e terminaram de process´a-las no mesmo instante de tempo.

Figura 1. Escalonamento ´otimo em apenas um per´ıodo

Com o objetivo de aproveitar mais o paralelismo, são utilizadas técnicas com múltiplos per´ıodos. Na maioria das técnicas descritas na literatura tem-se uma ordem fixa de envio de dados para os processadores. O processador mestre começa então a en-viar αi,1dados para cada processador Pisegundo a ordem já definida, i = 1, . . . , n. Após

o t´ermino do envio de dados para todos os processadores na primeira rodada, P0 envia

αi,2 dados para cada processador Pi na mesma ordem, e assim por diante. O gr´afico da

Figura 2 ilustra um exemplo onde s˜ao utilizados trˆes per´ıodos de envio (delimitados por barras verticais).

Figura 2. Escalonamento em m ´ultiplos per´ıodos

2. Escalonamento usando apenas um per´ıodo

Ainda não foi encontrado um algoritmo polinomial que resulte no makespan ótimo para o escalonamento de tarefas divis´ıveis considerando latências de comunicação. Existem porém resultados para alguns casos especiais onde a otimalidade pode ser conseguida com

(4)

facilidade. Em [Blazewicz e Drozdowski 1997] foi apresentado um estudo da influência da inclusão de latências de comunicação em sistemas com diferentes topologias, sendo que casos especiais foram identificados para sistemas com rede estrela. Estes resultados, juntamente com aqueles encontrados em [Beaumont et al. 2003], permitem solucionar o problema de maneira ótima para sistemas com taxas de transmissão idênticas (algoritmo

O(n log n)), para enlaces idˆenticos (algoritmo O(n log n)) e com ordem de envio

pr´e-determinada (algoritmo O(n log n)).

Para este último caso especial foi desenvolvido neste trabalho um novo algoritmo rápido AlgRap que encontra o escalonamento ótimo com complexidade O(n). Com este resultado importante, foi poss´ıvel o desenvolvimento de uma nova heur´ıstica construtiva com retro-alimentação HeuRet. Esta heur´ıstica escolhe uma ordem de envio e utiliza-se de AlgRap para encontrar bons escalonamentos de forma rápida. Com o objetivo de encontrar resultados ainda melhores, foram desenvolvidas duas técnicas de busca local para este problema que, em conjunto com HeuRet, obtêm resultados muito bons.

Além dos algoritmos descritos anteriormente, buscando-se resultados ótimos para o problema geral, neste trabalho desenvolveu-se um modelo original de programação lin-ear inteira mista com algumas desigualdades válidas (contrastando com os modelos não-lineares inteiros mistos da literatura). Este modelo permite encontrar o resultado ótimo para instâncias de menor porte e um limite inferior para instâncias maiores.

3. Escalonamento usando m ´ultiplos per´ıodos

Para o escalonamento usando múltiplos per´ıodos considerando-se latências, pode-se en-contrar em [Beaumont et al. 2003] as heur´ısticas HF ix e HAdapt. Enquanto HF ix fixa o tamanho de todos os per´ıodos a priori, HAdapt ajusta a duração dos per´ıodos durante o escalonamento.

É proposta neste trabalho uma nova heur´ıstica HeuMul para escalonamento em múltiplos per´ıodos. Este método utiliza HeuRet para determinar a ordem de envio e escolhe o número de per´ıodos a serem utilizados para esta dada ordem.

Partindo-se para o estudo de uma solução exata para o problema, não se encontrou na literatura formulações como modelos de programação linear ou não-linear inteiras. Neste trabalho foram então desenvolvidos dois modelos de programação linear inteira mista para o problema, sendo esta mais uma das importantes contribuições deste trabalho. Resultado este importante para comparação das heur´ısticas e determinação de limites in-feriores. O primeiro modelo considera um número fixo de processadores e per´ıodos, enquanto que o segundo determina o número ótimo de per´ıodos a serem utilizados.

4. Resultados computacionais

Para a análise das técnicas apresentadas, foi desenvolvido uma biblioteca de classes em C++ para representar sistemas heterogêneos com as caracter´ısticas descritas, simular a execução das técnicas e gerar logs a serem analisados pelo módulo criador de gráficos de Gantt. Para a resolução dos modelos criados, foi utilizado o pacote ILOG CPLEX v8.0.

Para a comparação das técnicas, foram gerados 720 casos de teste organizados conforme poder computacional dos processadores, velocidade dos enlaces, número de processadores e quantidade de dados a serem processados.

(5)

Com os novos modelos lineares inteiros mistos propostos no trabalho foi poss´ıvel encontrar soluções ótimas para 160 casos de teste usando per´ıodo único e 14 usando múltiplos per´ıodos. Para os demais casos de teste foram utilizadas as relaxações destes modelos para a obtenção de bons limites inferiores. A utilização destes modelos per-mitem que neste trabalho e em trabalhos futuros, os resultados de heur´ısticas possam ser comparados de forma mais objetiva.

Com os testes computacionais, verificou-se que HeuRet resultou em escalona-mentos ótimos para 95% dos casos onde são conhecidos tais resultados, necessitando para isso em média cinco milisegundos de processamento (viabilizando sua utilização on-line). Apesar da maioria dos resultados ótimos não serem conhecidos, graças às relaxações dos modelos criados, sabe-se que os makespans obtidos pela heur´ıstica HeuRet, na média de todos os casos de teste, não se distanciam mais do que 30% dos resultados ótimos.

Para escalonamentos com múltiplos per´ıodos, devido à sua complexidade, foi poss´ıvel encontrar apenas 14 soluções ótimas, sendo que HeuMul conseguiu encontrar 12 destas, exigindo em média de 12 segundos de processamento. Os testes também apon-taram que HeuRet obteve makespans que são respectivamente 1/28 e 1/30 dos obtidos pelas técnicas HAdapt e HF ix, encontradas na literatura. Esta grande diferença é decor-rente da forma de previsão de makespan utilizado por ambas as técnicas.

5. Conclus˜ao

Neste trabalho foram desenvolvidas técnicas inovadoras para o escalonamento de tarefas divis´ıveis, incluindo um algoritmo de complexidade O(n) para um caso especial muito importante (até então na literatura só existia um algoritmo de complexidade O(n log n)) e heur´ısticas que obtiveram resultados emp´ıricos excelentes. Resultados esses que, na maioria das simulações realizadas, se mostraram muito superiores àqueles das heur´ısticas da literatura.

Foram também desenvolvidos novos modelos lineares inteiros mistos que per-mitem que sejam encontradas soluções ótimas para muitas instâncias, além de limites inferiores para uma série de instâncias maiores, o que possibilita uma análise mais ob-jetiva dos resultados encontrados por heur´ısticas. Salienta-se que os modelos originais propostos podem ser adaptados com bastante facilidade para variações do problema de escalonamento em redes estrela, servindo como importante ferramenta para um vasto es-pectro da pesquisa em escalonamento de tarefas divis´ıveis.

Referˆencias Bibliogr´aficas

Abib, E. R. T. e Ribeiro, C. C. (2004). Escalonamento de tarefas divis´ıveis em redes estrela. Dissertac¸˜ao de Mestrado, PUC-Rio.

Beaumont, O., Legrand, A., e Robert, Y. (2003). Optimal algorithms for scheduling divisible workloads on heterogeneous systems. Em 12th Heterogeneous Computing

Workshop. IEEE Computer Society Press.

Blazewicz, J. e Drozdowski, M. (1997). Distributed processing of divisible jobs with communication startup costs. Discrete Applied Mathematics, 76:21–41.

Cheng, Y. C. e Robertazzi, T. G. (1988). Distributed computation with communication delay. IEEE Transactions on Aerospace and Electronic Systems, 24:700–712.

(6)

Drozdowski, M. e Wolniewicz, P. (2000). Experiments with scheduling divisible tasks in clusters of workstations. Em Bode, A., II, T. L., Karl, W., e Wism¨uller, R., editores,

6th International Euro-Par Conference, volume 1900 de Lecture Notes in Computer Science, p´aginas 311–319, Munique. Springer-Verlag.

Foster, I. e Kesselman, C. (2004). The Grid: Blueprint for a New Computing