Delirium - Programa¸c˜ao Paralela Funcional e Coordena¸c˜ao

2.6 O Paradigma de Coordena¸c˜ao

2.6.6 Programa¸c˜ao Paralela Funcional e Coordena¸c˜ao

2.6.6.4 Delirium

dena¸cão e o código de computa¸cão das entidades, através do uso de uma linguagem sepa-

rada para coordena¸cão de processos. Ao contrário, em Linda, primitivas de coordena¸cão são implementadas como extensão à linguagem host, tornando-se embutidas dentro desta linguagem. Delirium adota a abordagem inversa, tornando a linguagem host embutida na linguagem de coordena¸cão, através do uso de operadores. Estes tem portanto o mesmo papel das primitivas de Linda, ou seja, unir as entidades coordenadas ao meio de coordena¸cão.

Basicamente, Delirium é uma linguagem funcional convencional, suportando fun¸cões de alta ordem, recursão, let-bindings, e expressões condicionais. No entanto, não há nenhuma primitiva de computa¸cão definida na linguagem. Computa¸cão é especificada por meio de operadores definidos em outra linguagem, como C ou Fortran. Abstrai-se assim de forma completa a parte de coordena¸cão da parte de especifica¸cão da computa¸cão realizada por cada entidade coordenada. Partindo do pressuposto de que, em geral, o processo de constru¸cão de um programa paralelo inicia-se com base em uma versão sequencial deste, a partir do qual são identificadas partes que podem ser executadas em paralelo, Delirium oferece um ambiente de programa¸cão bastante expressivo, permitindo que as

partes paralelas do programa sejam integradas utilizando o arcabou¸co de coordena¸c˜ao provido pela linguagem, evitando assim a reescrita de c´odigo.

O modelo de paralelismo de Delirium é determin´ıstico, tornando tal modelo satis- fatório para expressão de programas paralelos s´ıncronos, utilizando a no¸cão de estruturas

de coordena¸cão [158]. Entretanto, a grande cr´ıtica com rela¸cão ao modelo de coordena¸cão

adotado por Delirium é justamente sua dificuldade em expressar padrões irregulares de paralelismo, sendo assim bastante restritivo. Experimentos mostraram a ineficiência de implementa¸cões de programas paralelos que aderem a padrões comuns de paralelismo, como o modelo de trabalhadores replicados (farm) e fork-join. Entretanto, seus defen- sores arguem que são justamente esses padrões irrestritos de intera¸cão, os quais podem gerar programas não-determin´ısticos, que tornam os programas paralelos tão dif´ıceis de manter e depurar.

Delirium tem sido implementada eficientemente sobre arquiteturas de memórias distribu´ıdas, utilizando um esquema de avalia¸cão de operadores baseado em fluxo de da- dos, através de um grafo de coordena¸cão que modela as dependências de dados entre as unidades paralelas do programa. Uma importante observa¸cão relativa a esta implementa¸cão é a baixa sobrecarga gerada pelo seu sistema em tempo de execu¸cão. Isso pôde ser confirmado em uma aplica¸cão de modelagem de retina em quatro processadores, onde a sobrecarga correspondeu a 1% do tempo total de execu¸cão.

O MODELO # PARA PROGRAMAC¸ ˜AO PARALELA

A necessidade por ferramentas de mais alto n´ıvel que tornem a tarefa de programa¸cão paralela mais simples e abstrata para o desenvolvimento de aplica¸cões complexas foi discutida nos cap´ıtulos 1 e 2. Especificamente neste último, foram discutidos aspectos relacionados à tarefa de programa¸cão paralela sobre arquiteturas distribu´ıdas, em especial clusters.

Enfase foi dedicada às limita¸cões das técnicas atuais, motivando a exposi¸cão do ponto de vista, adotado neste trabalho, a cerca das caracter´ısticas que devem ser suportadas por um ambiente de programa¸cão paralela ideal, as quais visam tornar essa tarefa mais simples, aproximando seu n´ıvel de dificuldade à tarefa de programa¸cão seqüencial. O emprego de formalismos para a análise de propriedades formais de programas, modelagem de desempenho e simula¸cão, algo negligenciado nas ferramentas existentes atualmente, deve ainda ser suportado. O modelo de coordena¸cão foi introduzido como um importante passo conceitual para a evolu¸cão dos modelos de programa¸cão paralela de forma a atender esses requisitos.

O modelo #, apresentado neste cap´ıtulo, surgiu como consequência das idéias ilustradas nos cap´ıtulos anteriores. Sua concep¸cão e evolu¸cão foi orientada pelo seguinte conjunto de premissas e suposi¸cões:

• Em ferramentas de programa¸c˜ao paralela, o uso de mecanismos impl´ıcitos para

explora¸cão transparente do paralelismo em programas tem produzido resultados modestos com rela¸cão ao desempenho. A este fato atribui-se o dif´ıcil trato computa- cional caracter´ıstico dos algoritmos para solu¸cão ótima e generalizada dos problemas envolvidos no gerenciamento automático do paralelismo, como o particionamento e o balanceamento de carga, quando existentes. Especificamente no problema de par- ticionamento, a determina¸cão do grau ótimo de granularidade é ainda dificultado devido à dependência com a própria semântica da aplica¸cão e de caracter´ısticas intr´ınsecas à arquitetura alvo, as quais são dif´ıceis de serem modeladas satisfatori- amente por meios formais;

• O uso de mecanismos dinˆamicos para gerenciamento do paralelismo em tempo de

execu¸cão também não têm produzido resultados animadores em casos gerais. Isso se deve à necessidade do uso de sistemas de gerenciamento do paralelismo em tempo de execu¸cão. Estes implementam algoritmos que executam concorrentemente às computa¸cões efetivas do programa, causando uma sobrecarga que soma-se à sobrecarga de comunica¸cão já existente. Para reduzi-la, esses sistemas devem idealmente ser implementados de forma muito eficiente, possibilidade que contradiz-se ao dif´ıcil trato computacional dos problemas gerais associados ao gerenciamento automático do paralelismo. A solu¸cão para esse problema tem sido a implementa¸cão de al-

goritmos que se aplicam a instˆancias simplificadas do problema geral ou o uso de

heur´ısticas, as quais n˜ao possuem garantias de resultados ´otimos;

• Com a grande evolu¸c˜ao em termos de desempenho nas tecnologias de comunica¸c˜ao

em redes de computadores e arquiteturas de processadores seqüenciais, com a redu¸cão dos custos associados a aquisi¸cão destas tecnlogias, o uso de arquiteturas de memória distribu´ıda tornou-se viável em processamento de alto desempenho. Essas arquiteturas oferecem grande escalabilidade. A emergência da tecnologia de

clusters [18], sobretudo compostos com computadores pessoais, tem tido um pa-

pel preponderante neste contexto, por estes oferecerem poder computacional com- par´avel a supercomputadores, por´em a um custo muito inferior;

• Programas paralelos de granularidade fina apresentam baixo desempenho quando

executados sobre arquiteturas de memória distribu´ıda, apesar da rápida evolu¸cão da tecnologia de comunica¸cão nessas arquiteturas observado na última década;

• No paralelismo expl´ıcito, a mistura do c´odigo sequencial (computa¸c˜oes) com

o código que lida com o gerenciamento do paralelismo dificulta a constru¸cão e compreensão de programas paralelos, inviabilizando o reuso de código e tornando-o pouco portável. Nessa abordagem, multiplica-se à dificuldade inerente à programa¸cão sequencial a dificuldade associada ao gerenciamento do paralelismo. A análise formal de programas, uma possiblidade real devido a existência de formalismos consagrados para esse fim [115, 169, 170, 188], é impossibilitada de ser realizada automaticamente, uma vez que o paralelismo, embora expl´ıcito, encontra- se obscurecido no código. Este problema se agrava quando o código sequencial é escrito em uma linguagem imperativa, as quais já são de dif´ıcil trato formal em sua forma pura. No caso de linguagens paralelas que extendem linguagens pré- existentes, torna-se necessário construir novos compiladores e, em muitos casos, sistemas em tempos de execu¸cão para gerenciamento do paralelismo. Não há portanto um aproveitamento direto da tecnologia de compila¸cão sequencial já existente, o que é importante na otimiza¸cão de desempenho de programas de grossa e média granularidade, onde a maior parte do tempo de execu¸cão do programa é gasto no modo sequencial de execu¸cão;

• N˜ao existem metodologias para engenharia de programas paralelos em seu caso geral. Atribui-se este fato à diversidade de modelos de programa¸cão e arquiteturas f´ısicas destinadas ao suporte ao paralelismo, dificultando a ado¸cão de uma abordagem padrão para engenharia de programas;

• Em aplica¸c˜oes paralelas de alto desempenho, sobretudo em computa¸c˜ao cient´ıfica

e engenharia, a estrutura topológica e o padrão de intera¸cão entre os processos é geralmente regular e estática [186, 177, 28], sendo estas portanto suposi¸cões realistas no projeto de uma linguagem voltada à programa¸cão paralela em computa¸cão de alto desempenho.

Com base nas premissas e suposi¸cões estabelecidas, o modelo # é estático, expl´ıcito, e fundamentado na no¸cão de hierarquia de processos. Processos são programados uti- lizando uma linguagem sequencial (linguagem host). Estes são então interligados em uma rede de comunica¸cão descrita através de uma linguagem de configura¸cão capaz de definir canais através dos quais os processos comunicam-se. As caracter´ısticas das linguagens de configura¸cão, empregadas largamente em sistemas distribu´ıdos e descri¸cão de hardware, favorecem o emprego de metodologias modulares de desenvolvimento de sistemas de grande escala [144].

No projeto do modelo #, a linguagem de configura¸cão deve ser projetada de forma a manter capacidade expressiva, para a descri¸cão de padrões de intera¸cão entre processos, equivalente às redes de Petri lugar/transi¸cão [188], um disseminado formalismo com grande número de ferramentas dispon´ıveis para o seu suporte. Podemos então usar redes de Petri para permitir a análise de propriedades de programas descritos no modelo #. Embora não sejam equivalentes a máquinas de Turing, as quais são capazes de descrever quaisquer padrões de intera¸cão e organiza¸cão topológica que podem ser encontrados em programas paralelos, redes de Petri são suficientemente expressivas para aplica¸cão dentro do contexto de aplica¸cões de alto desempenho, as quais em geral descrevem padrões regulares e estáticos de intera¸cão de processos e organiza¸cão topológica. Redes de Petri podem ainda ser aplicadas para predi¸cão de custos de execu¸cão e comunica¸cão de programas, utilizando algumas de suas variantes de alto n´ıvel, como, por exemplo, redes de Petri estocásticas e temporizadas. Os aspectos relativos ao uso de redes de Petri em ambientes de desenvolvimento baseados no modelo # serão discutidos em detalhes no Cap´ıtulo 5.

Em programas #, a hierarquia de processos garante que a especifica¸c˜ao das com-

puta¸cões, realizada por unidades sequenciais (processos) programadas com a linguagem host, encontra-se hierquicamente separada da especifica¸cão da coordena¸cão entre estas

por meio da linguagem de configura¸cão. As vantagens resultantes devido ao suporte à hierarquia de processos são destacadas a seguir:

• A avalia¸c˜ao de desempenho e an´alise de propriedades formais de um programa

paralelo podem ser realizadas em n´ıvel de coordena¸cão, abstraindo-se quaisquer suposi¸cões a cerca da implementa¸cão das computa¸cões que caracterizam a funcionalidade das unidades sequenciais. De maneira independente, é também poss´ıvel re- alizar a análise de propriedades formais e avalia¸cão de desempenho de cada unidade sequencial, em n´ıvel de computa¸cão, utilizando formalismos possivelmente distin- tos daquele aplicado em n´ıvel de coordena¸cão, porém apropriados à linguagem host empregada;

• Aproveitamento do estado da arte da tecnologia de compila¸c˜ao sequencial de pro-

gramas, uma vez que a compila¸cão das unidades sequenciais pode ser realizada de maneira independente a sua configura¸cão na rede de processos, utilizando um compilador sequencial pré-existente, sem necessidade de modificá-lo. O uso de compiladores sequenciais eficientes tem impacto importante sobre o desempenho de programas #, uma vez que o modelo # favorece a descri¸cão de programas paralelos de média e grossa granularidade. Devido a essa caracter´ıstica, o tempo de execu¸cão desperdi¸cado no modo sequencial é predominante. Uma biblioteca de passagens de

mensagens pode ser usada para gerenciamento do paralelismo. Neste trabalho, foi adotada MPI (Message Passing Library) [73], por esta ter se tornado um padr˜ao de

facto em cluster computing, sendo bem documentada e reconhecidamente eficiente.

Os construtores do modelo # têm tradu¸cão direta para as primitivas de MPI; Por favorecer a constru¸cão de programas paralelos de granularidade média e grossa e a minimiza¸cão da sobrecarga do gerenciamento do paralelismo em sua implementa¸cão, o modelo # é apropriado para aplica¸cão sobre clusters de computadores pessoais conecta- dos por interfaces de rede convencionais, como Ethernet. Nesses ambientes, a latência de comunica¸cão entre os nós de processamento é um fator cr´ıtico que pode afetar o desempenho de programas.

O estilo de programa¸cão caracter´ıstico do modelo # emprega fortemente a no¸cão de composi¸cão hierárquica de programas e o conceito de esqueletos [63], os quais poten- cializam o reuso de parte de programas no n´ıvel de coordena¸cão e a portabilidade entre arquiteturas.

Nas se¸cões que se seguem, descreve-se detalhadamente o modelo #, introduzindo-se as abstra¸cões suportadas por este modelo, as quais capturam a estrutura essencial pre- sente na especifica¸cão de programas paralelos sob a perspectiva do meio de coordena¸cão. Posteriormente, descrevemos a linguagem Haskell#, uma materializa¸cão do modelo #, a qual emprega a linguagem # para configura¸cão de processos em n´ıvel de coordena¸cão e a linguagem funcional Haskell para especifica¸cão das unidades sequenciais (módulos fun- cionais), em n´ıvel de computa¸cão. Respectivamente, introduziremos os construtores da linguagem #, sua tradu¸cão para MPI, e alguns exemplos simples de programas. Exemp- los mais complexos, especialmente com o emprego de esqueletos e composi¸cão hierárquica serão ilustrados no cap´ıtulo 4 e apêndices.

3.1 AS PEC¸ AS B´ASICAS (COMPONENTES)

Componentes são abstra¸cões para as entidades # que implementam funcionalidades, as quais, quando compostas, descrevem as computa¸cões realizadas pelo programa paralelo. Idealmente, cada componente implementa uma funcionalidade espec´ıfica, sendo descrito unicamente pela sua interface, composta por argumentos e pontos de retorno (Figura 3.1).

...

pontos de retorno argumentos

?

Figura 3.1. Componente

Com rela¸c˜ao a implementa¸c˜ao, existem dois tipos de componentes: simples e com-

computa¸cões sequenciais que caracterizam o meio de computa¸cão. Componentes compostos descrevem computa¸cões paralelas, sendo programados por meio da linguagem #, caracterizando o meio de coordena¸cão. Portanto, estes são constitu´ıdos a partir de out- ros componentes, simples ou compostos, descrevendo uma hierarquia possivelmente an- inhada. É fácil observar que, nessa hierarquia, os componentes localizados nas folhas são simples, enquanto aqueles localizados em nós intermediários são compostos.

Um programa # ´e definido por um componente em particular, o componente de

aplica¸c˜ao, o qual implementa a funcionalidade da aplica¸c˜ao. Note que um componente

de aplica¸c˜ao simples descreve um programa # sequencial, enquanto um componente de aplica¸c˜ao composto descreve um programa # paralelo.

No documento Programação Paralela de Alto Nível e Eficiente sobre Arquiteturas Distribuídas (páginas 67-73)