Arquiteturas Dataflow Hibridas e T´ecnicas, Modelos e Tecnologias

para Programa¸c˜ao Paralela

A maquina SDF [43] pode ser considerada uma máquina dataflow h´ıbrida, pois ela permite a compila¸cão de blocos que serão executadas em uma máquina de Von Neumann, mas que serão disparados segundo o modelo dataflow. Por outro lado, a arquitetura TRIPS [44] é ortogonal à SDF. A execu¸cão de blocos é disparada segundo o modelo de Von Neumann, mas, dentro de cada bloco, a execu¸cão segue o modelo dataflow. A execu¸cão de programas no modelo TRIPS requer um hardware dataflow.

A BMDFM [45] é uma máquina virtual h´ıbrida que suporta a descri¸cão de programas tanto em granularidade fina quanto grossa. Código de granularidade fina é escrito na linguagem nativa da máquina virtual, uma linguagem funcional baseada em LISP. As instru¸cões da máquina virtual podem ser alternadas com instru¸cões personalizadas, escritas em C, como as super-instru¸cões da Trebuchet. Segundo a terminologia do BMDFM, as instru¸cões personalizadas são chamadas de instru¸cões

de granularidade grossa. A BMBFM usa diversos daemons correspondentes aos diferentes componentes do escalonador dinâmica. O uso de uma linguagem funcional para descri¸cão de programas para a BMDFM é um ponto negativo do trabalho.

O Program Demultiplexing [7] é um paradigma de execu¸cão onde métodos ou fun¸cões são demultiplexados para serem executados concorrentemente com o resto do programa, de acordo com o modelo dataflow. O código fonte das aplica¸cões é modificado para permitir a execu¸cão de fun¸cões em outros núcleos de processamento antes do seu ponto de chamada. Sendo assim, resultados são produzidos e recebidos pelo fluxo de controle principal para serem utilizados quando o ponto de chamada for atingido. Os operandos de entrada (conjunto de leitura) podem ser especulados para permitir a execu¸cão demultiplexada com maior antecedência. A implementa- ¸cão demanda mudan¸cas no protocolo de coerência de cache, estruturas adicionais para armazenar resultados de execu¸cões especulativas, bem como ferramentas para selecionar e demultiplexar os métodos. Embora seja uma solu¸cão interessante, ela depende, em muitos casos, da especula¸cão para conseguir demultiplexar os métodos com antecedência suficiente para que os resultados possam estar prontos nos pontos de chamada. Além disso a dependência de suporte de hardware faz com que este método não seja uma realidade para os usuários em um futuro próximo.

O DDMCPP é um projeto que se baseia em anota¸cão de código para paraleliza¸cão [46]. O DDMCPP é um pré-processador para o modelo Data Driven Multithreading [47], que suporta dataflow dinâmico. O modelo provê unidades de sincroniza¸cão de threads, que também são responsáveis pelo escalonamento. O DMCPP disponibiliza um conjunto de pragmas para a defini¸cão de threads e a descri¸cão dos operandos trocados entre elas, como no modelo dataflow, além de pragmas para descri¸cão de la¸cos do tipo for e opera¸cões de redu¸cão. O pré-processador transforma o código para incluir a troca de operandos entre threads e opera¸cões de sincroniza¸cão. No entanto, este modelo não é muito flex´ıvel. Como o DDMCPP não é um compilador e o ambiente de execu¸cão não é uma arquitetura dataflow, não há a descri¸cão de la¸cos usando instru¸cões de granularidade fina em fluxo de dados (como uso de instru¸cões de incremento de rótulo de itera¸cão). O único tipo de la¸co dispon´ıvel é do tipo for, e o dataflow dinâmico é garantido com a cria¸cão de novos contextos no ambiente de execu¸cão (semelhante a uma chamada de fun¸cão). A cria¸cão de contextos é inclu´ıda pelo pré-processador. Além disto, não é feita uma compara¸cão de desempenho com outras ferramentas consagradas de programa¸cão paralela.

O HMPP [48] é um ambiente heterogêneo de programa¸cão paralela para multi- cores que permite a integra¸cão de diferentes aceleradores em hardware de maneira simples e preservando código legado. É provido um ambiente de execu¸cão, um conjunto de diretivas de compila¸cão, chamadas de codelets, que podem ser executadas em GPFPU, FPGAS, máquinas remotas (com MPI ) ou o CPU local. Os Codelets

são fun¸cões puras, sem efeitos colaterais (não afetam a memória global ou arquivos). Múltiplos Codelets, cada um desenvolvido para um tipo de hardware diferente, podem existir e o ambiente de execu¸cão vai escolher qual Codelet será executado, de acordo com a disponibilidade dos recursos e com as diretivas de compila¸cão previa- mente definidas. O ambiente de execu¸cão também é responsável pelas transferências de dados de/para os componentes de hardware envolvidos na computa¸cão. A ideia de um ambiente heterogêneo é interessante, no entanto, o problema do modelo de programa¸cão paralela ainda precisa ser tratado. A programa¸cão continua sendo feita com os modelos tradicionais.

O sistema Galois [49–51] é um sistema de paraleliza¸cão otimista baseado em objetos, para aplica¸cões irregulares. Ele é composto por: (i) constru¸cões sintáticas para empacotar paralelismo otimista com itera¸cões sobre conjuntos ordenados e de- sordenados, (ii) um sistema de execu¸cão para detectar acessos inseguros à memória compartilhada e executar as opera¸cões de recupera¸cão necessárias e (iii) verifica¸cões de métodos em bibliotecas de classes. Em vez de rastrear os endere¸cos acessados pelo código otimista, o Galois rastreia viola¸cões de semântica em alto n´ıvel em tipos de dados abstratos. Para cada método que realiza acessos à memória compartilhada, o programador precisa descrever quais métodos (e em quais circunstâncias) podem ser executados de forma comutativa sem conflitos. O Galois também intro- duz alternativas às verifica¸cões de comutatividade, pois estas podem ser custosas [50]. Dados compartilhados são particionados e atribu´ıdos aos diferentes núcleos de processamento e o sistema monitora se parti¸cões estão sendo “tocadas” por threads concorrentes (o que acarretaria em um conflito). Indiferente do método de detec- ¸cão usado, o programador precisa descrever um método inverso para cada método que acessa objetos compartilhados. Os métodos inversos são executados no caso de um rollback. O sistema de execu¸cão é encarregado de detectar conflitos, chamar os métodos inversos e comandar a re-execu¸cão. Embora seja um sistema bastante ino- vador, o Galois expõe ao programador alguns detalhes do modelo de especula¸cão, ao demandar a descri¸cão dos métodos inversos e das rela¸cões de comutatividade. Além disto, foi mostrado que especula¸cão baseada em verifica¸cão de comutatividade pode ser custosa [50]. Foi então sugerido um mecanismo de parti¸cão de dados e a modi- fica¸cão do mecanismo de especula¸cão para controlar o acesso a blocos de memória, invés de objetos em alto n´ıvel. No entanto, os métodos inversos para fazer opera¸cões de rollback continuam existindo.

No documento Publicações do PESC Explorando Linhas de Execução Paralelas com Programação Orientada por Fluxo de Dados (páginas 37-39)