Memoizer - Re´ uso de computa¸c˜ ao - Publicações do PESC DF-DTM: Explorando Redundância de Tar

4.2 Re´ uso de computa¸c˜ ao

4.2.8 Memoizer

Memoizer [53] é uma biblioteca Python que utiliza técnicas de reúso de computa¸cão para obter ganhos de desempenho em aplica¸cões financeiras. Constru¸cão de es- tratégias de compra e venda para acionistas é uma tarefa computacionalmente in- tensa e possui muitas computa¸cões repetidas em si. Esta biblioteca utiliza memoriza¸cão em arquivos, que consiste em utilizar o nome da fun¸cão e seus argumentos para gerar um código hash que serve como o nome de um arquivo que contém o resultado da fun¸cão. Argumentos destas fun¸cões possuem dados grandes, matrizes e dataframe com ordens de grandeza de gigabytes, por conta disso, é necessário um esquema de lookup na cache que não utilize algoritmos de hash complexos, como md5, e que também não seja mais custoso do que executar novamente a fun¸cão. O algoritmo hash utilizado pelo Memoizer é o xxhash 64

Os autores utilizam uma classe decorator, que possui métodos para realizar a memoriza¸cão de fun¸cões. Para ativar a memoriza¸cão dessas fun¸cões pela classe de decorator é necessário realizar uma anota¸cão do tipo @¡Nome Da Classe imediata- mente antes da assinatura da fun¸cão. Memoizer permite ao programador identificar quais fun¸cões serão memorizadas e também automaticamente desativa a memoriza¸cão de fun¸cões que possuam referência à palavra rand em seu corpo. Isto é feito para eliminar o risco de memorizar fun¸cões não determin´ısticas que possam alterar a lógica da aplica¸cão, caso seus resultados sejam reaproveitados. A Memoizer também permite que a memoriza¸cão para diferentes fun¸cões sejam parametrizadas a fim de permitir a melhor estratégia de reúso de computa¸cão para aplica¸cões financeiras, e, assim, obter maior desempenho.

Cap´ıtulo 5

Sucuri

Nesta se¸cão apresentamos a biblioteca python Dataflow Sucuri[21]. Sucuri é uma biblioteca minimalista que permite ao programador escrever aplica¸cões paralelas utilizando o modelo de programa¸cão Dataflow.

5.1 Arquitetura Sucuri

Nesta se¸c˜ao, descrevemos com mais detalhes o funcionamento da arquitetura da Sucuri.

A versão da arquitetura da Sucuri utilizada neste trabalho é centralizada, ou seja, possui um processo l´ıder que administra os demais processos responsáveis pela execu¸cão de um grafo Dataflow. Ela é composta dos seguintes componentes básicos: unidade de casamento, fila de tarefas prontas e workers.

A figura 5.1 apresenta a esquematiza¸cão da arquitetura da Sucuri e a intera¸cão das unidades básicas.

A comunica¸cão entre os processos paralelos workers e o escalonador central (processo l´ıder) é realizada através de troca de mensagens. A troca de mensagens pode ser feita de duas formas: através de escrita e leitura em uma área de memória comum, onde a utiliza¸cão da Sucuri é feita com o paradigma de memória comparti- lhada; ou via MPI[54], onde a utiliza¸cão da Sucuri é feita com memória distribu´ıda executando em clusters.

Em uma execu¸cão do grafo Dataflow, o escalonador central da Sucuri inicializa os workers paralelos e identifica no grafo Dataflow quais sãos os nós que não possuem entrada, esses nós fontes iniciam a execu¸cão. O escalonador cria objetos chamados tasks, também chamados de tarefas, os quais são instâncias da classe Task, a partir destes nós fontes. As tarefas possuem as seguintes informa¸cões principais: operandos de entrada, no caso de nós fonte, estes são nulos, e o identificador do nó que gerou esta tarefa. Essas tarefas são armazenadas na fila de tarefa prontas.

Os workers ao serem inicializados enviam uma mensagem para o escalonador central informando que os mesmos estão ociosos e podem consumir tarefas. O escalonador, por sua vez, utilizando um canal de comunica¸cão (memória ou MPI), envia a tarefa para o worker ocioso. Este worker irá receber a tarefa e computá-la. Cada worker possui uma cópia do grafo Dataflow e utiliza o identificador do nó contido na tarefa para descobrir qual nó deverá ser computado com os operandos de entrada também contidos no objeto Task. Após a computa¸cão da tarefa pelo worker, os operandos resultantes são enviados ao escalonador central em forma de mensagem. Além dos operandos resultantes, esta mensagem também contém os identificadores dos nós destinatários de cada operando.

O escalonador central ao receber a mensagem de um determinado worker, a encaminha para a unidade de casamento. Esta irá propagar os operandos contidos na mensagem recebida às portas de entrada dos nós destinatários, cujos identificadores também estão presentes na mensagem recebida. Se todos os operandos de entrada de um determinado nó estiverem dispon´ıveis, uma tarefa é instanciada a partir do nó, e é despachada para a fila de tarefas prontas. Se o grafo em execu¸cão for um DAG Streaming (ver se¸cão 5.4), a tarefa só é instanciada e despachada a partir do nó, se todos os operandos de entrada estiverem dispon´ıveis e, além disso, estes estiverem associados à mesma tag.

A tarefa é criada utilizando os valores dos operandos e o identificador do nó, e é armazenada na fila de tarefas prontas. Um worker, quando estiver ocioso, solicita uma nova tarefa. O escalonador retira a tarefa da fila de prontos obedecendo um padrão FIFO e a entrega ao worker, e o processo de propaga¸cão de operandos é reiniciando.

Figura 5.1: Esquematiza¸c˜ao da arquitetura da Sucuri.

A figura 5.2 apresenta o pipeline da Sucuri para execu¸cão de uma aplica¸cão Data- flow. Os estágios representados por um retângulo executam dentro do escalonador, enquanto que os demais são executados por workers, podendo estes estarem na

Figura 5.2: Pipeline da Sucuri.

mesma máquina onde o escalonador está sendo executado ou em máquinas externas interligadas por rede à maquina hospedeira do processo de escalonamento.

No documento Publicações do PESC DF-DTM: Explorando Redundância de Tarefas em Dataflow (páginas 56-59)