NRT Node Reuse Table - Implementa¸c˜ ao das tabelas de memoriza¸c˜ ao

6.2 Implementa¸c˜ ao das tabelas de memoriza¸c˜ ao

6.2.1 NRT Node Reuse Table

A tabela ou cache NRT é uma tabela de memoriza¸cão utilizada para armazenar valores de entrada e sa´ıda de nós válidos para o reúso no grafo dataflow. Para o rápido acesso dos seus elementos, utilizamos uma estrutura de particionamento baseada em hashs dos valores de entrada dos nós. Esta possui os seguintes campos:

• Indx : Número de parti¸cão da tabela de memoriza¸cão.

• Inp Op: Operandos de entrada utilizados na execu¸cão do nó. • Out Op: Operandos de sa´ıda produzidos pela execu¸cão do nó. • Node ID : Identificador numérico único do nó.

• Node Group ID: Identificador numérico único do grupo ao qual o nó executado pertence.

• Node Type: Nome da tarefa que o nó implementa, semelhante a um mnemônico de instru¸cão.

O campo Indx é constru´ıdo a partir dos operandos de entrada do nó. Esses operandos são serializados em uma string de bytes. Como a Sucuri é implementada em python, utilizamos o método cPickle para realizar a serializa¸cão. A string é convertida em um hexadecimal através de uma fun¸cão de hash md5, após isso, o hexadecimal é convertido em um inteiro decimal. Uma opera¸cão de módulo é realizada entre este valor e o número de parti¸cões da NRT.

Quando uma opera¸cão de busca na tabela é feita para os operandos de entrada de um nó, a conversão hash utilizada para calcular o campo Indx é realizada sobre estes operandos. O valor inteiro gerado a partir da conversão é utilizado para acessar a NRT. Isso garante um acesso mais rápido à NRT, pois apenas um subconjunto de entradas desta tabela serão verificados para validar a redundância do nó. Isto foi implementado na Sucuri para otimizar o acesso à tabela durante as simula¸cões de execu¸cões.

A figura 6.2 apresenta este processo de transforma¸cão para definir a parti¸cão em que a entrada da NRT será armazenada. O quadro ”A”mostra o nó do grafo recebendo 3 operandos de entrada (a, b, c) e produzindo o operando d. À esquerda de ”A”, vemos o processo de transforma¸cão do valor (a, b, c) em um inteiro a ser utilizado como número de parti¸cão de uma NRT que possui 10 parti¸cões. O processo inicia com a cria¸cão de uma string de bytes utilizando a classe cPickle. A seguir, um código hash md5 convertido para decimal é gerado, e, por fim, a opera¸cão de módulo entre este valor e a quantidade de parti¸cões na NRT, calcula o número da parti¸cão na qual esta entrada deverá ser armazenada. O quadro ”C”apresenta o registro armazenado com os dados da execu¸cão do nó 2.

Os campos Node ID, Node Group ID e Node Type são utilizados para identificar os nós redundantes em três esquemas distintos de implementa¸cão da NRT: (i) NRT global (GNRT), (ii) NRT compartilhada (SNRT) e (iii) NRT local (LNRT).

Figura 6.2: Esquema de particionamento da NRT na Sucuri.

NRT Global

A NRT global consiste em uma única tabela NRT que possui os valores de entrada e sa´ıda para todos os nós do grafo. Portanto, um nó com todos os seus operandos de entrada dispon´ıveis, antes de executar, irá consultar a tabela NRT para verificar se o seu resultado já foi memorizado por ele mesmo ou por algum outro nó do grafo que implemente a mesma fun¸cão que ele.

Note que, ao contrário das arquiteturas tradicionais, a tabela de memoriza¸cão não é indexada por um campo de contador de programas, ao invés disso, é utilizado somente o tipo do nó e os valores de entrada do mesmo para encontrar o registro memorizado. Em implementa¸cões de reúso em arquiteturas tradicionais de Von Neumann, é interessante utilizar o PC como indexador da tabela por este prover um rápido acesso, como também, ser necessário na atualiza¸cão de preditores de desvios e outras estruturas globais da máquina. Portanto, neste modelo, uma instru¸cão do tipo add, por exemplo, não pode reutilizar outra instru¸cão do mesmo tipo, caso possuam endere¸cos diferentes. Por não haver PC no paradigma dataflow, o reúso é potencializado, pois ele ocorre para diferentes instru¸cões do mesmo tipo, ao invés de instru¸cões de um mesmo endere¸co.

A figura 6.3 apresenta o esquema de implementa¸cão global da NRT na Sucuri. Note que todos os nós possuem seus resultados escritas em uma única tabela, o que permite que nós distintos, mas que implementem a mesma fun¸cão, utilizem resultados produzidos por eles entre si. Repare que a unidade de casamento provê uma entrada de um nó pronto para execu¸cão à NRT para que uma busca seja feita.

Figura 6.3: Organiza¸c˜ao do escalonador central da Sucuri com uma NRT global.

Se o resultado desta entrada for conhecido, ele é retornado à unidade de casamento para que seja propagado aos nós dependentes. Caso contrário, uma entrada é criada na NRT, e a tarefa é instanciada a paritr do nó que estava pronto para executar. NRT Compartilhada

O esquema de implementa¸cões de NRTs compartilhadas consiste em implementar diferentes NRTs que serão utilizadas por grupos de nós distintos. Isto se assemelha `

a processadores multicores com organiza¸cões de caches locais L1 e L2 por núcleo. No momento de cria¸cão de grafos na Sucuri, cada nó é associado a um identificador (Node ID ). De forma semelhante, também podemos associar cada nó ao identificador de um grupo (Node group ID ). Nesta primeira implementa¸cão da DF-DTM, utilizamos uma metodologia simples para associa¸cão de nós aos grupos através de opera¸cões módulo. A metodologia consiste em, dado uma quantidade n de NRTs, o grupo associado ao nó de Node ID id é dado por mod(N odeid, n). Por exemplo, em uma implementa¸cão com 4 NRTs, o nó 101 seria associado ao grupo mod(101, 4) = 1, ou seja, este nó escreveria e leria os resultados de suas opera¸cões na NRT-1. Um esquema de NRTs compartilhadas com n NRTs é denominado de (S, n), onde S identifica um esquema de NRT compartilhada, e n a quantidade de NRTs utilizadas na implementa¸cão.

A figura 6.4 apresenta um esquema de NRT (S, 3). Note que os nós são orga- nizados em grupos distintos e a visibilidade de reúso deles está limitada à cache a qual o grupo está associado. Esta associa¸cão é representada na figura pela faixa azul que envolve os nós do grafo e o número n na NRT-n. Por exemplo, os nós 4 e 5 pertencem ao grupo 1 e irão ler e escrever na NRT-1. Se o nó 4 possuir operandos de entrada cujo os resultados foram produzidos anteriormente somente pelo nó 2, o

nó 4 não será detectado como redundante, pois não possui acesso à NRT-2.

Figura 6.4: Organiza¸c˜ao do escalonador central da Sucuri com 3 NRTs compartilhadas (S, 3).

NRT Local

Um esquema de implementa¸cão com NRT locais se assemelha às estratégias de reúso em arquiteturas tradicionais, onde instru¸cões somente reutilizam resultados criados por elas. Neste cenário, são criadas n NRTs, e cada nó do grafo possui uma tabela de memoriza¸cão própria. Pode-se dizer que esse esquema é uma especifica¸cão do esquema de NRTs compartilhadas, onde o número de caches é igual ao número de nós do grafo. Neste cenário o identificador do nó é utilizado para acessar a NRT.

Figura 6.5: Organiza¸cão do escalonador central da Sucuri com NRTs locais. A figura 6.5 apresenta este esquema de uso das NRTs para um grafo com 5 nós. Note que cada nó possui uma cache dedicada a si, reduzindo poss´ıveis conten¸cões,

porém diminuindo o escopo de visibilidade dos mesmos. Por exemplo, o nó 1 irá ler e escrever somente na cache NRT-1.

No documento Publicações do PESC DF-DTM: Explorando Redundância de Tarefas em Dataflow (páginas 68-73)