Tratando Tipos Compostos - Execu¸c˜ ao dos Kernels CUDA

5.4 Detalhes de Implementa¸c˜ ao

5.4.2 Execu¸c˜ ao dos Kernels CUDA

5.4.2.2 Tratando Tipos Compostos

Já vimos anteriormente que as threads criadas para a execu¸cão dos kernels na GPU, realizam seus processamentos baseadas nos chamados elementos-base do multiconjunto. Vimos também, que a dinâmica básica do processamento em cada thread consiste em realizar as combina¸cões entre seu elemento-base e os demais elemen-

tos do multiconjunto, testando a condi¸cão de rea¸cão. Para que possa acessar um elemento qualquer do multiconjunto, incluindo o próprio elemento-base, a thread precisa conhecer a posi¸cão que ele ocupa no array de elementos, que como bem sabemos, é o formato no qual o multiconjunto é transformado para ser submetido ao processamento na GPU. Nos casos onde o multiconjunto é formado apenas por elementos do tipo simples, como por exemplo no programa "maximo.gm", este acesso pode ser feito de maneira simples e direta, uma vez que cada elemento do multiconjunto, ocupa apenas uma posi¸cão no array, como podemos ver a seguir:

multiconjunto { 8, 2, 5, 9, 1, 4, 7, 3 }

↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓

array h 8, 2, 5, 9, 1, 4, 7, 3 i

Nesse caso, uma indexa¸cão direta resolveria o problema do acesso, uma vez que temos oito elementos no multiconjunto e também oito posi¸cões no array. Supondo que o elemento-base de uma thread fosse o quarto elemento do multiconjunto, de valor "9", bastaria acessar a quarta posi¸cão do array (de ´ındice = 3), para obter tal valor, lembrando que a indexa¸cão no array inicia em zero.

Todavia, este comportamento não se repete para os casos nos quais o multiconjunto é formado por elementos de tipos compostos (tuplas) ou por uma mistura de elementos simples e compostos. Nessas situa¸cões, o número de elementos presentes no multiconjunto é necessariamente menor que o número de posi¸cões no array re- sultante, visto que as tuplas são consideradas como um único elemento no multiconjunto, mas ocupam mais de uma posi¸cão quando são representadas sequencialmente na forma de array. Esta caracter´ıstica adiciona um n´ıvel de indire¸cão na tarefa das threads de acessar corretamente os elementos, tornando-a mais dispendiosa, pois não há mais uma rela¸cão direta de indexa¸cão entre a posi¸cão do elemento no multiconjunto e a posi¸cão no array. Desta forma, para que as threads pudessem realizar o devido acesso aos elementos nesta classe de multiconjuntos, foram criados dois arrays auxiliares, um chamado de offset e o outro de elem-size. A partir de agora, usaremos o termo bag-array, para nos referirmos ao array utilizado para representar o multiconjunto, a fim de evitar confusões.

O array offset serve para armazenar os ´ındices do bag-array no qual um de- terminado elemento se encontra, ao passo que o array elem-size, é utilizado para guardar os tamanhos dos elementos compostos presentes no multiconjunto. Ambos possuem tamanho igual ao número de elementos existentes no multiconjunto, os quais, ainda que sejam do tipo composto, contam como apenas um elemento. Ou seja, a indexa¸cão destes dois arrays, o offset e o elem-size, é realizada de maneira

Figura 5.8: Exemplo de multiconjunto misto e dos arrays associados para o correto acesso aos seus elementos.

direta de acordo com a posi¸cão do elemento no multiconjunto. Em outras palavras, uma thread que deseje acessar um elemento do bag-array, deve primeiro realizar uma indexa¸cão direta no array offset, para obter a posi¸cão correta de armazenamento, e depois, deve realizar outra indexa¸cão direta, desta vez no array elem-size, para descobrir qual o tamanho do elemento que está sendo acessado, podendo assim, obter os sucessivos valores em posi¸cão e quantidade correta, para os casos de tipos compostos. A Figura 5.8 nos demonstra um exemplo de multiconjunto misto, e os arrays usados para sua representa¸cão principal (bag-array), e para permitir o acesso de maneira correta (offset e elem-size).

Suponhamos que uma thread quisesse acessar o quarto elemento (´ındice = 3) do multiconjunto mostrado, que é a tupla "[4,5]". O primeiro passo seria realizar uma indexa¸cão direta no ´ındice três do array offset, e armazenar este valor em uma variável para uso futuro, chamemos-na de "idx":

idx = offset[3]; ↓

idx = 6;

Depois, a thread deveria da mesma forma, indexar diretamente o array elem-size, obtendo o tamanho ("tam") do elemento sendo buscado:

elem-size h 1, 2, 3, 2 , 1, 3 i

tam = elem-size[3]; ↓

tam = 2;

Finalmente, ela poderia realizar o acesso ao elemento pretendido no bag-array, utilizando o ´ındice "idx=6" para index´a-lo, e sabendo que o elemento possui tamanho "tam=2", ou seja, dois valores discretos para serem lidos:

bag-array h 2, 1, 1, 3, 3, 3, 4, 5, 7, 8, 8, 8 i valor_1 = bag-array[idx]; valor_2 = bag-array[idx+1]; ↓ valor_1 = bag-array[6]; valor_2 = bag-array[7]; ↓ valor_1 = 4; valor_2 = 5;

Na implementa¸cão realizada, além das estruturas mencionadas, a representa¸cão do multiconjunto no formato de array utilizou algumas outras variáveis úteis para seu funcionamento, como por exemplo, um array mantendo os ´ındices dos elementos-base. A seguir podemos ver a struct em linguagem C que foi criada e utilizada para manter as informa¸cões do multiconjunto:

/* Run-Time bag-array, para processamento na GPU */

struct rt_bag_array {

int size; //n´umero de valores discretos no array

int *data; //valores discretos do array

int reaction_size; //n´umero de elementos em uma rea¸c~ao

int reaction_num_vals; //n´umero de valores discretos em uma rea¸c~ao

int num_elements; //n´umero de elementos no array

int *offset; //array de offsets dos elementos

int *elem_size; //array de tamanho dos elementos

int num_base; //n´umero de elementos-base no array

int *ind_base; //array de ´ındices dos elementos-base };

No documento Publicações do PESC Uma Derivação do Paradigma de Reescrita de Multiconjuntos Gamma para a Arquitetura GPU (páginas 88-92)