An´ alise com uma Implementa¸c˜ ao Sequencial

6.3 An´ alise dos Resultados

6.3.1 An´ alise com uma Implementa¸c˜ ao Sequencial

Como mostrado na se¸cão de resultados obtidos, realizamos para o caso da aplica¸cão de cálculo matricial um experimento extra, a fim de verificar o desempenho da implementa¸cão Gamma-GPU contra uma implementa¸cão sequencial de Gamma, chamada Gamma-Seq. Isto porque já vimos que Gamma-GPU foi bem superior `

a Gamma-Base em praticamente todos os casos de teste, contudo, as duas implementa¸cões compartilham o mesmo arcabou¸co arquitetural de troca de mensagens, e este arcabou¸co sofre com problemas de desempenho devido ao fato de não haver implementado um escalonador apropriado como o proposto na Se¸cão 4.5. Com isso, a implementa¸cão Gamma-Base acaba sempre sendo superada pela versão sequencial de Gamma, que não possui nenhum overhead de troca de mensagens. Em algumas aplica¸cões de teste, principalmente aquelas que possuem um potencial menor de paralelismo, até mesmo a Gamma-GPU pode vir a ser superada pela implementa¸cão sequencial. Porém, quando aumentamos o tamanho da entrada para valores muito grandes, a implementa¸cão Gamma-GPU, mesmo sofrendo dos impactos da falta do escalonador no ambiente distribu´ıdo, é capaz de compensar esta limita¸cão através do ganho obtido pelo processamento nas GPUs, e se sobressai em rela¸cão à Gamma-Seq. Por isso resolvemos utilizar a aplica¸cão de cálculo matricial com entradas maiores que as anteriormente empregadas, e procedemos os experimentos nas versões Gamma-Seq e Gamma-GPU. A versão Gamma-Base não foi testada nesta ocasião, pois como já falamos, é sempre superada até mesmo pela versão sequencial, e com os novos tamanhos de entrada, chegando a cem mil elementos, levaria muito tempo para executar e não contribuiria para a análise. Como podemos notar nos resultados obtidos, a implementa¸cão Gamma-Seq ficou próxima à Gamma-GPU em rela¸cão ao tempo de execu¸cão para a primeira entrada de 30 mil tuplas, entretanto, quando aumentamos a entrada para 60 e 100 mil tuplas, percebemos claramente os impactos sofridos pela versão sequencial, ao passo que a versão com GPUs mantém-se praticamente estável em seu tempo de execu¸cão, levando a speedups bastante significativos, chegando a 27 vezes mais rápido para a entrada de 100 mil tuplas.

Outras aplica¸cões também tendem a demonstrar um comportamento similar quando a entrada utilizada é muito grande, mas cada uma com magnitudes de ganho

diferentes, de acordo com as caracter´ısticas de paralelismo exibidas pelas mesmas. Como exemplo, no trabalho contemporâneo ao nosso que desenvolveu a aplica¸cão de fusão de dados em Gamma [11] que utilizamos como um dos casos de teste neste trabalho, foram procedidos experimentos comparando as implementa¸cões Gamma-Seq, Gamma-Base, e Gamma-GPU. Como já discutimos, a aplica¸cão de fusão de dados exibe um paralelismo limitado no tocante ao número de rea¸cões que podem ocorrer simultaneamente, e ainda assim, para a maior entrada testada no referido trabalho (base de dados com onze sensores), foi constatado que a implementa¸cão Gamma- GPU superou a versão sequencial Gamma-Seq, obtendo um speedup próximo a duas vezes mais rápido.

Cap´ıtulo 7

Conclus˜oes

Neste último cap´ıtulo faremos a conclusão do trabalho, no qual falaremos sobre o cumprimento dos objetivos elencados no in´ıcio da disserta¸cão, e discutiremos a respeito dos pontos fortes e fracos do que foi desenvolvido, evidenciando as contri- bui¸cões trazidas pela solu¸cão proposta, e citando limita¸cões e poss´ıveis melhorias através de trabalhos futuros.

7.1 Realiza¸c˜ao dos Objetivos

O principal objetivo desta disserta¸cão foi prover uma nova implementa¸cão do paradigma Gamma que fornecesse suporte à execu¸cão de programas sobre a arquitetura das GPUs. Isso porque vemos em Gamma uma forma simples e natural de se expres- sar problemas, e acreditamos que seu modelo de computa¸cão se casaria muito bem ao modo de processamento adotado pelas GPUs, de maneira que a união destes dois conceitos poderia trazer um beneficio em dobro, com os programas Gamma sendo acelerados pelas GPUs, e com o acesso às GPUs sendo feito de forma transparente usando Gamma. Utilizando como base uma implementa¸cão paralela e distribu´ıda já existente voltada para plataformas com processadores convencionais, fomos capazes de estendê-la com sucesso, mantendo o suporte a um ambiente computacional distribu´ıdo e adicionando à arquitetura do modelo as GPUs, o que resultou em uma plataforma heterogênea de processamento. Chamamos esta nova implementa¸cão de Gamma-GPU.

Pudemos verificar através de experimentos práticos realizados sobre um cluster de GPUs que a nossa nova implementa¸cão comportou-se de maneira correta em rela¸cão às respostas emitidas na execu¸cão de vários programas em Gamma, como o de cálculo de números primos, de ordena¸cão de valores, de fusão de dados, en- tre outros. Além disso, mensuramos os tempos de execu¸cão das aplica¸cões quando executadas sobre a implementa¸cão Gamma-GPU e os confrontamos com os tempos da implementa¸cão base que não suporta GPUs. Percebemos claramente o grande

benef´ıcio em termos de acelera¸cão trazidos pelo novo modelo, com speedups que chegaram a valores bastante expressivos superando o modelo precedente em uma centena de vezes para alguns dos casos de teste. Para uma das aplica¸cões de teste, a de cálculo matricial, realizamos um experimento extra com entradas maiores a fim de proceder uma compara¸cão de desempenho de Gamma-GPU com uma implementa¸cão sequencial de Gamma, e comprovamos também nesse caso, que Gamma- GPU foi capaz de prover boas acelera¸cões para o tempo de execu¸cão do programa em questão.

Desta forma, acreditamos ter cumprido de forma satisfatória os objetivos que identificamos no in´ıcio do trabalho, tendo fornecido um estudo e uma implementa¸cão mais atuais relacionados ao paradigma Gamma, que deve motivar outros pesquisa- dores a estudarem e contribu´ırem com aspectos ligados ao tema. Cumprindo os objetivos, evidenciamos vários pontos fortes da solu¸cão desenvolvida, mas natural- mente, existem também limita¸cões que surgiram ao longo do desenvolvimento da solu¸cão que ainda estão em aberto, e nos permitem vislumbrar uma série de incre- mentos ao modelo implementado, conforme veremos adiante.

No documento Publicações do PESC Uma Derivação do Paradigma de Reescrita de Multiconjuntos Gamma para a Arquitetura GPU (páginas 132-135)