Proposta de Melhoria de uma Implementação Paralela para GPUs Usando CUDA - Estudo de Caso em Modelo Atmosférico

(1)

Proposta de Melhoria de uma Implementac¸˜ao Paralela

para GPUs Usando CUDA - Estudo de Caso

em Modelo Atmosf´erico

Fabiano Cassol de Vargas∗, Matheus Beniz Bieger†, Claudio Schepke 1_{Laboratório de Estudos Avançados (LEA) – Curso de Ciência da Computação}

Universidade Federal do Pampa (UNIPAMPA) CEP: 97.546-550 – Alegrete – RS – Brasil

{cassol.fabiano,matheusbieger,schepke}@gmail.com

Resumo. O uso de aceleradores do tipo GPUs é uma alternativa para agregar performance a aplicações que demandam uma grande quantidade de proces-samento. Tal arquitetura requer técnicas de programação bastante espec´ıficas, uma vez que é necessário distribuir a tarefa paralela a cada kernel executado em GPU. Nesse sentido, este artigo investiga quais aspectos devem ser observados para garantir a maximização do uso dos recursos computacionais em GPUs. Como estudo de caso, utilizou-se um protótipo de uma aplicação de modelagem atmosférica. A partir da realização de análises de ocupação da GPU e profile da aplicação é poss´ıvel constatar que o desempenho paralelo está relacionado com a modelagem apropriada do conteúdo executado em cada kernel CUDA.

1. Introduc¸˜ao

Em diversas áreas da Computação Cient´ıfica existem algoritmos que geram alto custo computacional. Uma alternativa para acelerar a execução destes algoritmos consiste na execução concorrente do código, tornando a obtenção das soluções numéricas fact´ıvel ou obtidas em um tempo de processamento aceitável. Por causa disso, diversas aplicações encontram-se em constante desenvolvimento, com diversas alterações de código, acom-panhando as mais recentes tendências nos sistemas computacionais de alto desempenho. Estas aplicações são imprescind´ıveis para diversos aspectos do cotidiano, economia e progresso da ciência, como é o caso do controle de tráfego, previsão de precipitação, monitoramento de pacientes médicos, entre outros tipos de problema/aplicação.

Atualmente, tem-se visto profundas transformações na estrutura das arquiteturas computacionais. Aceleradores altamente especializados, tais como GPUs, com vários núcleos simples de processamento têm sido amplamente utilizadas como uma solução eficiente e viável na busca por maior poder de processamento. Assim, em diversas publicações são mencionados ganhos significativos de desempenho (200_{×) em relação} a uma versão sequencial para o caso de aplicações simples. Porém, tais implementações são recentes e apresentam resultados preliminares ou ainda não aplicados a aplicações com grande demanda computacional.

∗_{Bolsista do Programa Institucional de Bolsas de Iniciac¸˜ao Cient´ıfica do Conselho Nacional de}

Desen-volvimento Cient´ıfico e Tecnol´ogico - PIBIC/CNPq 2013.

†_{Bolsista do Programa Institucional de Bolsas de Iniciac¸˜ao Cient´ıfica do Conselho Nacional de}

(2)

Aplicações com grande demanda de processamento tradicionalmente são desen-volvidas utilizando interfaces padrão de programação com diversas implementações, tais como o MPI (Message-Passing Interface) em memória distribu´ıda (multi-computadores e multi-processadores) e OpenMP em memória compartilhada (multi-processadores e multi-core). Um desafio recorrente é portar aplicações pré-existentes para processado-res especializados (GPGPUs) uma vez que nem todos os trechos de código beneficiam-se desbeneficiam-se tipo de paralelismo. Fazer uso desbeneficiam-se tipo de arquitetura requer aspectos de programação distintos, e que, portanto, devem ser investigados apropriadamente para ga-rantir a maximização do aproveitamento dos recursos computacionais.

Neste sentido, o objetivo deste trabalho é identificar poss´ıveis estratégias para melhorar o desempenho de uma aplicação de modelagem atmosférica cujos métodos são executados em GPUs. Trata-se do Ocean-Land-Atmosphere Model (OLAM) [Walko and Avissar 2008], criado por Robert L. Walko e Roni Avissar na Duke Uni-versity. A identificação de tais estratégias, implementadas em CUDA, pode auxiliar na maximização do uso das GPUs para outros tipos de aplicação similares.

Este artigo está dividido em 7 seções. A próxima seção aborda o uso da interface de programação CUDA. Na Seção 3 são apresentados os trabalhos relacionados. Os am-bientes de teste e recursos utilizados são descritos na Seção 4. Na Seção 5 é feita uma análise de desempenho via profiling dos testes realizados. Com base nos resultados obti-dos, propostas de melhorias são discutidas na Seção 6. Por fim, a conclusão do trabalho é apresentada juntamente com as expectativas para trabalhos futuros.

2. Trabalhos Relacionados

Nos trabalhos de [Osthoff et al. 2011] e [Osthoff et al. 2012], são realizados diversos ex-perimentos sobre o OLAM implementado com diferentes interfaces de programação pa-ralela, como MPI, OpenMP e CUDA. Nos testes realizados com o OLAM implementado com MPI e CUDA, foi constatado que o desempenho da aplicação diminui para mais de dois processos MPI. Além disso, é dito que para melhorar a performance para esta implementação é necessário aprimirar a cópia de dados entre a memória da CPU e a memória da GPU. O fato é que o OLAM possui muita dependência entre essas cópias de memória e as funções executadas em GPU, o que é um gargalo de desempenho, visto que é poss´ıvel sobrepor cópias de memória com execução em GPU.

Em [Vargas and Schepke 2014], foram feitos as primeiras análises que originaram o estado do trabalho atual. Os resultados iniciais mostraram que a aplicação não demons-trou ganho de desempenho relevante, obtendo apenas um speedup próximo de 2.

No trabalho de [Rosso et al. 2013], o modelo OLAM, implementado com MPI, foi testado com diferentes casos de teste, onde varia-se o tempo de simulação do globo antes e depois de realizar refinamento em tempo de execução. Foi concluido que o OLAM tem seu desempenho melhorado a medida que mais processos MPI executam a aplicação, e que o refinamento dinâmico da malha influencia diretamente no tempo de execução dos casos de teste.

Já nos estudos de [Pydd et al. 2014], o OLAM, também implementado com MPI, foi testado com tempos iguais de simulação antes e depois do refinamento dinâmico da malha terrestre. Foi constatado que o tempo de execução diminui pela metade quando se usa o dobro de processos MPI.

(3)

3. Ambiente de Testes e Recursos Utilizados

Foi utilizada uma Workstation Dell Precision T7600 com dois Intel Xeon E5-2650 de 2.00GHz. São duas GPUs instaladas. A Tesla C2075 [NVIDIA Tesla C2075 2011] pos-sui 448 núcleos CUDA de 1147 MHz, memória de 6GB GDDR5 de 1566 MHz e barra-mento de memória de 384 bits. A Quadro 5000 [NVIDIA Quadro 5000, 2013] possui 352 núcleos CUDA de 1026 MHz, memória de 2,5GB GDDR5 de1494 MHz e barramento de memória de 320 bits. Comum a ambas as GPUs: Compute Capability 2.0; 32 núcleos por multiprocessador; 32.768 registradores por bloco de threads; máximo de 1.024 threads por bloco; máximo de 1.536 threads por multiprocessador.

Como recursos para realizar profiling da aplicação, foram utilizados o nvprof e o NVIDIA Visual Profiler, parte do [NVIDIA CUDA Tool Kit 2014]. O nvprof foi utilizado para executar o programa e coletar dados que ajudassem a analisar o seu desempenho. Os dados de sa´ıda foram direcionados para um arquivo que pudesse ser importado no NVIDIA Visual Profiler, o qual provê uma interface gráfica intuitiva de grande ajuda na análise dos dados coletados.

Outra ferramenta utilizada é a CUDA GPU Occupancy Calculator da NVIDIA, feita no Microsoft Excel, para cálculo de ocupação de GPU, dispon´ıvel juntamente com o [NVIDIA CUDA Tool Kit 2014]. Informando na planilha a capacidade de computação da GPU, o número de threads por bloco e o número de registradores utilizados por thread (obtido com a opção --ptxas-options=-v para o compilador), a planilha calcula a ocupação de cada multiprocessador da GPU para um determinado kernel.

4. An´alise de Desempenho e Testes

Os testes iniciais apresentados por [Vargas and Schepke 2014], realizados nas GPUs cita-das na Seção 3, mostraram que o modelo Tesla C2075 obteve melhores resultados devido às suas configurações de hardware (núcleos CUDA, memória, etc) superiores. Com base neste fato, esta GPU foi adotada para os trabalhos posteriores com o modelo OLAM.

Após a avaliação anterior, foi feita uma revisão geral da aplicação, visando identi-ficar poss´ıveis problemas. Nesta revisão, ao analisar as opções de compilação e execução do programa, foi feita uma alteração. O parâmetro -arch, que define para qual arquite-tura a aplicação será compilada, deve estar de acordo com a capacidade de computação da GPU a ser utilizada. Na Seção 3, vimos que o dispositivo Tesla C2075 possui ca-pacidade de computação 2.0 (arquitetura Fermi), logo sua arquitetura é identificada pela opção -arch=sm 20. Porém, a aplicação estava sendo compilada com -arch=sm 35 (ca-pacidade de computação 3.5 - arquitetura Kepler), o que não é recomendado segundo o CUDA Compiler Drive NVCC - Reference Guide[NVIDIA NVCC 2013], pois o conjunto de instruções é diferente entre as arquiteturas e a compatibilidade não é garantida. Com isso, passa a ser usado -arch=sm 20, de modo a garantir a correta execução do programa conforme a arquitetura da GPU utilizada.

Posteriormente, foi realizada uma análise utilizando a CUDA GPU Occupancy Calculatorda NVIDIA. São implementados três kernels na aplicação, e compilando com a opção --ptxas-options=-v, foram retornados os seguintes números de registradores: ker-nel1, 63 registradores; kernel2, 63 registradores; e kernel3, 35 registradores. Analisando a planilha, notou-se que a ocupação dos multiprocessadores da GPU, para blocos de 1.024

(4)

Figura 1. Resultados. Aplicac¸ ˜ao compilada com -arch=sm 20.

threads, era 0% para todos os kernels. Sabendo que o número de registradores por mul-tiprocessador da GPU é de 32.768, blocos de 1.024 threads para os kernels da aplicação não executam. Por exemplo, 1.024 threads multiplicadas por 35 registradores do kernel3 é igual a 35.840 registradores, logo, um bloco desse tamanho não pode ser atribuido a um multiprocessador por necessitar de mais registradores do que o dispon´ıvel. O mesmo cálculo vale para os outros dois kernels, que necessitam 63 registradores.

Para provar o que se concluiu na análise da planilha, foram executados os seguin-tes casos de seguin-teste: o modelo foi configurado para executar com duas resoluções horizon-tais distintas para a malha global, sendo 100km e 50km; para cada resolução, utilizou-se blocos de threads de tamanhos diferentes, sendo 128, 256, 512 e 1.024 threads. No total são oito casos de teste e para todos o tempo de simulação do globo terrestre é 12 horas. Os resultados são vistos na Figura 1, onde percebe-se que o tempo de execução para as simulações cujos kernels são lançados com blocos de 1.024 threads é consideravelmente menor do que os demais. De acordo com a planilha da NVIDIA, blocos de 1.024 threads não executam por demandarem mais registradores do que o dispon´ıvel em hardware. Isso implica na não execução em GPU, o que prejudica os resultados, pois apenas o código de CPU é executado. Devido a isso, o tempo de execução para os casos de 1.024 thre-ads refletem a execução em CPU bem como as cópias de memória entre CPU e GPU, sem processamento em GPU. De modo a concretizar tal expectativa, outra análise foi necessária.

O próximo passo foi realizar profiling da aplicação utilizando o nvprof. As informações foram direcionadas para um arquivo de sa´ıda que pode ser importado no NVI-DIA Visual Profiler. Esta ferramenta permite analisar uma linha do tempo da execução da aplicação, bem como dos kernels, onde percebeu-se que, de fato, não foram executados os kernels com blocos de 1.024 threads, apenas os menores (128, 256 e 512 threads). Na Figura 2, observa-se a timeline da execução do programa, onde um retângulo destaca os três kernels, mostrando que os mesmo executam. Já na Figura 3, a timeline não mostra nenhum kernel executado, de acordo com o que se esperava a partir da análise realizada com a planilha da NVIDIA.

(5)

Figura 2. Timeline do NVIDIA Visual Profiler para a aplicac¸ ˜ao com blocos de 128 threads para todos os kernels.

Figura 3. Timeline do NVIDIA Visual Profiler para a aplicac¸ ˜ao com blocos de 1.024 threads para todos os kernels.

5. Propostas de Melhorias

Reduzir o número de cópias entre a memória da CPU e a memória da GPU é um fator de grande impacto para se acelerar o desempenho de uma aplicação CUDA. Nas Figuras 2 e 3 percebe-se que as cópias de memória são frequentes, pois elas ocorrem intercaladas com as chamadas dos kernels, como observado nas linhas espec´ıficas de MemCpy (cópias de memória) e Compute (execução dos kernels) - o mesmo é representado em apenas uma linha mais abaixo, no Stream Default. Realizar a cópia de vários dados de uma só vez traz vantagens quanto à vazão de dados que pode ser maximizada.

CUDA permite a execução concorrente de cópia de memória ass´ıncrona com execução de kernels na GPU. Conforme já observado nos trabalhos de [Osthoff et al. 2011] e [Osthoff et al. 2011] sobre o OLAM, a não implementação disso gera um gargalo na performance da aplicação. Assim, uma proposta é tentar eliminar as dependências de dados que existem na implementação atual do protótipo do modelo OLAM e implementar essas duas tarefas concorrentemente. Para isso, uma outra ação pode ser necessária: analisar os dados que são computados em cada kernel e reestruturar os kernels, podendo divid´ı-los em mais funções. Com isso, além de cópia de memória ass´ıncrona, haveria mais kernels executando na GPU, havendo a possibilidade de execu-tarem concorrentemente entre eles se eliminadas as dependências de dados.

(6)

6. Conclus˜ao e Trabalhos Futuros

Aplicações que demandam alto desempenho podem beneficiar-se com o surgimento de novas arquiteturas paralelas, como é o caso de GPUs. No entanto, neste caso é necessário o uso de uma interface de programação apropriada, como CUDA, que exige a reescrita e a adaptação de código. De forma espec´ıfica, neste artigo investigou-se algumas propostas de modificação de código para uma aplicação atmosférica implementada para GPUs.

Para tanto, foram feitas observações da taxa ocupação de processamento dos mul-tiprocessadores, análise via profiling, propostas de pequenas alterações de código, como o uso de memcpy ass´ıncrono, e propostas de modificação maiores, como a reestruturação dos kernels, tentando prover mais processamento concorrente para a GPU e eliminar de-pendência de dados entre os kernels.

Como trabalhos futuros, pretende-se avaliar o impacto dessas modificações no desempenho da aplicação. Tais estratégias podem ser expandidas para outros modelos atmosféricos, bem como aplicações similares, tais como as que utilizam a técnica de decomposição de dom´ınios.

Referˆencias

NVIDIA CUDA Tool Kit (2014). NVIDIA CUDA Tool Kit - Webpage. NVIDIA NVCC (2013). CUDA Compiler Driver NVCC - Reference Guide. NVIDIA Tesla C2075 (2011). NVIDIA Tesla C2075 - Webpage.

Osthoff, C., Schepke, C., Panetta, J., Grunmann, P. J., Dias, P. L. S., Kassick, R. V., Boito, F. Z., Navaux, P. O. A., Lopes, P. P., Fabricio, and Souto, R. P. (2011). GPU for Accelerators Performance Evaluation on Atmosphere Model’s Application System. In Proceedings of XXX Iberian-Latin-American Congress on Computational Methods in Engineering, 2011, Ouro Preto. Mecanica Computacional Vol. XXX.

Osthoff, C., Souto, R., Dias, P. S., Panetta, J., and Lopes, P. (2012). Atmospheric Model Cluster Performance Evaluation on Hybrid MPI/OpenMP/Cuda Programming Model Platform. In Proceedings of XXI International Conference of the Chilean Computer Science Society.

Pydd, E. B., Karlinski, T. R., and Schepke, C. (2014). Avaliação de Desempenho do Modelo OLAM 3.0 com Processos MPI em Arquitetura de Memória Compartilhada. In XIV Escola Regional de Alto Desempenho do Estado do Rio Grande do Sul - ERAD/RS 2014.

Rosso, J. P., Schepke, C., and Vargas, F. C. (2013). Avaliação de Desempenho do Refina-mento Dinâmico de Malhas em Modelo Climatológico Global. In Proceedings of XIV Workshop em Sistemas Computacionais de Alto Desempenho - Workshop de Iniciação Cient´ıfica (WSCAD-WIC).

Vargas, F. C. and Schepke, C. (2014). Avaliação de Desempenho de uma Implementação com CUDA do Ocean-Land-Atmosphere Model. In XIV Escola Regional de Alto De-sempenho do Estado do Rio Grande do Sul - ERAD/RS 2014.

Walko, R. L. and Avissar, R. (2008). The Ocean-Land-Atmosphere Model (OLAM). Part I: Shallow-Water Tests. Monthly Weather Review, 136:4033–4044.