Arquiteturas NVIDIA - Arquitetura GPU e CUDA

3.3 Arquitetura GPU e CUDA

3.3.4 Arquiteturas NVIDIA

Para finalizarmos este cap´ıtulo sobre as GPUs, vejamos quais foram as arquiteturas já lan¸cadas, e quais estão por vir, pela pioneira na área de processamento de propósito geral com o uso de GPUs, a corpora¸cão NVIDIA. A Tabela 3.4 sumariza

Tabela 3.4: Roadmap das arquiteturas de GPUs da NVIDIA [43]. Arquitetura Ano de Lan¸camento Principal Novidade

Tesla 2007 CUDA Fermi 2010 FP64 Kepler 2012 Dynamic Parallelism Hyper-Q GPU Direct Maxwell 2014 DX12 Pascal 2016 3D-Stacked RAM NVLink Mixed Precision Volta 2018 ?

o roadmap (mapa de evolu¸cão) das arquiteturas, mostrando os anos de lan¸camento (ou previsão de lan¸camento), e as principais novidades introduzidas por cada uma delas. As informa¸cões exibidas na tabela são baseadas na palestra de abertura do cofundador e CEO (Chief Executive Officer ) da NVIDIA Jen-Hsun Huang durante a conferência “GPU Technology Conference” organizada pela corpora¸cão no ano de 2015 [43].

A primeira arquitetura de GPUs da NVIDIA com suporte total a CUDA foi chamada de Tesla, e teve seu lan¸camento em 2007. Depois, em 2010, foi lan¸cada a arquitetura Fermi, cuja principal novidade introduzida foi a grande evolu¸cão no desempenho de opera¸cões de ponto flutuante de dupla precisão (FP64). Em 2012, a arquitetura Kepler [42] trouxe uma série de inova¸cões em rela¸cão às suas an- tecessoras, entre as quais destacam-se: o Paralelismo Dinâmico (permite à GPU lan¸car kernels por si mesma); Hyper-Q (permite vários cores de CPU invocar kernels na GPU simultaneamente); e GPU Direct (transferência direta entre memórias de GPUs). Mais recentemente, no ano de 2014, foi lan¸cada a arquitetura Maxwell, que é a mais moderna atualmente. Sua principal novidade foi o suporte à API DirectX 12 da Microsoft (DX12), além de uma melhoria no tradeoff “performance X consumo energético”, aumentando o desempenho por watt consumido [44]. Fi- nalmente, foi anunciado para 2016 o lan¸camento da nova arquitetura da NVIDIA chamada de Pascal, que trará como principais inova¸cões as seguintes funcionalida- des: 3D-Stacked RAM (aumento de até 3 vezes na largura de banda de acesso a memória); NVLink (novo barramento até 5 vezes mais rápido que o PCI Express); e Mixed Precision (taxas de execu¸cão distintas para opera¸cões com tipos de dados de diferentes precisões). Apesar de não haver detalhes, apareceu durante a conferência o nome da arquitetura que deve substituir a Pascal em 2018, chamada de Volta.

Cap´ıtulo 4

Gamma Paralela e Distribu´ıda

(Solu¸c˜ao Base)

Agora que já realizamos uma revisão geral sobre os dois principais conceitos que compõem a ideia central deste trabalho, ou seja, o modelo computacional Gamma e as Unidades de Processamento Gráfico (GPUs), dedicaremos os dois próximos cap´ıtulos para descrever as solu¸cões envolvidas no desenvolvimento da disserta¸cão. No presente cap´ıtulo, faremos uma explica¸cão sobre a implementa¸cão de Gamma já existente, que foi utilizada como solu¸cão base para o trabalho, a qual chama- remos a partir de agora de Gamma-Base. No Cap´ıtulo 5, mostraremos a solu¸cão que foi criada e implementada para estender a solu¸cão base, provendo suporte ao processamento na arquitetura das GPUs, chamada de Gamma-GPU.

4.1 Vis˜ao Geral

A ideia de desenvolver uma nova implementa¸cão do paradigma Gamma, que fosse capaz de executar de maneira paralela sobre o hardware das GPUs, teve como inspira¸cão uma implementa¸cão paralela e distribu´ıda de Gamma, realizada por Juarez Muylaert e Simon Gay, e estendida por Gabriel Paillard, no ano de 1999 [45, 46]. A extensão realizada pelo último, focou principalmente na cria¸cão e verifica¸cão de novos tipos de dados, não suportados originalmente pelo Gamma, tornando-se na realidade, uma implementa¸cão de Gamma Estruturada (definida na Se¸cão 2.3.3). Contudo, essa nova abordagem estruturada não influenciou no modelo de execu¸cão paralelo e distribu´ıdo que já existia na implementa¸cão do Gamma original, pois a mudan¸ca afetou somente os tipos de dados suportados e adicionou a capacidade de verifica¸cão e não-degenera¸cão das novas estruturas do programa em tempo de compila¸cão. Assim sendo, a implementa¸cão desenvolvida nesta disserta¸cão, descrita no Cap´ıtulo 5, foi feita sobre a implementa¸cão Gamma original (Gamma-Base), e

não sobre a implementa¸cão de Gamma Estruturada, uma vez que os esfor¸cos foram movidos da ideia de suporte e verifica¸cão a tipos de dados, para o suporte e am- plia¸cão do paralelismo utilizado intrinsecamente pelo modelo, através do uso das GPUs. A integra¸cão do suporte a tipos de dados estruturados presentes em Gamma Estruturada com a nova implementa¸cão utilizando GPUs ficará como um trabalho futuro.

Mais do que servir apenas como motiva¸cão e inspira¸cão para o trabalho, a implementa¸cão paralela e distribu´ıda a qual estamos nos referenciando, foi de fato utilizada como o alicerce para a nova implementa¸cão, desde a ado¸cão dos mesmos moldes arquiteturais, até a utiliza¸cão do código-fonte em si. Em outras palavras, a implementa¸cão Gamma-Base foi utilizada como base de desenvolvimento, e teve sua capacidade estendida no que diz respeito ao uso e explora¸cão da concorrência e do paralelismo dos programas Gamma, alcan¸cado com a utiliza¸cão das Unidades Gráficas de Processamento. Esse fato nos faz real¸car a importância desta implementa¸cão base, pois todas as suas caracter´ısticas e particularidades, sejam elas pontos posi- tivos ou negativos, têm impacto direto sobre a implementa¸cão Gamma-GPU, como poderemos verificar mais detalhadamente no Cap´ıtulo 6, que trata dos experimentos e análise dos resultados. Nesse contexto, as demais se¸cões deste cap´ıtulo serão de- dicadas para que possamos obter um melhor entendimento sobre a implementa¸cão Gamma-Base, nas quais falaremos sobre sua arquitetura, o compilador criado, e alguns detalhes do ambiente de execu¸cão.

No documento Publicações do PESC Uma Derivação do Paradigma de Reescrita de Multiconjuntos Gamma para a Arquitetura GPU (páginas 59-62)