Especificidades da GPU - Processamento de ´ audio em tempo real usando CUDA e GPUs da Nvidia

4.2 Processamento de ´ audio em tempo real usando CUDA e GPUs da Nvidia

4.2.3 Especificidades da GPU

Como comentado na Se¸cão 4.1, o balan¸co entre fun¸cões fixas e unidades programáveis é fundamental para o aumento da generalidade e desempenho das GPUs. Ao longo do desenvolvimento dos dispositivos gráficos, algumas fun¸cões fixas foram cristalizadas por terem importância fundamental para auxiliar a computa¸cão ao longo dos estágios da pipeline da GPU. É o caso, por exemplo, das fun¸cões trigonométricas e da memória de texturas (e suas opera¸cões associadas, como leitura interpolada de ´ındices fracionários). A natureza destas fun¸cões coincide com algumas opera¸cões básicas utilizadas nos algoritmos de processamento de áudio, e assim sua utiliza¸cão pode aumentar o desempenho da GPU no processamento de áudio em tempo real.

Na implementa¸cão do Phase Vocoder para GPU, mais especificamente no estágio de ress´ıntese implementado utilizando s´ıntese aditiva, o uso da leitura interpolada de ´ındices fracionários da memória de texturas e da fun¸cão trigonométrica sin(), embutidas no hardware da GPU, oferece possibilidade imediata de compara¸cão com a técnica de cálculo de uma fun¸cão senoidal baseada em interpola¸cão (linear ou cúbica, no caso desta explora¸cão), através da leitura de ´ındices fracionários de uma tabela contendo os valores de um per´ıodo da fun¸cão seno.

4.2.4 Implementa¸c˜ao

Para implementar a utiliza¸cão do Pd com GPU, o primeiro passo foi desenvolver um modelo de external que inicializa a placa GPU e controla a transferência de memória e chamadas de fun¸cões de kernel de acordo com os ciclos DSP do Pd. Em seguida, este modelo foi copiado para implementar os diferentes algoritmos testados (FFT e Phase Vocoder), e um conjunto de shell-scripts foi escrito para auxiliar a execu¸cão automatizada dos testes. Esta se¸cão descreve alguns detalhes importantes da estrutura de testes desenvolvida.

Estrutura (orientada a objetos) de um external

Um diagrama desenhado no Pd é chamado patch. Os objetos gráficos que podem ser utilizados para compor um diagrama de processamento em um patch podem ser de um de três tipos: abs- tractions, built-ins ou externals. Abstra¸cões são outros patches criados com o Pd e encapsulados em um objeto, e podem possuir entradas e sa´ıdas de fluxos de áudio e controle através, respec- tivamente, dos pares de objetos (inlet∼, outlet∼) e (inlet, outlet). Built-ins são objetos binários escritos em C e compilados junto com o arquivo binário principal do Pd. Por sua vez, os externals também são objetos escritos em C, mas compilados como bibliotecas dinâmicas que podem ser carregadas em tempo de execu¸cão.

Os externals devem aderir ao modelo de orienta¸cão a objetos utilizado em todo o código do Pd, e devem possuir um conjunto minimal de fun¸cões para viabilizar a cria¸cão e opera¸cão de objetos gráficos na constru¸cão de um patch. As seguintes componentes são o m´ınimo necessário para codificar um external que processa áudio:

• Estrutura de dados: Uma estrutura de dados que representa o objeto do external. Uma por¸cão de memória contendo uma instância desta estrutura é disponibilizada para o método de processamento de áudio (veja abaixo) junto com os sinais processados. Ela deve conter campos para armazenar os parâmetros de controle que o objeto pode receber, ponteiros para regiões de memória alocadas dinamicamente e outros valores dos quais o objeto necessite para sua opera¸cão.

4.3 RESULTADOS E DISCUSS ÃO 65 • Método de cria¸cão de um novo objeto: Este método deve criar uma estrutura de dados do tipo descrito no item anterior, inicializar seus valores e retornar o valor do ponteiro para a estrutura criada.

• Método de processamento de áudio: Este é o método de manipula¸cão dos sinais de ´

audio. Ele recebe as configura¸cões atuais do Pd e um ponteiro para a estrutura de dados que representa a instância atual do objeto do Pd e pode trabalhar em cima dos buffers com as amostras de áudio para produzir o efeito desejado.

• Método de inicializa¸cão do processamento: Executado sempre que o processamento de áudio é iniciado, este método inclui o método acima em uma fila de métodos que serão executados para processar os sinais ao longo do diagrama.

• Método de configura¸cão de classe: A quantidade e tipos de entradas e sa´ıdas do objeto, o método de cria¸cão de um novo objeto e o método de inicializa¸cão do processamento são configurados por este método.

Inicializa¸c˜ao da placa GPU

A inicializa¸cão da placa GPU consiste na configura¸cão do número da placa a ser utilizada (pode haver diversas placas num mesmo hospedeiro) e aloca¸cão e inicializa¸cão de memória para computa¸cão no dispositivo. Estas tarefas podem ser realizadas no método de cria¸cão de um novo objeto, tomando os devidos cuidados para evitar que duas instâncias de um mesmo external não interfiram na computa¸cão um do outro.

Organiza¸cão do código e compila¸cão

Para melhor organiza¸cão do código é interessante encapsular toda a parte que lida com a GPU (fun¸cões de kernel e fun¸cões que fa¸cam chamadas a fun¸cões de kernel de forma que sejam especificadas em arquivos com extensão .cu e que possam ser compiladas pelo compilador do CUDA. Assim, a parte do código que lida somente com fun¸cões escritas em C pode continuar sendo compilada pelo compilador convencional, enquanto que todas as partes que lidam com código escrito em CUDA-C podem ser compiladas pelo nvcc, compilador espec´ıfico distribu´ıdo junto com o arcabou¸co CUDA.

Fun¸c˜oes que lidam com a GPU

As chamadas de fun¸cões que lidam com a GPU são, em geral, de três tipos: aloca¸cão ou libera¸cão de memória, fun¸cões de kernel dispon´ıveis na biblioteca CUDA, ou fun¸cões de kernel especificadas pelo usuário. Na implementa¸cão desenvolvida, a aloca¸cão de memória na GPU é realizada na cria¸cão do objeto, e a transferência de dados e as chamadas às fun¸cões de kernel são feitas a cada ciclo DSP no método de processamento.

4.3 Resultados e discuss˜ao

Foram utilizados dois ambientes de testes, com um total de três modelos distintos de placas Nvidia GPU. O primeiro ambiente é um computador Intel(R) Core(TM) i7 CPU 920 @2.67GHzcom 8 cores e 6 GB RAM, rodando Ubuntu GNU/Linux 11.10 com versão de kernel 3.0.0-32-generic, e equipado com dois modelos de placa Nvidia GPU: Geforce GTX 275 e Geforce GTX 470. O segundo ambiente de testes é um computador Intel(R) Core(TM) i7-3930K CPU @ 3.20GHz, com 12 cores e 24 GB RAM, rodando Ubuntu GNU/Linux 12.10 com versão de kernel 3.5.0-24-generic, equipado com uma placa Nvidia Quadro GF 100 GL. Foram utilizadas a versão 5.0 da plataforma CUDA e a versão 0.44-0 do Pure Data para rodar os externals desenvolvidos.

66 PROCESSAMENTO DE ´AUDIO EM TEMPO REAL EM GPU 4.3 0 0.5 1 1.5 2 2.5 3 ... 214 215 216 217 Duracao (s) Tamanho do bloco Tempo de roundtrip da FFT - GTX275 0 0.5 1 1.5 2 2.5 3 ... 214 215 216 217 Duracao (s) Tamanho do bloco Tempo de roundtrip da FFT - GTX470 0 0.5 1 1.5 2 2.5 3 ... 214 215 216 217 Duracao (s) Tamanho do bloco Tempo de roundtrip da FFT - GF100GL hospedeiro para dispositivo

tempo de kernel dispositivo para hospedeiro roundtrip rt period

Figura 4.5: Tempo de transferência de memória e de execu¸cão da FFT para diferentes tamanhos de bloco em diferentes modelos de placa de v´ıdeo GPU.

Um resumo das caracter´ısticas de cada placa pode ser visto na pr´oxima tabela:

Modelo Cores Mem (MB) Mem BW (GB/s)

GTX 275 240 896 127.0

GTX 470 448 1280 133.9

GF 100 256 2000 89.6

Para avaliar o desempenho do esquema utilizado para DSP em tempo real usando a GPU, o primeiro passo foi implementar um external de FFT utilizando a biblioteca CUFFT, que transfere dados para a GPU, executa o algoritmo sobre destes dados, e finalmente transfere os dados de volta para a memória do computador. Os resultados para diferentes tamanhos de bloco podem ser vistos nas Figuras 4.5 e 4.6, e serão discutidos na próxima se¸cão. Bastante tempo de computa¸cão ainda fica dispon´ıvel após o cálculo da FFT, mesmo considerando o tempo de transferência de memória. Para verificar a possibilidade de uso da GPU em tarefas mais intensas, também foram implementados os algoritmos de convolu¸cão e Phase Vocoder.

A implementa¸cão da convolu¸cão é imediata: toma-se dois sinais de entrada conectados a um objeto do Pd e realiza-se a convolu¸cão dos dois sinais calculando cada amostra da sa´ıda em paralelo, como descrito na Se¸cão 4.2.2. Como a entrada do algoritmo são dois sinais de áudio, a quantidade de memória transferida aqui é o dobro da quantidade transferida no caso anterior do cálculo da FFT de apenas um sinal. O resultado do tempo total de execu¸cão, somando o tempo de transferência de memória e o tempo de execu¸cão da fun¸cão de kernel que realiza a convolu¸cão pode ser visto na Figura 4.7.

4.3 RESULTADOS E DISCUSS ˜AO 67 0 0.05 0.1 0.15 0.2 ... 214 215 Duracao (s) Tamanho do bloco

Tempo de roundtrip da FFT (zoom) - GTX275

0 0.05 0.1 0.15 0.2 ... 214 215 Duracao (s) Tamanho do bloco

Tempo de roundtrip da FFT (zoom) - GTX470

0 0.05 0.1 0.15 0.2 ... 214 215 Duracao (s) Tamanho do bloco

Tempo de roundtrip da FFT (zoom) - GF100GL hospedeiro para dispositivo

tempo de kernel dispositivo para hospedeiro roundtrip dsp period

Figura 4.6: Por¸cão inicial do gráfico anterior do tempo de transferência de memória e de execu¸cão da FFT para diferentes tamanhos de bloco em diferentes modelos de placa de v´ıdeo GPU.

2 4 6 8 10 ... 214 215 216 217 Duracao (s) Tamanho do bloco

Tempo de convolucao - todas as placas

0.2 0.4 0.6 0.8 ... 212 213 214 215 Duracao (s) Tamanho do bloco

Tempo de convolucao (zoom) - todas as placas GTX275

GTX470 GF100GL rt period

68 PROCESSAMENTO DE ´AUDIO EM TEMPO REAL EM GPU 4.3

Uma implementa¸cão do Phase Vocoder para a GPU pode utilizar paralelismo de duas formas. Primeiro, pode estimar as amplitudes e frequências instantâneas para cada oscilador fazendo uso da FFT paralela. Em seguida, como o resultado de cada amostra sintetizada não depende do cálculo do valor de outras amostras de sa´ıda, o Phase Vocoder pode realizar uma s´ıntese aditiva em paralelo para cada amostra de sa´ıda de um bloco DSP. Assim, uma implementa¸cão do Phase Vocoder na GPU transfere a mesma quantidade de dados entre o computador hospedeiro e o dispositivo que o algoritmo da FFT paralela, mas é composta de mais chamadas a fun¸cões paralelas e mais computa¸cão dentro de cada fun¸cão.

A parte do código do Phase Vocoder que implementa a s´ıntese aditiva é computacionalmente intensa e bastante sens´ıvel em rela¸cão ao método utilizado para obter o valor de cada oscilador senoidal, como observado por Savioja et al. (Savioja et al., 2011). Nos testes realizados, foram comparadas 5 implementa¸cões distintas:

1. Consulta a tabela com interpola¸cão cúbica utilizando 4 pontos. 2. Consulta a tabela com interpola¸cão linear utilizando 2 pontos.

3. Consulta a tabela com ´ındice truncado (sem interpola¸cão). Note que a qualidade numérica de uma consulta truncada pode ser melhorada aumentando-se o tamanho da tabela (e a GPU, diferentemente do que foi visto com o Arduino no cap´ıtulo anterior, possui memória suficiente para tabelas grandes).

4. Primitiva trigonométrica da GPU. A fun¸cão sinf() da API do CUDA computa um número de ponto flutuante com precisão dupla.

5. Primitiva de consulta a ´ındices fracion´arios na mem´oria de textura. A GPU se encarrega de realizar e retornar um valor interpolado linearmente.

Os resultados para tempos de transferência de memória e tempo de kernel da s´ıntese aditiva dos testes com o Phase Vocoder paralelo podem ser vistos nas Figuras 4.8 e 4.9, e também serão discutidos na próxima se¸cão.

Cada algoritmo (FFT, convolu¸cão e Phase Vocoder) foi executado por um per´ıodo igual a 100 blocos DSP para tamanhos de bloco iguais a 2i, para 6 ≤ i ≤ 17, e em seguida foram calculados os tempos médios para a transferência de dados (de ida e volta) e para a execu¸cão das fun¸cões de kernel relativas a cada algoritmo.

O maior tamanho de bloco considerado, de 217= 131.072 amostras, corresponde a um per´ıodo de por volta de 3 segundos de áudio. Esta escolha de per´ıodo de um ciclo DSP pode parecer exagerada para utiliza¸cão em tempo real, mas a latência correspondente pode ser compensada pela escolha de um fator de sobreposi¸cão grande de forma a manter o tamanho do bloco (e portanto a resolu¸cão espectral associada) e obter maior resolu¸cão temporal. O tempo de execu¸cão do Phase Vocoder para blocos de amostras de tamanho maior do que 217 excede, para todas as implementa¸cões, o per´ıodo do bloco DSP correspondente, de forma que este tamanho de bloco é suficiente para prover limitantes superiores para a viabilidade da computa¸cão como fun¸cão do tamanho do bloco em todos os modelos de GPU testados.

Comparando as figuras que descrevem apenas a FFT com as que descrevem a implementa¸cão completa do Phase Vocoder, é poss´ıvel ver que há uma diferen¸ca notável, de algumas ordens de magnitude, entre o tempo utilizado para rodar cada um destes algoritmos. Comparando o tempo tomado pelos dois algoritmos para um mesmo modelo de placa, é poss´ıvel ver que a FFT toma tempo comparável ao tempo de transferência de memória, da ordem de décimos de milissegundos, enquanto que a implementa¸cão completa do Phase Vocoder toma vários segundos para tamanhos de bloco grandes. Isto indica que centenas de FFTs poderiam ser executadas em um ciclo DSP, enquanto que apenas alguns ciclos de análise e s´ıntese de Phase Vocoder poderiam ser executados na mesma quantidade de tempo.

4.3 RESULTADOS E DISCUSS ˜AO 69 5 10 15 20 25 30 ... 214 215 216 217 Duracao (s) Tamanho do bloco Tempo de sintese do PV - GTX275 5 10 15 20 25 30 ... 214 215 216 217 Duracao (s) Tamanho do bloco Tempo de sintese do PV - GTX470 5 10 15 20 25 30 ... 214 215 216 217 Duracao (s) Tamanho do bloco Tempo de sintese do PV - GF100GL 1. interpolacao cubica 2. interpolacao linear 3. consulta truncada 4. funcao seno 5. interpolacao de textura sem calculo rt period

Figura 4.8: Tempo de transferência de memória e de execu¸cão da s´ıntese aditiva do Phase Vocoder para diferentes tamanhos de bloco em diferentes modelos de placa de v´ıdeo GPU.

0.2 0.4 0.6 0.8 1 ... 212 213 214 215 Duracao (s) Tamanho do bloco

Tempo de sintese do PV (zoom) - GTX275

0.2 0.4 0.6 0.8 1 ... 212 213 214 215 Duracao (s) Tamanho do bloco

Tempo de sintese do PV (zoom) - GTX470

0.2 0.4 0.6 0.8 1 ... 212 213 214 215 Duracao (s) Tamanho do bloco

Tempo de sintese do PV (zoom) - GF100GL 1. interpolacao cubica 2. interp linear 3. consulta truncada 4. funcao seno 5. interpolacao de textura sem calculo rt period

Figura 4.9: Por¸cão inicial do gráfico anterior do tempo de transferência de memória e de execu¸cão da s´ıntese aditiva do Phase Vocoder para diferentes tamanhos de bloco em diferentes modelos de placa de v´ıdeo GPU.

70 PROCESSAMENTO DE ´AUDIO EM TEMPO REAL EM GPU 4.3 0 0.1 0.2 0.3 0.4 0.5 ... 214 215 216 217 Duracao (ms) Tamanho do bloco Memory transfer times - GTX275

0 0.1 0.2 0.3 0.4 0.5 ... 214 215 216 217 Duracao (ms) Tamanho do bloco Memory transfer times - GTX470

0 0.1 0.2 0.3 0.4 0.5 ... 214 215 216 217 Duracao (ms) Tamanho do bloco Memory transfer times - GF100GL

FFT: hosp. p/ disp. FFT: disp. p/ hosp. convolution: hosp. p/ disp. convolution: disp. p/ hosp. PV: hosp. p/ disp. PV: disp. p/ hosp.

Figura 4.10: Tempo de transferência de memória para os algoritmos FFT, convolu¸cão e PV, para cada uma das placas.

No documento Processamento de áudio em tempo real em plataformas computacionais de alta disponibilidade e baixo custo. André Jucovsky Bianchi (páginas 76-82)