Estudo e implementação de um algoritmo de processamento de imagens com técnicas GPGPUa

(1)

Estudo e implementac¸˜ao de algoritmos de

processamento de imagens com t´ecnicas GPGPU

Florian´opolis – SC Dezembro / 2008

(2)

Edison Gustavo Muenz

Estudo e implementac¸˜ao de algoritmos de

processamento de imagens com t´ecnicas GPGPU

Orientador:

Dr. rer.nat. Aldo von Wangenheim

BACHARELADO EM CIENCIAS DAˆ COMPUTAC¸ ˜AO

INE

CENTROTECNOLOGICO´

UNIVERSIDADEFEDERAL DE SANTA CATARINA

Florian´opolis – SC Dezembro / 2008

(3)

Prof. Dr. rer.nat. Aldo von Wangenheim

Departamento de Inform´atica e Estat´ıstica - INE - UFSC Orientador

Leandro Coser

Departamento de Inform´atica e Estat´ıstica - INE - UFSC Banca orientadora

Antonio Carlos Sobieranski

Departamento de Inform´atica e Estat´ıstica - INE - UFSC Banca orientadora

(4)

Agradecimentos

Agradeço ao grupo Cyclops, por seu suporte, estrutura e oportunidade de poder trabalhar com este tema. Especialmente aos membros de minha banca: Leandro Coser e Antônio Sobi-eranski, sem os quais eu nunca teria conseguido. Ao laboratório LaPiX, onde executei e fiz o TCC. Ao chefe deste laboratório: Eros Comunello, pela força, compreensão e dedicação ao seu trabalho. A todos os outros membros do LaPiX: Adiel Mittmann, Vilson Heck Júnior, Rafael Floriani Bertoldi (Fogo), Guilherme Bertuol, S´ılvio e Alécio.

A todas as empresas que trabalhei durante a graduac¸˜ao que me propiciaram um crescimento pessoal e profissional, onde ainda hoje cultivo as amizades criadas nestas mesmas, como a Binara.

Aos meus amigos, sem os quais eu não conseguiria me divertir, rir e aproveitar a vida. Ao Kaio, cuja convivência somente me acrescentou como ser humano e frequentador de festas. Ao Rafael, que posso chamar de “meio irmão”, por todas discussões, alegrias e fatos vividos como companheiros.

`

A minha fam´ılia que suportou que eu pudesse madrugar neste per´ıodo elaborando o traba-lho. Também por compreenderem minhas necessidades neste periodo e em todas as outras fases da minha vida. Devo à eles tudo que tenho e sou. Ao meu pai, Edison Muenz, cuja sabedo-ria, teimosia e alegria me dão forças para progredir e melhorar quem eu sou. Ao meu irmão, Eduardo Augusto Muenz, que me ajudou e caminha para ser um grande companheiro meu. À minha irmã, Ana Luiza Muenz, onde posso contar para muitas coisas. À Sandra, onde pude contar muitas vezes com discussões e idéias sobre meu futuro.

`

A minha namorada Sabrina que se mostrou companheira por boa parte do curso e com a qual aprendi muito sobre a vida, meu rumo profissional e o amor.

Agradeço a Deus, por todas as suas formas de representação que ele possui nos dando força e acreditar que podemos ser bons e melhores.

Aos colegas de curso que se destacaram na minha jornada pela UFSC, sendo companheiros de sala ou não, mas que mantiveram-se amigos e hoje são bons companheiros de vida. Ao Tiago Coelho, vulgo “Coelho”, onde tive muitas conversas, trocas de idéia e festas.

(5)

(6)

Resumo

Algoritmos de processamento de imagens muitas vezes caracterizam-se por tomarem uma considerável quantidade de tempo para serem executados. Esta caracter´ıstica faz com que estes algoritmos necessitem de otimização. No entanto, algumas horas não é mais possivel melhorar o tempo de resposta dos mesmos, devido à limitação da CPU, sendo necessário buscar tecnologias alternativas para executar estes algoritmos.

As alternativas tomadas até então consistiam em utilizar clusters de alto desempenho, no entanto, o alto custo destes inviabliza a utilização desta categoria de algoritmos em máquinas dispon´ıveis comercialmente, como os PCs. Com a evolução da computação gráfica e a demanda por placas gráficas mais poderosas, ocorreu uma evolução destas mesmas, onde caracter´ısticas úteis apareceram, viabilizando o seu uso para propósitos além da pura s´ıntese de gráficos, mas também para propósitos gerais.

Este trabalho de conclus˜ao de curso consiste em implementar um algoritmo de processa-mento digital de imagens utilizando as placas gr´aficas (GPUs) de forma a melhorar o desempe-nho dos mesmos.

Palavras-chave: GPU, GPGPU, Paralelismo, Processamento Digital de Imagens, Alta per-formance

(7)

Digital image processing algorithms are distinguishable among others because they take a long time to be executed. This charecteristic makes them good subjects to be optimized in order to obtain a better execution time. A better performance will be able to accomplish the needs of some applications, such as real time applications.

This problem was handled by using high performance clusters, however, these cluster have a very high price making these algorithms unusable on regular machines, such as the PCs. Because of the evolution of graphics, the demand for more powerful graphic cards has risen and they have become usable for other purposes that are beyond computer graphics.

This thesis is about implementing a digital image processing algorithm and a general pro-blem by using the new graphic cards technology (GPGPU) in a way to improve their perfor-mance if possible.

(8)

Sum´ario

Lista de Figuras Lista de Tabelas Introdução p. 12 1 Objetivos p. 14 1.1 Objetivos gerais . . . p. 14 1.2 Objetivos espec´ıficos . . . p. 14 2 Fundamentação teórica p. 15

2.1 O que é PDI . . . p. 15 2.2 Imagem digital . . . p. 15 2.3 Sistemas de processamento digital de imagens . . . p. 16 2.4 Filtros . . . p. 17 2.4.1 Filtro de difusão anisotrópico . . . p. 20 2.5 GPU . . . p. 22 2.5.1 Stream processing . . . p. 23 2.5.2 Aplicações GPGPU . . . p. 25 2.6 Framework CUDA . . . p. 26 2.6.1 Motivação . . . p. 26 2.6.2 Arquitetura de execução . . . p. 27 2.6.3 Uma extensão da linguagem C . . . p. 30 2.6.4 Ponteiros . . . p. 32 2.6.5 Texturas . . . p. 33

(9)

3.1.1 Modelo em GPU . . . p. 41 3.1.2 Custo/tempo de implementação . . . p. 43 3.2 Filtro de difusão anisotrópico . . . p. 43 3.2.1 Memória . . . p. 43 3.2.2 Estratégia de implementação . . . p. 44 3.2.3 Custo/tempo de implementação . . . p. 44

4 Resultados p. 45

4.1 Filtro de difusão anisotrópica . . . p. 45 4.1.1 Validação dos resultados . . . p. 45 4.1.2 Tempos de resposta . . . p. 47 4.1.3 Análise com o CUDAProfiler . . . p. 48 4.1.4 Conclusão . . . p. 48 4.2 Comparação N a N . . . p. 50 4.2.1 Tempos de resposta . . . p. 50 4.2.2 Validação dos resultados . . . p. 50 4.2.3 Análise com o CUDAProfiler . . . p. 50

5 Conclus˜ao p. 52

(10)

Lista de Figuras

2.1 Etapas do PDI. Cada etapa é aplicada (se necessário) no sentido horário

(re-tirado de ??) . . . p. 16 2.2 Filtro de m´edias (a) imagem original (b) ru´ıdo gaussiano (c) filtro de m´edias

3x3 . . . p. 18 2.3 Filtro de mediana (a) imagem original (b) ru´ıdo aleat´orio (salt and pepper)

(c) filtro de mediana 3x3 . . . p. 19 2.4 Filtro gaussiano (a) imagem original (b) ru´ıdo gaussiano (c) filtro gaussiano . p. 19 2.5 Remoção de ru´ıdo conservativa (a) imagem original (b) ru´ıdo aleatório (salt

and pepper) (c) remoção de ru´ıdo conservativa . . . p. 20 2.6 Implementação em 1 dimensão do filtro de difusão . . . p. 21 2.7 Configurações diferentes que o filtro de difusão pode utilizar . . . p. 22 2.8 Execuções do filtro de difusão com λ = 15 . . . p. 23 2.9 Execuções do filtro de difusão com λ = 30 . . . p. 24 2.10 A GPU dedica mais transistores às ALUs . . . p. 25 2.11 Arquitetura de execução . . . p. 27 2.12 Modelo de memória . . . p. 28 2.13 Acesso coerente à memória . . . p. 38 2.14 Exemplos de acesso não coerente à memória. Esquerda: Acesso interligado,

Direita: Endereço inicial não alinhado . . . p. 39 4.1 Comparação do resultado entre CPU e GPU. λ = 15 e 90 iterações . . . p. 46 4.2 Diferenças entre as imagens geradas por CPU e GPU . . . p. 47 4.3 Gráfico de performance do filtro de difusão comparando CPU e GPU . . . p. 48 4.4 Cuda profiler rodando o filtro de difusão com 90 iterações . . . p. 49 4.5 Gráfico dos sinais capturados pelo CUDAProfiler. É notável o alto valor de

(11)

(12)

Lista de Tabelas

2.1 Custo de acesso à memória . . . p. 36 4.1 Média das execuções do filtro de difusão com 100 iterações (tempos em

mi-lisegundos) . . . p. 48 4.2 Média das execuções da comparação N a N . . . p. 50

(13)

Introduc¸˜ao

Processamento digital de imagens é o processo do qual a partir de uma imagem de entrada aplica-se um processo para cada pixel e geram-se resultados, o que em geral pode ser uma imagem de sa´ıda. Este processo pode gerar imagens de diferentes formatos, aumentar e/ou diminuir a imagem. No entanto, uma caracter´ıstica marcante de alguns destes algoritmos, prin-cipalmente os de segmentação de imagens é a alta exigência computacional para execução. Isto pode impedir o seu uso em algumas aplicações como biometria, reconhecimento de padrões, processamento de v´ıdeo, etc.

Clusteres é uma solução que a comunidade cient´ıfica adotou para resolver tais problemas, aumentando o poder computacional dispon´ıvel, no entanto, estes são caros e impraticáveis para muitas aplicações e usos que poderiam ser dados a este campo.

A evolução das GPUs com o seu poder computacional e programabilidade pode ser uma solução barata e eficiente para este problema. Elas conseguem obter tempos de resposta mui-tas vezes superior às CPUs atuais graças à sua arquitetura, tendo em vista um modelo de computação em paralelo. As GPUs possuem uma grande quantidade de núcleos, com um grande número de ALUs e pequenas caches.

Esta arquitetura diferenciada exige das aplicações que utilizam a GPU algumas premissas para executarem os algoritmos de forma eficiente, sendo a principal delas: independência dos dados.

Alguns algoritmos de processamento de imagens estão aptos de forma direta para serem executados na GPU, ou seja, são em essência paralelos, já outros necessitam de uma adaptação para serem “traduzidos” para a GPU.

Esta tradução é um grande problema para alguns algoritmos, pois estes devem ser mode-lados de forma diferente para garantir uma independência dos dados, sendo algumas vezes im-praticável ou imposs´ıvel obter um modelo que consiga executar de forma eficiente o algoritmo. Algumas técnicas para evitar algumas “insuficiências” das GPUs estão descritas em (BUCK, 2005).

Como apontado por (LUEBKE; HUMPHREYS, 2007) e (GHULOUM, 2007) uma das carências das GPUs era a ausência de linguagens de alto n´ıvel para a criação de programas para a GPU. Estes estavam restritos às linguagens de Shaders, que eram basicamente utilizados em computação gráfica para obter efeitos gráficos mais realistas, mas para propósitos gerais,

(14)

Introduc¸˜ao 13

eram deficientes por incluirem um overhead das APIs gráficas, como OpenGL e Directx. Isto torna o código sujo e dif´ıcil de depurar e debugar. Também é necessário trabalhar diretamente com texturas, o que não é natural para alguns problemas. Além disso, há também as limitações dos Shaders.

A NVIDIA então disponibilizou o “framework” CUDA para permitir a criação de progra-mas para suas placas de v´ıdeo da série 8000. Esta possui muitas caracter´ısticas úteis para a criação de aplicativos GPGPU, sem necessitar do overhead das apis gráficas, facilitando a es-crita dos algoritmos.

O framework CUDA é também chamado de ”C para GPUs”. Ele visa facilitar a implementação de algoritmos de propósito geral, pois possui estruturas na linguagem que expõem o paralelismo da GPU sem uso das APIs gráficas. Por ser uma extensão do C, os desenvolvedores estão mais familiarizados com a linguagem, aumentando a produtividade.

(15)

1 Objetivos

1.1 Objetivos gerais

Estudar e implementar sob o paradigma de programação paralela, que é imposto pela programação GPGPU, algoritmos de processamento de imagens, elaborando estratégias e re-solvendo os problemas encontrados neste novo ambiente.

1.2 Objetivos espec´ıficos

• Implementar o filtro de difusão anisotrópico em GPU, utilizando a tecnologia CUDA. • Implementar um algoritmo onde a tradução para a GPU não seja direta, onde seja

ne-cessário repensar todo a estratégia de execução e modelagem do algoritmo.

• Avaliar a performance dos algoritmos implementados em conjunto com a dificuldade de implementar os mesmos

• Efetuar um estudo comparativo de performance e qualidade de resultados nos ambientes especificados

(16)

15

2 Fundamentação teórica

2.1 O que ´e PDI

PDI atende pela sigla Processamento Digital de Imagens e se caracteriza por aplicar algo-ritmos espec´ıficos a imagens digitalizadas.

O termo PDI surgiu quando a obtenção de imagens digitais a partir de equipamentos especi-ais surgiram. Este processo se revelou mespeci-ais simples que o processamento de imagens analógicas devido à representação da imagem digital, onde há uma quantidade finita de pontos, chamados pixels.

A aplicação de PDI é muito difundida em diversas áreas. As áreas médicas são um exemplo, onde o processamento pode ajudar a identificar patologias a partir das imagens geradas por tomografias; reconhecimento de sinais e padrões, ajudando a identificar as placas de um carro por exemplo, auxiliando o piloto automático de um carro ao identificar os elementos de uma estrada como placas, lombadas, carros; melhoria de fotos, aumentando/diminuindo contraste, corrigindo bordas, etc.

2.2 Imagem digital

O mundo real visto pelos nossos olhos é cont´ınuo, isto é, ele possui infinitos “pontos” que representam este mesmo espaço. Para capturar este espaço cont´ınuo, as câmera analógicas utilizavam filmes onde a projeção da imagem analógica era impressa neste filme (o chamado “negativo”). Esta é uma representação analógica da imagem, no entanto, para podermos aplicar técnicas PDI nesta imagem, ela precisa ser convertida para o formato digital.

O formato digital é uma representação discreta da mesma imagem com um número finito de pontos. Pode-se descrever então este processo como uma função f (x, y) que mapeia um intervalo da imagem analógica em uma representação discreta deste intervalo. O valor de cada ponto desta função f (x, y) é chamado de intensidade ou valor do pixel.

(17)

Segundo (GONZALEZ; WOODS, 2008), PDI está dividido em várias etapas. Cada uma com uma função diferente, no entanto, nem todos os algoritmos de processamento de imagens passam por todas as etapas.

Estas etapas est˜ao representadas no diagrama apontado pela figura 2.1

Figura 2.1: Etapas do PDI. Cada etapa é aplicada (se necessário) no sentido horário (retirado de ??)

Aquisição O processo de aquisição consiste em obter uma imagem digital para processar os algoritmos desejados. Este processo em geral é a obtenção de uma representação discreta a partir de uma imagem analógica com o equipamento correspondente (câmeras digitais, raio-x, etc.)

Filtragem Este é o processo de correção de pequenas falhas que ocorreram no processo de aquisição. Consiste em deixar a imagem mais facilmente tratável para o algoritmo que será aplicado. Filtros são muito úteis para processos de segmentação, por exemplo.

Restauração Muito parecido com o processo de filtragem, pois também podem se utilizar filtros nesta etapa. A diferença está na validação dos resultados. Nesta etapa a qualidade é ava-liada através de métodos matemáticos, em geral estat´ısticos. Na etapa de filtragem a qualidade é mensurada pelo observador que irá dizer se o resultado é “bom suficiente” para o algoritmo.

(18)

2.4 Filtros 17

Processamento de cores Esta etapa é a melhoria das cores para uma percepção mais aguçada de alguns aspectos da imagem. Esta etapa ganhou muita importância após o apelo visual que as imagens na internet passaram a exigir.

Compressão Compreende em utilizar formatos diferentes para armazenar as imagens. As imagens podem exigir grandes espaços de armazenamento se não forem comprimidas, dado o grande número de pixels que estas possuem. Experimentos em PDI muitas vezes consistem em processar muitas imagens. Isto gera um número muito grande de resultados e arquivos, que em geral são também imagens.

Segmentação A segmentação de imagens é a etapa que consiste em identificar os diferentes objetos existentes nas imagens de forma similar a um ser humano. Através disto é poss´ıvel extrair regiões de interesse para análise automatizada ou visual. Esta é, em geral, a etapa mais complexa do processamento de imagens, dado que não existe uma técnica já fundamentada para qualquer tipo de imagem; atualmente é necessário conhecimento prévio sobre o tipo de imagem que será segmentada e o n´ıvel de detalhe desejado. Além disto, métodos de segmentação cos-tumam ser muito custosos computacionalmente.

Representação Geralmente feita após o resultado de uma segmentação, consiste em obter os resultados segmentados e agrupá-los da forma que for conveniente à aplicação, criando uma “nova” representação da imagem que vai além de pixels agrupados por cor, mas estruturas de dados propriamente ditas que poderão ter um significado semântico atribu´ıdo pela próxima etapa.

Reconhecimento de objetos Identifica e dá um sentido a cada objeto da imagem. A identificação de uma região da imagem e denominá-la “carro” é um exemplo. Este processo é também um campo de estudo de IA.

2.4 Filtros

Filtros fazem parte da etapa de pré-processamento da imagem e são úteis para melhorar a imagem de entrada de forma a reduzir ou eliminar ru´ıdos, alterações na cor, detecção de bordas. Quase todos os algoritmos de segmentação necessitam de uma etapa de pré-processamento para obterem bons resultados. Pois os filtros podem suavizar alguns detalhes que não são im-portantes. Há vários filtros conhecidos com diferentes utilidades.

(19)

Considerando que a imagem I é uma projeção de uma cena C (sendo 3D, 2D, etc.). No dom´ınio espacial, cada mudança na posição em I, acarreta uma mudança do valor em S.

Cada filtro listado abaixo foi aplicado na situação em que ele é mais indicado, ou seja, aplicado ao tipo de ru´ıdo em que ele melhor desempenha.

Filtro de médias Este é o filtro mais utilizado para redução de ru´ıdo de uma imagem. Ele calcula a média de acordo com os seus vizinhos alterando o valor do pixel atual. A caracter´ıstica disto é eliminar pixels que não estão relacionados com a sua vizinhança, logo eliminando ru´ıdos. A quantidade de pixels vizinhos levados em consideração é chamado de kernel. Geralmente utilizam-se matrizes 3 × 3, mas estas podem ter qualquer tamanho desejado.

Figura 2.2: Filtro de m´edias (a) imagem original (b) ru´ıdo gaussiano (c) filtro de m´edias 3x3

Filtro de mediana Filtro de redução de ru´ıdo muito parecido com o de médias, mas ao invés de substituir pela média dos vizinhos, ele substitui pela mediana. Este comportamento faz com que este filtro seja melhor que o filtro de médias porque pixels de ru´ıdo que não sejam parecidos com os seus vizinhos não afetem tanto o resultado final. No entanto, ele peca ao remover alguns tipos de ru´ıdo (como o ru´ıdo gaussiano por exemplo).

Desfocagem gaussiana Utilizado para remoção de ru´ıdos e detalhes de imagens. Para fazer o cálculo do pixel atual é utilizada a equação de GAUSS de uma forma discretizada. Ele atribui a cada pixel uma “média ponderada” dando um peso maior aos pixels centrais. Isto faz com que este filtro consiga remover de forma mais eficaz os ru´ıdos e preserva melhor as bordas que um filtro de médias.

(20)

2.4 Filtros 19

Figura 2.3: Filtro de mediana (a) imagem original (b) ru´ıdo aleat´orio (salt and pepper) (c) filtro de mediana 3x3

A equação de GAUSS em 2 dimensões é a seguinte:

G(x, y) = 1 2πσ2e

− 1

2πσ 2 (2.1)

Figura 2.4: Filtro gaussiano (a) imagem original (b) ru´ıdo gaussiano (c) filtro gaussiano

Remoção de ru´ıdo conservativa Técnica de redução de ru´ıdos utilizando o valor máximo e m´ınimo dos pixels vizinhos. Ele obtém o valor de cada pixel vizinho, verifica os valores máximos e m´ınimos e coloca o valor do pixel atual dentro deste limite (se ele não estiver).

Este filtro se caracteriza por conseguir remover ru´ıdos com alta frequˆencia espacial, ou seja, est˜ao muito distribu´ıdos pela imagem. Ele consegue manter bem os detalhes da imagem.

Filtros de frequência Os filtros de frequência operam no dom´ınio de frequência imagem. Os mais conhecidos são:

(21)

Figura 2.5: Remoção de ru´ıdo conservativa (a) imagem original (b) ru´ıdo aleatório (salt and pepper) (c) remoção de ru´ıdo conservativa

• Passa-alta - atenuas altas frequˆencias, o que resulta em acentuar as bordas

Para aplicar cada filtro a imagem é convertida para o dom´ınio da frequência através da transformação de Fourier e depois convertida de volta para o dom´ınio espacial pela mesma transformação.

2.4.1 Filtro de difus˜ao anisotr´opico

O filtro de difusão anisotrópico é um filtro iterativo para simplificação da imagem (smo-othing) de forma a torná-la um pouco mais homogênea. É um filtro que preserva as bordas ao ser executado, portanto é util para a detecção de bordas de uma imagem.

Este filtro também pode ser usado para a remoção de ru´ıdos em imagens de resonância magnética conforme apontado por (SERAMANI ZHOU JIAYIN, 2008).

O filtro de difus˜ao anisotr´opico foi proposto por Perona e Malik em (PERONA; MALIK, 1990).

Interpretação matemática do filtro de difusão O processo de difusão é definido como:

∂

∂ tI(x,t) = div (c(x,t) 5 I(x,t)) (2.2)

A força da difusão é controlada por c(x,t), a função de difusibilidade. O vetor x representa as coordenadas no espaço da imagem. A variável t é o parâmetro espaço tempo. I(x,t) é a imagem.

(22)

2.4 Filtros 21

Para poder controlar a difusão foram propostas duas funções de difusibilidade para o termo c(x,t): c₁(x,t) = exp − | 5 I(x,t)| κ 2! (2.3) c₂(x,t) = 1 1 + _|5I(x,t)| κ , α > 0 (2.4)

Estas equac¸˜oes foram discretizadas por Perona e Malik para:

I_st+∆t = I_st+ ∆t |ηx|

∑

g_p∈η_x | 5 I_s,pt | 5 It

s,p (2.5)

Caracter´ısticas

O filtro de difusão pode ser controlado através do parâmetro λ . O valor de λ define a velocidade que a imagem irá sofrer difusão.

O gradiente da imagem é a variação entre dois pontos espaciais da imagem. Uma carac-ter´ıstica muito importante do filtro de difusão é que ele pára ao encontrar uma variação de gradiente muito alta. Isto faz com que as bordas sejam preservadas.

Dimens˜oes do filtro de difus˜ao

O filtro de difusão pode ser utilizado em 1D, 2D ou 3D (podendo ser extendido a mais dimensões). A implementação 1D do filtro de difusão pode ser visualizado na imagem 2.6.

Figura 2.6: Implementação em 1 dimensão do filtro de difusão

A implementação para 2 dimensões se extende em utilizar mais pixels adjacentes. Há 3 variantes desta implementação: conectividade diagonal; conectividade horizontal e vertical; conectividade combinada ou conectividade total. Elas estão ilustrados na figura a seguir:

A implementação adotada adotou a conectividade total, por aumentar a quantidade de operações aritméticas e a qualidade dos resultados.

(23)

Figura 2.7: Configurações diferentes que o filtro de difusão pode utilizar ´

E percept´ıvel que a forma dos objetos é preservada e que a imagem passou por uma pré-segmentação. Os detalhes da imagem relacionados a ru´ıdos (como a textura do bolo) são sim-plificados. Este resultados podem ser interessantes para algoritmos de segmentação por cresci-mento de regiões como o Mumford&Shah.

Ao aumentarmos a velocidade da difus˜ao (aumentando o lambda) os resultados se tornam mais “desfocados”:

2.5 GPU

A GPU (graphical processing unit) é o “processador” das placas gráficas. Estas placas são compostas de diversos componentes, no entanto, assim como nos pcs (onde a CPU é o componente “principal”), a GPU é o componente principal destas mesmas, onde ocorre o pro-cessamento de todas as instruções enviadas à placa de v´ıdeo.

O poder de processamento das GPUs atuais é imenso, se comparado ao processamento das CPUs modernas. Este poder chamou a atenção dos desenvolvedores e permitiu que os efeitos gráficos nunca vistos antes. Também fez com que olhássemos para a GPU com olhos não somente voltados ao processamento de primitivas gráficas, mas como um processador de propósito geral.

O poder de processamento das GPUs vem do maior número de transistores dedicados à ALU, ou seja, mais poder de cálculo. Isto pode ser visto na figura 2.10. No entanto, o menor número de transistores exige que o código tenha uma estratégia e cuidados diferentes dos que são feitos na CPU.

As GPUs passaram a ter uma maior atenção dos desenvolvedores para propósito geral por-que passaram a possuir estágios programáveis (atualmente com 2 estágios). Estes estágios permitem que sejam inseridos algoritmos que irão rodar dentro da GPU tratando os dados da forma que for necessário, tendo como objetivo efeitos gráfico e/ou algum outro propósito geral. Os 2 estágios programáveis da GPU são também chamados de shaders, estes são: vertex shader e pixel shader.

(24)

2.5 GPU 23

(a) Imagem original (b) λ = 15 com 30 iterac¸˜oes

(c) λ = 15 com 60 iterações (d) λ = 15 com 90 iterações

Figura 2.8: Execuções do filtro de difusão com λ = 15

2.5.1 Stream processing

Este é o modelo de programação que deve ser seguido quando escrevem-se algoritmos para a GPU. Isto ocorre porque a GPU possui processadores que funcionam desta forma.

Este é um modelo de programação que incentiva o paralelismo, pois ele estabelece o modelo de execução SIMD (nos modelos da GPU atuais, embora existam outros modelos para Stream processing(WIKIPEDIA, 200?)). Este modelo é a sigla para Same instruction, multiple data, ditando que o mesmo código é executado sobre diferentes dados.

Este modelo define o termo kernel, que é o código que será executado em cada trecho dos dados. Este kernel executando sobre este setor de dados define um stream.

Um c´odigo executando em CPU sobre um conjunto de dados data ´e o seguinte:

void kernel() { ...

(25)

(a) Imagem original (b) λ = 30 com 30 iterac¸˜oes

(c) λ = 30 com 60 iterações (d) λ = 30 com 90 iterações

Figura 2.9: Execuções do filtro de difusão com λ = 30

int result;

for (int i = 0; i < DATA_SIZE; ++i) { kernel(data[i], result);

}

No caso dessa execução ser feita no modelo Stream processing este código seria o seguinte:

void kernel() { ....

}

result = apply_kernel(kernel, data, DATA_SIZE);

(26)

2.5 GPU 25

Figura 2.10: A GPU dedica mais transistores `as ALUs

2.5.2 Aplicac¸˜oes GPGPU

Existem várias particularidades ao escrevermos algortimos para a GPU, pois a arquitetura desta é diferente da arquitetura da CPU, introduzindo algumas dificuldades e limites. Por isto sempre que estes forem escritos, deve-se ter sempre em mente o funcionamento do pipeline gráfico, seus limites e particularidades. Algumas destas caracter´ısticas são:

• Latência do barramento entre CPU e GPU - Existe uma latência para a troca de informações entre a CPU e a GPU que é limitado pelo slot AGP ou PCI-Express. Este tempo pode ser cr´ıtico quando há muita comunicação entre estes dois componentes. Portanto deve-se ter sempre em mente que é recomendável enviar instruções e dados suficientes, ou então que ocupem um tempo que justifique o processamento ser feito na GPU. Caso contrário, pode ocorrer uma situação onde o resultado já poderia ter sido calculado pela CPU, mas a instrução ainda está trafegando pelo barramento até a GPU.

• Dificuldades de programação - Como a GPU possui uma arquitetura altamente especia-lizada, alguns comandos não são poss´ıveis de serem executados em alguns estágios do pipeline, tornando alguns algoritmos de implementação trivial em CPU, dif´ıceis de se implementar em GPU. O algoritmo quicksort é um exemplo claro desta limitação, pois a operação scatter (escrita em algum endereço de memória) é limitado no vertex shader e desabilitado no pixel shader.

Soluções para estas dificuldades existem, através da busca de algoritmos alternativos e/ou uma implementação diferenciada, que aproveita melhor o paralelismo e consegue rodar sobre as limitações do hardware da GPU. Algumas técnicas utilizadas para superar estas dificuldades foram descritas em (PHARR; FERNANDO, 2005)

(27)

(através de Shaders) são as limitações de gather e scatter.

A operação Gather é o ato de obter dados a partir de um endereço de memória aleatório. Por exemplo:

int dados = data[10];

Neste caso, estamos obtendo o dado a partir do endereço 10 do conjunto de dados data. Esta operação possui suporte total no Pixel Shader, mas é limitada no Vertex Shader.

Scatter

A operação Scatter é o ato de escrever dados em um endereço de memória. Por exemplo:

data[10] = 5;

Aqui está se escrevendo o valor 5 no conjunto de dados data. Esta operação não é suportada no Pixel Shader e pode ser feita no Vertex Shader.

Isto apresenta limitações claras porque muitos algoritmos necessitam escrever em endereços de memória, tornando algumas vezes imposs´ıvel alguns algoritmos serem escritos pela maneira clássica de GPGPU (shaders).

2.6 Framework CUDA

O CUDA é um “framework” desenvolvido pela NVIDIA com o objetivo de facilitar a criação de aplicações para a GPU.

Ele pode ser interpretado como uma API com funções e formas de escrever código direta-mente na GPU. Esta API é uma extensão do C, onde o compilador da NVIDIA (nvcc) compila o código relativo ao CUDA e deixa o compilador padrão da máquina (gcc, msvc) compilar o código C. A linguagem está descrita em (NVIDIA, 2008).

2.6.1 Motivac¸˜ao

A forma (clássica) de se escrever código para a GPU é através da programação dos shaders, rodando no vertex shader, pixel shader ou geometry shader (a partir do Shader model 4.0).

(28)

2.6 Framework CUDA 27

Este tipo de código é eficiente (no quesito praticidade) caso a aplicação não tenha o intuito de utilizar código GPGPU. No entanto, caso o código tenha um propósito geral (não diretamente relacionado ao uso de uma API 3D), há muito esforço desnecessário, como:

• Necessidade da utilização de APIs gráficas (como opengl e direct3d) • Dificuldade em traduzir problemas computacionais para a GPU • ausência de scatter/gather

Este esforço diminui com o CUDA, pois o código não é mais escrito em linguagem de sha-ders, a necessidade de utilização de APIs gráficas desaparece, há suporte para scatter/gather em qualquer parte do código.

2.6.2 Arquitetura de execuc¸˜ao

Figura 2.11: Arquitetura de execuc¸˜ao

Kernels, Grids e Blocos de threads

O CUDA não foge ao modelo de programação de Streams(??) como há na programação de Shaders, pois a GPU é uma máquina com múltiplos processadores em paralelo, e é isto que a torna tão eficiente computacionalmente.

(29)

Threads São a menor unidade de execução do kernel, onde cada uma executa parte do código do kernel. Estas estão organizadas em blocos, podendo estas compartilharem informações entre si através de uma memória de rápido acesso e sincronizarem sua execução para coordenar o acesso à memória.

Blocos Consiste em um agrupamento de threads que irão executar em um dos multiprocessa-dores dispon´ıveis na GPU. Estes blocos são indepependentes entre si, ou seja, podem executar em uma ordem aleatória e não previamente conhecida. Um grande número de blocos garante um grande paralelismo (mantendo os multiprocessadores ocupados).

Grids E o conjunto de todos os blocos que está executando um kernel. Quando um grid´ termina de executar significa que o kernel terminou sua execução.

Mem´oria

Figura 2.12: Modelo de mem´oria

A comunicação entre a CPU e a GPU é feita através de métodos da api, como cudaMalloc() (aloca memória na GPU) e cudaMemcpy() (transfere dados entre CPU e GPU). Estes métodos

(30)

s˜ao otimizados pelo compilador para utilizar o chip DMA (Direct Memory Access) aumentando a velocidade de acesso.

Uma thread possui acesso à memória da GPU através dos seguintes padrões: • Read-write per-thread registers,

• Read-write per-thread local memory, • Read-write per-block shared memory, • Read-write per-grid global memory, • Read-only per-grid constant memory, • Read-only per-grid texture memory.

Registradores Cada multiprocessador possui uma quantidade definida de registradores. Por-tanto, o número de threads por bloco é limitado ao hardware onde o programa está sendo exe-cutado.

Memória compartilhada O CUDA disponibiliza uma memória compartilhada de alta ve-locidade de acesso ao programador. Esta memória pode ser utilizada para sincronia das threads entre os blocos, diminuindo o número de loads feitos da memória principal da GPU, aumen-tando a velocidade de execução do kernel. O tamanho desta memória é limitado a 16kb por bloco.

Memória de texturas A memória de texturas possui um cache, de forma que uma leitura da textura resulta em um “miss” apenas se esta não estiver em cache, sendo então lida da memória global. O cache de texturas é otimizado para uma localidade 2D espacial, portanto threads de um mesmo bloco que lêem dados que estão próximos irão obter a melhor performance.

Memória de constantes A memória de constantes é muito rápida e possui cache. Uma leitura da memória de constantes resulta em uma leitura da memória global apenas em caso de um “cache miss”. A performance desta memória é garantida se as threads de um bloco efetuarem a leitura no mesmo endereço; neste caso, a velocidade da memória de constantes é igual a um registrador.

(31)

uma extensão do C, a curva de aprendizado é menor devido às similaridades com o C, que é uma linguagem conhecida.

Há a introdução de alguns conceitos básicos:

• Host - Executa o c´odigo compilado e controla os dispositivos (devices). Seria a CPU. • Device - Executa c´odigo escrito especificamente para o dispositivo, a GPU.

• Funções e tipos que caracterizam vetores como já parte da linguagem (p/ ex.: float2, int4). Este código é suportado tanto no host quanto no device.

Qualificadores para m´etodos device

• Implica que um método será executado apenas no device. • Chamado apenas pelo próprio device

global Implica no ponto de entrada para um kernel • Executado no device

• Chamado apenas pelo host

host

• Executado no host

• Chamado apenas pelo host ´

E equivalente declarar um método com este modificador e não declará-lo sem nenhum dos modificadores listados. No entanto, é poss´ıvel declarar um método com ambos os modificadores device e host que dizem que um método será compilado para ser executado em ambos os ambientes.

(32)

Qualificadores para vari´aveis

device Especifica que uma variável será armazenada no device. Os modificadores a seguir definem onde a variável será alocada.

constant Uma variável declarada com este modificador possui as seguintes caracter´ısticas • Reside no espaço de memória de constantes

• Tem um tempo de vida igual à vida da aplicação • É acess´ıvel a todas as threads do grid

shared Uma variável declarada com este modificador possui as seguintes caracter´ısticas • Reside no espaço de compartilhado de thread de um bloco (memória veloz mas pequena) • Tem um tempo de vida igual à vida do bloco

• ´E acess´ıvel a todas as threads do bloco

Este tipo de variável é suscet´ıvel à sincronia de threads, portanto, para sincronizar os reads e writes utiliza-se o comando syncthreads(), garantindo que as escritas de outras threads serão vis´ıveis.

Se nenhum destes modificadores for especificado, a variável terá a seguinte caracter´ıstica: • Reside no espaço de memória global

• Tem um tempo de vida igual à vida da aplicação • É acess´ıvel a todas as threads do grid

Chamando um kernel

Quando declaramos um método com o modificador global e queremos chamá-lo para poder executar um kernel, este deve possuir um tipo de chamada especial, onde é especificado a dimensão do grid que irá executar aquele kernel.

O formato desses parˆametros segue a forma <<< Dg, Db, Ns >>>, onde:

• Dg é do tipo dim3 e especifica a dimensão e o tamanho do grid. Sendo Dg.x * Dg.y igual ao número de blocos.

(33)

• Ns é do tipo size t e especifica o número de bytes que serão alocados dinamicamente além dos bytes estáticos. Esta memória é utilizada por arrays declarados com o modificador extern. Este argumento é opcional e o seu valor padrão é 0.

Por exemplo, se queremos chamar um kernel com 10 blocos, sendo 5 threads por bloco, podemos utilizar o seguinte programa C:

__global__ void kernel() { ... } void main() { kernel<<<10, 5>>>(); } ´

E válido lembrar que uma chamada de um kernel a partir do host é ass´ıncrono, ou seja, o kernel pode não terminar sua execução antes que a próxima instrução do código do host seja chamado. Para que haja uma sincronização deste kernel é poss´ıvel chamar o método cudaThre-adSynchronize()que garante o término de execução de todas as suas threads.

O compilador nvcc

Este é o compilador disponibilizado para poder compilar o código do CUDA. A diferença, é que este não é um compilador completo, ou seja, ele não se responsabiliza por código C, e sim apenas pelo código escrito em CUDA. Isto permite que o compilador utilizado para compilar o código C seja customizado, ou seja, pode ser o gcc, visual c++ compiler, etc.

Modo de emulação O nvcc permite que o código escrito em cuda (os kernels) sejam execu-tados em modo de emulação (na CPU) para debugar o código, permitindo chamadas a qualquer método de CPU dentro do kernel em si para debugação. Métodos como printf() podem ser chamados dentro do kernel apenas em modo de emulação.

Para compilar em modo de emulação é passada a flag -deviceemu para o nvcc.

2.6.4 Ponteiros

Ponteiros no CUDA são muito similares a ponteiros em C. Há algumas “fórmulas básicas” para utilizá-los, sendo o que os distingue dos ponteiros em C.

(34)

´

E preciso diferenciar se um ponteiro est´a sendo alocado no host ou no device. Sendo os ponteiros do host os ponteiros C e os ponteiros device os ponteiros CUDA.

Os ponteiros em C são alocados através de malloc(), os ponteiros em CUDA são alocados com cudaMalloc().

Para “popular” os dados de cada ponteiro, em C geralmente utiliza-se um for sobre os dados populando conforme necessário. Em CUDA, os ponteiros possuem seus dados populados através de cudaMemcpy() que copia os dados de um ponteiro C para um ponteiro CUDA (o método cudaMemcpy() é análogo ao método memcpy()).

Um trecho de c´odigo para alocar um ponteiro CUDA e popular seus dados:

int * data = (int*)malloc(sizeof(int) * 10); for (int i = 0; i < 10; ++i)

data[i] = 5; int * d_data;

cudaMalloc((void**)&d_data, sizeof(int) * 10);

cudaMemcpy(d_data, data, sizeof(int) * 10, cudaMemcpyHostToDevice);

2.6.5 Texturas

O CUDA possui o tipo textura. Este tipo permite acesso à memória de texturas, que possui rápido acesso e é otimizada para armazenar estes tipos de dados.

Para poder alocar memória para as texturas, utiliza-se o comando cudaMallocArray() que irá alocar a imagem na memória para texturas.

´

E poss´ıvel também utilizar a memória global para alocar a textura, no entanto, isso geral-mente implica em perda de desempenho. Além disso, o CUDA não oferece suporte a algumas operações com as texturas (como filtros) quando utiliza-se este modo. Uma textura alocada na memória global sofre das seguintes caracter´ısticas:

• Pode ter apenas uma dimens˜ao • N˜ao suporta filtro para as texturas

• Pode ser acessada apenas por valores inteiros e n˜ao normalizados (n˜ao estando no inter-valo [0,1))

(35)

conterão dados pertinentes ao conteúdo da textura. As variáveis descritoras são:

• texture<Type, Dim, ReadMode> texRef; - Utilizada para declarar como a textura est´a sendo armazenada (tipo da vari´avel), os filtros sendo aplicados, etc.

• cudaChannelFormatDesc - Contém uma descrição sobre a textura, em geral é criado com o método cudaCreateChannelDesc<Type>(); onde Type é o tipo da variável que irá conter cada pixel da textura (ex.: float, char, etc.)

Então, na utilização das texturas, é necessário criar uma variável que irá conter a informação de cada pixel da textura e ser armazenada no lado do host. Como por exemplo:

float * h texture;

Esta variável é utilizada da mesma forma que utiliza-se para carregar texturas com OpenGL. A próxima variável é correspondente esta, mas será alocada no lado do device, ou seja, será enviada à GPU. É declarada da mesma forma, no entanto, sua alocação é feita pelo método cudaMalloc(). Por exemplo:

float * d_texture;

cudaMalloc( (void**) &d_texture, imageW * imageH * sizeof(float));

A próxima variável é do tipo cudaArray e será ela que irá transportar a informação para a GPU através da memória dedicada a texturas. O código abaixo mostra como ela deve ser usada: cudaArray * cu_array;

cudaMallocArray( &cu_array, &channelDesc, imageW, imageH );

cudaMemcpyToArray( cu_array, 0, 0, h_data, imageW * imageH * sizeof(float), cudaMemcpyHostToDevice);

cudaBindTextureToArray( texImage, cu_array, channelDesc);

Note que as vari´aveis texImage e channelDesc s˜ao os descritores citados anteriormente.

Invocac¸˜ao do kernel com texturas

Para invocar um kernel que utiliza texturas, os passos da seção anterior são necessários para a declaração das variáveis para a utilização das texturas. O kernel deve então possuir um

(36)

parâmetro onde ele poderá escrever o resultado do seu processamento. Ela terá o mesmo tipo que a textura que armazena a textura no lado do host, mas o ponteiro passado para o kernel será o da variável que é armazenada no lado do device. Veja o código abaixo:

float * d_texture;

cudaMalloc( (void**) &d_texture, imageW * imageH * sizeof(float)); ...

__global__ void grayscale(float * textura, int w, int h); //declara¸c~ao do kernel ...

grayscale<<<grid, threads>>>(d_texture, imageW, imageH); //invoca¸c~ao do kernel

Obtenc¸˜ao dos resultados

Para obter os resultados da invocação do kernel, é necessário copiar o resultado para uma variável local (no lado do host), isto é feito da seguinte forma:

float * resultado = (image_t *)malloc(sizeof(float) * imageH * imageW); cudaMemcpy( resultado, cu_array, sizeof(float) * imageH * imageW,

cudaMemcpyDeviceToHost);

O resultado da computação feita pelo kernel pode ser manipulada da forma desejada através da variável resultado.

Sa´ıda para v´arias texturas

Foram feitos experimentos com a escrita do kernel em mais de uma textura, isto pode ser feito utilizando:

• Um cudaArray para cada textura

• Uma vari´avel armazenada no dispositivo (sendo alocada com cudaMalloc()) para cada textura

• Utilizac¸˜ao dos mesmo descritores da textura (se a sa´ıda desejada for do mesmo tipo que a textura de entrada)

2.6.6 Performance

Para obter uma boa performance utilizando o CUDA é necessário que haja uma atenção especial na hora de se codificar os kernels. Caso não haja esta atenção, é muito poss´ıvel que o código produzido seja muito mais lento que o produzido em CPU.

(37)

• Minimizar o número de funções com baixo “throughput”

• Maximizar o uso da banda da memória através de acessos coerentes e utilizando cada tipo de memória corretamente

• Utilizar um número grande de instruções aritméticas em cada thread

• Manter um grande número de threads ativas em cada multiprocessador sem que elas fi-quem esperando por um acesso à memória. Isto também é chamado de “latency hiding”.

Instruc¸˜oes de controle de fluxo

Utilizar instruções if, switch, do, for, while podem impactar na performance de um kernel se estas não forem minimizadas (o que nem sempre é poss´ıvel para a corretude do problema). Estas instruções podem diminuir a performance porque em alguns casos é necessário seriali-zar ambos caminhos de execução, ou seja, em uma instrução if ambos caminhos de execução precisam ser executados (Neste caso, as threads divergem, e apenas após a execução dos cami-nhos que as threads convertem para o mesmo caminho de execução. Isto é um processo custoso porque há instruções inúteis que foram executadas.

´

E v´alido lembrar que as threads de um bloco divergem se elas tomarem decis˜oes de fluxo diferentes entre si.

Acesso `a mem´oria

Executar leituras da memória pode ser muito custoso, portanto, este tempo deve ser “escon-dido” e possibilitar com que haja outras operações executando enquanto aquela thread aguarda pela palavra sendo carregada. Os custos de acesso à memória estão descritos na tabela 2.1.

Tipo de mem´oria Caracter´ıstica Custo (ciclos)

Registrador Hardware dedicado 1

Mem´oria compartilhada Hardware dedicado 1

Mem´oria local DRAM, sem cache 400-600

Mem´oria global DRAM, sem cache 400-600

Mem´oria de constantes DRAM com cache 1-100, dependendo da localidade do cache Mem´oria de texturas DRAM, com cache 1-100, dependendo da localidade do cache

(38)

Como os dados de entrada estão sempre localizados na memória global, os acessos a esta devem ser minimizados e seus dados colocados em alguma memória mais rápida. Um programa t´ıpico caracteriza-se nas seguintes etapas:

1. Carregar os dados da mem´oria global na mem´oria compartilhada

2. Sincronizar as threads do bloco para garantir que as threads não irão ler dados incorretos 3. Processar os dados na memória compartilhada

4. Sincronizar as threads do bloco para garantir que as threads n˜ao ir˜ao escrever dados in-corretos

5. Escrever os resultados da mem´oria compartilhada na mem´oria global

O acesso coerente à memória é muito importante para uma boa performance. Ele ajuda a di-minuir o custo de acesso diminuindo a quantidade de ciclos necessários, pois menos instruções são feitas para efetuar as operações de leitura, carregando mais palavras por instrução.

Um acesso coerente à memória se caracteriza em fazer com que as threads acessem blocos cont´ıguos da memória de uma forma “padronizada”. Um exemplo de acesso coerente à memória pode ser visto na figura 2.13. Esta figura mostra que todas as threads estão carregando N bytes cont´ıguos da memória e que o endereço inicial está alinhado à thread.

Já na figura 2.14 o acesso não é coerente.

Os requerimentos para obter um acesso coerente à memória foi relaxado nas última gerações de GPUs da NVIDIA. A partir da série 9, que pussuem computabilidade 1.3, os acessos podem ser interligados dentro de um bloco de threads, mas sequenciais em relação aos blocos.

Estas “computabilidades” são números dados às diferentes GPUs da NVIDIA. Quanto maior o numero, maior a quantidade de operações diferentes e suporte a mais recursos as GPUs tém (não necessariamente são mais rápidas).

(39)

(40)

Figura 2.14: Exemplos de acesso não coerente à memória. Esquerda: Acesso interligado, Di-reita: Endereço inicial não alinhado

(41)

3 Desenvolvimento

Os algoritmos implementados foram todos feitos utilizando a tecnologia CUDA em con-junto com C++ e C. Isto devido `a linguagem CUDA ser facilmente utilizada a partir destas outras linguagens.

N˜ao foi utilizado nenhum framework para cuda, como o cudpp, pois o objetivo era utilizar a tecnologia para estudar o seu uso e problemas enfrentados.

3.1 Comparac¸˜ao de N a N elementos

Este ´e um problema cl´assico, muito estudado na literatura, e consiste em:

Dado um conjunto de dados, comparar cada elemento deste array com cada um dos outros elementos deste array, verificando quais elementos s˜ao iguais entre si.

Este algoritmo foi escolhido por ser uma sub-etapa do algoritmo de segmentação de ima-gens Mumford&Shah, e que sua implementação é muito interessante dado sua natureza paralela, mas que exige uma reinterpretação do problema.

A implementação deste algoritmo em CPU é simples:

Listing 3.1: Pseudo código de comparação N a N em CPU

1 T[tamanhoConjunto] dadosEntrada; // elementos de entrada do tipo T (qualquer tipo ) 2 for ( i = 0; i < tamanhoConjunto; ++i) {

3 for ( j = i+1; j < tamanhoConjunto; ++j) {

4 if (dadosEntrada[ i ] == dadosEntrada[ j ]) {

5 // aqui encontramos 2 elementos iguais

6 }

7 }

8 }

(42)

3.1 Comparac¸˜ao de N a N elementos 41

• ID: corresponde ao ID ´unico deste objeto, sendo que nenhum outro objeto cont´em este ID

• valor: o valor que ser´a comparado. Um objeto ser´a igual a outro caso este campo seja igual

O que se deseja então é invalidar os IDs dos objetos que contiverem um outro objeto igual. Um objeto será igual a outro se o campo valor for igual. Preservar o objeto com o menor ID dos objetos iguais. Por exemplo, os dados de entrada:

A = { (1, 1) , (2, 1), (3, 1) , (4, 2), (5, 2), (6, 3) }

deve retornar:

R = { (1, 1) , (-1), (-1) , (4, 2), (-1), (6, 3) }

A quantidade de comparações feitas é de:

c= n∗ (n − 1)

2 (3.1)

O que revela que a complexidade do algoritmo é O(n2). As comparações feitas no exemplo acima são: (1,2), (1,3), (1,4), (1,5), (1,6), (2,3), (2,4), (2,5), (2,6), (3,4), (3,5), (3,6), (4,5), (4,6), (5,6)

3.1.1 Modelo em GPU

As comparac¸˜oes feitas podem ser colocadas em uma matriz triangular:

− 2 3 4 5 6 1 (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) 2 x (2, 3) (2, 4) (2, 5) (2, 6) 3 x x (3, 4) (3, 5) (3, 6) 4 x x x (4, 5) (4, 6) 5 x x x x (5, 6)

Todos os campos marcados com x são comparações inúteis, portanto somente a matriz triangular superior é importante neste caso.

(43)

Esta matriz então é convertida para uma matriz c ×c_n, onde c é o número de comparações calculado previamente. Agrupa-se então, similar ao processo de GAUSS para soma, cada linha com a última linha marcada. Por exemplo, a linha 1 agrupa-se com a última linha, a linha 2 agrupa-se com a penúltima linha, e assim por diante. A matriz resultante deste exemplo é:

(1, 2) (1, 3) (1, 4) (1, 5) (1, 6) (5,6) (2, 3) (2, 4) (2, 5) (2, 6) (4,5) (4,6) (3, 4) (3, 5) (3, 6) (5,6) x x

Note que neste caso temos uma matriz retangular, mas muito menos campos x, onde threads são desperdiçadas. Aqui é simples fazer a indexação de onde cada thread deve operar.

Cada thread irá então trabalhar com: (sendo x e y os ´ındices das threads e n o número de dados de entrada). O valor (x,y) onde cada thread trabalha é dado por:

(i, j) = (

(x, x + y) se esquerda da divisão(não negrito); (n − x − 2, y − 1) se esquerda da divisão(negrito). Para saber se um valor está a direita da divisão isto é feito por:

x+ y + 1 < n → Esquerda da divis˜ao; x+ y + 1 ≥ n → Direita da divis˜ao (negrito).

O kernel ´e lanc¸ado com b blocos, calculado por:

B= d n

larguraBlocoe ∗ d (_nc) blocks.ye;

, onde: c = número de comparações e n = número de elementos de entrada.

A dimensão de cada bloco é 16 × 16 para uma execução eficiente, como explicado em (??). Como cada bloco irá possuir um ID e cada thread possui o seu id local (dentro do bloco), é necessário que seja calculado um ID Global para cada thread. Isto é calculado da seguinte forma:

numberO f BlocksPerRow= d n

(44)

3.2 Filtro de difus˜ao anisotr´opico 43

x= blockId ∗ larguraBloco n

∗ larguraBloco + threadId.y

y= ((blockId ∗ larguraBloco) % (numberO f BlocksPerRow ∗ larguraBloco)) + threadId.x

As threads são então lançadas e cada uma carrega o valor (i, j + 1) da memória e compara a chave valor; caso elas sejam iguais, escreve em [ j + 1] o valor −1.

3.1.2 Custo/tempo de implementac¸˜ao

Como a descrição deste algoritmo é relativamente mais complicada, este levou mais tempo para ser implementado dado vários bugs e particularidades encontradas.

3.2 Filtro de difus˜ao anisotr´opico

Este algoritmo por se tratar de um filtro, sua implementação não teve nenhuma “tradução” complicada. Os filtros em geral se caracterizam por alterar o pixel atual levando em consideraçao o valor dos pixels adjacentes a ele. Isto é muito simples e rápido de se aplicar na GPU.

O algoritmo do filtro de difus˜ao ´e implementado da seguinte forma:

repetir n itera¸c~oes

para cada pixel fazer

pixel atual = opera¸cao de difus~ao com pixels adjacentes fim

fim

3.2.1 Mem´oria

Para enviar a imagem para a GPU foi utilizada a memória de texturas para representar a imagem. Isto ajudou muito na performance do filtro, pois a memória de texturas não sofre penalidades de performance para acessos à memória não coerentes.

(45)

apenas assumiu-se que cada thread iria processar cada pixel. O acesso à memória de texturas é apenas de 8 leituras (pixels adjacentes) e 1 escrita para cada pixel.

Como a memória de texturas possui exigências mais brandas para obter uma alta velocidade de acesso, esta revelou-se até 5 vezes mais rápida que o mesmo kernel utilizando a memória global.

3.2.3 Custo/tempo de implementac¸˜ao

O tempo gasto para este algoritmo foi relativamente curto, no entanto, a maior parte do tempo foi gasta aprendendo a nova API que estava em estudo.

(46)

45

4 Resultados

Resultados sobre a qualidade e tempos de resposta obtidos para cada um dos algoritmos implementados.

O CUDA Profiler é um aplicativo criado pela NVIDIA para verificar algumas informações sobre a execução dos kernels na GPU (p/ ex.: acessos coerentes à memória, não coerentes, escritas, etc.). Estar informações são úteis para guiar o programador de forma a melhorar e analisar o desempenho do programa. Os resultados podem ser utilizados para apontar se uma estratégia de implementação diferente deve ser utilizada.

4.1 Filtro de difus˜ao anisotr´opica

O filtro de difusão anisotrópica foi um ótimo caso de utilização da GPU devido à sua natu-reza paralela (independência dos dados) e alto número de operações aritméticas.

4.1.1 Validac¸˜ao dos resultados

Para validar os resultados foi implementado o mesmo filtro em CPU, que serve como implementação base. Rodou-se então ambos algoritmos com os mesmos parâmetros gerando duas imagens diferentes, uma para CPU e outra para GPU.

A figura 4.1.1 mostra imagens lado a lado para que seja feita uma inspeção visual entre CPU e GPU. Um número elevado de iterações foi utilizado para acentuar a diferença entre as imagens.

Para inspecionar melhor a diferença entre os resultados, foi utilizado o utilitário Image-magick(IMAGEMAGICK, 2008) para criar imagens que mostrem de forma visual as diferença entre as imagens. Será utilizada a primeira imagem da figura 4.1.1 para comparação entre cpu e gpu.

A imagem (a) da figura 4.1.1 mostra em vermelho se o pixel (x, y) da imagem em CPU é diferente do pixel (x, y) da imagem em GPU. Para salientar melhor a quantidade de pixels diferentes é feita uma máscara, onde em branco estarão os pixels diferentes e em preto os pixels

(47)

(a) Imagem original (b) FDA em CPU (c) FDA em GPU

(d) Imagem original (e) FDA em CPU (f) FDA em GPU

(g) Imagem original (h) FDA em CPU (i) FDA em GPU

Figura 4.1: Comparação do resultado entre CPU e GPU. λ = 15 e 90 iterações que não são diferentes, como mostrado na imagem (b) da figura 4.1.1.

Há diferença entre as imagens, mas a quantidade é pequena, como pode ser visto por inspeção visual nas imagens anteriores. As imagens (c) e (d) da figura 4.1.1 mostram em quan-tidade o quanto estas imagens são diferentes. A primeira é uma simples diferença entre cada pixel, calculado pela equação 4.1 e a última é a primeira imagem com contraste acentuado para que seja mais fácil visualizar a imagem.

(48)

4.1 Filtro de difus˜ao anisotr´opica 47

(a) Diferenc¸a entre CPU e GPU. Pixels alterados est˜ao em ver-melho

(b) Máscara aplicada sobre a imagem de diferença. Os pixels em branco são pixels diferentes entre as imagens

(c) Imagem de diferença en-tre CPU e GPU aplicando a equação 4.1

(d) Imagem de diferença en-tre CPU e GPU aplicando a equação 4.1 com contraste acen-tuado para melhor visualização

Figura 4.2: Diferenc¸as entre as imagens geradas por CPU e GPU

4.1.2 Tempos de resposta

O filtro de difusão apresentou tempos de resposta muito bons quando comparados à implementação em CPU. Os número comprovam que a GPU é superior quando há muitas instruções aritméticas para serem executadas com independência dos dados.

Para medir os tempos foram executados ambos algoritmos 500 vezes. A configuração de cada foi de 100 iterações e λ = 15. O tempo medido em CPU é somente a execução do filtro de difusão, excluindo o tempo de carregar e salvar a imagem. Na GPU, as medições estão divididas em duas:

• GPU processamento - apenas o tempo de processamento do kernel ´e medido

• GPU overhead - o tempo de processamento do kernel é medido e também o tempo de transferência dos dados para a GPU.

(49)

512x512 199535,87 685,37 735,53 271

1024x1024 807530,07 2688,18 2774,56 291

2048x2048 3205504,2 10118,28 10349,07 310

Tabela 4.1: Média das execuções do filtro de difusão com 100 iterações (tempos em milisegun-dos)

Figura 4.3: Gr´afico de performance do filtro de difus˜ao comparando CPU e GPU

4.1.3 An´alise com o CUDAProfiler

Ao rodar o CUDAProfiler sobre o filtro de difusão com 90 iterações, obtemos os resultados exibidos na figura 4.1.3. Cada linha é uma execução do kernel, portanto há 90 linhas de resulta-dos. Estes resultados chamam a atenção pela coluna gst incoherent, que mostra a quantidade de writesincoerentes feitos pelo kernel. Isto é evidenciado ao plotarmos o gráfico de cada coluna, como mostrado na figura 4.1.3.

O valor alto apontado pela coluna gst incoherent mostra que há muitos writes em memória não coerentes. Como explicado no cap´ıtulo 2.6.6, os writes devem ser coerentes para aumentar a velocidade do acesso à memória. Isto pode estar impedindo que o algoritmo rode em maiores velocidades.

4.1.4 Conclus˜ao

A qualidade das imagens obtidas e a otimização do tempo de resposta mostram que a implementação do filtro de difusão foi um sucesso. Talvez possa se melhorar ainda mais o tempo de resposta devido aos resultados exibidos no CUDAProfiler.

(50)

4.1 Filtro de difus˜ao anisotr´opica 49

Figura 4.4: Cuda profiler rodando o filtro de difusão com 90 iterações

Figura 4.5: Gr´afico dos sinais capturados pelo CUDAProfiler. E not´avel o alto valor de´ gst incoherent.

(51)

O problema de comparação N a N exige uma certa astúcia na hora de repensá-lo para a GPU, pois as threads podem ser desperdiçadas. É também necessário prestar atenção especial no acesso coerente da memória.

Este problema, da maneira como foi implementado, serve como um “contra-exemplo” para o argumento “GPUs são mais rápidas, independente do problema”. Isto é mostrado nos tempos de resposta obtidos. No entanto, é poss´ıvel que este problema possa ser acelerado através de um uso inteligente da memória compartilhada e utilizar acesso coerente à memória, mas a quantidade de operações aritméticas por thread é baixa e a quantidade de acessos à memória é alta, o que pode inviabilizar este problema para a GPU.

4.2.1 Tempos de resposta

Os tempos de resposta para a GPU foram maiores que a CPU, o que é esperado, já que a implementação não se preocupou muito em ter um acesso estritamente coerente à memória e, pela natureza do problema, a quantidade de operações aritméticas é muito baixa.

Cada método foi executado 500 vezes com 500, 1000 e 1500 elementos. A média das execuções está na tabela 4.2. Esta tabela gera o gráfico da figura 4.2.1.

- Tempo m´edio (ms)

N´umero de elementos CPU GPU

500 1,97 64,65

1000 10,21 65,34

1500 21,86 67,43

Tabela 4.2: Média das execuções da comparação N a N

4.2.2 Validac¸˜ao dos resultados

A validação dos resultados para este problema é uma simples checagem entre o array gerado pela CPU e pela GPU. Se cada elemento gerado pela GPU for igual ao array gerado pela CPU, o resultado está correto.

4.2.3 An´alise com o CUDAProfiler

A figura 4.2.3 exibe os resultados de rodar a comparação N a N com 1500 elementos de entrada. É poss´ıvel notar que as colunas gld incoherent e gld coherent não aparecem, pois todos os seus valores são 0. As colunas gst coherent e gst incoherent apresentam valores parecidos,

(52)

4.2 Comparac¸˜ao N a N 51

Figura 4.6: Gráfico de performance da comparação N a N com 1500 elementos

o que chega a ser esperado, j´a que a matriz possui a divis˜ao, o que torna muito dif´ıcil conseguir tornar os writes coerentes.

Figura 4.7: Cuda profiler rodando a comparac¸˜ao N a N com 1500 elementos

(53)

5 Conclus˜ao

Para várias aplicações é muito válido criar uma implementação em GPU pois o ganho em performance pode ser muito grande, como visto com o filtro de difusão. No entanto, é necessário um estudo prévio sobre o algoritmo e colocar na balança se é viável.

Hoje, devido à falta de amadurecimento por parte da tecnologia, que é nova e promissora, e dos desenvolvedores, por se trabalhar com um paradigma de programação diferente do con-vencional, o custo de implementar um algoritmo já conhecido será maior do que se fosse feito pelos métodos tradicionais.

(54)

53

Referˆencias Bibliogr´aficas

BUCK, I. Gpu gems 2 - programming techniques for high-performance graphics and general-purpose computation. In: . [S.l.]: Addison Wesley, 2005. cap. Taking the plunge into GPU computing, p. 509–519.

LUEBKE, D.; HUMPHREYS, G. How gpus work. Computer, IEEE Computer Society, Los Alamitos, CA, USA, v. 40, n. 2, p. 96–100, 2007. ISSN 0018-9162.

GHULOUM, A. The Problem(s) with GPGPU. Out 2007. Acessado em 19/11/2007. Dispon´ıvel em: <http://blogs.intel.com/research/2007/10/the problem with gpgpu.html>.

GONZALEZ, R. C.; WOODS, R. E. Digital Image Processing. 3rd. ed. Upper Saddle River, NJ, USA: Prentice Hall, 2008. ISBN 9780131687288.

SERAMANI ZHOU JIAYIN, C. K. L. N. A. S. Denoising of mr images using non linear anisotropic diffusion filtering as a preprocessing step. International Journal of BioSciences and Technology, v. 1, n. 1, 2008.

PERONA, P.; MALIK, J. Scale-space and edge detection using anisotropic diffusion. Pattern Analysis and Machine Intelligence, IEEE Transactions on, v. 12, n. 7, p. 629–639, Jul 1990. ISSN 0162-8828.

WIKIPEDIA. Stream processing. [S.l.], 200? Acessado em 28/08/2007. Dispon´ıvel em: <http://en.wikipedia.org/wiki/Stream processing>.

PHARR, M.; FERNANDO, R. GPU Gems 2 : Programming Techniques for High-Performance Graphics and General-Purpose Computation. [S.l.]: Addison-Wesley Professional, 2005. Hardcover. ISBN 0321335597.

NVIDIA. NVIDIA CUDA Programming Guide 2.0. [S.l.: s.n.], 2008.

IMAGEMAGICK. Comparing – IM v6 Examples. [S.l.], 2008. Acessado em 29/10/2008. Dispon´ıvel em: <http://www.imagemagick.org/Usage/compare/>.