Implementação do algoritmo Radix-2 para cálculo da FFT em FPGA

(1)

UNIVERSIDADE TECNOL ÓGICA FEDERAL DO PARAN Á DEPARTAMENTO ACAD ÊMICO DE EL ÉTRICA

CURSO DE ENGENHARIA EL ´ETRICA

CALLEBE SOARES BARBOSA

IMPLEMENTAC

¸ ˜

AO DO ALGORITMO RADIX-2 PARA

C ´

ALCULO DA FFT EM FPGA

TRABALHO DE CONCLUS ˜AO DE CURSO

PATO BRANCO 2018

(2)

CALLEBE SOARES BARBOSA

IMPLEMENTAC

¸ ˜

AO DO ALGORITMO RADIX-2 PARA

C ´

ALCULO DA FFT EM FPGA

Trabalho de Conclus ão de Curso de graduaç ão, apresentado à disciplina de Trabalho de Conclus ão de Curso 2, do Curso de Engenharia El étrica da Coordenaç ão de Engenharia El étrica - CO-ELT - da Universidade Tecnol ógica Federal do Paran á - UTFPR, C âmpus Pato Branco, como requisito parcial para obtenç ão do t´ıtulo de Engenheiro Eletricista.

Orientador: Prof. Dr. F ´abio Luiz Bertotti

PATO BRANCO 2018

(3)

TERMO DE APROVAC¸ ˜AO

O Trabalho de Conclus ão de Curso intitulado IMPLEMENTAÇ ÃO DO AL-GORITMO RADIX-2 PARA C ÁLCULO DA FFT EM FPGA do acad êmico Callebe Soa-res Barbosa foi considerado APROVADO de acordo com a ata da banca examinadora N◦ 216 de 2018.

Fizeram parte da banca examinadora os professores:

Prof. Dr. F ´abio Luiz Bertotti Prof. Dr. Giovanni Alfredo Guarneri

Dr. Jean Patric da Costa

A Ata de Defesa assinada encontra-se na Coordenaç ão do Curso de Engenharia El étrica

(4)

Se vi mais longe foi por estar de p ´e sobre ombros de gigantes.

(5)

AGRADECIMENTOS

Agradeço primeiramente a Deus, por prover a mim os meios pelos quais fui, e sou sustentado todos os dias. E por me conceder a oportunidade, e a capacitaç ão para realizaç ão deste trabalho.

Agradeço a estrutura que formou meu car ácter, e me deu suporte para a realizaç ão de meus mais distantes sonhos; a minha querida fam´ılia, sem o qual jamais teria chegado at é aqui. Ao meu pai Jos é Geral, a minha m ãe Maria Rosa Barbosa e ao meu irm ão Victor E. Soares Barbosa.

Agradeço tamb ém ao meu professor orientador Dr. F ábio Luiz Bertotti, pela paci ência, dedicaç ão e respeito com que me direcionou e ensinou ao longo da realizaç ão deste trabalho. Deixo tamb ém aqui registrado minha gratid ão e reco-nhecimento a toda a Universidade Tecnol ógica Federal do Paran á (UTFPR). A esta instituiç ão que me recebeu como aluno, e me deu a oportunidade de estudar junto a um grupo docente de excel ência, e que me preparou para o nobre exerc´ıcio da enge-nharia.

Por fim, agradeço aos meus queridos amigos, que surgiram ao longo de toda a minha jornada, e que de maneira extraordin ária contribu´ıram para meu cresci-mento, celebrando com minhas vit órias e me sustentando em minha dificuldades.

(6)

RESUMO

BARBOSA, Callebe Soares. Implementaç ão do Algoritmo Radix-2 para o C álculo da FFT em FPGA. 2018. 104 f. Monografia (Trabalho de Conclus ão de Curso) - Curso de Engenharia El étrica, Universidade Tecnol ógica Federal do Paran á. Pato Branco, 2018.

O presente trabalho aborda o desenvolvimento de um hardware dedicado ao c álculo da Transformada R ápida de Fourier (FFT), a partir da implementaç ão do algoritmo Radix-2 em uma FPGA, conferindo paralelismo a fim aumentar a efici ência no c ômputo da FFT. Para isso, s ão introduzidos os conceitos principais sobre a FFT, o algoritmo Radix-2, o algoritmo CORDIC, e o projeto de par âmetros que maximizam o desem-penho desses algoritmos. O dispositivo escolhido para implementaç ão é o ZynqBerry - TE0726, o qual é equipado com a FPGA da fam´ılia Zynq-700. Neste trabalho s ão implementadas duas arquiteturas de FFT. A primeira FFT possui 16 pontos, e é compu-tada com apenas 12 ciclos de clock, atingindo um desempenho de SQNR de 52dB. A segunda FFT possui 1024 pontos, e é computada com 1728 ciclos clock, atingindo um desempenho SQNR de 41dB. Ao final deste trabalho é poss´ıvel compreender como é projetado e implementado uma FFT de bom desempenho, em um ambiente vantajoso como a FPGA.

(7)

ABSTRACT

BARBOSA, Callebe Soares. Implementation of the Radix-2 Algorithm for the Calcu-lation of FFT in FPGA. 2018. 104 p. Undergraduate Thesis - Electrical Engineering Course, Universidade Tecnol ´ogica Federal do Paran ´a. Pato Branco, 2018.

The objective of this work is the development of a specific hardware for the calculation of Fast Fourier Transform (FFT), based on the implementation of the Radix-2 algorithm in FPGA, using parallelism to increase the computational efficiency. This work intro-duce the main concepts about FFT, the Radix-2 algorithm, the CORDIC algorithm, and the project of parameters that maximize the performance of these algorithms. The de-vice chosen for FFT implementation is the ZynqBerry - TE0726, which has an FPGA of the Zynq-700 family.0. Two FFT architectures are implemented in this work; the first FFT has 16 points, and is computed with only 12 cycles of textit clock, achieving a SQNR performance of 52dB. The second FFT has 1024 points, and is computed with 1728 clock cycles, achieving a SQNR performance of 41dB. At the end it is possible to understand how an FFT is designed and implemented in an advantageous environ-ment such as the FPGA.

(8)

LISTA DE FIGURAS

Figura 1: Expectro de Fourier do Sinal x(t) = sin(2π15t) + sin(2π40t) . . 17

Figura 2: Butterfly do Fluxo do Sinal . . . 20

Figura 3: FFT de 8 Pontos . . . 21

Figura 4: FFT DIF de 8 Pontos . . . 23

Figura 5: Rotaç ão de Hr pelo ângulo de 2πr/N0 . . . 24

Figura 6: Angulos Elementares - Cordic Tradicional com N=4 . . . .ˆ 28 Figura 7: EEAS com N=2 e S=4 . . . 31

Figura 8: Exemplo de execuc¸ ˜ao do Algoritmo TBS . . . 34

Figura 9: Exemplo de execuc¸ ˜ao do Algoritmo TBS . . . 35

Figura 10: MSR com I=2, J=1 e N=2 . . . 38

Figura 11: MSR com I=2, J=1 e N=2 . . . 39

Figura 12: Relac¸ ˜ao entre o Pupper e o SQNR para MSR-CORDIC, como Nspt = 3e N = 3 . . . 43

Figura 13: Arquitetura Tipica de uma FPGA . . . 45

Figura 14: Arquitetura de uma CLB com 4 BLEs . . . 46

Figura 15: Arquitetura de uma BLE (Basic Logic Element) . . . 47

Figura 16: Diagrama Geral do Sistema Implementado . . . 49

Figura 17: SoC ZynqBery - TE0726 . . . 50

Figura 18: Arquitetura Simplificada - Zynq-7000 . . . 52

Figura 19: Arquitetura Simplificada de um Sistema Digital . . . 53

Figura 20: Arquitetura Simplificada do um Sistema Digital Mapeado para o Zynq . . . 54

Figura 21: Relaç ão entre S e o SQNR M édio para MSR Cordic Modo Normal 58 Figura 22: Arquitetura da Iteraç ão MSR Cordic Modo Normal Nspt = 3 . . . 61

(9)

Figura 24: Arquitetura Implementada FFT de 16 Pontos . . . 63

Figura 25: Arquitetura FFT 1024 Pontos Implementada . . . 65

Figura 26: Sinal com componentes em 213Hz, 410Hz, e 1403Hz - FFT de 16 Pontos . . . 69

Figura 27: Sinal de Entrada da FFT de 16 Pontos Amostrado a 3200 Hz . . 70

Figura 28: Espectro de Fourier proveniente da FFT de 16 Pontos . . . 71

Figura 29: Espectro de Fourier proveniente do Matlab para 16 Pontos . . . 71

Figura 30: Erro entre o resultado obtido pela FFT de 16 Pontos Implemen-tada e o Matlab . . . 72

Figura 31: Sinal com Componentes em 213Hz, 410Hz, e 1403Hz - FFT de 1024 Pontos . . . 75

Figura 32: Sinal de Entrada da FFT de 1024 Pontos Amostrado a 3200 Hz 75 Figura 33: Espectro de Fourier proveniente da FFT de 1024 Pontos . . . . 76

Figura 34: Espectro de Fourier proveniente do Matlab para 1024 Pontos . 76 Figura 35: Erro entre o resultado obtido pela FFT de 1024 Pontos Imple-mentada e o Matlab . . . 77

Figura 36: Criac¸ ˜ao de um Novo Bloco de Design . . . 83

Figura 37: Criac¸ ˜ao de um Novo Bloco de Design . . . 84

Figura 38: Bloco de Design para FFT 16 Pontos . . . 85

Figura 39: Enderec¸o de Mem ´oria da Interface AXI FFT . . . 86

Figura 40: Caminho at é a ferramenta: Tools: Create and Package New IP . 88 Figura 41: Ferramenta de Criaç ão e Empacotamento de Novas IPs . . . . 88

Figura 42: Escolha da Opc¸ ˜ao: Create a New Peripheral . . . 89

(10)

LISTA DE TABELAS

Tabela 1: Matriz φ para o dado Exemplo . . . 36

Tabela 2: N´ıvel SQNR entre o Modo Generalizado e Normal, NSP T = 3 . . 59

Tabela 3: Resultado de S´ıntese FFT 16 Pontos . . . 67

Tabela 4: Comparativo de S´ıntese - FFT 16 Pontos . . . 67

Tabela 5: Comparativo N´ıvel de SNQR para FFT de 16 Pontos . . . 68

Tabela 6: Resultado de S´ıntese FFT 1024 Pontos . . . 72

Tabela 7: Comparativo de S´ıntese - FFT 1024 Pontos . . . 73

(11)

SUM ÁRIO 1 INTRODUÇ ÃO . . . 11 1.1 OBJETIVOS . . . 12 1.1.1 Objetivo Geral . . . 12 1.1.2 Objetivos Espec´ıficos . . . 12 1.2 ORGANIZAÇ ÃO DO TRABALHO . . . 13 2 REVIS ÃO DE LITERATURA . . . 14

2.1 REPRESENTAC¸ ˜AO DE FOURIER PARA SINAIS . . . 14

2.1.1 S ´erie de Fourier . . . 14

2.1.2 Espectro de Fourier . . . 16

2.2 TRANSFORMADA DISCRETA DE FOURIER . . . 17

2.3 TRANSFORMADA R ´APIDA DE FOURIER . . . 18

2.4 ALGORITMO CORDIC . . . 23 2.4.1 CORDIC Tradicional . . . 25 2.4.2 EEAS-CORDIC . . . 27 2.4.2.1 Algoritmo TBS . . . 31 2.4.3 MSR-CORDIC . . . 36 2.4.3.1 An ´alise do Erro . . . 40 2.5 FPGA . . . 44

2.5.1 Aspectos Construtivos da FPGA . . . 44

3 MATERIAIS E M ´ETODOS . . . 49

3.1 ZYNQBERRY TE0726-03M . . . 50

3.1.1 Zynq-7000 . . . 51

3.2 IMPLEMENTANDO O PROCESSADOR CORDIC . . . 55

3.2.1 Projeto dos Par ˆametros Cordic . . . 55

3.2.2 Arquitetura Cordic Implementada . . . 60

3.3 IMPLEMENTANDO A FFT 16 PONTOS . . . 62

(12)

4 RESULTADOS E DISCUSS ˜AO . . . 67

4.1 FFT DE 16 PONTOS . . . 67

4.2 FFT DE 1024 PONTOS . . . 72

5 CONCLUS ˜AO . . . 78

AP ˆENDICE A - PROGRAMANDO O ZYNQBERRY . . . 83

(13)

11 1 INTRODUC¸ ˜AO

A Transformada Discreta de Fourier ou (DFT) (Discrete Fourier transform), segundo Bingham (1990), é um recurso amplamente utilizado em aplicaç ões como processamento de imagens, comunicaç ão em redes locais sem-fio ou WLAN (Wireless Local Area Network), multiplexaç ão por divis ão de frequ ências ortogonais ou OFDM (Orthogonal Frequency Division Multiplexing), e mediç ões de diferentes espectros.

O c álculo da DFT é uma tarefa que exige muitos recursos computacionais e que requer um projeto preciso para uma implementaç ão eficiente (WANG et al., 2010). A DFT tem como base a pr ópria s érie trigonom étrica de Fourier discretizada. Se-gundo Lathi (2007, p. 719), graças a um algoritmo chamado (FFT) (Fast Fourier trans-form), desenvolvido por Cooley e Tukey (1965), o n úmero de c álculos necess ários para executar uma DFT foi drasticamente reduzido, possibilitando um tempo de execuç ão aceit ável.

Mesmo reduzindo a complexabilidade de c álculo da DFT, a FFT depende basicamente de operaç ões de multiplicaç ões complexas, as quais consomem mui-tos recursos computacionais, e demandam blocos multiplicadores dedicados. Para solucionar este problema é poss´ıvel utilizar o algoritmo CORDIC (COordinate Rota-tion DIgital Computer ), desenvolvido por Jack E. Volder(VOLDER, 1959). Por meio desse algoritmo é poss´ıvel tratar as multiplicaç ões complexas, semelhantes as pre-sentes no c álculo da FFT, como operaç ões de rotaç ão vetorial, e efetu á-las por meio de operaç ões de deslocamento de bits (shifters) e somas, de forma e economizar recursos computacionais.

Segundo Zhou et al. (2009), os dispositivos conhecidos como FPGA (Field Programmable Gate Array) s ão cada vez mais usados em implementaç ão de hardware para telecomunicaç ões, por exemplo, devido a sua capacidade de alcançar um elevado desempenho, aliado a sua flexibilidade de configuraç ão. Desta forma, o uso de FPGA para implementar um hardware espec´ıfico para o c álculo da FFT torna-se relevante.

Uma da formas de realizar o c álculo da DFT de forma mais eficiente con-siste em dividir o c álculo em partes, sendo executados em paralelo por dispositivos de hardware espec´ıficos para esta finalidade. Isto pode ser conseguido a partir de dispo-sitivos que permitem construir elementos de hardware de forma configur ável, como as

(14)

1.1 Objetivos 12

FPGAs.

A FPGA é uma boa opç ão para a implementaç ão do algoritmo da FFT de-vido a grande variedade de recursos de hardware sintetiz áveis, al ém de possuir recur-sos de programaç ão paralela que permite o processamento paralelo de sinais, con-ferindo assim uma maior rapidez na execuç ão do algoritmo. Portanto, implementar a FFT em uma plataforma dotada de FPGA é mais um fator motivador para a realizaç ão deste trabalho (IBRAHIM et al., 2016).

1.1 OBJETIVOS

1.1.1 OBJETIVO GERAL

Utilizando a Linguagem de Descriç ão de hardware VHSIC (VHDL), imple-mentar um circuito l ógico que, dado um conjunto de dados digitais de entrada, seja capaz de processar a Transformada R ápida de Fourier (FFT), utilizando a metodolo-gia do algoritmo Radix-2. Buscar na implementaç ão alcançar o melhor desempenho em termos de ciclos de clock necess ários para que completar a tarefa de processa-mento da FFT, tendo como restriç ão os recursos dispon´ıveis na FPGA utilizada.

1.1.2 OBJETIVOS ESPEC´IFICOS

Ao longo deste trabalho ser ˜ao buscados os seguintes objetivos espec´ıficos:

• Identificar a melhor vers ão do algoritmo CORDIC para a Implementaç ão do

c álculo da FFT: Tendo em vista as restriç ões de recursos da FPGA utilizada,

encontrar o algoritmo que implemente a operaç ão de rotaç ão vetorial, essencial no c álculo da FFT, que reduza o erro da aproximaç ão e maximize o desempenho da operaç ão.

• Projetar os valores dos par âmetros CORDIC que maximizem a operaç ão de

rotaç ão vetorial: Dado a vers ão do Algoritmo CORDIC escolhido, encontrar um

m étodo de otimizaç ão para a relaç ão erro de aproximaç ão x desempenho. A partir do m étodo escolhido obter o conjunto otimizante de par âmetros para cada

ângulo de rotaç ão a ser realizado para o c álculo da FFT.

• Implementar o hardware do m ódulo CORDIC a ser utilizado: Com base na variaç ão do algoritmo CORDIC desenvolver em VHDL o hardware necess ário

(15)

1.2 Organizac¸ ˜ao do Trabalho 13

para realizar a operaç ão de rotaç ão vetorial, tamb ém visando a otimizaç ão de recursos.

• Implementar e testar uma FFT de 16 pontos : Implementar uma FFT 16 pontos a partir da arquitetura desenvolvida. Em seguida realizar o testa da implementac¸ ˜ao por meio do envio de diferentes sinais de entrada digitais, re-alizando os devidos testes de desempenho.

• Implementar o hardware da FFT de 1024 pontos: Com base em na arquitetura desenvolvida implementar uma FFT de 1024 pontos. Ao final realizar os devidos testes para a comparac¸ ˜ao de desempenho.

1.2 ORGANIZAC¸ ˜AO DO TRABALHO

A fim de se apresentar de forma clara e organizada, o presente traba-lho se encontra estruturado em quatro etapas: Revis ão de Literatura, Materiais e M étodos, Resultados e Discuss ão e Conclus ão. A Revis ão de Literatura presente no Cap´ıtulo 2, aborda todo o embasamento te órico necess ário para o desenvolvimento e implementaç ão deste trabalho. Em seguida, o Cap´ıtulo 3: Materiais e M étodos, trata das metodologias e procedimentos realizados para desenvolver a implementaç ão do projeto. No Cap´ıtulo 4 é ent ão apresentado os Resultados e Discuss ões proveniente da implementaç ão e teste do projeto. E por último, o Cap´ıtulo 5 trata das conclus ões obtidas com o desenvolvimento deste trabalho.

(16)

14

2 REVIS ˜AO DE LITERATURA

Nos mais diversos campos da ci ência os conceitos de sinais e sistemas possuem um papel importante, sendo utilizados nas aplicaç ões mais variadas como ac ústica, sismologia, projeto de circuitos, sistemas de geraç ão e distribuiç ão de ener-gia, controle de processos qu´ımicos, e engenharia biom édica, entre outros. Indiferen-temente da natureza f´ısica de uma aplicaç ão, os sinais e sistemas que surgem destas possuem duas caracter´ısticas b ásicas; os sinais cont ém informaç ões sobre a natureza ou comportamento de um fen ômeno, e os sistemas respondem a um sinal especifico produzindo um comportamento desejado (OPPENHEIM; WILLSKY, 2010, Pr ólogo).

Um sinal é um conjunto de dados ou informaç ões, que podem descrever di-versos tipos de fen ômenos, com a temperatura de um volume de água em um ebulidor controlado, o registro de vendas de uma empresa ou ainda os valores de fechamento de uma bolsa de valores. J á os sistemas s ão entidades que processam conjuntos de sinais (ditos entrada), e geram outro conjunto de sinais como resposta (ditos sa´ıdas). Os sistemas podem ser constitu´ıdos de componentes f´ısicos, el étricos, mec ânicos, hidr áulicos ou apenas l ógicos (LATHI, 2007, p. 75). O filtro de áudio, que modifica o sinal de entrada gerando um sinal de áudio com as caracter´ısticas desejadas, é um exemplo de sistema. Assim como o ebulidor controlado que a partir de um sinal de refer ência (entrada) gera um sinal de controle para o atuador da resist ência de aque-cimento, de modo a elevar a temperatura do liquido at é a refer ência.

Segundo Oppenheim e Willsky (2010, p. 1), existe uma linguagem ade-quada para descrever sinais e um conjunto poderoso de ferramentas para analis á-los, capaz de se aplicar a problemas oriundos de diversos dom´ınios. A s érie de Fourier e a Transformada R ápida de Fourier s ão ambas exemplos dessas ferramentas, e ser ão apresentadas nos pr óximos cap´ıtulos.

2.1 REPRESENTAÇ ÃO DE FOURIER PARA SINAIS 2.1.1 S ÉRIE DE FOURIER

Segundo Lathi (2007, p. 530), ”Um sinal peri ódico x(t) com per´ıodo T0pode ser descrito como a soma de senoides de frequ ência f0 e todas as suas harm ônicas”,

(17)

2.1 Representac¸ ˜ao de Fourier para Sinais 15

conforme apresentado na seguinte express ˜ao:

x(t) = a0+ ∞ X n=1

ancos(nω0t) + bnsen(nω0t) (1)

Esta é a chamada s érie de Fourier para sinais peri ódicos, ou apenas s érie de Fourier. Na express ão da Equaç ão (1), a s érie de Fourier est á na forma trigo-nom étrica, onde ω0 é a frequ ência fundamental de x(t), e a0, an e bns ão os coeficien-tes de amplitude das harm ônicas que comp ões x(t), sendo a0a harm ônica zero (n´ıvel CC).

Os coeficientes a0, ane bnde (1 ) s ão determinados pelas seguintes equaç ões: a0 = 1 T0 Z T0 x(t)dt, (2) an = 2 T0 Z T0 x(t)cos(nω0t)dt, (3) bn = 2 T0 Z T0 x(t)sen(nω0t)dt, (4)

em que T0 representa o per´ıodo relativo a frequ ˆencia fundamental f0.

A s érie de Fourier, al ém da forma trigonom étrica, tamb ém pode ser apre-sentada na forma exponencial, em termos de ejω0t_{, como apresentado na seç ão} ante-rior. A forma exponencial, segundo Lathi (2007, p. 533), é dada pela express ão:

x(t) = ∞ X −∞

Cnejnω0t, (5)

em que o coeficiente Cn e an ´alogo aos coeficientes an e bn da serie trigonom ´etrica, sendo obtido por:

Cn = 1 T0 Z T0 x(t)ejnω0tdt. (6)

Tanto a forma trigonom étrica quanto a exponencial da s érie de Fourier con-sideram x(t)como sendo uma funç ão qualquer, real ou complexa. Entretanto na maio-ria das aplicaç ões x(t) é real, como é o caso dos sinais neste trabalho. Segundo Lathi (2007, p. 533), se o sinal de entrada do sistema LTI x(t) é real, isso significa que an e bn tamb ém s ão reais para todos os valores de n, assim a s érie de Fourier pode ser representada na forma compacta por:

x(t) = D0+ ∞ X n=1

(18)

2.1 Representac¸ ˜ao de Fourier para Sinais 16 sendo: D0 = a0, (8) Dn= p a2 n+ b2n, (9) θn = tan−1 −bn an . (10) 2.1.2 ESPECTRO DE FOURIER

Por meio da s érie de Fourier na forma compacta, conforme (7), conclui-se que um sinal real peri ódico x(t) pode ser descrito como uma soma de senoides de frequ ências nω0 e amplitudes Dne fases θn. Segundo Lathi (2007, p. 533), o espectro exponencial de Fourier é traçado a partir de Dn e θn em funç ão das frequ ências nω0. Portanto, s ão taçados dois gr áficos para o espectro exponencial de Fourier, um que relaciona Dncom nω0, chamado espectro de magnitude, e outro que relaciona θncom nω0, chamado de espectro de fase.

Tomando como exemplo um sinal x(t) = sin(2π15t) + sin(2π40t), expresso em um per´ıodo igual a 1 segundo, como mostrado na Figura 1. Para este sinal ´e expresso o espectro de Fourier na mesma Figura (1), com o espectro de magnitude e fase.

(19)

2.2 Transformada Discreta de Fourier 17 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Tempo(s) -2 0 2 X(t) Signal Original 0 0.2 0.4 0.6 |FFT(X)| Espectro de Magnitude -50 -40 -30 -20 -10 0 10 20 30 40 50 Frequência (Hz) -50 -40 -30 -20 -10 0 10 20 30 40 50 Frequência (Hz) -2 0 2 FFT(X) ( rad) Espectro de Fase

Figura 1: Expectro de Fourier do Sinal x(t) = sin(2π15t) + sin(2π40t) Fonte: Autoria Pr ´opria

Nota-se que o espectro da Figura (1) aparecem frequ ências negativas, as quais dividem a magnitude com suas frequ ências sim étricas. Isso ocorre devido a simetria que o ângulo nω0t possui no c álculo dos coeficientes da s érie de Fourier. Para resolver este problema, basta considerar apenas a parte positiva do espectro e multiplicar por 2 a magnitude das frequ ências no espectro de magnitude.

Para Lathi (2007, p. 533), os dois gr áficos de magnitude e fase juntos for-mam o espectro de frequ ência, o qual revela os conte údos de frequ ência do sinal x(t), com suas amplitudes e fase. Conhecendo-se este espectro, n ão s ó é poss´ıvel anali-sar o sinal x(t) dentro do dom´ınio da frequ ência, como tamb ém reconstru´ı-lo de forma f ácil.

2.2 TRANSFORMADA DISCRETA DE FOURIER

Para ser útil em uma aplicaç ão computacional a transformada de Fourier deve estar na sua forma discreta, conhecida como DFT (Discrete Fourier Transform).

(20)

2.3 Transformada R ´apida de Fourier 18

Segundo HAYKIN e Veen (2001, p. 314), a DFT é a única representaç ão de Fourier que pode ser calculada por um computador, sendo amplamente usada para manipular sinais.

Segundo Oppenheim e Willsky (2010, p. 125), a transformada discreta de Fourier ´e representada pela seguinte express ˜ao:

Xr = N0−1 X n=0 xnejω0nr, (11) onde: Ω0 = 2π N0 , (12) ω0T = Ω0 = 2pi/N0 (13)

Para compactar a express ão de (11), se faz a substituiç ão da express ão exponencial pela vari ável W , de modo que WN0 = e−2π/N0 = e−jΩ0 (MEYER-BAESE, 2007, p. 344). Logo a express ão para DFT é dada por:

Xr = N0−1 X n=0 xnejω0nr, (14) onde: 0 ≤ k ≤ N0− 1. (15)

2.3 TRANSFORMADA R ´APIDA DE FOURIER

Para se calcular uma DFT de N0 valores usando apenas (14), ´e necess ´ario realizar um total de N2

0 multiplicaç ões e N0(N0− 1) somas, utilizando n úmeros com-plexos. Quando N0 assume um valor elevado, muitos recursos computacionais s ão necess ários, at é chegar ao ponto de que esse algoritmo se torna impratic ável.

A reduç ão do n úmero de operaç ões matem áticas necess árias para calcular a DFT é poss´ıvel a partir do algoritmo criado por J.W. Cooley e John Tukey, conhecido como Transformada R ápida de Fourier ou FFT (Fast Fourier Transform) Cooley e Tukey (1965). Para reduzir o n úmero de c álculos, a FFT se utiliza da propriedade linear da transformada de Fourier Lathi (2007, p. 719). Segundo Oppenheim e Willsky (2010, p. 119), a transformada de Fourier de um sinal pode ser dada pela combinaç ão linear

(21)

da transformada de Fourier de segmentos menores do mesmo sinal. Logo, é poss´ıvel aplicar à DFT o paradigma da divis ão e conquista, o qual é um recurso muito utilizado em algoritmos de ordenaç ão.

Segundo Cormen et al. (2002, p. 21), um algoritmo de Divis ão e Con-quista realiza o desmembramento de um problema em v ários subproblemas que s ão id ênticos ao original, por ém menores em sua faixa de aç ão, o que os torna mais simples de resolver. Em seguida, resolvem-se os subproblemas recursivamente e combinam-se essas soluç ões de modo a obter a soluç ão para o problema original.

De modo muito semelhante, o algoritmo da FFT prev ê uma divis ão recur-siva da DFT em dois blocos: bloco par e o bloco ´ımpar, como mostrado abaixo(CHU; GEORGE, 1999, p. 35): Xr = N0 2 −1 X n=0 x2nWN02nr | {z } P arcela P ar + N0 2 −1 X n=0 x2n+1W (2n+1)r N0 | {z } P arcela Ímpar . (16)

Nessa mesma equaç ões, os limites dos somat órios de ambas as parcelas ´ımpar e par foram redefinidos para englobar apenas metade dos N0pontos, bem como os expoentes de W foram ajustados.

Utilizando algumas das propriedades geom étricas de W , j á que esse re-presenta um n úmero complexo, pode-se realizar simplificaç ões importantes em 17. Primeiro, nota-se que WN0/2 = WN02 , logo:

Xr = N0 2 −1 X n=0 x2nWN02nr | {z } Gr + N0 2 −1 X n=0 x2n+1W (2n+1)r N0 | {z } Hr . (17)

Como Gre Hrs ão DFTs com N0/2pontos cada, ent ão ambos possuem um per´ıodo de N0/2. Com base na propriedade peri ódica dessas DFTs, pode-se utilizar as simplificaç ões (18) e (19) para reduzir o n úmero de c álculos na DFT (LATHI, 2007, p. 721). G_r+N0 2 = Gr, (18) H_r+N0 2 = Hr, (19)

(22)

2.3 Transformada R ´apida de Fourier 20 Wr+N02 N0 = W N0 2 N0 = e −jπ WN0 = −WN0r . (20)

Al ém disso, a express ão em (20) pode ser assumida para se reduzir o n úmero de c álculos da FFT. Portanto, usando (21) e (22) se obt ém, respectivamente, os primeiros N0/2pontos e os últimos N0/2pontos da FFT:

Wr+N02 N0 = W N0 2 N0 = e −jπ WN0 = −WN0r , (21) Wr+N02 N0 = W N0 2 N0 = e −jπ WN0 = −WN0r , (22)

Portanto, uma DFT pode ser calculada combinando duas DFTs de N0/2, tal como mostrado em (21) e (22). E comum na literatura representar o processo´ de c ´alculo de DFT, feito pelo algoritmo da FFT, pelo diagrama da Figura (2). Este diagrama ´e conhecido como Butterfly de Fluxo do Sinal (CHU; GEORGE, 1999, p. 36).

Figura 2: Butterfly do Fluxo do Sinal Fonte: Lathi (2007, p. 721)

Aliando o conceito de divis ão em conquista ao m étodo de c álculo da DFT, usando o diagrama Butterfly, a representaç ão do algoritmo da FFT pode ser facilmente feita pelo diagrama da Figura (3) (LATHI, 2007, p. 722), onde a FFT é feita para apenas 8 amostras de sinal X.

(23)

2.3 Transformada R ´apida de Fourier 21 -WN0 0 WN0 0 x0 x4 X0 X1 -WN0 0 WN0 0 x2 x6 X2 X3 -WN0 0 WN0 0 x1 x5 X4 X5 -W0 WN0 0 x3 x7 X6 X7 -WN0 0 WN0 0 WN0 2 -WN 2 -WN0 0 WN0 0 WN0 2 -WN 2 -WN0 2 -WN0 3 -WN0 0 -WN0 1 0 0 WN0 2 WN0 3 WN0 0 WN0 1 DFT - N = 40 DFT - N = 40 DFT - N = 80

Nível 2 Nível 1 Nível 0

DFT - N = 20 DFT - N = 20 DFT - N = 20 DFT - N = 20 Figura 3: FFT de 8 Pontos Fonte: Lathi (2007, p. 722)

Ap ós se dividir uma DFT de tamanho N0 em duas DTFs de tamanho N0/2, e subdividindo cada uma das DFTs de tamanho N0/2 em duas N0/4 (LATHI, 2007, p. 721). E assim o procedimento continua at é que se atinja um n´ıvel em que as DFTs tenham tamanho N0/2n = 2, ou seja, quando se atinge DFTs que possuam um custo de c álculo m´ınimo.

Um fato importante sobre o algoritmo da FFT é que o valor N0 pode ser escolhido segundo a relaç ão N0 = rn, sendo n o numero de n´ıveis necess ários para calcular a FFT, e r é o m´ınimo tamanho DFT. Os algoritmos de FFT mais usados possuem a base r igual a 2 ou a 4. Consequentemente, esses algoritmos s ão conhe-cidos como Radix-2 e Radix-4, respectivamente (MEYER-BAESE, 2007, p. 365). Nesse trabalho o foco ser á o algoritmo com a base r igual a 2, ou seja, o Radix-2.

Na Figura (3) as DFTs est ão agrupadas por n´ıveis, cada n´ıvel abrange as DFTs de mesmo tamanho N0/n, e no último n´ıvel a esquerda h á quatro DFTs de tamanho 2. O n úmero de n´ıveis necess ários em uma FFT de N0 pontos é log2N0. Os valores de X, na Figura (3) à direita est ão ordenados de forma crescente, por ém os valores de x à esquerda est ão ordenados de forma diferente. Est á ordenaç ão é

(24)

conhecida como Bit-Reverse (CHU; GEORGE, 1999, p. 51).

Segundo Chu e George (1999, p. 51), quando se divide o processo de c álculo de uma DFT em duas, sendo uma respons ável pelos valores pares e a ou-tra pelo valores ´ımpares, conforme as conex ões entres o n´ıveis v ão ocorrendo, h á permutaç ões entre os sinais. O processo de Bit-Reverse prev ê as permutaç ões, sendo poss´ıvel saber qual a ordem adequada dos sinais na entrada da FFT. Para aplicar o conceito de Bit-Reverse, basta considerar um elemento xk de ordem n e escrev ê-lo na base bin ária com log2N0 bits. Em seguida, para determinar a posiç ão de xk basta converter novamente para base decimal o n úmero bin ário obtido, lendo esse na ordem inversa dos bits.

Na FFT da Figura (3) a subdivis ão das DFTs é feita a partir da sa´ıda, sinal em frequ ência, com DFT de 8 pontos, at é a entrada, sinal no tempo, com as DFTs de 2 pontos com custo m´ınimo. Essa subdivis ão é conhecida como decimaç ão, e no caso da Figura (3), ela é feita a partir do sinal no tempo, logo essa estrutura é co-nhecida como decimaç ão no tempo. Por ém, existe uma outra forma, a decimaç ão na frequ ência. A partir de uma alteraç ão em (17), é poss´ıvel alterar a ordem da decimaç ão, partindo do sinal de entrada no tempo, at é a sa´ıda em frequ ência, como pode ser visto na Figura(4) (CHU; GEORGE, 1999, p. 37).

(25)

2.4 Algoritmo CORDIC 23

N0

Figura 4: FFT DIF de 8 Pontos

Fonte: Adaptado de Chu e George (1999, p. 44)

Na decimaç ão em frequ ência, a ordem de entrada dos sinais na FFT ficam ordenados de forma crescente, por ém a sa´ıda passa a estar ordenada no esquema Bit-Reverse. Esse esquema de decimaç ão é preferencialmente escolhido por dispen-sar a reordenaç ão dos dados de entrada. Ao final de todo o processo de simplificaç ão

do c álculo da DFT, o algoritmo da FFT necessita apenas realizar (N0/2) log2N0multiplicaç ões e N0 log2 N0 somas complexas (LATHI, 2007, p. 720). Reduz-se assim a

complexabili-dade do algoritmo, tornando a DFT pratic ´avel at ´e para valores elevados de N0.

2.4 ALGORITMO CORDIC

Na equaç ão (21) nota-se que o c álculo a FFT depende essencialmente de um multiplicaç ão complexa entre Wr

N0 e Hr. Hr representa um vetor complexo qual-quer, e Wr

N0 ´e igual a e 2πr

N0_{. Essa tarefa pode ser realizada atrav és da representaç ão de} Wr

N0 e Hrna forma retangular, considerando para efeitos de exemplo WN0r = x + iy e Hr = a + ib, logo:

(26)

W_N0r = x + iy, (23)

Hr = a + ib, (24)

Hr· WN0r = (x + iy)(a + ib), (25) Hr· WN0r = (xa − yb) + i(xb + ya). (26)

Logo, s ão necess ários utilizar 4 multiplicadores e 2 somadores, para com-pletar tal operaç ão (DESPAIN, 1974, p. 1). Al ém disso, multiplicadores s ão mais elabo-rados e em muitos dispositivos FPGA existem apenas algumas dezenas, o que limita a utilizaç ão de multiplicadores em paralelo, reduzindo a velocidade de c álculo da FFT. Para contornar o problema, considere expressar o vetor Hr na forma polar reθr e manter Wr N0 igual a e 2πr N0_{, logo:} Hr = Re(θr), (27) Hr· WN0r = re (θr)_{· e} 2πr N0 , (28) Hr· WN0r = re θr+2πr N0 . (29)

Assim Hr · WN0r é equivalente a operaç ão trigonom étrica de rotacionar o vetor complexo Hr pelo ângulo de 2πr/N0, como pode ser visto na Figura (5).

Re Im

Figura 5: Rotaç ão de Hr pelo ângulo

de 2πr/N0

Fonte: Autoria Pr ´opria

(27)

evitar o gargalo que eles possam provocar, parece dif´ıcil, por ém existe uma t écnica bastante usada no desenvolvimento de circuitos l ógicos em FPGA que o possibilita. Com o objetivo de oferecer uma soluç ão para o c álculo de funç ões trigonom étricas mais simples, utilizando o m´ınimo de recursos de tempo e hardware, Jack E. Vol-der(VOLDER, 1959) desenvolveu a t écnica de computaç ão trigonom étrica CORDIC (COordinate Rotation DIgital Computer ).

2.4.1 CORDIC TRADICIONAL

O algoritmo CORDIC tem como base as microrotaç ões do vetor alvo, de tal modo que cada microrotaç ão possa ser feita por somas e deslocamentos de bits. Para tal, considere o vetor Hr = x + iy, e a matriz de rotaç ão A em funç ão do ângulo θ. A rotaç ão do vetor pode ser dada por (GARRIDO et al., 2016):

" x0 y0 # = " cos(θ) −sin(θ) sin(θ) cos(θ) # " x y # . (30)

Isolando o termo cos(θ) de (30) ´e obtido o seguinte sistema: " x0 y0 # = cos(θ) " 1 −tan(θ) tan(θ) 1 # " x y # , (31)

o qual ´e a base da t ´ecnica CORDIC convencional (EL-MOTAZ et al., 2014).

Segundo (VOLDER, 1959), ao inv és de rotacionar completamente o vetor Hr pelo ângulo θ, ou pelo ângulo 2πr/N0 como mostrado na Figura (5), o algoritmo CORDIC rotaciona Hrpor ângulos θnmuito menores, sendo esses fraç ões de θ, de tal forma que: θ = N −1 X n=0 µnθn+ ζ (32)

µn representa o sentido da microrotaç ão θn, sendo que se for no sentido hor ário é igual a 1, caso contr ário é igual a -1, e ζ é o erro acumulado da aproximaç ão pelo somat ório, que ser á considerado suficientemente pequeno para ser ignorado.

O primeiro ponto dessa abordagem é o fato de que se um ângulo θn for suficientemente pequeno é poss´ıvel afirmar que:

(28)

Assim ´e poss´ıvel substituir θ no sistema de (31), e obter a seguinte ex-press ˜ao: " x0 y0 # = cos(tan−1θn) " 1 −tan(tan−1_θ n) tan(tan−1θn) 1 # " x y # . (34)

O segundo ponto é que para satisfazer (32) s ó é necess ário que a soma do conjunto de microrotaç ões θnresulte no ângulo θ, o que abre a possibilidade de se escolher um conjunto de microrotaç ões baseadas em deslocamento de bits, como:

θn = tan−12−n (35)

Logo, aplicando a Equaç ão(35) em (34) obt êm-se a express ão final para CORDIC: " x0 y0 # = N −1 Y n=0 kc " 1 −µ2−n µ2−n 1 # " x y # , (36) kc= cos(tan−1(2−n)) = 1 √ 1 + 2−2n, (37) µ ∈ {−1, 1}. (38)

kc é calculado a cada microrotaç ão n, assim o valor total do ganho acu-mulado por Hr ao fim da operaç ão de rotaç ão é dado pelo produto de todos os kc. O n úmero total de microrotaç ões (N ) é escolhido de acordo com o SQNR (Signal-to-Quantization-Noise Ratio ) admiss´ıvel a cada rotaç ão. Segundo (VOLDER, 1959),

considerando N → ∞, Kc passa a ser constate e aproximadamente igual a 0, 6073. O inverso de Kc é igual a 1, 647, sendo conhecido como Ganho CORDIC. Tal ganho é independe do ângulo a ser rotacionado, e em muitos sistemas esse ganho é s ó compensado fora do bloco l ógico de c álculo do CORDIC.

Como pode ser observado, o algoritmo CORDIC se resume a operaç ões de deslocamento de bit e somas. A direç ão das microrotaç ões é determinada por µ, que depende diretamente do sinal do ângulo θn a se rotacionar. Em aplicaç ões nas quais o ângulo de rotaç ão é previamente conhecido, que é o caso da FFT, as sequ ências de rotaç ões µ podem ser armazenado em uma mem ória (ROM) Read-Only Memory (EL-MOTAZ et al., 2014). Isso torna as microrotaç ões como n iteraç ões, armazenando em z os ângulos rotacionados a cada iteraç ão de θn, sendo o algoritmo

(29)

CORDIC expressado por:

x(n + 1) = x(n) − [µ2−n]y(n), (39) y(n + 1) = y(n) + [µ2−n]x(n), (40) z(n + 1) = z(n) − tan−1[µ2−n], (41) (42) sendo: Hr = x(0) + iy(0), (43) θ = z(0), (44) n = {0, 1, ..., N − 1} , (45) µ = " 1 z (n) ≥ 0, −1 z (n) < 0 # . (46) 2.4.2 EEAS-CORDIC

No algoritmo CORDIC, cada ângulo de rotaç ão θn é necessariamente deter-minado de maneira sequencial ap ós cada iteraç ão n, utilizando o conjunto de ângulos elementares definidos como (WU et al., 2003):

S1 = {tan−1(µ2−n)}, (47)

: µ ∈ {−1, 1}, n ∈ {0, 1, . . . , N − 1}. (48)

A partir do ângulo inicial de Hr, o algoritmo Cordic realiza as N iteraç ões, deslocando o vetor por meio do conjunto de ângulos elementares, de forma a reduzir a diferença entre o ângulo atual e o ângulo desejado. Para fins de comparaç ão a Figura (6) apresenta a densidade combinacional dentro do c´ırculo trigonom étrico do conjunto de ângulos elementares do algoritmo CORDIC tradicional.

(30)

Figura 6: ˆAngulos Elementares - Cordic Tradicional com N=4

Fonte: (LIN; WU, 2005)

Cada ponto em (6) representa um ângulo de rotaç ão θn poss´ıvel por meio das diferentes combinaç ões do par âmetro µ, presente em (48). Para o algoritmo COR-DIC tradicional qualquer vetor ap ós o processo de rotaç ão apresentar á um m ódulo 1,63 vezes maior do que seu valor original por conta do ganho kc, apresentado anteri-ormente. Logo, na Figura (6) todos os ângulo de rotaç ão θn poss´ıveis se apresentam fora do c´ırculo unit ário, afim de representar esse ganho.

Segundo Wu e Wu (2001) o maior problema do CORDIC é a baixa veloci-dade computacional de c álculo desse algoritmo, devido principalmente a necessiveloci-dade de um grade n úmero de iteraç ões N para atingir um erro de aproximaç ão ζ aceit ável. O error de aproximaç ão ζ é dado por:

ζ = θ − N −1 X n=0 µθn = θ − N −1 X n=0 µ tan−1(2−n) , (49) µ ∈ {−1, 0, 1} (50)

Em aplicaç ões em que os ângulos de rotaç ão s ão conhecidos, é poss´ıvel relaxar as restriç ões da Equaç ão (6), utilizando o m étodo Angle Recoding (AR) (WU; WU, 2001). O AR tem como objetivo reduzir o n úmero de iteraç ões CORDIC e o erro ζ . Para tal, o AR que expande o conjunto de combinaç ões lineares em (48),

(31)

adicionando zero ao conjunto de µ. Com isso, obt ém-se uma melhor aproximaç ão para certos valores de θ e uma reduç ão de at é 50% no n úmero de iteraç ões (MEHER et al., 2009).

Por outro lado, o m étodo Extended Elementary-Angle-Set Recoding (EE-ASR) apresenta um m étodo baseado no AR que, al ém de expandir o conjunto de µ, estende tamb ém o conjunto de ângulos elementares (Elementary-Angle-Set, EAS), visando aumentar a possibilidades de decomposiç ão do ângulo de rotaç ão(WU et al., 2003). Para perceber a modificaç ão que o EEASR prop õem, nota-se primeiramente que o conjunto de ângulos elementares no CORDIC utilizando AR é definido como:

S1 = {tan−1(µ2−s)}, (51)

: µ ∈ {−1, 0, 1}, s ∈ {0, 1, . . . , N − 1}. (52)

Como é poss´ıvel notar em (51), os ângulos elementares dependem de ape-nas um termo pot ência de dois, ou Signed Power of Two (SPT). Segundo (WU et al.,

2003), para aumentar a precis ão dos ângulos elementares e, consequentemente, re-duzir o n úmero de iteraç ões pode-se adicionar mais um termo SPT em (51), resultando em:

S2 = {tan−1(µ02−s0 + µ12−s1)} (53) : µ0, µ1 ∈ {−1, 0, 1}, s0, s1 ∈ {0, 1, . . . , S} (54) S é denominado como o n úmero m áximo de deslocamentos de bits a direita que po-dem ser realizados. Esse valor est á diretamente relacionado com o quantidade de bits utilizados para representar um n úmero dentro da arquitetura que implementa o COR-DIC. Por exemplo, em uma aplicaç ão em FPGA, em que a palavra bin ária utilizada para representar um n úmero inteiro tenha apenas 16 bits, n ão faz sentido o valor de S ser maior do 15. Portanto, alterando a equaç ão (34) com base em (53) é obtida a express ão para c álculo iterativo CORDIC utilizando o EEASR:

" x(n + 1) y(n + 1) # " 1 µ02−s0(n)+ µ12−s1(n) µ02−s0(n)+ µ12−s1(n) 1 # " x(n) y(n) # , (55) : µi, µj ∈ {−1, 0, 1}, s0, s1 ∈ {0, 1, . . . , S}, (56)

(32)

θn = tan−1 µ02−s0(n)+ µ12−s1(n) , (57)

z(n + 1) = z(n − 1) + θn, (58)

´

E importante notar que ao adicionar mais termos a S1, o ganho Kctamb ´em ´e modificado, passando a ser definido por:

Kn =

1 p

1 + [µ02−s0(n)+ µ12−s1(n)]2

. (59)

Com a alteraç ão de Kc, o ganho passa a n ão ser mais constante, e varia de acordo com cada iteraç ão N . Sendo assim necess ário calcular o ganho Kcpara cada iteraç ão afim de realizar a compensaç ão. O valor de Kcao final de cada operaç ão de c álculo CORDIC passa a ser definido por:

Kc = N −1

Y n=0

Kn. (60)

Para casos em que o ângulo θ a ser rotacionado é conhecido, como é o caso da FFT, é poss´ıvel escolher previamente o conjunto de valores µ0, µ1, s0 e s1, e con-sequentemente atrav és da Equaç ão (59) determinar o valor de Kc a ser compensado a cada iteraç ão, e por meio de (60) determinar a compensaç ão de Kc a ser realizada ap ós cada operaç ão de rotaç ão. Para tal é realizado, ap ós as iteraç ões de rotaç ão do algoritmo, uma correç ão no m ódulo do vetor resultante por meio da seguinte operaç ão de rotaç ão modificada:

x(n + 1) = x(n) − [µ02−s0(n)+ µ12−s1(n)]x(n), (61) y(n + 1) = y(n) − [µ02−s0(n)+ µ12−s1(n)]y(n), (62)

z(n + 1) = z(n), (63)

em que µ0, µ1, s0 e s1 para essa operaç ão s ão escolhidos de modo a minimizar o erro de compensaç ão de Kc.

Com a relaxaç ão das restriç ões introduzidas pelo m étodo AR e pelo EE-ASR, a densidade combinacional dentro do circulo unit ário do conjunto de ângulos elementares do Algoritmo CORDIC aumenta, se comparado ao CORDIC tradicional, como pode ser visto na Figura (7).

(33)

Figura 7: EEAS com N=2 e S=4 Fonte: Lin e Wu (2005)

Os pontos marcados na Figura (7) representam os conjuntos dos ângulos θn poss´ıveis de se obter em (57), utilizando diferentes combinaç ão de par âmetros µ0, µ1, s0 e s1. Diferente do algoritmo CORDIC tradicional, no EEAS o ganho do vetor ap ós o rotacionamento realizado pelo algoritmo varia de acordo com a equaç ão (59).

2.4.2.1 ALGORITMO TBS

A relaxaç ão das restriç ões feita pelos m étodos AR e EEASR tornaram o algoritmo iterativo CORDIC mais eficiente. Por ém o EEASR abre uma quest ão crucial: a determinaç ão dos conjuntos µ e s. No algoritmo CORDIC tradicional, o valor de µ estava contido no conjunto {−1, 1} e era determinado com base no sinal de z(n) a cada iteraç ão. No entanto, no m étodo AR µ passa a estar contido no conjunto {−1, 0, 1}. Logo, determinar o valor de µ a cada iteraç ão torna-se uma tarefa de otimizaç ão, em relaç ão a minimizar o erro ζ, na forma (WU et al., 2003):

min ζ = θ − N −1 X n=0 µ tan−1(2−n) , (64) µ ∈ {−1, 0, 1}. (65)

(34)

elementares é definido por S1 em (48), e a cada iteraç ão o deslocamento do vetor é feito com base no elemento n desse conjunto. O m étodo EEASR adiciona mais um termo SPT a express ão do conjunto dos ângulos elementares S2, definido em (53), o que possibilita a escolha de qualquer termo s0 e s1. Dessa forma, al ém de agre-gar a mesma necessidade de determinar o conjunto otimizado µ0 e µ1 de AR, o EE-ASR tamb ém requer a determinaç ão do conjunto otimizado s0 e s1, visando minimizar tamb ém o erro ζ. Portanto, a funç ão de minimizaç ão do erro é dada pela seguinte express ão: min ζ = θ − N −1 X n=0 tan−1(µ02−s0 + µ12−s1) , (66) : µ0, µ1 ∈ {−1, 0, 1}, s0, s1 ∈ {0, 1, . . . , S}. (67)

Para otimizar a Funç ão (66) é poss´ıvel utilizar uma variedade de algoritmos heur´ısticos ou n ão heur´ıstico a fim de determinar um conjunto de par âmetros que minimize o erro ζ, como por exemplo Dijkstra, Caminhos M´ınimos ou o mais comum Algoritmo Greedy. Wu et al. (2003) prop õe um m étodo de otimizaç ão para par âmetros EEAS chamado Trellis-Based Search(TBS).

A partir do n úmero m áximo de iteraç ões N , do ângulo de rotaç ão θ e de W, que representa o n úmero de bits de θ, o TBS emprega um m étodo de otimizaç ão para encontrar os melhores par âmetros s0_{(n), s}1_{(n), µ}

0 e µ1 (WU et al., 2003). TBS ´e baseado no efeito que os diferentes arranjos dos ˆangulos elementares S2 poss´ıveis tem sobre ζ. O algoritmo segue o seguintes passos:

1. Inicializaç ão: Inicialmente é definido o vetor r(k), o qual representa o conjunto de ângulos elementares presentes na Equaç ão (66), obtidos atrav és das poss´ıveis combinaç ão n ão redundantes de µ0, µ1, s0 e s1. Em seguida, é definida a ma-triz φ(n, k) para (1 ≤ n ≤ N ) e (1 ≤ k ≤ z(S2)), representando a estrutura de acumulaç ão do algoritmo utilizada para alcançar o melhor resultado. N é o n úmero de iteraç ões desejadas, enquanto z(S2) representa o n úmero de ele-mentos do vetor r(k). Para ent ão iniciar o algoritmo, φ(1, k) é preenchido com o vetor r(k).

2. Acumulaç ão: Em cada iteraç ão n o algoritmo percorre os elementos k do vetor φ(n+1, k∗), atribuindo a cada valor k o menor resultado encontrado da express ão kφ(n, k∗_{) + r(k) − θk. O ´ındice i varia 1 ≤ i ≤ N − 1, e k varia de 1 ≤ k ≤ Z(S}

(35)

3. Determinaç ão do Ótimo Global: Ao final do processo de acumulaç ão, os ele-mento da coluna φ(N, ) apresentam os resultados globais. Logo, dentro dessa coluna é determinado o valor que mais se aproxima de θ, defini-se esse como θT BS.

4. Determinaç ão do Caminho Soluç ão: A partir do elemento θT BS da coluna φ(N, ) é traçado o caminho reverso at é a coluna φ(1, ). A começar por (k0 _{= θ}

T BS) e (i = N ) é escolhido o valor da coluna (i − 1) que minimiza kφ(1 : z(S2), i − 1) + r(k0) − θk. Em seguida se atribui a k0 _{a posiç ão k do valor minimizante.} Os valores k0 _{s ão armazenados em um vetor e representam as combinaç ões de}

ˆangulos elementares que minimizam o erro .

Segue abaixo o pseudo-c ´odigo que implementa o algoritmo TBS.

1 % I n i c i a l i z a ç ã o 2 φ(1, k) = r(k) para todo k , 3 4 %Acumulaç ão 5 F OR i = 1 to N − 1 6 F OR k = 1 to Z(S2)

7 φ(i + 1, k) = min {| φ(i, k∗) + r(k) − θ |: 1 ≤ k∗≤ Z(S2)}

8 EN D

9 EN D 10

11 %Determinaç ão do Ótimo G l o b a l

12 θT BS = min {| φ(Rm, k∗) − θ |: 1 ≤ k∗≤ Z(S2)}

13 Result(N ) = k∗ 14

15 %Determinaç ão do Caminho Soluç ão 16 F OR i = N to 2

17 Encontra k0tal que φ(i, k∗) = min {| φ(i − 1, k0) + r(k∗) − θ |: 1 ≤ k0≤ Z(S2)}

18 k∗= k0 19 Result(i − 1) = k0 20 EN D 21 C ´odigo 2.1: Algoritmo TBS Fonte : Wu et al. (2003)

Nos trabalhos de Wu et al. (2003), os autores utilizam um exemplo base para explicar o algoritmo TBS, o qual tamb ´em ser ´a usado aqui. Para esse exemplo, o

(36)

ângulo de rotaç ão θ ser á π/3, o n úmero m áximo de iteraç ões ser á N = 4 e a resoluç ão de θ ser á de W = 4 bits.

A primeira etapa do algoritmo ent ão inicia com a definiç ão do vetor r(k), e o preenchimento da primeira coluna da matriz φ(1, ), como pode ser visto na Figura (8). Na segunda etapa do algoritmo é realizada a acumulaç ão, para cada elemento das colunas 2, 3 e 4 s ão preenchidos com base na coluna anterior a partir da express ão kφ(n, k∗_{) + r(k) − θk. Na Figura (8) o elemento φ(2, 15) representa essa etapa, e o valor} do elemento φ(2, 15) é definido a partir da soma do ângulo representante da linha 15 (r(15)), com o elemento da coluna 1 que minimiza o erro de aproximaç ão do resultado dessa soma com θ, que nesse caso é π/3. Esse processo se estende at é completar a coluna 4 da matriz φ. -1,107 -0,982 -0,896 -0,785 -0,643 -0,463 -0,245 -0 0,245 0,785 1,107 0,643 0,463 0,982 0,896 1.141 i=1 i=2 k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10 k=11 k=12 k=13 k=14 k=15

Figura 8: Exemplo de execuç ão do Algoritmo TBS Fonte: Autoria Pr ópria

Ap ós a etapa de acumulaç ão, a última coluna de φ apresenta os resultados globais da acumulaç ão. Logo, para determinar o valor ótimo global é escolhido na co-luna φ(4, ) o valor θT BS, que mais se aproxima de θ ou π/3. Ap ós essa etapa é iniciada a determinaç ão do vetor Result, o qual deve conter o caminho soluç ão necess ário para

(37)

atingir o valor de ´otimo global θT BS. Na Figura (9) ´e apresentado os caminhos m´ınimos para cada coluna da matriz φ, consequentemente, o melhor caminho encontrado pelo algoritmo. -1,107 -0,982 -0,896 -0,785 -0,643 -0,463 -0,245 -0 0,245 0,785 1,107 0,643 0,463 0,982 0,896 i=1 i=2 k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10 k=11 k=12 k=13 k=14 k=15 i=3 i=4 0 0,124 0,211 0,321 0,463 0,643 0,862 1,030 1,141 1.030 1,131 0,999 0,961 1,016 1,054

Figura 9: Exemplo de execuç ão do Algoritmo TBS Fonte: Autoria Pr ópria

A tabela (1) apresenta os valores encontrados para φ na execuç ão do exem-plo apresentado. Em destaque est ão os valores do caminho soluç ão, que s ão arma-zenados em Result.

(38)

i=1 i=2 i=3 i=4

k=1 -1.1071 0 0.0339 0 k=2 -0.9828 0.1244 0.1582 0.1244 k=3 -0.8961 0.2111 0.2450 0.2111 k=4 -0.7854 0.3218 0.3556 0.3218 k=5 -0.6435 0.4636 0.4975 0.4636 k=6 -0.4636 0.6435 0.6774 0.6435 k=7 -0.2450 0.8622 0.8961 0.8622 k=8 0 1.1071 1.0304 1.0304 k=9 0.4636 1.1071 1.1071 0.9612 k=10 0.6435 1.1071 1.1071 0.9991 k=11 0.2450 1.0304 1.1071 1.1410 k=12 0.7854 1.0304 0.9965 1.0304 k=13 1.1071 1.1071 1.1071 1.1410 k=14 0.9828 0.9828 1.1071 1.0167 k=15 0.8961 1.1410 1.0204 1.0543

Tabela 1: Matriz φ para o dado Exemplo

Fonte: Autoria Pr ´opria

2.4.3 MSR-CORDIC

Como pode ser visto na Seç ão (2.4.1), o Algoritmo Cordic Tradicional possui a necessidade de realizar a correç ão do ganho kc ap ós o processo de rotaç ão do vetor, al ém de requisitar um n úmero elevado de iteraç ões a fim de reduzir o erro de aproximaç ão do vetor. Para reduzir o n úmero de iteraç ões CORDIC, o EEAS aumenta o n úmero de termos SPT, por ém acaba por impactar o ganho Kc, que passa a n ão ser mais constante e necessita ser compensado a cada iteraç ão. Tanto no algoritmo tradicional quanto o EEAS a correç ão final de Kc, que se estabelece sempre abaixo da unidade, provoca uma degradaç ão do SQNR.

Segundo Lin e Wu (2005), para evitar a degradaç ão do SQNR é necess ário manter o m ódulo do vetor de entrada o mais perto da unidade a cada iteraç ão. Assim, Lin e Wu (2005) reformulam o algoritmo Cordic para um novo esquema que passa a distribuir os termos SPT de forma diferente do EEAS, com o intuito de dar mais liberdade ao ganho Kc e reduzir o n úmero de iteraç ões necess árias para atingir um erro de aproximaç ão admiss´ıvel. Tal algoritmo pode ser expressado por:

(39)

2.4 Algoritmo CORDIC 37 " x(n + 1) y(n + 1) # " _P_I i=1µi2−si(n) − PJ j=1µj2−sj(n) PJ j=1µj2 −sj(n) PI i=1µi2 −si(n) # " x(n) y(n) # , (68) z(n + 1) = z(n − 1) + θn, (69) : µi, µj ∈ {−1, 0, 1}, si, sj ∈ {0, 1, . . . , S}, (70) : I + J = Nspt. (71)

A reformulaç ão apresentada por Lin e Wu (2005) incrementa termos SPT nas parcelas x(n) de x(n + 1) e y(n) de y(n + 1), a fim de possibilitar o ganho Kc se tornar maior ou menor do que a unidade, dependendo da escolha dos par âmetros Cordic. Assim é poss´ıvel realizar a operaç ão de microrotaç ão e a compensaç ão do ga-nho Kc simultaneamente. Por tais motivos, esse algoritmo CORDIC é denominado de Mixed Scaling Rotation (MSR). Consequentemente, ao inserir mais termos na funç ão CORDIC, tanto θn quanto Kc precisam ser corrigidos (KUO et al., 2003). Portanto θn e Kc passam a definidos por:

θn = tan−1 PJ j=1µj2 −sj(n) PI i=1µi2−si(n) ! , (72) Kn = 1 r PI i=12−si(n) 2 +PJ j=12 −sj(n)2 , (73) Kc = N −1 Y n=0 K(n). (74)

Como pode ser percebido em (73) e (72), com a escolha adequada dos conjuntos de termos µi, µj, Si e Sj, e dos valores de I e J é poss´ıvel aproximar Kc da unidade a cada iteraç ão ao mesmo tempo em que o erro ζ é reduzido. No MSR o conjunto de ângulos elementares é definidor por:

S3 = {tan−1 PJ j=1µj2−sj(n) PI i=1µi2−si(n) ! }, (75) : µi, µj ∈ {−1, 0, 1}, si, sj ∈ {0, 1, . . . , S}, (76)

(40)

sendo o erro ζ ´e definido por:

min ζ = θ − N −1 X n=0 tan−1 PJ j=1µj2−sj(n) PI i=1µi2−si(n) ! , (77) : µi, µj ∈ {−1, 0, 1}, s0, s1 ∈ {0, 1, . . . , S}. (78)

Com mais graus de liberdade o MSR possui uma densidade combinacio-nal dentro do circulo trigonom étrico maior do que o CORDIC tradiciocombinacio-nal e o EEAS-CORDIC (KUO et al., 2003), como pode ser visto na Figura (10). Assim como no EEAS, o ganho do vetor ap ós o rotacionamento, mostrado em (73), depende da escolha dos par âmetros CORDIC. Por ém no caso do MSR este ganho pode ser menor, maior ou igual a 1, como pode ser visto na Figura (10).

Figura 10: MSR com I=2, J=1 e N=2 Fonte: (LIN; WU, 2005)

O incremento de mais termos SPT na definiç ão do ângulo de rotaç ão θn acaba por dar ao conjunto dos ângulos elementares mais liberdade combinacional dentro do c´ırculo unit ário. No algoritmo CORDIC tradicional e no EEAS havia uma dificuldade de realizar rotaç ões maiores que π/4, devido a distribuiç ão dos ângulos elementares, como pode ser visto nas Figura (6) e (7). Devido a essa dificuldade era necess ário realizar uma pr é-rotaç ão no vetor de entrada, quando o ângulo de rotaç ão era maior que π/4, a fim de reduzir o ângulo para uma faixa mais aceit ável de rotaç ão, o que aumenta o custo computacional do algoritmo, e demandava mais recursos de

(41)

hardware. No algoritmo MSR o conjunto dos ângulos elementares no circulo unit ário é maior e melhor distribu´ıdos como visto na Figura (10). Isso possibilita ao MSR alcançar ângulos de rotaç ão de 0 á 2π, varrendo todo o circulo unit ário.

O desempenho do algoritmo EEAS, como mostrado na seç ão anterior, é diretamente relacionado com a escolha dos par âmetros CORDIC µ0, µ1, s0 e s1. De maneira an áloga é a determinaç ão dos par âmetros CORDIC J , I, µi, µj, si e sj que garante a converg ência e efici ência do algoritmo.

Para determinar os par âmetros Cordic do algoritmo MSR, Lin e Wu (2005) utiliza a an álise do erro entre o vetor idealmente rotacionado, e o vetor que na pr ática do Algoritmo MSR consegue alcançar no rotacionamento. Para exemplificar, consi-dere que se deseja rotacionar um vetor OD pelo ângulo θ at é a posiç ão do ponto A, formando assim um novo vetor rotacionado OA. Considerando que o MSR n ão con-siga rotacionar o vetor OD por exatamente θ, e que devido ao ganho Cordic o m ódulo do vetor rotacionado seja diferente do vetor OD. Logo, a nova posiç ão do vetor rotaci-onado é OB, como mostrado na Figura (11)(LIN; WU, 2005).

O

C

A B D

Figura 11: MSR com I=2, J=1 e N=2 Fonte: (LIN; WU, 2005)

Analisando a Figura (11), o erro de aproximaç ão do algoritmo MSR é representado pelo trecho OB, denominado ∆l0. J á o erro angular é representado por ∆θ, e o erro do m ódulo é representado pelo trecho OC, denominado ∆l0. Segundo Lin e Wu (2005), quando ∆θ é suficientemente pequeno é poss´ıvel obter a seguinte express ão:

(42)

∆l02 = OA2+ OB2− 2OA × OBcos(∆θ), (79) ∆l02 = 1 + (1 + ∆l)2− 2 × 1 × (1 + ∆l) ×p1 − sin2_(∆θ), ₍₈₀₎ ∆l02 ≈ ∆l2+ ∆θ2. (81)

Por meio de (81) é poss´ıvel concluir que o erro angular ∆θ, e o erro modular ∆l possuem o mesmo impacto no erro de aproximaç ão do algoritmo MSR. Portanto, afim de otimizar o desempenho do algoritmo MSR é necess ário escolher um conjunto de par âmetros CORDIC que privilegiem igualmente a reduç ão de ambos os erros de aproximaç ão (LIN; WU, 2005).

Assim determinar o conjunto dos melhores valores para os par âmetros CORDIC J , I, µi, µj, si e sj nada mais é do que uma tarefa de otimizaç ão, sendo que a equaç ão de minimizaç ão é a express ão do erro , o qual pode ser definido como:

min = √∆l2 _{+ ∆θ}2_. ₍₈₂₎

Para cumprir essa tarefa de otimizaç ão de é poss´ıvel utilizar diferentes tipos de algoritmos, e inclusive adaptar o algoritmo TBS j á apresentado. Segundo Lin e Wu (2005), existe uma certa restriç ão quanto a utilizaç ão de algoritmos como o greedy, pois esse tipo de algoritmo Guloso n ão garante a melhor soluç ão dentro do conjunto de soluç ões poss´ıveis desse problema.

2.4.3.1 AN ´ALISE DO ERRO

Um importante fator para a determinaç ão do melhor conjunto de par âmetros Cordic para o MSR, al ém da minimizaç ão do erro , é o efeito do ru´ıdo de arredon-damento (Roundoff Noise Analysis) en, e o erro de overflow, ou estouro da palavra bin ária. Ambos os efeitos ocorrem ao longo das operaç ões l ógicas promovidas pelo al-goritmo CORDIC, em especial devido a operaç ão de compensaç ão do ganho Kc. Essa compensaç ão envolve uma operaç ão de multiplicaç ão, o que acentua os problemas de arredondamento da parte fracion ária e, dependendo do valor da compensaç ão, pode causar um overflow da palavras bin ária.

Nos dispositivos digitais o n úmero de bits utilizados para representar sinais quantizados é limitado de acordo com a arquitetura. Esse limite de representaç ão

(43)

acaba por impactar na resoluç ão da palavra bin ária para n úmeros fracion ários, o que força a realizaç ão de arrendondamentos na representaç ão bin ária.

Para representar o conjunto dos n úmeros racionais no mundo digital, a ar-quitetura dos sistemas digitais reserva parte dos bits da palavra bin ária para represen-tar o fracion ário do n úmero racional. Assim, segundo Lin e Wu (2005), os n´ıveis de quantizaç ão para um sinal digital s ão definidos como:

−2W −i−1_{, ..., −2}−i+1

, −2−i, −2−i+1, ..., 2W −i−1 , (83) sendo que W representa o n úmero de bits da palavra bin ária, e i representa o n úmero de d´ıgitos fracion ários.

Uma soluç ão simples para reduzir o efeito do en é aumentar o n úmero de bits W e i, melhorando a resoluç ão da representaç ão. Por ém, essa soluç ão, como afirma (LIN; WU, 2005), provocaria uma reduç ão na velocidade computacional do sis-tema, e ainda consumiria mais recursos de hardware. Outra opç ão seria reduzir o n úmero de bits utilizados para representar a parte inteira do n úmero, e transferir es-ses bits para a parte fracion ária. Por ém, esse m étodo pode provocar um overflow da palavra bin ária, o que é ainda pior do que um ru´ıdo de arredondamento.

Considerando a amplitude ρ de um sinal de entrada, definido entre os inter-valos:

− 2W a≤ ρ ≤ 2Wb_{− 1, para W}

a, Wb ≥ 0, (84)

sendo que W a e W b representam respectivamente o limite superior e inferior da am-plitude do m ´odulo desse sinal. Ainda:

Wmax = max{Wa, Wb}. (85)

Como o limite absoluto desse sinal. O n úmero m´ınimo de bits necess ários para representar tal sinal seria de (Wmax + 1). Assim, segundo Lin e Wu (2005), para evitar um overflow seria necess ário manter o sinal de entrada dentro da seguinte restriç ão:

2Wmax ≤ 2W −1−i_. ₍₈₆₎

Para solver o problema do ru´ıdo de arredondamento, Lin e Wu (2005) assu-mem que o en é uniformemente distribu´ıdo e n ão possui correlaç ão com outros sinais. Al ém de considerar que, baseado nos n´ıveis de quantizaç ão, o en est á situado em

(44)

uma faixa sim étrica de (−2−i−1, 2−i−1). Portanto, a vari ância de en é dada por: σ_en2 = V

2 LSB

12 , (87)

sendo VLSB igual a 2i. Logo, a vari ância do erro de arredondamento é proporcional ao quadrado valor do último bit da palavra bin ária.

Como base em (87), Lin e Wu (2005) analisam o efeito a operaç ão de rotaç ão tem sobre a vari ância de en, e mais especificamento o efeito que o ganho Kc tem sobre o SQNR. Quando o ganho Kc é > 1 ou < 1 SQNR é reduzido para 1/(Kn)a cada iteraç ão CORDIC.

O ganho KC é fator importante no projeto dos par âmetros Cordic para o MSR, afetando tanto o erro en quanto . Para refinar a funç ão de minimizaç ão apre-sentada em (82), Lin e Wu (2005) adicionam a seguinte restriç ão em relaç ão ao valor do ganho Kc:

Plower = 1/Pupper, (88)

sendo Pupper e Plower, respectivamente, o limite superior e o limite inferior de Kna cada iterac¸ ˜ao.

O gr áfico da Figura (12) mostra uma an álise pr ática entre o n´ıvel do SQNR e o Pupper, para diferentes valores de deslocamento de bits (S). Por meio dessa an álise Lin e Wu (2005) sugerem que para um bom projeto de par âmetros MSR Cordic, para Nspt = 3e N = 3, o valor de Pupper deve estar pr óximo de 1, 5. J á que, como pode ser visto na Figura (12), para valores maiores o desempenho de SQNR é saturado. Logo, para esse caso, é poss´ıvel adicionar mais essa restriç ão a equaç ão de minimizaç ão do erro .

(45)

Figura 12: Relac¸ ˜ao entre o Pupper e o SQNR para MSR-CORDIC, como Nspt = 3e

N = 3

Fonte: (LIN; WU, 2005)

O último aspecto da melhoria do erro en é a escolha dos par âmetros I e J. Esses par âmetros est ão diretamente relacionados a Nspt, o n úmero de termos SPT presentes na equaç ão x(n + 1) e y(n + 1). Esta relaç ão é descrita por (71). O valor de Nspt é uma escolha que impacta no n úmero de deslocadores de bits (shifters) ne-cess ários para realizar a operaç ão Cordic, sendo mais comum na bibliografia observar implementaç ão MSR Cordic com Nspt= 3ou Nspt = 4(PARK; YU, 2012) (LIN; WU, 2005) (MEHER et al., 2009).

Os valores I e J podem ser escolhidos como fixos (Modo Normal) ou po-dem ser din âmicos a cada operaç ão de rotacionamento (Modo Generalizado). Tanto no modo Normal quanto o modo Generalizado, o valor de I e J devem obedecer a restriç ão I + J = NSP T, por ém ao utilizar o modo Normal é poss´ıvel reduzir a com-plexabilidade do hardware e alcançar um desempenho aceit ável. Para tal, quando em modo de operaç ão Normal, os par âmetros deve I e J devem atender a duas restriç ão dadas a seguir (LIN; WU, 2005):

• Se Nspt ´e par: I = J = Nspt/2,

• Se Nspt ´e ´ımpar: J = (Nspt+ 1)/2e I = J − 1.

A operaç ão em modo Generalizado permite que o desempenho do MSR Cordic seja maior, j á que nessa configuraç ão as possibilidades combinat órias dos par âmetros Cordic s ão maiores. Nesse modo passa a existir, al ém da operaç ão normal

(46)

2.5 FPGA 44

de rotacionamento, a possibilidade de ocorrer a operaç ão de multiplicaç ão de escala, quando J = 0, e a operaç ão de invers ão de escala, quando I = 0. Essas operaç ões adicionais maximizam o desempenho nas rotaç ões em ângulos como π/4, π/2 e π. Na pr ática, esse modo requer o uso de mais 3 switches de controle, o que em muitas aplicaç ões torna vi ável aumentar o consumo de recursos para alcançar um melhor desempenho.

Alinhando todas as restriç ões apresentadas com a equaç ão de minimizaç ão apresentada em (82), é obtido um conjunto de par âmetros Cordic que otimizam a operaç ão de rotacionamento, elevando o valor de SQNR do sinal.

2.5 FPGA

Moore (2007, p. 4) define a FPGA como um dispositivo semicondutor capaz de ser totalmente redefinido ap ós sua fabricaç ão, permitindo ao programador reconfi-gurar produtos e funç ões j á implementadas, adaptando o hardware a novas funç ões. De forma pr ática, a FPGA permite uma flexibilidade em um projeto, podendo mudar a forma como ele é implementado, sem a necessidade de se construir um hardware novo.

Para Moore (2007, p. 4), comparado com as outras formas de construir um hardware, a FPGA oferece duas grandes vantagens em uma aplicaç ão. Primeiro, para uma aplicaç ão, ao inv és de se utilizar um circuito integrado padr ão comercial, que geralmente é super ou subdimensionado, ou ainda desenvolver um novo projeto de circuito integrado especifico, consumindo tempo e recursos, a FPGA possibilita desenvolver um hardware exatamente dentro das especificaç ões, personalizado e oti-mizado para a funç ão destinada. Em segundo, por ém t ão importante quanto, é que essa capacidade de personalizaç ão de hardware possibilita a realizaç ão de operaç ões de modo mais simplificado, r ápido e energeticamente eficiente se comparado a um mi-croprocessador.

2.5.1 ASPECTOS CONSTRUTIVOS DA FPGA

As FPGAs s ão baseadas em unidades l ógicas elementares b ásicas, ou (BLE) Basic Logic Elements, dentro de uma hierarquia de interconex ões reconfigur áveis que permitem que os BLEs sejam fisicamente conectados uns aos outros de diferen-tes formas, criando uma enorme variedade de componendiferen-tes digitais. A arquitetura das FPGAs modernas s ão constitu´ıdas, basicamente, por conjunto de mem órias de

(47)

2.5 FPGA 45

armazenamento em massa SRAM (Static Random Access Memory ), Portas de Entra-da/Sa´ıda, blocos l ´ogicos configur ´aveis (CLB) e sistema de roteamento, como pode ser visto na Figura (13) (MOORE, 2007, p. 5).

Figura 13: Arquitetura Tipica de uma FPGA Fonte: Adaptado Meyer-Baese (2007, p. 6)

Os CLB s ão blocos realizam operaç ões l ógicas b ásicas e armazenam pe-quenos volumes de dados. Comumente as operaç ões complexas, necess árias para o processamento de uma aplicaç ão, s ão divididas em processos mais simples para cada uma das CLBs selecionadas, de modo que a soma das tarefas de cada CLB seja equivalente a operaç ão complexa, em uma estrat égia de divis ão e conquista. Para re-alizar operaç ões l ógicas b ásicas e ainda armazenar pequenos volumes de dados, os CLBs tecnicamente poderiam ser apenas um pequeno circuito de transistores (granu-laridade fina), ou at é mesmo um processador completo (granu(granu-laridade grosseira). Se os CLBs fossem granularidade fina, para realizar tarefas complexas seria necess ário

(48)

2.5 FPGA 46

um grande n úmero de CLBs e um sistema de roteamento complexo para interconecta-los, o que resultaria em uma FPGA de baixo desempenho e um elevado consumo energ ético. Por outro lado, se as CLBs forem de uma granularidade mais grosseira, seria um desperd´ıcio de recurso utiliz á-los em operaç ões mais simples (FAROOQ et al.,

2012, p. 11). Assim a escolha do n´ıvel de complexabilidade, ou granulaç ão, das CLBs de uma FPGA é um compromisso de otimizaç ão de recursos.

Segundo Farooq et al. (2012, p. 11), dentro da gama de granulaç ão das CLBs, algumas arquiteturas incluem o uso de portas NAND, interconex ão de multi-plexadores e tabelas de busca LUT (Lookup Table). Em especial, fabricantes como a Xilinx utilizam CLBs baseadas em LUTs, j á que CLBs baseadas em LUT oferecem uma boa relaç ão de granulaç ão, otimizando os recursos da FPGA para aplicaç ões simples at é as mais complexas. Esse tipo de CLB pode incluir uma único BLE, ou mesmo um cluster de BLEs interconectados, como mostrado na Figura (14).

Figura 14: Arquitetura de uma CLB com 4 BLEs

Fonte: Adaptado Farooq et al. (2012, p. 13)

Segundo Farooq et al. (2012, p. 11), um BLE mais simples consiste basi-camente de um LUT e um Flip-Flop tipo D, como pode ser visto na Figura (15). Um LUT com k entradas pode implementar k funç ões booleanas utilizando os espaços de mem ória SRAM dentro da LUT. O exemplo apresentado na Figura (15) utiliza 16 bits

(49)

2.5 FPGA 47

de mem ória SRAM, os quais s ão conectadas a entrada do multiplexador que possui 4 bits de seleç ão, e cuja sa´ıda é ligada ao flip-flop. Essa configuraç ão permite que a LUT tenha 2k _{combinaç ões das k operaç ões booleanas.}

Figura 15: Arquitetura de uma BLE (Basic Logic Element)

Fonte: Adaptado Farooq et al. (2012, p. 13)

Um único BLE é capaz de realizar algumas operaç ões booleanas b ásicas, por ém em clusters as combinaç ões de operaç ões aumentam. FPGAs modernas ti-picamente cont ém de 4 a 10 BLEs em um único cluster. Por ém, essas FPGAs n ão possui apenas BLEs id ênticas, na verdade h á uma grande heterogenia de blocos, sendo muitos deles desenvolvidos para prop ósitos espec´ıficos. Entre esses blocos de prop ósito espec´ıfico est ão multiplicadores, somadores, mem órias e DSPs (Digital Sig-nal Processor ), entre outros. Esses blocos s ão desenvolvidos para otimizar o espaço, processamento, roteamento e demais recursos de hardware que seriam necess ários para implementar as mesmas funç ões em BLEs comuns, sendo essenciais em certas aplicaç ões Farooq et al. (2012, p. 10).

A implementaç ão de qualquer circuito l ógico é feita pela associaç ão de di-ferentes blocos l ógicos e pelas portas de entrada e sa´ıda da FPGA, os quais s ão conectados uns aos outros por meio da rede de roteamento program ável, ou PLN (Programmable Logic Network ). Na Figura (13) a PLN é representada pela Matriz Program ável de Interconex ões e pelos Canais de Roteamento. Para que a FPGA possa implementar qualquer circuito digital, as interconex ões de roteamento devem ser flex´ıveis para suportar a grande variedade de conex ões demandada, otimizando