IMPLEMENTANDO A FFT 1024 PONTOS - Implementação do algoritmo Radix-2 para cálculo da FFT em FPG

A arquitetura da Figura (24) foi concebida de forma que a unidade Con- trole, ap ós o recebimento do sinal de In´ıcio, acione as unidades CORDIC, iniciando a operaç ão de rotaç ão de vetores. Ap ós 3 ciclos de Clock, os sinais de sa´ıda s ão direcio- nados pelo Comutador de Sa´ıda, controlado pela Unidade Controle, para as unidades Butterfly que retroalimentam o bloco Comutador de Entrada. Esse processo, que dura 3 ciclos de clock, caracteriza o c álculo de um n´ıvel da FFT. Como uma FFT de 16 pontos possui 4 n´ıveis, a unidade de Controle realiza 4 iteraç ões, retroalimentando as unidades CORDIC por meio do Comutador de Sa´ıda.

Ao final do processo de iteraç ão dos 4 n´ıveis da FFT, a unidade de Controle aciona o sinal de Final de Processo, sinalizando a Interface AXI que os dados j á foram computados, e j á podem ser transferidos ao PS de forma serial. Um ponto importante aqui, é que se faz necess ário transferir apenas metade dos sinais computados, pois o espectro de Fourier calculado é sim étrico. Logo, s ão transferidos os 8 primeiros pontos da FFT, obedecendo a ordem Bit-Reverse, e compensando o m ódulo dos sinais, transferindo os 15 bits mais significativos de cada ponto.

3.4 IMPLEMENTANDO A FFT 1024 PONTOS

Na bibliografia geralmente é mais comum encontrar implementaç ões de al- goritmos para c álculo da FFT utilizando implementaç ões com 1024 pontos. Portanto, com o intuito de realizar uma comparaç ão de desempenho, em um n´ıvel pr óximo dos artigos mais recentes da área, é desenvolvido uma nova arquitetura para a FFT de 1024 pontos.

A arquitetura implementada para a FFT de 16 pontos possui um processa- mento paralelo em relaç ão aos m ódulos de c álculo CORDIC. Desse modo, que todas as operaç ões de rotaç ão de vetores, para um determinado n´ıvel, s ão realizadas para- lelamente. Para a implementaç ão de uma FFT com 1024, ou mesmo 512 pontos, n ão seria poss´ıvel utilizar a mesma arquitetura paralela em relaç ão as unidades CORDIC, uma vez que o n úmero de conex ões, mux e Flip-flops presentes na FPGA n ão seriam suficientes para tal tarefa.

A soluç ão adotada para montar a FFT de 1024 pontos foi realizar as operaç ões CORDIC de cada n´ıvel da FFT de modo fracion ário. Uma FFT de 1024 pontos possu´ı ao total 10 n´ıveis de c álculo (log2N), e 512 operaç ões CORDIC por n´ıvel. Se for utilizado 8 unidades CORDIC em paralelo, para calcular conjuntos de 8 operaç ões por iteraç ão, é poss´ıvel realizar o c álculo de um n´ıvel reutilizando as unidades CORDIC 64

3.4 Implementando a FFT 1024 Pontos 65

vezes. Por ém, para essa tarefa é necess ário utilizar um bloco RAM para armazenar os 1024 pontos e permitir o acesso a 16 pontos a cada iteraç ão. A Figura (25) apresenta um diagrama da arquitetura implementada para a FFT de 1024 pontos.

ROM COrdic ROM COrdic ROM COrdic Butterfly Butterfly Butterfly Controle Final de Processo Entrada Início Saída Endereço Saída/Entrada RAM Controle de Endereçamento ROM COrdic Butterfly ROM COrdic Butterfly ROM COrdic Butterfly ROM COrdic Butterfly ROM COrdic Butterfly

Figura 25: Arquitetura FFT 1024 Pontos Implementada Fonte: Autoria Pr ´opria

A FFT de 16 pontos n ão possui nenhum bloco de memoria RAM (BRAM), utilizando apenas registradores para operar as iteraç ões, o que a torna menos exi- gente em termos de recursos da FPGA. J á uma FFT de 1024 requer n ão apenas uma bloco comum de RAM, mas uma mem ória de acesso m últiplo, j á que se faz necess ário ler e escrever em 16 pontos diferentes a cada iteraç ão. Pois, caso contr ário, seria ne-

3.4 Implementando a FFT 1024 Pontos 66

cess ário transferir cada ponto da FFT individualmente para cada unidade CORDIC em paralelo, reduzindo assim o desempenho da FFT. Para criar algo como um bloco de RAM com 16 canais, foram criados 16 blocos de mem ória RAM dual port, cada um com 128 endereços de mem ória. A entrada e sa´ıda de dados desses blocos é ligado a uma rede de multiplexadores, os quais ordenam os dados a serem armazenados em blocos espec´ıficos. Como a cada n´ıvel da FFT o conjunto de dados a serem calcula- dos devem ser divididos em 64 blocos, para que as 8 unidades CORDIC processem 1 bloco por vez, se faz necess ário ordenara entrada de dados nos blocos de RAM de modo que os dados estejam na posiç ão certa para o pr óximo n´ıvel.

No diagrama da Figura (25), a FFT de 1024 pontos, al ém de dispor de uma unidade RAM de m últiplos acessos, ainda cont ém um bloco Controle de Endereçamento, o qual é respons ável por endereçar os resultados das operaç ões CORDIC para o espaço de mem ória adequado no bloco RAM. A entrada de dados nessa arquitetura é feita por meio do bloco Entrada. Esse bloco separa os dados seriais de reais de 32 bits oriundos de PS, em dois sinais reais de 16 bits, e por meio de dois multiplexadores, insere esses dados nas duas primeiras portas de dados do bloco RAM. Enquanto a interface AXI estiver repassando ao m ódulo da FFT os dados de entrada, e endereçando esses por meio da porta Endereço Sa´ıda/Entrada, o bloco de Controle vai preenchendo a mem ória RAM com os dados de entrada.

Ap ós preencher todos os dados da RAM, a interface AXI dispara a porta start, e a operaç ão da FFT é iniciada. Ao final, o bloco de Controle aciona a porta Final de Processo, provocando uma interrupç ão em PS, notificando sobre o fim da operaç ão. Ent ão, os dados s ão transferidos ao PS, de acordo com o endereço requisi- tado pela interface AXI na porta Endereço Sa´ıda/Entrada, repassando os dados pela primeira porta de leitura do bloco RAM.

4 RESULTADOS E DISCUSS ˜AO

Neste cap´ıtulo ser ão apresentados os resultados oriundos dos teste reali- zados com os circuitos implementados no cap´ıtulo anterior. Para executar tais testes, o PS do Zynqberry n ão foi programado utilizando o suporte de um sistema opera- cional, ou seja a programaç ão foi feita a n´ıvel bare metal, sendo utilizado apenas as bibliotecas do Board Suport Package - PS7 (BSP), destinado a processadores Cortex- A9. Para que fosse poss´ıvel gerar conjuntos de sinais de entrada e analisar por meio gr áfico os dados de sa´ıda da FFT, fora utilizado a funcionalidade de comunicaç ão serial do Software Matlab. Assim todos os dados gr áficos apresentados neste cap´ıtulo foram obtidos com auxilio desta ferramenta.

No documento Implementação do algoritmo Radix-2 para cálculo da FFT em FPGA (páginas 66-69)