VALIDAC ¸ ˜ AO DAS ARQUITETURAS PROPOSTAS

Nesta se¸cão apresentam-se os resultados de valida¸cão das arquiteturas propostas após a execu¸cão no dispositivo FPGA. As melhores condi¸cões de opera¸cão dos algoritmos implementados em hardware foram escolhidas com base nas simula¸cões apresentadas em [130], [129], [132], [131]. Os principais resultados destas simula¸cões são descritos a seguir.

Visando analisar o impacto do formato utilizado pelo padrão IEEE-754 (tamanho de palavra) no erro associado, assim como a influência do número de itera¸cões no tempo de execu¸cão, os experimentos consideraram os seguintes fatores: (a) tamanhos de palavra, (b) número de sementes dos algoritmos GS e NR e (c) número de itera¸cões ou microrrota¸cões. Para isto, foi usada a ferramenta ModelSim [142] após o processo PAR (placement and routing) e um ambiente de simula¸cão constru´ıdo no Matlab no qual é poss´ıvel gerar os vetores de teste aleatórios e decodificar os resultados.

Em [130] apresenta-se uma análise dos operadores aritméticos levando em considera¸cão o tamanho de palavra, erro associado, o tempo de execu¸cão em ciclos de relógio e o tamanho da memória para armazenar as sementes iniciais dos algoritmos de divisão e raiz quadrada. Os resultados de simula¸cão obtidos apontam que o algoritmo NR atinge as melhores condi¸cões de opera¸cão para três itera¸cões e 16 palavras para armazenar as sementes iniciais, sendo necessários 11 e 16 ciclos de relógio para a divisão e raiz quadrada, respectivamente.

Com rela¸cão aos operadores trigonométricos, em [129] apresenta-se uma análise das condi¸cões de funcionamento em fun¸cão do tamanho de palavra, erro associado e número de microrrota¸cões do algoritmo CORDIC. Nas simula¸cões observou-se que o cálculo da fun¸cão arco-tangente possui um erro associado maior do que as unidades CORDIC para cálculo das fun¸cões seno, cosseno e exponencial. Entretanto, foi observado um in- cremento do erro no cálculo destas três ultimas fun¸cões quando as unidades de redu¸cão de argumento são usadas, isto é, quando o argumento de entrada está fora da faixa

[−π/2, π/2] e [-1,1] para as fun¸cões seno/cosseno e exponencial, respectivamente. Na arquitetura proposta em [129] cada microrrota¸cão requer de 4 ciclos de relógio e o cálculo da redu¸cão de argumento requer de 12 ciclos de relógio, portanto, cada execu¸cão do algoritmo CORDIC requer de 4 ∗ NI + 12 ciclos de relógio, sendo NI o número total de microrrota¸cões.

A seguir são apresentados os resultados obtidos pelas arquiteturas descritas na se¸cão anterior. É importante salientar que estas arquiteturas diferem das arquiteturas apresentadas em [130], [129] no sentido de que a descri¸cão hardware dos circuitos foi apri- morada visando uma economia de recursos, especificamente de blocos DSPs, e um aumento da frequência de opera¸cão. Contudo, a lógica dos algoritmos NR e COR- DIC foi mantida e, em consequência, não houve um detrimento do erro associado. As condi¸cões experimentais são as seguintes:

• Três itera¸cões do algoritmo NR para divisão e raiz quadrada.

• Memória de 16 posi¸cões para armazenamento das aproxima¸cões iniciais do algoritmo NR para divisão e raiz quadrada.

• 15 microrrota¸cões do algoritmo CORDIC para cálculo das fun¸cões seno, cosseno e arco-tangente.

• 25 microrrota¸cões do algoritmo CORDIC para cálculo da fun¸cão exponencial. • Valida¸cões para tamanhos de palavra de 27, 32 e 64 bits. As representa¸cões de 32 e

64 bits foram escolhidas por serem as mais amplamente usadas na literatura além de permitir uma compara¸cão mais eficiente com solu¸cões baseadas em software. A representa¸cão de 27 bits foi escolhida pelo baixo custo em área lógica (vide resultados de s´ıntese), demonstrando ser mais eficiente em termos de recursos de hardware para implementa¸cões em FPGA.

• Os vetores de teste usados para valida¸cão consideram exce¸cões como divisão por zero, raiz quadrada de número negativos, multiplica¸cão por zero, multiplica¸cão por um, soma/subtra¸cão de operandos iguais, arco-tangente de π/2, etc. Adicio- nalmente outros valores das mantissas e expoentes considerados importantes para efeitos de valida¸cão foram utilizados, por exemplo, combina¸cões das seguintes condi¸cões: mantissa igual a zero, mantissa igual ao valor máximo (2F W_{−1), sendo}

F W o n´umero de bits da mantissa, e expoente representando infinito (2EW _{− 1),}

• Os operadores aritméticos foram validados para valores na faixa [-1000,1000]. A raiz quadrada foi validada para valores da faixa [0,1000]. Por outro lado, os operadores seno e cosseno foram validados para argumentos de entrada na faixa [−100π, 100π] e os operadores para cálculo das fun¸cões arco-tangente e exponencial na faixa de valores [-100,100] e [-10,10], respectivamente.

• A comunica¸cão serial RS232 foi usada para comunica¸cão entre o FPGA e o ambiente de valida¸cão desenvolvido no Matlab. Este ambiente permite codificar e enviar na representa¸cão IEEE-754 os operandos de entrada, assim como receber e decodificar o resultado das opera¸cões.

• A quantifica¸cão do erro foi feita a partir das medidas do erro quadrático médio (MSE) e erro absoluto médio (MAE) usando 36 amostras para cada tamanho de palavra, sendo o Matlab usado como estimador estat´ıstico (opera¸cão de 64 bits). • Um gerador de código VHDL foi desenvolvido no Matlab. Esta ferramenta, cha- mada vFPUgen, permite selecionar o tamanho de palavra na representa¸cão IEEE- 754 assim como os parâmetros dos algoritmos NR e CORDIC, fornecendo a descri¸cão de hardware dos operadores aritméticos e trigonométricos estudados neste trabalho. Desta forma é reduzido o tempo de desenvolvimento, teste e valida¸cão das arquiteturas propostas, além de viabilizar o desenvolvimento de futuras implementa¸cões de hardware.

A tabela 3.4 apresenta os valores do erro quadrático médio (MSE) e erro absoluto médio (MAE) obtidos após o processo de valida¸cão dos operadores aritméticos implementados.

Tabela 3.4: Erro quadrático médio e erro absoluto médio dos operadores aritméticos Operador Erro 27(8,18) 32(8,23) 64(11,52)

F P add MSE 1.54E-5 1.26E-7 2.73E-10

[−100, 100] MAE 2.34E-3 8.90E-5 2.92E-6

F P mul MSE 3.34E-4 1.34E-7 8.82E-13

[−100, 100] MAE 3.17E-3 1.32E-4 1.67E-7

divN R MSE 2.36E-9 6.97E-13 4.97E-14

[−100, 100] MAE 1.52E-5 2.68E-7 6.85E-8

sqrtN R MSE 1.81E-10 2.54E-11 8.80E-19

[0, 100] MAE 8.28E-6 1.44E-6 3.00E-10

Como esperado, o melhor comportamento é encontrado para um formato de 64 bits. O MSE das unidades FPadd e FPmul é maior do que as unidades de divisão e raiz quadrada. Isto pode ser explicado devido aos refinamentos sucessivos realizados pelo

algoritmo NR. Entre todos os operadores aritm´eticos, a unidade FPmul apresenta o maior valor de MSE devido a erros incorporados no processo de truncamento. No entanto, este problema pode ser facilmente resolvido acrescentando um estado de ar- redondamento no resultado da multiplica¸c˜ao das mantissas [143].

A tabela 3.5 apresenta os resultados de erro quadrático médio (MSE) e de erro absoluto médio (MAE) para as unidades Cordicsincos, Cordicatan e CordicTaylorexp em fun¸cão do tamanho de palavra.

Tabela 3.5: Erro quadrático médio e erro absoluto médio dos operadores trigonométricos

Operador Erro 27(8,18) 32(8,23) 64(11,52)

Cordicsincos(seno) MSE 3.64E-8 9.10E-10 5.70E-10

[−100π, 100π] MAE 9.06E-5 2.44E-5 1.84E-5

Cordicsincos(cosseno) MSE 1.39E-8 5.64E-10 6.00E-10

[−100π, 100π] MAE 6.82E-5 1.79E-5 1.83E-5

Cordicatan MSE 4.52E-4 1.21E-9 9.65E-10

[−100, 100] MAE 3.79E-3 2.97E-5 2.68E-5

CordicT aylorexp MSE 3.07E-10 7.38E-13 6.17E-12

[0, 1] MAE 1.34E-5 6.26E-7 7.55E-7

CordicT aylorexp MSE 6.30E-5 4.41E-5 4.40E-5

[1, 5] MAE 3.67E-3 1.93E-3 1.92E-3

CordicT aylorexp MSE 1.09E-1 7.29E-5 1.59E-7

[5, 10] MAE 1.86E-1 4.93E-3 1.97E-4

CordicT aylorexp MSE 1.75E-10 1.39E-10 1.65E-10

[−10, 0] MAE 7.69E-6 6.40E-6 6.46E-6

Pode-se observar que o valor do erro das unidades Cordicsincos e Cordicatan varia com o tamanho de palavra. Como esperado, representa¸cões com tamanho de palavra menor apresentam erros maiores. No entanto observou-se uma pequena diferen¸ca entre as implementa¸cões de 32 e 64 bits. Isto pode ser explicado devido ao uso de multiplicadores em ponto flutuante nas unidades de redu¸cão de argumento e a erros de truncamento nos componentes FPfrac, usados durante a etapa de redu¸cão do argumento de entrada.

A unidade CordicT aylorexp para cálculo da fun¸cão exponencial apresenta um erro de aproxima¸cão pequeno (aproximadamente de 1E-10) para argumentos de entrada pequenos (na faixa [−1, 1]) ou negativos. Entretanto, esta unidade apresenta um erro maior para argumentos de entrada positivos. Observe-se que conforme aumenta o argumento de entrada maior é o erro associado. Este problema é evidente no caso da representa¸cão de 27 bits, em que o MSE é aproximadamente igual a 1.09E-1 para uma faixa de valores de [5,10], indicando que o tamanho da mantissa não fornece suficiente

precisão para representar números grandes com varias casas decimais. Este problema é resolvido pelo uso da representa¸cão de 32 bits (precisão simples), em que o MSE é aproximadamente 7.29E-5 para a mesma faixa de valores.

Embora as arquiteturas CORDIC propostas possuam um erro de aproxima¸cão pequeno para o cálculo de fun¸cões trigonométricas, três fontes de propaga¸cão de erro foram identificadas. A primeira se apresenta por erros de quantiza¸cão durante o cálculo do argumento reduzido, especificamente pelo uso de truncamentos nas unidades FPmul e FPfrac. Porém, este problema pode ser resolvido utilizando estados de arredonda- mento. A segunda fonte de propaga¸cão de erro é o uso das técnicas de redu¸cão de argumento. As técnicas de redu¸cão de argumento apresentadas neste trabalho foram escolhidas pela sua fácil implementa¸cão. No entanto, técnicas mais sofisticadas podem ser estudadas visando melhoras na aproxima¸cão, como apresentado em [138]. A terceira fonte de erro apresenta-se no cálculo da fun¸cão exponencial para argumentos reduzidos pequenos [139]. Neste trabalho, o impacto da terceira fonte de erro foi minimizado usando uma unidade de compara¸cão e uma expansão em séries de Taylor de segunda ordem para argumentos reduzidos pequenos (na faixa de [-0.05,0.05]), como mostrado na figura 3.8.

A figura 3.9 apresenta uma valida¸cão da metodologia h´ıbrida CordicTaylor proposta para o cálculo da fun¸cão exponencial. Nesta figura foi calculado o erro quadrático médio (MSE) para 1000 argumentos de entrada aleatórios na faixa [-1,1] usando uma implementa¸cão de precisão dupla. Pode-se observar que a arquitetura original FPCor- dic, que usa exclusivamente o algoritmo CORDIC em coordenadas hiperbólicas para o cálculo da fun¸cão exponencial, apresenta um MSE aproximado de 1E−2 _{quando o valor}

do argumento reduzido está na faixa [-0.05, 0.05]. Entretanto, a arquitetura Cordic- Taylorexp proposta, a qual considera a expansão por séries de Taylor, apresenta um MSE máximo de 1E−8 _{para valores de argumento reduzido na mesma faixa.}

No documento ENCIA DE ENXAMES USANDO ARQUITETURAS PARALELAS PARA APLICAC ¸ ˜ OES EMBARCADAS (páginas 89-93)