DISCUS ˜ OES FINAIS DO CAP´ITULO E CONTRIBUIC ¸ ˜ OES

Neste cap´ıtulo foram apresentadas as implementa¸cões de hardware dos operadores de cálculo aritmético e trigonométrico usando a representa¸cão aritmética de ponto flutuante.

Os dados de custo em área lógica demonstram que os dispositivos FPGA são uma solu¸cão fact´ıvel para a implementa¸cão dos operadores estudados. Em geral o consumo de recursos de hardware é satisfatório, havendo suficiente área lógica para implementa¸cões futuras. Entretanto, o número de blocos DSP dedicados é um parâmetro cr´ıtico, especificamente para representa¸cões de alta precisão (64 bits). Entre os operadores aritméticos, a unidade de soma/subtra¸cão requer de mais recursos de hardware, embora não fa¸ca uso de blocos DSP embarcados.

Os resultados de s´ıntese permitiram concluir que a representa¸cão de 27 bits (1 bit de sinal, 8 bits de mantissa e 18 bits de mantissa) permite realizar implementa¸cões mais eficiente em termos de consumo de recursos se comparado com a representa¸cão de precisão simples (32 bits). Especificamente, foi observado que a implementa¸cão de 27 bits usa 50% menos blocos DSPs do que a implementa¸cão de 32 bits. Isto é devido a que os blocos DSPs usados nos dispositivos FPGAs da Xilinx são baseados em multiplicadores de 18x18 nas fam´ılias Spartan e de 18x25 nas fam´ılias Virtex e Kintex da Xilinx. Desta forma, para a implementa¸cão de uma opera¸cão de multiplica¸cão usando blocos DSPs de 18x25 bits, a representa¸cão de 27 bits não realiza produtos parciais em contraste com a implementa¸cão de 32 bits em que são necessários dois produtos parciais para multiplicar as mantissas de 23x23 bits.

Adicionalmente, a implementa¸cão de 27 bits apresenta uma faixa dinâmica similar à implementa¸cão de 32 bits (expoentes do mesmo tamanho), porém com um detrimento no erro associado. Este último fato é derivado do decremento de 5 bits no tamanho da mantissa e afeta, principalmente, os algoritmos que fazem uso de multiplica¸cões intermediárias. Contudo, para as implementa¸cões almejadas no contexto deste trabalho, a economia de recursos de hardware, especificamente de blocos DSPs, é o fator que mais limita a escalabilidade dos algoritmos de inteligência de enxames, particu- larmente do número de part´ıculas paralelas implementadas. Portanto, a representa¸cão aritmética de 27 bits foi escolhida para mapear os algoritmos paralelos por inteligência de enxames.

Uma das principais contribui¸cões deste trabalho está relacionada com a implementa¸cão hardware de bibliotecas parametrizáveis dos operadores em ponto flutuante. Diversos trabalhos encontrados na literatura têm realizado propostas para a implementa¸cão em FPGAs de operadores aritméticos e trigonométricos em aritmética de ponto fixo e de ponto flutuante. Enquanto ao desenvolvimento de bibliotecas parametrizáveis em FPGAs usando aritmética de ponto flutuante podem-se destacar as propostas de Wang [134] e Govindu [146] para operadores aritméticos. Por outro lado, poucos trabalhos são reportados na literatura sobre a implementa¸cão de bibliotecas parametrizáveis de fun¸cões trigonométricas usando ponto flutuante. Contudo, nos trabalhos prévios não se considera a precisão como critério de projeto das arquiteturas de hardware. Neste trabalho a precisão foi tratada como uma variável de projeto na implementa¸cão das arquiteturas propostas. Isto permitiu realizar uma análise de tradeoff entre o erro associado e outros três parâmetros de projeto de circuitos: custo em área lógica, tempo de execu¸cão e consumo de potência. Detalhes sobre esta análise de tradeoff para os operadores desenvolvidos podem ser encontrados em [130] e [131].

Uma segunda contribui¸cão do trabalho está relacionada com a implementa¸cão da arquitetura CordicTaylorexp para o cálculo da fun¸cão exponencial (vide figura 3.8), a qual é produto da abordagem de desenvolvimento explicada anteriormente. Esta arquitetura foi desenvolvida inicialmente implementando o algoritmo CORDIC em coordenadas hiperbólicas. No entanto, durante a fase de análise do erro associado foi poss´ıvel cons- tatar que o algoritmo apresenta erros de aproxima¸cão quando o argumento de entrada é pequeno. Visando contornar este problema, a arquitetura proposta utiliza os mesmos recursos de hardware para implementar a expansão por séries de Taylor de segunda or- dem da fun¸cão exponencial. Desta forma, é poss´ıvel multiplexar entre as duas lógicas implementadas após a compara¸cão do valor do argumento de entrada. Uma nova fase de análise do erro associado mostrou a eficiência do resultado apresentado pela arquitetura h´ıbrida, vide figura 3.9. Embora possam ser usadas algumas técnicas para melhorar a precisão do algoritmo CORDIC para o cálculo da fun¸cão exponencial, é importante res- saltar que a abordagem CordicTaylor, apresentada neste trabalho, mostrou-se eficiente em termos de desempenho, erro associado e tempo de execu¸cão.

Uma contribui¸cão final dos tópicos abordados neste cap´ıtulo é a ferramenta vFPU- gen. Esta ferramenta permite a gera¸cão automática de código VHDL dos operadores aritméticos e trigonométricos usando ponto flutuante, de forma que o tamanho de palavra e os parâmetros dos algoritmos são configurados offline segundo os requerimentos de precisão, custo em área lógica e tempo de execu¸cão de uma aplica¸cão espec´ıfica. É

importante destacar que esta ferramenta facilita o uso de FPGAs em variadas aplica¸c˜oes em engenharia e permite diminuir o tempo de desenvolvimento.

Como trabalhos futuros sobre a implementa¸cão dos operadores aritméticos espera-se um melhoramento no erro de aproxima¸cão da unidade de multiplica¸cão mediante a substitui¸cão dos processos de truncamento por estados de arredondamento. Por outro lado, os operadores desenvolvidos poderão ser usados como co-processadores de hardware e integrados no MicroBlaze, sendo acessados por meio de instru¸cões cus- tomizadas, permitindo acelerar a execu¸cão de algoritmos baseados em software. A estima¸cão do consumo de potência dos operadores implementados é uma tarefa importante para a complementa¸cão dos resultados obtidos, visando futuras aplica¸cões em sistemas embarcados. Finalmente, uma implementa¸cão em Java da ferramenta vFPU- gen e a constru¸cão de uma interface de usuário permitirá a dissemina¸cão da ferramenta entre a comunidade cient´ıfica além de viabilizar a independência de plataforma.

Cap´ıtulo 4

IMPLEMENTAC¸ ˜OES E RESULTADOS DOS

ALGORITMOS DE OTIMIZAÇ ÃO POR INTELIGÊNCIA

DE ENXAMES

Este cap´ıtulo apresenta as arquiteturas paralelas propostas para os algoritmos de otimiza¸cão por inteligência de enxames estudados neste trabalho. As arquiteturas propostas foram mapeadas em um dispositivo FPGA da fam´ılia Virtex5 da Xilinx e o custo em área lógica foi estimado usando os resultados de s´ıntese. As implementa¸cões foram validadas por meio de experimentos computacionais usando fun¸cões de teste benchmark, permitindo realizar compara¸cões numéricas do desempenho dos algoritmos implementados em hardware com a sua respectiva realiza¸cão em software. Por fim, uma compara¸cão do tempo de execu¸cão entre as solu¸cões de hardware e software é apresentada. O cap´ıtulo finaliza com uma discussão dos resultados obtidos.

4.1 CONSIDERAC¸ ˜OES INICIAIS

Os algoritmos de inteligência de enxames descritos a seguir fazem uso dos operadores aritméticos e trigonométricos de aritmética de ponto flutuante apresentados no cap´ıtulo anterior. Esta escolha é justificada dado que problemas de otimiza¸cão geralmente requerem de uma representa¸cão numérica de alta precisão com uma alta faixa dinâmica.

As primeiras implementa¸cões de hardware das arquiteturas paralelas dos algoritmos PSO, SFLA e ABC foram baseadas em uma representa¸cão numérica de 32 bits. De- talhes destas implementa¸cões e seus respectivos resultados podem ser encontradas nas publica¸cões realizadas no contexto deste trabalho [147], [148], [149], [150], [151], [152]. Os resultados de s´ıntese obtidos para uma representa¸cão de 32 bits apontaram um alto consumo de recursos de hardware, especificamente de blocos DSP embarcados. Contudo, como demonstrado no cap´ıtulo anterior, dado que dispositivos FPGAs usam blocos DSPs de 9x9 bits ou 18x18 bits, uma representa¸cão de ponto flutuante de 27 bits (8 bits de expoente e 18 bits de mantissa) permite realizar implementa¸cões de hardware eficientes em termos de consumo de recursos mantendo a precisão e faixa dinâmica dos

operadores aritm´eticos.

Visando acelerar o tempo de desenvolvimento, uma ferramenta de software para gera¸cão automática de código VHDL dos algoritmos de inteligência de enxames foi desenvolvida no Matlab. Esta ferramenta, chamada de Swarm Generator, permite selecio- nar o número de part´ıculas, dimensionalidade do problema de otimiza¸cão, número de itera¸cões, entre outros parâmetros de cada algoritmo. Adicionalmente, esta ferramenta permite escolher o tamanho de palavra da representa¸cão em ponto flutuante segundo os requerimentos de custo em área lógica, precisão e faixa dinâmica. As implementa¸cões apresentadas neste trabalho usam uma representa¸cão numérica de 27 bits.

Conforme explicado na Se¸cão 2.7, três métodos de adi¸cão de diversidade artificial foram estudados e implementados em hardware. Inicialmente estes métodos foram aplicados para o algoritmo PSO. Em Muñoz et al. [148] apresenta-se uma descri¸cão detalhada da implementa¸cão em hardware da metodologia atrativa-repulsiva. Em Muñoz et al. [151] é descrita a implementa¸cão hardware do método de congrega¸cão passiva seletiva, a qual usa a segunda melhor part´ıcula para evitar o problema de convergência prematura. Em Muñoz et al. [153] é apresentada uma implementa¸cão da metodologia de aprendizado em oposi¸cão a qual foi aplicada no treinamento de uma rede neural artificial.

No Apêndice B deste trabalho apresenta-se um quadro comparativo dos resultados obtidos de uma implementa¸cão software das três técnicas de diversidade artificial apli- cadas no algoritmo PSO para problemas becnhmark. Entretanto, devido à facilidade de implementa¸cão e baixo consumo de recursos de hardware, a técnica de aprendizado em oposi¸cão (OBL) foi escolhida para ser aplicada em todos os algoritmos de inte- ligência de enxames estudados neste trabalho. A abordagem OBL usa o conceito de número oposto (vide equa¸cão 2.18), possibilitando que as part´ıculas sejam teletrans- portadas em regiões opostas no espa¸co de busca. Observe-se que em espa¸cos de busca simétricos a implementa¸cão da abordagem OBL pode ser facilmente aplicada mediante uma opera¸cão de nega¸cão.

No documento ENCIA DE ENXAMES USANDO ARQUITETURAS PARALELAS PARA APLICAC ¸ ˜ OES EMBARCADAS (páginas 96-100)