Uma Arquitetura Reconfigurável de Granularidade Grossa Para Multicore

(1)

Uma Arquitetura Reconfigur´avel de Granularidade Grossa

Para Multicore

Francisco Carlos Silva Junior1_{, Ivan Saraiva Silva}1

1_{Departamento de Computac¸˜ao – Universidade Federal do Piau´ı (UFPI)}

Teresina – PI – Brasil

Resumo. Arquiteturas reconfiguráveis de granularidade grossa têm sido pro-postas para prover a flexibilidade e o desempenho necessário para aplicações com computação data-intensive e baseadas em fluxo de dados. Contudo, essas arquiteturas necessitam de muitos recursos computacionais para serem implan-tadas. Neste artigo é proposta uma arquitetura reconfigurável de granularidade grossa que utiliza menos recursos computacionais (elementos de processamen-tos) que os outros trabalhos encontrados na literatura. Uma comparação com o MIPS pipeline é feita para medir a aceleração que a arquitetura proporciona. Um trecho de código de uma aplicação real é simulada na arquitetura para verificar o ILP (do inglês, Instruction Level Paralelism).

1. INTRODUC

¸ ˜

AO

Nos últimos anos, o aumento na complexidade das aplicações tem exigido cada vez mais desempenho dos processadores. Via de regra, as aplicações atuais utilizam algo-ritmos complexos e têm como caracter´ıstica uma computação data-intensive. Para tais aplicações, duas abordagens têm sido utilizadas desde o surgimento da tecnologia de desenvolvimento de circuitos integrados. Na primeira abordagem, os processadores de propósito geral (GPP - General-Purpose Processors) são utilizados para a execução de qualquer aplicação. Na segunda abordagem, hardware dedicado, ou circuitos integrados de aplicação espec´ıfica (ASIC – Application Specific Integrated Circuits) são utilizados para a execução de aplicações também espec´ıficas. Nesta abordagem, o ganho de desem-penho é obtido por intermédio da especialização das estruturas de hardware. Os GPPs são flex´ıveis o suficiente para executar qualquer aplicação, entretanto, não conseguem prover o desempenho necessário para lidar com a complexidade crescente das aplicações atuais. Por outro lado, os ASICs oferecem alto desempenho e flexibilidade muito baixa, pois pos-suem estruturas de hardware espec´ıficas para a aplicação para a qual foram desenvolvidas. As arquiteturas reconfiguráveis (AR), viabilizadas a partir da popularização dos dispositivos programáveis (FPGA – Field Programmable Gate Array), emergiram como uma solução arquitetural capaz de unir a flexibilidade dos GPPs com o desempenho dos ASICs [Feng and Yang 2013]. Arquiteturas reconfiguráveis são normalmente cons-titu´ıdas de um array de unidades funcionais reconfiguráveis (UFR) ou elementos de processamento (EP), interconectados por intermédio de um subsistema de interconexão. Tanto o desempenho quanto a flexibilidade das ARs são obtidos por intermédio da exploração do paralelismo intr´ınseco, resultante da disponibilidade de múltiplas unida-des funcionais reconfiguráveis.

Apesar das vantagens citadas, a implantação de uma arquitetura reconfigurável pode levar a um considerável aumento da área e do consumo de energia do sistema

(2)

[Feng and Yang 2013]. Esse aumento se deve ao grande número de recursos computa-cionais (ULA, multiplexadores, banco de registradores, rede de interconexão, etc) que a arquitetura reconfigurável necessita. Além disto, a exploração dos recursos da AR re-quer a utilização de algoritmos espec´ıficos que realizam o mapeamento da aplicação na arquitetura reconfigurável.

Este trabalho propõe e avalia uma arquitetura reconfigurável para processado-res multicoprocessado-res. A arquitetura proposta é menor que as encontradas atualmente na lite-ratura [Singh et al. 2000] [Feng and Yang 2013] [Paek et al. 2011], quando se compara a quantidade de elementos de processamento necessários, e possui poder computacio-nal equivalente, ou superior, já que, na maioria das arquiteturas concorrentes, entre elas [Feng and Yang 2013], os n´ıveis/estágios existentes no bloco reconfigurável são limita-dos.

Este trabalho está organizado em 6 seções. A seção 2 define o que é arquitetura reconfigurável e como ela é classificada. A seção 3 mostra algumas CGRAs propostas e destaca a contribuição deste trabalho. A seção 4 descreve a arquitetura reconfigurável pro-posta neste trabalho. A seção 5 apresenta os resultados que puderam ser obtidos através da execução de aplicações sintéticas e reais na arquitetura reconfigurável. O trabalho é finalizado com a seção 6, apresentando as conclusões e os trabalhos futuros.

2. ARQUITETURAS RECONFIGUR ´

AVEIS

Arquiteturas reconfiguráveis são sistemas integrados que permitem customização da uni-dade de hardware para satisfazer os requisitos computacionais de diferentes aplicações [Singh et al. 2000]. Tais sistemas integrados são classificados segundo um conjunto de critérios espec´ıficos, os principais são: granularidade, acoplamento e mecanismo de reconfiguração.

Granularidade se refere ao tamanho do dado que pode ser operado pelas unidades funcionais reconfiguráveis da AR. Unidade funcional reconfigurável é um bloco lógico cuja funcionalidade pode ser reconfigurada (redefinida). Em arquiteturas de granulari-dade fina (FGRA - Fine-Grained Reconfigurable Architectures), as operações feitas na UFR são a n´ıvel de bits e são constitu´ıdas por componentes de hardware cuja configuração geram operadores a n´ıvel do bit, tais como flip-flops e look-up tables. Por outro lado, nas arquiteturas reconfiguráveis de granularidade grossa (CGRA - Coarse-Grained Re-configurable Architectures), as operações são feitas no n´ıvel de palavras, e as UFRs são constitu´ıdas de componentes de hardware mais complexos, tais como as ULAs (Unidades de Lógica e Aritmética), blocos de memória, etc.

Arquiteturas reconfiguráveis são normalmente utilizadas como aceleradores de aplicação. Muitas aplicações, como já demonstrado por Amdahl [Amdahl 1967], pos-suem apenas partes de seu código cuja execução por aceleradores é vantajosa. Assim sendo, ARs são frequentemente acopladas a um processador de propósito geral. Este é o caso das arquiteturas propostas em [Singh et al. 2000, Paek et al. 2011]. O acoplamento indica como a AR se comunica com o GPP. Em arquiteturas fortemente acoplados, a AR é implementada como uma unidade funcional dentro do processador. Nos sistemas fraca-mente acoplados, a AR é implementada como um co-processador e a comunicação se dá através de um barramento.

(3)

po-dem ser geradas e carregadas na AR. Dois mecanismos de reconfiguração são normal-mente utilizados: reconfiguração estática e a reconfiguração dinâmica. Na reconfiguração estática, as configurações são geradas, normalmente por um compilador, que identifica as partes da aplicação que podem ser aceleradas pela AR. Na reconfiguração dinâmica, a reconfiguração da AR pode ser efetuada com o sistema em operação. Deste modo é poss´ıvel que um bloco de hardware, acoplado à AR e ao GPP, gere as configurações em tempo de execução e, eventualmente, carregue uma nova configuração na AR.

3. TRABALHOS RELACIONADOS

Trabalhos relatando propostas de implementação e uso de arquiteturas reconfiguráveis começaram a surgir de forma mais regular em meados da década de 1990. Neste intervalo um número considerável de propostas foram publicadas. Dada a amplidão do tema, este artigo abordará um número limitado de arquiteturas e se dedicará apenas às CGRAs.

Feng [Feng and Yang 2013] propôs uma CGRA voltada para Processamento Di-gital de Sinais. A arquitetura proposta é composta por 16 elementos de processamento, quatro registradores de configuração e uma rede de interconexão compartilhada. Os ele-mentos de processamento são distribu´ıdos em 4 estágios, cada estágio com 4 eleele-mentos de processamento. Segundo os autores, a principal contribuição do trabalho foi a redução do custo de implementação, considerando a área em chip como unidade de medida.

Peak [Paek et al. 2011] propôs uma CGRA fracamente acoplada usando um sub-sistema de interconexão com topologia mesh-based dotado de 8 linhas e 8 colunas. Cada linha compartilha recursos cr´ıticos (Multiplicador e Divisor). A CGRA é voltada à aceleração de laços e computação data-intensive. Um framework foi desenvolvido para gerar as configurações.

MorphoSys[Singh et al. 2000] é uma CGRA fracamente acoplada a um processa-dor TinyRisc. A comunicação com o processaprocessa-dor é feita através de uma controlaprocessa-dora de DMA (Direct Memory Access) e um frame buffer. A arquitetura é composta de 64 células reconfiguráveis, arranjadas em um array 8x8, divido em 4 quadrantes 4x4.

A arquitetura proposta neste trabalho usa menos EPs que os trabalhos acima cita-dos, apenas 10 EPs e 2 unidade de Load/Store, e possui um sistema de interconexão sim-ples. Mesmo sendo menor e mais simples, a arquitetura é capaz de executar configurações com profundidade infinita. Entende-se por profundidade de uma configuração a quanti-dade de colunas do array necessárias para a execução de uma configuração.

4. ARQUITETURA PROPOSTA

A arquitetura proposta (Figura 1) é composta de duas colunas, cada uma dotada de 5 elementos de processamentos (EPs) e uma unidade de Load/Store. Neste trabalho, cha-mamos a UFR de EP por este ser um termo mais comumente utilizado para as CGRAs. A arquitetura é controlada por uma máquina de estados (FSM - Finite State Machine) e tem dois bancos de registradores, B0 e B1, os bancos de registradores das colunas 1 e 2, respectivamente.

Os dois bancos de registradores armazenam os dados atualizados dos registrado-res do processador para que as colunas possam operar sobre eles. A coluna 1 lê do banco de registradores B1 e a coluna 2 lê do banco de registrador B2. Os blocos lógica combi-nacional 1(LC1) e lógica combinacional 2 (LC2) são utilizados para a atualização dos

(4)

bancos de registradores e para enviar o contexto de sa´ıda, que pode vir do bloco 1 ou do bloco 2.

Quando deseja-se iniciar a execução de uma reconfiguração na CGRA, um sinal de in´ıcio é enviado do processador para a CGRA. A partir do envio do sinal de in´ıcio, uma configuração de coluna deve ser enviada para a CGRA por ciclo. No primeiro ci-clo, a configuração é enviada somente para a unidade de Load/Store da coluna 1. Isso é necessário devido a latência de acesso a memória de dados. No segundo ciclo, uma configuração é enviada para os EPs da coluna 1 e para a unidade de Load/Store da coluna 2. No terceiro ciclo, uma configuração é enviada para a unidade de Load/Store da coluna 1 e para os EPs da coluna 2. No terceiro ciclo o “pipeline” de execução está cheio e se repete o envio de configurações semelhantes às utilizadas no segundo e terceiro ciclo, até que toda a configuração seja executada. Ao final da execução um contexto de sa´ıda é gerado e enviado aos registradores do processador.

Figura 1. Vis ˜ao esquem ´atica da arquitetura proposta

4.1. A UNIDADE DE LOAD/STORE

A unidade de Load/Store é composta de um somador de 32 bits e uma unidade de forward. O somador é utilizado para calcular o endereço de acesso a memória, conforme o padrão de instruções MIPS. O contexto de entrada da unidade de Load/Store é destacado com as linhas pontilhadas na Figura 1. Observe que a unidade de Load/Store lê o contexto de entrada do banco de registrador da coluna precedente no fluxo de execução. A unidade de forwardfoi inserida para garantir que os dados operados pela unidade de Load/Store estão sempre atualizados. O funcionamento da unidade de forward é semelhante ao apresentado em [Henessy 2014].

4.2. O Elemento de Processamento

O EP é composto por um registrador de configuração, que contém todas as informações de configuração do EP, dois multiplexadores e uma ULA. A configuração armazenada no registrador de configuração define as entradas da ULA e sua operação. As ULAs realizam todas as operações lógicas e aritméticas necessárias à execução de instruções MIPS. A multiplicação, entretanto, por implicar na necessidade de inclusão de um operador cr´ıtico em termos de área, foi inclu´ıda somente em uma ULA por coluna, que são as ULAs do EP0 e do EP5 (ver Figura 1).

5. RESULTADOS EXPERIMENTAIS

Para validar a implementação da arquitetura proposta e avaliar o desempenho que ela ofe-rece, aplicações sintéticas foram geradas e executadas em uma implementação VHDL da

(5)

CGRA. De modo a permitir a avaliação do efeito da dependência de dados no desem-penho da CGRA, cada aplicação sintética é constitu´ıda de 100 instruções e diferentes porcentagens de dependência de dados foram utilizadas. A porcentagem de dependência de dados indica quantas das 100 instruções da aplicação são dependentes entre si. Para a geração das aplicações a dependência de dados variou de 10% a 100%, com variação de 10 em 10.

Duas ferramentas foram desenvolvidas em java para geração das aplicações sintéticas. A primeira ferramenta é utilizada para gerar as aplicações e suas configurações, enquanto que a segunda é utilizada gerar os binários a partir das configurações. A geração das aplicações sintéticas é feita a partir de dois parâmetros de entrada: o número de instruções presentes na aplicação e a porcentagem de instruções dependentes. Como as aplicações são geradas de forma aleatória, para cada porcentagem adotada, 30 versões de cada aplicação foram geradas.

A execução das aplicações na implementação VHDL da CGRA foi simulada com o aux´ılio da ferramenta ModelSim da Altera [Quartus 2016]. Os resultados das simulações das aplicações sintéticas sendo executadas nas CGRA podem ser vistos na Figura 2. Como esperado, com o aumento da dependência de dados o desempenho obtido na CGRA piora, sendo necessário mais ciclos para executar a mesma aplicação. No me-lhor caso, 0% de dependência de dados, as 100 instruções são executadas em 21 ciclos. No pior caso, 100% de dependência de dados, as 100 instruções são executadas em 101 ciclos.

Para verificar a exploração de paralelismo de uma aplicação real, destacou-se um trecho de código de uma multiplicação de duas matrizes 20x20 e gerou-se a configuração manualmente. O código da aplicação foi escrito em C e compilado para MIPS com o CrossCompiler GNU. O trecho de código destacado corresponde a execução do laço mais interno da aplicação e possui 49 instruções com 65% de dependência de dados e a configuração gerada teve profundidade 39. A simulação da execução deste trecho de código na CGRA levou 40 ciclos e na implementação VHDL do processador MIPS, em sua versão pipeline, levou 66 ciclos. A CGRA acelerou este trecho de código em 30%.

Figura 2. Variaç ão do desempenho da arquitetura a porcentagem de depend ência

As aplicações sintéticas também foram executadas na implementação VHDL do processador MIPS pipeline. Os resultados desta execução foram comparados com o me-lhor e pior caso da execução das aplicações na CGRA. A comparação pode ser vista na Figura 3. Mesmo com 100% de dependência de dados, onde é executada apenas uma instrução por coluna da CGRA, e não se tem nenhum paralelismo entre as instruções, a CGRA apresenta desempenho um pouco melhor que o processador MIPS pipeline.

(6)

Figura 3. Comparac¸ ˜ao do desempenho em pipeline MIPS com o melhor e pior caso na CGRA

6. CONCLUS ˜

OES E TRABALHOS FUTUROS

Muitas CGRAs têm sido propostas com o objetivo de fornecer recursos de hardware para aceleração de aplicações, contudo, de um modo geral, o array reconfigurável da CGRA é, via de regra, constitu´ıdo de um significativo número de elementos de processamento. A arquitetura aqui proposta apresenta um modelo que usa menos elementos de processa-mento que os outros trabalhos já publicados. Além disso, a arquitetura é capaz de executar configurações com profundidade infinita, funcionando como um pipeline superescalar in-finito.

Como trabalho futuro, pretende-se integrar essa arquitetura ao caminho de dados do processador multicore. Neste caso, para cada núcleo de processamento duas colunas EPs devem ser integradas. Um tradutor binário em hardware também deve ser integrado a arquitetura do par (Núcleo de Processamento; CGRA). Este tradutor permitirá a geração de configurações em tempo de execução. As ferramentas já desenvolvidas devem evoluir de modo a se tornar um compilador capaz de compilar aplicações escritas em C para execução no processador multicore munido de uma CGRA.

Referˆencias

[Amdahl 1967] Amdahl, G. M. (1967). Validity of the single processor approach to achi-eving large scale computing capabilities. In Proceedings of the April 18-20, 1967, Spring Joint Computer Conference, AFIPS ’67 (Spring), pages 483–485, New York, NY, USA. ACM.

[Feng and Yang 2013] Feng, C. and Yang, L. (2013). Design and evaluation of a novel reconfigurable alu based on fpga. In Mechatronic Sciences, Electric Engineering and Computer (MEC), Proceedings 2013 International Conference on, pages 2286–2290. [Henessy 2014] Henessy, D. A. P. E. J. L. (2014). Computer organization and design the

hardware/software interface. Morgan Kaufmann, Oxford, USA, 5th edition.

[Paek et al. 2011] Paek, J. K., Choi, K., and Lee, J. (2011). Binary acceleration using coarse-grained reconfigurable architecture. SIGARCH Comput. Archit. News, 38(4):33–39. [Quartus 2016] Quartus (2016). Altera. quartus ii handbook version 13.1 - volume

3. http://www.altera.com/literature/hb/qts/qts_qii5v3.pdf. Acessado em 14 de fevereiro de 2016.

[Singh et al. 2000] Singh, H., Lee, M.-H., Lu, G., Kurdahi, F., Bagherzadeh, N., and Cha-ves Filho, E. (2000). Morphosys: an integrated reconfigurable system for data-parallel and computation-intensive applications. Computers, IEEE Transactions on, 49(5):465–481.