CriptoCore: Projeto, validação e prototipação de um IP

(1)

Carlos Rodrigo Tofoli Fernandes

CriptoCore: Projeto, valida¸

c˜

ao e

prototipa¸

c˜

ao de um IP

Florian´opolis – SC Novembro / 2005

(2)

Carlos Rodrigo Tofoli Fernandes

CriptoCore: Projeto, valida¸

c˜

ao e

prototipa¸

c˜

ao de um IP

Orientador:

Prof. Dr. Luiz Cl´

audio dos Santos

Bacharelado em Ciências da Computação Departamento de Informática e Estat´ıstica

Centro Tecnol´ogico

Universidade Federal de Santa Catarina

Florian´opolis – SC Novembro / 2005

(3)

“I have always wished for my computer to be as easy to use as my telephone; my wish has come true because I can no longer figure out how to use my telephone.” Bjarne Stroustrup

(4)

Resumo

O crescimento dos SoCs foi o resultado de dois fatores: a crescente oferta de hardware amparada pela lei de Moore e a demanda de aplica¸cões industriais cada vez mais comple-xas, especialmente nos dom´ınios de eletrodomésticos e telecomunica¸cões. Projeto baseado em plataforma é uma resposta metodológica para os altos custos no desenvolvimento de sistemas digitais com as tecnologias contemporâneas. Referência arquitetural, reuso de IP e ESL são mecanismos chave para tratar com a complexidade e time-to-market. A necessidade de ganhos de produtividade pede por modelos de IP em diferentes n´ıveis de abstra¸cão. Este trabalho descreve o projeto, a valida¸cão e a prototipa¸cão de um IP em três n´ıveis de abstra¸cão distintos.. O IP, chamado Criptocore, implementa a exponencia¸cão modular, uma opera¸cão crucial usada em importantes aplica¸cões criptográficas. Resulta-dos experimentais evidenciam a valida¸cão apropriada e permitem uma análise quantitativa do ganho de produtividade.

(5)

Abstract

The rise of SoCs was the result of two interacting factors: the increasing supply of hardware ruled by Moore?s Law and the demand of complex industrial applications, especially in the domains of consumer electronics and telecommunications. Platform-based design is the methodological response to the high costs of non-recurring engineering associated with contemporary technologies. Architectural reference, IP reuse and ESL are key mechanisms to cope with complexity and time-to-market. The need for productivity gains asks for IP models in different levels of abstraction. This paper describes the design, validation and prototyping of an IP in three distinct abstraction levels. The IP, called CriptoCore, implements modular exponentiation, a crucial operation used in important cryptographic applications. Experimental results give evidence of proper validation and allow the quantitative assessment of productivity gain.

(6)

Sum´

ario

Lista de Figuras

1 Introdu¸c˜ao p. 8

2 Trabalhos correlatos p. 10

3 Descri¸c˜ao do Criptocore p. 11

3.1 Descri¸cão executável . . . p. 12 3.2 Descri¸cão funcional . . . p. 13 3.3 Descri¸cão RT . . . p. 13 3.3.1 Tradu¸cão para VHDL . . . p. 13 3.3.1.1 Driver de acesso ao IP . . . p. 14 3.4 Valida¸cão . . . p. 15 4 Prototipa¸cão p. 17 4.1 A plataforma de prototipa¸cão . . . p. 17 4.2 Driver de acesso ao IP . . . p. 17 4.3 Restri¸cões impostas pela plataforma-alvo . . . p. 17

5 Resultados experimentais p. 19

5.1 Experimentos através de simula¸cão . . . p. 19 5.1.1 Configura¸cão . . . p. 19 5.1.2 Procedimento . . . p. 19 5.1.3 Resultados . . . p. 19

(7)

5.2 Experimentos com o prot´otipo . . . p. 21 5.2.1 Configura¸c˜ao . . . p. 21 5.2.2 Procedimento . . . p. 21 5.2.3 Resultados . . . p. 21

6 Conclus˜oes e perspectivas p. 22

Referˆencias p. 23

Anexo p. 24

Anexo A - C´odigo fonte. . . p. 24 Anexo B - Artigo . . . p. 36

(8)

Lista de Figuras

1 Algoritmo Standard Interleaved . . . p. 12 2 Algoritmo RL Binary Method . . . p. 12 3 Arquitetura da multiplica¸cão modular . . . p. 14 4 Arquitetura da exponencia¸cão modular . . . p. 15 5 Estrutura dos módulos . . . p. 15 6 Complexidade das descri¸cões . . . p. 20 7 Tempos de simula¸cão/execu¸cão . . . p. 20

(9)

8

1 Introdu¸

c˜

ao

Cada vez mais é poss´ıvel colocar um número maior de componentes dentro de uma mesma pastilha de sil´ıcio. Com isso a complexidade dos sistemas criados também aumen-tam. Juntando isto a pressão de se colocar o produto no mercado em um tempo cada vez menor, construir um sistema por completo se torna inviável. É neste contexto que surge as atuais linguagem de descri¸cão de sistemas, onde o reuso de componentes é mandatório. O reuso de componentes é feito através dos cores IP (módulos de propriedade inte-lectual), que nada mais são do que módulos que implementam uma certa funcionalidade. Assim para se construir um sistema basta juntar os cores IP que implementam as funci-onalidades desejadas.

Para auxiliar na constru¸cão desses sistemas surgiram linguagens capazes de descrever sistemas digitais. As primeiras com um n´ıvel de detalhe que possibilita a s´ıntese das descri¸cões em hardware, mas a medida que os sistemas foram aumentado sua complexidade novas linguagens foram surgindo para suprir a necessidade de descri¸cão dos sistemas em um n´ıvel mais alto.

Com os vários n´ıveis de descri¸cão poss´ıveis surgiram metodologias de constru¸cão de sistemas cujo objetivo é definir quais n´ıveis devem ser descritos primeiro e como tran-sicionar entre as descri¸cões para que seja poss´ıvel construir o sistema de maneira mais eficiente.

Neste contexto este trabalho tem como objetivo construir um IP e sintetizá-lo em lógica programável (FPGA). Para isso usará uma metodologia top-down[1], que consiste em descrever a funcionalidade do IP em um n´ıvel de abstra¸cão alto e através de refina-mentos sucessivos descrever o IP em n´ıveis de abstra¸cão cada vez mais baixos até que se obtenha uma descri¸cão sintetizável. Neste trabalho os seguintes n´ıveis de descri¸cão serão usados:

(10)

1 Introdu¸c˜ao 9

• Descri¸c˜ao funcional • Descri¸c˜ao RT

Para valida¸cão do IP, será aplicado um mesmo conjunto de est´ımulos a todas as descri¸cões e o resultado obtido será comparado a descri¸cão de n´ıvel superior. Esses mesmos est´ımulos usados na valida¸cão das descri¸cões será aplicado no protótipo para validá-lo.

(11)

10

2 Trabalhos correlatos

Vários IPs para aplica¸cões criptográficas são reportados na literatura [2–4]. A maior parte dos IPs implementa algoritmos criptográficos simétricos, tais como o DES [3] e o AES [4]. Há IPs que implementam opera¸cões freqüentemente utilizadas em algoritmos criptográficos, como a exponencia¸cão modular [2, 5].

Para realizar a exponencia¸cão modular, todos os IPs encontrados pelos autores utili-zam o algoritmo Left-to-Right binary [2]. Por sua vez, para realizar a multiplica¸cão mo-dular (opera¸cão primitiva utilizada pela exponencia¸cão), a literatura reporta uma gama bastante extensa de algoritmos. Dentre os mais usados estão Interleaved Standard Multi-plication [2], o Optimized Interleaved Standard MultiMulti-plication [5] e varia¸cões do algoritmo de Montgomery [6].

No entanto, em sua grande maioria, os IPs são descritos apenas no n´ıvel RT e poucos são disponibilizados ao dom´ınio público.

A carência de IPs de dom´ınio público descritos em vários n´ıveis de abstra¸cão motivou a proposta de repositórios orientados ao desenvolvimento de plataformas, tais como os dos projetos BrazilIP[7] e ArchC[8] (especialmente em sua versão 2.0).

(12)

11

3 Descri¸

c˜

ao do Criptocore

O Criptocore realiza a opera¸cão de exponencia¸cão modular (C = Xe _{mod M ),} freqüentemente utilizada em aplica¸cões criptográficas, tais como encripta¸cão RSA, al-goritmo de Diffie-Hellman e assinatura digital.

O IP Terá 3 entradas (Base, Expoente e M odulo) e uma sa´ıda (Resultado), todas com 32 bits. A representa¸cão interna dos números também será de 32 bits.

Para realizar a exponencia¸cão modular, escolheu-se o algoritmo Left-to-Right binary[9], por ser o mais adequado à manipula¸cão de números inteiros representados com um grande número de bits.

A Figura 1 descreve o algoritmo escolhido, onde P representa uma estimativa parcial da exponencia¸cão modular a ser refinada iterativamente. Dada a representa¸cão binária do expoente e, seus bits são visitados do mais significativo (MSB) para o menos signi-ficativo (LSB), de forma que a estimativa corrente é elevada ao quadrado para cada bit visitado. A multiplica¸cão modular é invocada somente se o bit visitado for “1”. Para re-alizar a multiplica¸cão modular no passo 2a da Figura 1 escolheu-se o algoritmo Standard Interleaved [6], por razões de praticidade.

A Figura 2 descreve o algoritmo escolhido, onde P representa uma estimativa parcial do produto modular. Dada a representa¸cão binária da base X, seus bits são visitados do MSB para o LSB, de forma que uma nova estimativa P é obtida a cada bit Xi visitado. Para obter uma estimativa parcial, a idéia é intercalar multiplica¸cão e módulo de maneira que os resultados intermediários sejam mantidos tão pequenos quanto poss´ıvel. O passo 3 garante o correto alinhamento dos produtos parciais: o produto acumulado na itera¸cão anterior é o dobro do produto parcial calculado na itera¸cão atual, pois os bits são visitados do MSB para o LSB. O passo 4 realiza um produto parcial e o acumula. Os passos 5 e 6 aplicam a opera¸cão de módulo ao produto acumulado, dele subtraindo o valor M até se obter P < M .

(13)

con-3.1 Descri¸c˜ao execut´avel 12 Entrada: X, M, Y com 0 =< X, Y, M Sa´ıda: P = X ∗ Y M od M Xi : iesimobitdeX (1) P := 0 (2) F or n − 1 downto 0 do { (3) P := 2 ∗ P (4) I := Xi∗ Y (5) P := P + I (6) W hile (P >= M ) (7) P := P − M } (8)

Figura 1: Algoritmo Standard Interleaved Entrada: X, e, M

Saida: M = Xe M od M en: en´esimo bit de e (1) P := 1

(2) F or n − 1 downto 0 do { (2a) P := P ∗ P

(2b) if en= 1 then P := P ∗ X mod M }

Figura 2: Algoritmo RL Binary Method

siste em descrever a funcionalidade do IP em um alto n´ıvel de abstra¸cão e, através de refinamentos sucessivos, descrever o IP em n´ıveis de abstra¸cão cada vez mais baixos até que se obtenha uma descri¸cão sintetizável. Neste trabalho, são usados os seguintes n´ıveis de descri¸cão: algor´ıtmico, funcional com precisão de bits e RT.

3.1 Descri¸

c˜

ao execut´

avel

Neste n´ıvel o IP tem seu algoritmo implementado em alto n´ıvel. A comunica¸cão entre os módulos e a representa¸cão interna dos números ainda tem número de bits arbitrários. As entradas e sa´ıdas deste n´ıvel são gerenciadas pelo SystemC[10] através de canais do tipo FIFO. Sempre que é detectado a chegada de dados nas entradas, uma thread é disparada e executa o algoritmo da exponencia¸cão modular. Após isso o resultado é disponibilizado na sa´ıda.

(14)

3.2 Descri¸c˜ao funcional 13

3.2 Descri¸

c˜

ao funcional

Neste n´ıvel o módulo que representa o hardware já passa a ser bit accurate, ou seja, a representa¸cão dos dados será feita com o número de bits que serão usados no sistema real. Não existe nenhuma mudan¸ca na estrutura, apenas o algoritmo precisou ser adaptado a nova representa¸cão numérica.

3.3 Descri¸

c˜

ao RT

No n´ıvel RT, a estrutura do IP é descrita em termos de seus componentes básicos (tais como somador, registradores, deslocadores, etc.), os quais realizam o comportamento do algoritmo, dirigidos por uma unidade de controle. Esbo¸cos dos principais blocos do IP são apresentados nas Figuras 3 e 4.

A Figura 3 mostra os principais componentes do multiplicador modular. Vale ressaltar que o shifter implementa o passo 3 do algoritmo da Figura 1, enquanto o somador ´e usado para implementar os passos 5 e 7. O registrador armazena as estimativas parciais P da multiplica¸c˜ao modular.

Por sua vez, a Figura 4 ilustra os principais componentes do exponenciador modular. O bloco ModMul encapsula o circuito da Figura 3, enquanto o registrador armazena as estimativas parciais P da exponencia¸c˜ao modular.

Ao contrário das descri¸cões anteriores, a comunica¸cão entre os módulos é modelada através de sinais em SystemC. Por isso, novos canais foram criados para que a unidade de controle conseguisse gerenciar a comunica¸cão entre módulos.

Nesta fase de projeto, percebeu-se a necessidade de criar duas entradas e uma nova sa´ıda na interface: uma entrada para comandar o in´ıcio de uma opera¸c˜ao no IP, uma entrada para o clock e uma sa´ıda para sinalizar a disponibilidade do resultado.

3.3.1 Tradu¸

c˜

ao para VHDL

Por não dispor de uma ferramenta que sintetize SystemC[10] RTL, uma tradu¸cão para VHDL teve que ser feita. Conceitualmente não existem diferen¸cas entre as duas descri¸cões, portanto todos os canais e módulos são mantidos inalterados. Apenas mudan¸cas relativas a linguagem foi necessária neste estágio.

(15)

3.3 Descri¸c˜ao RT 14

Figura 3: Arquitetura da multiplica¸c˜ao modular

I[11]), e o acesso ao Criptocore é feito através da CPU. Para isso teve que ser criado um wrapper para o IP de maneira que ele pudesse entender o protocolo AVALON[12] (protocolo de comunica¸cão usado pelo barramento do NIOS I).

3.3.1.1 Driver de acesso ao IP

Um driver de acesso ao IP foi constru´ıdo para facilitar o acesso através da CPU. Como o IP está conectado ao barramento do NIOS, o driver simplesmente cria ponteiros para o endere¸co no barramento em que o Criptocore foi conectado. Abaixo podemos ver os métodos dispon´ıveis para fazer o acesso ao IP:

• init(int x, int y, int m) Inicia o IP com os valores passados como parâmetro. • isReady() Retorna 1 quando o resultado já está dispon´ıvel na sa´ıda.

(16)

3.4 Valida¸c˜ao 15

Figura 4: Arquitetura da exponencia¸c˜ao modular

Após iniciar o Criptocore é preciso uma espera ocupada, verificando se o valor do resultado já está dispon´ıvel, para então pegá-lo.

3.4 Valida¸

c˜

ao

Dois módulos adicionais foram criados para fazer a valida¸cão do IP. O módulo STIM-GEN que lê valores em um arquivo e os repassa ao Criptocore e o módulo MONITOR que salva os resultados gerados pelo IP num arquivo. A estrutura de valida¸cão pode ser vista da figura 5.

Figura 5: Estrutura dos m´odulos

A descri¸cão executável é a implementa¸cão em alto n´ıvel do algoritmo que implementa a funcionalidade do IP. Partimos com a hipótese da corretude desde n´ıvel para poder

(17)

3.4 Valida¸c˜ao 16

validar os demais. Um vetor de est´ımulos é aplicado ao modelo e seus resultados serviram de referência para a descri¸cão de n´ıvel inferior.

A partir da descri¸cão funcional, cada descri¸cão é submetida a um mesmo vetor de est´ımulos e seus resultados comparados com a descri¸cão de n´ıvel superior. Uma vez que o vetor de resultados é igual ao n´ıvel superior a descri¸cão é considerada válida. Os resultados produzidos pelo IP Criptocore conferem em todos os n´ıveis de descri¸cão, sendo assim validado.

(18)

17

4 Prototipa¸

c˜

ao

4.1 A plataforma de prototipa¸

c˜

ao

A plataforma de que se dispunha para prototipa¸cão (veja Se¸cão 5.2.1) permite o uso de um softcore, a CPU NIOS I, e a conexão de IPs é feita através do barramento AVALON. Para permitir a intera¸cão com a CPU, um wrapper foi criado para o Criptocore, compatibilizando-o com o protocolo daquele barramento.

4.2 Driver de acesso ao IP

Um driver de acesso ao Criptocore foi constru´ıdo para viabilizar sua intera¸cão com a CPU. Como o IP está diretamente conectado ao barramento, o driver consiste essenci-almente na cria¸cão de ponteiros que representam o endere¸co associado ao Criptocore no barramento. O driver possui três métodos de acesso ao IP:

• init(int x, int y, int m): Inicia o IP com os valores passados como parâmetro. • isReady(): Retorna 1 quando o resultado já está dispon´ıvel na sa´ıda.

• getOutput(): Retorna o resultado da opera¸c˜ao.

Após a inicializa¸cão do Criptocore, são necessários alguns ciclos de busy waiting, enquanto aguarda-se a disponibilidade do resultado, para então capturá-lo.

4.3 Restri¸

c˜

oes impostas pela plataforma-alvo

As descri¸cões do Criptocore nos três n´ıveis de abstra¸cão adotados permitem a repre-senta¸cão de valores com um número genérico n de bits. Preferencialmente, o número de bits deveria ser grande (e.g. n = 1024 bits) para uso em aplica¸cões reais. Entretanto,

(19)

4.3 Restri¸c˜oes impostas pela plataforma-alvo 18

considerando a exigüidade de elementos lógicos na placa disponibilizada como plataforma-alvo, a representa¸cão adotada nas descri¸cões restringe-se a n=32 bits, inclusive as entradas e sa´ıdas do IP. Note que esta é uma restri¸cão imposta exclusivamente para fins de proto-tipagem, sem perda da generalidade das descri¸cões do Criptocore.

(20)

19

5 Resultados experimentais

5.1 Experimentos atrav´

es de simula¸

c˜

ao

5.1.1 Configura¸

c˜

ao

Todos os experimentos foram executados em um notebook Toshiba com processador Intel 1.7GHz, sob o sistema operacional Gentoo Linux (kernel-2.6.12). Para modelagem e compila¸c˜ao utilizaram-se SystemC-2.0.1[10] e GCC-3.3.5[13]. As simula¸c˜oes VHDL foram feitas na ferramenta Quartus-4.2[14].

5.1.2 Procedimento

Foi gerado um arquivo com 3 milhões de números aleatórios de 32 bits. Estes números servem de entrada para o módulo de est´ımulo, que irá atribuir o primeiro número do arquivo a X, o segundo a Y e o terceiro a M até que se esgotem os números do arquivo. Com isso o módulo que implementa o IP será estimulado 1 milhão de vezes. O IP então envia o resultado a um terceiro módulo que salva o resultado em um arquivo diferente do que contém os est´ımulos.

Uma vez com o arquivo de resultados, ele é confrontado contra o arquivo de resultados da descri¸cão de n´ıvel superior até que não ajam diferen¸cas.

5.1.3 Resultados

Os resultados experimentais são ilustrados nas Figuras 6 e 7. A Figura 6 ilustra a complexidade das descri¸cões em SystemC[10], expressa em número de linhas, enquanto a Figura 7 mostra os tempos de simula¸cão das descri¸cões em SystemC[10] e o tempo de execu¸cão no protótipo. Como esperado, os tempos de simula¸cão aumentam à medida que o n´ıvel de abstra¸cão das descri¸cões diminui. Note que a simula¸cão funcional é cerca de 56 vezes mais lenta que a algor´ıtmica, embora não haja diferen¸ca sens´ıvel em sua

(21)

5.1 Experimentos atrav´es de simula¸c˜ao 20

Figura 6: Complexidade das descri¸c˜oes

complexidade. Isto se deve à utiliza¸cão do tipo textitfixed point de SystemC[10] para modelar os efeitos de precisão finita. Note que a simula¸cão no n´ıvel RT é cerca de 5 vezes mais lenta do que a simula¸cão no n´ıvel funcional, dando uma evidência quantitativa do ganho de produtividade potencial ao se trabalhar em n´ıveis mais altos de abstra¸cão.

(22)

5.2 Experimentos com o prot´otipo 21

5.2 Experimentos com o prot´

otipo

5.2.1 Configura¸

c˜

ao

O Criptocore foi implementado em uma plataforma de prototipa¸cão da Altera, modelo APEX20K[15]. A freqüência de relógio utilizada foi de 33MHz. Os dados de est´ımulo foram enviados à CPU NIOS[11] através da porta serial da plataforma de prototipa¸cão.

5.2.2 Procedimento

Devido a uma dificuldade técnica de controlabilidade, não foi poss´ıvel capturar o tempo do protótipo com exatamente os mesmo est´ımulos utilizados nas simula¸cões. O tempo que aparece na Figura 7 é o tempo que o protótipo demorou para executar o mesmo número de opera¸cões do arquivo de est´ımulos usado nas simula¸cões das descri¸cões.

5.2.3 Resultados

Conforme ilustra a Figura 7, o tempo de execu¸cão no protótipo é cerca de 2,5 vezes maior que o tempo de simula¸cão da descri¸cão algor´ıtmica. Isso se deve ao fato de tal descri¸cão ser bastante abstrata e executar numa máquina hospedeira operando a uma freqüência muito mais alta que a da plataforma-alvo.

(23)

22

6 Conclus˜

oes e perspectivas

Os resultados experimentais dão claras evidências da corretude e da robustez do IP projetado, cuja funcionalidade foi validada submetendo-o a um milhão de est´ımulos gera-dos aleatoriamente.

Ademais, os resultados permitem estimar um limite inferior para o ganho de produ-tividade potencial obtido com a utiliza¸cão de n´ıveis mais abstratos de modelagem. Por exemplo, para o Criptocore, o ganho de produtividade da simula¸cão entre os n´ıveis fun-cional e RT é cerca de 5. O ganho de produtividade total é provavelmente bem maior, considerando-se a maior dificuldade de codifica¸cão e depura¸cão da descri¸cão RT.

O Criptocore encontra-se validado e pretende-se disponibilizá-lo ao dom´ınio público no futuro próximo. Para isso, será preciso submetê-lo a um processo de certifica¸cão preliminar à sua integra¸cão em repositório de dom´ınio público, como por exemplo o do Projeto BrazilIP[7] ou o do Projeto ArchC[8], versão 2.0.

A prototipagem do Criptocore concorreu no ˆambito da Segunda Olimp´ıada Brasileira da Altera, tendo obtido a terceira coloca¸c˜ao. Um artigo[16] escrito a partir deste trabalho foi publicado em [17]

(24)

23

Referˆ

encias

1 WOLF, W. H. Computers as components: principles of embedded computing system design. [S.l.]: Morgan Kaufmann, 2001.

2 KO¸c C¸ etin K. RSA Hardware Implementation. [S.l.], 1995.

3 HOORNAERT, F.; GOUBERT, J.; DESMEDT, Y. Efficient hardware implementation of the des. In: Advances in Cryptology: Proceedings of CRYPTO 84. [S.l.: s.n.].

4 ELBIRT, A. J. et al. An FPGA implementation and performance evaluation of the AES block cipher candidate algorithm finalists. In: AES Candidate Conference. [s.n.], 2000. p. 13–27. Dispon´ıvel em: <citeseer.ist.psu.edu/elbirt99fpga.html>.

5 BUNIMOV, V.; SCHIMMLER, M. In: . [S.l.: s.n.].

6 AMANOR, D. N. Efficient Hardware Architectures for Modular Multiplication. Disserta¸c˜ao (Mestrado) — The University of Applied Sciences Offenburg, Germany, 2005.

7 BRAZILIP. Dispon´ıvel em: <http://www.brazilip.org.br>.

8 THE ArchC Architectural Description Language. Dispon´ıvel em: <http://www.archc.org>.

9 KNUTH, D. E. The Art of Computer Programming, Volume 2 / Seminumerical Algorithms. [S.l.]: AAAddison-Wesley publishing company, 1969.

10 SYSTEMC Community. SystemC Home Page. Dispon´ıvel em: <http://www.systemc.org>.

11 CORPORATION, A. NIOS I manual. [S.l.], March 2004.

12 CORPORATION, A. Avalon Bus Specification Reference Manual. [S.l.], March 2004. 13 GNU. Dispon´ıvel em: <http://www.gnu.org>.

14 ALTERA Corporation. Dispon´ıvel em: <http://www.altera.com>.

15 CORPORATION, A. APEX 20K Programmable Logic Device Family Data Sheet. [S.l.], March 2004.

16 FERNANDES, C. R. T. et al. Criptocore: projeto, valida¸cão e prototipa¸cão de um ip para aplica¸cões criptográficas. In: XII Workshop IBERSHIP. [S.l.: s.n.], 2006. v. 12. 17 XII Workshop IBERSHIP.

(25)

24

Anexo

Anexo A - C´

odigo fonte.

/∗ ∗ ∗ main . cpp ∗ ∗ D e s c r i ¸c ˜a o a l g o r´ıt m i c a . ∗/ #include <s y s t e m c . h> #include ” s t i m g e n . h” #include ”modexp . h” #include ” m o n i t o r . h” #include i n t s c m a i n ( i n t a r g c , char∗ a r g v [ ] ) { s c f i f o < unsigned i n t > X ( 1 ) ; s c f i f o < unsigned i n t > Y ( 1 ) ; s c f i f o < unsigned i n t > M( 1 ) ; s c f i f o < unsigned i n t > Q( 1 ) ;

MODEXP modexp ( ”modexp” ) ; modexp . x i n (X ) ; modexp . y i n (Y ) ; modexp . m in (M) ; modexp . q o u t (Q) ; STIMGEN s t i m g e n ( ” s t i m g e n ” ) ; s t i m g e n . x o u t (X ) ; s t i m g e n . y o u t (Y ) ;

(26)

6.0 Anexo A - C´odigo fonte. 25 s t i m g e n . m out (M) ; MONITOR m o n i t o r ( ” m o n i t o r ” ) ; m o n i t o r . q i n (Q) ; t i m e t t b u f f e r = t i m e (NULL ) ; s c s t a r t ( − 1 ) ; c o u t << ” t i m e : ”<< t i m e (NULL) − t b u f f e r << e n d l ; return 0 ; } /∗ ∗ ∗ s t i m g e n . h ∗ ∗ D e s c r i ¸c ˜a o a l g o r´ıt m i c a . ∗/ #i f n d e f STIMGEN H #define STIMGEN H #define SIZE ( i n t ) 1000000 #include <s y s t e m c . h> SC MODULE(STIMGEN) { s c f i f o o u t < unsigned i n t > x o u t ; s c f i f o o u t < unsigned i n t > y o u t ; s c f i f o o u t < unsigned i n t > m out ; void e x e c u t e ( ) ; SC CTOR(STIMGEN) {

(27)

6.0 Anexo A - C´odigo fonte. 26 SC THREAD( e x e c u t e ) ; } } ; #endif /∗ ∗ ∗ s t i n g e m . cpp ∗ ∗ D e s c r i ¸c ˜a o a l g o r´ıt m i c a . ∗/ #include ” s t i m g e n . h” #include <f s t r e a m . h> #include void STIMGEN : : e x e c u t e ( ) { i f s t r e a m t e s t B e n c h ( ” t e s t b e n c h . num” , i o s : : i n ) ; unsigned i n t x , y , m; f o r ( i n t i = 0 ; i < SIZE ; i ++) { t e s t B e n c h >> x ; t e s t B e n c h >> y ; t e s t B e n c h >> m; x o u t . w r i t e ( x ) ; y o u t . w r i t e ( y ) ; m out . w r i t e (m) ; } t e s t B e n c h . c l o s e ( ) ; } /∗ ∗ ∗ modexp . h ∗

(28)

6.0 Anexo A - C´odigo fonte. 27 ∗ D e s c r i ¸c ˜a o a l g o r´ıt m i c a . ∗/ #i f n d e f MODEXP H #define MODEXP H #include <s y s t e m c . h> SC MODULE(MODEXP) { // I n p u t d a t a ( x ˆ y mod m) s c f i f o i n < unsigned i n t > x i n ; s c f i f o i n < unsigned i n t > y i n ; s c f i f o i n < unsigned i n t > m in ; // Output d a t a s c f i f o o u t < unsigned i n t > q o u t ; void e x e c u t e ( ) ;

i n t modMul ( unsigned i n t x , unsigned i n t y , unsigned i n t m) ; SC CTOR(MODEXP) { SC THREAD( e x e c u t e ) ; s e n s i t i v e << x i n . d a t a w r i t t e n ( ) ; s e n s i t i v e << y i n . d a t a w r i t t e n ( ) ; s e n s i t i v e << m in . d a t a w r i t t e n ( ) ; } } ; #endif /∗ ∗ ∗ modexp . cpp ∗ ∗ D e s c r i ¸c ˜a o a l g o r´ıt m i c a . ∗/ #include ”modexp . h” #include

(29)

6.0 Anexo A - C´odigo fonte. 28 void MODEXP : : e x e c u t e ( ) { while ( true ) { i n t mask = 1 ; unsigned i n t r = 1 ; unsigned i n t x = x i n . r e a d ( ) ; unsigned i n t y = y i n . r e a d ( ) ; unsigned i n t m = m in . r e a d ( ) ; f o r ( i n t i = ( s i z e o f ( i n t ) ∗ 8 ) − 1 ; i >= 0 ; i −−) { r = modMul ( r , r ,m) ; i f ( ( ( y >> i ) & mask ) == 1 ) { r = modMul ( r , x ,m) ; } } q o u t . w r i t e ( r ) ; w a i t ( ) ; } } i n t MODEXP

: : modMul ( unsigned i n t x , unsigned i n t y , unsigned i n t m) { i n t mask = 1 ; unsigned i n t p = 0 ; unsigned i n t l ; f o r ( i n t i = ( s i z e o f ( i n t ) ∗ 8 ) −1; i >= 0 ; i −−) { p = 2∗p ; l = ( ( x >> i ) & mask ) ∗ y ; p = p + l ;

(30)

6.0 Anexo A - C´odigo fonte. 29 while ( p >= m) { p = p − m; } } return p ; } /∗ ∗ ∗ monitor . h ∗ ∗ D e s c r i ¸c ˜a o a l g o r´ıt m i c a . ∗/ #i f n d e f MONITOR H #define MONITOR H #include <s y s t e m c . h> SC MODULE(MONITOR) { s c f i f o i n < unsigned i n t > q i n ; void e x e c u t e ( ) ; SC CTOR(MONITOR) { SC THREAD( e x e c u t e ) ; s e n s i t i v e << q i n . d a t a w r i t t e n ( ) ; } } ; #endif /∗ ∗ ∗ monitor . cpp

(31)

6.0 Anexo A - Código fonte. 30 ∗ ∗ D e s c r i ¸c ã o a l g o r´ıt m i c a . ∗/ #include ” m o n i t o r . h” #include <f s t r e a m > void MONITOR : : e x e c u t e ( ) { o f s t r e a m f i l e ( ” m o d e x p r e s u l t s . t x t ” ) ; while ( true ) { f i l e << ” r e s u l t : ” << q i n . r e a d ( ) << e n d l ; } } /∗ ∗ ∗ main . cpp ∗ ∗ D e s c r i ¸c ã o f u n c i o n a l ∗/ #include <s y s t e m c . h> #include ” s t i m g e n . h” #include ”modexp . h” #include ” m o n i t o r . h” #include i n t s c m a i n ( i n t a r g c , char∗ a r g v [ ] ) { s c f i f o X ( 1 ) ; s c f i f o Y ( 1 ) ; s c f i f o M( 1 ) ; s c f i f o Q( 1 ) ; STIMGEN s t i m g e n ( ” s t i m g e n ” ) ; s t i m g e n . x o u t (X ) ;

(32)

6.0 Anexo A - C´odigo fonte. 31

s t i m g e n . y o u t (Y ) ; s t i m g e n . m out (M) ;

MODEXP modexp ( ”modexp” ) ; modexp . x i n (X ) ; modexp . y i n (Y ) ; modexp . m in (M) ; modexp . q o u t (Q) ; MONITOR m o n i t o r ( ” m o n i t o r ” ) ; m o n i t o r . q i n (Q) ; t i m e t t b u f f e r = t i m e (NULL ) ; s c s t a r t ( − 1 ) ; c o u t << ” t i m e : ”<< t i m e (NULL) − t b u f f e r << e n d l ; return 0 ; } /∗ ∗ ∗ s t i m g e n . h ∗ ∗ D e s c r i ¸c ˜a o f u n c i o n a l ∗/ #i f n d e f STIMGEN H #define STIMGEN H #define SIZE ( i n t ) 3 #include <s y s t e m c . h> typedef s c u f i x e d < 3 2 , 3 2 , SC TRN , SC WRAP, 0 > u f i x e d ; SC MODULE(STIMGEN) {

(33)

6.0 Anexo A - C´odigo fonte. 32 s c f i f o o u t x o u t ; s c f i f o o u t y o u t ; s c f i f o o u t m out ; void e x e c u t e ( ) ; SC CTOR(STIMGEN) { SC THREAD( e x e c u t e ) ; } } ; #endif /∗ ∗ ∗ s t i m g e n . cpp ∗ ∗ D e s c r i ¸c ˜a o f u n c i o n a l ∗/ #include ” s t i m g e n . h” #include <f s t r e a m . h> #include void STIMGEN : : e x e c u t e ( ) { i f s t r e a m t e s t B e n c h ( ” t e s t b e n c h . num” , i o s : : i n ) ; unsigned i n t x , y , m; f o r ( i n t i = 0 ; i < SIZE ; i ++) { t e s t B e n c h >> x ; t e s t B e n c h >> y ; t e s t B e n c h >> m; x o u t . w r i t e ( x ) ;

(34)

6.0 Anexo A - C´odigo fonte. 33 y o u t . w r i t e ( y ) ; m out . w r i t e (m) ; } t e s t B e n c h . c l o s e ( ) ; } /∗ ∗ ∗ modexp . h ∗ ∗ D e s c r i ¸c ˜a o f u n c i o n a l ∗/ #i f n d e f MODEXP H #define MODEXP H #include <s y s t e m c . h> typedef s c u f i x e d < 3 2 , 3 2 , SC TRN , SC WRAP, 0 > u f i x e d ; SC MODULE(MODEXP) { // I n p u t d a t a ( x ˆ y mod m) s c f i f o i n x i n ; s c f i f o i n y i n ; s c f i f o i n m in ; // Output d a t a s c f i f o o u t q o u t ; void e x e c u t e ( ) ; u f i x e d modMul ( u f i x e d x , u f i x e d y , u f i x e d m) ; SC CTOR(MODEXP) { SC THREAD( e x e c u t e ) ;

(35)

6.0 Anexo A - C´odigo fonte. 34 s e n s i t i v e << x i n . d a t a w r i t t e n ( ) ; s e n s i t i v e << y i n . d a t a w r i t t e n ( ) ; s e n s i t i v e << m in . d a t a w r i t t e n ( ) ; } } ; #endif /∗ ∗ ∗ modexp . cpp ∗ ∗ D e s c r i ¸c ˜a o f u n c i o n a l ∗/ #include ”modexp . h” void MODEXP: : e x e c u t e ( ) { while ( true ) { u f i x e d r = 1 ; u f i x e d x = x i n . r e a d ( ) ; u f i x e d y = y i n . r e a d ( ) ; u f i x e d m = m in . r e a d ( ) ; f o r ( i n t i = 32 −1; i >= 0 ; i −−) { r = modMul ( r , r ,m) ; i f ( y [ i ] == 1 ) { r = modMul ( r , x ,m) ; } } q o u t . w r i t e ( r ) ; w a i t ( ) ; } }

(36)

6.0 Anexo A - C´odigo fonte. 35 u f i x e d MODEXP: : modMul ( u f i x e d x , u f i x e d y , u f i x e d m) { u f i x e d p = 0 ; u f i x e d l ; u f i x e d two = 2 ; f o r ( i n t i = 32 −1; i >= 0 ; i −−) { p = two ∗p ; l = x [ i ] ∗ y ; p = p + l ; while ( p >= m) { p = p − m; } } return p ; } /∗ ∗ ∗ monitor . h ∗ ∗ D e s c r i ¸c ˜a o f u n c i o n a l ∗/ #i f n d e f MONITOR H #define MONITOR H #include <s y s t e m c . h> typedef s c u f i x e d < 3 2 , 3 2 , SC TRN , SC WRAP, 0 > u f i x e d ; SC MODULE(MONITOR) { s c f i f o i n q i n ;

(37)

6.0 Anexo B - Artigo 36 void e x e c u t e ( ) ; SC CTOR(MONITOR) { SC THREAD( e x e c u t e ) ; s e n s i t i v e << q i n . d a t a w r i t t e n ( ) ; } } ; #endif /∗ ∗ ∗ monitor . cpp ∗ ∗ D e s c r i ¸c ˜a o f u n c i o n a l ∗/ #include ” m o n i t o r . h” #include <f s t r e a m > void MONITOR : : e x e c u t e ( ) { o f s t r e a m f i l e ( ” m o d e x p r e s u l t s . t x t ” ) ; while ( true ) { f i l e << ” r e s u l t : ” << q i n . r e a d ( ) << e n d l ; } }

Anexo B - Artigo

(38)

1

CRIPTOCORE: PROJETO, VALIDAÇÃO E PROTOTIPAÇÃO DE UM IP

PARA APLICAÇÕES CRIPTOGRÁFICAS

Carlos R. T. Fernandes, Gabriel R. Laureano, Luiz F. P. Santos, Luiz C. V. dos Santos

Departamento de Informática e Estatística Universidade Federal de Santa Catarina

Florianópolis, SC, Brasil

{carlosrf, laureano, penkal, santos}@inf.ufsc.br

ABSTRACT

The rise of SoCs was the result of two interacting factors: the increasing supply of hardware ruled by Moore’s Law and the demand of complex industrial applications, especially in the domains of consumer electronics and telecommunications. Platform-based design is the methodological response to the high costs of non-recurring engineering associated with contemporary technologies. Architectural reference, IP reuse and ESL are key mechanisms to cope with complexity and time-to-market. The need for productivity gains asks for IP models in different levels of abstraction. This paper describes the design, validation and prototyping of an IP in three distinct abstraction levels. The IP, called CriptoCore, implements modular exponentiation, a crucial operation used in important cryptographic applications. Experimental results give evidence of proper validation and allow the quantitative assessment of productivity gain.

1. INTRODUÇÃO

Systems-on-Chip (SoCs), que são sistemas dedicados de

hardware e software, surgiram da interação de dois fatores [1]: a crescente oferta de hardware ditada pela Lei de Moore e a demanda de aplicações cada vez mais complexas, especialmente nas áreas de eletrônica de consumo e de telecomunicações.

O projeto de SoCs baseado em plataforma [2] é uma resposta metodológica aos elevados custos de engenharia não-recorrente das tecnologias contemporâneas e consiste em uma arquitetura de referência e no reuso de blocos de propriedade intelectural (IPs).

A diminuição do ciclo de desenvolvimento de produtos eletrônicos e a pressão do time-to-market requerem ganhos de produtividade crescentes. Para isso, o projeto de SoCs deve iniciar-se em níveis de abstração cada vez mais altos. Um exemplo desta tendência na indústria de EDA (“Electronic Design Automation”) é a crescente

oferta de ferramentas em nível ESL (“Electronic System

Level”) para complemetar o fluxo de projeto

convencional, que se iniciava no nível RTL (“Register

Transfer Level”).

Assim, além dos vários requisitos impostos para garantir o reuso de IPs, faz-se necessário prover modelos de IPs em níveis mais abstratos que o RTL.

Este trabalho reporta o projeto, a validação e a prototipação de um IP em três níveis distintos de abstração. O IP denomina-se CriptoCore e implementa a exponenciação modular, uma operação crucial em importantes aplicações criptográficas.

A prototipação do CriptoCore concorreu no âmbito da Segunda Olimpíada Brasileira da Altera, tendo obtido a terceira colocação.

O restante deste artigo é organizado da seguinte forma. A Seção 2 revisa brevemente trabalhos correlatos. A Seção 3 descreve o projeto e a validação do IP, enquanto que a Seção 4 descreve sua prototipação. Os resultados experimentais são apresentados na Seção 5. A Seção 6 resume as conclusões e aponta direções para investigações futuras.

2. TRABALHOS CORRELATOS

Vários IPs para aplicações criptográficas são reportados na literatura [3, 4, 5]. A maior parte dos IPs implementa algoritmos criptográficos simétricos, tais como o DES [4] e o AES [5]. Há IPs que implementam operações freqüentemente utilizadas em algoritmos criptográfricos, como a exponenciação modular [3, 6].

Para realizar a exponenciação modular, todos os IPs encontrados pelos autores utilizam o algoritmo

Left-to-Right binary [3]. Por sua vez, para realizar a

multiplicação modular (operação primitiva utilizada pela exponenciação), a literatura reporta uma gama bastante extensa de algoritmos. Dentre os mais usados estão

(39)

2

Interleaved Standard Multiplication [6] e variações do

algoritmo de Montgomery [7].

No entanto, em sua grande maioria, os IPs são descritos apenas no nível RT e poucos são disponibilizados ao domínio público.

A carência de IPs de domínio público descritos em vários níveis de abstração motivou a proposta de repositórios orientados ao desenvolvimento de plataformas, tais como os dos projetos BrazilIP[8] e ArchC [9] (especialmente em sua iminente versão 2.0).

Este trabalho apresenta uma contribuição técnica na forma de um IP sintetizável, mas descrito em três diferentes níveis de abstração, a ser doado para repositórios públicos, tais como os acima citados.

3. PROJETO E VALIDAÇÃO DO IP 3.1. Metodologia de projeto

Foi adotada uma metodologia top-down [10], que consiste em descrever a funcionalidade do IP em um alto nível de abstração e, através de refinamentos sucessivos, descrever o IP em níveis de abstração cada vez mais baixos até que se obtenha uma descrição sintetizável. Neste trabalho, são usados os seguintes níveis de descrição: algorítmico, funcional com precisão de bits e RT.

3.2. Descrições do IP

O IP realiza a operação de exponenciação modular:

X

,

freqüentemente utilizada em aplicações criptográficas, tais como encriptação RSA, algoritmo de Diffie-Hellman e assinatura digital [11].

O IP possui três entradas (Base, Expoente e Módulo) e uma saída (Resultado).

Figura 1: Algoritmo para exponenciação modular

Para realizar a exponenciação modular, escolheu-se o algoritmo Left-to-Right binary, por ser o mais adequado à manipulação de números inteiros representados com um grande número de bits.

A Figura 1 descreve o algoritmo escolhido, onde P representa uma estimativa parcial da exponenciação modular a ser refinada iterativamente. Dada a representação binária do expoente e, seus bits são visitados do mais significativo (MSB) para o menos significativo (LSB), de forma que a estimativa corrente é elevada ao quadrado para cada bit visitado. A multiplicação modular é invocada somente se o bit visitado for “1”.

Para realizar a multiplicação modular no passo 2ada Figura 1 escolheu-se o algoritmo Standard Interleaved, por razões de praticidade.

A Figura 2 descreve o algoritmo escolhido, onde P representa uma estimativa parcial do produto modular. Dada a representação binária da base X, seus bits são visitados do MSB para o LSB, de forma que uma nova estimativa P é obtida a cada bit Xi visitado. Para obter

uma estimativa parcial, a idéia é intercalar multiplicação e módulo de maneira que os resultados intermediários sejam mantidos tão pequenos quanto possível. O passo 3 garante o correto alinhamento dos produtos parciais: o produto acumulado na iteração anterior é o dobro do produto parcial calculado na iteração atual, pois os bits são visitados do MSB para o LSB. O passo 4 realiza um produto parcial e o acumula. Os passos 5 e 6 aplicam a operação de módulo ao produto acumulado, dele subtraindo o valor M até se obter P < M.

Figura 2: Algoritmo para multiplicação modular

3.2.1 Descrição algorítmica

Neste nível o IP tem seu algoritmo implementado em alto nível. A comunicação entre os módulos e a representação interna dos números ainda não leva em conta efeitos de representação finita. As entradas e saídas do IP são modeladas em SystemC [12] através de canais do tipo FIFO. Sempre que é detectada a chegada de dados nas entradas, uma thread é disparada, a qual executa o

(40)

3 algoritmo da exponenciação modular. Após isso, o resultado é disponibilizado na saída.

3.2.2 Descrição funcional

Neste nível o módulo que representa o Criptocore já passa a ter precisão de bits, ou seja, a representação dos dados será feita com o número de bits que será efetivamente usado no sistema real. Essencialmente, a descrição funcional é um refinamento da descrição algorítimica em que a nova representação númerica é adotada.

3.2.3 Descrição RT

No nível RT, a estrutura do IP é descrita em termos de seus componentes básicos (tais como somador, registradores, deslocadores, etc.), os quais realizam o comportamento do algoritmo, dirigidos por uma unidade de controle. Esboços dos principais blocos do IP são apresentados nas Figuras 3 e 4.

A Figura 3 mostra os principais componentes do multiplicador modular. Vale ressaltar que o shifter implementa o passo 3 do algoritmo da Figura 2, enquanto o somador é usado para implementar os passos 5 e 7. O registrador armazena as estimativas parciais P da mutiplicação modular.

Figura 3: Estrutura do multiplicador modular

Por sua vez, a Figura 4 ilustra os principais componentes do exponenciador modular. O bloco ModMul encapsula o circuito da Figura 3, enquanto o

registrador armazena as estimativas parciais P da exponenciação modular.

Ao contrário das descrições anteriores, a comunicação entre os módulos é modelada através de sinais em SystemC. Por isso, novos canais foram criados para que a unidade de controle pudesse gerenciar a comunicação entre módulos.

Nesta fase de projeto, percebeu-se a necessidade de criar duas entradas e uma nova saída na interface: uma entrada para comandar o início de uma operação no IP, uma entrada para o clock e uma saída para sinalizar a disponibilidade do resultado.

Figura 4: Estrutura do exponenciador modular

3.2.4 Tradução para VHDL

Por não se dispor de uma ferramenta que sintetize uma descrição SystemC em nível RT, uma tradução manual para VHDL teve que ser feita. Como não há diferença conceitual entre as duas descrições, todos os canais e módulos mantiveram-se inalterados. Apenas mudanças sintáticas foram necessárias.

3.3. Metodologia de validação

Dois módulos adicionais foram criados para fazer a validação do IP. O módulo STIMGEN que lê valores em um arquivo e os repassa ao CriptoCore e o módulo MONITOR que salva os resultados gerados pelo CriptoCore num arquivo. A estrutura de validação é ilustrada na Figura 5.

(41)

4

Figura 5: Estrutura de módulos para validação

A descrição algorítmica é a implementação em alto nível do algoritmo que implementa a funcionalidade do IP. Por hipótese, assumimos a corretude da descrição algorítmica, para poder validar os demais. Um vetor de estímulos é aplicado ao modelo e seus resultados servem de referência para a descrição de nível inferior.

A partir da descrição funcional, cada descrição é submetida ao mesmo vetor de estímulos e seus resultados comparados com a descrição no nível imediatamente superior. Uma vez que o vetor de resultados é igual ao nível superior, a descrição é considerada validada. Os resultados produzidos pelo CriptoCore em todos os níveis de descrição foram exatamente os mesmos.

4. PROTOTIPAÇÃO 4.1. A plataforma de prototipação

A plataforma de que se dispunha para prototipação (veja Seção 5.2.1) permite o uso de um softcore, a CPU NIOS I, e a conexão de IPs é feita através do barramento AVALON. Para permitir a interação com a CPU, um

wrapper foi criado para o CriptCore, compatibilizando-o

com o protocolo daquele barramento.

4.2. Driver de acesso ao IP

Um driver de acesso ao CriptoCore foi construído para viabilizar sua interação com a CPU. Como o IP está diretamente conectado ao barramento, o driver consiste essencialmente na criação de ponteiros que representam o endereço associado ao CriptoCore no barramento. O

driver possui três métodos de acesso ao IP:

• init(int x, int y, int m): Inicia o IP com os valores passados como parâmetro.

• isReady(): Retorna 1 quando o resultado já está disponível na saída.

• getOutput(): Retorna o resultado da operação. Após a inicialização do CriptoCore, são necessários alguns ciclos de busy waiting, enquanto aguarda-se a disponibilidade do resultado, para então capturá-lo.

4.3. Restrições impostas pela plataforma-alvo

As descrições do CriptoCore nos três níveis de abstração adotados permitem a representação de valores com um número genérico n de bits. Preferencialmente, o número de bits deveria ser grande (e.g. n = 1024 bits) para uso em aplicações reais. Entretanto, considerando a exigüidade de

elementos lógicos na placa disponibilizada como plataforma-alvo, a representação adotada nas descrições restringe-se a n=32 bits, inclusive as entradas e saídas do IP. Note que esta é uma restrição imposta exclusivamente para fins de prototipação, sem perda da generalidade das descrições do CriptoCore.

5. RESULTADOS EXPERIMENTAIS 5.1. Experimentos através de simulação

5.1.1 Configuração

Todos os experimentos foram executados em um notebook Toshiba com processador Intel 1.7GHz, sob o sistema operacional Gentoo Linux (kernel-2.6.12). Para modelagem e compilação utilizaram-se SystemC-2.0.1 e GCC-3.3.5. As simulações VHDL foram feitas noa ferramenta Quartus-4.2.

5.1.2 Procedimento

Gerou-se um arquivo com 3 milhões de números aleatórios de 32 bits. Estes números servem de entrada para o módulo de estímulo, que irá atribuir o primeiro número do arquivo a X, o segundo a Y e o terceiro a M até que se esgotem os números do arquivo. Com isso o módulo que implementa o IP foi estimulado 1 milhão de vezes.

Figura 6: Complexidade das descrições

5.1.3 Resultados

Os resultados experimentais são ilustrados nas Figuras 6 e 7. A Figura 6 ilustra a complexidade das descrições em SystemC, expressa em número de linhas, enquanto a Figura 7 mostra os tempos de simulação das descrições em SytemC e o tempo de execução no protótipo.

Como esperado, os tempos de simulação aumentam à medida que o nível de abstração das descrições diminui.

Note que a simulação funcional é cerca de 56 vezes mais lenta que a algorítmica, embora não haja diferença sensível em sua complexidade. Isto se deve à utilização do tipo fixed point de SystemC para modelar os efeitos de

(42)

5 precisão finita. Note que a simulação no nível RT é cerca de 5 vezes mais lenta do que a simulação no nível funcional, dando uma evidência quantitativa do ganho de produtividade potencial ao se trabalhar em níveis mais altos de abstração.

Figura 4: Tempos de simulação/execução 5.2. Experimentos com o protótipo

5.2.1 Configuração

O CriptoCore foi implementado em uma plataforma de prototipação da Altera, modelo APEX20K [13]. A freqüência de relógio utilizada foi de 33MHz. Os dados de estímulo foram enviados à CPU NIOS através da porta serial da plataforma de prototipação.

5.2.2 Procedimento

Devido a uma dificuldade técnica de controlabilidade, não foi possível capturar o tempo do protótipo com exatamente os mesmo estímulos utilizados nas simulações. O tempo que aparece na Figura 7 é o tempo que o protótipo demorou para executar o mesmo número de operações do arquivo de estímulos usado nas simulações das descrições.

5.2.3 Resultados

Conforme ilustra a Figura 7, o tempo de execução no protótipo é cerca de 2,5 vezes maior que o tempo de simulação da descrição algorítmica. Isso se deve ao fato de tal descrição ser bastante abstrata e executar numa máquina hospedeira operando a uma freqüência muito mais alta que a da plataforma-alvo.

6. CONCLUSÃO E TRABALHOS FUTUROS

Os resultados experimentais dão claras evidências da corretude e da robustez do IP projetado, cuja funcionalidade foi validada submetendo-o a um milhão de estímulos gerados aleatoriamente.

Ademais, os resultados permitem estimar um limite inferior para o ganho de produtividade potencial obtido

com a utilização de níveis mais abstratos de modelagem. Por exemplo, para o CriptoCore, o ganho de produtividade da simulação entre os níveis funcional e RT é cerca de 5. O ganho de produtividade total é provavelmente bem maior, considerando-se a maior dificuldade de codificação e depuração da descrição RT.

O CriptoCore encontra-se validado e pretende-se disponibilizá-lo ao domínio público no futuro próximo. Para isso, será preciso submetê-lo a um processo de certificação preliminar à sua integração em repositório de domínio público, como por exemplo o do Projeto BrazilIP ou o do Projeto ArchC, versão 2.0.

A prototipação do CriptoCore concorreu no âmbito da Segunda Olimpíada Brasileira da Altera, tendo obtido a terceira colocação.

REFERÊNCIAS

[1] BERGAMASCHI, Reinaldo. A to Z of SoCs. Tutorial apresentado na Escola de Microeletrônica da SBC Sul (EMICRO 2002), Florianópolis, Brazil, 2002.

[2] SANGIOVANNI-VINCENTELLI, A., MARTIN, G, “Platform-Based Design and Software Design Methodology for Embedded Systems”. IEEE Design & Test of Computers, v. 18, n.6, p.23-33. November-December, 2001.

[3] KOç Çetin K. RSA Hardware implementation. [S.l], 1995. [4] HOORNAERT, Frank. GOUBERT, Jo. DESMEDT, Yvo.

Efficient Hardware Implementation of the DES. In: Advances

in Cryptology: Proceedings of CRYPTO 84. v. 196. p.147. 1985. [5] ELBIRT, AJ. YIP, W. CHETWYND, B. PAAR, C. An

FPGA Implementation and Performance Evaluation of the AES Block Cipher Candidate Algorithm Finalists.

[6] BONIMOV, M. S. V. Optimized Interleaved algorithm. In: The IEEE International Conference on Application-Specific Systems, Architectures, and Processors (ASAP’03). [S.l.: s.n.], 2003.

[7] AMANOR, D. N. Efficient Hardware Architectures for

Modular Multiplication. MSc. Dissertation — The University

of Applied Sciences Offenburg, Germany, 2005.

[8] BrazilIP.Disponível em http://www.brazilip.org.br

[9]The ArchC Architectural Description Language. Disponível em http://www.archc.org.

[10] WOLF, Wayne Hendrix. Computers as components:

principles of embedded computing system design. San

Francisco: Morgan Kaufmann, 2001.

[11] STALLINGS, William. Cryptography and network

security: principles and practice. 2nd ed. Upper Saddle

River: Prentice Hall, 1998.

[12] SystemC Community. SystemC Home Page, Disponível em: http://www.systemc.org. 2003.

[13] ALTERA. APEX 20K Programmable Logic Device