Multiprocessador em eletronica reconfiguravel para aplicações roboticas

(1)

Universidade Estadual de Campinas

Faculdade de Engenharia El´etrica e de Computa¸c˜ao Departamento de Sistemas e Controle de Energia

Laborat´orio de Sistemas Modulares Rob´oticos

Eberval Oliveira Castro

Multiprocessador em Eletrˆ

onica Reconfigur´

avel

para Aplica¸c˜

oes Rob´

oticas

Campinas

2007

(2)

Eberval Oliveira Castro

Multiprocessador em Eletrˆ

onica Reconfigur´

avel

para Aplica¸c˜

oes Rob´

oticas

Disserta¸cão apresentada à Comissão de Pós-gradua¸cão da Faculdade de Engenharia Elétrica e de Computa¸cão da Universidade Estadual de Campinas como parte dos requisitos para obten-¸cão do t´ıtulo de Mestre em Engenharia Elétrica.

´

Area de concentra¸c˜ao: Automa¸c˜ao.

Orientador: Prof. Dr. Marconi Kolm Madrid

Campinas

2007

(3)

ii

FICHA CATALOGR ´AFICA ELABORADA PELA

BIBLIOTECA DA ´AREA DE ENGENHARIA E ARQUITETURA – BAE – UNICAMP

Castro, Eberval Oliveira

C279m Multiprocessador em eletrônica reconfigurável para aplica¸cões robóticas / Eberval Oliveira Castro. –Campinas, SP: [s.n.], 2007.

Orientador: Marconi Kolm Madrid

Disserta¸cão (Mestrado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computa¸cão.

1. Robótica. 2. Processamento paralelo (Computadores). 3. Multiprocessadores. 4. Controle em tempo real. I. Madrid, Marconi Kolm. II. Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computa¸cão. III. T´ıtulo.

T´ıtulo em Inglˆes: Multiprocessor in reconfigurable electronics to robotical applications

Palavras-chave em Inglˆes: Robotics, Parallel processing, FPGA, Embedded multiprocessor, Real-time systems

´

Area de concentra¸c˜ao: Automa¸c˜ao

Titula¸c˜ao: Mestre em Engenharia El´etrica

Banca examinadora: Areolino de Almeida Neto, Jos´e Raimundo de Oliveira e Peter J¨urgen Tatsch

Data da defesa: 11/12/2007

(4)

(5)

v

(6)

Agradecimentos

A Deus, pela oportunidade de viver `

A minha fam´ılia, pelo incentivo e apoio

Ao meu orientador, Prof. Marconi K. Madrid, sou grato pela orienta¸c˜ao, paciˆencia e compa-nheirismo

Aos meus amigos ´Elio Almeida e sua fam´ılia, e Michel Zamboni e sua esposa Jane Madureira pelo ombro amigo nas horas dif´ıceis

Aos colegas de laborat´orio pelas enriquecedoras sugest˜oes

Aos companheiros de rep´ublica pela inesquec´ıvel amizade e incentivo A toda comunidade ADBar˜ao1 _{pelo suporte espiritual}

A todos aqueles n˜ao citados anteriormente que, de alguma forma, contribu´ıram positivamente com este trabalho

Ao CNPq, pelo apoio financeiro.

1

(7)

ix

“Cada momento, cada segundo ´e de um valor infinito, pois ele ´e o representante de uma eterni-dade inteira”.

(8)

Resumo

A solu¸cão de modelos dinâmicos de robôs em tempo real é um dos principais desafios da robótica. Este trabalho propõe um multiprocessador de quatro núcleos fortemente acoplados, o SMM-4 (Sistema Multiprocessado Monol´ıtico), consistindo de uma arquitetura de proces-samento paralelo monol´ıtica sintetizada em FPGA para aplica¸cões em controle de sistemas robóticos. Uma análise quantitativa e qualitativa é realizada em contraste a sistemas unipro-cessadores, evidenciando os ganhos obtidos através desta abordagem em FPGA. O SMM-4 foi desenvolvido no Laboratório de Sistemas Modulares Robóticos (LSMR/Unicamp) como uma das alternativas para o cálculo das equa¸cões dos modelos de robôs em tempo real.

Palavras-chave: Rob´otica, Processamento Paralelo, FPGA, Multiprocessador Embu-tido, Sistemas de Tempo Real.

Abstract

The solution of robots’ dynamic models in real-time is one of major challenges of the robotics. This work presents a strongly coupled quad-core multiprocessor – the MMS-4 (Mo-nolithic Multiprocessor System) – consisting of a mo(Mo-nolithical parallel processing architecture synthesized on FPGA for applications on robotic control systems. A quantitative and quali-tative analysis is performed in contrast with uniprocessor systems for the purpose of evince the benefits obtained choosing this approach in FPGA. The MMS-4 was developed at Robotic Modular Systems Laboratory (LSMR/Unicamp) as an alternative to calculate the equations systems of robots’ models on real-time.

Keywords: Robotics, Parallel Processing, FPGA, Embedded Multiprocessor, Real-Time Systems.

(9)

xiii

Lista de Figuras

1.1 Desenvolvimento hist´orico das tecnologias envolvidas na rob´otica . . . 3

1.2 ASIMO na Consumer Electronics Show (CES) em Las Vegas . . . 4

1.3 Números da indústria estado-unidense de robôs . . . 5

2.1 Tempos de ciclo de projeto . . . 10

2.2 PROM: arquitetura . . . 11

2.3 PLA: arquitetura . . . 12

2.4 PAL: arquitetura . . . 14

2.5 Arquitetura de um dispositivo GAL22v10 . . . 15

2.6 Macroc´elula de um dispositivo GAL22v10 . . . 16

2.7 CPLD: arquitetura . . . 17

2.8 FPGA: arquitetura t´ıpica . . . 20

3.1 Evolu¸c˜ao da computa¸c˜ao de alto desempenho . . . 30

3.2 Taxonomia de Duncan . . . 34

3.3 Topologias de rede de interconex˜ao . . . 37

3.4 Hipercubos . . . 38

4.1 Placa de desenvolvimento Altera DE2 . . . 50

4.2 Esquem´atico do SMM-4 no Quartus II . . . 52

4.3 SOPC Builder com a implementa¸c˜ao do SMM-4 . . . 53

4.4 Diagrama do SMM-4 . . . 54

4.5 Configura¸c˜ao dos tempos da SDRAM . . . 57

4.6 Relat´orio de processamento do Timing Analyser . . . 58

(10)

4.8 Fra¸cões serial e paralelizável do código da soma paralela de matrizes . . . 64

4.9 Tempos de execu¸c˜ao do algoritmo de soma de matrizes de diversos tamanhos e por diferentes n´umeros de processadores . . . 66

4.10 Tempos de execu¸c˜ao do algoritmo de produto de matrizes de diversos tamanhos e por diferentes n´umeros de processadores . . . 69

4.11 Aproxima¸cão da fun¸cão arco-tangente por razão de polinômios . . . 72

4.12 Tempos de execu¸c˜ao do algoritmo do arco-tangente em diferentes n´umeros de processadores . . . 74

A.1 Diagrama de blocos do Cyclone II EP2C20 . . . 94

A.2 Estrutura interna de um elemento l´ogico do Cyclone II . . . 95

A.3 Bloco de arranjo l´ogico . . . 97

A.4 Rede global de clock . . . 99

A.5 Bloco de controle de clock . . . 100

A.6 Malha de fase s´ıncrona . . . 101

A.7 Habilita¸c˜ao de clock de endere¸co . . . 104

A.8 Modos de mem´oria . . . 106

(11)

xv

Lista de Tabelas

2.1 Comparativo entre FPGAs de diferentes fabricantes . . . 24

3.1 Parˆametros topol´ogicos . . . 39

4.1 Tempos de FPGA e SDRAM . . . 58

4.2 Parˆametros passados ao compilador cruzado ELF GCC para Nios . . . 62

4.3 Fatores de speedup relativos observados para soma paralela de matrizes . . . . 67

4.4 Fatores de speedup relativos observados para produto paralelo de matrizes . . . 70

4.5 Coeficientes dos polinômios da aproxima¸cão por expressão racional do arco-tangente . . . 72

4.6 . . . 75

A.1 Recursos dos elementos da fam´ılia Cyclone II . . . 93

A.2 Recursos de clock da fam´ılia Cyclone II . . . 99

A.3 Recursos de mem´oria na Fam´ılia Cyclone II . . . 103

(12)

Lista de Siglas

Sigla Descri¸c˜ao

A/D - Anal´ogico para Digital AMD - Advanced Micro Device

ANSI - American National Standards Institute API - Application Programming Interface ASIC - Application Specific Integrated Circuit ASIMO - Advanced Step in Innovative Mobility BFM - Bus Functional Model

BGA - Ball Grid Array

CAB - Configurable Analog Block CAM - Content-Addressable Memory CAS - Column Address Strobe

CCN - Completely Connected Network CFI - Commom Flash Interface CI - Circuito Integrado

CISC - Complex Instruction Set Computing CLB - Configurable Logic Block

CONLAN - CONsensus LANguage CRC - Cyclical Redundancy Check D/A - Digital para Anal´ogico DDR - Double Data Rate DDR2 - Double Data Rate 2

DIS - Draft International Standard DLL - Delay-Loked Loop

DPRAM - Dual-Port RAM DRAM - Dynamic RAM

DSP - Digital Signal Processor ECC - Error Correction Code

EDA - Electronic Design Automation

EEPROM - Electricaly Erasable and Programmable ROM ELF - Executable and Linking Format

FFT - Fast Fourier Transform (continua...)

(13)

xviii LISTA DE SIGLAS Sigla Descri¸c˜ao

FIFO - First-In First-Out

FIR - Finite Impulse Response

FPAA - Field Programmable Analog Array FPD - Field Programmable Device

FPGA - Field Programmable Gate Array FPLA - Field Programmable Logic Array GAL - Generic Array Logic

GCC - GNU C Compiler GCN - Global Clock Network GNU - GNU is Not Unix

HAL - Hardware Abstraction Layer HCPLD - High Capacity PLD

HDL - Hardware Description Language HSTL - High Speed Transmitter Logic I/O - Input/Output

IDE - Integrated Development Environment IEC - International Electrotechnical Commission IEEE - Institute of Electrical and Electronics Engineers IOE - Input/Output Element

IP - Intellectual Property IRQ - Interrupt Request

JTAG - Joint Test Action Group LAB - Logic Array Block LE - Logic Element

LED - Light-Emitting Diode LIFO - Last-In First-Out LM - Logic Module

LPM - Library of Parameterized Modules

LSMR - Laborat´orio de Sistemas Modulares Rob´oticos LUT - Look-Up Table

LVCMOS - Low-Voltage Complementary MOS LVDS - Low-Voltage Differential Signaling

LVPECL - Low-Voltage Positive Emitter Coupled Logic MAC - Media Access Control

MDAC - Multiplying type Digital-to-Analog Converter MIF - Memory Initialization File

MMI - Monolithic Memories Inc. MOS - Metal-Oxide-Semiconductor MPGA - Mask Programmable Gate Array MPLA - Mask Programmable Logic Array NRE - Non-Recurring Engineering OLMC - Output Logic MacroCell OTP - One-Time Programmable

(14)

Sigla Descri¸c˜ao

PC - Personal Computer

PCA - Programmable Capacitor Array PCI - Peripheral Component Interconnect PCI-X - PCI Extended

PFD - Phase-Frequency Detector PLA - Programmable Logic Array PLD - Programmable Logic Device PLL - Phase-Locked Loop

PROM - Programmable ROM PWM - Pulse Width Modulation QDRII - Quad Data Rate II RAM - Random Access Memory RIA - Robotic Industries Association RISC - Reduced Instruction Set Computing ROM - Read-Only Memory

RSDS - Reduced Swing Differential Signaling RTL - Register Transfer Level

SD - SecureDigital

SDRAM - Synchronous DRAM

SMM - Sistema Multiprocessado Monol´ıtico SO - Sistema Operacional

SoC - System-on-Chip

SOPC - System-On-a-Programmable-Chip SPI - Serial Peripheral Interface

SRAM - Static RAM

SSTL - Stub Series Terminated Logic

TSMC - Taiwan Semiconductor Manufacturing Company UART - (Universal Asynchronous Receiver/Transmitter) USB - Universal Serial Bus

VCO - Voltage-Controlled Oscillator

VHDL - VHSIC Hardware Description Language VHSIC - Very High Speed Integrated Circuit VLSI - Very Large Scale Integration

(15)

xxi

Lista de S´ımbolos

S´ımbolo Descri¸c˜ao

fIN - Freq¨uˆencia de entrada da malha de fase s´ıncrona

fREF - Freqüência de referência da malha de fase s´ıncrona

fV CO - Freqüência de sa´ıda do oscilador controlado por tensão

ck - Fator de divisão do k-ézimo contador pós-escalador

fck - Freqüência de sa´ıda do k-ézimo contador pós-escalador

t0 - Tempo inicial do contador de sa´ıda da malha de fase s´ıncrona

W - Tamanho do problema computacional

C(p) - Custo computacional em fun¸cão do número de processadores O(h(x)) - Cota superior assintótica

g(v) - Grau de um n´o

∆ - Grau m´aximo da rede

σ(v1, v2) - Distˆancia entre os n´os v1 e v2 da rede

D - Diˆametro de rede

N - Número total de nós da rede L - Custo topológico

b - Fator de ramifica¸cão do modelo topológico em árvore p - Número de processadores de um sistema paralelo

T (p) - Tempo de execu¸c˜ao total da tarefa usando p processadores

Tm(p) - Tempo de execu¸c˜ao da fra¸c˜ao paralela da tarefa usando p processadores

Ts - Tempo de execu¸c˜ao da fra¸c˜ao serial da tarefa

γ - Fra¸cão serial (não-paralelizável) da tarefa S(p) - Fator de speedup

Tc - Tempo gasto em comunica¸c˜ao durante a execu¸c˜ao da tarefa

γi - i-ézima fra¸cão (paralelizável ou não) da tarefa

si - Fator de speedup associado à i-ézima fra¸cão da tarefa

SS(p) - Fator de scaled speedup em fun¸cão do número de processadores γe - Fra¸cão serial da tarefa determinada experimentalmente

φ - Fator de multiprocessamento (MPF) ξ(p) - Eficiˆencia

R(p) - Redundˆancia (continua...)

(16)

S´ımbolo Descri¸c˜ao U(p) - Utiliza¸c˜ao

(17)

xxiii

Sum´

ario

Lista de Ilustra¸c˜oes xiii

Lista de Tabelas xv

Lista de Siglas xvii

Lista de S´ımbolos xxi

1 Introdu¸c˜ao 1

1.1 Vis˜ao Geral . . . 1

1.2 Objetivos . . . 6

1.3 Metodologia . . . 7

1.4 Estrutura do Trabalho . . . 7

2 Eletrônica Reconfigurável 9 2.1 Arranjo Analógico Programável em Campo . . . 10

2.2 Dispositivo L´ogico Program´avel Simples . . . 11

2.2.1 A Mem´oria PROM . . . 11

2.2.2 Tecnologia PLA . . . 12

2.2.3 Tecnologia PAL . . . 13

2.2.4 Tecnologia GAL . . . 14

(18)

2.4 Arranjo de Portas Program´avel em Campo . . . 19

2.4.1 Surgimento do FPGA . . . 19

2.4.2 Arquitetura do FPGA . . . 20

2.4.3 Classifica¸c˜ao dos FPGAs . . . 21

2.4.3.1 Tecnologia de Programa¸cão . . . 21 SRAM . . . 21 Antifus´ıvel . . . 21 Porta Flutuante . . . 22 2.4.3.2 Possibilidades de Configura¸cão . . . 22 Programáveis (OTPs) . . . 22 Reprogramáveis . . . 23 2.4.3.3 Granularidade . . . 23 Granularidade Grossa . . . 23 Granularidade Média . . . 25 Granularidade Fina . . . 25

2.5 Linguagem de Descri¸c˜ao de Hardware . . . 25

2.5.1 N´ıveis de Abstra¸c˜ao . . . 25

2.5.1.1 N´ıvel de Portas . . . 26

2.5.1.2 N´ıvel de Transferˆencia de Registrador (RTL) . . . 26

2.5.1.3 N´ıvel Comportamental . . . 26

2.5.1.4 Modelo Funcional de Barramento (BFM) . . . 26

2.5.2 Desenvolvimento Hist´orico do VHDL . . . 27

3 Processamento Paralelo 29 3.1 Conceitos e Defini¸c˜oes . . . 30

3.2 An´alise Qualitativa: Classifica¸c˜oes . . . 31

(19)

SUM ´ARIO xxv

3.2.2 Taxonomia de Duncan . . . 32

3.2.3 Parˆametros Topol´ogicos . . . 35

Grau de um N´o . . . 35

Grau M´aximo de Rede . . . 35

Distância . . . 35 Diâmetro de Rede . . . 35 Custo Topológico . . . 35 Simetria . . . 35 Homogeneidade . . . 35 Regularidade . . . 35

3.2.4 Taxonomia de Redes de Interconex˜ao . . . 36

3.2.4.1 Topologias Est´aticas . . . 36 Troca Total . . . 36 Arranjo Linear . . . 36 Anel . . . 36 Estrela . . . 36 Arranjo Bidimensional . . . 37 ´ Arvore . . . 37 Hipercubo . . . 38 3.2.4.2 Topologias Dinˆamicas . . . 39 Barramento . . . 39 Comutador (Switch) . . . 39

3.3 An´alise Quantitativa: M´etricas . . . 39

3.3.1 Modelos Computacionais . . . 40

3.3.1.1 Modelo de Igual Dura¸c˜ao . . . 40

(20)

3.3.2 Fator de Speedup . . . 41

Fator de Speedup Relativo . . . 42

Fator de Speedup Real . . . 42

Fator de Speedup Absoluto . . . 42

3.3.3 M´etrica de Carga Fixa: Lei de Amdahl . . . 42

3.3.3.1 Lei de Amdhal Generalizada . . . 43

3.3.4 M´etrica de Tempo Fixo: Lei de Gustafson-Barsis . . . 43

3.3.5 Métrica de Karp-Flatt . . . 44 3.3.6 Fator de Multiprocessamento (MPF) . . . 44 3.3.7 Eficiência . . . 45 3.3.8 Redundância . . . 45 3.3.9 Utiliza¸cão . . . 46 3.3.10 Qualidade do Paralelismo . . . 46 3.3.11 Métricas de Comunica¸cão . . . 46

4 Descri¸c˜ao e An´alise do Projeto 49 4.1 Ambiente de Desenvolvimento . . . 50

4.1.1 Placa Altera™ DE2 . . . 50

4.2 Ferramentas de Software . . . 51

4.3 Arquitetura . . . 52

4.3.1 Unidades de Processamento . . . 56

4.3.2 Mem´oria . . . 57

4.3.3 Espa¸co de Endere¸camento . . . 60

4.4 Coordena¸c˜ao e Compartilhamento de Recursos . . . 61

4.4.1 Mutex . . . 61

4.4.2 Mailbox . . . 61

(21)

SUM ´ARIO xxvii

4.5.1 Opera¸c˜oes com Matrizes . . . 64

4.5.1.1 Soma de Matrizes . . . 64

4.5.1.2 Produto de Matrizes . . . 68

4.5.2 C´alculo do Arco-Tangente . . . 70

5 Resultados e Conclus˜oes 77 5.1 Resumo das Contribui¸c˜oes . . . 80

5.2 Sugest˜oes para Trabalhos Futuros . . . 80

Referˆencias 82 A Tecnologia Cyclone II 91 A.1 Vis˜ao Geral . . . 91

A.2 Arquitetura . . . 94

A.2.1 Elemento L´ogico . . . 94

A.2.1.1 Modos de Opera¸c˜ao . . . 96

Modo Normal . . . 96

Modo Aritm´etico . . . 96

A.2.2 Blocos de Arranjo L´ogico (LAB) . . . 97

A.2.2.1 Interconex˜oes do LAB . . . 97

A.2.2.2 Sinais de Controle do LAB . . . 98

A.2.3 Rede Global de Clock (GCN) . . . 98

A.2.3.1 Pinos de Clock Dedicados (CLK) . . . 100

A.2.3.2 Pinos de Clock de Prop´osito Duplo (DPCLK e CDPCLK) . . . 100

A.2.3.3 Blocos de Controle de Clock . . . 101

A.2.4 Malha de Fase S´ıncrona (PLL) . . . 101

A.2.5 Blocos de Mem´oria M4K . . . 103

(22)

A.2.5.2 Habilita¸c˜ao de Clock de Endere¸co . . . 105 A.2.5.3 Modos de Mem´oria . . . 105 A.3 Blocos Multiplicadores . . . 107 A.4 Particularidades do EP2C35 . . . 108

B C´odigo dos Programas 109

B.1 Soma Paralela de Matrizes . . . 109 B.2 Produto Paralelo de Matrizes . . . 115 B.3 C´alculo do Arco-Tangente . . . 121 ´Indice por Autor . . . 127

(23)

1

Cap´ıtulo 1

Introdu¸c˜

ao

1.1 Vis˜

ao Geral

Os grandes desafios no desenvolvimento de aplica¸cões robóticas estão nas limita¸cões dos recur-sos computacionais (algoritmos e arquiteturas), recurrecur-sos de comunica¸cão e sensores. Por ser este um campo de pesquisa multidisciplinar, estão envolvidas diversas áreas de conhecimento como Inteligência Artificial, Computa¸cão Paralela, F´ısica, Mecatrônica, dentre outras (KO-NOLIGE et al., 2005; RITTER et al., 2003; YAMANE et al., 2005; HIRAI et al., 2005; FEATHERSTONE; ORIN, 2000).

Uma das principais dificuldades encontradas pelos pesquisadores e desenvolvedores de so-lu¸cões robóticas é o cálculo dos modelos cinemáticos e dinâmicos em tempo real. O controle de sistemas robóticos geralmente exige uma grande carga computacional na solu¸cão de seus modelos (INABA et al., 2000), em especial, o modelo dinâmico que muitas vezes inviabiliza abordagens que fa¸cam uso de processamento seqüencial (FEATHERSTONE; ORIN, 2000). Desafio ainda maior é o cálculo da dinâmica inversa que é muito custoso tanto do ponto de vista anal´ıtico quanto computacional para robôs com muitos graus de liberdade (ZHAO et al., 2005). No intuito de contornar tais dificuldades, diversas técnicas têm sido aplicadas como o uso de inteligência artificial e outros métodos heur´ısticos, mas a maior parte são solu¸cões particulares e localizadas. Pesquisas em torno de solu¸cões mais gerais tem sido rea-lizadas no LSMR na Faculdade de Engenharia Elétrica da Unicamp (MADRID, 1994; NICO-LATO, 2007; NOGUEIRA, 2001; JUNGBECK, 2001; DIAS, 1991; SILVEIRA-FILHO, 2002; GUARDIA-FILHO, 2005; GUARDIA-FILHO; NICOLATO; MADRID, 2004), que aponta-vam para a necessidade de solu¸cões mais gerais e serviram de incentivo para que este trabalho fosse realizado.

(24)

O avan¸co das tecnologias de integra¸cão de circuitos – VLSI – traz sistemas digitais cada vez mais complexos e velozes, tornando fact´ıvel a execu¸cão de tarefas que há alguns anos atrás não sairiam da prancheta dos projetistas de controle de robôs (HONDA, 2007; GOCKLEY; SIMMONS; FORLIZZI, 2006). Pesquisas têm sido desenvolvidas no sentido de transpor tais barreiras utilizando multiprocessamento em FPGA (Field Programmable Gate Array -Arranjo de Portas Programável em Campo) (SUBRAMAINAN, 2003; BENINI; MICHELI, 2002). No Brasil, grupos de pesquisa têm apresentado arquiteturas paralelas utilizando ele-trônica reconfigurável (SILVA et al., 2004; ARAG ÃO; ALMEIDA-JR; MARQUES, 2004). Propomos um sistema paralelo no qual seja poss´ıvel a implementa¸cão do controle digital multin´ıvel aplicado à robótica, balanceando o custo e a viabilidade tecnológica de forma a atender necessidades tanto da indústria quanto dos ambientes de pesquisa. O tema central deste trabalho é o desenvolvimento e análise desta arquitetura paralela sobre uma plataforma FPGA.

A figura 1.1 apresenta o desenvolvimento histórico dos sistemas mecânicos, elétricos e eletrônicos, tecnologias que convergiram para o surgimento dos sistemas mecatrônicos. É importante notar que o controle digital só se tornou viável em meados da década de 70 do século XX, muito embora a computa¸cão digital já fosse uma realidade desde o final da segunda guerra mundial, durante a qual esta tecnologia teve sua expansão principal incentivada pelo governo estado-unidense. O custo de fabrica¸cão e manuten¸cão dos sistemas digitais caiu drasticamente desde então, levando os computadores digitais de custosos artefatos de guerra ao patamar de eletrodomésticos. A robótica se beneficiou da universaliza¸cão da informática ao passo que permitiu a solu¸cão, economicamente viável e em tempo real, do cálculo numérico de equa¸cões dinâmicas.

No in´ıcio deste século podemos identificar sistemas robóticos notáveis pela sua comple-xidade no que diz respeito ao modelo e à computa¸cão realizada em tempo real. O Honda ASIMO (Advanced Step in Innovative Mobility) (HONDA, 2007) é um bom exemplo. Man-tido pela empresa japonesa, o projeto desenvolve um humanóide com 34 graus de liberdade, capacidade para andar e correr, desviar-se de obstáculos, além de habilidade para reconhecer faces, postura, gestos, sons e ambiente. A figura 1.2 apresenta uma foto deste robô japonês. Em particular, a complexidade envolvida na mobilidade de robôs pode ser muito grande. Dentre os principais requisitos necessários para robôs móveis podemos citar:

• Autonomia de teleopera¸cão e controle; • Execu¸cão de tarefas não repetitivas;

(25)

1.1. VIS ˜AO GERAL 3

Figura 1.1: Desenvolvimento hist´orico das tecnologias envolvidas na rob´otica (BISHOP, 2002).

(26)

Figura 1.2: ASIMO na Consumer Electronics Show (CES) em Las Vegas (HONDA, 2007). • Particularidades nos mecanismos de locomo¸c˜ao;

• Opera¸cão em ambientes hostis (altos gradientes de temperatura, exposi¸cão à radia¸cão, vácuo, ilumina¸cão variável etc);

• Tolerância a falhas (inclusive falhas do sistema e erros) e necessidade de recupera¸cão devido a eventos não planejados.

O Instituto de Robótica da Universidade de Carnegie Mellon nos Estados Unidos mantém projetos em diversas áreas da robótica. Destaca-se um que visa desenvolver um robô com per-sonalidade (GOCKLEY; SIMMONS; FORLIZZI, 2006), capaz de interagir socialmente com seres humanos. Desafios como este também exigem uma grande carga computacional, pois demandam desde o processamento e s´ıntese da fala, até interpreta¸cão de expressões corporais (inclusive faciais), tarefa esta que excede o simples processamento de imagens. Embora não seja nova a idéia de autômatos com tais capacidades, o desenvolvimento tecnológico ainda não nos permitiu chegar aos patamares de personagens citadas na fiçcão cient´ıfica da metade do século XIX (MELVILLE, 1856).

Arquiteturas paralelas espec´ıficas para aplica¸cões robóticas têm sido desenvolvidas como é o caso da arquitetura de Nigam (NIGAM; LEE, 1985) que propõe um controlador distri-bu´ıdo para robô PUMA. Uma outra proposta é o sistema desenvolvido por (ZHANG; PAUL,

(27)

1.1. VIS ˜AO GERAL 5

Figura 1.3: Números da indústria estado-unidense de robôs (ROBOTICS. . . , 2007). 1991), que propõe um método para a solu¸cão da cinemática inversa implementado sobre uma arquitetura paralela. Pose citar ainda o Sistema H´ıbrido Multicontrolado (SHM-4) de-senvolvido por Araújo para propósitos de controle industrial (ARA ÚJO, 1999) que utiliza topologia f´ısica hipercúbica, comunica¸cão baseada em SPI (Serial Peripheral Interface - In-terface Periférica Serial) e unidades de processamento baseadas no microcontrolador HC11 da Motorola. Outro exemplo, o Responsive Processor, é um processador especializado para controle distribu´ıdo/paralelo (YAMASAKI, 2001) que integra um núcleo de processamento SPARC, interface de comunica¸cão em tempo real (responsive link ), interface SDRAM, ge-rador de PWM (Pulse Width Modulation - Modula¸cão por Largura de Pulso), conversores A/D e D/A além de diversos padrões de E/S industriais (PCI, USB, MDAC etc.) em um ´

unico substrato. Embora tenham bons resultados, solu¸cões que apresentam processadores fisicamente distantes têm problemas quando é necessária a troca de maiores quantidades de dados entre os processadores, principalmente devido às limita¸cões impostas por largura de banda e latência de comunica¸cão (EL-REWINI; ABD-EL-BARR, 2005). A integra¸cão de multiprocessadores e periféricos através de redes em chip tem se mostrado uma boa solu¸cão para estes problemas (WONG, 2004).

Para aplica¸cões com escala anual de produ¸cão superiores a 10 mil unidades, os ASICs (Application Specific Integrated Circuit - Circuito Integrado de Aplica¸cão Espec´ıfica) possuem menor custo por unidade que os FPGAs. A figura 1.3 mostra as vendas (incluindo exporta-¸cões) da indústria estado-unidense de robôs entre o primeiro trimestre de 2004 e o segundo trimestre do 20071_{. Os dados são da RIA (Robotic Industries Association - Associa¸cão das}

1

(28)

Ind´ustrias de Rob´otica) (ROBOTICS. . . , 2007).

Embora a indústria mundial de robôs tenha movimentado bilhões de dólares no ano passado, a escala de produ¸cão não é tão elevada pois o pre¸co médio de um robô, no mercado americano, é de 60 mil dólares. A aplica¸cão de FPGAs se justifica neste segmento do ponto de vista econômico uma vez que a escala de produ¸cão anual, até o presente momento, não ultrapassa uma dezena de milhar de unidades (incluindo todos os modelos de robôs) por fabricante. O uso de FPGAs traz ainda vantagens oriundas da prototipa¸cão rápida, na redu¸cão do TTM (Time-To-Market - Tempo-até-o-Mercado) e baixo custo de NRE (Non-Recurring Engineering - Engenharia Não-Recorrente) (HOHMANN, 2003).

Existem previsões de crescimento exponencial da produ¸cão de robôs (impulsionado prin-cipalmente por aplica¸cões domésticas) nos próximos anos. Para escalas de produ¸cão anual na ordem de dezenas ou centenas de milhares pode-se ainda lan¸car mão de tecnologias como o ASIC estruturado que oferece portabilidade para projetos concebidos em FPGA (MOSHER; KIRK, 2007). A prototipa¸cão e depura¸cão podem ser feitas em FPGA e o projeto final é então convertido para ASIC estruturado que possui, em rela¸cão ao FPGA, menor custo por unidade em grande escala de produ¸cão.

1.2 Objetivos

Tendo em vista o contexto apresentado, o objetivo geral deste trabalho é implementar um multiprocessador utilizando a tecnologia de FPGA com vista a aplica¸cões robóticas. Os objetivos espec´ıficos são:

• Projetar e implementar uma arquitetura de processamento paralelo baseada em FPGA capaz de realizar algoritmos ´uteis em rob´otica em tempos da ordem de 10 ms;

• Avaliar a arquitetura desenvolvida sob os prismas da viabilidade t´ecnica e econˆomica;

• Comparar as abordagens de processamento serial e paralelo para aplica¸cões robóticas, levantando os ganhos obtidos com a técnica de processamento paralelo em detrimento da serial;

(29)

1.3. METODOLOGIA 7

1.3 Metodologia

A fim de alcan¸car tais objetivos tomamos como base a seguinte metodologia: • Buscar trabalhos já publicados nesta linha de pesquisa (revisão bibliográfica);

• Aprofundar os conhecimentos e aprimorar as habilidades nas tecnologias de FPGA: recursos dispon´ıveis nos CIs dispon´ıveis e dom´ınio dos ambientes de desenvolvimento; • Estudar o processamento paralelo tanto do ponto de vista de hardware quanto de

soft-ware;

• Definir a topologia e o tipo de arquitetura a ser implementada; • Implementar o sistema paralelo em FPGA;

• Avaliar o desempenho da arquitetura;

• Implementar algoritmos utilizados em aplica¸c˜oes rob´oticas na forma paralela.

1.4 Estrutura do Trabalho

Este cap´ıtulo dá uma visão geral do trabalho e sua contextualiza¸cão tecno-mercadológica. São apresentadas além das justificativas e motiva¸cão, revisão bibliográfica, objetivos gerais e espec´ıficos, metodologia e estrutura do trabalho.

No cap´ıtulo dois são descritas as tecnologias de eletrônica reconfigurável, sua classifica-¸cão, os recentes avan¸cos através dos FPGAs, além da nova classe de dispositivos para projetos analógicos conhecido como FPAA (Field Programmable Analog Array - Arranjo Analógico Programável em Campo).

O cap´ıtulo três dá uma visão geral de processamento paralelo sob os pontos de vista de hardware e software, classifica¸cões, métricas e para análise de sistemas.

No cap´ıtulo quatro é descrito o sistema paralelo desenvolvido, sua arquitetura e análise qualitativa e quantitativa. Testes de performance e comparativos através da implementa¸cão de algoritmos utilizados em aplica¸cões robóticas são apresentados.

O cap´ıtulo cinco discute os resultados obtidos, apresentando as conclusões, resumo das contribui¸cões e sugestões para trabalhos futuros.

(30)

Foram inclu´ıdos dois apêndices ao fim do trabalho com a finalidade de complementar, para o leitor interessado em maior profundidade, a informa¸cão apresentada através de detalhes técnicos do CI de FPGA utilizado no trabalho, no apêndice A; além dos programas escritos em linguagem C utilizados nos testes, no apêndice B.

(31)

9

Cap´ıtulo 2

Eletrˆ

onica Reconfigur´

avel

De forma geral, a eletrônica reconfigurável pode ser vista como uma tecnologia que com-bina a velocidade de opera¸cão das solu¸cões em hardware com a flexibilidade das solu¸cões em software. Os dispositivos baseados em eletrônica reconfigurável são chamados de FPDs (Field-Programmable Devices - Dispositivos Programáveis em Campo) (BROWN; ROSE, 1996). A palavra “field ” indica que a configura¸cão do circuito pode ser feita pelo usuário final sem a necessidade da utiliza¸cão dos recursos de indústrias de fundi¸cão de semiconduto-res (foundries). Os dispositivos baseados em eletrônica reconfigurável reúnem, em um único chip, os componentes básicos de um sistema (digital ou analógico) e uma forma de interco-nexão programável entre eles. Isto possibilita projetar um sistema utilizando softwares de EDA (Electronic Design Automation - Automa¸cão de Projeto Eletrônico) multin´ıvel. Estas plataformas de desenvolvimento implementam o projeto a partir da conexão adequada dos elementos internos do dispositivo de eletrônica reconfigurável. Tal abordagem reduz drasti-camente os custo de NRE (Non-Recurring Engineering - Engenharia Não-Recorrente) (HOH-MANN, 2003) para desenvolvimento de hardware através da redu¸cão do tempo de ciclo do projeto (MUNDEN, 2005). A figura 2.1 mostra um comparativo entre os tempos do ciclo de projeto baseado em simula¸cão e prototipa¸cão.

A eletrônica reconfigurável possibilita a implementa¸cão de sistemas bastante sofisticados e abriu espa¸co para o surgimento de arquiteturas de processamento que modificam sua es-trutura em tempo real, constituindo plataformas conhecidas como Sistemas de Computa¸cão Reconfigurável (REISER et al., 1998).

Para a implementa¸cão de circuitos analógicos em eletrônica reconfigurável utiliza-se os FPAAs (Field Programmable Analog Arrays - Arranjos Analógicos Programáveis em Campo) enquanto que para aplica¸cões digitais são utilizados os PLDs (Programmable Logic Device -Dispositivo Lógico Programável). Os PLDs podem ser classificados quanto à arquitetura

(32)

Figura 2.1: Tempos de ciclo de projeto (MUNDEN, 2005).

em três tipos: SPLD (Simple Programmable Logic Device - Dispositivo Lógico Programável Simples), CPLD (Complex Programmable Logic Device - Dispositivo Lógico Programável Complexo) e FPGA (Field Programmable Gate Array - Arranjo de Portas Programável em Campo). Estes dois últimos (CPLDs e FPGAs) podem ser referidos pelo acrônimo HCPLD (High Capacity PLD - PLD de Alta Capacidade) por possu´ırem alta capacidade lógica, ou seja, 600 portas lógicas ou mais. Existem ainda circuitos integrados h´ıbridos capazes de lidar tanto com sinais analógicos quanto digitais1_.

2.1 Arranjo Anal´

ogico Program´

avel em Campo

O FPAA é um CI para aplica¸cões no dom´ınio analógico. É um dispositivo programável que contém um grande número de módulos chamados de CABs (Configurable Analog Blocks - Blocos Analógicos Configuráveis) e interconexões programáveis permitindo configura¸cões arbitrárias de circuitos analógicos. Os recursos de cada CAB variam de fabricante para fabri-cante, mas tipicamente é composto por um amplificador operacional, arranjos de capacitores programáveis (PCA - Programmable Capacitor Array) e arranjos de resistores programáveis (necessários a circuitos de processamento cont´ınuo no tempo) ou chaves configuráveis para circuitos chaveados. Os principais fabricantes de FPAAs da atualidade são Anadigm, Lat-tice Semiconductors, Sidsa, Zetex e Cypress. Uma das aplica¸cões de FPAAs em robótica é a implementa¸cão de hardware evolutivo com tolerância a falhas (DERENSON; ESTÉVES; LIPSON, 2005). No Laboratório de Sistemas Modulares Robóticos da Unicamp pesquisas têm sido desenvolvidas (FAZANARO, 2007) utilizando Arranjos Analógicos Programáveis

1

Teradyne Inc., Agilent Technologies e Cypress são os principais fabricantes destes dispositivos que são ainda pouco difundidos. Um dos modelos comerciais fabricado pela Cypress é PSoC™ (Programmable System-on-Chip - Sistema em Chip Programável).

(33)

2.2. DISPOSITIVO L ´OGICO PROGRAM ´AVEL SIMPLES 11

Figura 2.2: PROM: arquitetura. em Campo.

2.2 Dispositivo L´

ogico Program´

avel Simples

Os PLDs mais simples e com menor densidade são os SPLDs. Esta se¸cão aborda estes dispositivos que serviram de base tecnológica para produtos mais sofisticados como CPLDs e FPGAs.

2.2.1 A Mem´

oria PROM

O primeiro dispositivo programável utilizado para implementa¸cão de fun¸cões lógicas foi a PROM (Programmable Read-Only Memory - Memória Programável Só de Leitura), inven-tada pelo engenheiro de foguetes e cientista chinês, Wen Tsing Chow, em 1956 (CHOW; HENRICH, 1962). Uma PROM sai de fábrica com todos os bits em n´ıvel lógico alto. A programa¸cão é irrevers´ıvel e realiza-se por queima de fus´ıveis para os bits que se deseja alte-rar para n´ıvel lógico baixo. A PROM pode ser utilizada para implementar circuitos lógicos usando as linhas de endere¸cos como a entrada e as linhas de dados como a sa´ıda do circuito. A fun¸cão lógica é mapeada como uma expressão na forma de soma-de-produtos. A figura 2.2 mostra a arquitetura de uma PROM de 3 entradas e 4 sa´ıdas. Neste caso, são necessários 32 fus´ıveis integrados no chip. Para uma PROM de n entradas e k sa´ıdas o número necessário de fus´ıveis z(n, k) seria:

(34)

Figura 2.3: PLA: arquitetura.

z(n, k) = k.2n (2.1)

Da equa¸cão é poss´ıvel notar que o número de fus´ıveis integrados em uma PROM cresce exponencialmente com o aumento das linhas de entrada o que torna caro o emprego deste dispositivo para o mapeamento de fun¸cões lógicas com muitas entradas. Além do mais, para fun¸cões lógicas que podem ser expressas como soma de poucos mintermos a maior parte do circuito da PROM fica inutilizado, uma vez que é realizada decodifica¸cão total na entrada (TOCCI; WIDMER, 2003). Pode-se notar que a PROM para implementa¸cão de circuitos lógicos não é sempre eficiente, e portanto, é raramente utilizada com esta finali-dade (BROWN; ROSE, 1996).

2.2.2 Tecnologia PLA

Em 1972, a National Semiconductor Corporation introduziu no mercado o primeiro disposi-tivo criado especificamente para implementa¸cão de circuitos lógicos – o PLA (Programmable Logic Array - Arranjo Lógico Programável) DM7575. A figura 2.3 ilustra a arquitetura de um PLA de 3 entradas e 4 sa´ıdas. Ela possui dois n´ıveis de lógica, um plano AND (na entrada) e um plano OR (na sa´ıda), ambos programáveis. A maior flexibilidade desta ar-quitetura resulta na possibilidade de mapear-se de forma mais eficiente fun¸cões lógicas que possuam grande número de entradas.

(35)

2.2. DISPOSITIVO L ÓGICO PROGRAM ÁVEL SIMPLES 13 esse motivo é freqüentemente chamado de MPLA (Mask Programmable Logic Array - Arranjo Lógico Programado por Máscara) e não pode ser considerado um FPD. Em 2 de junho de 1975 na EE Times, a Intersil anunciou um chip chamado IM5200. No mesmo ano, Ron Cline da Signetics Corporation desenvolveu o 825100. Estes dois dispositivos eram baseados na arquitetura do PLA, contudo podiam ser programados em campo, e portanto, passaram a ser referenciados pelo acrônimo FPLA (Field Programmable Logic Array - Arranjo Lógico Programado em Campo) (PELLERIN; HOLLEY, 1991). Eles tinham finalidade inicial de substituir circuitos lógicos de acoplamento (glue logic) e por permitirem a programa¸cão por parte do usuário, podem ser considerados FPDs.

Para um PLA com n entradas, k portas no plano AND e m sa´ıdas, temos que qualquer vari´avel de entrada (ou seu complemento) pode ser uma entrada de qualquer porta AND. Logo, qualquer porta no plano AND pode ser configurada para implementar um dos 3n

poss´ıveis termos-produtos2_{. A estrutura do PLA permite que qualquer termo-produto seja}

conectado a qualquer porta OR. Esta caracter´ıstica é referida como “compartilhamento de termo-produto” (product-term-sharing) e permite que muitos elementos lógicos comuns sejam compartilhados entre os circuitos de sa´ıda (plano OR). Ao contrário da PROM, o número de termos-produtos é limitado pelo plano AND, ou seja, uma fun¸cão lógica poderá ter no máximo k termos-produtos, o que torna a minimiza¸cão das fun¸cões uma etapa cr´ıtica na implementa¸cão do projeto. Tal dispositivo permite implementar m fun¸cões lógicas de n variáveis, cada fun¸cão podendo ser composta pela soma de até k termos-produtos.

A opera¸cão dos PLAs é, em geral, mais lenta que a das PROMs pelo fato e existirem dois arranjos programáveis através dos quais os sinais devem se propagar. A presen¸ca de dois planos programáveis também torna o custo de fabrica¸cão de PLAs mais elevado que o das PROMs.

2.2.3 Tecnologia PAL

Em 1978, a empresa americana Monolithic Memories Inc. (MMI)3 _{lan¸cou no mercado o PAL}

(Programmable Array Logic - Lógica de Arranjo Programável). Este tipo de dispositivo da mesma forma que a PROM possui dois n´ıveis de portas lógicas: um plano AND e um plano OR. A diferen¸ca reside no fato de que, ao contrário do que acontece na PROM, as entradas das portas AND são programáveis enquanto o plano OR possui conexões fixas. Tal distin¸cão

2

Isso se deve ao fato de existirem trˆes poss´ıveis configura¸c˜oes para a entrada no plano OR: verdadeiro, complemento ou desconectado.

3

A Monolithic Memories Inc. fundiu-se à Advanced Micro Devices (AMD) em 1987 e tornou-se a divisão de lógica programável em campo da AMD – Vantis Corporation. Em 1999, a AMD vendeu a unidade Vantis Corp. por 500 milhões de dólares para a Lattice Semiconductor (RISTELHUEBER, 1999).

(36)

Figura 2.4: PAL: arquitetura.

é ilustrada na figura 2.4 na qual é apresentada a arquitetura e um PAL com três entradas e quatro sa´ıdas. Dispositivos usando esta tecnologia podiam ser programados uma única vez, da mesma forma que as PROMs.

Os PALs superaram as desvantagens de alto custo e baixa performance dos PLAs através da redu¸cão a um único plano programável. A perda de generalidade inserida pelas conexões fixas do plano OR foram compensadas, em termos de mercado, com a produ¸cão de variados tipos de PAL com diferentes quantidades de linhas de entrada, linhas de sa´ıda e diversos tamanhos de portas OR. As PALs possuem ainda flip-flops ligados à sa´ıda das portas OR de forma que a implementa¸cão de circuitos seqüenciais se torna poss´ıvel.

A maneira como o hardware digital era projetado foi profundamente afetada ap´os o lan¸camento dos PALs de forma que a estrutura deste dispositivo tornou-se a base para os PLDs em uso na atualidade (BROWN; ROSE, 1996).

2.2.4 Tecnologia GAL

Os FPDs ganharam um novo membro em 1985 com o lan¸camento do GAL (Generic Array Logic - Lógica de Arranjo Genérico) pela Lattice Semiconductor, que foi uma evolu¸cão direta da tecnologia PAL. Os dispositivos GAL utilizam uma matriz de EEPROM ao invés de fus´ıveis para selecionar as conexões no plano AND. Desta forma, o diferencial prático reside no fato de que o GAL pode ser apagado e reprogramado, ao contrário do PAL que pode ser programado uma única vez.

(37)

2.2. DISPOSITIVO L ´OGICO PROGRAM ´AVEL SIMPLES 15

Figura 2.5: Arquitetura de um dispositivo GAL22v10 (LATTICE SEMICONDUCTOR CORP., 2006).

(38)

Figura 2.6: Macroc´elula de um dispositivo GAL22v10 (LATTICE SEMICONDUCTOR CORP., 2006).

A arquitetura GAL é constituida de um plano AND na entrada e o plano OR está em-butido num arranjo de OLMCs (Output Logic MacroCells - Macrocélulas Lógicas de Sa´ıda). A figura 2.5 mostra a estrutura interna do GAL22v10. É importante observar a presen¸ca de buffers de três estados nas entradas e sa´ıdas do GAL, além de realimenta¸cão das sa´ıdas para o plano AND também feito por intermédio de buffers.

A figura 2.6 apresenta a macrocélula de um GAL22v10 da Lattice. Dependendo da pro-grama¸cão ela pode operar em modo registrado ou combinacional e a sa´ıda pode ser comple-mentada ou não. O GAL22v10 possui 10 macrocélulas sendo que podem receber na entrada 8, 10, 14 ou 16 termos-produtos provenientes do plano AND.

2.3 Dispositivo L´

ogico Program´

avel Complexo

A indústria pioneira na tecnologia de CPLDs foi a Altera através do lan¸camento do EPLC (Erasable Programmable Logic Device - Dispositivo Lógico Apagável e Programável) em 1988. Tal dispositivo possibilita o projeto de sistemas relativamente maiores que os SPLDs, mas geralmente oferece menos recursos lógicos que os FPGAs. Os CPLDs possuem tipicamente 50 vezes a capacidade de um SPLD e sua arquitetura clássica mostra-se ineficiente para densidades maiores (GERICOTA, 2003).

A figura 2.7 mostra a arquitetura de um CPLD. Os dispositivos lógicos programáveis complexos mais novos apresentam melhorias em rela¸cão ao esquema clássico. A arquitetura do CPLD pode ser compreendida como muitos SPLDs conectados através de um arranjo

(39)

2.3. DISPOSITIVO L ´OGICO PROGRAM ´AVEL COMPLEXO 17

Figura 2.7: CPLD: arquitetura.

de conexões programáveis. Neste caso, estes SPLDs são ocasionalmente referenciados por “blocos lógicos”. Cada bloco lógico de um CPLD, por sua vez, inclui de oito a dezesseis macrocélulas todas elas conectadas permanentemente entre si. A programa¸cão do CPLD consiste, portanto, em conectar determinados blocos lógicos entre si para alcan¸car o resultado desejado.

A maior parte dos CPLDs contém macrocélulas com uma fun¸cão lógica combinacional na forma de soma-de-produtos além de um flip-flop opcional. Dependendo do CPLD, a fun¸cão lógica pode suportar de quatro a dezesseis mintermos. Os CPLDs podem variar também quanto ao número de portas lógicas e registradores de deslocamento. Isto possibilita que CPLDs com grande número de portas lógicas possam ser usados no lugar de FPGAs. Uma outra especifica¸cão do CPLD é o número de mintermos que a macrocélula é capaz de gerenciar.

Os CPLDs estão dispon´ıveis em muitas op¸cões de encapsulamento, fam´ılias lógicas, freqüência máxima de opera¸cão, tensão de alimenta¸cão, corrente de opera¸cão, corrente de standby e dissipa¸cão de potência. Podem ainda variar quanto a quantidade de memória e os diferentes tipos de memória suportados (AGRAWAL; CHENG, 2005), dentre os quais:

• ROM (Read-Only Memory - Mem´oria S´o de Leitura)

(40)

• DPRAM (Dual-Port RAM - RAM de Dupla Porta) (DALLAS, 2001)

• CAM (Content-Addressable Memory - Memória Endere¸cável por Conteúdo) (PAGI-AMTZIS; SHEIKHOLESLAMI, 2006; KOHONEN, 1987)

• Memória FIFO (First-In First-Out - Primeiro a Entrar, Primeiro a Sair) • Memória LIFO (Last-In First-Out - Último a Entrar, Primeiro a Sair)

Existem diversas especifica¸cões de desempenho para CPLDs. Freqüência interna de ope-ra¸cão, atraso de propaga¸cão e speed grade são alguns exemplos. O speed grade indica o atraso em nanosegundos (ns) através de uma macrocélula do dispositivo. Um speed grade de -10, por exemplo, representa um atraso de 10ns através da macrocélula. Claramente, quanto mais próximo do zero estiver o speed grade, mais rápido será o dispositivo.

Alguns CPLDs incluem PLL (Phase-Locked Loop - Malha Fechada de Fase4_{) e DLL}

(Delay-Loked Loop - Malha Fechada de Atraso) integradas conferindo poder para s´ıntese de variadas freqüências de clock e permitindo seu uso em aplica¸cões de SoC (System-on-Chip - Sistema em Chip). Os circuitos de gerenciamento de clock através da multiplica¸cão de freqüência possibilitam a gera¸cão de sinais de clock internos de alta velocidade para amostra-gem de dados em aplica¸cões de processamento digital de sinais. Além do mais, a utiliza¸cão de PLLs e DLLs provê grande controle sobre os sinais de clock internos. Este ponto, em particu-lar, é cr´ıtico na integra¸cão de sistemas que operam com diversos dom´ınios de clock (BENINI; MICHELI, 2002; HAMMOND; NAYFEH; OLUKOTUN, 1997).

Uma outra caracter´ıstica muito importante dos CPLDs é a temporiza¸cão predit´ıvel que o torna uma excelente escolha para aplica¸cões de controle de alto desempenho. Tipicamente os CPLDs possuem atrasos menores e mais previs´ıveis que os FPGAs e outros PLDs. Por serem baratos e apresentarem consumo de potência relativamente baixo, os CPLDs são freqüente-mente usados em aplica¸cões de baixo custo, aplica¸cões portáteis alimentadas por baterias e substitui¸cão de lógicas aleatórias (random logic) sofisticadas e circuitos de acoplamento (glue logic) mais complexos.

Os CPLDs podem ser encontrados em variadas densidades que vão de 32 macrocélulas nos modelos mais simples até 1700 macrocélulas nos modelos de mais alta capacidade. A Xilinx oferece as séries CoolRunner e XC9500 de CPLDs com densidades entre 32 e 512 macrocélulas, enquanto sua principal concorrente, a Altera, traz as séries MAX que podem chegar a 1700 macrocélulas5_.

4

Ou Malha de Fase S´ıncrona.

5

(41)

2.4. ARRANJO DE PORTAS PROGRAM ´AVEL EM CAMPO 19

2.4 Arranjo de Portas Program´

avel em Campo

Neste trabalho foi utilizada a tecnologia de FPGA (Field Programmable Gate Array) para a implementa¸cão de uma arquitetura de processamento paralelo, logo o seu estudo é desen-volvido de forma mais detalhada para apresentar os fundamentos teóricos necessários para a compreensão do trabalho. O FPGA é um circuito integrado composto por blocos lógicos dispostos em forma de matriz, blocos de memória, blocos de E/S e uma lógica de intercone-xão programável, podendo conter ainda vários outros recursos como multiplicadores, PLLs, DLLs, circuitos de CRC (Cyclical Redundancy Check - Verifica¸cão de Redundância C´ıclica) e ECC (Error Correction Code - Código de Corre¸cão de Erro), além de variados tipos de memória. A funcionalidade dos componentes de um FPGA assim como o seu roteamento, podem ser configurados via softwares de EDA.

2.4.1 Surgimento do FPGA

O primeiro chip de FPGA foi desenvolvido por Ross Freeman e Bernard Vonderschmitt em 1983. Estes dois, até então engenheiros da Zilog Corp., fundaram a Xilinx Inc. em 1984, e no ano seguinte lan¸caram o primeiro chip de FPGA do mercado – o Xilinx XC2064™ (XILINX, 2007b). Este dispositivo pioneiro possu´ıa 1000 portas lógicas e representava uma forma revolucionária de lógica programável para a época. Na atualidade temos Altera, Xilinx, Lattice Semiconductor e Actel como os principais fabricantes de FPGA. Os quatro juntos representam 90% do mercado mundial enquanto QuickLogic, Atmel, Cypress, Motorola são alguns dos outros fabricantes que disputam a fatia restante (FPGA. . . , 2007; ALTERA, 2007a).

As ra´ızes históricas do FPGA estão nos CPLDs e MPGAs (Mask Programmable Gate Array - Arranjo de Portas Programável por Máscara). Os FPGAs surgiram com o intuito de superar as dificuldades encontradas na fabrica¸cão de FPDs de capacidades mais elevadas. A arquitetura dos CPLDs esbarrava na grande complexidade da matriz de interconexão para dispositivos com grande capacidade lógica. Por este motivo, CPLDs não ultrapassaram a barreira das 512 macrocélulas em um único dispositivo técnico-economicamente viável. Por outro lado, a tecnologia de FPGA apresenta-se com uma revolucionária arquitetura de FPDs que oferece possibilidades muito maiores de expansão devido à técnica de “conexão segmentada” de blocos lógicos, diferenciando-se da “conexão cont´ınua” utilizada nos FPDs precursores.

o valor apresentado é baseado em uma conversão para o número equivalente de macrocélulas declarado pelo fabricante.

(42)

Figura 2.8: FPGA: arquitetura t´ıpica.

2.4.2 Arquitetura do FPGA

A figura 2.8 ilustra a arquitetura t´ıpica de um FPGA e suas três estruturas básicas, a saber: os blocos lógicos, os blocos de E/S e as chaves de interconexão.

O constituinte principal de um FPGA é o bloco lógico, pois nele são implementadas as fun¸cões lógicas desejadas. Existem diferentes denomina¸cões para “bloco lógico” dependendo do fabricante do dispositivo. A Xilinx denomina seu bloco lógico de CLB (Configurable Logic Block - Bloco Lógico Configurável), a Actel referencia-o por LM (Logic Module - Módulo Lógico) e a Altera por LE (Logic Element - Elemento Lógico). A estrutura interna dos blocos lógicos de um FPGA pode variar de um dispositivo para outro e a complexidade desta estrutura permite classificá-los quanto à granularidade.

Os blocos de E/S estão dispostos fisicamente na região periférica do substrato, podem ser programados como entrada, sa´ıda ou bidirecionais, permitindo acesso aos pinos de E/S de uso geral na parte externa do dispositivo através de um buffer.

(43)

2.4. ARRANJO DE PORTAS PROGRAM ÁVEL EM CAMPO 21 lógicos e blocos de E/S. O processo de escolha das conexões a realizar é chamado de “rotea-mento”.

A funcionalidade do FPGA é definida através de comutadores elétricos programáveis cujas propriedades, tamanho, resistência e capacitância parasita definem a eficiência e o desempenho do dispositivo (GERICOTA, 2003).

2.4.3 Classifica¸c˜

ao dos FPGAs

Os dispositivos FPGAs podem classificados, dentre outras formas, quanto à tecnologia de programa¸cão que empregam, quanto ao número de configura¸cões que permite e quanto à gra-nularidade das estruturas internas. Cada uma destas formas é descrita nas se¸cões seguintes.

2.4.3.1 Tecnologia de Programa¸c˜ao

Os FPGAs podem ser classificados quanto à tecnologia de suas conexões. Neste quesito encontra-se, atualmente, três tipos de FPGAs que serão descritos a seguir.

SRAM: Os FPGAs baseados em memória estática usam as células da memória de configu-ra¸cão como forma de implementa¸cão da lógica desejada. As células encontram-se distribu´ıdas entre os blocos lógicos de forma a controlar a interliga¸cão entre eles. Esta é a tecnologia de programa¸cão mais utilizada em FPGAs de maior densidade de integra¸cão. Os comutadores que possibilitam o estabelecimento de interliga¸cões são chamados de PIPs (Programmable Interconnect Points - Pontos de Interconexão Programável).

Antifus´ıvel: Antifus´ıveis são elementos programáveis de dois terminais que quando sub-metidos a uma determinada tensão (chamada tensão de programa¸cão), alteram de forma irrevers´ıvel o valor da sua impedância que passa de um valor muito elevado a um valor muito baixo. A baixa resistência de condu¸cão e o tamanho reduzido fazem dos antifus´ıveis elemen-tos adequados para utiliza¸cão como tecnologia de programa¸cão de FPGAs. A programa¸cão de dispositivos baseados nesta tecnologia é bem mais rápida que nos dispositivos baseados em SRAM (GERICOTA, 2003 apud GREENE; HAMDY; BEAL, 1993). A tecnologia de an-tifus´ıvel é não-volátil, contudo tem as desvantagens de ser programável uma única vez (OTP) e apresentar elevadas correntes de fuga através dos elementos não conectados.

(44)

Porta Flutuante: A tecnologia de programa¸cão baseada em EEPROM (Electricaly Era-sable and Programmable ROM - ROM Apagável e Programável Eletricamente) e Flash é freqüentemente utilizada em CPLDs, embora possa ser encontrada esporadicamente aplicada em FPGAs. Uma célula de EEPROM é um transistor MOS (Metal-Oxide-Semiconductor - Metal- Óxido-Semicondutor) que armazena carga numa placa condutora eletricamente iso-lada (porta flutuante), localizada acima do canal do transistor. Quando carregada, a porta flutuante gera um campo elétrico capaz de modificar a condutividade do canal. A carga da porta flutuante pode ser aumentada ou reduzida através da a¸cão de um fenômeno de condu-¸cão de corrente denominado efeito de tunelamento de Fowler-Nordheim (GERICOTA, 2003 apud CONSTANCIAS, 1998). Quando submetida a baixos n´ıveis de polariza¸cão, a camada de óxido de sil´ıcio é uma excelente isolante, mas torna-se suficientemente condutora quando sujeita a uma tensão de polariza¸cão elevada6 _{(tensão de programa¸cão), levando à passagem}

de elétrons que podem carregar ou descarregar a porta flutuante. Retirando-se a tensão de programa¸cão, o óxido volta a apresentar caracter´ısticas isolantes e a carga da porta flutuante fica retida podendo permanecer por muitos anos. Desta forma, a tensão pode ser lida sem alterar a carga armazenada.

A tecnologia Flash é uma varia¸cão da EEPROM e possui células que ocupam a metade da área de uma célula de EEPROM normal. O apagamento é mais simples e rápido, contudo não é poss´ıvel a altera¸cão de posi¸cões de memória individuais.

2.4.3.2 Possibilidades de Configura¸c˜ao

Quanto à reconfigurabilidade, podemos classificar os dispositivos de FPGA em duas catego-rias: os OTP (One-Time Programmable - Programável uma Única Vez) e os reconfiguráveis (baseados em SRAM, EEPROM e Flash). As diferen¸cas básicas entre eles resultam da tec-nologia empregada na implementa¸cão dos seus blocos lógicos e mecanismos de interconexões internas (BROWN; ROSE, 1996), ou seja, da tecnologia de programa¸cão empregada.

Programáveis (OTPs): FPGAs OTP usam tecnologia baseada em antifus´ıveis para re-alizar conexões (permanentes) no dispositivo. Neste caso, os blocos lógicos são semelhantes aos usados em CPLDs e SPLDs, contendo matrizes de portas lógicas e flip-flops. Os OTPs possuem tecnologia baseada em PROM. Os principais fabricantes desta categoria de FPGAs são Actel e QuickLogic.

6

(45)

2.4. ARRANJO DE PORTAS PROGRAM ÁVEL EM CAMPO 23 Reprogramáveis: O FPGA reprogramável é a categoria dominante. A implementa¸cão dos seus blocos lógicos se dá usando uma LUT (Look-Up Table - Tabela de Consulta) baseada em SRAM (Static RAM - RAM Estática) no lugar de matrizes de portas lógicas. Fun¸cões lógicas são implementadas através do mapeamento dos bits na SRAM. Esta tecnologia permite ao usuário reprogramar o chip de acordo com suas necessidades. Este tipo de FPGA precisa ser reprogramado toda vez que é reenergizado uma vez que a SRAM é uma memória volá-til e apenas mantém as informa¸cões nela armazenadas enquanto o chip estiver alimentado. Por este motivo, uma memória serial não volátil (SPROM) é requerida para reprogramar o FPGA a cada vez que é energizado. Este processo é conhecido também como “configura-¸cão” ou “boot” do FPGA. A técnica mais usual para realizá-lo emprega um tipo de memória EEPROM especialmente desenvolvida para esta finalidade denominada memória de configu-ra¸cão. Pode-se utilizar alternativamente cartões de memória (cartões SD, xD, CompactFlash etc.) ou memória FLASH convencional associada a um CPLD para implementar os méto-dos de programa¸cão proprietários de cada fabricante, e.g., o SelectMAP da Xilinx (XILINX, 2007a).

A volatilidade é uma caracter´ıstica dos FPGAs com tecnologia de programa¸cão baseada em SRAM, contudo os modelos baseados em porta flutuante (EEPROM e Flash) mantém a sua programa¸cão mesmo após a desenergiza¸cão do dispositivo.

Tem-se grande vantagem na utiliza¸cão de FPGAs reprogramáveis quando se necessita realizar ajustes e corre¸cões no projeto pois, neste caso, é suficiente a atualiza¸cão da memória de configura¸cão. Por outro lado, quando se utiliza OTPs qualquer modifica¸cão no projeto implica na substitui¸cão do FPGA por um outro dispositivo virgem que possa ser programado com a nova configura¸cão.

2.4.3.3 Granularidade

As arquiteturas de FPGA podem variar ainda com rela¸cão à complexidade das suas unida-des internas (grãos). Este aspecto é denominado de “granularidade” ou “granulosidade” do dispositivo (GERICOTA, 2003). Os FPGAs podem ser de granularidade grossa, média ou fina, como será descrito a seguir.

Granularidade Grossa: São dispositivos que possuem grãos grandes, ou seja, módulos estruturalmente complexos como unidades lógicas aritméticas, pequenos microprocessadores, memórias et cetera.

(46)

C A P Í T U L O 2 : E L E T R Ô N IC A R E C O N F IG U R Á V E L

Fabricante Fam´ılia Tecnologia de

Programa¸c˜ao Granularidade

Capacidade

L´ogica (Portas)

Estruturas

Heterogˆeneas

Actel Axcellerator antifus´ıvel fina at´e 2M SRAM embutida

ProASIC Flash fina at´e 1M SRAM embutida

Altera Stratix III SRAM m´edia at´e 338K LEs SRAM embutida

Almel AT40K SRAM m´edia at´e 50K –

Lattice LatticeSC SRAM grossa at´e 900M RAM embutida

QuickLogic

pASIC3 antifus´ıvel m´edia at´e 75K –

Eclipse-II antifus´ıvel m´edia at´e 370K

SRAM e unidades computacionais

embutidas

Xilinx

XC4000XL SRAM m´edia at´e 180K –

Virtex-EM SRAM m´edia at´e 3M SRAM embutida

Virtex-II SRAM m´edia at´e 8M SRAM embutida

Virtex-II Pro SRAM m´edia –

SRAM, multiplicadores, processadores PowerPC, transmissores e receptores embutidos Tabela 2.1: Comparativo entre FPGAs de diferentes fabricantes

(47)

2.5. LINGUAGEM DE DESCRI ¸C ÃO DE HARDWARE 25 Granularidade Média: Módulos de grãos médios são blocos lógicos com duas ou mais LUTs e dois ou mais flip-flops. Nesta classe está inclusa a maior parte das arquiteturas de FPGAs. Apresentam atrasos de interconexão relativamente pequenos.

Granularidade Fina: São dispositivos constitu´ıdos de grãos pequenos, i.e., módulos de pequena complexidade com blocos lógicos contendo uma fun¸cão lógica de duas entradas ou um multiplexador e um flip-flop. FPGAs de granularidade fina fazem, em geral, melhor utiliza¸cão dos recursos e permitem sua conversão direta para ASIC, contudo requerem maior número de interconexões e possuem roteamento mais complexo.

Dentre todos os PLDs tratados anteriormente, os FPGAs são os que possuem a maior capacidade lógica da atualidade, sendo utilizados em diversos produtos industriais e de uso doméstico.

A tabela 2.1 apresenta dados comparativos entre os principais dispositivos dispon´ıveis no mercado atual. S˜ao apresentados, de forma resumida, os principais recursos de cada modelo bem como a tecnologia em que s˜ao confeccionados.

2.5 Linguagem de Descri¸c˜

ao de Hardware

As linguagens de descri¸cão de hardware (HDL) surgiram com a finalidade de documentar projetos de sistemas digitais. Em seguida foram usadas com a finalidade de simula¸cão e nos últimos vinte anos é notável sua populariza¸cão em aplica¸cões de s´ıntese de circuitos digitais em dispositivos lógicos programáveis (BALCH, 2003). As duas principais linguagens de descri¸cão de hardware da atualidade são Verilog e VHDL (VHSIC Hardware Description Language). Ambas incorporam padrões internacionais da indústria. Neste trabalho é dado um maior enfoque para a linguagem VHDL por ser uma linguagem altamente estruturada e fortemente tipada, tendo suas ra´ızes na linguagem ADA.

2.5.1 N´ıveis de Abstra¸c˜

ao

VHDL é uma linguagem multin´ıvel, ou seja, ela permite modelagem em vários n´ıveis de abstra¸cão. A seguir serão brevemente descritos cada um dos poss´ıveis n´ıveis de descri¸cão de modelos na linguagem VHDL.

(48)

2.5.1.1 N´ıvel de Portas

Este é o n´ıvel que provê o maior detalhamento para simula¸cão de circuitos digitais e representa também o n´ıvel de abstra¸cão mais baixo dentro do dom´ınio digital. Tanto para FPGAs quanto para ASICs, a biblioteca dos modelos em n´ıvel de portas é fornecida pelo vendedor ou foundry do componente. Devido à grande quantidade de detalhes, a simula¸cão tende a ser mais lenta que nos outros n´ıveis.

2.5.1.2 N´ıvel de Transferência de Registrador (RTL - Register Transfer Level ) A forma mais discutida e praticada de modelagem HDL é em RTL (MUNDEN, 2005). Este n´ıvel é utilizado para projetar CIs como ASICs e FPGAs. Seu propósito é descrever o objetivo do projeto com detalhamento não tão grande quanto no n´ıvel de portas, mas suficiente para ser compreendido por uma ferramenta de s´ıntese. A s´ıntese consiste em decompor a descri¸cão RTL para o n´ıvel de portas de tal maneira que possa ser usada para criar o layout de um ASIC ou gerar o arquivo de configura¸cão de um FPGA.

Embora o modelo RTL possa ser simulado, quando escrito para s´ıntese, não contém informa¸cões sobre restri¸cões de atraso nas porta e temporiza¸cão. A simula¸cão neste n´ıvel serve para a verifica¸cão da funcionalidade do código, mas torna-se imprecisa. A precisão necessária pode ser obtida simulando-se no n´ıvel de portas.

2.5.1.3 N´ıvel Comportamental

Ao contrário dos n´ıveis mais baixos, modelos neste n´ıvel possuem uma quantidade menor de detalhes, representando um n´ıvel mais alto de abstra¸cão. O propósito do modelo compor-tamental é simular o que acontece nas interfaces de uma célula ou CI. Preocupa-se apenas com o que entra ou sai. A forma como o trabalho é realizado internamente não é levada em considera¸cão neste n´ıvel.

O menor n´ıvel de detalhamento permite uma simula¸cão muito mais rápida que no RTL, contudo, o modelo neste n´ıvel não é sintetizável.

2.5.1.4 Modelo Funcional de Barramento (BFM - Bus Functional Model ) Modelos funcionais de barramento s˜ao usualmente criados para partes muito complexas a ponto de um modelo comportamental se tornar muito custoso para se criar, ou muito lento para se avaliar. BFM tenta modelar a interface sem modelar a fun¸c˜ao do componente. Este

(49)

2.5. LINGUAGEM DE DESCRI ¸C ÃO DE HARDWARE 27 modelo não é completo o bastante para simula¸cão, mas serve para verificar se o componente está corretamente projetado em um sistema maior. Microprocessadores e DSPs (Digital Signal Processor - Processador Digital de Sinais) são exemplos de componentes para os quais se utiliza este n´ıvel de abstra¸cão (MUNDEN, 2005).

2.5.2 Desenvolvimento Hist´

orico do VHDL

A linguagem VHDL foi criada com o intuito de descrever, simular e documentar hardware. Após o surgimento dos dispositivos lógicos programáveis e pelo fato do VHDL ter ampla aceita¸cão, ela passou a servir também para projeto de novos dispositivos e sistemas digitais. Os itens abaixo descrevem o desenvolvimento histórico da linguagem VHDL.

• 1968: desenvolvem-se as primeiras linguagens de descri¸cão de hardware. Dois anos depois já se sentia falta de padroniza¸cão quanto à sintaxe e semântica devido ao surgi-mento de diversas linguagens.

• 1973: nasce o projeto CONLAN (CONsensus LANguage) com o objetivo de definir formalmente uma linguagem de multin´ıvel.

• 1980: é lan¸cado o programa VHSIC (Very High Speed Integrated Circuit - Circuito Integrado de Velocidade Muito Alta). Neste mesmo ano, estima-se que 33 milhões de dólares foram investidos para o desenvolvimento direto de uma linguagem padronizada e suas ferramentas.

• 1983: no mês de julho, em parceria, Intermetrics, IBM e Texas Instruments vencem uma licita¸cão do governo estado-unidense para desenvolver a linguagem VHDL. Após uma década do surgimento do CONLAN seu relatório final foi publicado.

• 1985: em agosto foi entregue a vers˜ao final da linguagem: VHDL vers˜ao 7.2.

• 1986: o IEEE (Institute of Electrical and Electronics Engineers - Instituto de Enge-nheiros Eletricistas e Eletrônicos) designou uma comissão para padroniza¸cão do VHDL. • 1987: foi lan¸cada a primeira padroniza¸cão da linguagem (IEEE Std 1076-1987). • 1988: a linguagem VHDL torna-se um padrão ANSI (American National Standards

Institute - Instituto Nacional Americano de Padr˜oes). Os primeiros softwares foram comercializados.

• 1991: iniciou-se um processo de ajuste do padrão, cujo objetivo era a coleta e análise de requisitos, defini¸cão dos objetivos e a especifica¸cão das modifica¸cões na linguagem.

(50)

• 1992: ocorre a avalia¸cão e vota¸cão das modifica¸cões propostas.

• 1993: foi publicada uma revisão do padrão 1076 do IEEE chamado VHDL-93 (IEEE Std 1164-1993). A linguagem foi aceita pelo IEC (International Electrotechnical Com-mission - Comissão Eletrotécnica Internacional) como DIS (Draft International Stan-dard - Padrão Internacional de Projeto).

• 1997: em dezembro deste ano foi publicado o manual de referˆencia da linguagem VHDL. • 2001: o padr˜ao VHDL foi revisado pelo IEEE novamente (IEEE Std 1364-2001) e

chamado de VHDL-2001.

Estes avan¸cos da eletrônica configurável somados à evolu¸cão de componentes eletrônicos de alt´ıssimo n´ıvel de integra¸cão possibilitaram a embarca¸cão de sistemas multiprocessados em um único CI e, conseqüentemente, aplica¸cões de processamento paralelo embutido.

(51)

29

Cap´ıtulo 3

Processamento Paralelo

Problemas cujo cômputo exige simula¸cões complexas (previsões meteorológicas, dispersão de polui¸cão, biomecânica, dinâmica molecular, turbulência de fluidos ou sistemas de combustão), ou que manipulam grandes quantidades de dados (genoma humano, ecossistemas, modela-gem de semicondutores e supercondutores, processamento de imagens ou renderiza¸cão) são freqüentemente executados com o uso de processamento paralelo (GRAMA et al., 2003). Em geral, recorre-se a esta abordagem quando é necessário resolver problemas maiores ou mais complexos em um certo tempo cr´ıtico, ou quando se deseja reduzir o tempo de processamento de uma tarefa.

Nos últimos 50 anos a computa¸cão sofreu diversas modifica¸cões e avan¸cos (DONGARRA et al., 2003; GRAMA et al., 2003; HINTON et al., 2001). Na segunda metade dos anos 70, a cria¸cão das máquinas vetoriais marcou o in´ıcio da supercomputa¸cão moderna (DONGARRA et al., 2003) e o uso da computa¸cão antes da década de 80 era essencialmente militar e cient´ıfico. Dos anos 50 até os dias de hoje, o desenvolvimento do hardware de novos compu-tadores seguiu, em média, a Lei de Moore (MOORE, 1965) no que se refere ao aumento da capacidade computacional. Percebe-se que a computa¸cão de alto desempenho experimentou um crescimento logar´ıtmico de performance desde o seu surgimento. A figura 3.1 mostra a capacidade de processamento dos computadores de alto desempenho ao longo do tempo, as tecnologias dominantes por per´ıodo e os principais representantes de cada era da evolu¸cão arquitetural.

Em sistemas robóticos, diversas tarefas necessitam de execu¸cão em tempo real, ou seja, com restri¸cões de tempo que se não forem atendidas ocasionam falhas no funcionamento (hard real-time) ou degrada¸cão de performance (soft real-time) (LAPLANTE, 2004). A solu¸cão de problemas desse tipo para robôs de alto desempenho (geralmente mais de quatro graus de liberdade), quando implementada de forma seqüencial, exige freqüentemente hardware de

(52)

Figura 3.1: Evolu¸c˜ao da computa¸c˜ao de alto desempenho (CARRIJO; PAIVA, 2001). alto custo o que torna-se, muitas vezes, um fator proibitivo.

Uma alternativa para a solu¸cão deste problema é a utiliza¸cão de arquiteturas de proces-samento paralelo embutidas em FPGA. Este cap´ıtulo apresenta os princ´ıpios do paralelismo e a técnica de processamento paralelo. Um enfoque especial é dado às taxonomias e métricas de performance de redes.

3.1 Conceitos e Defini¸c˜

oes

Paralelismo: Estratégia de solu¸cão de tarefas que consiste na decomposi¸cão de uma tarefa em outras menores que possam ser realizadas de forma simultânea (AMDAHL, 1967). Processo: Programa em execu¸cão.

Thread: Auto-replica¸cão de um programa que passa a ser executado na forma de duas ou mais tarefas simultâneas ou pseudo-simultâneas, compartilhando o mesmo espa¸co de endere¸cos.

Computa¸cão Paralela: Estratégia de computa¸cão onde se divide o programa em processos a serem executados por diferentes processadores.

Sistema Paralelo: Combina¸c˜ao de uma arquitetura paralela e um algoritmo paralelo im-plementado sobre ela (KUMAR; GUPTA, 1994).