Sizing discreto baseado em relaxação lagrangeana para minimização de leakage em circuitos digitais

(1)

Vin´ıcius dos Santos Livramento

SIZING DISCRETO BASEADO EM RELAXAÇ ÃO LAGRANGEANA PARA MINIMIZAÇ ÃO DE LEAKAGE EM CIRCUITOS DIGITAIS

Florian´opolis(SC) 2013

(2)

(3)

Dissertação submetida ao Programa de Pós-Graduação em Ciência da Computação para a obtenção do Grau de Mestre em Ciência da Computação.

Orientador: Prof. Dr. Jos´e Lu´ıs Almada G¨untzel

Coorientador: Prof. Dr. Marcelo de Oli-veira Johann

Florian´opolis(SC) 2013

(4)

Livramento, Vinícius dos Santos

Sizing Discreto Baseado em Relaxação Lagrangeana para Minimização de Leakage em Circuitos Digitais / Vinícius dos Santos Livramento ; orientador, José Luís Almada Güntzel ; co-orientador, Marcelo de Oliveira Johann. - Florianópolis, SC, 2013.

131 p.

Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação.

Inclui referências

1. Ciência da Computação. 2. Automação de Projeto Eletrônico (EDA). 3. Sizing Discreto de Portas Lógicas. 4. Relaxação Lagrangeana. I. Güntzel, José Luís Almada. II. Johann, Marcelo de Oliveira. III. Universidade Federal de Santa Catarina. Programa de Pós-Graduação em Ciência da Computação. IV. Título.

(5)

Esta Dissertação foi julgada aprovada para a obtenção do T´ıtulo de “Mestre em Ciência da Computação”, e aprovada em sua forma final pelo Programa de Pós-Graduação em Ciência da Computação.

Florian´opolis(SC), 23 de Fevereiro 2013.

Prof. Dr. Ronaldo dos Santos Mello Coordenador

Prof. Dr. Jos´e Lu´ıs Almada G¨untzel Orientador

Banca Examinadora:

Prof. Dr. Jos´e Lu´ıs Almada G¨untzel Presidente

Prof. Dr. Marcelo de Oliveira Johann Coorientador

(6)

(7)

(8)

(9)

(10)

(11)

Aos meus pais, Mário e Cristina, pelo amor, carinho e dedicação que nunca faltaram. Também aos meus irmãos, Natália e Vitor, pelo apoio e com-preensão.

Agradeço à minha namorada Juliana pela paciência logo in´ıcio do na-moro, que coincidiu justamente com a etapa final da dissertação.

Ao meu orientador, José Lu´ıs Güntzel, pela confiança, dedicação e incentivos presentes durante todo o per´ıodo do mestrado. Agradeço também por sua excelente orientação e rigor exigido, os quais foram fundamentais para o sucesso desta dissertação de mestrado.

Ao meu coorientador, Marcelo de Oliveira Johann, pela grande cola-boração com o trabalho. Em especial às horas de reunião via skype, as quais foram fundamentais a este trabalho.

Aos demais membros da banca pelo tempo dedicado para uma revis˜ao rigorosa e pelas sugest˜oes que contribuiram com este trabalho.

Aos colegas do ECL que de alguma forma participaram deste trabalho. Em particular, ao colega Chrystian Guth por todo suporte t´ecnico prestado, essencial para o sucesso deste trabalho.

Ao CNPq, no âmbito do Programa Nacional de Microeletrônica, pelo custeio parcial da execução deste trabalho (Processo número:

(12)

(13)

Royce would get half a million miles per gal-lon, and it would be cheaper to throw it away than to park it.” (Gordon Moore, 1998).

(14)

(15)

A minimização da corrente de leakage é um passo essencial do projeto de circuitos digitais, uma vez que nas tecnologias CMOS recentes a potência de leakage tornou-se comparável à potência dinâmica. Gate sizing é uma técnica amplamente utilizada para minimização da potência de leakage de-vido à sua eficácia e ao baixo impacto que ele causa no fluxo standard cell. Em tal fluxo, o problema de sizing corresponde a selecionar, para cada porta do circuito, uma combinação de largura de porta e tensão de threshold dis-pon´ıvel na biblioteca de células, de modo a satisfazer as restrições de pro-jeto. A natureza discreta do problema, a qual o torna NP-dif´ıcil, e o grande número de portas nos circuitos contemporâneos têm motivado a busca por heur´ısticas eficientes, que sejam capazes de resolvê-lo em tempo de execução aceitável. Este trabalho apresenta três contribuições principais ao estado da arte. A primeira é uma formulação aperfeiçoada para o problema de sizing discreto baseada em Relaxação Lagrangeana (LR), a qual considera valores máximos de slew de entrada e de capacitância de sa´ıda das portas, impostas pelas bibliotecas standard cell. A segunda é uma heur´ıstica topológica gulosa para resolver a formulação LR proposta utilizando informações locais para guiar as decisões do algoritmo. A terceira contribuição reside em uma técnica h´ıbrida de três passos para superar algumas das limitações da heur´ıstica to-pológica gulosa. Tal técnica h´ıbrida inicia resolvendo a formulação LR as-sumindo um atraso cr´ıtico ligeiramente maior do que o atraso cr´ıtico-alvo e em seguida, aplica uma heur´ıstica rápida de recuperação de atraso para que o atraso cr´ıtico-alvo original seja satisfeito. Como terceiro passo, é usada uma heur´ıstica de recuperação de potência para reduzir ainda mais a potência de leakage explorando o espaço para otimização deixado pelos dois passos anteriores. Os experimentos práticos foram gerados utilizando-se a infra-estrutura da Competição de Sizing Discreto do ISPD2012, a qual provê uma base comum para comparações justas com os trabalhos correlatos mais recen-tes. Os resultados experimentais para a formulação LR usando a heur´ıstica topológica gulosa foram comparados com os resultados obtidos pelas três equipes melhor classificadas na Competição do ISPD 2012, os quais repre-sentavam o estado da arte no momento em que tais experimentos foram rea-lizados. A potência de leakage obtida é, em média, 18,9%, 16,7% e 43,8% menor do que aquelas obtidas pelas três melhores equipes da Competição do ISPD2012, respectivamente, ao passo que o tempo de execução total é 38, 31 e 39 vezes menor. Com relação à técnica h´ıbrida, a potência de leakage obtida é, em média, 8,15% menor do que aquela relatada pelo trabalho que representa o estado da arte na ocasião em que estes experimentos foram rea-lizados, sendo o tempo total de execução uma ordem de magnitude menor. É

(16)

Palavras-chave: Automação de projeto eletrônico (EDA). Fluxo de projeto standard cell. Minimização da potência de leakage. Sizing discreto de portas. Relaxação Lagrangeana.

(17)

Leakage current minimization is an essential step in the design of digital circuits, as leakage power became comparable to dynamic power in recent CMOS technologies. Gate sizing is a widely used technique to minimize le-akage due to its effectiveness and its low impact on the standard cell flow. In such flow, the sizing problem corresponds to selecting, for each gate in the circuit, a combination of gate width and threshold voltage available in the cell library in such a way the design constraints are met. The discrete nature of the problem, which makes it NP-hard, and the large number of gates in contemporary circuits motivate the search for efficient heuristics able to solve it within acceptable runtimes. This work presents three main contributions to the state-of-the-art. The first one is an improved Lagrangian Relaxation (LR) formulation for the discrete gate sizing problem that accounts for the maximum gate input slew and maximum gate output capacitance constraints imposed by standard cell libraries. The second one is a topological greedy heuristic for solving the proposed LR formulation relying on local informa-tion to guide the algorithm’s decisions. The third contribuinforma-tion relies on a three-step hybrid technique to overcome some limitations of the topological greedy heuristic. Such hybrid technique begins by solving the LR formulation by slightly loosening the delay constraint and then applies a fast delay reco-very heuristic to meet the original delay constraint. As a third step, a leakage power recovery heuristic is used to further reduce leakage power by explo-ring the room for optimization left by the two previous steps. The practical experiments relied on the up-to-date ISPD 2012 Discrete Gate Sizing Con-test infrastructure, which provided a common basis for fair comparisons with most recent related works. The experimental results for the LR formulation using the topological greedy heuristic were compared to those from the top three teams of the ISPD 2012 Contest, which represented the state-of-the-art at the time such experiments were conducted. The obtained leakage power is, on average, 18.9%, 16.7% and 43.8% smaller than those obtained by the top three teams of the ISPD 2012 Contest, respectively, while the total runtime is 38, 31 and 39 times shorter. Concerning the hybrid technique, the obtai-ned leakage power is, on average, 8.15% smaller than that reported by the state-of-the-art work at that time, being the total execution time one order of magnitude faster. It is important to highlight that the referred state-of-the-art work had already surpassed the top three teams of the ISPD 2012 Contest. Keywords: Electronic Design Automation (EDA). Standard cell design flow. Leakage power minimization. Discrete gate sizing. Lagrangian Relaxation (LR).

(18)

(19)

Figura 1 Principais componentes de corrente de leakage em um transis-tor MOS em tecnologia nanométrica. Adaptado de Rabaey (2009). . . 30 Figura 2 Projeções para as potências dinâmica e estática em um chip, baseadas no ITRS (International Technology Roadmap for Semiconduc-tors), atualização de 2002. Fonte: Kim et al. (2003). . . 31 Figura 3 Projeções para as potências dinâmica e estática em uma porta. Nesta figura Vdd é a tensão de alimentação e Vth é a tensão de threshold.

Fonte: (SAKURAI, 2003). . . 32 Figura 4 Fluxo simplificado de projeto de circuitos digitais baseado em standard cell. Adaptado de: (LEE; GUPTA, 2012). . . 35 Figura 5 Exemplo de circuito combinacional. . . 46 Figura 6 Grafo Ac´ıclico Direcionado (DAG) do circuito combinacional apresentado na Figura 5. . . 47 Figura 7 Caracter´ısticas temporais de uma porta, ilustradas pelo com-portamento de um inversor. A parte superior ilustra a definição de atraso de descida e subida. Já a parte inferior apresenta uma ilustração do slew de descida e subida, respectivamente. . . 50 Figura 8 Associação entre timing arc e propriedade unateness. Adap-tado de Bhasker e Chadha (2009). . . 51 Figura 9 Tabela retirada da biblioteca da Competição do ISPD 2012 (ISPD, 2012). Esta tabela contém as informações de atraso de descida de uma das entradas de uma porta NAND como função da capacitância de sa´ıda e do slew de entrada. . . 52 Figura 10 (a) Apresenta uma instância do problema do caminho m´ınimo com restrição, no qual cada aresta e ∈ E possui um par de valores asso-ciados (ce,te), onde cee terepresentam o custo e tempo necessário para

percorrer a aresta e, respectivamente. (b) Exemplo do problema do cami-nho m´ınimo após a aplicação de Relaxação Lagrangeana assumindo um λ = 2. Note que o custo de cada aresta não é mais o par (ce,te), mas sim

o valor ce+ λ te. Adaptado de (AHUJA; MAGNANTI; ORLIN, 1993). . . 59

Figura 11 Exemplo de circuito para facilitar o entendimento da heur´ıstica proposta. . . 93 Figura 12 Evolução da otimização do circuito leon3mp fast (649K por-tas) utilizando o escalonamento do fator de importância da potência α. . . 102 Figura 13 Evolução da otimização do circuito leon3mp fast (649K

(20)

por-máximo slew na otimização do circuito leon3mp fast (649K portas). . . 104 Figura 15 Comportamento do tempo de execução da técnica proposta, calculado empiricamente (considerando 60 iterações). . . 105 Figura 16 Explorando o espaço de otimização da heur´ıstica gulosa base-ada em LR em três circuitos da Competição do ISPD 2012. . . 109 Figura 17 Avaliando o impacto da heur´ıstica de recuperação de atraso após a otimização baseada em LR para o circuito DMA da Competição do ISPD 2012. . . 113 Figura 18 Avaliando o impacto das heur´ısticas de recuperação de atraso e potência após a otimização baseada em LR para o circuito DMA da Competição do ISPD 2012. . . 115 Figura 19 Comparações das reduções de leakage normalizadas com relação aos melhores resultados obtidos na Competição do ISPD 2012 para cada um dos circuitos fast. . . 117 Figura 20 Comparações das reduções de leakage normalizadas com relação aos melhores resultados obtidos na Competição do ISPD 2012 para cada um dos circuitos slow. . . 118

(21)

Tabela 1 Resumo da infraestrutura utilizada nos Cap´ıtulos 5 e 6. . . 43 Tabela 2 Resumo dos principais e mais recentes trabalhos encontrados na literatura de sizing discreto. . . 78 Tabela 3 Caracter´ısticas dos circuitos da Competição do ISPD 2012 e resultados da técnica proposta. . . 100 Tabela 4 Comparação de potência de Leakage com as três melhores equipes da Competição do ISPD 2012 (resultados das equipes disponi-bilizados em dom´ınio público por ISPD (2012)). “X” corresponde aos resultados com violações. aMenor valor de leakage obtido em cada cir-cuito, considerando-se todas as equipes competidoras.b_{Média calculada}

ignorando-se resultados com violações. . . 101 Tabela 5 Comparação do tempo de execução com as três melhores equi-pes da Competição de sizing do ISPD 2012 (resultados das equiequi-pes dis-ponibilizados em dom´ınio público por ISPD (2012)). “X” corresponde aos resultados com violações. Menoracorresponde ao menor valor de le-akageobtido em cada circuito considerando-se todos os competidores.b Média calculada ignorando-se resultados com violações. . . 106 Tabela 6 Comparação de potência de Leakage da técnica h´ıbrida com as técnicas estado da arte no momento que os experimentos foram rea-lizados. (*) Resultados do circuito des perf fast foram obtidos por meio do “afrouxamento” de 4% do atraso cr´ıtico-alvo. . . 119 Tabela 7 Comparação do tempo de execução da técnica h´ıbrida com as técnicas estado da arte no momento que os experimentos foram realiza-dos. . . 120

(22)

(23)

1 TOPOLOGICAL SORT . . . 55 2 STATIC TIMING ANALYSIS . . . 57 3 DISCRETE SIZING BASED ON LR . . . 90 4 SOLVE LRS . . . 95 5 FIX VIOLATIONS . . . 96 6 DISCRETE GATE SIZING . . . 97 7 SOLVE LDP . . . 98 8 DISTRIBUTE TIMING LMs . . . 99 9 DELAY RECOVERY . . . 110 10 COMPUTE SENSITIVITY . . . 111 11 POWER RECOVERY . . . 114

(24)

(25)

CMOS Complementary Metal-Oxide Semiconductor DAG Directed Acyclic Graph

(Grafo Ac´ıclico Direcionado)

DP Dynamic Programming

(Programação Dinâmica) EDA Eletronic Design Automation

(Automação de Projeto Eletrônico) ERC Electrical Rule Checking

(Checagem de Regras El´etricas) ITA Incremental Timing Analysis

(An´alise de Timing Incremental)

ITRS International Technology Roadmap for Semiconductors

KKT Karush-Kuhn-Tucker

LDP Lagrangian Dual Problem (Problema Lagrangeano Dual)

LF Lagrangian Function (Função Lagrangeana) LM(s) Lagrangian Multiplier(s) (Multiplicador(es) de Lagrange) LP Linear Programming (Programação Linear) LR Lagrangian Relaxation (Relaxação Lagrangeana)

LRS Lagrangian Relaxation Subproblem (Subproblema Lagrangeano Relaxado) NLDM Non-Linear Delay Model

PMD Personal Mobile Device (Dispositivo Pessoal Port´atil) RC Resistor-Capacitor

PP Primal Problem

(Problema Primal) RTL Register Transfer Level

(N´ıvel de Transferˆencia de Registradores) SDC Synopsys Design Constraints

SF Sensitivity Function (Func¸˜ao de Sensibilidade)

(26)

(27)

Representac¸˜ao de um circuito digital:

V: Conjunto de v´ertices em um DAG, onde V = X ∪ PI ∪ PO. X: Conjunto de portas l´ogicas em um DAG.

PI: Conjunto de entradas prim´arias. PO: Conjunto de sa´ıdas prim´arias. E: Conjunto de arestas do DAG. S: Nodo fonte do DAG.

T: Nodo terminal do DAG. vi: Um v´ertice i do DAG.

vk_i: Um vértice i em sua opção de implementação k. eji: Uma aresta entre um nodo vje um nodo vi.

An´alise de Timing Est´atica:

a_if: Tempo de chegada de descida na sa´ıda de vi.

ar_i: Tempo de chegada de subida na sa´ıda de vi.

r_if: Tempo requerido de descida na sa´ıda de vi.

rr_i: Tempo requerido de subida na sa´ıda de vi.

s_if: Slack de descida na sa´ıda de vi.

sr_i: Slack de subida na sa´ıda de vi.

d_j→if : Atraso de descida entre uma entrada j e a sa´ıda de vi.

dr_j→i: Atraso de subida entre uma entrada j e a sa´ıda de vi.

slew_if: Slew de descida na sa´ıda de vi.

slewr

i: Slew de subida na sa´ıda de vi.

slewf_j→i: Slew de descida entre uma entrada j e a sa´ıda de vi.

slewr_j→i: Slew de subida entre uma entrada j e a sa´ıda de vi.

capi: Capacitˆancia de sa´ıda de um nodo vi.

max slew: Restrição de máximo slew imposta pela biblioteca standard cell. max capi: Restrição de máxima capacitância de viimposta pela biblioteca

standard cell.

Ao: Restric¸˜ao de atraso cr´ıtico-alvo.

f anin(vi): Conjunto de portas que s˜ao fanin do nodo vi.

f anout(vi): Conjunto de portas que s˜ao fanout do nodo vi.

Biblioteca standard cell: wi: Largura de vi.

(28)

pi: Consumo de leakage de um nodo vi.

∆d(vk_i, vl_i): Variação de atraso resultante da troca da opção de implementação de vi.

∆leakage(vk_i, vl_i): Variação de leakage resultante da troca da opção de implementação de vi.

Multiplicadores de Lagrange:

λ : Multiplicador de Lagrange relativo às restrições de timing do circuito. λ_j→if : Multiplicador de Lagrange associado ao arco j → i de descida de vi.

λr_j→i: Multiplicador de Lagrange associado ao arco j → i de subida de vi.

γ : Multiplicador de Lagrange relativo à restrição de máximo slew. γ_if: Multiplicador de Lagrange associado ao slew de descida de vi.

γ_ir: Multiplicador de Lagrange associado ao slew de subida de vi.

β : Multiplicador de Lagrange relativo às restrições de máxima capacitância de sa´ıda. βi: Multiplicador de Lagrange associado à capacitância de sa´ıda do nodo vi.

(29)

1 INTRODUÇ ÃO . . . 29 1.1 MOTIVAÇ ÃO . . . 29 1.2 FLUXO DE PROJETO DE CIRCUITOS DIGITAIS . . . 33 1.3 O PROBLEMA DE SIZING DISCRETO . . . 36 1.4 JUSTIFICATIVA . . . 39 1.5 ESCOPO DESTA DISSERTAÇ ÃO . . . 40 1.6 INFRAESTRUTURA EXPERIMENTAL PARA ESTE

TRABA-LHO . . . 41 1.7 PRINCIPAIS CONTRIBUIÇ ÕES . . . 43 1.8 ORGANIZAÇ ÃO DESSA DISSERTAÇ ÃO . . . 43 2 CONCEITOS FUNDAMENTAIS . . . 45 2.1 MODELAGEM DA ESTRUTURA DOS CIRCUITOS DIGITAIS 45 2.2 CARACTERÍSTICAS DAS PORTAS E DOS FLIP-FLOPS . . . 48 2.3 MODELOS DE ATRASO E BIBLIOTECA STANDARD CELL . . . 51 2.4 AN ÁLISE DE TIMING EST ÁTICA . . . 54 2.5 RELAXAÇ ÃO LAGRANGEANA . . . 58 3 REVIS ÃO DOS TRABALHOS CORRELATOS . . . 63 3.1 ABORDAGENS CONTÍNUAS . . . 63 3.2 ABORDAGENS DISCRETAS . . . 65 3.2.1 Coudert (1997) . . . 66 3.2.2 Chinnery e Keutzer (2005) . . . 67 3.2.3 Liu e Hu (2010) . . . 69 3.2.4 Huang, Hu e Shi (2011) . . . 70 3.2.5 Ozdal, Burns e Hu (2012) . . . 71 3.2.6 Rahman, Tennakoon e Sechen (2012) . . . 73 3.2.7 Hu et al. (2012) . . . 74 3.2.8 Li et al. (2012) . . . 76 3.2.9 O Estado da arte em Sizing Discreto . . . 77 4 SIZING DISCRETO BASEADO EM RELAXAÇ ÃO

LAGRAN-GEANA . . . 81 4.1 FORMULAÇ ÃO DO PROBLEMA DE SIZING DISCRETO . . . 81 4.2 SIZING DISCRETO BASEADO EM RELAXAÇ ÃO

LAGRAN-GEANA . . . 84 5 HEURÍSTICA GULOSA BASEADA EM RELAXAÇ ÃO

LA-GRANGEANA PARA O PROBLEMA DE SIZING DISCRETO 91

(30)

5.3 RESULTADOS EXPERIMENTAIS . . . 99 5.4 CONCLUS ÕES . . . 104 6 T ÉCNICA HÍBRIDA PARA O PROBLEMA DE SIZING

DIS-CRETO . . . 107 6.1 AVALIANDO O ESPAÇ O DE OTIMIZAÇ ÃO DA T ÉCNICA

BASEADA EM RELAXAÇ ÃO LAGRANGEANA . . . 108 6.2 HEURÍSTICAS R ÁPIDAS PARA RECUPERAÇ ÃO DE ATRASO

E POT ÊNCIA . . . 110 6.2.1 Heur´ıstica para Recuperação de Atraso . . . 110 6.2.2 Heur´ıstica para Recuperação de Potência . . . 112 6.3 A T ÉCNICA HÍBRIDA PROPOSTA . . . 114 6.4 RESULTADOS EXPERIMENTAIS . . . 116 6.5 CONCLUS ÕES . . . 119 7 CONCLUS ÕES E TRABALHOS FUTUROS . . . 121 7.1 CONCLUS ÕES . . . 121 7.2 TRABALHOS FUTUROS . . . 122 Referências Bibliográficas . . . 125

(31)

1 INTRODUC¸ ˜AO

Este cap´ıtulo visa apresentar o problema de sizing discreto, objeto desta disssertação, destacando sua relevância para o contexto do projeto de circuitos digitais contemporâneos. Inicialmente, são apresentadas a motivação e uma breve contextualização do tema proposto. Em seguida, o fluxo de pro-jeto de circuitos digitais contemporâneos é apresentado, apontando-se onde se encaixa o problema-alvo dessa dissertação. Após, o problema de sizing é formalmente definido e os principais desafios são destacados. Finalmente, são apresentados a justificativa do tema, o escopo da dissertação, a infraestru-tura experimental, as principais contribuições cient´ıficas e a organização do texto.

1.1 MOTIVAC¸ ˜AO

A evolução da tecnologia CMOS (Complementary Metal-Oxide Se-miconductor), com a consequente redução das dimensões dos componentes, possibilitou a integração de bilhões de transistores em um único chip. Tal ca-pacidade de integração foi vital para viabilizar o desenvolvimento dos dispo-sitivos móveis pessoais (PMDs - Personal Mobile Devices) contemporâneos, tais como smartphones, tablets, consoles de jogos etc, os quais oferecem um número impressionante de funcionalidades. Devido ao fato de serem alimen-tados por bateria e, ao mesmo tempo, terem que executar aplicações compu-tacionalmente intensivas (e.g., codificação e decodificação de fotos e v´ıdeos), os PMDs precisam aliar alto desempenho a baixo consumo de energia e ainda oferecer ao usuário serviços de qualidade. Ademais, o consumo de energia se tornou uma métrica importante em microprocessadores de propósito geral, servidores e supercomputadores, conforme ressaltado por Ozdal, Burns e Hu (2011).

Desde o in´ıcio da década de 1990 o consumo de energia em circuitos integrados CMOS tem sido objeto de intensa investigação1. Contudo, para os nodos tecnológicos anteriores a 90 nm, a componente estática da potência era negligenciável perante a componente dinâmica. Foi a partir das tecnologias nanométricas (90 nm e mais recentes), caracterizadas por baixas tensões de alimentação (V_dd) e de threshold, e pelo uso de óxido de gate extremamente fino, que a componente estática passou a ser importante. Por isso, no projeto de circuitos CMOS com tecnologias nanométricas ambas componentes da potência devem ser minimizadas. No caso espec´ıfico dos chips que equipam 1_{Um dos primeiros trabalhos de destaque foi o de Chandrakasan, Sheng e Brodersen (1992).}

(32)

os PMDs, tal providência é essencial para prolongar a vida útil da bateria. A dissipação de potência estática está associada às chamadas corren-tes de leakage (fuga) do transistor MOS. A Figura 1, apresentada por Rabaey (2009), identifica as principais correntes de leakage na estrutrura de um tran-sistor MOS em tecnologia nanométrica, quais sejam:

• Sub-threshold leakage: corrente de fuga entre source e drain quando o transistor MOS está operando abaixo de sua tensão de threshold (ou seja, o transistor não está completamente desligado). Esta região de operação recebe o nome de inversão fraca (weak inversion).

• Gate leakage: corrente de fuga que flui do gate para o substrato do transistor atrav´es do ´oxido devido aos efeitos de tunelamento.

• Junction leakage: corrente de fuga que flui do source para o substrato e do drain para o substrato devido às junções pn reversamente polari-zadas.

Figura 1: Principais componentes de corrente de leakage em um transistor MOS em tecnologia nanom´etrica. Adaptado de Rabaey (2009).

De acordo com Rabaey (2009), as duas primeiras componentes exce-dem a terceira (junction leakage) em 3 a 5 ordens de magnitude e por isso, s˜ao bem mais importantes.

Com relação à contribuição da potência estática ao longo da evolução da tecnologia CMOS, as primeiras projeções eram bastante alarmantes e aca-baram induzindo a indústria e a academia a buscar técnicas para reduzir as correntes de leakage e, consequentemente, diminuir o consumo estático dos circuitos. A Figura 2 apresenta um gráfico contendo projeções para as

(33)

potências dinâmica e estática em um chip, publicado no trabalho de Kim et al. (2003). Tais projeções foram baseadas em dados de 2002, normalizados em relação aos dados do ITRS (International Technology Roadmap for Semi-conductors) de 2001 (conforme apresentado em Assoc. (2002)). Além disso, a curva de potência dinâmica assumiu a Lei de Moore2 para estimar o au-mento do número de transistores por chip.

Figura 2: Projeções para as potências dinâmica e estática em um chip, ba-seadas no ITRS (International Technology Roadmap for Semiconductors), atualização de 2002. Fonte: Kim et al. (2003).

Também no ano de 2003, as projeções para a potência por porta lógica indicavam um decréscimo da componente dinâmica (em razão do scaling das dimensões dos transistores) e um incremento significativo da componente estática (decorrente do agravamento dos mecanismos de leakage), conforme ilustrado no gráfico da Figura 3, publicado por Sakurai (2003).

´

E interessante observar que, não obstante a diminuição da potência dinâmica por porta, a potência dinâmica do chip segue aumentando em con-sequência do acréscimo de transistores por chip, ainda que técnicas de pro-jeto de baixa potência venham sendo aplicadas. Por um lado, a componente 2_{Em 1965 Gordon Moore publicou um artigo no qual especulava que o número de transistores}

(34)

Figura 3: Projeções para as potências dinâmica e estática em uma porta. Nesta figura Vdd é a tensão de alimentação e Vth é a tensão de threshold. Fonte:

(SAKURAI, 2003).

estática não aumentou tanto a ponto de ultrapassar a componente dinâmica. Segundo Weste e Harris (2010), em 2010 a potência estática podia corres-ponder à terça parte da potência total do chip, o que não deixa de ser uma parcela significativa. Esta diferença entre a projeção de 2003 e a realidade deveu-se às alterações das técnicas de fabricação e de projeto dos circuitos. Por exemplo, a introdução da técnica de fabricação de transistores com gate metálico e isolante com alta constante dielétrica (high-k), a partir de 2007, proporcionou uma redução drástica na componente de gate leakage3, con-forme previsto no gráfico da Figura 2. Por outro lado, as sucessivas reduções das tensões de alimentação e de threshold promovidas para viabilizar as tec-nologias nanométricas mais recentes causaram o aumento da componente de sub-threshold leakage previsto no gráfico da Figura 2, transformando-a na principal componente da potência estática.

A Equação 1.1, obtida de Keating et al. (2007), apresenta uma boa a-proximação da corrente de sub-threshold em um transistor MOS. Note que a corrente de sub-threshold tem dependência linear com a largura (W ) do tran-sistor (e consequentemente da porta) e dependência exponencial em relação à tensão de threshold do transistor, representada na Equação 1.1 por Vth.

3_{De acordo com Rabaey (2009), fabricantes como a IBM e Intel adotaram o uso de di´oxido}

de hafnium(HfO2) como material diel´etrico a partir dos processos CMOS de 45nm (AUTH et

(35)

Isub= µCoxVt2

W L.e

Vgs−Vth

nVt _(1.1)

Dentre as técnicas de projeto empregadas para reduzir a corrente de sub-threshold leakage nos circuitos digitais contemporâneos destacam-se o uso de diferentes tensões de alimentação (Multi-Vdd), power gating, gate

si-zing(dimensionamento de portas) e o uso de diferentes tens˜oes de threshold (Multi-Vt) (KEATING et al., 2007). Por serem minimamente intrusivas (pois

implicam em um menor impacto no fluxo de projeto de circuitos digitais) as duas últimas são amplamente usadas e, por essa razão, são objeto de es-tudo do presente trabalho. Dimensionamento de portas (ou transistores) im-plica no uso de portas (ou transistores) com diferentes larguras de canal em um mesmo circuito, resultando em um impacto linear na corrente de sub-threshold. Multi-Vt, por sua vez, baseia-se na uso de portas (ou transistores)

com diferentes tens˜oes de threshold, o que causa impacto exponencial na cor-rente de leakage de sub-threshold.

Dada a importância de se minimizar a potência estática, principal-mente em dispositivos móveis, cuja principal componente está associada à sub-threshold leakage, este trabalho tem como foco a minimização de lea-kage4em circuitos digitais.

1.2 FLUXO DE PROJETO DE CIRCUITOS DIGITAIS

O grande número de portas lógicas nos circuitos digitais contemporâ-neos exige a adoção de um fluxo de projeto com ferramentas de automação de projeto eletrônico (EDA - Electronic Design Automation). A grande maioria dos projetos digitais usa o estilo semi-custom5_{, o qual se baseia em biblioteca}

standard cell. Uma biblioteca standard cell reúne os leiautes pré-projetados de portas lógicas, flip-flops, latches e eventualmente, outros elementos mais complexos (e.g., multiplexador 2-1, full-adder etc), referidos por células. Uma biblioteca standard cell também contém diversas informações referen-tes a cada célula como informações geométricas (e.g., leiaute, dimensões), de atraso, de potência, bem como outras caracter´ısticas elétricas importantes para garantir o sucesso da s´ıntese do circuito. Desta forma, o uso de biblio-4_{Deste ponto em diante, o termo leakage será utilizado para fazer referência ao somatório das}

trˆes componentes de leakage.

5_{O estilo de projeto full-custom, por outro lado, ´e usado principalmente no projeto de}

micro-processadores e FPGAs, uma vez que o alto custo destes projetos pode ser amortizado com um grande volume de produc¸˜ao (KAHNG et al., 2011).

(36)

teca standard cell visa reduzir o esforc¸o de projeto e o tempo para o mercado (time-to-market)6e, consequentemente, o prec¸o final do produto (KAHNG et al., 2011).

O fluxo de projeto de um circuito integrado digital é composto por di-versas etapas, partindo da especificação e descrição em alto-n´ıvel de abstração até chegar a uma descrição que permita a implementação f´ısica (etapas de baixo-n´ıvel). As etapas de alto-n´ıvel são responsáveis principalmente pela especificação das funções e requisitos do sistema (e.g., potência, desempe-nho, área, entre outros), definição da arquitetura básica do sistema (e.g., tama-nho das memórias, definição dos blocos de propriedade intelectual (IP), etc). Em seguida, os diferentes módulos do sistema são descritos em n´ıvel de trans-ferência de registradores (RTL) através do uso de linguagens de descrição de hardware(HDL) apropriadas, tais como Verilog e VHDL.

A Figura 4 apresenta as etapas que caracterizam o fluxo de projeto baseado em standard cell, iniciando pela s´ıntese lógica e passando pelas eta-pas relacionadas à chamada s´ıntese f´ısica. A seguir, são descritas as ações realizadas em cada uma das etapas:

• S´ıntese Lógica (Logic Synthesis): Etapa responsável pela conversão da descrição RTL para um conjunto de portas lógicas e elementos se-quenciais e mapeamento deste conjunto para as células dispon´ıveis na biblioteca standard cell;

• Planejamento Topológico (Floorplanning): Determina o formato (lei-aute) dos blocos do chip a partir das células instanciadas na etapa ante-rior, baseando-se nas informações da biblioteca standard cell. Também são determinadas as dimensões do chip, localização das portas de en-trada e sa´ıda etc;

• Posicionamento (Placement): Define a localização espacial dos leiau-tes das células que foram escolhidos na etapa anterior;

• S´ıntese da Árvore de Relógio (Clock Tree Synthesis): Cria a árvore de distribuição do sinal de relógio para os elementos sequenciais do pro-jeto, visando atender alguns requisitos, como, por exemplo, minimizar o skew7;

• Roteamento (Routing): Responsável por criar as conexões entre as células instanciadas no projetos, utilizando diferentes camadas de metal e vias. O objetivo é satisfazer as restrições de timing do projeto e, ao mesmo tempo, minimizar o comprimento médio das conexões; 6_{Corresponde ao tempo entre a concepção e a comercialização do produto.} 7_{Diferença do tempo de chegada do sinal de relógio entre os elementos sequenciais.}

(37)

• Sign-off: Esta etapa tem como principal objetivo a verificação das regras de desenho e da funcionalidade. Ela também confere se as restrições de máximo slew, máxima capacitância e máximo fanout im-postas pela biblioteca standard cell estão dentro dos limites especifica-dos8.

Figura 4: Fluxo simplificado de projeto de circuitos digitais baseado em stan-dard cell. Adaptado de: (LEE; GUPTA, 2012).

Diversas técnicas de otimização são utilizadas durante o fluxo de pro-jeto para diferentes objetivos, tais como minimizar skew do sinal de relógio, minimizar área, minimizar atraso, minimizar potência, dentre outros. Porém, dentre todas as técnicas, gate sizing está entre as mais utilizadas, pois além de ser extremamente efetiva, causa um impacto muito pequeno no fluxo de projeto (LEE; GUPTA, 2012). Assim, gate sizing é usada em diversas etapas do fluxo para corrigir problemas de setup e hold de elementos sequenciais, reduzir atrasos (para satisfazer a restrições de timing), dentre outros. Recen-temente, gate sizing passou a ser amplamente utilizada para buscar um melhor compromisso (tradeoff ) entre leakage e atraso do circuito (ABRISHAMI et al., 2011).

8_{O nome da subetapa responsável por essas conferências é ERC - Electrical Rule Checking}

(38)

1.3 O PROBLEMA DE SIZING DISCRETO

Gate sizing, ou somente sizing, é uma técnica amplamente usada na otimização de circuitos digitais, conforme já descrito na seção anterior. O problema (ou técnica) de sizing consiste na escolha dos parâmetros das portas lógicas, tais como largura (w) e tensão de threshold (u), visando otimizar desempenho, potência ou área do circuito, e ao mesmo tempo respeitar as restrições especificadas no projeto9_{(GUPTA et al., 2010) (KAHNG; KANG,}

2012).

O problema de sizing de circutos digitais pode ser sub-dividido em sizingcont´ınuo e sizing discreto. O primeiro caso considera que a largura e a tensão de threshold das portas são cont´ınuas e portanto, podem assumir quaisquer valores dentro de um intervalo válido. O segundo, por outro lado, considera que a largura e a tensão de threshold das portas só podem assumir valores pertencentes a um conjunto pré-determinado, no caso, uma biblioteca de células10.

Devido à sua importância como técnica de otimização no fluxo de pro-jeto de circuitos digitais, o problema de sizing é um tópico extensivamente pesquisado desde meados da década de 1980 e uma grande variedade de técnicas pode ser encontrada na literatura. A grande maioria destas técnicas utiliza sizing cont´ınuo (e.g., Fishburn e Dunlop (1985) Chen, Chu e Wong (1999)), que não se correlaciona adequadamente com o fluxo de projeto ba-seado em standard cell, conforme será detalhado mais adiante.

De acordo com o que foi frisado na Seção 1.1, a minimização de lea-kageé essencial tanto no projeto de PMDs, quanto no projeto de microproces-sadores de propósito geral. Para tais projetos, o problema de sizing tem dois objetivos conflitantes: minimizar o leakage e, ao mesmo tempo, reduzir o atraso para garantir que o desempenho do circuito satisfaça às especificações. O problema de sizing cont´ınuo para ajustar a largura das portas do circuito visando minimizar o consumo de leakage pode ser formalmente defi-nido pelo conjunto de Equações 1.2 a 1.4 (MAHESHWARI; SAPATNEKAR, 1998). O objetivo do problema consiste em encontrar a largura das portas do circuito (~w) para minimizar o consumo total de leakage (Equação 1.2) e 9_{A escolha dos parâmetros pode ocorrer em diversas granularidades como, por exemplo, no}

n´ıvel de transistor, modificando a largura de cada transistor independentemente dos demais, ou no n´ıvel de porta lógica, na qual todos os transistores da porta são modificados simultaneamente. Isto vale também para atribuição da tensão de threshold. Em projetos baseados em bibliotecas standard cell, a granularidade é definida no n´ıvel de porta e somente as opções dispon´ıveis na biblioteca podem ser utilizadas.

10_{Alguns trabalhos encontrados na literatura denominam este problema como seleção da opção}

de implementac¸˜ao das portas (gate implementation selection) (LI et al., 2012) (HUANG; HU; SHI, 2011).

(39)

garantir que o atraso máximo do circuito não seja maior que o per´ıodo de relógio especificado (Equação 1.3). Além disso, a restrição representada pela Equação 1.4 especifica a largura m´ınima e a largura máxima de uma porta permitida pela tecnologia utilizada. Note que leakage e atraso são objetivos conflitantes, ou seja, a redução da largura de uma porta resulta em menor le-akagemas em contrapartida, acarreta em aumento do atraso da porta, o que pode tornar o circuito mais lento.

Minimize : Power(~w) (1.2)

Sujeito a : Delay(~w) ≤ A_o (1.3)

Wmin≤ wgate≤ Wmax, ∀gate ∈ Circuit (1.4)

Por um lado, a abordagem cont´ınua do problema de sizing permite o uso de técnicas consolidadas, nas quais a solução ótima do problema pode ser encontrada11. Por outro lado, o projeto de circuitos digitais modernos é baseado em bibliotecas standard cell, as quais são compostas por um número limitado de opções de implementação por porta. Poucos trabalhos de sizing encontrados na literatura resolvem o problema diretamente no dom´ınio dis-creto (e.g., Coudert (1997), Li et al. (2012), Ozdal, Burns e Hu (2012)), o qual é provado ser NP-dif´ıcil12_{(LI, 1994) e, desse modo, é necessário o uso}

de heur´ısticas eficientes para encontrar soluções de qualidade dentro de um tempo de execução viável. A formulação matemática do problema de sizing discreto para minimizar leakage é apresentada nas Equações 1.5 a 1.7. Note que o parâmetro de configuração (largura wgate) de cada porta é limitado às

opções discretas Wgate, onde cada porta possui um conjunto de opções de

implementac¸˜ao dispon´ıvel na biblioteca13.

11_{Abordagens cont´ınuas permitem o uso de modelos convexos de atraso, os quais tem como}

vantagem permitir que se averigue a qualidade da solução, já que possuem a propriedade de que todo m´ınimo local da função é também um m´ınimo global. Em outras palavras, é poss´ıvel saber quão longe do m´ınimo global do problema se está e obter um certificado de qualidade da solução encontrada (BOYD; VANDENBERGHE, 2004).

12_{Refere-se à classe de problemas cuja solução ótima não pode ser encontrada em tempo}

po-linomial em relação ao tamanho da entrada do problema. Ou seja, problemas cuja complexidade de tempo não pode ser definida por O(nk_{), onde n é o tamanho da entrada do problema e k uma}

constante (CORMEN et al., 2009).

13_{No caso da inclus˜ao da possibilidade da escolha da tens˜ao de threshold de cada porta,}

deve-se incluir a restrição ugate∈ Ugate, a qual define que a porta só pode assumir uma das tensões de

(40)

Minimize : Power(~w) (1.5)

Sujeito a : Delay(~w) ≤ Ao (1.6)

wgate∈ Wgate, ∀gate ∈ Circuit (1.7)

Ademais, o problema de sizing discreto apresenta diversos desafios quando aplicado ao projeto de circuitos industriais contemporˆaneos. Segundo Ozdal et al. (2012), os principais desafios s˜ao:

• Parâmetros discretos: Como o projeto de circuitos digitais contem-porâneos segue a metodologia de projeto standard cell, o uso de técnicas de sizing que assumem os parâmetros cont´ınuos requer o mapeamento das soluções encontradas para as dispon´ıveis na biblioteca de células, o que pode levar a soluções subótimas;

• Modelos de atraso das portas: O grande número de parâmetros de uma porta e uso de técnicas de leiaute espec´ıficas, como transistor fol-ding(CHINNERY; KEUTZER, 2005), resulta em modelos de atraso complexos. Como consequência, nem mesmo modelos de atraso con-vexos são suficientemente precisos, visto que o atraso de uma porta não é função convexa14de sua largura, tampouco da tensão de threshold; • Restrições temporais complexas: Circuitos modernos apresentam

vá-rios dom´ınios de relógio, falsos caminhos, etc. Além disso, o atraso das interconexões é cada vez mais significativo em nodos tecnológicos nanométricos e portanto, o uso de modelos simplificados (e.g., Elmore (ELMORE, 1948)) não provê a precisão requerida pelos projetos con-temporâneos;

• Efeitos do slew: O atraso das portas em uma biblioteca de células é função da capacitância de sa´ıda e do slew de entrada da porta. Portanto, é essencial considerar o slew durante o processo de otimização. Além disso, há restrições de máximo slew que devem ser consideradas; • Escalabilidade das técnicas de otimização: Alguns blocos dentro de

um circuito digital podem ter centenas de milhares (ou alguns milhões) de portas e portanto, as técnicas de sizing devem ser escaláveis para lidar com circuitos da ordem de milhões de portas.

14_{Uma função convexa possui a propriedade de que todo m´ınimo local da função é também}

(41)

1.4 JUSTIFICATIVA

Conforme mencionado na seção anterior, o problema de sizing dis-creto é NP-dif´ıcil (LI, 1994). Por este motivo, as pesquisas neste tema têm se concentrado na busca por heur´ısticas eficientes. Recentemente, o inte-resse por sizing discreto intensificou-se tanto por parte da academia quanto da indústria, na medida em que ele emergiu como uma opção efetiva para redução de leakage em circuitos nanométricos projetados com o fluxo stan-dard cell. Prova deste interesse é o grande número de artigos cient´ıficos so-bre o tema que tem sido publicados recentemente nos anais de conferências importantes na área de EDA, tais como ICCAD15(IEEE/ACM International Conference on Computer-Aided Design), DAC (ACM/EDAC/IEEE Design Automation Conference), DATE (Design, Automation & Test in Europe), ISLPED (International Symposium on Low Power Electronics and Design), ISPD (ACM/SIGDA International Symposium on Physical Design), com au-toria de membros da academia e da indústria.

Um dos problemas enfrentados pelos pesquisadores reside na ausência de uma infraestrutura comum que permita comparar justamente um conjunto de soluções para um determinado problema. Para o problema em questão, tal infraestrutura deve ser composta por um conjunto de benchmarks e uma biblioteca standard cell realistas que capturem os principais detalhes do pro-blema. Neste sentido, o trabalho proposto por Gupta et al. (2010) tenta resol-ver tal problema, ao propor um método para a criação de uma infraestrutura de benchmarksque permita encontrar a solução ótima de cada circuito. Infeliz-mente, este trabalho apresenta duas limitações sérias, quais sejam, o número reduzido de portas dos circuitos (em média 10K), e o modelo de atraso sim-plificado, o qual não considera slew. Por outro lado, a falta de uma solução definitiva para o problema de sizing discreto e a ausência de uma infraestru-tura de comparação adequada motivou os pesquisadores da Intel a organiza-rem a Competição de Sizing Discreto (OZDAL et al., 2012), realizada na mais recente edição do ISPD, em 2012. Tal infraestrutura permite comparar dife-rentes técnicas de sizing discreto sob uma infraestrutura realista que captura a maior parte dos desafios listados na seção anterior.

Como em outras competições (e.g., Competição de roteamento reali-zada pelo ISPD nos anos de 2007 e 2008), a disponibilidade de benchmarks realistas proporciona a oportunidade de confrontar diferentes técnicas sob uma mesma infraestrutura. Desde a Competição de Sizing Discreto do ISPD 2012 (março 2012), a qual proporcionou os resultados das equipes

partici-15_{No ICCAD do ano de 2011, o artigo de sizing discreto de pesquisadores da Intel (OZDAL;}

(42)

pantes, novos trabalhos foram publicados (e.g., Hu et al. (2012), Li et al. (2012), Livramento et al. (2013)), os quais fizeram uso da infraestrutura dis-ponibilizada. Tais trabalhos ampliaram o conhecimento sobre como enfrentar o problema de forma mais eficiente, e por isso obtiveram valores de leakage e tempos de execuc¸˜ao ainda menores do que aqueles apresentados pelos com-petidores.

Por outro lado, apesar de tal evolução, ainda não há um consenso sobre qual técnica de sizing discreto é a melhor, visto que nenhuma das técnicas apresentadas até o momento mostrou-se predominante. Por este motivo, a pesquisa nesse tema continua intensa. O mesmo grupo de pesquisadores da Intel está organizando uma segunda edição da Competição de sizing discreto, associada ao ISPD do corrente ano (2013).

1.5 ESCOPO DESTA DISSERTAC¸ ˜AO

Uma vez que o projeto de circuitos digitais segue o fluxo standard cell, é essencial que as técnicas de sizing trabalhem no dom´ınio discreto, ao invés de considerar larguras e/ou tensões de threshold dentro de um intervalo cont´ınuo. Ademais, as técnicas que abordam o problema no dom´ınio cont´ınuo fazem uso de modelos de atraso simplificados, os quais não modelam com precisão o atraso das portas das bibliotecas standard cell (OZDAL; BURNS; HU, 2012). O escopo deste trabalho é bastante semelhante ao definido na infraestrutura da Competição de Sizing Discreto do ISPD 2012 (OZDAL et al., 2012), visto que os principais desafios de sizing no fluxo de projeto stan-dard cellsão capturados, permitindo a comparação direta e justa de diferentes técnicas.

Este trabalho aborda o problema de sizing diretamente no dom´ınio dis-creto, objetivando minimizar a potência de leakage, enquanto considerando restrições de timing definidas por um atraso cr´ıtico-alvo. Tal minimização é feita escolhendo, para cada porta lógica combinacional do circuito, uma opção de implementação (combinando uma opção de largura e uma opção de tensão de threshold) dispon´ıvel em bibliotecas standard cell. Os modelos de atraso e slew aqui utilizados estão capturados diretamente pelas tabelas asso-ciadas à biblioteca de células16, os quais são funcão da capacitância de sa´ıda e do slew de entrada da porta. Neste trabalho são consideradas as restrições de máxima capacitância de sa´ıda das portas e máximo slew na entrada das portas, ambas comumente definidas nas bibliotecas standard cell contem-porâneas. As interconexões do circuito são modeladas como capacitâncias 16_{Mais detalhes sobre as tabelas de atraso das bibliotecas de células são apresentados na Seção}

(43)

concentradas (lumped) sem resistˆencia, ou seja, sem atraso.

Por questões de infraestrutura, não faz parte do escopo dessa dissertação a escolha da largura e da tensão de threshold de elementos sequenciais, como flip-flops e registradores, visto que no fluxo de projeto digital esta escolha se restringe aos elementos combinacionais17 (SAPATNEKAR, 2004). Tam-pouco se considera tempo de setup e hold desses elementos.

1.6 INFRAESTRUTURA EXPERIMENTAL PARA ESTE TRABALHO

O presente trabalho faz uso da infraestrutura disponibilizada pela Com-petição de Sizing Discreto do ISPD 2012, a qual é composta por:

• Um conjunto de 7 circuitos, cujos tamanhos variam de 25K a 959K por-tas, cada circuito sujeito a duas restric¸˜oes diferentes de atraso cr´ıtico-alvo, indentificadas como slow e fast;

• Uma biblioteca standard cell realista, composta por 11 portas combi-nacionais de funções lógicas diferentes e 1 flip-flop;

• Ferramenta de an´alise de timing est´atica Synopsys PrimeTime R

(SYNOPSYS, 2012)18;

• Um conjunto de scripts para validar os resultados finais de timing, slew e capacitˆancia, os quais invocam a ferramenta Synopsys PrimeTime .R

Estes scripts calculam o total de violações de máximo slew na entrada das portas e de máxima capacitância de sa´ıda das portas, além do con-sumo total de leakage do circuito.

Os circuitos são derivados dos benchmarks do IWLS 2005 (SYNTHE-SIS, 2012) e cada circuito inclui uma descrição na linguagem Verilog, um arquivo no formato IEEE SPEF (Standard Parasitic Exchange Format) des-crevendo as capacitâncias parasitas das interconexões, além das restrições de timingno formato SDC (Synopsys Design Constraints).

A biblioteca de células é definida conforme o padrão industrial Liberty (LIBERTY, 2012), no qual cada porta possui tabelas (lookup tables) contendo informações de atraso, tempo de transição do sinal (slew) de sa´ıda, máxima capacitância de sa´ıda e potência de leakage. Cada uma das 11 portas combi-nacionais da biblioteca possui 3 opções de tensão de threshold e 10 opções de 17_{Diversas técnicas podem ser utilizadas simultaneamente com a técnica de sizing para}

otimização dos elementos sequenciais, tais como retiming (MAHESHWARI; SAPATNEKAR, 1998) e otimização de skew (CHUANG; SAPATNEKAR; HAJJ, 1993) (ROY et al., 2008a).

18_{Acesso (restrito), mediante assinatura de termo de compromisso (NDA - Non-Disclosure}

(44)

largura, totalizando 30 opções de implementação para cada porta combinaci-onal. Já o flip-flop possui apenas uma opção de implementação. Além disso, a biblioteca também inclui um limite global (restrição) de máximo slew nas entradas/sa´ıdas das portas e do circuito.

Foram assumidas algumas simplificações no problema, como modelo de capacitância concentrada e atraso nulo para as interconexões. Também os tempos de setup e hold dos registradores foram desconsiderados.

As comparações entre as diferentes técnicas são feitas usando os re-sultados de leakage sem violações. As violações consideradas são:

• Ocorrˆencia de slack negativo (i.e., atraso cr´ıtico menor ou igual ao atraso cr´ıtico-alvo);

• Ocorrência de slews acima do limite especificado pela biblioteca (no caso da biblioteca da Competição, o valor é 300ps);

• Ocorrˆencia de uma ou mais portas apresentando capacitˆancia de sa´ıda maior do que aquela especificada na biblioteca.

As violações de timing na Competição do ISPD 2012 são calculadas através do somatório dos slacks negativos nas sa´ıdas primárias do circuito, de-finido como TNS (Total Negative Slack). As demais violações são calculadas através do somatório da quantidade que ultrapassa os limites especificados na biblioteca standard cell.

Para cálculo das informações de timing do circuito durante a execução das técnicas de otimização propostas nesse trabalho, foi implementada uma ferramenta de análise de timing estática em conformidade com bibliotecas standard cellrealistas, a qual foi validada frente à ferramenta industrial Sy-nopsys PrimeTime (SYNOPSYS, 2012). Esta ferramenta foi utilizada paraR

cálculo das informações de timing durante a execução dos algoritmos presen-tes nesta dissertação, enquanto a ferramenta Synopsys PrimeTime (SYNOPSYS,R

2012) foi utilizada somente com propósito de validação dos resultados, con-forme definido na Competição do ISPD 2012. Os resultados experimen-tais apresentados nessa dissertação, nos Cap´ıtulos 5 e 6, foram executados em uma máquina com 2 CPUs Intel XeonR E5620 @ 2.4GHz com 12GBR

RAM.

Com o intuito de facilitar a compreens˜ao dos experimentos realizados nesse trabalho, a Tabela 1 resume a infraestutura dos experimentos apresen-tados nos Cap´ıtulos 5 e 6.

(45)

Tabela 1: Resumo da infraestrutura utilizada nos Cap´ıtulos 5 e 6.

Resumo da Infraestrutura Cap´ıtulo 5 Cap´ıtulo 6

Biblioteca da Competic¸˜ao ISPD 2012 X X

Benchmarks da Competic¸˜ao ISPD 2012 X X

Synopsys PrimeTime R X X

Scripts da Competic¸˜ao ISPD 2012 X X

1.7 PRINCIPAIS CONTRIBUIC¸ ˜OES

O presente trabalho apresenta como principais contribuic¸˜oes cient´ıfi-cas:

• Uma nova formulação do problema de sizing discreto utilizando a téc-nica de Relaxação Lagrangeana (LR - Lagrangian Relaxation). As no-vidades da formulação LR proposta residem na incorporação das restri-ções de máxima capacitância e máximo slew — impostas pelas biblio-tecas standard cell — na função objetivo (em adição às restrições de ti-mingusualmente relaxadas). O trabalho associado a esta contribuição, incluindo os resultados obtidos, foi apresentado oralmente e publicado nos anais da IEEE International Conference on Electronics, Circuits and Systems— ICECS 2012 (LIVRAMENTO et al., 2012b);

• Uma heur´ıstica gulosa para resolver a formulação LR proposta (con-forme item anterior), a qual baseia-se em informações locais para guiar as decisões. Um artigo relatando esta heur´ıstica e os resultados alcan-çados foi apresentado oralmente e publicado nos anais da conferência Design, Automation & Test in Europe— DATE 2013 (LIVRAMENTO et al., 2013);

• Uma técnica h´ıbrida para sizing discreto que tem por objetivo contor-nar as limitações resultantes do uso exclusivo de LR. Um artigo para periódico com esta contribuição e com os resultados obtidos está em fase de preparação.

As contribuições espec´ıficas referentes a cada um dos artigos são apre-sentadas nos Cap´ıtulos 4, 5 e 6, respectivamente.

1.8 ORGANIZAÇ ÃO DESSA DISSERTAÇ ÃO

Esta dissertação está organizada da seguinte forma.

O Cap´ıtulo 2 apresenta os conceitos fundamentais necessários para o entendimento desta dissertação, tornando-a auto-contida.

(46)

No Cap´ıtulo 3 são apresentadas as diferentes técnicas para resolver o problema de sizing em circuitos digitais, com especial atenção àquelas mais recentes que abordam o problema diretamente no domin´ınio discreto (sizing discreto).

Já o Cap´ıtulo 4 detalha o trabalho Livramento et al. (2012b), apre-sentando a formulação proposta para o problema-alvo, a qual é baseada em Relaxação Lagrangeana.

O Cap´ıtulo 5 descreve o trabalho Livramento et al. (2013), o qual propõe uma heur´ıstica gulosa baseada em Relaxação Lagrangeana para re-solver o problema-alvo e apresenta resultados experimentais.

No Cap´ıtulo 6 é apresentada uma técnica h´ıbrida para resolver o pro-blema-alvo, bem como os resultados experimentais obtidos. Tal técnica h´ı-brida será descrita em artigo para periódico, em preparação.

Finalmente, as conclus˜oes e perspectivas de trabalhos futuros s˜ao apre-sentados no Cap´ıtulo 7.

(47)

2 CONCEITOS FUNDAMENTAIS

Este cap´ıtulo apresenta a terminologia associada à estrutura e às ca-racter´ısticas temporais dos circuitos digitais, além de uma breve introdução à Relaxação Lagrangeana, conceitos necessários para a compreensão das téc-nicas de minimização de leakage descritas nos Cap´ıtulos 4, 5 e 6.

2.1 MODELAGEM DA ESTRUTURA DOS CIRCUITOS DIGITAIS

Atualmente, a metodologia de projeto digital predominante baseia-se no modelo de circuitos sequenciais s´ıncronos (RABAEY; CHANDRAKA-SAN; NIKOLIC, 2003), nos quais o sincronismo é proporcionado por um si-nal c´ıclico e monótono denominado relógio (clock). Os circuitos sequenciais s´ıncronos são compostos por portas lógicas, elementos de armazenamento, os quais podem ser flip-flops ou latches, e conexões (fios). O modelo mais sim-ples utiliza somente um sinal de relógio para sincronizar todos os elementos de armazenamento, ao passo que modelos mais sofisticados utilizam dois ou mais sinais divididos em diferentes regiões do circuito. Neste último caso, é poss´ıvel dividir o circuito em partes que operem em frequências de relógio diferentes visando reduzir o consumo de energia.

Os elementos sequenciais criam barreiras temporais, uma vez que cap-turam os sinais que estão em suas entradas de dados no momento em que são ativados pelo sinal de relógio. Assim, em um circuito sequencial é poss´ıvel identificar blocos puramente combinacionais (i.e., compostos apenas por por-tas lógicas e conexões, e sem realimentações), mediante a identificação dos elementos de armazenamento de entrada e dos elementos de armazenamento de sa´ıda. Em outras palavras, um circuito sequencial s´ıncrono pode ser visto como um conjunto de blocos combinacionais interligados por elementos de armazenamento. Tal estrutura provê uma decomposição natural do circuito, a qual é explorada para viabilizar a manipulação de projetos com grande número de componentes. Além disso, a decomposição em blocos combina-cionais permite a aplicação de técnicas de otimização voltadas para circuitos combinacionais. Um exemplo seria a aplicação da técnica de sizing em cada bloco combinacional, conforme adotado pela maioria das técnicas encontra-das na literatura.

A Figura 5 mostra uma porção de um circuito sequencial, onde é pos-s´ıvel identificar um bloco combinacional e os respectivos flip-flops de entrada e de sa´ıda. Para tornar o exemplo suficientemente genérico, nem todas as entradas deste bloco combinacional provêm de flip-flops, da mesma forma

(48)

Figura 5: Exemplo de circuito combinacional.

que nem todas suas sa´ıdas alimentam flip-flops.

No contexto de técnicas de sizing e portanto, também no contexto da presente dissertação, os seguintes conceitos associados aos blocos combina-cionais são essenciais:

• Entradas prim´arias, representado por PI, ´e o conjunto dos sinais que alimentam um bloco combinacional. Para o bloco combinacional da Figura 5, PI = {Q1, Q2, Q3, a};

• Sa´ıdas prim´arias, representado por PO, ´e o conjunto dos sinais ge-rados por um bloco combinacional. Para o bloco combinacional da Figura 5, PO = {s, D4};

• Fanin de uma porta vi, representado por f anin(vi), ´e o conjunto das

portas e/ou entrada primárias que estão diretamente conectadas às en-tradas de vi. Por exemplo, no bloco combinacional da Figura 5, fanin(v1)

= {Q1, Q2};

• Fanout de uma porta vi, representado por f anout(vi), ´e o conjunto das

portas e/ou sa´ıdas primárias que estão diretamente conectadas à sa´ıda de vi. Por exemplo, no bloco combinacional da Figura 5, fanout(v1) =

(49)

• Entradas de uma porta vi, representado por input(vi), corresponde ao

seu conjunto de pinos de entrada. Por exemplo, no bloco combinacio-nal da Figura 5, a porta v1tem 2 pinos de entrada, ao passo que v2tem

1 pino de entrada.

• Cone l´ogico de uma porta vi ´e o conjunto de portas que podem ser

influenciadas pelo sinal gerado na sa´ıda de vi. Isto inclui as portas que

são fanout de vi, as portas que são fanout destas últimas e assim por

diante, até que as sa´ıdas primárias sejam atingidas. Além disso, as portas que são fanin de vitambém são influenciadas no caso da troca

da opção de implementação de vipor uma opção de largura diferente.

Isto ocorre devido à variação da capacitância de sa´ıda das portas fanin de vi.

As ferramentas de EDA costumam modelar cada bloco combinaci-onal como um grafo ac´ıclico direcionado (Directed Acyclic Graph - DAG) G(V, E), onde V ´e o conjunto de nodos e E ´e o conjunto de arestas. Cada vi∈

Vrepresenta ou uma porta (vi∈ X), ou uma entrada prim´aria (vi∈ PI) ou uma

sa´ıda prim´aria (vi∈ PO), e desta forma, V = X ∪ PI ∪ PO. Adicionalmente,

ej,i∈ E representa uma conex˜ao (fio) entre vje vi. A Figura 6 mostra o DAG

para o bloco combinacional da Figura 5. Observe que no DAG constuma-se incluir um nodo fonte (S - Source) e um nodo terminal (T - Terminal) para fa-cilitar o processamento. As sa´ıdas do S estão conectadas às entradas primárias enquanto as entradas do T estão conectadas às sa´ıdas primárias (KAHNG et al., 2011).

Figura 6: Grafo Ac´ıclico Direcionado (DAG) do circuito combinacional apre-sentado na Figura 5.

(50)

2.2 CARACTER´ISTICAS DAS PORTAS E DOS FLIP-FLOPS

A fim de garantir o desempenho requerido para o projeto, tanto a s´ıntese quanto a otimização precisam levar em conta as caracter´ısticas tempo-rais do circuito. Estas, por sua vez, são derivadas das caracter´ısticas tempotempo-rais e funcionais dos componentes básicos, tais como portas lógicas, elementos de armazenamento e conexões. Uma vez que o fluxo de s´ıntese industrial está baseado no uso de standard cells, algumas das caracter´ısticas explicadas a seguir estão relacionadas com informações que constam nas bibliotecas stan-dard cell. No que se refere às portas lógicas, as seguintes caracter´ısticas são relevantes:

• Atraso de descida da porta vicom relação à sua entrada j, representado

por d_j→if , ´e o tempo transcorrido entre o sinal na entrada j de viatingir

50% de sua excurs˜ao total at´e o sinal na sa´ıda de viatingir 50% de sua

excursão total, sendo que este último realiza uma transição de descida. Uma vez que os sinais internos aos circuitos digitais possuem um com-portamento analógico, é necessário adotar-se alguma referência para a medida de atrasos. A referência de 50% da excursão total é um padrão amplamente adotado na indústria (BHASKER; CHADHA, 2009). • Atraso de subida da porta vicom relação à sua entrada j, representado

por dr

j→i, ´e o tempo transcorrido entre o sinal na entrada j de viatingir

50% de sua excurs˜ao total at´e o sinal na sa´ıda de viatingir 50% de sua

excursão, sendo que este último realiza uma transição de subida. • Slew de descida da porta viem função da entrada j, representado por

slewf_j→i, ´e o tempo transcorrido para que o sinal na sa´ıda de vi

rea-lize uma transição de descida, medido entre uma tensão de referência1 inicial (n´ıvel lógico 1) e uma tensão de referência final (n´ıvel lógico 0). • Slew de subida da porta vi em função da entrada j, representado por

slewrj→i, ´e o tempo transcorrido para que o sinal na sa´ıda de virealize

uma transição de subida, medido entre uma tensão de referência inicial (n´ıvel lógico 0) e uma tensão de referência final (n´ıvel lógico 1). • Propagação do slew define o método utilizado para escolher qual dos

slews de descida slewf_j→i (ou subida slewr_j→i) ser´a propagado para a sa´ıda de vi. Como uma porta l´ogica apresenta diferentes valores de

1_{Atualmente, diferentes tensões de referência inicial e final são utilizadas pelas bibliotecas,}

dependendo da tecnologia utilizada. Alguns exemplos de tensões de referência inicial e final são: 0.9Vdde 0.1Vdd, 0.8Vdde 0.2Vddou 0.7Vdde 0.3Vdd(BHASKER; CHADHA, 2009).

(51)

slewpara cada combinação j → i, diferentes métodos são utilizados. O método mais utilizado por ferramentas industriais de análise de timing, por ser pessimista, propaga o pior dos slews de entrada de descida (su-bida) para a sa´ıda da porta, sendo também o método adotado nessa dissertação. Aplicado este método, o slew de descida (subida) na sa´ıda de vi é representado por slewif (slewri).

• Positive Unateness: diz-se que uma porta vi ´e positive unate quando

uma transição de subida (descida) em uma de suas entradas resulta em uma transição de subida (descida) em sua sa´ıda. As portas AND e OR são exemplos de portas positive unate.

• Negative Unateness: diz-se que uma porta vi ´e negative unate quando

uma transição de subida (descida) em uma de suas entradas resulta em uma transição de descida (subida) em sua sa´ıda. As portas CMOS estáticas complementares são exemplos de portas negative unate. É interessante notar que as portas XOR não são negative unate tampouco positive unate, sendo denominadas non-unate.

Visto que a biblioteca standard cell adotada nos experimentos desse trabalho possui apenas portas CMOS estáticas complementares, ou seja por-tas negative unate (com execeção do flip-flop), por questão de didática, os algoritmos e fórmulas apresentados nessa dissertação assumem apenas portas negative unate.

A Figura 7 apresenta as caracter´ısticas temporais de um inversor para ilustrar os conceitos apresentados anteriormente. É importante observar que, de uma maneira mais genérica, o conceito de slew está associado ao tempo de transição de qualquer sinal do circuito, inclusive dos sinais nas entradas e sa´ıdas dos elementos de armazenamento e nas entradas e sa´ıdas primárias do bloco combinacional. Também vale a pena observar que quando duas portas estão conectadas (por exemplo, sa´ıda de vj conectada a uma das entradas de

vi), se as interconexões do circuito são modeladas com resistência zero (sem

atraso), o slew de entrada de vicorresponde ao slew de sa´ıda de vj. Este ´e o

caso assumido na infraestrutura da Competição do ISPD 2012, usada nesse trabalho. Os conceitos referentes às caracter´ısicas temporais dos elementos sequenciais, como tempo de setup e tempo de hold, não serão apresentados visto que na infraestrutura utilizada eles são desconsiderados e, portanto, não fazem parte do escopo dessa dissertação.

As ferramentas comerciais de análise de timing estática, cujo funcio-namento será abordado na Seção 2.4, adotam o conceito de arcos de tempo2 2_{E interessante notar que o conceito de arcos de tempo, quando aplicado às portas, equivale}´ ao chamado atraso pino-a-pino (pin-to-pin delay (GUNTZEL, 2000).

(52)

Figura 7: Caracter´ısticas temporais de uma porta, ilustradas pelo comporta-mento de um inversor. A parte superior ilustra a definição de atraso de descida e subida. Já a parte inferior apresenta uma ilustração do slew de descida e su-bida, respectivamente.

(timing arcs) (BHASKER; CHADHA, 2009). Um arco de tempo serve para relacionar o atraso de propagação de um sinal entre dois pontos adjacentes do circuito (LEE; GUPTA, 2012). Assim, pode-se associar um arco de tempo para cada rede ou para cada fio do circuito (conexão entre o ponto de origem e um destino), conforme for o modelo de atraso de conexões adotado. Uma porta lógica vi(e.g., NAND, NOR) possui um par de arcos de tempo (subida e

descida) entre cada entrada j e a sa´ıda da porta. Já para um flip-flop, associa-se um arco entre a sua entrada de dados e a sa´ıda. Como conassocia-sequência prática, o atraso de um caminho qualquer em um circuito digital ou em um de seus blocos combinacionais pode ser calculado como a soma dos arcos de tempo associados aos elementos atravessados pelo referido caminho.

Para as portas lógicas, os arcos de tempo também são usados para associar o atraso da porta com o tipo de transição de entrada e o consequente tipo de transição na sa´ıda (segundo a propriedade unateness da porta). A Figura 8 ilustra tal associação, sem contudo identificar o valor do atraso.

(53)

(b) Positive unate arc 0

(a) Negative unate arc 1

(c) Non-unate arc

0 or

Figura 8: Associac¸˜ao entre timing arc e propriedade unateness. Adaptado de Bhasker e Chadha (2009).

2.3 MODELOS DE ATRASO E BIBLIOTECA STANDARD CELL

As técnicas de otimização de potência estática propostas neste traba-lho estão voltadas ao fluxo de projeto standard cell. No fluxo standard cell, as informações de atraso, slew e potência das células (instância de uma porta lógica) da biblioteca são disponibilizadas em um arquivo no formato Liberty (LIBERTY, 2012). Até o in´ıcio dos anos 2000 o modelo de atraso de célula utilizado pelo fluxo standard cell era o chamado modelo linear, cuja forma ge-ral é mostrada na Equação 2.1 para uma porta negative unate. Nesta equação, slewr_j é o slew de subida na entrada j da célula, enquanto capi é a carga

capacitiva na sua sa´ıda. Os demais valores, D0, D1 e D2, são constantes determinadas a partir de simulações no n´ıvel elétrico.

df_j→i= D0 + D1 × slewr_j+ D2 × capi (2.1)

O modelo linear não é suficientemente preciso para os intervalos de va-lores de slew de entrada e de cargas capacitivas de sa´ıda que comumente ocor-rem em nodos tecnológicos nanométricos (BHASKER; CHADHA, 2009). Por esta razão, as bibliotecas standard cell contemporâneas utilizam o modelo de atraso não-linear (NLDM - Non-Linear Delay Model), o qual armazena as informações de atraso e slew de cada opção de implementação (célula) de cada função lógica em tabelas bi-dimensionais. Para cada entrada de toda