Arquitetura Cell Broadband Engine

(1)

Universidade de S˜ao Paulo

Instituto de Matem´atica e Estat´ıstica

Arquitetura Cell Broadband Engine

Mikail Campos Freitas

S˜

ao Paulo

(2)

Sum´

ario

1 Introdu¸c˜ao 2

2 Hist´oria do Cell 3

3 Principais Aplica¸c˜oes 3

4 Arquitetura Cell 3

4.1 Power Processing Element . . . 4

4.2 Synergistic Processing Element . . . 5

4.3 Element Interconnect Bus . . . 6

4.4 Interface Controllers . . . 7

5 Conclus˜oes 8

(3)

1 Introdu¸

c˜

ao

O objetivo deste trabalho ´e apresentar, analisar e discutir sobre um tipo de arquitetura de processador denominada Cell Broadband Engine Architecture (CBEA).

Alguns pontos cobertos neste documento são: objetivos que direcionaram o seu design, detalhes técnicos de sua arquitetura e da arquitetura de seus componentes, aplica¸cões de processadores Cell, vantagens e desvantagens sobre arquiteturas clássicas e barreiras no de-senvolvimento para Cell.

(4)

2 Hist´

oria do Cell

No ano de 2000 as empresas Sony Computer Entertainment, Toshiba Corporation e IBM formaram uma alian¸ca que ficou conhecida como STI. Seu objetivo era desenvolver e produzir o processador Cell. O seu desenvolvimento de fato foi iniciado no ano de 2001 com a forma¸c˜ao do STI Design Center. O desenvolvimento da primeira vers˜ao da arquitetura Cell levou 4 anos.

Os objetivos visados com o desenvolvimento dessa nova arquitetura eram de criar um processador de alto desempenho que fosse utilizável para uma grande variedade de aplica¸cões, incluindo-se consoles de jogos (video-games; principal interesse da Sony na alian¸ca). Isso é, um processador que fosse intermediário entre processadores convencionais de desktops e processadores especializados de alto desempenho (como, por exemplo, GPUs). Mas que além disso, e principalmente, apresentasse um baixo consumo de energia e de recursos em geral (tanto em produ¸cão quanto em utiliza¸cão).

3 Principais Aplica¸

c˜

oes

As principais aplica¸cões de processadores Cell atualmente são para opera¸cões de ponto flutuante, que são muito utilizados em: criptografia, transforma¸cões e ilumina¸cão gráfica, simula¸cões f´ısicas, transformada rápida de Fourier (FFT, em inglês), opera¸cões em matrizes e workloads (processamento destinado à nuvem/grade computacional).

Tabela 3.1: tabela comparativa de velocidade em GFLOPS de processadores convencionais com o Cell; dados extraidos de [2] e [3]

4 Arquitetura Cell

Para obter-se um alto desempenho consumindo poucos recursos (área no chip, energia e custo em geral) análises mostraram que uma boa abordagem para a arquitetura seria tentar o paralelismo com vários núcleos em um mesmo multiprocessador. Para redu¸cão ainda maior no consumo de energia foi optado por usar uma arquitetura de multiprocessador heterogêneo que prioriza processamento de dados ao invés de sistema de controle.

A arquitetura resultante foi de um multiprocessador heterogˆeneo formado por um n´ucleo principal baseado na arquitetura IBM 64-bit Power ArchitectureTM_{[1] e oito coprocessadores}

baseados na arquitetura single-instruction multiple-data (SIMD) chamada Synergistic Pro-cessing Unit (SPU). Desse modo foi poss´ıvel combinar a flexibilidade da arquitetura do n´ucleo principal com funcionalidade otimizada das SPUs SIMD.

Ambos os processadores (principal e coprocessadores) são do tipo reduced instruction set computing (RISC) que são processadores que procuram atingir um desempenho elevado por possu´ırem instru¸cões mais simples mas que podem ser executadas mais rapidamente.

Para a comunica¸cão dos elementos do chip foi escolhido um barramento circular de alto desempenho de quatro canais que também é ligado aos controles de interface de memória e

(5)

entrada e sa´ıda do chip. Está presente também em todos os processadores do chip um direct memory access engine (DMA engine) com coerência de cache que permite que qualquer pro-cessador possa acessar a memória principal e memórias mais distantes sem a necessidade da passagem da informa¸cão pelo processador principal.

Os elementos básicos da arquitetura Cell que serão analisados e discutidos nas próximas subse¸cões são os seguintes:

• Power Processing Element (PPE, processador principal do chip, respons´avel principal-mente pelo controle)

• Synergist Processing Element (SPE, coprocessador especializado, realiza o real proces-samento de dados)

• Element Interconnect Bus (EIB, barramento do chip)

• Interface Controllers (IC, controles de interface com a mem´oria e entrada e sa´ıda do chip)

Figura 4.1: estrutura de um chip de arquitetura Cell

4.1 Power Processing Element

O PPE é o processador principal na arquitetura Cell. Devido à sua semelhan¸ca com processadores do tipo 64-bit PowerPC ele suporta a execu¸cão de sistemas operacionais convencionais.

Tem total controle sobre os SPEs: start, stop, interrupt e schedule de seus processos; suas instru¸c˜oes load e store tˆem acesso direto ao local storage dos SPEs assim como acesso `

a mem´oria principal tamb´em. ´

E um processador two-way multithreaded, isso é, instru¸cões de até dois threads dife-rentes podem estar no pipeline em um dado momento.

(6)

Alguns dados de sua arquitetura: • instru¸c˜oes de 32 bits

• registradores de 64 e 128 bits (registradores de 128 bits s˜ao reservados para a unidade AltiVec)

• L1 de 32 kB para instru¸c˜oes e 32 kB para dados e L2 de 512 kB

• possui uma unidade AltiVec (unidade especializada que usa pipeline para opera¸c˜oes de ponto flutuante de precis˜ao simples)

4.2 Synergistic Processing Element

Os SPEs são os coprocessadores especializados da arquitetura Cell. Apesar de possu´ırem arquitetura turing-completa [4], não são totalmente autônomos e dependem do controle do PPE para um funcionamento útil. Seu acesso à memória através das instru¸cões load e store é limitado à memória local, qualquer outro tipo de acesso deve ser feito através de uma opera¸cão de DMA.

Basicamente são processadores RISC SIMD especializados em opera¸cões de ponto flutuante de precisão simples e dupla. São eles que representam o real poder de proces-samento de um processador Cell, devido à sua especializa¸cão e por realizarem tarefas em paralelo (oito SPEs por processador Cell).

Cada SPE é constitu´ıdo de uma synergistic processing unit (SPU, unidade de proces-samento em si) e um memory flow controller (MFC, responsável pelo acesso à memória local e por realizar as opera¸cões de DMA necessárias).

A principal diferen¸ca e inova¸cão da arquitetura Cell em rela¸cão à outras arquiteturas são os SPEs e mais especificamente a SPU presente em cada um deles.

A arquitetura da SPU tem como objetivos: • fornecer um conjunto de registradores robustos

• redu¸cão no tamanho e no consumo de energia por unifica¸cão de recursos • simplificar decode and dispatch (leitura e execu¸cão de instru¸cões)

Tais objetivos foram alcan¸cados com uma arquitetura nova baseada em SIMD com instru¸cões de tamanho fixo de 32 bits com um formato de 3 operandos. Com o design de uma nova instruction set architecture (ISA) foi poss´ıvel simplificar a unidade no aspecto de instru¸cões e fornecer operandos de 7 bits que endere¸cam diretamente, de qualquer instru¸cão, 128 registradores através de uma única abordagem SIMD de computa¸cão es-palhada (SIMD pervasive computing), tanto para dados escalares quanto vetoriais. Nessa abordagem um conjunto SIMD de 128 registradores de 128 bits fornece operandos es-calares, condicionais e de endere¸camento como para opera¸cões condicionais, branches e acessos à memória.

Para diminuir a área ocupada e o consumo de energia a aritmética de pontos flutuantes foi reduzida para apenas as opera¸cões mais comuns. Com isso números desnormalizados [5] são automaticamente arredondados para zero quando recebidos como entrada ou pro-duzidos como sa´ıda. Também apenas um modo de arredondamento é suportado.

A SPU possui arquitetura in-order dual-issue estaticamente escalonável, isso é, duas instru¸cões SIMD podem ser processadas por ciclo (uma instru¸cão de processamento e

(7)

uma opera¸cão de memória). Sua arquitetura de branching não inclui branch prediction dinâmico mas ao invés disso se baseia em branch prediction gerado pelo compilador, com instru¸cões do tipo “prepare-to-branch” para redirecionar o prefetch da instru¸cão para os alvos do branch.

O MFC integra as SPUs usando modelos de prote¸cão e tradu¸cão de endere¸cos da arquitetura Power [1]. Ele provê transferência e sincroniza¸cão de dados e implementa a interface da SPU no barramento de alto desempenho do Cell (EIB).

Implementa também a comunica¸cão entre os SPEs e o PPE e serve como um engine de transferência de dados de alto desempenho entre o local storage dos SPEs e a memória principal.

Sua presen¸ca na arquitetura dos SPEs é essencial pois passar a responsabilidade da computa¸cão de transferência de dados para uma unidade dedicada possibilita que o proces-samento e transferência de dados ocorram em paralelo assim como também torna poss´ıvel a implementa¸cão de métodos avan¸cados de programa¸cão como software pipelining e doble buffering.

Alguns dados da arquitetura do SPE: • instru¸c˜oes de 32 bits

• registradores de 128 bits

• local storage (SRAM embutida) para dados e instru¸c˜oes de 256 kB

4.3 Element Interconnect Bus

O EIB ´e um barramento de alto desempenho que liga todos os componentes da arqui-tetura Cell (um PPE, oito SPEs, controlador de interface com a mem´oria e dois chips de controle de interface com entrada e sa´ıda). Ele inclui uma unidade de arbitragem para controle do fluxo de dados.

´

E implementado como um anel circular formado por quatro canais unidirecionais de sentidos contrários aos pares de 16 bytes de largura cada. Quando a unidade de arbitra-gem permite, cada canal consegue suportar até três transferências concorrentes. Como há muitos elementos ligados ao EIB sua implementa¸cão circular bidirecional foi uma solu¸cão simples e barata para o problema de distância entre dois elementos: agora a distância máxima é de seis passos pois, se um caminho com mais de seis passos é gerado, o cami-nho de fato realizado pelos dados é o do sentido contrário (mais curto). Isso contribui essencialmente para que sempre os maiores trechos poss´ıveis do EIB estejam livres para outros elementos, assim como diminui diretamente o tempo de espera.

A liga¸cão do EIB com cada elemento externo é feita através de uma porta de 16 bytes para escrita e uma porta de 16 bytes para leitura. O limite de leitura e escrita para cada elemento é de 16 bytes por ciclo do EIB (8 bytes por ciclo do sistema). Como até três transferências de 16 bytes cada podem estar em cada canal do EIB, mas como sua freqüência é metade da do sistema, então temos que sua largura de banda de pico é de 96 bytes por ciclo do sistema.

(8)

Figura 5.1: estrutura do EIB

4.4 Interface Controllers

Está presente no Cell uma célula Rambus XIO de dois canais que realiza interface com memórias do tipo Rambus XDR (DRAM de alto desempenho). O controle de interface com a memória (MIC) é separado da célula e foi desenvolvido pela IBM. A conexão XIO-XDR apresenta uma velocidade de 3.2 Gbps/pino.

A c´elula Rambus XIO ´e composta 1 _{por um ou dois blocos de requisi¸c˜}_{ao de}

barra-mento (RQ) de 12 bits cada, um bloco de controle (CTL) e um número variável de blocos de dados (DQ) de 8 ou 9 bits. O bloco RQ fornece endere¸cos de controle e informa¸cão para o subsistema da memória. O bloco CTL realiza inicializa¸cão, manuten¸cão e acesso a registradores e fun¸cões de testabilidade. Cada bloco DQ é capaz de transmitir e receber dados a uma velocidade de até 7.2 Gbps.

A interface com entrada e sa´ıda é feita através de uma célula Rambus FlexIO. É formada por doze camadas point-to-point de 8 bits de largura cada, onde cinco dessas camadas são internas ao Cell e quatro camadas tanto internas quanto externas suportam coerência de memória. Fornece uma largura máxima de banda teórica de 62.4 GB/s (26 GB/s em camadas internas e 36.4 GB/s em camadas externas) a uma freqüência de 2.6 GHz e pode ter uma freqüência diferente da do sistema (geralmente 3.2 GHz).

(9)

5 Conclus˜

oes

A arquitetura Cell procura alcan¸car alto desempenho com baixos custos e consumo de energia incorporando o que muitos acreditam ser o futuro da computa¸c˜ao: computa¸c˜ao pa-ralela.

Enquanto outras arquiteturas apenas encaram aplica¸cões paralelas como funcionalidades extras, a arquitetura Cell é inteiramente desenvolvida com foco no paralelismo. Com seus múltiplos SPEs especializados capazes de realizar acessos à memória e processamento de da-dos simultaneamente percebemos, a partir da tabela 3.1, que mesmo tendo sido lan¸cado anos atrás, processadores Cell apresentam um desempenho excepcional em compara¸cão inclusive com processadores atuais.

A decisão de usar processadores RISC também é um ponto positivo para a utiliza¸cão de otimiza¸cões geradas pelo próprio compilador, deixando assim o desenvolvedor Cell com menos responsabilidades em certos aspectos.

Apesar dessas vantagens desenvolvedores Cell ainda encontram barreiras fundamentais como: processadores do tipo RISC apresentam pico computacional na execu¸cão de código simples, que é dif´ıcil de ser gerado; programa¸cão paralela ainda não é bem desenvolvida.

Quando tais barreiras forem transpostas no futuro, a arquitetura Cell se beneficiará imen-samente e talvez inclusive torne-se base para o próximo padrão de arquiteturas de processa-dor.

(10)

6 Referˆ

encias e Bibliografia

[1] http://www.ibm.com/developerworks/library/pa-microdesign/ [2] http://www.maxxpi.net/ [3] http://domino.research.ibm.com/comm/research.nsf/pages/r.arch.innovation.html [4] http://en.wikipedia.org/wiki/Turing complete [5] http://en.wikipedia.org/wiki/Denormal number http://en.wikipedia.org/wiki/Cell Broadband Engine

http://domino.research.ibm.com/comm/research.nsf/pages/r.arch.innovation.html http://www.research.ibm.com/cell/

http://www.rambus.com/in/technology/solutions/xdr/xdr controller.html Michael Gschwind. Chip Multiprocessing and the Cell Broadband Engine, 2006