DTSVLIW. UFES Mestrado em Informática. Arquiteturas Avançadas de Computador. Sotério Ferreira de Souza. Prof. Alberto Ferreira de Souza

(1)

UFES – Mestrado em Informática

Arquiteturas Avançadas de

Computador

DTSVLIW

UFES – Mestrado em Informática

Arquiteturas Avançadas de

Computador

DTSVLIW

Sotério Ferreira de Souza

Orientador: Prof. Alberto Ferreira de Souza

23 de outubro de 2003

DTSVLIW

Sotério Ferreira de Souza

Orientador: Prof. Alberto Ferreira de Souza

23 de outubro de 2003

(2)

DTSVLIW

Dynamically Trace Scheduled Very

Long Instruction Word

DTSVLIW

Dynamically Trace Scheduled Very

Long Instruction Word

Prof. Dr. Alberto Ferreira de Souza

Tese de Doutorado – UCL - Set/1999

Long Instruction Word

Prof. Dr. Alberto Ferreira de Souza

Tese de Doutorado – UCL - Set/1999

(3)

1 – Visão geral da arquitetura DTSVLIW

2 – Como extrai paralelismo no nível de instrução 3 – Como renomeia registradores

Do que vamos falar?

4 – Como renomeia leituras/escritas na memória 5 – Como trata aliasing exceptions

6 – Como trata exceções

(4)

Background

Paralelismo no Nível de Instrução – ILP

Explorar a possibilidade de execução de instruções

independentemente da seqüência definida pelo programador Paralelismo no Nível de Instrução – ILP

Explorar a possibilidade de execução de instruções

independentemente da seqüência definida pelo programador independentemente da seqüência definida pelo programador

Temporal: processador segmenta a “execução” em vários subprocessos executados por unidades autônomas.

Espacial: processador com múltiplas unidades funcionais executando simultaneamente.

independentemente da seqüência definida pelo programador

Temporal: processador segmenta a “execução” em vários subprocessos executados por unidades autônomas.

Espacial: processador com múltiplas unidades funcionais executando simultaneamente.

(5)

Background

PIPELINE

PARALELISMO TEMPORAL

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch

(6)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1

(7)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2

(8)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3

(9)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I1

(10)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I5 I4 I3 I1I2 I1 CLK 5

(11)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I5 I4 I3 I1I2 I1 CLK 5 I6 I5 I4 I3 I2 CLK 6

(12)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I5 I4 I3 I1I2 I1 CLK 5 I6 I5 I4 I3 I2 CLK 6 I7 I6 I5 I4 I3 CLK 7

(13)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I5 I4 I3 I1I2 I1 CLK 5 I6 I5 I4 I3 I2 CLK 6 I7 I6 I5 I4 I3 CLK 7 I8 I7 I6 I5 I4 CLK 8

(14)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I5 I4 I3 I1I2 I1 CLK 5 I6 I5 I4 I3 I2 CLK 6 I7 I6 I5 I4 I3 CLK 7 I8 I7 I6 I5 I4 CLK 8 I8 I7 I6 I5 CLK 9

(15)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I5 I4 I3 I1I2 I1 CLK 5 I6 I5 I4 I3 I2 CLK 6 I7 I6 I5 I4 I3 CLK 7 I8 I7 I6 I5 I4 CLK 8 I8 I7 I6 I5 CLK 9 I8 I7 I6 CLK 10

(16)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I5 I4 I3 I1I2 I1 CLK 5 I6 I5 I4 I3 I2 CLK 6 I7 I6 I5 I4 I3 CLK 7 I8 I7 I6 I5 I4 CLK 8 I8 I7 I6 I5 CLK 9 I8 I7 I6 CLK 10 I8 I7 CLK 11

(17)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I5 I4 I3 I1I2 I1 CLK 5 I6 I5 I4 I3 I2 CLK 6 I7 I6 I5 I4 I3 CLK 7 I8 I7 I6 I5 I4 CLK 8 I8 I7 I6 I5 CLK 9 I8 I7 I6 CLK 10 I8 I7 CLK 11 I8 CLK 12

(18)

Background

PIPELINE

PARALELISMO TEMPORAL Execute Memory Access Write Back Decode Fetch I1 CLK 1 I2 I1 CLK 2 I3 I2 I1 CLK 3 I4 I3 I2 CLK 4 I5 I4 I3 I1I2 I1 CLK 5 I6 I5 I4 I3 I2 CLK 6 I7 I6 I5 I4 I3 CLK 7 I8 I7 I6 I5 I4 CLK 8 I8 I7 I6 I5 CLK 9 I8 I7 I6 CLK 10 I8 I7 CLK 11 I8 CLK 12 CLK 13

(19)

Background

VLIW

PARALELISMO ESPACIAL

VLIW

PARALELISMO ESPACIAL I1 I2 I3 I4 FU-3 FU-4 FU-2 FU-1 IC DC E I5 I6 I7 I8

(20)

Background

VLIW

PARALELISMO ESPACIAL I1 I2 I3 I4 FU-3 FU-4 FU-2 FU-1 IC DC E I5 I6 I7 I8 I5 I6 I7 I8 I3 I4 I2 I1 CLK 1

(21)

Background

VLIW

PARALELISMO ESPACIAL I1 I2 I3 I4 FU-3 FU-4 FU-2 FU-1 IC DC E I5 I6 I7 I8 I5 I6 I7 I8 I3 I4 I2 I1 CLK 1 I1 I2 I3 I4 I7 I8 I6 I5 CLK 2

(22)

Background

VLIW

PARALELISMO ESPACIAL I1 I2 I3 I4 FU-3 FU-4 FU-2 FU-1 IC DC E I5 I6 I7 I8 I5 I6 I7 I8 I3 I4 I2 I1 CLK 1 I1 I2 I3 I4 I7 I8 I6 I5 CLK 2 I5 I6 I7 I8 FU-3 FU-4 FU-2 FU-1 I1 I2 I3 I4 CLK 3

(23)

Background

PARALELIZAÇÃO

Capacidade de paralelização que pode ser explorada é limitada pelas dependências de controle e de dados entre as instruções.

PARALELIZAÇÃO

Capacidade de paralelização que pode ser explorada é limitada pelas dependências de controle e de dados entre as instruções. pelas dependências de controle e de dados entre as instruções. PIPELINE: impedem a execução de instruções consecutivas.

VLIW: impedem a inserção de mais instruções dentro de uma instrução longa.

pelas dependências de controle e de dados entre as instruções. PIPELINE: impedem a execução de instruções consecutivas.

VLIW: impedem a inserção de mais instruções dentro de uma instrução longa.

(24)

Background

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... ...

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... ... r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4 r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4

(25)

Background

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... ...

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... Controle ... r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4 r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4

(26)

Background

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... ...

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... Controle ... r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4 r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4 Saída

(27)

Background

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... ...

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... Controle ... Anti-dependência r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4 r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4 Saída

(28)

Background

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... ...

Dependências:

if r8 = 0 goto L r3 : = r1 + r4 ... Controle ... Anti-dependência r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4 r2 : = r1 + 1 r1 : = r2 / r5 ... L: r1 : = r3 * r4 r1 : = 50[r6] ... ... r2 : = r1 + 1 r1 : = r3 + r4 Saída VERDADEIRA

(29)

Background

Técnicas para minimização dos problemas causados por dependências. Técnicas para minimização dos problemas causados por dependências.

Register Renaming

Elimina dependências de saída e anti-dependência, também conhecidas como dependências de nome.

Exemplos: r1:=r2+r4 r1:=r2+r4 r3:=r1+r4 r3:=r1+r4

... ... ... ...

r1:=r2*r5 r3:=r2*r5 r1:=r2/r5 r6:=r2/r5 Elimina dependências de saída e anti-dependência, também conhecidas como dependências de nome.

Exemplos: r1:=r2+r4 r1:=r2+r4 r3:=r1+r4 r3:=r1+r4

... ... ... ...

(30)

Background

Branch Prediction

Reduz impacto das dependências de controle.

Desvios podem ser preditos estaticamente pelo compilador ou dinamicamente pelo hardware.

Branch Prediction

Reduz impacto das dependências de controle.

Desvios podem ser preditos estaticamente pelo compilador ou dinamicamente pelo hardware.

(31)

Background

Speculative Execution

As instruções são executadas sem que o resultado de um desvio

condicional seja conhecido, porém os valores de saída são confirmados apenas se o resultado do desvio for coerente com o caminho tomado na execução especulativa.

Speculative Execution

As instruções são executadas sem que o resultado de um desvio

condicional seja conhecido, porém os valores de saída são confirmados apenas se o resultado do desvio for coerente com o caminho tomado na execução especulativa.

(32)

Background

Memory Disambiguation

É necessária quando instruções load/store são executadas fora da ordem especificada pelo programador.

Exemplo: ... st r3,a ld a,r1 ld a,r1 ... ... st r3,a

É necessária quando instruções load/store são executadas fora da ordem especificada pelo programador.

Exemplo: ... st r3,a ld a,r1 ld a,r1 ... ... st r3,a

(33)

Background

Predication

Execução condicional baseada em valor booleano de um operador de entrada. Instrução com predicado true são executadas normalmente enquanto as com predicado false, embora tratadas, não tem seus resultados salvos no estado ISA.

Predication

Execução condicional baseada em valor booleano de um operador de entrada. Instrução com predicado true são executadas normalmente enquanto as com predicado false, embora tratadas, não tem seus resultados salvos no estado ISA.

(34)

Background

Instruction Hoisting

Execução especulativa de instruções load, store e ponto-flutuante pode causar exceções que não devem ser sinalizadas enquanto os resultados da execução especulativa não sejam confirmados.

Instruction Hoisting

Execução especulativa de instruções load, store e ponto-flutuante pode causar exceções que não devem ser sinalizadas enquanto os resultados da execução especulativa não sejam confirmados.

(35)

Máquina

Máquina dede EscalonamentoEscalonamento:: Unidade

Unidade dede EscalonamentoEscalonamento Processador

Processador PrimárioPrimário PipelinedPipelined

Máquina

Máquina VLIWVLIW::

Cache

Cache VLIWVLIW

D

T

S

V

CacheCache VLIWVLIW

Estágios

Estágios PipelinedPipelined

Fecth

Fecth UnitUnit::

Program

Program CounterCounter

Endereço

Endereço dede InstruçãoInstrução Endereço

Endereço dede InstruçãoInstrução LongaLonga

V

L

II

W

(36)

Instruction Cache

Scheduler

Visão Geral da Arquitetura DTSVLIW

VLIW Cache Fecth Unit Primary Processor Scheduler Unit Scheduler Engine Scheduling List VLIW Engine Data Cache To/From Memory

(37)

A Máquina de Escalonamento

Processador Primário

Processador pipelined simples com estágios de fetch,

decode, execute e write back, capaz de executar todas as decode, execute e write back, capaz de executar todas as

instruções Sparc Version 7 ISA.

Unidade de Escalonamento

Implementação, em hardware, de versão simplificada do algoritmo FCFS (First Come First Served)

(38)

A máquina VLIW

Cache VLIW

Cache associativo com tamanho de linha igual à um bloco de instruções longas (BLOCK_SIZE), com campo nba

associado à cada linha do cache. associado à cada linha do cache.

Processamento das instruções

Unidades funcionais pipelined com estágios de fetch,

execute e write back, para processamento de instruções

(39)

A máquina DTSVLIW

Scheduler Engine Scheduler Unit I S Mu Mu Mu Mu Instruction Cache Primary Processor VLIW Engine Fecth Unit VLIW Cache F E WB F D WB E I S

(40)

A Unidade de Escalonamento

O algoritmo FCFS:

• Motivos para a escolha

• Como trabalha

• A inserção na lista de escalonamento

• Instrução candidata / Move Up

• Condições para Move Up

• Envio para o Cache VLIW

(41)

Inserções na lista de Escalonamento

Instrução livre de dependências com outras presentes no último elemento da lista são inseridas em slot vago neste elemento e se tornam candidatas, podendo ser escalonadas dentro da lista (move up). Caso contrário, um novo elemento é criado para receber a instrução recebida do estágio execute do processador primário, sendo a mesma instalada nesse novo elemento.

(42)

Condições para Move Up

Se existe slot vago e não existe dependência verdadeira com outras instruções presentes no elemento imediatamente superior (i-1).

Se existe dependência de saída com instrução em (i-1); Se existe dependência de saída com instrução em (i-1); Ou existe antidependência com instrução em (i);

Ou existe dependência de controle com instrução em (i). Nestes três últimos casos, a instrução candidata é dividida.

Renomeia-se a saída e instala-se instrução cópia no slot atual da instrução longa (i).

(43)

Split de instruções

Em caso de dependência de saída, antidependência ou dependência de controle com instrução no elemento (i-1):

O registrador de saída é renomeado para um renaming register e o

move up acontece normalmente. Instrução COPY é instalada no slot atual para copiar renaming register para registrador original. slot atual para copiar renaming register para registrador original.

...

(i-k) r3: = r1 + r4 ...

(44)

Split de instruções

Em caso de dependência de saída, antidependência ou dependência de controle com instrução no elemento (i-1):

O registrador de saída é renomeado para um renaming register e o

move up acontece normalmente. Instrução COPY é instalada no slot atual para copiar renaming register para registrador original. slot atual para copiar renaming register para registrador original.

... (i-k) r3: = r1 + r4 ... (i) r1: = r2 + r5 (i) r9: = r2 + r5 ... (i-k) r3: = r1 + r4 ... (i) r1: = r9

(45)

Instruções COPY

Não provocam dependência de dados e podem ser sobrescritas. Instrução em (i) que escreve em registrador de saída de instrução cópia em (i-1) pode ser escalonada sem divisão se o tag é igual ao da instrução longa. Neste caso, pode subrescrever instrução cópia em (i-1).

em (i-1).

Se tag da instrução cópia é diferente do tag da instrução longa (i-1), a instrução em (i) tem que ser dividida para ser movida para (i-1) Instrução longa que lê registrador de saída de instrução cópia, pode ser escalonada com renomeação do registrador de entrada.

(46)

Instruções de Desvio

Instruções de desvio condicional são instaladas quando inseridas. Estabelecem tag para suas instruções longas que são propagados para instruções inseridas e/ou instaladas posteriormente.

para instruções inseridas e/ou instaladas posteriormente.

Os tags são avaliados na execução VLIW. Se válidos, as instruções tem seus resultados escritos no estado de máquina.

(47)