Arquitectura de Computadores (ACom)

(1)

Arquitectura de Computadores

(ACom)

MEAer

Acetatos das Aulas Te´

oricas

Vers˜ao 4.0 - Portuguˆes

Aula N

o

16:

T´ıtulo: Fam´ılia Intel x86; Arquitecturas de processadores em pipeline

Sum´ario: Fam´ılia Intel x86 (registos, bits de estado, mem´oria,

(2)

Fam´ılia Intel x86; Arquitecturas de

processadores em pipeline

Prof. Nuno Roma ACom 2014/15 (MEAer) - DEEC-IST 1 / 52

Arquitectura de Computadores

(ACom)

Aula Anterior Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula Na aula anterior...

Unidades de Processamento e de Controlo do P3

Fluxo de Execu¸c˜ao de uma Instru¸c˜ao

◮ Carregamento do Registo de Instru¸c˜ao

◮ Carregamento dos Operandos

◮ Execu¸c˜ao da Instru¸c˜ao

◮ Escrita do Resultado

◮ Teste de Interrup¸c˜oes

(3)

Road Map Fam´ılia Intel x86

Processamento em Pipeline Pr´oxima Aula

Planeamento Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula Planeamento

Semana Teórica 1 Teórica 2 Problemas (P) / Laboratório (L)

16-fev a 20-fev CARNAVAL Apresentação da cadeira; Introdução P0: Revisões SD 23-fev a 27-fev L1: Modos de endereçamento 02-mar a 06-mar Operações lógicas e aritméticas ISA do P3 P1: Assembly do P3 09-mar a 13-mar L2: Instruções Aritméticas e Salto 16-mar a 20-mar Técnicas de programação em Assembly Geração do código objecto. L3: Rotinas; Passagem parâmetros 23-mar a 27-mar Estrutura de um processador Unidade de processamento

30-mar a 03-abr Unidade de controlo PÁSCOA PÁSCOA 06-abr a 10-abr PÁSCOA L4: IO; Interrupções 13-abr a 17-abr Organização interna do P3: circuito de controlo Organização interna do P3: microprogramação P3: Micro-programação 20-abr a 24-abr L5: Micro-programação 27-abr a 01-mai Dependências dados e de controlo; Conflitos L6: Arduino

Instruções Assembly; Operandos e modos de endereçamento; Processador P3

Operandos; Pilha; Instruções de acesso à memória; Codificação das instruções. Periféricos do P3; Interrupções e contagem do

tempo no P3

Tradução de linguagem de alto nível para Assembly

P2: Interrupções; Codificação de Instruções Controlo microprogramado; Organização

interna do P3: circuito de dados Família Intel x86; Arquitecturas de

processadores em pipeline

Arquitecturas de processadores em pipeline; Dependências Tópicos avançados de arquitectura de

(4)

Sum´ario Fam´ılia Intel x86

Hoje:

ISA da fam´ılia Intel x86 (registos, bits de estado,

mem´oria, instru¸c˜oes); Processamento em Pipeline.

Fam´ılia Intel x86

Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula

(5)

Fam´ılia Intel x86

Intel 4004 (1971) Fam´ılia Intel x86 Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula Intel 4004 (1971) Intel 8086 (1978)

(6)

Intel 4004 (1971) Intel 8086 (1978) Intel Pentium IV (2000) Fam´ılia Intel x86 Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula Intel 4004 (1971) Intel 8086 (1978)

(7)

(8)

Processador Intel 8086

(9)

Arquitectura do processador Intel 8086

Prof. Nuno Roma ACom 2014/15 (MEAer) - DEEC-IST 10 / 52 BIU - Bus Interface Unit

EU - Execution Unit IP - Instruction Pointer

Arquitectura do processador Intel 8086

Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula Primeiras gera¸c˜oes: 8086 / 8088 / 80186 / 80188 -processadores de 16 bits

Conjunto de Instru¸c˜oes da Fam´ılia Intel x86

(Instruction-Set Architecture – ISA)

◮ Registos

◮ Bits de estado

◮ Mem´oria

(10)

Registos do processador 8086

Registos do processador 8086:

Registos gen´ericos do processador 8086

(11)

Registos de uso geral de 16-bits: AX, BX, CX, DX

AX - accumulator

BX - base

CX - counter

DX - data

Registos de uso geral de 16-bits: AX, BX, CX, DX

AX - accumulator BX - base CX - counter DX - data AX BX CX DX AH AL BH BL CH CL DH DL

(12)

Registos espec´ıficos do processador 8086

Registos espec´ıficos (todos de 16 bits):

IP - Instruction Pointer, (equivalente ao PC do P3...)

SP - Stack Pointer

BP - Base Pointer

SI - Source Index

DI - Destination Index

Mais o registo de estado...

Bits de Estado Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula Registo de Estado: x x x x OF DF IF TF SF ZF x AF x PF x CF

x - bit n˜ao usado OF - excesso (overflow)

DF - direçcão: nas instru¸cões de manipula¸cão de strings, indica se se come¸ca de frente para trás ou de trás para a frente

IF - interrupt enable

TF - execu¸c˜ao passo-a-passo: normalmente usada pelo debugger SF - sinal (equivalente ao bit de estado ”negative” do P3) ZF - zero

AF - auxiliary carry, equivalente ao bit de transporte, mas representa o transporte entre o 4o e o 5o bit dos registos

PF - paridade: fica a 1 se o n´umero de 1s do resultado for par CF - transporte

(13)

Organiza¸c˜ao da Mem´oria

Espa¸co de endere¸camento de 1MByte (220_{), organizado ao}

Byte

Espa¸co de endere¸camento de 1MByte (220), organizado ao

Byte

O espa¸co de endere¸camento est´a dividido em segmentos,

(14)

Espa¸co de endere¸camento de 1MByte (220_{), organizado ao}

Byte

cada um com 64kBytes

Espa¸co de endere¸camento de 1MByte (220), organizado ao

Byte

cada um com 64kBytes

No entanto, a cada momento apenas est˜ao acess´ıveis 4

segmentos de 64kB cada:

◮ Code Segment - cont´em um tro¸co do programa;

◮ Data Segment - cont´em dados do programa;

◮ Extra Segment - cont´em dados do programa;

◮ Stack Segment - cont´em a pilha.

(15)

Endere¸co f´ısico definido pelo par registo de

segmento:deslocamento dentro do segmento

Por exemplo: CS:IP _{→ CS×2}4_+IP

CS 0h

IP + Endere¸co F´ısico

A cada instante apenas ´e poss´ıvel aceder a 4_{× 64kB = 256kB}

(16)

Exemplo: Modos de Endere¸camento Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula

Mesmos modos de endere¸camento do P3:

◮ Por registo

◮ Imediato

◮ Directo

◮ Indirecto por registo

(17)

Modos de Endere¸camento

◮ Por registo

◮ Imediato

◮ Directo

◮ Indexado, baseado, relativo

Instru¸c˜oes de 2 operandos Modos de Endere¸camento Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula

◮ Por registo

◮ Imediato

◮ Directo

Instru¸c˜oes de 2 operandos

Tamb´em como no P3, ´e uma arquitectura register-memory,

(18)

Modos de Endere¸camento

◮ Por registo

◮ Imediato

◮ Directo

Instru¸c˜oes de 2 operandos

Tamb´em como no P3, ´e uma arquitectura register-memory,

portanto um dos operandos tem que ser um registo

Ao contrário do P3, o modelo de memória é

independent IO.

Instru¸c˜oes Assembly

Aritméticas Conversão Lógicas Deslocam. Controlo Pilha Transfer. Strings Genéricas

ADD AAA AND SHL JMP PUSH MOV MOVS NOP ADC AAS OR SHR JCXZ POP XCHG STOS STC SUB AAM XOR SAL JO PUSHF IN LODS CLC SBB AAD TEST SAR JS POPF OUT SCAS CMC INC DAA ROL JC LAHF CMPS STD DEC DAS ROR JZ SAHF REP CLD NEG CBW RCL JP XLAT REPZ STI CMP CWD RCR JG LEA CLI

MUL JL LDS HLT

IMUL JA LES WAIT

DIV JB LOCK

IDIV LOOP ESC

CALL RET INT INTO IRET

(19)

Mecanismos de entradas e sa´ıdas (IO)

Mecanismos de entradas e sa´ıdas:

◮ Instru¸c˜oes espec´ıficas para IO:

• in

• out

Mecanismos de entradas e sa´ıdas:

◮ Instru¸c˜oes espec´ıficas para IO:

• in

• out

◮ Chamadas ao sistema operativo (ex: MS-DOS):

• Invoca¸c˜ao (por software) de rotinas de atendimento

de interrup¸c˜ao:

◦ Registo Ah armazena um c´odigo com o tipo da

opera¸c˜ao (ex: 02h - escreve um caracter)

(20)

IO por chamada ao sistema operativo - exemplos:

putchar(’a’); MOV DL, ’a’ MOV AH, 02h INT 21h

c=getchar(); MOV AH, 01h

INT 21h MOV C, AL

(21)

c=getchar(); MOV AH, 01h

INT 21h MOV C, AL c=getchar(); putchar(c); MOV AH, 01h INT 21h MOV DL, AL MOV AH, 02h INT 21h

Exemplo de programa em Assembly x86

code segment public

assume cs:code,ds:code org 100h

start: mov bx,offset msg ; bx points to string loop: mov al,[bx] ; load a character into al

cmp al,0 ; see if it’s a zero jz done ; quit if so

cmp al,32 ; see if it’s printable jl noprt ; don’t print if not call printc ; otherwise print it noprt: inc bx ; point to next character

jmp loop ; and loop back done: int 20h ; return to DOS

; subroutine to print the byte in al printc: push ax ; save ax and dx

push dx

mov dl,al ; use DOS to mov ah,02H ; print character

(22)

Processamento em Pipeline

Pr´oxima Aula

Tempo de Execu¸c˜ao Fam´ılia Intel x86

Pr´oxima Aula

(23)

Pr´oxima Aula

Tempo de execu¸c˜ao: T = n × CPI_f

Clocks per Instruction (CPI) Depende do número de micro-instru¸cões que devem ser executadas para cada instru¸cão Tempo de Execu¸cão Fam´ılia Intel x86 Processamento em Pipeline Próxima Aula

Clocks per Instruction (CPI) Depende do número de micro-instru¸cões que devem ser executadas para cada instru¸cão

Instru¸c˜ao N´umero de ciclos

NOP 4

MOV R1,40h 10 ADD R3,M[R2] 11 DEC R2 8 BR.NZ L1 13 (se tomado) BR.NZ L1 4 (se n˜ao tomado) MOV M[R1],R2 11

(24)

Pr´oxima Aula

Frequˆencia (f) Depende da tecnologia; n˜ao representa

garantidamente um melhor desempenho, pois pode obrigar a aumentar o CPI... Tempo de Execu¸c˜ao Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula

Frequˆencia (f) Depende da tecnologia; n˜ao representa

garantidamente um melhor desempenho, pois pode obrigar a aumentar o CPI...

N´umero de instru¸c˜oes (n) Depende do conjunto de

instru¸cões do processador e do processo de gera¸cão de código.

(25)

Pr´oxima Aula

Do ponto de vista de quem concebe a arquitectura, a escolha do conjunto de instru¸c˜oes (ISA) ´e fundamental para

conseguir o n´ıvel de eficiˆencia desejado

Pr´oxima Aula

Do ponto de vista de quem concebe a arquitectura, a escolha do conjunto de instru¸c˜oes (ISA) ´e fundamental para

conseguir o n´ıvel de eficiˆencia desejado

Nas gera¸c˜oes recentes de processadores tem-se procurado:

◮ Aumentar a frequˆencia de trabalho;

◮ Reduzir o no de ciclos de rel´ogio por instru¸c˜ao (CPI);

◮ Reduzir o no de instru¸c˜oes necess´arias para executar uma

tarefa;

◮ Executar, em paralelo, diversas opera¸c˜oes de que ´e

(26)

Processamento em Pipelining numa lavandaria Fam´ılia Intel x86

Pr´oxima Aula

4 lotes, cada um com a dura¸c˜ao de 4 _{× 30 min = 2 horas:}

◮ Lavar;

◮ Secar;

◮ Dobrar/Engomar;

◮ Guardar.

(27)

Pr´oxima Aula

Aproxima¸c˜ao em Pipeline: Tempo total = 3.5 horas

Execu¸cão em paralelo de instru¸cões Fam´ılia Intel x86 Processamento em Pipeline Próxima Aula Exemplo: MOV R1,9 MOV R2,R0

Ciclo: ADD R2,M[Start+R1] DEC R1

BR.NN Ciclo

As duas primeiras instru¸c˜oes n˜ao dependem uma da outra...

↓

(28)

Execu¸c˜ao de uma Instru¸c˜ao Assembly Fam´ılia Intel x86

Pr´oxima Aula

Fases de execu¸c˜ao de uma instru¸c˜ao Assembly:

1.(F) Leitura da Instru¸c˜ao (Fetch)

Ler codifica¸c˜ao da instru¸c˜ao para um registo interno e incrementar o contador de programa (PC).

Pr´oxima Aula

Ler codifica¸cão da instru¸cão para um registo interno e incrementar o contador de programa (PC). 2.(D) Descodifica¸cão

Interpreta¸cão dos campos da instru¸cão para deter-minar o tipo de instru¸cão e cópia dos operandos para registos temporários.

(29)

Pr´oxima Aula

3.(X) Execu¸c˜ao

C´alculo do resultado da instru¸c˜ao.

Pr´oxima Aula

3.(X) Execu¸c˜ao

(30)

Execu¸c˜ao num Processador CISC Fam´ılia Intel x86

Pr´oxima Aula

Estrutura de um processador de ciclo ´unico:

Banco de Registos PC IR Op1 Op2 Res ALU Barramento de Endereços Barramento de Dados Unidade de Processamento Unidade de Controlo Elementos fundamentais: ◮ Unidade de Controlo

◮ Unidade de Processamento: Banco de Registos e

Unidade L´ogica e Aritm´etica (ULA ou ALU)

Execu¸c˜ao num Processador CISC Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula Banco de Registos PC IR Op1 Op2 Res ALU Barramento de Endereços Barramento de Dados Unidade de Processamento Unidade de Controlo

Unidade de Processamento: utilizada repetidamente em

todas as fases de execu¸c˜ao de uma instru¸c˜ao:

(31)

Execu¸c˜ao num Processador CISC Fam´ılia Intel x86

Pr´oxima Aula

Banco de Registos PC IR Op1 Op2 Res ALU Barramento de Endereços Barramento de Dados Unidade de Processamento Unidade de Controlo

Unidade de Processamento: utilizada repetidamente em

todas as fases de execu¸c˜ao de uma instru¸c˜ao:

· · ·|F|D1|D2|X1|X2|X3|X4|W|F|D1|D2|D3|X1|W|F|D1|X1|X2|X3|W|· · ·

Instru¸c˜oes t˜ao complexas quanto o desejado

Dificuldade em paralelizar a execu¸c˜ao das instru¸c˜oes

Processadores RISC vs CISC Fam´ılia Intel x86

Pr´oxima Aula

⇒ Existe um compromisso entre a complexidade das

(32)

Pr´oxima Aula

instru¸c˜oes e a velocidade que elas podem ser executadas... Assim, os processadores podem ser classificados em duas categorias:

Pr´oxima Aula

CISC - Complex Instruction Set Computers RISC - Reduced Instruction Set Computers

(33)

Pr´oxima Aula

CISC - Complex Instruction Set Computers:

◮ Conjunto de instru¸cões complexo, demorando um no variável de ciclos de relógio;

◮ Modos de endere¸camento complexos;

◮ Não uniformidade dos formatos de codifica¸cão; ◮ Programas compactos, com no _{reduzido de instru¸cões.}

Exemplos: P3, Pentium IV, etc.

RISC - Reduced Instruction Set Computers

Pr´oxima Aula

CISC - Complex Instruction Set Computers RISC - Reduced Instruction Set Computers:

◮ Conjunto de instru¸c˜oes reduzido;

◮ Modos de endere¸camento simples e com restri¸cões; ◮ Codifica¸cão das instru¸cões uniforme;

◮ Tempo de execu¸c˜ao das instru¸c˜oes menor e uniforme; ◮ Programas mais extensos.

(34)

Pr´oxima Aula

CISC - Complex Instruction Set Computers RISC - Reduced Instruction Set Computers

Na prática, a gera¸cão RISC tem vindo a oferecer melhores desempenhos, pois verifica-se que muitas das instru¸cões e modos de endere¸camento dos CISC raramente são utilizados na prática, embora contribuam para uma maior

complexidade do hardware e um consequente redu¸c˜ao da frequˆencia de trabalho.

Caracter´ısticas dos Processadores RISC Fam´ılia Intel x86

Pr´oxima Aula

Caracter´ısticas dos Processadores RISC:

◮ Todas as instru¸c˜oes demoram o mesmo tempo a

executar;

◮ Instru¸c˜oes simples: s´o o que a ULA fornece;

◮ Modos de endere¸camento: s´o imediato e por registo;

(35)

Compara¸c˜ao CISC vs RISC Fam´ılia Intel x86

Pr´oxima Aula

CISC RISC

F

Compara¸c˜ao CISC vs RISC Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula CISC RISC F IR_{←M[PC],PC+=instLen} IR_{←M[PC],PC++} D

(36)

Pr´oxima Aula

CISC RISC

F IR_{←M[PC],PC+=instLen} IR_{←M[PC],PC++}

D Diferentes modos de endere¸camento Apenas por registo ou imediato X

Compara¸c˜ao CISC vs RISC Fam´ılia Intel x86 Processamento em Pipeline Pr´oxima Aula CISC RISC F IR_{←M[PC],PC+=instLen} IR_{←M[PC],PC++}

D Diferentes modos de endere¸camento Apenas por registo ou imediato X Sequência arbitrária de opera¸cões na

ULA

Apenas uma opera¸c˜ao da ULA W

(37)

Pr´oxima Aula

CISC RISC

F IR_{←M[PC],PC+=instLen} IR_{←M[PC],PC++}

D Diferentes modos de endere¸camento Apenas por registo ou imediato X Sequência arbitrária de opera¸cões na

ULA

Apenas uma opera¸c˜ao da ULA W Escrita do resultado num registo ou

posi¸c˜ao de mem´oria

Escrita do resultado num registo ou posi¸c˜ao de mem´oria

Processadores RISC do tipo Load/Store Fam´ılia Intel x86

Pr´oxima Aula

Arquitecturas RISC do tipo Load/Store:

◮ Instru¸cões aritméticas e lógicas, que apenas operam

sobre registos;

◮ Instru¸cões de transferência de dados entre memória e

registos:

• Load

• Store

(38)

Fases do Processador MIPS Fam´ılia Intel x86

Pr´oxima Aula

Uma fase adicional para a leitura ou escrita de dados em memória: só utilizada pelas instru¸cões load e store.

F - Leitura da Instru¸c˜ao (Fetch) D - Descodifica¸c˜ao

X - Execu¸c˜ao

M - Acesso `a Mem´oria

W - Escrita do Resultado (Write-back) Cada fase dura exactamente um ciclo de rel´ogio.

Pr´oxima Aula

Uma fase adicional para a leitura ou escrita de dados em memória: só utilizada pelas instru¸cões load e store.

F - Leitura da Instru¸c˜ao (Fetch) D - Descodifica¸c˜ao

X - Execu¸c˜ao

M - Acesso `a Mem´oria

W - Escrita do Resultado (Write-back) Cada fase dura exactamente um ciclo de rel´ogio. 1. (F) Fetch

IR_{←M[PC],PC←PC+4}

Considerando palavras de 32-bits (4 Bytes)

(39)

Pr´oxima Aula

2. (D) Descodifica¸c˜ao

◮ Descodifica¸c˜ao da instru¸c˜ao

◮ Leitura dos operandos do banco de registos

◮ Extens˜ao de sinal da constante

Pr´oxima Aula

3. (X) Execu¸c˜ao

◮ Opera¸c˜ao ULA sobre 2 registos

◮ Opera¸c˜ao ULA sobre 1 registo e constante

(40)

Pr´oxima Aula

3. (X) Execu¸c˜ao

◮ C´alculo do endere¸co efectivo

4. (M) Acesso Mem´oria

◮ Se load, lˆe mem´oria de dados

◮ Se store, escreve na mem´oria de dados

◮ Resolu¸c˜ao do salto

Pr´oxima Aula

3. (X) Execu¸c˜ao

◮ C´alculo do endere¸co efectivo

4. (M) Acesso Mem´oria

◮ Se load, lˆe mem´oria de dados

◮ Se store, escreve na mem´oria de dados

◮ Resolu¸c˜ao do salto

5. (W) Write-Back

(41)

Arquitectura do Processador MIPS Fam´ılia Intel x86

Pr´oxima Aula

Cada fase de execu¸c˜ao ´e um andar do pipeline (pipeline stage);

Cada andar do pipeline tem capacidade de processamento

aut´onomo;

Registos entre andares guardam valores interm´edios;

Velocidade de processamento limitada pelo andar mais lento.

Arquitectura do Processador MIPS Fam´ılia Intel x86

(42)

Processamento de Pipeline Fam´ılia Intel x86

Pr´oxima Aula

Pr´oxima Aula Ciclo de Rel´ogio

Instru¸c˜ao 1 2 3 4 5 6 7 8 9 i F D X M W i + 1 F D X M W i + 2 F D X M W i + 3 F D X M W i + 4 F D X M W

(43)

Pr´oxima Aula

Ciclo de Rel´ogio

Instru¸c˜ao 1 2 3 4 5 6 7 8 9 i F D X M W i + 1 F D X M W i + 2 F D X M W i + 3 F D X M W i + 4 F D X M W

Todas as instru¸c˜oes passam portodos os andares/fases, quer o utilizem ou n˜ao!

Desempenho do Pipeline Fam´ılia Intel x86

Pr´oxima Aula Speeduppipe =

Tempo Medio sem Pipeline Tempo Medio com Pipeline = CPIserie× Tclk−serie

CPIpipe× Tclk−pipe

= CPIserie CPIpipe × T_clk−serie Tclk−pipe Caso ideal: CPIpipe = 1

(44)

Pr´oxima Aula

Throughput (taxa de execu¸c˜ao)

N´umero de instru¸c˜oes executadas por unidade de tempo.

⇒ parˆametro que interessa

Pr´oxima Aula

Throughput (taxa de execu¸c˜ao)

N´umero de instru¸c˜oes executadas por unidade de tempo.

⇒ parˆametro que interessa

Latˆencia

Tempo que uma instru¸c˜ao demora a executar-se.

(45)

Pr´

oxima Aula

Fam´ılia Intel x86 Processamento em Pipeline

Pr´oxima Aula

Próxima Aula Fam´ılia Intel x86 Processamento em Pipeline Próxima Aula Processamento em Pipeline: ◮ Análise de conflitos: • Conflitos estruturais • Conflitos de dados • Conflitos de controlo ◮ Resolu¸cão de conflitos

(46)

Nota de Agradecimento Fam´ılia Intel x86

Pr´oxima Aula

Agradecimento

Algumas p´aginas desta apresenta¸c˜ao foram extraidas de:

[1] José Carlos Monteiro, “Arquitectura de Computadores”, Instituto Superior Técnico (IST), Universidade Técnica de Lisboa, Portugal, 2010.