Organização de Computadores 2005/2006 Processamento Paralelo

(1)

Organizac¸ ˜ao de Computadores – 2005/2006

Processamento Paralelo

Paulo Ferreira

paf a

dei.isep.ipp.pt

Maio de 2006

Introduç ão 2 Porqu ê? . . . 3

Definiç ão de computaç ão paralela . . . 4

Alocac¸ ˜ao de recursos . . . 5

Acesso aos dados, comunicaç ão e sincronizaç ão . . . 6

Performance e escalabilidade . . . 7

Hoje em dia . . . 8

Hist ´oria . . . 9

Hist ´oria . . . 10

Taxonomia 11 Mem ´oria partilhada . . . 12

Hardware de comunicac¸ ˜oes . . . 13

Mem ´oria partilhada . . . 14

Exemplo de Hardware . . . 15

Mem ´oria partilhada . . . 16

Exemplo de Hardware . . . 17

Escalabilidade . . . 18

Mem ´oria partilhada n ˜ao uniforme . . . 19

Interligac¸ ˜ao . . . 20 Message Passing . . . 21 Message passing . . . 22 Paralelismo de dados . . . 23 Exemplo de hardware . . . 24 Dataflow . . . 25 Exemplo de hardware . . . 26

Arquitecturas sist ´olicas . . . 27

Exemplo de hardware . . . 28

Resumo (mem ´oria partilhada) . . . 29

Resumo (outros) . . . 30

Detalhes 31 Problemas fundamentais . . . 32

Modelo de programac¸ ˜ao sequencial . . . 33

Performance (programac¸ ˜ao sequencial) . . . 34

Modelo de mem ´oria partilhada . . . 35

Sincronizac¸ ˜ao. . . 36

Message Passing . . . 37

Naming e Operac¸ ˜oes . . . 38

Exemplo . . . 39

(2)

Ordenac¸ ˜ao . . . 41

Replicac¸ ˜ao . . . 42

Comunicac¸ ˜ao . . . 43

Redes de interconex ˜ao . . . 44

Paralelizaç ão 45 Lei de Amdahl . . . 46 Decomposiç ão . . . 47 Atribuiç ão . . . 48 Orquestraç ão . . . 49 Mapeamento . . . 50

(3)

Introduc¸ ˜ao

slide 2

Porqu ˆe?

Uma forma de conseguir mais performance.

≪–Se um boi lavra um campo, porque n ˜ao 40 galinhas?≫

≪–Porque n ˜ao 40 bois, mais depressa?≫

ORGC Processamento Paralelo – slide 3

Definiç ão de computaç ão paralela

Um conjunto de elementos de processamento que cooperam para resolver problemas grandes de uma forma r ´apida.

E que problemas temos de resolver?

Alocac¸ ˜ao de recursos

Qual o n ´umero de elementos?

Qual a performance dos elementos?

Quantidade de mem ´oria?

Acesso aos dados, comunicaç ão e sincronizaç ão

Como ´e que os elementos cooperam e comunicam?

Como ´e que os dados s ˜ao transmitidos entre processadores?

Que primitivas e abstraç ões existem para a cooperaç ão?

Performance e escalabilidade

Como ´e que isto se traduz em termos de performance?

E em termos de escalabilidade?

Escalabilidade quer dizer aumento de performance com o aumento do node elementos.

Hoje em dia

Microprocessadores de elevada performance

Microprocessadores mais baratos

Paralelismo ao n´ıvel da instruç ão j á existe.

Passo seguinte: Computac¸ ˜ao paralela

(4)

Hist ´

oria

Processadores de 4, 8, 16, 32, 64 bits

Uma unidade de execuç ão, v árias unidades de execuç ão

Passo seguinte?

V ´arios processadores?

V ´arios processos por processador?

VLIW?

J ´a h ´a:

Hyperthreading (Intel)

Dual Core (Intel+AMD)

8 Cores * 4 threads (Sun Ultra Sparc T1)

Hist ´

oria

Modelos divergentes

Modelo de programaç ão = Primitivas de comunicaç ão = o que existia no hardware

Hoje em dia j ´a h ´a mais flexibilidade

Taxonomia

slide 11

Mem ´

oria partilhada

Mais simples

V ´arios processadores partilham a mesma mem ´oria

Parecido com o time-sharing nos S.O. multitarefa

Extens ão dos modelos de programaç ão multitarefa (processos

⇒

processadores)

Arquitectura menos estranha relativamente ao normal

Cuidado: Acesso à mem ória uniforme ou n ão?

(5)

Hardware de comunicac¸ ˜

oes

I/O ctrl M em M e m M em Interconne ct M e m I/O ctrl Processor Processor In terconn ect I/O devices

Mem ´

oria partilhada

Estilo mainframe

Uso de um crossbar

Switch que permite a ligaç ão simult ânea entre

p

processadores e

m

mem ´orias

Vantagens: Performance

Desvantagens: Custo

Exemplo de Hardware

P P C C I / O I / O M M M M

(6)

Mem ´

oria partilhada

(estilo PC)

Partilha de um bus de acesso a mem ´oria por todos os processadores

SMP – Simmetric MultiProcessing

Vantagens: Custo

Desvantagens: Performance

A largura de banda do barramento ´e partilhada por todos os processadores.

Caches: problema da coer ˆencia?

Exemplo de Hardware

Escalabilidade

M M M ° ° ° ° ° ° M ° ° ° M M N etw ork N e tw ork P $ P $ P $ P $ P $ P $ “ D a n c e h a ll” D is t r ib u t e d m e m o ry

(7)

Mem ´

oria partilhada n ˜ao uniforme

NUMA – Non Uniform Memory Access

Cada processador tem a sua mem ´oria

Todos os processadores acedem à mem ória dos outros, pela interligaç ão

Interligac¸ ˜ao

Em bus?

Em rede?

Em switch

Coisas novas – Hypertransport

Message Passing

0 00 0 0 1 0 10 0 1 1 10 0 1 10 10 1 1 1 1

Message passing

Entre os processadores circulam mensagens

Originalmente implementac¸ ˜ao em hardware

Mais flex´ıvel em software

Muitos overheads

Programac¸ ˜ao simples

(8)

Paralelismo de dados

SIMD – Single Instruction Multiple Data processamento de vectores e matrizes

As operaç ões s ão feitas em paralelo em cada elemento da estrutura de dados.

Existe apenas uma instruc¸ ˜ao para todos os processadores

Um processador por elemento da estrutura de dados

Processador:

⇒

recebe instruç ão, executa instruç ão

Processador de controle:

⇒

l ê programa e envia instruç ões para os outros

Exemplo de hardware

P E P E P E ° ° ° P E P E P E ° ° ° P E P E P E ° ° ° ° ° ° ° ° ° ° ° ° C o n tro l p ro c e s s o r

Dataflow

Implementar em hardware as express ˜oes matem ´aticas

Cada operaç ão é implementada num n ó.

Cada n ´o recebe os operandos e envia o resultado

(9)

Exemplo de hardware

1 b a + − × × × c e d f D a ta flow gr ap h f = a × d N et w ork Tok en st or e W aitin g M atchin g I nst ru cti o n f etch Ex ec u te Tok en q u e u e F orm t o k en N et w ork N et w ork Progr a m st or e a = ( b + 1) × ( b − c ) d = c × e

Arquitecturas sist ´

olicas

Pipeline de elementos de processamento

Diferente de dataflow porque cada elemento tem (pode ter) programa local, e mem ´oria local

Motivac¸ ˜ao inicial: VLSI permite chips de baixo custo

Ligar diferentes chips para fazer um algoritmo

Poupar na largura de banda do acesso `a mem ´oria

Exemplo de hardware

M P E M P E P E P E

(10)

Resumo (mem ´

oria partilhada)

UMA (mesma mem ´oria para todos)

Bus (aka SMP) – PCs

Rede

Crossbar – Mainframes

NUMA (cada processador tem uma mem ´oria mais sua)

Interligaç ão pode ser de v ários tipos

Resumo (outros)

Paralelismo de dados

extens ˜oes SIMD dos processadores actuais

Message passing

entre computadores diferentes ´e o mais f ´acil

DataFlow e arquitecturas sist ´olicas

Naming: como se acedem aos dados?

s ´o se estivermos a fazer hardware

Detalhes

slide 31

Problemas fundamentais

Naming: como se referenciam os dados partilhados

Operaç ões: que operaç ões s ão permitidas nesses dados

Ordenamento: como s ˜ao coordenados e ordenados os acessos

Replicaç ão: como os dados s ão (ou n ão) copiados

Custo das comunicaç ões: Lat ência, largura de banda, overhead, ocupaç ão do canal

Modelo de programac¸ ˜ao sequencial

Naming: Espac¸o de enderec¸os virtual

Hardware (e compiladores) fazem traduc¸ ˜ao

Operac¸ ˜oes: Leituras e escritas

Ordenamento: Ordem sequencial do programa

(11)

Performance (programac¸ ˜ao sequencial)

Depend ências baseadas em refer ências feitas a vari áveis.

Compiladores e hardware desrespeitam as ordens

Compilador: reordenamento e alocac¸ ˜ao de registos

Hardware: execuc¸ ˜ao fora de ordem

Caches: replicac¸ ˜ao transparente

Modelo de mem ´

oria partilhada

Naming: Qualquer processo usa a mem ´oria

Operaç ões: R/W mais as necess árias para ordenaç ão

Modelo mais simples de Ordenac¸ ˜ao:

Dentro de um processo: ordem sequencial

Entre processos: concorr ˆencia

Podemos ter sincronizac¸ ˜ao

Compiladores e hardware n ˜ao cumprem as ordens

Sincronizac¸ ˜ao

Exclus ˜ao M ´utua

Locks

Assegurar que certas operaç ões em certos dados s ão feitas apenas por um processo de cada vez

N ão d á garantias nenhumas de ordenaç ão

Sincronizac¸ ˜ao de eventos

Ordenar os eventos para salvaguardar depend ˆencias

ex: produtor

⇒

consumidor

3 tipos principais

ponto a ponto global grupo

(12)

Message Passing

Naming: Apenas dos dados privados (n ˜ao existem dados partilhados)

Operac¸ ˜oes: send e receive

send : dados privados s ˜ao copiados para outro processo

receive: dados do processo s ˜ao copiados para mem ´oria

Temos obrigatoriamente nomes para os processos

Ordenac¸ ˜ao:

Ordem normal dentro de um processo

send e receive podem fazer sincronismo ponto a ponto

Exclus ˜ao m ´utua garantida

Podemos construir enderec¸os globais

Process Id + enderec¸o dentro do processo

Mas n ão teremos operaç ões directas nesses endereços

Naming e Operac¸ ˜

oes

Existindo no modelo de programac¸ ˜ao podem ser suportadas:

Directamente pelo hardware

Pelo sistema operativo

Por bibliotecas

Pelo compilador

Exemplo

Mem ória partilhada no modelo de programaç ão

Hardware tem mem ´oria f´ısicamente partilhada

Suporte directo pelo hardware

Hardware tem mem ´orias independentes

Mem ´oria partilhada pode ser feita pelo sistema operativo Pode ser feita pelo compilador/bibliotecas

(13)

Exemplo

Message passing

Suporte directo pelo hardware

mais flex´ıvel com matching e buffering

Suporte pelo S.O. ou acima

Hardware faz o transporte

Send/Receive em SW (protecc¸ ˜ao,buffering) S.O.: custo das chamadas ao S.O.

Ordenac¸ ˜ao

Message Passing

N ão existe nenhuma ordenaç ão exceptuando aquela que é imposta pelos pares send/receive

Mem ´oria partilhada

Importante e subtil

Uniprocessadores fazem reordenac¸ ˜ao para ganhar paralelismo ou localidade

Estes truques s ˜ao mais importantes em multiprocessadores

Quais s ˜ao os truques que continuam a ser v ´alidos?

Quais s ˜ao os novos truques?

Replicac¸ ˜ao

Importante para reduzir transfer ência de dados/comunicaç ão

Depende do modelo de naming

Uniprocessador: autom ´atica

Message passing: a replicac¸ ˜ao tem de estar expl´ıcita no SW

Mem ´oria partilhada: problema da coer ˆencia das caches

(14)

Comunicac¸ ˜ao

Performance determina o uso das operac¸ ˜oes

Tr ˆes caracter´ısticas fundamentais:

Lat ˆencia: tempo necess ´ario para o in´ıcio

Largura de Banda: Velocidade de transfer ˆencia

Custo: Tempo de CPU necess ´ario

Erros normais:

N ˜ao contar com a lat ˆencia

N ˜ao contar com a possibilidade de overlap

Redes de interconex ˜ao

Cada vez mais importantes:

Entre computadores

Entre chips (Interconnection Networks)

Intra chips

Paralelizac¸ ˜ao

slide 45

Lei de Amdahl

Um programa tem uma percentagem do seu tempo total de execuç ão s érie

S

e o resto do tempo de execuç ão é paraleliz ável

P

.

Se o total do tempo de programa ´e

100%

ent ˜ao o tempo total ´e igual a 1, o que implica que

1 = P + S

ou de outra forma

P

= 1 − S

.

Temos assim que o tempo normal de execuç ão ser á igual a

S

+ (1 − S)

.

Se pusermos

N

processadores a trabalhar na parte paralela e o tempo de execuç ão da parte paralela diminuir de uma forma ideal o tempo de execuç ão ser á igual a

S

+

(1−S)N .

Se

N

for infinito, ent ão o tempo de execuç ão ser á apenas de

S

.

Logo o aumento de performance que teremos ser á o inverso dos tempos ou(S+(1−S))_S o que d á _S1, isto supondo que a paralelizaç ão é perfeita.

Decomposic¸ ˜ao

A partir de um programa sequencial gerar tarefas

O que ´e uma tarefa: parte do trabalho global que ´e processada sequencialmente.

(15)

Atribuic¸ ˜ao

Atribuir (distribuir) tarefas pelos processos.

O que é um processo: entidade que executa as tarefas, tem a obrigaç ão de comunicar com os outros processos para executar as tarefas.

Atribuiç ão est ática ou din âmica? Vantagens e desvantagens?

Se for din ˆamica temos uma fila de tarefas global ou uma fila por processo? Vantagens e desvantagens?

Orquestrac¸ ˜ao

Objectivo: estruturar a comunicac¸ ˜ao e o acesso aos dados.

Que comunicac ˜ao vai haver entre que processos?

Reduzir os custos da comunicac¸ ˜ao.

Escalonar as tarefas correctamente.

Depende muito das primitivas oferecidas e do tipo de comunicac¸ ˜ao.

Depende de onde (em que processo) pomos os dados.

Mapeamento

Atribuir processos aos processadores.

Mais simples e usual: cada processo tem o seu processador.

Normalmente o utilizador pode especificar a sua intenc¸ ˜ao mas o sistema operativo pode decidir de outra maneira.