COMPUTAÇÃO PARALELA NO LNEC

(1)

Lisboa • julho de 2013 CONSELHO DIRETIVO

Núcleo de Tecnologias da Informação em Engenharia Civil

Proc. 1302/044

I&D CONSELHO DIRETIVO

COMPUTAÇÃO PARALELA NO LNEC

Guia introdutório e estudo de caso

(2)

.

(3)

Resumo

Este trabalho introduz os princ´ıpios da computaç ão paralela tendo em vista a sua aplicaç ão como ferramenta de computaç ão cient´ıfica, em particular para acelerar a execuç ão e alargar o escopo de aplicaç ão de programas de c álculo cient´ıfico. S ão introduzidos os principais conceitos relativos à computaç ão paralela, as diferentes arquitecturas de m áquinas paralelas e os diferentes modelos de paralelizaç ão que se podem adoptar, com destaque para o modelo de message-passing e a ferramenta MPI. S ão ainda descritos os m étodos de operaç ão com o cluster do LNEC, o Medusa, e um estudo de caso que ilustra a aplicaç ão de MPI e de uma estrat égia de paralelizaç ão à resoluç ão de um problema real.

Abstract

In this work we introduce the fundamentals of parallel computing as a tool for scientific computing,

particularly regarding performance improvement and application scope enhancement of scientific pro-

grams. We introduce the main relevant concepts and architectures in parallel computing, as well as the

distinct parallelization models which may be adopted, highlighting the message-passing approach and

the MPI tool. We also describe standard operational methods for the LNEC cluster, Medusa, along with

a case-study demonstrating the usefulness of using both MPI and a structured parallelization strategy

in solving a real problem.

(4)

´Indice

Resumo . . . . 3

Abstract . . . . 3

Lista de Tabelas . . . . 5

Lista de Figuras . . . . 5

1 Introduç ão 7 2 Computaç ão Paralela 9 2.1 Definiç ão . . . . 9

2.2 Conceitos . . . . 9

2.2.1 Fundamentos . . . . 9

2.2.2 Arquitetura e comunicac¸ ˜ao . . . . 11

2.2.3 Limites da paralelizac¸ ˜ao . . . . 13

2.2.4 Modelos de paralelizac¸ ˜ao . . . . 15

2.3 Estado da arte . . . . 17

2.4 MPI . . . . 17

2.5 Estrat égia de paralelizaç ão . . . . 19

2.5.1 Abordagem inicial . . . . 19

2.5.2 Paralelizac¸ ˜ao . . . . 20

2.5.3 Dicas . . . . 22

3 Computac¸ ˜ao Paralela no LNEC 25 3.1 Medusa . . . . 25

4 Estudo de Caso: Interbath 27 4.1 Definic¸ ˜ao do problema . . . . 27

4.2 Ferramentas utilizadas . . . . 28

4.2.1 ParMETIS . . . . 28

4.2.2 K-D Tree . . . . 29

4.2.3 Timing . . . . 30

4.2.4 Debugging . . . . 30

4.2.5 An ´alise . . . . 30

4.3 Paralelizac¸ ˜ao . . . . 31

4.4 Conclus ˜oes . . . . 37

5 Trabalho Futuro 39

Bibliografia 41

(5)

Lista de Tabelas

2.1 Concorr ˆencia entre processos. . . . 10

2.2 Sincronizac¸ ˜ao de processos com uma barreira. . . . 10

2.3 Classificac¸ ˜ao de arquiteturas paralelas. . . . 12

2.4 Speedup em func¸ ˜ao de P. . . . . 13

2.5 Speedup em func¸ ˜ao de N. . . . 14

2.6 N em func¸ ˜ao de P para S = 24. . . . . 14

2.7 Preservaç ão da reversibilidade durante a paralelizaç ão. . . . 22

3.1 Principais comandos para utilizac¸ ˜ao do Medusa. . . . 26

4.1 Malhas de batimetria utilizadas. . . . 28

4.2 Tempo de execuç ão em funç ão da malha de background. . . . 28

4.3 Vers ˜oes paralelas do Interbath. . . . 32

4.4 Paralelismo na vers ˜ao paralela v1. . . . 32

Lista de Figuras 2.1 Mem ´oria partilhada. . . . 12

2.2 Mem ´oria distribu´ıda. . . . 12

4.1 Tempos de execuc¸ ˜ao (v1). . . . 33

4.2 Tempos de execuc¸ ˜ao para a malha BGround2 (v3). . . . . 35

4.3 Tempos de execuc¸ ˜ao para as malhas Batim e BGround2 (v3.2). . . . . 36

4.4 Tempos de execuc¸ ˜ao para as malhas Batim e BGround2 (v3.3 e v3.3.2). . . . . 37

(6)

(7)

Cap´ıtulo 1

Introduc¸ ˜ao

N ão é nova a noç ão de que a evoluç ão registada desde a d écada de 70 em mat éria de hardware sequencial, que tem dado origem a uma duplicaç ão da capacidade de processamento neste tipo de m áquinas sensivelmente a cada 18 meses, est á a atingir o seu limite. Esta constataç ão, juntamente com fatores pr áticos e econ ómicos, tem estado na origem da tend ência crescente de associaç ão de m áquinas sequenciais em aglomerados como forma de obter maior capacidade de processamento, e na utilizaç ão de computaç ão paralela para explorar o potencial destas estruturas. O LNEC deu resposta a essa tend ência com a aquisiç ão de um cluster para computaç ão paralela, o Medusa, um recurso que n ão é ainda aproveitado ao m áximo pelos investigadores do laborat ório.

Este relat ório foi elaborado no contexto da execuç ão de uma bolsa de iniciaç ão à investigaç ão no LNEC, na área da computaç ão paralela, com dois objetivos: em primeiro lugar, pretende reunir os conhecimentos adquiridos durante a execuç ão desta bolsa sob a forma de um guia de iniciaç ão à programaç ão paralela no ambiente do LNEC, de forma a permitir que futuros investigadores interessa- dos em paralelizar os seus programas tenham acesso a um recurso introdut ório relativamente simples e adaptado ao seu contexto. Este objetivo é particularmente importante por duas raz ões: por um lado, o cluster do LNEC para computaç ão paralela, o Medusa, é relativamente recente e subaproveitado;

por outro lado, a tend ência de crescimento do paradigma paralelo torna expect ável que o n úmero de investigadores com interesse por esta mat éria, particularmente em iniciar-se nela, venha a aumentar.

O segundo objetivo consiste em documentar o trabalho realizado at é ao momento no âmbito desta bolsa; em particular, pretende-se descrever com algum detalhe a abordagem a um problema espec´ıfico, o Interbath, tendo em vista a sua paralelizaç ão. Os dois prop ósitos s ão em larga medida coincidentes, sendo a paralelizaç ão do Interbath usada como estudo de caso no cap´ıtulo 4.

A estrutura do relat ório divide-se essencialmente em tr ês secç ões:

• Computaç ão Paralela - esta secç ão pretende introduzir os fundamentos b ásicos do paralelismo, descrever sucintamente o estado da arte e apresentar uma estrat égia geral para a paralelizaç ão, com base na experi ência do trabalho desenvolvido durante a bolsa.

• Computaç ão Paralela no LNEC - aqui pretende-se descrever os recursos de computaç ão paralela no LNEC, nomeadamente o Medusa, e introduzir os fundamentos para a sua utilizaç ão.

• Estudo de Caso - Interbath - esta parte visa descrever em detalhe o trabalho realizado no ˆambito

da paralelizac¸ ˜ao do programa Interbath, incluindo as ferramentas utilizadas, a abordagem adop-

tada e a an ´alise dos resultados obtidos.

(8)

(9)

Cap´ıtulo 2

Computac¸ ˜ao Paralela

2.1 Definic¸ ˜ao

Define-se computaç ão paralela como a utilizaç ão simult ânea de mais do que um processador (core) para resolver um problema computacional, por oposiç ão à tradicional computaç ão em s érie em que apenas um processador é utilizado em cada momento. A sua aplicabilidade assenta no princ´ıpio de que

é poss´ıvel subdividir um problema de grandes dimens ões em v ários subproblemas de menor dimens ão que podem ser resolvidos concorrentemente. A motivaç ão para recorrer a este tipo de computaç ão prende-se com duas necessidades fundamentais:

1. Minimizar o tempo de execuc¸ ˜ao

2. Resolver problemas de maiores dimens ˜oes

Estes dois fatores s ão usualmente apontados como os objetivos principais do recurso à paralelizaç ão, como resposta a dois problemas frequentes da computaç ão s érie: por um lado, a sua excessiva lentid ão no tratamento de problemas de complexidade elevada; por outro, as restriç ões que a utilizaç ão de uma

única m áquina coloca em termos de mem ória dispon´ıvel e que afetam a sua capacidade de resolver problemas de grandes dimens ões. Consoante o setor de atividade, outras motivaç ões podem surgir como relevantes, tais como a reduç ão de despesas (tipicamente relacionadas com energia, e portanto associadas à reduç ão do tempo de computaç ão) ou a necessidade de utilizar recursos n ão locais

¹

.

2.2 Conceitos

Existem v ários conceitos essenciais associados à computaç ão paralela que é importante introduzir.

Nesta secç ão s ão descritos em primeiro lugar os fundamentos da paralelizaç ão e a sua terminologia;

posteriormente, s ão apresentadas as diferentes arquiteturas paralelas e os modos de comunicaç ão en- tre elas. S ão ainda expostos os limites te óricos da paralelizaç ão e os diferentes modelos de paralelizaç ão usualmente adotados.

2.2.1 Fundamentos

E importante começar por definir alguns conceitos b ásicos relacionados com a paralelizaç ão, n ão s ó por ´ serem utilizados repetidamente ao longo deste trabalho mas sobretudo por se tratarem de elementos importantes desta forma de computaç ão.

Designamos por processador (ou CPU) a estrutura b ásica de computaç ão, que pode incluir um ou v ários cores; um conjunto de processadores, juntamente outras estruturas de base (mem ória e in- terface de rede, por exemplo), forma um n ´ o. Em cada processador é executado um processo. Um supercomputador é tipicamente formado por um conjunto de n ós, e pode ser um cluster, se esse con- junto for aproximadamente homog éneo e estiver localizado no mesmo local, ou uma grid , por exemplo se n ão houver homogeneidade entre os n ós, caso estes estejam dispersos geograficamente, ou ainda se pertencerem a dom´ınios administrativos distintos.

E frequente introduzir a distinç ão entre dois tipos de paralelismo, ´ data parallelism e task paral- lelism, consoante o m étodo de paralelizaç ão usado ([1]). No essencial, para cada processador, a

1Por exemplo, no caso de umagridde recursos geograficamente dispersos em que cada unidade disp õe de informaç ão n ão acess´ıvel às restantes.

(10)

execuç ão da mesma tarefa sobre diferentes conjuntos de dados constitui uma forma de data paralle- lism, ao passo que a execuç ão de diferentes tarefas - quer seja sobre conjuntos de dados diferentes ou n ão - se classifica como task parallelism. Na pr ática esta distinç ão é quase exclusivamente formal, uma vez que o modelo de paralelizaç ão adotado reside frequentemente algures num cont´ınuo entre estes dois extremos.

Em qualquer caso, a partir do momento em que mais do que um processador est á envolvido na resoluç ão de uma determinada tarefa, é praticamente certo que existir á necessidade de trocar informaç ão entre processadores; para isso, é preciso criar a estrutura que permita essa troca de informaç ão, ou comunicaç ão, entre processadores. Os processos de comunicaç ão tendem a aumentar o tempo de execuç ão do programa, pelo que é recomend ável reduzir o volume total de comunicaç ões ao m´ınimo. Neste contexto, o conceito de granularidade, definido (qualitativamente) como r ácio entre o tempo de CPU dispendido em atividades de computaç ão versus de comunicaç ão, G =

_T^T^c^omp

comm

, surge como uma razo ável medida do peso relativo da comunicaç ão no programa, que em geral se classifica como de granularidade grosseira caso processe volumes elevados de computaç ão entre eventos de comunicaç ão (G >> 1), ou de granularidade fina caso esses volumes sejam relativamente pequenos (G ≈ 1).

A conceç ão tradicional de um programa assenta numa l ógica sequencial - isto é, as diversas instruç ões s ão executadas pela mesma ordem em que est ão presentes no c ódigo-fonte, de forma previs´ıvel e de- terminada. Pelo contr ário, num programa em paralelo, os v ários processos s ão executados de forma concorrente, n ão havendo maneira de prever qual deles executar á uma determinada instruç ão primeiro;

a l ógica sequencial é preservada apenas localmente (i.e., para cada processo). Por exemplo, o seguinte fragmento de c ódigo produz, em tr ês chamadas diferentes, outros tantos outputs:

if (rank == 0) str=’isto’

if (rank == 1) str=’ ´e’

if (rank == 2) str=’uma’

if (rank == 3) str=’frase’

do i=0,3

if (i == rank) print*, str end do

(a) Input

Run 1 Run 2 Run 3

´e ´e uma

isto uma frase

frase isto ´e uma frase isto

(b) Output

Tabela 2.1: Concorr ˆencia entre processos.

Este tipo de comportamento torna-se problem ático quando é necess ário trocar informaç ão entre processos, pois é imposs´ıvel saber a priori se essa informaç ão estar á j á dispon´ıvel no processo emissor quando for solicitada pelo recetor. Para evitar esse problema é necess ário recorrer à sincronizaç ão de processos, ou seja, à coordenaç ão dos processos em tempo real; a soluç ão mais frequente para isso é introduzir uma barreira, i.e., uma instruç ão para que o processo espere at é que outros processos alcancem esse ponto do programa.

if (rank == 0) str=’isto’

if (rank == 1) str=’ ´e’

if (rank == 2) str=’uma’

if (rank == 3) str=’frase’

do i=0,3

if (i == rank) print*, str call MPI Barrier end do

(a) Input

Run 1 Run 2 Run 3 isto isto isto

é é é

uma uma uma

frase frase frase

(b) Output

Tabela 2.2: Sincronizac¸ ˜ao de processos com uma barreira.

A escalabilidade de um programa paralelo define-se como a sua capacidade de, mediante um

aumento dos recursos dispon´ıveis (por exemplo, mais processadores), exibir um aumento proporcional

da efici ência em termos de tempo de execuç ão. No caso ideal de um programa ser perfeitamente

(11)

escal ável, é de esperar que um aumento do n úmero de processadores para o dobro reduza o tempo de execuç ão para metade. V ários fatores contribuem para a escalabilidade do programa, incluindo especificaç ões de hardware e da rede de comunicaç ão; de entre aqueles que s ão control áveis pelo programador, os mais importantes para garantir m áxima escalabilidade s ão o volume de comunicaç ões, que deve ser mantido no m´ınimo, e a distribuiç ão de carga computacional pelos processadores, que deve ser o mais equilibrada poss´ıvel.

Em geral, o tempo de execuç ão de um programa s érie diz respeito apenas ao tempo despendido nas tarefas de computaç ão. Ao introduzir paralelismo, ser á necess ário gastar mais tempo na gest ão das tarefas exclusivamente paralelas; a este tempo extra, que n ão est á relacionado com a execuç ão de trabalho útil mas apenas com a gest ão do paralelismo, é dado o nome de overhead paralelo. V ários fatores podem contribuir para o aumento deste overhead :

• Comunicaç ões entre processos - com tend ência crescente para um maior n úmero de processos;

• Tempo de espera por sincronizac¸ ˜oes;

• Inicializac¸ ˜ao e encerramento do ambiente paralelo.

O overhead paralelo pode ser visto como um custo m´ınimo da introduç ão de paralelizaç ão, que na pr ática é o que impede que a melhoria de performace mediante o aumento do n úmero de processadores seja linear

²

.

Tem sido referida repetidamente a necessidade de minimizar o tempo de execuç ão, o que pres- sup õe, em primeiro lugar, a sua mediç ão, o que n ão é trivial; de facto, existem duas medidas relevantes para a contabilizaç ão do tempo: tempo de rel ógio e tempo de CPU.

O tempo de rel ´ ogio

³

corresponde ao tempo real que o programa demora a executar, a mesma mediç ão que seria obtida usando um cron ómetro. Esta é a m étrica mais importante e a que deve ser usada para comparar os desempenhos de vers ões s érie e paralela do mesmo programa, uma vez que é a que incide sobre o objetivo da paralelizaç ão: minimizar o tempo real de execuç ão. No entanto, esta medida é afetada por tudo o que possa estar a acontecer no sistema no momento da computaç ão - sobrecarga do CPU com outros processos, por exemplo - pelo que n ão é a melhor opç ão para comparar diferentes corridas de uma mesma vers ão sujeita a diferentes condiç ões, como por exemplo a performance dessa vers ão para diferente n úmero de processadores.

Para isso, uma melhor opç ão é o tempo de CPU, que contabiliza apenas o tempo que a m áquina despende a executar o c ódigo (incluindo chamadas ao I/O) e por isso é menos afetado por fatores externos à computaç ão. Para um único processador, o tempo de CPU é necessariamente inferior ao tempo de rel ógio (no limite ser á igual). Em computaç ão paralela é frequente calcular o tempo de CPU como a soma dos tempos individuais despendidos por cada processador (tempo de CPU unit ário) que deve, em teoria, ser independente do n úmero de processadores a menos do overhead de paralelizaç ão.

Por vezes é tamb ém útil usar o tempo de CPU unit ário, por exemplo comparando-o entre os v ários processadores para confirmar se a carga computacional se encontra bem distribu´ıda.

2.2.2 Arquitetura e comunicac¸ ˜ao

Existem v árias classificaç ões poss´ıveis para as m áquinas de computaç ão paralela. Uma classificaç ão b ásica, definida em funç ão do n´ıvel em que o hardware suporta paralelismo, compreende duas cate- gorias: sistemas multi-core, caso um único CPU disponha de mais do que um core; ou sistemas como clusters ou grids, em que v árias m áquinas diferentes s ão usadas para resolver uma mesma tarefa.

A distinç ão mais comum entre arquiteturas de m áquinas paralelas, usualmente designada por Ta- xonomia de Flynn, é definida de acordo com as caracter´ısticas da m áquina segundo duas dimens ões independentes, o fluxo de instruç ˜ oes e o fluxo de dados passados à m áquina em cada ciclo de rel ógio; cada uma destas dimens ões compreende apenas dois estados, singular e m últiplo. Desta forma fica definida a matriz de classificaç ão de arquiteturas da tabela 2.3.

2Considerando o caso ideal de um programa 100%paraleliz ´avel.

3Alternativamente,wall-clock timeouelapsed time.

(12)

SISD SIMD

fluxo de instruç ões singular fluxo de instruç ões singular fluxo de dados singular fluxo de dados m últiplo

MISD MIMD

fluxo de instruç ões m últiplo fluxo de instruç ões m últiplo fluxo de dados singular fluxo de dados m últiplo

Tabela 2.3: Classificac¸ ˜ao de arquiteturas paralelas.

Nesta classificaç ão a terminologia é bastante intuitiva. As m áquinas SISD

⁴

correspondem aos com- putadores s érie tradicionais (um sistema n ão-paralelo); por cada ciclo de rel ógio, recebe apenas uma instruç ão

⁵

e um conjunto de dados, que s ão executados de forma determin´ıstica. As m áquinas SIMD s ão j á um tipo de computador paralelo, em que todos os processadores executam o mesmo conjunto de instruç ões mas sobre conjuntos de dados que podem ser distintos; s ão ideais para resolver pro- blemas com elevada regularidade e separabilidade, como por exemplo o tratamento de imagens com GPUs, e a execuç ão é determin´ıstica e feita de forma s´ıncrona. N ão s ão frequentes as m áquinas de tipo MISD, em que em teoria cada core processa um conjunto diferente de instruç ões sobre o mesmo conjunto de dados; uma poss´ıvel aplicaç ão para este tipo de m áquina seria, por exemplo, ter v ários al- goritmos criptogr áficos distintos a tentar quebrar a segurança de uma única mensagem. Por último, os computadores paralelos de tipo MIMD podem executar diferentes instruç ões sobre diferentes conjuntos de dados, de forma s´ıncrona ou ass´ıncrona (dependendo da utilizaç ão de locksteps); este é o tipo de computador paralelo mais comum, correspondendo por exemplo à maior parte dos supercomputadores atuais e aos sistemas cluster ou grid.

Um outro ponto fundamental acerca da arquitetura de computadores paralelos prende-se com a quest ão da mem ória. No essencial, s ão admitidas duas estruturas: mem ória partilhada e mem ória distribu´ıda. Nas m áquinas com mem ´ oria partilhada (figura 2.1), todos os processadores podem ace- der a todo o espaço de mem ória, pelo que as alteraç ões efetuadas por um processador s ão vis´ıveis para todos os outros; cada processador opera de forma independente dos outros, mas os recursos de mem ória s ão partilhados entre si. Esta é uma boa forma de partilhar informaç ão entre processadores, que elimina a necessidade de uma rede de comunicaç ão entre processos; a desvantagem é que, por um lado, é muito pouco escal ável - a introduç ão de mais unidades de CPU vai congestionar o tr áfego no sistema CPU-mem ória, atrasando a execuç ão; e, por outro, é mais vulner ável a erros de alocaç ão de mem ória, dado que sobrecarrega o programador com a responsabilidade de coordenar todos os processos de forma a garantir que n ão existam acessos concorrentes simult âneos.

Figura 2.1: Mem ´oria partilhada. Figura 2.2: Mem ´oria distribu´ıda.

Em sistemas de mem ´ oria distribu´ıda, cada processador tem a sua pr ópria mem ória, pelo que opera de forma verdadeiramente independente - as alteraç ões que faz n ão s ão reproduzidas nos outros pro- cessadores. Desta forma, é necess ário manter uma rede de comunicaç ão entre processadores; sempre que um processador precisa de informaç ão contida noutro, é necess ário usar a rede para que troquem uma mensagem entre si. ´ E da compet ência do programador formular explicitamente esse pedido e garantir a sincronizaç ão entre os dois processos (isto é, garantir que a informaç ão j á est á dispon´ıvel num processador quando deve ser enviada para o outro). A principal vantagem deste modelo reside

4Do ingl êsSingle Instruction, Single Data; as restantes siglas seguem uma terminaç ão an áloga.

5No sentido defluxo, ou seja, recebe uma ou mais instruc¸ ˜oes de apenas uma fonte.

(13)

precisamente na quest ão da escalabilidade: ao introduzir mais CPUs, o espaço de mem ória aumenta proporcionalmente, pelo que é poss´ıvel aumentar a capacidade de processamento sem comprometer a mem ória; adicionalmente, neste formato é tamb ém poss´ıvel ter um CPU a trabalhar na sua pr ópria mem ória, sem necessidade de sincronizaç ão permanente com os restantes, evitando assim overheads e outras interfer ências. Pela negativa, o programador tem a responsabilidade de coordenar toda a rede de comunicaç ão, e o tempo de execuç ão est á sujeito a maiores flutuaç ões, visto que o tempo de acesso atrav és da rede a um determinado conjunto de dados depende da sua localizaç ão f´ısica.

Em geral, sistemas de mem ória distribu´ıda adequam-se melhor a uma situaç ão em que os processa- dores possam trabalhar independentemente e apenas necessitem de comunicar, com pouca frequ ência, os seus resultados entre si; se, por outro lado, houver necessidade de permanente sincronizaç ão entre todos os processos, ent ão os sistemas de mem ória partilhada s ão uma melhor opç ão. Evidentemente, pode ser encontrado um bom equil´ıbrio usando ambas as arquiteturas simultaneamente; basta con- siderar um sistema de mem ória distribu´ıda em que cada n ó, em vez de ser um único processador, é uma m áquina com v ários processadores com mem ória partilhada entre si. Estes sistemas h´ıbridos permitem aproveitar as vantagens dos dois modelos e ao mesmo tempo aumentar a escalabilidade do sistema, com o óbvio custo de uma programaç ão mais complexa.

2.2.3 Limites da paralelizac¸ ˜ao

Para ser poss´ıvel avaliar o benef´ıcio da paralelizaç ão é necess ário compreender em que aspetos ela pode ser útil, perceber quanto se pode ganhar em cada um desses aspetos e definir m étricas apropri- adas para medir esses ganhos.

Na secç ão 4.1 estabeleceu-se a minimizaç ão do tempo de execuç ão de um programa como um dos objetivos fundamentais da paralelizaç ão. Tornam-se portanto pertinentes as quest ões sobre qual o grau expect ável dessa minimizaç ão e como poder á ela ser quantificada. ´ E conveniente introduzir o conceito de speedup (S

N

), que se define como o fator pelo qual o tempo de execuç ão é alterado mediante a introduç ão de paralelizaç ão ([3]):

S

N

= t

₁

t

N

(2.1) em que t

1

é o tempo de execuç ão para um processador

⁶

e t

N

a quantidade an ´aloga para N processadores.

A lei de Amdahl ( [4]) estabelece que o speedup potencial de um programa é definido pela fraç ão de c ódigo que pode ser paralelizada (P )

⁷

:

S

max

= 1 1 − P

Como corol ário desta definiç ão, é evidente que se nenhuma parte do c ódigo for paraleliz ável ent ão S

max

= 1, ou seja, n ão h á speedup; e que se o c ódigo for inteiramente paraleliz ável, ent ão o speedup é, em teoria, infinito. Dela se conclui tamb ém que é fundamental que o c ódigo seja altamente paraleliz ável, uma vez que S

_max

cresce exponencialmente com P , tal como mostra a tabela 2.4.

P .5 .8 .9 .95 .99 .999 .9999 S

max

2 5 10 20 100 1000 10000

Tabela 2.4: Speedup em func¸ ˜ao de P .

Tomando em consideraç ão os N processadores utilizados e assumindo uma m áquina de dois esta- dos - isto é, que em cada momento ou apenas um processador est á a ser usado, ou ent ão todos os N processadores est ão - resulta que

S

_max

= 1

P

N

+ (1 − P)

6A definiç ão usual é quet1 corresponde aomelhortempo de execuç ão poss´ıvel para um processador; por conveni ência,

é comum utilizar-se o tempo de execuç ão da aplicaç ão paralela correndo num único processador, o que, n ão sendo em rigor correto, introduz apenas um erro residual.

7Por coer ência, definimos o tempo totaltcomo a soma do tempo despendido na porç ãoPde tarefas paraleliz áveis,p, com o tempo dispendido na porç ão(1−P)de tarefas n ão-paraleliz áveis,s;t=s+p.

(14)

E imediato observar que a primeira parte do denominador corresponde à porç ão de c ódigo que é ´ paraleliz ável e a segunda àquela que é estritamente sequencial. Tal como seria de esperar, o speedup aumenta com o n úmero de processadores utilizados, at é ao limite

_(1−P¹ ₎

, como mostram as tabelas 2.5:

N S

max

10 1.818 100 1.980 1000 1.998 10000 1.999

(a) P=.5

N S

max

10 5.263 100 9.174 1000 9.911 10000 9.991

(b) P=.9

N S

max

10 9.174 100 50.251 1000 90.992 10000 99.020

(c) P=.99

Tabela 2.5: Speedup em func¸ ˜ao de N .

Esta formulaç ão ignora ainda o contributo do overhead de paralelizaç ão, que pode ser significativo e em geral cresce com N ; introduzindo o termo σ(N ) para designar este overhead, vem finalmente a express ão geral para S

max

S

max

= 1

P

N

+ (1 − P ) + σ(N ) (2.2)

que, no caso P = 1 (paralelizac¸ ˜ao total), se reduz a S

_max

=

_{1+N σ(N}^N ₎

. Com N → ∞, S

_max

→

1

σ(N)

, que é uma funç ão decrescente; isto significa que existe um N ótimo para o qual o speedup é maximizado

⁸

.

E importante frisar que a principal limitaç ão ao paralelismo vem da pr ópria estrutura do programa, ´ e n ão do n úmero de processadores utilizados. Considere-se o caso de se ter um programa com tempo de execuç ão de 1 dia, que se pretende reduzir para 1 hora; o speedup desejado é ent ão S = 24. A tabela ?? mostra o n úmero de processadores necess ários para obter S = 24, em funç ão do grau de paralelizaç ão do programa; a diferença entre paralelizar o programa a 96% ou 97%, aparentemente pouco significativa, é a diferença entre precisar de 576 processadores - imposs´ıvel, por exemplo, no medusa - ou 84 - um n úmero razo ável na maior parte das infraestruturas.

P .96 .965 .97 .975 .98 .985 .99

N 576 145 84 59 46 37 32

Tabela 2.6: N em func¸ ˜ao de P para S = 24.

Os resultados da lei de Amdahl baseiam-se na assumpç ão de que o tempo gasto por um pro- cessador em tarefas paraleliz áveis, p, é independente de N. Na verdade, essa abordagem fixed-size raramente é aplicada fora do campo da investigaç ão acad émica; na pr ática, o tamanho do problema escala com o n úmero de processadores, ou seja, p depende de N (e, em geral, aumenta)

⁹

, uma vez que as componentes s érie do programa, como inicializaç ões de vetores e I/O, n ão variam com N. Esta observaç ão limita a aplicabilidade da lei de Amdahl e est á na origem da chamada lei de Gustafson [5].

Definindo p e s como os tempos paralelo e sequencial dispendidos no sistema paralelo, ent ˜ao, para um processador s ´erie, t

1

= s + p × N , donde

S

s

= t

1

/t

N

= (s + p × N)/(s + p)

= s + p × N

= N + (1 − N ) × s

Este speedup escalado S

s10

tem um comportamento linear em N , que contrasta com o comporta- mento exponencial previsto pela lei de Amdahl; esta abordagem de tamanho escal ´avel justifica que, na

8Este resultado mant ´em-se obviamente v ´alido paraP <1.

9Frequentemente par âmetros como resoluç ão da rede, n úmero de etimesteps, etc, s ão ajustados para que o programa corra dentro de uma janela temporal aceit ável; ao aumentar a capacidade de computaç ão dispon´ıvel, tende-se a reajustar esses par âmetros de forma a obter melhores resultados dentro da mesma janela temporal. É a isto que se refere a express ão “o tamanho do problema escala com o n úmero de processadores”.

10Do originalscaled speedup.

(15)

pr ática, conseguir um speedup elevado n ão seja t ão complicado como a lei de Amdahl sugere, desde que se escale o tamanho do problema para acompanhar o n úmero de processadores

¹¹

.

Um indicador complementar ao speedup ´e a efici ˆencia, definida como E

N

= S

N

N = T

1

N T

_N

A efici ência toma valores no intervalo [0, 1] e é frequentemente utilizada para perceber se os pro- cessadores est ão a ser bem utilizados, ou seja, se est ão dedicados a tarefas de computaç ão úteis (E

N

≈ 1), ou se est ão a ser desperdiçados em processos de comunicaç ão e sincronizaç ão (E

N

≈ 0).

No caso ideal de perfeita escalabilidade (e portanto speedup linear), E

_N

= 1; em geral, a efici ência decresce com N , refletindo o aumento dos overheads de comunicaç ão. Esta medida é uma forma f ácil de perceber se a paralelizaç ão est á a funcionar bem ou se, pelo contr ário, os recursos est ão a ser desperdiçados.

Apesar de largamente utilizados, ambos estes indicadores, speedup e efici ência, apresentam algu- mas lacunas que justificam a introduç ão de uma nova m étrica:

e =

1 SN

−

_N¹

1 −

_N¹

(2.3)

Esta m ´etrica de Karp-Flatt

¹²

([6]) representa a fraç ão s érie do programa, que em condiç ões ideais se anula (para speedup linear, S

N

= N). Como e deve manter-se constante para N crescente, é conveniente utiliz á-la para detetar e compreender pequenas flutuaç ões nos outros dois indicadores, nomeadamente relacionadas com:

• Distribuiç ão da carga computacional - assume-se uma distribuiç ão equilibrada para todos os n ós, o que n ão é necessariamente verdade; uma distribuiç ão menos equilibrada traduz-se num au- mento do valor de e.

• Overheads - um aumento dos overheads resulta na reduç ão do speedup , logo tamb ém num aumento de e com N ; um crescimento regular de e é um poss´ıvel indicador de que a granularidade da parelelizaç ão é demasiado fina.

Resumindo, existem v ários indicadores para aferir o desempenho de um programa paralelo, cada qual com as suas vantagens e inconvenientes. O speedup introduzido na equaç ão 2.1 é uma me- dida aceit ável e largamente utilizada do grau de paralelizaç ão do programa, que deve ser calculado e comparado com S

max

da equaç ão 2.2 para compreender se a paralelizaç ão est á a ser feita da melhor forma, caso estejamos a tratar um problema de tamanho fixo; caso contr ário, devemos recorrer a S

s

. A efici ˆencia E

N

é útil para perceber se o hardware est á a ser utilizado convenientemente, ao passo que a m étrica de Karp-Flatt, e, pode ser usada para um diagn óstico mais detalhado do programa, nomeada- mente para identificar problemas de distribuiç ão de carga computacional ou de excessivos overheads.

2.2.4 Modelos de paralelizac¸ ˜ao

V ários modelos diferentes permitem concretizar a paralelizaç ão do programa, que no essencial diferem entre si no que diz respeito à utilizaç ão da mem ória (partilhada ou distribu´ıda), ao modo de comunicaç ão entre processos e ao tratamento do input de dados. ´ E conveniente introduzir alguns desses modelos

¹³

e especificar as suas caracter´ısticas, ainda que de forma simplificada, de modo a facilitar a escolha do modelo mais adequado em cada situaç ão. Note-se que o modelo de paralelizaç ão é independente da arquitetura da m áquina - por exemplo, pode ser aplicado um modelo de mem ória partilhada a uma arquitetura de mem ória distribu´ıda ([7]).

11O tamanho do problema n ão é necessariamente constante. Tipicamente esta grandeza é controlada por par âmetros ajust áveis pelo utilizador - a resoluç ão da malha, por exemplo, ou o n úmero de iteraç ões, na resoluç ão num érica de equaç ões.

Perante uma maior capacidade de processamento, estes par âmetros s ão em geral ajustados para obter melhores resultados, de tal forma que em geral o que se pretende constante é o tempo de execuç ão - dentro de algum limite razo ável - e n ão a dimens ão do problema. Ver [5].

12Descrita aqui para problemas de tamanho fixo. No caso de um problema de tamanho escal ´avel, nos moldes considerados na lei de Gustafson, pode ser generalizada introduzindo um fator de escala adicional

13Utiliza-se uma combinaç ão livre do idioma original e do portugu ês nos nomes dos modelos de forma a minimizar traduç ões forçadas e perdas de signific ância.

(16)

• Mem ´oria partilhada (sem Threads)

Este é provavelmente o modelo mais simples de paralelizaç ão, assente no mesmo paradigma que a arquitetura de mem ória partilhada: os processadores partilham um mesmo espaço de mem ória, no/do qual escrevem/leem assincronamente. Tem a vantagem de n ão precisar de comunicaç ões, logo per- mitir uma escrita simples do programa, mas implica a coordenaç ão dos v ários processos para impedir escritas concorrentes e conflitos de dados. Em geral é indesej ável para programas com grande volume de computaç ão, devido à necessidade de sincronizaç ão entre os processos.

• Threads

No modelo de threads um processo principal é subdividido em n sub-processos (as threads) con- correntes entre si. Estas threads operam independentemente umas das outras e partilham os recur- sos do processo original, pelo que comunicam entre si pela atualizaç ão da mem ória, sem recurso à troca de mensagens, tal como acontece no modelo de mem ória partilhada. Da mesma forma, exigem sincronizaç ão para evitar a escrita simult ânea num mesmo endereço de mem ória. Este modelo pode ser visto como uma vers ão localizada do modelo de mem ória partilhada, confinado ao escopo do pro- cesso principal, sendo principalmente utilizado para evitar replicar a informaç ão do processo original e para introduzir paralelismo localmente, sem necessidade de paralelizar todo o programa.

• Message Passing

Neste modelo cada processo executa as suas tarefas na sua pr ópria mem ória local, n ão partilhando espaço de mem ória com outros processos (mesmo que os processos partilhem a mesma m áquina f´ısica, cada um tem o seu espaço de mem ória). A comunicaç ão é feita por troca de mensagens entre os processos, atrav és de uma rede de comunicaç ões, e geralmente envolve uma aç ão cooperativa, isto é, a uma mensagem de send tem de corresponder uma de receive do processo adequado. Esta troca de mensagens é feita usualmente recorrendo a uma biblioteca de sub-rotinas, que pode variar dependendo da implementaç ão usada.

• Data Parallel

Este modelo pressup õe um tratamento global do espaço de mem ória. Cada processo executa um mesmo conjunto de operaç ões sobre diferentes porç ões de uma mesma estrutura de dados - por exemplo, num array de 100 unidades, usando 4 processos, o processo 1 trabalha sobre as unidades 1 a 25, o processo 2 sobre as unidades 26 a 50, o processo 3 sobre as unidades 51 a 75 e o processo 4 sobre as restantes. A sua implementaç ão pode depender da arquitetura: se for de mem ória partilhada todos os processos t êm automaticamente acesso à sua porç ão de dados, mas se for de mem ória distribu´ıda é necess ário definir a priori a subdivis ão e atribuiç ão de cada bloco de dados ao processo respetivo.

• Modelos H´ıbridos

E rara a utilizaç ão estrita de apenas um destes modelos, sendo mais comuns soluç ões h´ıbridas ´ em que v ários modelos se combinam. Um exemplo de modelo h´ıbrido comum reside na combinaç ão dos modelos de message passing e threads: a computaç ão intensiva é desenvolvida pelas threads localmente, em cada n ó, e a comunicaç ão entre processos diferentes é feita atrav és da rede de comunicaç ões quando é preciso trocar dados entre processos. Esta forma de paralelismo adequa-se especialmente às arquiteturas de cluster.

• Modelos de alto n´ıvel

Em geral a programaç ão paralela é feita recorrendo a um modelo de alto n´ıvel constru´ıdo com base numa combinaç ão dos modelos-base apresentados. Distingue-se habitualmente entre modelos SPMD e MPMD

¹⁴

, sendo o modelo SPMD o mais comum. Este modelo consiste em ter v ários processos a executar um mesmo programa, sobre conjuntos que podem ser distintos; este programa é composto por uma combinaç ão de threads, message passing, data parallel ou h´ıbridos, e em geral n ão exige a execuç ão da totalidade do programa por todos os processadores - admitindo, por exemplo, distribuiç ões ramificadas ou condicionais da carga computacional. O modelo MPMD apenas difere do SPMD na medida em que cada processo pode executar um programa distinto, o que, n ão sendo frequentemente necess ário, pode por vezes constituir uma soluç ão relevante.

14Do originalSingleeMultiple Program Multiple Data.

(17)

2.3 Estado da arte

Em 1967 j á G. Amdahl afirmava que “H á mais de uma d écada que existem profetas a afirmar que a organizaç ão de um computador singular atingiu o limite e que apenas a ligaç ão de uma multiplicidade de computadores de maneira tal que permita uma soluç ão cooperativa pode dar origem a avanços significativos” ([4, p.1]).

Apesar de existir interesse em computaç ão paralela desde meados da d écada de 1950, apenas nos anos 60 e 70 esse interesse se materializou sob a forma de supercomputadores, assentes num modelo de mem ória partilhada. Esse interesse fomentou uma evoluç ão cont´ınua, que se refletiu no aparecimento de Massively Parallel Processors (MPPs) em meados de 80, nos clusters de m áquinas independentes desde o in´ıcio dos anos 90 e, mais recentemente, na banalizaç ão de m áquinas multi- core que incluem v ários processadores.

Actualmente, a profecia a que Amdahl fazia refer ência parece estar a concretizar-se, alimentada pela progressiva constataç ão de que o aumento da capacidade computacional pela maximizaç ão do clock speed est á a atingir o seu limite ([8]) e que se torna mais eficiente, em termos econ ómicos e energ éticos, promover esse aumento atrav és da agregaç ão de v ários cores ([9]); paralelamente, a cont´ınua verificaç ão da lei de Moore tem significado um crescimento exponencial da quantidade de hardware dispon´ıvel, permitindo construir plataformas multi-core a um custo cada vez mais reduzido.

Estes fatores t êm contribu´ıdo para acelerar a transiç ão da computaç ão sequencial para a paralela.

Neste momento a computaç ão paralela é largamente usada em v ários setores - o da ind ústria é o mais dominante, usando 50% dos recursos existentes, seguido da investigaç ão cient´ıfica - e num conjunto variado de aplicaç ões t ão distintas como finança, medicina ou gest ão log´ıstica ([7]). Apesar deste crescimento, a paralelizaç ão é ainda um processo pouco automatizado, exigindo uma abordagem muito manual e espec´ıfica para cada problema e consequentemente aumentando a responsabilidade do programador.

As ferramentas dispon´ıveis para paralelizaç ão s ão sobretudo Interfaces de Programaç ão de Aplica- tivos (APIs) ou bibliotecas que trabalham sobre linguagens de programaç ão de baixo n´ıvel (tipicamente C/C++ e Fortran). As linguagens de programaç ão exclusivamente paralelas existentes s ão em geral bastante espec´ıficas e de baixo n´ıvel; a inexist ência de uma linguagem paralela mais global e de alto n´ıvel é vista frequentemente como uma das causas para a lenta transiç ão para o paralelismo, e constitui um importante problema em aberto neste campo ([10]). Existem m últiplas ferramentas para desenvol- vimento de programas em paralelo, das quais é conveniente destacar, pela sua elevada utilizaç ão, o MPI, para o modelo de message-passing, e o OpenMP, usado com o modelo de threads; ambos s ão utilizados em conjunto com uma linguagem usual, como C++ ou F ortran.

Ainda que tenha vindo a verificar uma utilizaç ão crescente, a computaç ão paralela é ainda vista largamente como uma tend ência e n ão ainda como a abordagem padr ão. Num estudo recente enco- mendado pela Intel sobre h ábitos de programadores e gestores de software, apenas 26% classificam a utilizaç ão de paralelismo no seu trabalho como cr´ıtica - 56% veem-na como importante mas n ão essen- cial, e os restantes como irrelevante ([11]). O mesmo estudo mostra que as ferramentas auxiliares de deteç ão de defeitos de threading ou de mem ória s ão ainda pouco utilizadas, ilustrando a imaturidade do desenvolvimento de software paralelo e a necessidade de melhores ferramentas de paralelizaç ão.

Em resumo, tem sido verificado um aumento crescente da utilizaç ão de computaç ão paralela nos anos recentes, potenciado pela noç ão de que o hardware est á a atingir o limite do seu desenvolvimento;

este crescimento n ão se restringe aos tradicionais setores acad émico e de investigaç ão, antes é trans- versal a todos os setores de atividade e com especial impacto na ind ústria. Sendo um desenvolvimento recente, é ainda uma área imatura e n ão considerada essencial, existindo v árias ferramentas de de- senvolvimento - em geral n ão-standard e pouco user-friendly - mas poucas complementares, como debuggers. O paradigma atualmente dominante é o de message-passing, sendo o MPI a plataforma mais utilizada.

2.4 MPI

O desenvolvimento da paralelizaç ão descrita no cap´ıtulo 4 foi feito com base no modelo de message- passing, usando a implementaç ão Open MPI do MPI. Esta secç ão pretende apenas introduzir o MPI e os seus conceitos essenciais; para detalhes sobre a sua utilizaç ão, em particular sobre a sintaxe das rotinas, é conveniente consultar a documentaç ão de Open MPI, dispon´ıvel em [12]

¹⁵

.

15Para uma descric¸ ˜ao mais completa ver [13].

(18)

O MPI

¹⁶

, cuja primeira vers ão data de 1992, é uma especificaç ão de um conjunto de rotinas (bi- blioteca) usadas para a comunicaç ão entre processos paralelos

¹⁷

. Tem como objetivo estabelecer um padr ão para a escrita de programas paralelos no modelo de message-passing, de forma a maximizar a sua portabilidade, praticabilidade, flexibilidade e efici ência. A vers ão mais recente de MPI é o MPI-3.

Na pr ática, as raz ões por optar por MPI prendem-se com o facto de ser a única especificaç ão que pode ser considerada standard, de praticamente n ão ser necess ário alterar o c ódigo aquando de uma mudança de plataforma e de estar facilmente acess´ıvel, incluindo implementaç ões open-source como o Open MPI. Pode ser utilizado sobre as linguagens C, C++ ou F ortran, com diferenças m´ınimas ao n´ıvel da escrita

¹⁸

.

A estrutura geral de um programa MPI ´e a seguinte:

• incluir o header mpif.h e/ou outras bibliotecas

• declarar vari áveis, prot ótipos, etc (tal como num programa s érie)

• inicializar o MPI (com a func¸ ˜ao MPI Init)

• processar a computac¸ ˜ao

• finalizar o MPI (com a func¸ ˜ao MPI Finalize)

N ão é recomend ável a inclus ão de c ódigo antes da inicializaç ão de MPI (exceto declaraç ões) nem ap ós a sua finalizaç ão, caso contr ário o comportamento é imprevis´ıvel.

Em MPI, a estrutura de grupo inclui um ou mais processadores que se pretende que comuniquem entre si. Cada processador est á associado a um ou mais grupos. Cada grupo tem associado a si um comunicador, mais especificamente um intra-comunicador, que permite a troca de mensagens entre os processos desse grupo. O grupo existente por defeito, a partir do momento em que o MPI é lançado,

é universal e o seu comunicador MPI COMM WORLD engloba todos os processos. Cada comunicador tem um tamanho - o n úmero de processos que abrange - que vulgarmente se designa por nproc. Cada processo tem um n úmero inteiro único que o identifica no contexto do seu comunicador, o rank, contido no intervalo [0, nproc − 1].

A comunicaç ão em MPI é feita por troca de mensagens entre os processos, que pode ser feita ponto-a-ponto ou coletivamente. As comunicaç ões ponto-a-ponto envolvem a troca de uma mensagem apenas entre dois processos espec´ıficos; tipicamente o processo A chama um send com a mensagem pretendida, que s ó é recebido pelo processo B se este chamar um receive correspondente.

Em termos de aplicaç ão, existem v árias variaç ões de sends e receives. A distinç ão mais impor- tante reside no facto de serem blocking ou non-blocking : uma operaç ão blocking deixa o processo em espera at é receber a mensagem correspondente, enquanto que uma non-blocking prossegue a execuç ão. A primeira opç ão é mais segura e f ácil de prever, mas mais demorada e pode dar origem a deadlocks, isto é, situaç ões em que dois processos esperam um pelo outro e nenhum avança, blo- queando o programa. Um exemplo t´ıpico de deadlock é o caso em que os processos A e B chamam simultaneamente um send para o outro; como cada processo fica à espera do receive do outro, que n ão

´e chamado por nenhum porque o send ainda n ˜ao foi conclu´ıdo, ambos os processos ficam bloqueados.

A segunda opç ão é mais r ápida mas mais dif´ıcil de controlar, uma vez que pode originar problemas de sobreposiç ão de mensagens ou de correspond ência errada, devido à execuç ão concorrente dos pro- cessos (secç ão 2.2.1). Este tipo de comunicaç ão é útil quando é apenas necess ário trocar informaç ão com um único processador sem envolver os restantes, por exemplo num problema do tipo “linha de montagem” em que cada processo recebe uma informaç ão, executa uma certa operaç ão e envia o resultado para o processo seguinte.

Mais comuns s ão as comunicaç ões coletivas, em que a troca de informaç ão envolve todos os processos do comunicador. Estas comunicaç ões tamb ém podem ser blocking ou non-blocking. Relati- vamente às comunicaç ões ponto-a-ponto, estas s ão mais f áceis de escrever - por exemplo para enviar uma mensagem para N processadores basta fazer uma chamada a uma funç ão coletiva, em vez de N sends - mas exigem uma maior atenç ão do programador para garantir que todos os processos s ão en- volvidos na comunicaç ão (mesmo os que n ão tenham necessidade disso). Distinguem-se neste campo tr ês tipos de operaç ões: sincronizaç ão, troca de dados e computaç ão coletiva.

16Do originalMessage Passing Interface.

17N ão é, em si, uma biblioteca - esta resulta da implementaç ão, por exemploOpen MPI.

18Neste trabalho as refer ências dizem respeito à sintaxe deF ortrana menos que o contr ário seja especificado.

(19)

• Sincronizaç ão - frequentemente é necess ário forçar que todos os processos esperem por um determinado evento, isto é, sincronizar os processos. Isso pode ser feito atrav és de uma barreira coletiva (funç ão MPI Barrier) - cada processo espera at é que todos tenham chamado a mesma barreira antes de prosseguir.

• Troca de dados - permite trocar informaç ão entre mais do que dois processos. As principais operaç ões s ão de broadcast - envio de uma mensagem de um processador para todos -, de scatter - envia diferentes mensagens com origem num único processador para todos os proces- sadores (“dispers ão”) - e de gather - recebe informaç ão de v ários processadores num único, de forma inversa ao scatter (“recolha”).

• Computaç ão coletiva - permite executar uma operaç ão sobre dados residentes em todos os pro- cessadores. Tipicamente corresponde a uma operaç ão de reduce, que junta a informaç ão de todos os processadores, trata-a e devolve o resultado para um único processador. Al ém das operaç ões mais comuns definidas pelo MPI (soma, multiplicaç ão, m áximo) é poss´ıvel ao utiliza- dor definir a sua pr ópria funç ão de reduce.

Estes s ão os conceitos fundamentais do funcionamento do MPI; n ão se pretende fazer uma descriç ão exaustiva das capacidades do MPI mas apenas permitir a compreens ão do seu modo de aplicaç ão gen érico. Para uma exploraç ão mais detalhada das funcionalidades do MPI recomenda-se a consulta das refer ências [14] e [15].

2.5 Estrat égia de paralelizaç ão

E conveniente reunir os conceitos j á abordados numa única estrat égia de paralelizaç ão, t ão gen érica ´ quanto poss´ıvel, que possa ser aplicada a uma variedade de problemas. ´ E esse o objetivo desta secç ão, cujo conte údo tem como origem a experi ência de paralelizaç ão de alguns problemas como o descrito no cap´ıtulo 4. Apesar de t ão geral quanto poss´ıvel, esta estrat égia foi pensada no contexto do modelo de message-passing com utilizaç ão do MPI, pelo que podem existir noç ões que n ão se apliquem a todos os modelos ou plataformas.

Distinguimos tr ês momentos do processo de paralelizaç ão: a abordagem inicial, a paralelizaç ão propriamente dita e a an álise dos resultados; esta última n ão é contemplada nesta secç ão, sendo apenas abordada no contexto do estudo de caso do cap´ıtulo 4 para melhor compreens ão. Acrescenta- se ainda uma secç ão de “dicas” destinadas a chamar a atenç ão para alguns detalhes que podem ser

úteis na resoluç ão de determinados problemas. E ignorada a hip ótese de recorrer a paralelizaç ão ´ autom ática.

2.5.1 Abordagem inicial

Normalmente pretende-se introduzir paralelizaç ão para melhorar um programa j á existente. A tarefa priorit ária é compreender qual o problema que o programa trata e como faz para o resolver, para facilitar a sua posterior modificaç ão para incluir paralelismo. Simultaneamente, a motivaç ão para a paralelizaç ão deve ficar bem definida - é importante que seja claro se o programa demora demasiado tempo a executar, e portanto o objetivo é reduzir esse tempo, ou se é incapaz de processar os dados que devia, e ent ão o objetivo é repartir a utilizaç ão de mem ória. Em cada caso devem ser estabelecidos objetivos concretos: caso o problema seja o tempo, definir o limite superior ao tempo desejado; caso seja a mem ória, definir a dimens ão do problema que deve ser poss´ıvel processar.

O passo seguinte é perceber se o programa é paraleliz ável. N ão é de forma alguma trivial que todos os programas o sejam - por exemplo, um programa que calcule os termos da sequ ência de Fibonacci pelo algoritmo usual F(n) = F(n −1)+ F (n −2) n ão é paraleliz ável, porque existe uma depend ência en- tre os termos. Nesta fase o programador deve perceber se existem partes do programa que possam ser paralelizadas e identificar elementos inibidores de paralelismo, tais como a depend ência entre dados do exemplo anterior. As porç ões de computaç ão que n ão sejam identificadas como n ão-paraleliz áveis constituem os potenciais candidatos a serem paralelizados.

Conhecendo j á o programa a este n´ıvel, torna-se essencial maximizar o proveito da paralelizaç ão, respondendo à pergunta “Onde gasta o programa mais tempo?”; o programador deve identificar onde

é feita a maior parte da computaç ão, e marcar esses hotspots como os mais fortes candidatos a

paralelizar para obter o m áximo benef´ıcio. Apenas as porç ões de c ódigo onde seja gasto um tempo

(20)

relevante devem ser consideradas para paralelizaç ão, uma vez que paralelizar secç ões com pouco impacto no tempo total de execuç ão ter á impacto reduzido no resultado final (pode, inclusivamente, aument á-lo, devido aos overheads).

Para a determinaç ão dos hotspots é muito útil o recurso a ferramentas de profiling , das quais a mais acess´ıvel é o gprof

¹⁹

. Para analisar um programa s ´erie com esta ferramenta, o programador deve:

1. Acrescentar a flag “-pg” à compilaç ão de nome programa

2. Executar o programa normalmente ( ´e criado o ficheiro “gmon.out”) 3. Correr o comando “gprof nome programa>out”

4. Analisar ficheiro “out” que cont ém a informaç ão de profiling

Para um programa paralelo este tipo de an álise é mais complicado, dado que o gprof n ão funciona de maneira regular. Existem ferramentas para profiling de aplicaç ões paralelas, mas que n ão foram abordadas neste trabalho; algumas orientaç ões sobre esta quest ão podem ser encontradas em [16].

Resumindo, a abordagem inicial deve responder a tr ˆes quest ˜oes:

1. Como funciona o programa?

2. ´ E paraleliz ´avel?

3. Onde ´e mais rent ´avel paralelizar?

onde se gasta mais tempo?

que estruturas ocupam mais mem ´oria?

2.5.2 Paralelizac¸ ˜ao

A partir do momento em que se conclui pela possibilidade da paralelizaç ão e se identificam os hotspots relevantes, est ão reunidas as condiç ões para passar à paralelizaç ão propriamente dita, que corres- ponde à fase de computaç ão da estrutura global introduzida em 2.4. Esta fase apresenta em geral uma subestrutura semelhante à seguinte:

1. aquisic¸ ˜ao do input;

2. distribuic¸ ˜ao da carga computacional;

3. computac¸ ˜ao independente;

4. comunicac¸ ˜ao:

com outros processos, se necess ário para prosseguir computaç ão (nesse caso regressar ao ponto 3);

dos resultados (operaç ão de reduce), caso a computaç ão esteja finalizada.

A generalidade dos programas inclui uma parte inicial de processamento de I/O, nomeadamente para input dos dados com que vai trabalhar. Na transiç ão para o paralelismo é necess ário decidir como tratar este processo. Distinguem-se duas opç ões mais comuns, ambas constituindo formas de I/O standard (ou seja, sequencial): leitura simult ânea em todos os processos (transversal) ou leitura no root seguida de broadcast para os restantes processos.

O primeiro caso é bastante simples de escrever: basta incluir as instruç ões de leitura tal como num programa sequencial. Cada processador executa essa instruç ão e l ê o ficheiro designado. Esta soluç ão tem a vantagem de ser a mais simples de usar e n ão contribuir para o overhead de comunicaç ão; no entanto, exige a alocaç ão dos arrays globais em todos os processos - o que pode n ão ser vi ável em termos de mem ória dispon´ıvel - e pode dar origem a congestionamentos no sistema, quando m últiplos processos tentam aceder ao mesmo ficheiro, introduzindo assim um overhead de I/O indesejado, cuja magnitude depende da quantidade de informaç ão que é necess ário ler ou escrever.

19O Gprof ´e um projecto GNU sob licenc¸a GNU GPL (open-source, dispon´ıvel por defeito nos sistemas Unix.

(21)

No caso leitura em root + broadcast , evita-se o congestionamento provocado por m últiplas leituras simult âneas e é f ácil trocar o broadcast por um scatter e com isso evitar a necessidade de alocar os arrays globais, o que é uma vantagem em termos de mem ória. A desvantagem desta opç ão é que introduz um overhead de comunicaç ão, que pode ser muito significativo, e que obriga todos os processadores non-root a esperar enquanto o root faz a leitura e at é lhes ser enviada a sua parcela de dados a trabalhar. Ambas as soluç ões t êm aplicaç ão, cabendo ao programador decidir, em funç ão do problema, qual a mais adeaquada.

Existe ainda uma terceira opç ão, que é usar I/O paralelo, j á inclu´ıda nas implementaç ões de MPI-2, mas que é ainda algo imatura e tem algumas particularidades - por exemplo, a leitura pode ser feita apenas a partir de ficheiros bin ários - que complicam a sua utilizaç ão.

Conclu´ıdo o processo de leitura é preciso distribuir a carga computacional pelos processadores. O primeiro passo é distribuir os dados pelos processadores que os v ão trabalhar; a maneira mais simples de conseguir isso é definir N blocos de dados e distribuir um por cada processador. Existem v árias alternativas para efetuar esta distribuiç ão, por exemplo usando um modelo c´ıclico ou uma distribuiç ão funcional; o ponto essencial é que essa distribuiç ão seja equilibrada e permita que a cada processador seja atribu´ıda uma carga semelhante, de forma a minimizar o tempo em que alguns processos est ão à espera que outros acabem o seu trabalho.

Para problemas com estruturas de dados uniformes este tipo de distribuiç ão est ática é geralmente a melhor opç ão. Pode no entanto acontecer que essas estruturas sejam mais heterog éneas (por exemplo, matrizes esparsas) e que uma distribuiç ão regular origine uma sobrecarga de alguns processos; nesse caso pode ser proveitoso adotar uma estrat égia de distribuiç ão din âmica: o root lista todas as tarefas pendentes e recebe de cada processo um pedido de atribuiç ão de tarefa, que quando é conclu´ıda d á origem a novo pedido, e assim sucessivamente. Desta forma assegura-se em princ´ıpio que todos os processos est ão sempre ocupados, at é que n ão haja mais tarefas; o custo é ao n´ıvel da programaç ão, sendo necess ário definir a tarefa unit ária e introduzir um algoritmo de gest ão das tarefas no processo root.

A partir do momento em que todos os processos t êm a sua carga de trabalho, começam a trabalhar nela de forma independente uns dos outros, at é que seja necess ário trocar informaç ão entre eles ou forçar a sincronizaç ão de todos os processos. Cabe ao programa decidir o perfil de comunicaç ões - ou seja, a granularidade - do programa. Uma granularidade fina - baixo volume de computaç ão entre comunicaç ões - facilita o balanceamento da carga computacional, mas implica um grande overhead de comunicaç ão. Por oposiç ão, uma granularidade grosseira permite minimizar os overheads comunicati- vos mas dificulta a distribuiç ão da carga. O balanço ótimo entre estes extremos depende fortemente do problema, mas em geral é mais indicado optar por uma granularidade mais grosseira, uma vez que os overheads de comunicaç ão representam o maior contributo para um tempo de execuç ão excessivo.

No final da computaç ão é necess ário reunir toda a informaç ão para gerar o resultado pretendido, o que normalmente corresponde a fazer uma operaç ão de recolha de informaç ão sobre todos os proces- sadores. Esta operaç ão pode ser feita para um array global ou apenas local, dependendo do objetivo e dos constrangimentos de mem ória. Em ambos os casos pode ser feita para um único processador, por exemplo com reduce, ou para todos, com allreduce. Novamente, a decis ão depende fortemente do problema e dos objetivos em quest ão.

E conveniente ilustrar esta estrutura gen érica com um exemplo. Considere-se o exemplo trivial de ´ um programa que calcula o quadrado de cada elemento de um vetor v com n elementos. O c ódigo s érie ser á algo como:

do i=1,n

v(i) = v(i)*v(i) end do

Vejamos como podem estas orientaç ões ser aplicadas à paralelizaç ão deste exemplo

²⁰

. Inicial- mente, a leitura de input (como exemplo usamos o modelo root + broadcast):

if(rank==root) allocate v(n)

20Para facilitar a compreens ão e evitar detalhes desnecess ários usamos pseudo-c ódigo baseado emF ortran.

(22)

read v end if

Note-se que apenas é preciso alocar o vetor global no rank onde vai ser lido. A distribuiç ão pode ent ão ser feita com um scatter em vez de broadcast, definindo a dimens ão dos vetores locais n pp e alocando-os:

n_pp = n/n_proc allocate (v_pp(n_pp))

call scatter (n_pp elementos de v para v_pp)

Cada processo tem a sua carga e pode começar a computaç ão independente:

do i=1,n_pp

v_pp(i) = v_pp(i)*v_pp(i}

end do

Neste exemplo n ão é preciso combinar os resultados dos diferentes processos (fazendo um reduce), mas apenas agreg á-los. Reunindo a informaç ão de todos os processos, voltamos a obter o vetor global:

call gather (n_pp elementos de v_pp para v no rank root)

Apesar de simples, este exemplo da paralelizaç ão de um loop ilustra a estrutura fundamental de um programa paralelo: leitura de input, distribuiç ão da carga computacional, execuç ão da computaç ão em cada processador e reuni ão final dos resultados.

2.5.3 Dicas

Em conjunto com esta estrat égia global, é importante ter presente um conjunto de apontamentos que podem facilitar o processo de paralelizaç ão:

• preservar reversibilidade - é frequente cair na tentaç ão de paralelizar uma parte demasiado ex- tensa do c ódigo logo à partida, sem nenhum tipo de verificaç ão peri ódica, e chegar a um ponto em que o c ódigo semi-paralelo/semi-s érie n ão corre ou n ão d á os resultados esperados. Nesse sentido, é boa pr ática preservar a reversibilidade do programa para a vers ão s érie durante a paralelizaç ão, e remover essa reversibilidade apenas ap ós testar o funcionamento da vers ão paralela. Na pr ática, uma maneira de fazer isto é começar por incluir todo o programa num if(rank==root), de forma a preservar a serialidade, e ir progressivamente paralelizando porç ões do c ódigo e retirando-as do if. A tabela 2.7 apresenta um exemplo gen érico desta soluç ão. Note- se que ela implica que a porç ão paralelizada (no exemplo, work mesh pp) devolva os mesmos par âmetros que o original n ão paralelizado (work mesh, o que implica usar os arrays globais e portanto usar mais espaço de mem ória do que o necess ário; por ém, essa situaç ão pode ser corrigida à posteriori removendo a operaç ão de reduce do work mesh pp, pelo que esta é uma estrat égia útil para a parte inicial da paralelizaç ão e que n ão compromete o resultado final.

call create mesh call work mesh call print mesh

(a) S ´erie

if(rank==root) call create mesh call work mesh call print mesh end if

(b) Paralelo I

if(rank==root) call create mesh end if

call work mesh pp if(rank==root)

call print mesh end if

(c) Paralelo II

Tabela 2.7: Preservaç ão da reversibilidade durante a paralelizaç ão.

(23)

• minimizar comunicaç ão - independentemente do modelo de programaç ão, é sempre conveniente reduzir ao m´ınimo a comunicaç ão entre processos de forma a evitar overheads excessivos que podem comprometer a viabilidade da paralelizaç ão.

• usar comunicaç ões non-blocking - caso a topologia do programa exija um elevado volume de comunicaç ões, deve ser considerada a hip ótese de usar vers ões non-blocking das rotinas de comunicaç ão, de forma a que os processos possam prosseguir em tarefas de computaç ão em vez de ficar à espera da conclus ão da comunicaç ão. Esta soluç ão acarreta um esforço acrescido de sincronizaç ão dos processos para evitar o overwrite de dados.

• minimizar I/O - tipicamente processos de I/O s ão uma fonte de demora no programa, podendo criar bottlenecks caso muitos processos tentem aceder ao mesmo conjunto de dados ao mesmo tempo, pelo que, tal como as comunicaç ões, devem ser minimizados de forma a evitar overheads.

Adicionalmente, sempre que poss´ıvel devem ser escritos largos volumes de dados poucas vezes, em vez de pequenos volumes muitas vezes, para maximizar a efici ˆencia.

• considerar outros algoritmos - é natural a tend ência para manter o algoritmo s érie original e intro- duzir apenas as alteraç ões necess árias para a execuç ão em paralelo, mas esta pode n ão ser a melhor soluç ão em termos de tempo. Se poss´ıvel, devem ser considerados algoritmos alternati- vos que se adequem melhor a um ambiente paralelo (idealmente essa investigaç ão deve ser feita antes de se começar a paralelizaç ão, para evitar esforço desnecess ário).

• usar bibliotecas - em geral existem v árias bibliotecas com rotinas que se adequam ao problema espec´ıfico a ser tratado. Este software deve ser pesquisado e utilizado por forma a acelerar o programa e minimizar trabalho desnecess ário. Dois exemplos s ão as bibliotecas ParMETIS, para partiç ão de malhas n ão-estruturadas em paralelo, e o ScaLAPACK, uma biblioteca de álgebra linear.

• distribuiç ões de arrays n ão uniformes - é frequente que, ao dividir um array global por v ários pro- cessadores, os subarrays fiquem com dimens ões diferentes (basta a dimens ão do array n ão ser m últipla do n úmero de processadores). S ão tamb ém frequentes operaç ões de gather ou scatter entre esses arrays, e um erro comum é tentar utilizar as funç ões MPI Gather ou MPI Scatter para isso, o que resulta num erro porque essas funç ões apenas podem ser usadas para arrays de dimens ões iguais. As funç ões adequadas a este caso s ão MPI GatherV e MPI ScatterV.

• manter nomenclatura inteligente - é relativamente f ácil, particularmente numa fase inicial, que a paralelizaç ão d ê origem a tantos novos vetores e operaç ões que se torne confuso para o progra- mador saber o que é o qu ê. Para minimizar confus ões é conveniente adotar uma nomenclatura inteligente que permita ao programador perceber imediatamente se determinado vetor é local ou global, se tem algum equivalente local/global, etc. Uma sugest ão para isso é acrescentar o sufixo pp aos elementos paralelizados, e manter a nomenclatura original para os s érie. Uma outra forma

é apresentada na secç ão 4.3 no âmbito do caso de estudo; v árias formas s ão poss´ıveis, desde

que cumpram o objetivo priorit ário de facilitar a leitura e compreens ão do c ódigo.

(24)