Métrica de Karp-Flatt - Análise Quantitativa: Métricas

A.4 Mascaramento de Bytes

3.3 An´alise Quantitativa: M´etricas

3.3.5 M´etrica de Karp-Flatt

Uma outra métrica foi proposta por Karp e Flatt em 1990. A métrica de Karp-Flatt pode ser usada para medir tanto o overhead de comunica¸cão quanto a paraleliza¸cão do código, o que é especialmente útil para avaliar o limitante do fator de speedup num programa paralelo (KARP; FLATT, 1990).

Considerando uma computa¸cão paralela com fator de speedup S usando p processadores (p > 1), a fra¸cão da tarefa serial determinada experimentalmente γe é dada por:

γe= 1 S − 1 p 1 − 1 p (3.15) A fra¸cão serial determinada experimentalmente através da métrica de Karp-Flatt é uma fun¸cão do fator de speedup observado e do número de processadores. Em sistemas que tenham baixo fator de speedup, principalmente devido à limitante serial, o aumento do número de processadores não refletirá diretamente sobre γe. Por outro lado, se o principal responsável

pelo baixo fator de speedup for o overhead em comunica¸c˜ao, haver´a um crescimento de γe

com o aumento do n´umero de processadores.

3.3.6 Fator de Multiprocessamento (MPF)

O fator de multiprocessamento (MPF - MultiProcessing Factor ) é uma métrica freqüente- mente utilizada para avaliar o desempenho de multiprocessadores (GUNTHER, 2002 apud ARTIS, 1991) (GUNTHER, 2002 apud MCGALLIARD, 1995).

Considere-se uma tarefa sendo executada num monoprocessador que tem throughput medido de X(1) = 100 transa¸c˜oes por segundo (TPS). Quando a mesma ´e executada num

3.3. AN ÁLISE QUANTITATIVA: MÉTRICAS 45 biprocessador, o throughput agregado medido é de X(2) = 180 TPS. Logo, X(2) representa menos do que o dobro de X(1) de forma que pode ser extra´ıda uma rela¸cão entre os dois valores: 180 = (1 + φ) · 100; onde φ = 0, 8 é chamado de fator de multiprocessamento (MPF). Percebe-se que a introdu¸cão do segundo processador contribuiu com 80% da capacidade computacional do primeiro. O acréscimo de um terceiro processador contribuiria com 80% da capacidade do segundo, o que equivale a 64% da capacidade do primeiro. Deste racioc´ınio chega-se à seguinte rela¸cão:

X(n + 1) = (1 − φ) · X(n) (3.16) Para calcular o fator de speedup utilizando o fator de multiprocessamento, basta somar as contribui¸c˜oes para o ganho de velocidade de cada um dos p processadores, o que resulta em uma soma geom´etrica:

S(p) = 1 + φ + φ2+ φ3+ · · · + φp−1 = 1 − φ

1 − φ (3.17)

Uma vez que φ, por defini¸cão, é positivo e menor do que 1, o fator de speedup máximo para um dado MPF será:

lim

p→∞S(p) =

1 − φ (3.18)

3.3.7 Eficiˆencia

Para se obter o valor do fator de speedup normalizado em uma escala de 0 a 1, dividi-se o mesmo pelo número de processadores utilizados (p). Isto define a “eficiência” ξ(p) de execu¸cão da tarefa. A eficiência mede a taxa de utiliza¸cão dos processadores na execu¸cão de um programa paralelo e reflete, portanto, a qualidade da paraleliza¸cão. Em termos matemáticos a eficiência pode ser expressa como:

ξ(p) = S(p)

p (3.19)

3.3.8 Redundˆancia

Sendo C(p) o custo computacional de um dado problema, a redundância da solu¸cão paralela será dada por:

R(p) = C(p)

C(1) (3.20)

A redundância reflete a quantidade adicional de processamento necessária na paraleliza- ¸cão.

3.3.9 Utiliza¸c˜ao

A medida da fra¸cão de recursos que foi mantida ocupada durante a execu¸cão de um programa é chamada utiliza¸cão U(p). Para um sistema utilizando p processadores, a utiliza¸cão é definida como:

U(p) = R(p) · ξ(p) (3.21)

3.3.10 Qualidade do Paralelismo

A qualidade do paralelismo é uma medida artificial que reúne os principais aspectos da execu¸cão em paralelo e pode ser definida como:

Q(p) = S(p) · ξ(p)

R(p) (3.22)

3.3.11 M´etricas de Comunica¸c˜ao

Largura de Banda: Largura de banda é a taxa máxima na qual a informa¸cão pode se pro- pagar. Ela está idealmente limitada pelas larguras de banda da memória, do processador e do canal, além dos mecanismos de comunica¸cão (PATTERSON; HENNESSY, 1997).

E medida em bits por segundo (bps).

Taxa de Transferˆencia Efetiva (Throughput): Difere da largura de banda nominal por nesta medida serem descontadas as perdas de informa¸c˜ao, compartilhamento do meio e outros fatores redutores de desempenho.

Latência: A latência de comunica¸cão é o tempo que a mensagem leva para ser transmitida. Ela possui quatro componentes básicos: overhead do transmissor, tempo de transmis- são, tempo de percurso, overhead do receptor. O overhead representa o tempo gasto em

3.3. AN ÁLISE QUANTITATIVA: MÉTRICAS 47 sincroniza¸cão e coordena¸cão da comunica¸cão. Tempo de percurso são os atrasos inseri- dos por elementos de repeti¸cão, comuta¸cão ou outro hardware qualquer da rede. Tempo de transmissão é o tempo para a mensagem passar através da rede (não incluindo o tempo de percurso), ou seja, é o tamanho da mensagem dividido pela largura de banda. Técnicas que utilizam o tempo de processamento que seria perdido devido à latência de comunica¸cão geralmente são implementadas de forma a sobrepor comunica¸cão com computa¸cão ou mesmo comunica¸cão com comunica¸cão, e são coletivamente chamadas de compensa¸cão de latência as quais, dependendo da aplica¸cão, exigem hardware e/ou software adicionais (PATTERSON; HENNESSY, 1997).

A escolha da métrica a ser utilizada na avalia¸cão de performance de um sistema de processamento paralelo é de grande importância, podendo influenciar bastante nos resultados obtidos. A busca por sistemas de medida mais gerais, uniformes e independentes da topologia de rede de interconexão é necessária, de modo a garantir uma referência consistente no comparativo entre diversos sistemas.

As classifica¸cões e métricas de processamento paralelo vistas neste cap´ıtulo complemen- tam a base teórica necessária à compreensão dos trabalhos desenvolvidos neste projeto.

Cap´ıtulo 4

Descri¸c˜ao e An´alise do Projeto

Conforme visto no cap´ıtulo 2, as facilidades oferecidas pela tecnologia de eletrônica recon- figurável, em especial os FPGAs, permitem a prototipa¸cão de sistemas com complexidade relativamente elevada em tempo reduzido. Por outro lado, sistemas paralelos demandam a integra¸cão de processadores, memórias e periféricos através de uma rede de interconexão que pode tornar-se de roteamento muito dif´ıcil, dependendo do número de nós e da sua topologia, conforme tratado no cap´ıtulo 3. A realiza¸cão de sistemas como estes sobre eletrônica reconfi- gurável tem-se tornado viável com o surgimento de FPGAs de grande capacidade lógica. Este projeto explora esta possibilidade, buscando a implementa¸cão e teste de um multiprocessador em FPGA, visando aplica¸cões de controle robótico.

O sistema proposto neste trabalho foi desenvolvido inicialmente utilizando uma placa- protótipo (GUARDIA-FILHO, 2005) projetada no Laboratório de Sistemas Modulares Ro- bóticos da Unicamp. Esta placa, baseada no dispositivo FPGA Altera EP1C20 da fam´ılia Cyclone, possui memórias Flash e SDRAM, conversores A/D e D/A, interfaces padrão RS- 232C e USB 2.0, duas entradas de v´ıdeo analógico e CIs para codifica¸cão e decodifica¸cão de v´ıdeo. Os primeiros testes de multiprocessador monol´ıtico foram desenvolvidos sobre esta placa onde foi implementado um sistema contendo três núcleos processadores.

Como algumas corre¸cões estavam sendo realizadas no hardware da placa-protótipo, foi decidido dar prosseguimento ao projeto do sistema multiprocessador em outra plataforma, uma placa de desenvolvimento Altera – a DE2 da Terasic – que é brevemente descrita na se¸cão seguinte.

Conforme será comentado ao longo deste cap´ıtulo, o Sistema Multiprocessado Monol´ıtico (SMM) principal foi concebido com quatro núcleos processadores e, portanto, será denomi-

50 CAPÍTULO 4: DESCRI ¸C ÃO E AN ÁLISE DO PROJETO

Figura 4.1: Placa de desenvolvimento Altera DE2. nado de SMM-41_.

4.1 Ambiente de Desenvolvimento

Esta se¸c˜ao descreve de forma r´apida os elementos de hardware e software utilizados no desenvolvimento do projeto.

No documento Multiprocessador em eletronica reconfiguravel para aplicações roboticas (páginas 66-71)