Desempenho Computacional - Avalia¸c˜ao de Desempenho

2.5 Avalia¸c˜ao de Desempenho

2.5.2 Desempenho Computacional

A defini¸cão de desempenho está fortemente associada aos requisitos da aplica¸cão em causa. No que respeita às aplica¸cões paralelas e em tempo-real, tradicional- mente, uma implementa¸cão era avaliada segundo os critérios tempo de execu¸cão, racio R/C, acelera¸cão (speedup), eficiência e escalabiblidade.

Um critério menos frequente, usado neste trabalho, é o tempo médio por elemento que se designa por gradiente (g), g = T (n1)/n1. O gradiente pode ser

aplicado a tempos de execu¸cão ou de comunica¸cão, sendo esperado que, num algoritmo regular, um aumento de carga expresso por n1 implique um aumento proporcional nos tempos expressos por T (n1). Quando a proporcionalidade es- perada se não verifique poder-se-á inferir que algo terá mudado na rela¸cão entre algoritmo e arquitectura. Essa mudan¸ca pode ser devida a vários factores, sendo os mais frequentes o esgotar de espa¸co de memória local para armazenamento de dados, passando a ser necessário o uso de memória virtual (“swapping”) ou a capacidade de armazenamento temporário (“buffering”) de uma liga¸cão ter sido ultrapassada.

Em sistemas homogéneos, onde todos os processadores utilizados para processamento são idênticos, a análise dos valores obtidos destas métricas indica a forma como o algoritmo reage perante configura¸cões alternativas, permitindo optar pela melhor solu¸cão, ou encaminhando à implementa¸cão de outro tipo de configura¸cões.

Em sistemas heterogéneos são frequentemente aplicadas as métricas associadas ao estudo da escalabilidade de sistemas, nomeadamente isoeficiência, isomemória, isotempo e isovelocidade, que permitem não só avaliar quantitativamente a qua- lidade da implementa¸cão como também fornecem indicadores da adequa¸cão do algoritmo à plataforma de implementa¸cão e permitem prever a resposta do sistema ao aumento da dimensão do problema.

A qualifica¸cão tempo-real empregue em sentido lato indica que a taxa de produ¸cão do resultado do processamento respeita, em termos médios, um limite temporal considerado aceitável. A defini¸cão de tempo-real em sentido lato admite a existência de latência no sistema que se traduz num per´ıodo de tempo em que existe entrada de dados e não existe produ¸cão de resultados. A qualifica¸cão de tempo-real em sentido estrito significa que o processamento jamais ultrapassa o limite temporal, definido como um requisito do sistema. Associado a esta defini¸cão surge frequentemente data throughput, a frequência de processamento de dados, que deve ser maior que a frequência de amostragem. A frequência de processamento de dados é o inverso do gradiente. Alguns indicadores são especialmente relevantes nos sistemas em tempo-real como seja a previsibilidade, fiabilidade e tolerância a falhas (Burns & Wellings, 1997).

Considerando que, para um sistema em tempo-real, o tempo de execu¸cão é talvez a faceta do sistema em rela¸cão à qual mais expectativas foram criadas, de- verá, nesses casos, merecer uma aten¸cão especial (Sahni & Thanvantri, 1996). O

impacto no tempo de execu¸cão de várias caracter´ısticas f´ısicas do sistema empregue propiciam a utiliza¸cão de outras métricas. A propósito refira-se o recurso ao conceito máquina virtual (Tokhi, Ramos-Hernandez, Chambers & Hossain, 1997) permite a compara¸cão de diversos sistemas reflectindo a adequa¸cão entre algoritmo e sistema empregue, mantendo a desejada abstraçcão das caracter´ısticas f´ısicas do sistema.

2.5.2.1 M´etricas Gen´ericas

Numa aplica¸cão de processamento de dados a métrica de desempenho mais ade- quada talvez seja data thoughput, ou seja, o número de elementos de informa¸cão atómicos processados por unidade de tempo; da mesma forma, numa aplica¸cão gráfica talvez seja o número de p´ıxeis correctamente iluminados por segundo (Ruano & Madeira, 1999).

Outra possibilidade interessante é a da capacidade de resposta, traduzindo o intervalo de tempo entre o registo de um acontecimento e a resposta do sistema a esse acontecimento. Actualmente, muitas aplica¸cões exigem sistemas embebidos, onde o processador é parte de um sistema maior. Geralmente o objectivo é res- ponder em tempo-real a um acontecimento que ocorra quer no sistema maior quer no ambiente exterior. O significado de tempo-real neste caso pode ser encarado como a resposta a determinado acontecimento ocorrendo antes do próximo registo desse acontecimento, significando neste caso que a frequência de produ¸cão de resultados é equivalente (e não necessariamente superior) à frequência de aquisi¸cão de dados.

Uma terceira métrica de desempenho, instruction thoughput (taxa de tra- tamento de instru¸cões), muito utilizada comercialmente, apresenta pouco valor neste trabalho. Instruction thoughput refere o número de instru¸cões máquina atómicas que podem ser executadas por unidade de tempo. É necessário ter em mente que este tipo de métrica visa analisar o desempenho f´ısico do sistema em condi¸cões muito particulares. Para que se possam retirar quaisquer considera¸cões seria necessário analisar qual o teste de desempenho (benchmark ) efectuado. 2.5.2.2 Tempo de Execu¸cão

O tempo de execu¸cão é calculado em fun¸cão da dimensão do problema N , do número de processadores P envolvido, do número de tarefas U e de outras caracter´ısticas do algoritmo e do hardware utilizado.

Este tempo de execu¸cão pode ser obtido de duas formas: como sendo a maior soma dos tempos de cálculo, comunica¸cão e espera num determinado processador ou como sendo a soma de todos estes tempos em todos os elementos de processamento dividido pelo número de processadores N .

Designa-se por tempo de cálculo os per´ıodos de tempo consumidos em cálculo, os quais dependem da dimensão do problema.

O tempo de comunica¸cão consiste no per´ıodo de tempo que as tarefas gastam no envio e recep¸cão de mensagens. Existem dois tipos distintos de comunica¸cão: a inter-processador e a intra-processador. No primeiro caso, as tarefas que comu- nicam encontram-se em unidades de processamento distintas, no segundo caso, ambas tarefas se encontram no mesmo processador.

Numa arquitectura ideal o tempo de comunica¸cão inter-processador pode ser traduzido por dois parâmetros, o tempo de arranque, ta, que corresponde ao tempo necessário para iniciar a comunica¸cão, e o tempo de transferência de uma palavra, tw. Desta forma o tempo consumido na transferência da mensagem, tmsg, pode exprimir-se por

tmsg = ta+ twL (2.46)

sendo L o n´umero de palavras contidas na mensagem.

Os tempos de cálculo e de comunica¸cão são definidos explicitamente num algoritmo paralelo. Porém o per´ıodo de espera (idle) não é fácil de determinar, uma vez que depende da ordem pela qual as opera¸cões são executadas. Um per´ıodo de espera num processador pode dever-se à falta de condi¸cões para a execu¸cão de cálculos ou comunica¸cão. No caso dos cálculos, esta falta de condi¸cões pode dever-se a uma má distribui¸cão de carga pelos processadores, o que pode ser obviado pela aplica¸cão de técnicas de distribui¸cão de carga (load-balancing). No caso de espera devida a comunica¸cão, a situa¸cão normalmente ocorre quando um processador remoto ainda não terminou as opera¸cões que lhe estavam destinadas, logo não pode estabelecer a comunica¸cão. Em qualquer dos casos de falha de condi¸cões, a minimiza¸cão do tempo de espera é procurada ocupando o processador com outro tipo de opera¸cões.

O tempo de execu¸cão nem sempre é a melhor forma de avaliar o que condi- ciona o desempenho dum sistema paralelo. Uma vez que este tempo é fun¸cão da dimensão do problema, devem apresentar-se os tempos normalizados quando se efectuam compara¸cões com outras implementa¸cões. Como factores de norma- liza¸cão pode-se referir a carga computacional, representada pela dimensão N do

problema, ou caracter´ısticas f´ısicas como a frequência do processador. A vanta- gem da métrica tempo de execu¸cão ocorre quando se pretende avaliar sistemas de tempo-real, onde, em geral, tempo de execu¸cão é um dos factor determinante do sucesso da implementa¸cão.

2.5.2.3 Acelera¸c˜ao

Outro indicador utilizado na avalia¸cão dum sistema paralelo é o ganho obtido no desempenho de uma determinada paraleliza¸cão face à implementa¸cão sequencial. Acelera¸cão (S) é definida como a razão entre o tempo de execu¸cão dum problema num único processador t1 e o tempo necessário na resolu¸cão desse mesmo problema em p processadores idênticos, tp:

S = t1 tp

(2.47) Considerando a existência de várias implementa¸cões de um algoritmo sequencial, deve ser utilizado na compara¸cão o algoritmo sequencial mais rápido de entre os conhecidos ou desenvolvidos. Idealmente, o valor da acelera¸cão deve ser igual ao número de processadores utilizados na implementa¸cão. Na prática, o seu valor é inferior, pois os processadores passam por estados inactivos (idle) causa- dos por conflitos de acesso a memória, atrasos de comunica¸cões, ou ineficiência algor´ıtmica.

2.5.2.4 Eficiˆencia

Apenas um sistema ideal com p processadores pode ter uma valor de acelera¸cão igual a p. Na prática, o comportamento ideal nunca é atingido durante a execu¸cão de um algoritmo paralelo devido ao sistema não dedicar 100% do seu tempo aos cálculos. A medida de eficiência vem permitir caracterizar a forma como um algoritmo dispõe dos recursos computacionais, não sendo directamente dependente da dimensão do sistema.

Define-se eficiência como sendo a fraçcão de tempo que os processadores rea- lizam trabalho útil, ou seja, o quociente entre acelera¸cão e o número de processadores:

E = S

p (2.48)

p processadores for p vezes mais rápido. Se for algo mais lento, a eficiência será proporcionalmente menor.

A partilha de carga computacional exige coopera¸cão o que, por sua vez, exige comunica¸cão. Por vezes a comunica¸cão num sistema paralelo é encarada como uma sobrecarga, uma vez que na maioria dos sistemas actualmente dispon´ıveis, a velocidade de processamento é muito superior à taxa de transmissão supor- tada pelas liga¸cões entre processadores. Mas apenas a comunica¸cão que não é intr´ınseca ao problema poderá constituir sobrecarga. O requinte do desenho de um algoritmo paralelo consiste em reduzir a comunica¸cão ao absolutamente essencial. Qualquer processador desenhado para constituir um elemento de processamento de um sistema paralelo deve suportar comunica¸cão inter-processador, ou seja, suportar links. O conceito de eficiência exige a utiliza¸cão plena de todos os recursos, quer de processamento quer de comunica¸cão. O fulcro da questão reside na determina¸cão do processamento e comunica¸cões necessárias e conse- guir um compromisso com as capacidades de processamento e de comunica¸cão dispon´ıveis. Este é o problema fundamental no desenho de um sistema paralelo.

2.5.2.5 Escalabilidade

Em sistemas paralelos, a capacidade de computa¸cão é associada ao número p de processadores utilizados. Um sistema diz-se escalar no intervalo compreendido entre p1 e p2 (quantidade m´ınima e máxima de processadores utilizados) se nesse intervalo a eficiência do sistema se mantiver constante.

Ep → const (p1 < p < p2) (2.49) Em suma, a escalabilidade (scalability) refere-se à propriedade de um sistema manter a eficiência quando o volume de computa¸cão aumenta.

Considerando um sistema com um processador assume-se uma eficiência de 100%, ou seja, a utiliza¸cão de um único processador é máxima. Frequentemente a zona de interesse tem in´ıcio imediatamente após p = 1.

A questão reside em saber quantos processadores poderão ser empregues antes que o sistema se torne ineficiente de forma inaceitável.

Existe uma causa principal para a dificuldade de obten¸cão na prática de um sistema escalar: o aumento do dom´ınio implica um aumento das necessidades de comunica¸cão de acordo com o algoritmo em causa. Com o crescimento do

número de processadores, a capacidade de comunica¸cão aumenta de acordo com a forma como os processadores estão interligados. O problema de balancear necessidade e capacidade de comunica¸cão com que anteriormente nos deparámos na maximiza¸cão da eficiência é acrescido caso se pretenda que o sistema seja também escalar.

E de referir a existência de algumas formas padronizadas de tentar manter a escalabilidade dum sistema através do controlo de outras métricas usadas na avalia¸cão do desempenho, como sejam isoeficiência, isomemória, isotempo e isovelocidade.

No documento Processamento em tempo-real de sinais doppler de fluxo sanguíneo (páginas 67-73)