Capítulo 2. Computação Numérica

(1)

Capítulo 2. Computação Numérica

Neste capítulo serão considerados alguns aspetos básicos relativos ao cálculo numérico, como as representações de números inteiros e reais em código binário, e análise e representação dos erros que podem ocorrer em consequência do uso das referidas representações de números.

1. Cálculo numérico

O Cálculo Numérico é uma metodologia para resolver problemas matemáticos através do computador, muito utilizada por engenheiros e cientistas. Uma solução obtida via Cálculo Numérico é sempre numérica, enquanto que os métodos analíticos fornecem normalmente o resultado em termos de funções matemáticas. Muito embora uma solução numérica seja uma aproximação do resultado exato, ela pode ser obtida com um elevado grau de exatidão. Uma solução numérica é calculada para problemas que não possuem solução analítica (comum nas equações diferenciais), embora os métodos analíticos forneçam, na maioria os casos, a resposta em termos de funções matemáticas. Mas, mesmo nestes casos, e quando o seu cálculo é muito caro (em tempo e recursos) pode-se obter uma solução numérica para o problema.

Para computar (calcular por meio de um computador) uma solução numérica, são necessárias operações aritméticas (adição, subtração, multiplicação e divisão) e lógicas (comparação, conjunção, disjunção e negação). Considerando que estas são as únicas operações matemáticas que os computadores são capazes de realizar, então os computadores e o Cálculo Numérico formam uma combinação perfeita. Refira-se que o primeiro computador de grande porte totalmente eletrónico, o ENIAC (Electronic Numerical Integrator And Calculator), foi projetado para realizar cálculos balísticos, e os maiores supercomputadores atuais estão dedicados a realizar cálculos numéricos.

2. Representação de números

2.1. Representação de números em diferentes bases

Nesta secção serão discutidos alguns métodos para a mudança de base na representação de números inteiros e reais. É comum, para grande parte dos computadores atuais utilizados na implementação computacional, o uso de uma base numérica distinta da base decimal. Em geral, os

(2)

números são armazenados na base 2 (binária), existindo ainda plataformas que os armazenam na base 8 (octal) ou na base 16 (hexadecimal). A representação de números inteiros é ligeiramente distinta da representação de números reais.

2.1.1. Representação de números inteiros

De uma forma geral, um número inteiro N é representado, na base b, por um conjunto de dígitos a_i, em que a_i = 0,1,…, b-1 e i assume um intervalo de valores que depende da base em uso. A tabela seguinte indica estes valores para as bases mais utilizadas (onde se inclui a base decimal).

b a_i

2 0,1

8 0, 1, 2, 3, 4, 5, 6, 7 10 0, 1, 2, 3, 4, 5, 6, 7, 8, 9

16 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F

Há pelo menos duas maneiras de se representar um número inteiro N: no sistema posicional e na forma polinomial.

No sistema posicional os dígitos são agrupados na forma de uma sequência, na qual a magnitude da contribuição de cada dígito no número depende da posição relativa que ocupa no número. Neste sistema, um número N é escrito com o seguinte formato:

N = (a_n a_n-1 ... a₁ a₀)_b

Na forma polinomial fica claramente explicitada a contribuição de cada dígito para o valor de um número. Nesta forma, um número N é escrito com o seguinte formato:

N = a_n bn_{+ a}

n-1 bn-1 + ... + a1 b + a0

Até aqui, N tem sido tratado de uma forma abstrata. No entanto, por uma questão evolutiva, N tende a ser visto como um número na base 10 (decimal),

N = (a_n a_n-1 ... a₁ a₀)  a_n a_n-1 ... a₁ a₀

Caso se passe a representar N sempre na base decimal, então deve-se abordar as outras representações do ponto de vista de conversões "de" ou "para" a base 10.

2.1.2. Representação de números reais

É importante conhecer como os números reais podem ser armazenados num computador. Um número real pode ser representado usando dois formatos:

➔com ponto fixo (por exemplo, 12.34);

➔com ponto flutuante ou vírgula flutuante (por exemplo, 0.1234x102_).

2.1.2.1. No formato com ponto fixo

Na representação de um número real X no formato com ponto fixo, X é composto por uma parte inteira Xi e uma fracionaria Xf, tal que Xf = X – Xi. Por exemplo: para X = 12.34, Xi = 12 e Xf = 0.34.

(3)

2.1.2.2. No formato com ponto flutuante

A forma geral de representação de um número real no formato com ponto flutuante é semelhante à notação científica:

 .d₁d₂d₃... d_p×be,

em que dk (k = 1, 2, ..., p) são os dígitos da parte fracionária (com dk  { 0, ..., b-1 } e d1 ≠ 0 (normalizado), b é o valor da base (geralmente 2, 8, 10 ou 16), p é o número de dígitos e e é um expoente inteiro. Deste modo, um número no formato com ponto flutuante é composto por três partes: o sinal, a parte fracionária (denominada também de significando ou mantissa) e o expoente. Estas três partes têm um comprimento total fixo que depende do computador e do tipo de número: precisão simples, dupla ou estendida.

Note-se que, como a forma de representação de um número em formato com ponto flutuante pode ser diferente entre os fabricantes de computadores, um mesmo programa implementado em computadores que utilizam formatos diferentes pode fornecer resultados diferentes. O formato utilizado pela maioria dos computadores é o proposto pelo Institute of Electrical and Electronics Engineers (IEEE), com o padrão IEEE 754 (tabela que se segue, para a base binária).

Propriedade Precisão

Simples Dupla Estendida

Comprimento total 32 64 80 bits na mantissa 23 52 64 bits no expoente 8 11 15 sinal 1 1 1 expoente máximo 127 1023 16383 expoente mínimo -126 -1022 -16382 maior número  3.40 x 1038 _{ 1.80 x 10}308 _{ 1.19 x 10}4932 menor número  1.18 x 10-38 _{ 2.123 x 10}-308 _{ 3.36 x 10}-4932

dígitos decimais (precisão) 7 16 19

2.1.3. Conversão de números inteiros

Considere-se a conversão de um inteiro da base decimal (b = 10) para a base binária (b = 2), uma vez que esta será a representação mais provável num computador. Para se realizar esta conversão de uma maneira prática, pode-se usar o método das divisões sucessivas, no qual N (na base decimal) e os sucessivos quocientes q_i são divididos por 2 (base binária), sendo guardados os restos r_i  { 0, 1 } até que o último quociente seja q_n = 1:

N = 2 q1 + r0; q1 = 2 q2 + r1; q2 = 2 q3 + r2; ... ; qn-1 = 2 qn + rn-1 O último quociente somente será 0 se N = 0 (q_n = 0  N = 0). Então,

(4)

N = q_n 2n_{+ r}

n-1 2n-1 + rn-2 2n-2 + ... + r1 21 + r0 20 (forma polinomial)

O mesmo método pode também ser utilizado para converter um número inteiro em decimal N para qualquer base b; divide-se N e os sucessivos quocientes q_i por b, guardando-se os restos ri  { 0, ..., b-1 } até que o último quociente seja um inteiro qn  { 1, ..., b-1 }:

N = b q₁ + r₀; q₁ = b q₂ + r₁; q₂ = b q₃ + r₂; ... ; q_n-1 = b q_n + r_n-1 O último quociente somente será 0 se N = 0 (q_n = 0  N = 0). Então,

N = (qn rn-1 ... r1 r0)b (sistema posicional) N = q_n bn_{+ r}

n-1 bn-1 + rn-2 bn-2 + ... + r1 b1 + r0 b0 (forma polinomial)

2.1.4. Conversão de números reais 2.1.4.1. No formato com ponto fixo

Para o estudo desta caso, considere-se a conversão de um real da base decimal para a base binária, sendo depois facilmente extensível para uma qualquer base. Dado um número real X, este possui uma parte inteira X_i e uma parte fracionaria X_f. Para se converter este número X na base binária utiliza-se o método das divisões sucessivas, para converter X_i (ver secção 2.1.3), enquanto que para converter X_f usa-se o método das multiplicações sucessivas.

O método das multiplicações sucessivas consiste em multiplicar-se X_f por 2, extraindo-se a parte inteira do resultado (que pode ser 0); o restante é novamente multiplicado por 2, repetindo-se o processo até que o resto fracionário seja 0 ou que se obtenha um padrão repetitivo, em cujo caso o número fracionário será periódico. Este método será ilustrado com dois exemplos.

Exemplo 1: Seja X_f = 0.8125; então 0.8125 x 2 = 1.6250; 0.6250 x 2 = 1.2500; 0.2500 x 2 = 0.5000; 0.5000 x 2 = 1.0000 Ou seja, 0.8125 = (0.1101)₂ . Exemplo 2: Seja X_f = 0.1; então 0.1 x 2 = 0.2; 0.2 x 2 = 0.4; 0.4 x 2 = 0.8; 0.8 x 2 = 1.6; 0.6 x 2 = 1.2; 0.2 x 2 = 0.4; ... e o processo de multiplicações sucessivas repete a sequência infinita de dígitos 0011. Portanto,

0.1 = (0.0001100110011...)₂.

Este caso mostra a dificuldade em se obter a representação de um número fracionário noutra base. Estes exemplos mostram que num computador, onde o espaço para representação de um número é finito, estes números terão que ser arredondados.

(5)

A forma polinomial de um número fracionário na base 2 é dada por: X_f = ₁ 2-1_{+ }

2 2-2 + 3 2-3 + ...

Portanto, um número real X = X_i + X_f pode ser representado na base 2 por X = a_n 2n_{+ a}

n-1 2n-1 + an-2 2n-2 + ... + a1 21 + a0 20 + 1 2-1 + 2 2-2 + 3 2-3 + ... X = (a_n a_n-1 ... a₁ a₀ . ₁ ₂ ₃ ...)₂.

2.1.4.2. No formato com ponto flutuante

Considere-se um hipotético computador com dois dígitos da parte fracionária (p = 2), base b = 2 e expoente e  { -1, 0, 1, 2 }. Como os números reais são normalizados, isto é, d1 ≠ 0, todos eles são representados por:

 .10₂×2e ou  .11₂×2e, e ∈ {−1, 0,1, 2}.

Considerando a conversão de binário para decimal de um número positivo menor do que 1, .10₂ = 1 × 2−1+0 × 2−2 = 1/ 2 + 0 = 1/2, e

.11₂ = 1 × 2−1+1 × 2−2 = 1/ 2 + 1/ 4 = 3/ 4,

então, os únicos números positivos representáveis neste computador são: .10₂×2−1 = 1/ 2 × 1/2 = 1/4 .11₂×2−1 = 3/ 4 × 1/ 2 = 3/8 .10₂×20 = 1/ 2 × 1 = 1/ 2 .11₂×20 = 3/ 4 × 1 = 3/4 .10₂×21 = 1/2 × 2 = 1 .11₂×21 = 3/ 4 × 2 = 3/ 2 .10₂×22 = 1/2 × 4 = 2 .11₂×22 = 3/4 × 4 = 3

O zero é representado de uma forma especial: todos os dígitos d_k da mantissa e do expoente são nulos (.00₂ x 20_{). O mais importante a reter relativamente aos números em formato com ponto} flutuante é que eles são discretos e não contínuos (como um número real definido na Matemática).

O conceito de existir sempre um número real entre dois números reais quaisquer não é válido para os números em formato com ponto flutuante.

As consequências da falha deste conceito podem ser desastrosas, como se poderá verificar no exemplo que se segue. Considere-se as seguintes representações em binário:

0.6₁₀ = 0.100110011001...₂ e 0.7₁₀ = 0.1011001100110...₂.

Se estes dois números forem armazenados naquele hipotético computador (com dois dígitos para a mantissa), eles serão igualmente representados por:

.10₂ x 20_.

Isto significa que tanto 0.6₁₀ como 0.7₁₀ são vistos como 0.5₁₀ por aquele computador. Esta é uma das grandes causas da ocorrência de erros de arredondamento nos processos numéricos.

(6)

2.1.5. Aritmética de ponto flutuante

Se uma operação aritmética resultar num número que seja maior, em valor absoluto, que o maior número representável, ocorrerá overflow. Se resultar num número que seja menor, em valor absoluto, que o menor número representável diferente de zero, ocorrerá underflow. O modo de tratar overflow e underflow dependerá do compilador utilizado para gerar o programa executável.

Para se analisar a precisão das operações numéricas envolvendo números em formato com ponto flutuante, considere-se um hipotético computador com dois dígitos (p = 2), base b = 10 e expoente e  {-5, …, 5}:  .d₁d₂ x 10e_.

Quando dois números são somados ou subtraídos, os dígitos do número de menor expoente são deslocados de modo a alinhar as casas decimais. O resultado é depois normalizado (o expoente é ajustado de forma que d1 ≠ 0) e arredondado para dois dígitos (o tamanho da mantissa é p = 2).

Exemplo 1: 4.32 + 0.064

Os números são armazenados no formato especificado, as casas decimais são alinhadas e a operação de adição é efetuada; o resultado é então normalizado e arredondado para dois dígitos:

4.32 + 0.064 = .43 x 101_{+ .64 x 10}-1 _{= .43} _{x 10}1 + .0064 x 101 = .4364 x 101  .44 x 101_. O resultado da adição é 4.4 em vez de 4.384.

Exemplo 2: 372 - 371

372 - 371 = .37 x 103_{- .37 x 10}3 _{= .37 x 10}3 - .37 x 103 = .00 x 103  .00 x 100_. O resultado da subtração é 0 em vez de 1.

A perda de precisão quando dois números aproximadamente iguais são subtraídos é das maiores fontes de erro nas operações de ponto flutuante.

Exemplo 3: 691 + 2.71

691 + 2.71 = .69 x 103_{+ .27 x 10}1 _{= .69} _{x 10}3 + .0027 x 103 = .6927 x 103  .69 x 103_.

(7)

O resultado da adição é 690 em vez de 693.71. O deslocamento das casas decimais de 2.71 causou uma perda total dos seus dígitos durante a operação.

Exemplo 4: 1234 x 0.016

Os números são armazenados no formato especificado e a multiplicação é efetuada utilizando 2p = 4 dígitos na mantissa; o resultado é então normalizado e arredondado para dois dígitos:

1234 x 0.016 = .12 x 104_{x .16 x 10}-1 _{= .12} _{x 10}4 x .16 x 10-1 = .0192 x 103  .19 x 102_. O resultado da multiplicação é 19 em vez de 19.744.

Exemplo 5: 875 x 3172

Os números são armazenados no formato especificado e a multiplicação é efetuada utilizando 2p = 4 dígitos na mantissa. O resultado é então normalizado e arredondado; e = 7 > 5  overflow:

875 x 3172 = .88 x 103_{x .32 x 10}4 _{= .88} _{x 10}3 x .32 x 104 = .2816 x 107

 overflow (e  {-5, …, 5}).

O resultado é superior ao maior número representável por este computador (e  {-5, …, 5}).

Exemplo 6: 0.00183  492

Os números são armazenados no formato especificado e a divisão é efetuada utilizando 2p = 4 dígitos na mantissa, o resultado é então normalizado e arredondado para dois dígitos:

0.00183  492 = .18 x 10-2_{ .49 x 10}3 _{= .18} _{x 10}-2  .49 x 103 = .3673 x 10-5  .37 x 10-5_.

Exemplo 7: 0.0064  7312

Os números são armazenados no formato especificado e a divisão é efetuada utilizando 2p = 4 dígitos na mantissa. O resultado é então normalizado e arredondado; e = -6 < -5  underflow:

0.0064  7312 = .64 x 10-2_{ .73 x 10}4 _{= .64} _{x 10}-2  .73 x 104 = .8767 x 10-6

 underflow (e  {-5, …, 5}).

O resultado obtido pela divisão é inferior ao menor número representável por este comutador (e  {-5, …, 5}), sem considerar o zero (que tem uma representação especial).

(8)

Uma das causas de ocorrência de erros quando se usam computadores deve-se à conversão de base. Geralmente um número é fornecido ao computador na base 10, mas é armazenado na base 2.

Para os números inteiros, a representação é exata, como por exemplo, 44₁₀ = 101100₂. Para um número real com parte fracionária pode resultar num número binário com infinitos dígitos (0.410 = 0.01100110...₂) que tem de ser arredondado para ser armazenado em formato com ponto flutuante.

2.2. Conversão de números na base b para a base decimal

2.2.1. Conversão de números inteiros

Para introduzir a conversão para a base decimal, será usada novamente a base binária como primeiro exemplo. Seja o número N, representado na base binária por

N = (a_m a_m-1 ... a₁ a₀)₂

a sua representação na base decimal pode ser obtida simplesmente pela soma do polinómio

N = a_m 2m_{+ a}

m-1 2m-1 + ... + a1 2 + a0

A operacionalização desta soma pode ser obtida pelo Algoritmo de Horner e pela Divisão de Ruffini.

2.2.1.1. Algoritmo de Horner

O número N pode ser obtido na base decimal através do cálculo da sequência: b_m = a_m b_m-1 = a_m-1 + 2 x b_m b_m-2 = a_m-2 + 2 x b_m-1 ... ... b₁ = a₁ + 2 x b₂ b₀ = a₀ + 2 x b₁ e então, N = b₀

Exemplo: seja o número (11101)₂. Aplicando o algoritmo de Horner:

b₄ = a₄ = 1 b₃ = a₃ + 2 x b₄ = 1 + 2 x 1 = 3 b₂ = a₂ + 2 x b₃ = 1 + 2 x 3 = 7 b1 = a1 + 2 x b2 = 0 + 2 x 7 = 14 b₀ = a₀ + 2 x b₁ = 1 + 2 x 14 = 29 e então, (11101)2 = 2910

(9)

Esta metodologia pode ser generalizada para converter qualquer número inteiro na base b para a base decimal. Considere o número

N = (a_m a_m-1 ... a₁ a₀)_b

a sua representação na base decimal pode ser obtida da seguinte forma: c_m = a_m c_m-1 = a_m-1 + b x c_m c_m-2 = a_m-2 + b x c_m-1 ... ... c₁ = a₁ + b x c₂ c₀ = a₀ + b x c₁ e então, N = c₀ 2.2.1.2. Divisão de Ruffini

É equivalente ao método anterior, diferindo apenas na disposição dos coeficientes a_i e b_i:

a_m a_m-1 _... a₂ a₁ a₀

2 2 x bm ... 2 x b3 2 x b2 2 x b1

b_m b_m-1 ... b₂ b₁ b₀

e então,

N = b₀

Exemplo: seja o número (11101)2. Aplicando a Divisão de Ruffini:

a₄ a₃ a₂ a₁ a₀ 1 1 1 0 1 2 2 x b_{2 x 1}4 2 x b_{2 x 3}3 2 x b_{2 x 7}2 _{2 x 14}2 x b1 b₄ b₃ b₂ b₁ b₀ 1 1 + 2 1 + 6 0 + 14 1 + 28 e então, (11101)₂ = 29₁₀

Esta metodologia pode ser generalizada para converter qualquer número inteiro na base b para a base decimal. Considere o número

(10)

a sua representação na base decimal pode ser obtida da seguinte forma: a_m a_m-1 _... a₂ a₁ a₀ b b x cm ... b x c3 b x c2 b x c1 c_m c_m-1 ... c₂ c₁ c₀ e então, N = c₀

2.2.2. Conversão de números reais fracionários

Considere um número fracionário com representação finita na base binária: X_f = (0.a₁a₂…a_n)₂ .

O seu valor na base decimal será dado por X_f = ₁ 2-1_{+ }

2 2-2 + … + n 2-n

Esta soma pode ser calculada diretamente ou utilizando qualquer um dos dois métodos enunciados na secção anterior (Algoritmo de Horner e Divisão de Ruffini) com algumas modificações.

2.2.2.1. Algoritmo de Horner

No caso de um número fracionário na base 2, o algoritmo fica bn = an b_n-1 = a_n-1 + (1/2) x b_n b_n-2 = a_n-2 + (1/2) x b_n-1 ... ... b₁ = a₁ + (1/2) x b₂ b₀ = (1/2) x b₁ e então, N = b₀

Exemplo: converter o número (0.10111)₂.

b₅ = a₅ = 1 b₄ = a₄ + (1/2) x b₅ = 1 + (1/2) x 1 = 3/2 b₃ = a₃ + (1/2) x b₄ = 1 + (1/2) x (3/2) = 7/4 b₂ = a₂ + (1/2) x b₃ = 0 + (1/2) x (7/4) = 7/8 b₁ = a₁ + (1/2) x b₂ = 1 + (1/2) x (7/8) = 23/16 b₀ = (1/2) x b₁ = (1/2) x (23/16) = 23/32 e então, (0.10111)2 = 23/32 = 0.71875

(11)

2.2.2.2. Divisão de Ruffini

No caso de um número fracionário na base 2, o algoritmo fica

a_n a_n-1 ... a₂ a₁

1/2 (1/2) x b_m ... (1/2) x b₃ (1/2) x b₂ (1/2) x b₁

bn bn-1 ... b2 b1 b0

E então,

N = b₀

Exemplo: Converter o número (0.10111)₂. Aplicando o algoritmo, fica:

a₅ a₄ a₃ a₂ a₁ 1 1 1 0 1 1/2 (1/2) x b5 (1/2) x b4 (1/2) x b3 (1/2) x b2 (1/2) x b1 (1/2) x 1 (1/2) x (3/2) (1/2) x (3/4) (1/2) x (7/8) (1/2) x (23/16) b₅ b₄ b₃ b₂ b₁ b₀ 1 1 + 1/2 1 + 3/4 0 + 7/8 1 + 7/16 23/32 1 3/2 7/4 7/8 23/16 23/32 E então, (0.10111)2 = 23/32 = 0.71875 2.2.3. Número binário infinito

Uma outra situação que pode ocorrer é quando o número binário for infinito; por exemplo, através de uma sequência de dígitos periódicos:

X_f=

₍

0,α₁α₂... α_n β₁β₂...β_m

₎

2

em que β₁β₂... β_m indica que a sequência de dígitos β₁β₂...β_m se repete infinitamente. Na base decimal, tal número é representado por

X_f = ₁ 2-1_{+ } 2 2-2 + … + n 2-n + b1 2-n-1 + b2 2-n-2 + … + bm 2-n-m + + b₁ 2-n-m-1_{+ b} 2 2-n-m-2 + … + bm 2-n-2m + + b1 2-n-2m-1 + b2 2-n-2m-2 + … + bm 2-n-3m + + . . .

Note-se que este número pode ser escrito como X_f = ₁ 2-1_{+ } 2 2-2 + … + n 2-n + ( b1 2-1 + b2 2-2 + … + bm 2-m ) 2-n + + ( b1 2-1 + b2 2-2 + … + bm 2-m ) 2-n-m + + ( b₁ 2-1_{+ b} 2 2-2 + … + bm 2-m ) 2-n-2m + + . . .

(12)

Ou seja,

X_f = ₁ 2-1_{+ }

2 2-2 + … + n 2-n + ( b1 2-1 + b2 2-2 + … + bm 2-m ) 2-n ( 1 + 2-m + 2-2m + … ) Usando agora a identidade,

1 / (1−x ) = 1 + x + x2 + x3 + ... (para |x| < 1) tem-se 1 + 2−m + 2−2m + 2−3m + ... = 1/(1 −2−m) = 2 m 2m−1 (fazendo x = 2 -m_), obtendo-se X_f=

(

α₁2−1 + α₂2−2 + ... + α_n2−n

)

+

(

β₁2−1 + β₂2−2 + ... + β_m2−m

)

2m−n 2m−1 .

As duas expressões entre parênteses têm a mesma forma e podem ser calculadas diretamente ou usando qualquer um dos métodos descritos anteriormente. Em geral, um número fracionário tem representação infinita periódica na base b da seguinte forma:

X_f=

(

α₁b−1 + α₂b−2 + ... + α_nb−n

)

+

(

β₁b−1 + β₂b−2 + ... + β_mb−m

)

bm−n bm−1

onde as expressões entre parênteses podem ser calculadas diretamente ou utilizando qualquer um dos métodos descritos anteriormente.

2.3. Operações com números em binário

Como a maioria dos computadores usa a base b = 2, então estes executam operações aritméticas com números que estão na representação binária. Para executar estas operações, as tabelas de operações que se seguem são automaticamente satisfeitas.

2.3.1. Adição binária

Uma adição no sistema binário é realizada da mesma forma que a adição no sistema decimal, lembrando que, no sistema binário, há apenas 2 dígitos. Esta operação é realizada de acordo com as seguintes regras (considerando os dois operandos positivos):

0 + 0 = 0 0 + 1 = 1 1 + 0 = 1

1 + 1 = 0 (e “vai 1” para o dígito de ordem superior) 1 + 1 + 1 = 1 (e “vai 1” para o dígito de ordem superior)

Para somar números com mais de 2 algarismos, utiliza-se o mesmo processo de transporte para a coluna posterior, usado na adição decimal. Ter, no entanto, atenção aos limites das palavras.

(13)

Exemplo 1: 101₂ + 011₂ = 1000₂ (5₁₀ + 3₁₀ = 8₁₀) [1] [1] [1] 1 0 1 + 0 1 1 1 0 0 0 Exemplo 2: 01₂ + 11₂ = 100₂ (1₁₀ + 3₁₀ = 4₁₀) [1] [1] 0 1 + 1 1 1 0 0 Exemplo 3: 1010₂ + 1111₂ = 11001₂ (10₁₀ + 15₁₀ = 25₁₀) [1] [1] [1] 1 0 1 0 + 1 1 1 1 1 1 0 0 1

Quando um dos operandos são números binários negativos, o processo a aplicar é o seguinte: ➔ dois operandos negativos: adicionam-se os dois números considerando o valor absoluto de

cada um deles e atribui-se o sinal de negativo;

➔ um deles é negativo: verifica-se qual dos dois números tem maior valor absoluto, subtraí-se o menor valor absoluto ao maior e, atribui-se o sinal do maior em valor absoluto.

2.3.2. Subtração binária

A subtração é análoga à adição, sendo realizada de acordo com as seguintes regras: 0 - 0 = 0

0 - 1 = 1 (e “pede emprestado 1” para o dígito de ordem superior) 1 - 0 = 1

1 - 1 = 0

Desta forma, a operação 0 - 1 resulta em 1, mas com o transporte de 1 para a coluna à esquerda, que deve ser acumulado ao subtraendo e, por consequência, subtraído do minuendo (em a-b, a o minuendo e b é o subtraendo). Exemplo 1: 101₂ - 011₂ = 010₂ (5₁₀ - 3₁₀ = 2₁₀) [1] 1 0 1 - 0 1 1 0 1 0

(14)

Exemplo 2: 111₂ - 100₂ = 011₂ (7₁₀ - 4₁₀ = 3₁₀) 1 1 1 - 1 0 0 0 1 1 Exemplo 3: 1010₂ - 1001₂ = 0010₂ (10₁₀ - 9₁₀ = 1₁₀) [1] 1 0 1 0 - 1 0 0 1 0 0 0 1 2.3.3. Multiplicação binária

Procede-se como numa multiplicação no sistema decimal, de acordo com as seguintes regras: 0 x 0 = 0

0 x 1 = 0 1 x 0 = 0 1 x 1 = 1

Utiliza-se o mesmo método que a multiplicação decimal: deslocamentos e adições. O número maior deve ser colocado por cima do menor.

Exemplo 1: 101₂ x 011₂ = 010₂ (5₁₀ x 3₁₀ = 15₁₀) 1 0 1 x 0 1 1 1 0 1 1 0 1 + 0 0 0 0 1 1 1 1 Exemplo 2: 110102 x 0102 = 1101002 (2610 x 210 = 5210) 1 1 0 1 0 x 0 1 0 0 0 0 0 0 1 1 0 1 0 + 0 0 0 0 0 0 1 1 0 1 0 0

(15)

Exemplo 3: 1010₂ x 1000₂ = 1010₂ (10₁₀ x 8₁₀ = 80₁₀) 1 0 1 0 x 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 + 1 0 1 0 1 0 1 0 0 0 0 2.3.4. Divisão binária

A divisão binária usa o mesmo método que a divisão decimal: deslocamento e subtrações.

Exemplo 1: 1010102  1102 = 1112 (4410  410 = 1110) [1] [1] [1] 1 0 1 0 1 0 1 1 0 - 1 1 0 1 1 1 0 1 0 0 1 - 1 1 0 0 0 1 1 0 - 1 1 0 0 0 0

2.4. Representação de números em computadores digitais

Nesta secção serão apresentadas algumas das representações usadas para armazenar números inteiros e reais na memória de um computador. As representações de números inteiros e reais apresentadas na secção anterior não são suficientes, pois é necessário distinguir-se, por exemplo, o sinal do número. Como não existe a representação de um sinal '+' ou '-' na memória de um computador, o recurso utilizado é acrescentar um bit, para computadores binários, ao número para representar o sinal; este bit é denominado bit de sinal.

2.4.1. Representação de números inteiros

Para representar um número inteiro num computador digital, existem várias formas, tais como a representação em Sinal-Módulo e em Complemento à base. A representação em complemento pode ser de dois tipos: em complemento a (b-1) e em complemento a b (em que b é a base).

2.4.1.1. Representação em Sinal-Módulo

A representação mais direta de números inteiros é a denominada Sinal-Módulo (também denominada por Sinal-Magnitude). Nesta representação, o valor absoluto do número inteiro é obtido diretamente a partir dos algoritmos discutidos na secção anterior, enquanto que o sinal é representado por um dígito adicional colocado à esquerda do número.

(16)

Quando a representação é binária, o bit de sinal ocupa a posição do bit mais significativo. Supondo que a memória do computador dispõe de q dígitos para a representação, um número inteiro na base b será representado no computador através da seguinte sequência de dígitos:

a_q-1 a_q-2 ...a₁ a₀

em que { a₀, a₁, …, a_q-2 }  { 0, 1, …, b-2, b-1 } e a_q-1  { 0, 1 } representa o sinal do número. Esta sequência de dígitos é denominada palavra. Por exemplo, no sistema binário convenciona-se usar a_q-1 = 0 para “+” e a_q-1 = 1 para “-”.

A conversão do número internamente representado por a_q-1 a_q-2 ...a₁ a₀ para o sistema decimal é realizado através de uma fórmula semelhante à forma polinomial:

N = (−1)aq−1×

∑

k=0 q−2

(

a_k×bk

)

, em que,

N o número inteiro na base decimal

q-2 é o índice do dígito mais à esquerda que representa o valor absoluto de N b a base, às vezes denominada de radix (um inteiro maior que 1)

a_k um dígito válido na representação (a_k  { 0, ..., b-1 }), k = 0, 1, …, q-2

a_q-1  { 0, 1 } e representa o bit de sinal

Os valores em questão para as quantidades expressas na fórmula anterior dependem da arquitetura e do compilador utilizado. Por exemplo, um dado compilador possui 4 modelos de representação de inteiros com 1, 2, 4 e 8 bytes, também denominados de espécies. Sendo para todos os casos b = 2, o valor absoluto do maior número inteiro que pode ser representado internamente para cada espécie N_maxp , (p = 1, 2, 4, 8) é, a partir da fórmula anterior,

N_maxp =

∑

k=0 8p−2 2k = 20+21+22+... + 28p−2 = 28p−1−1 =

{

127 (p=1) 32767 (p=2) 2147483647 (p=4) 9223372036854775807 (p=8) 2.4.1.2. Representação em complemento a b-1

A representação de números inteiros positivos em complemento a b-1 é idêntica à representação em Sinal-Módulo.

A representação dos números inteiros negativos é obtida efetuando-se: (b - 1) menos cada algarismo do número. Por exemplo, para calcular o complemento a b-1 do número -297₁₀ (como b = 10, então o complemento a b-1 será complemento a 9); como 999 - 297 = 702, o complemento a 9 do número -297 é 702.

Para se obter o complemento a b–1 de um número binário, deve-se subtrair cada algarismo de 1 (b - 1 = 1); no entanto, como se trata de números binários, para efetuar esta operação basta

(17)

inverter todos os bits. Por exemplo, o complemento a 1 (C1) do número 0011₂ (usando 4 dígitos) é 1100₂, pois 1111₂ – 0011₂ = 1100₂.

A quantidade de números inteiros diferentes que se podem representar usando n posições num sistema de base b é bn_{. Por exemplo, na base 2, podem-se representar os seguintes números: 2}1_{= 2} números com um dígito (0, 1), 22_{= 4 números com dois dígitos (00, 01, 10, 11), 2}3_{= 8 números com} três dígitos (000, 001, 010, 011, 100, 101, 110, 111), …

A tabela seguinte apresenta a representação em C1 dos números binários de 4 dígitos. Repare como o espaço de representação da base 2 com 4 dígitos está sendo usado na representação em C1 (note que há 2 representações para o zero).

Decimal

(positivo) (igual a sinal-módulo)Binário em C1 (negativo)Decimal Binário em C1

0 0000 0 1111 1 0001 -1 1110 2 0010 -2 1101 3 0011 -3 1100 4 0100 -4 1011 5 0101 -5 1010 6 0110 -6 1001 7 0111 -7 1000

A representação na base b = 10 com 3 dígitos varia de 000 a 999 (103_{= 1000 representações),} representando os números de -499 a -1 (faixa negativa que está compreendida entre 500 e 998) e de +1 a +499 (faixa positiva que está compreendida entre 1 e 499). O zero tanto pode ser representado por 000 como por 999.

A faixa de representação em C1 dos números binários com n dígitos é a seguinte: ➔ menor inteiro negativo: -(2n-1_{– 1),}

➔ maior inteiro positivo: 2n-1_{– 1.}

Na aritmética em complemento a b-1, basta somar os números, sendo que um número negativo será representado por seu complemento a b–1.

Por exemplo, a soma decimal de 123 com -418 é: Sinal-Módulo

-418 + 123 = -295 Complemento a 9 (b-1)

-418 é representado por 999 - 418 = 581 581 + 123 = 704

999 - 704 = 295, em que 704 é o C9 de -295 (704 está na faixa negativa).

De notar que nesta representação, a subtração (ou soma de um número positivo com um número negativo) transforma-se numa soma em complemento; isto é, a soma dos complementos do número

(18)

positivo com o número negativo. Portanto, uma subtração pode ser realizada simplesmente através da soma dos números “complementados”: manter o número se é positivo e complementar o número se é negativo; depois, é só somar.

Desta forma, pode-se constatar que o algoritmo da soma em complemento é muito mais simples que o da soma em Sinal-Módulo, uma vez que não requer nenhum teste. No entanto, continua-se com duas representações para o zero.

2.4.1.3. Representação em complemento a b

A representação de números inteiros positivos em complemento a b é idêntica às representações em Complemento a b-1 e à em Sinal-Módulo.

A representação dos números inteiros negativos em complemento a b é obtida subtraindo-se da base b cada algarismo do número. Por exemplo, na base b = 10 com 3 dígitos: 1000 – x. Uma forma alternativa é subtrair cada algarismo de (b – 1), isto é, calcular o complemento a (b -1), e depois somar 1 ao resultado. Ou seja, encontramos o complemento a (b - 1) do número (o que facilita muito no caso dos números binários) e depois soma-se 1 ao resultado.

Por exemplo, calcular o complemento a 10 (base = 10) do número 297₁₀ com 3 dígitos: ➔ usando C10: 1000 – 297 = 703;

➔ representar o número em C9 e somar 1 ao resultado: 999 – 297 = 702  702 + 1 = 703. Por exemplo, calcular o complemento a 2 (base = 2) do número 0011₂ com 4 dígitos:

➔ usando C2: 10000 – 0011 = 1101;

➔ representar o número em C1 e somar 1: 1111 – 0011 = 1100  1100 + 0001 = 1101.

Desta forma, para representar um número binário negativo em complemento a 2 (C2) consiste em subtrair cada algarismo de 1 (C1) e depois somar 1 ao resultado.

A tabela seguinte apresenta a representação em C2 dos números binários com 4 dígitos. Decimal

(positivo) (igual a sinal-módulo)Binário em C2 (negativo)Decimal Binário em C2

0 0000 -1 1111 1 0001 -2 1110 2 0010 -3 1101 3 0011 -4 1100 4 0100 -5 1011 5 0101 -6 1010 6 0110 -7 1001 7 0111 -8 1000

Comparando com a tabela anterior (para C1), nota-se que os números positivos têm a mesma representação de C1 e que o zero passou a ter apenas uma representação, o que permitiu representar mais um número (neste caso, mais um negativo pode ser representado).

(19)

A faixa de representação em C2 dos números binários com n dígitos é a seguinte: ➔ menor inteiro negativo: -2n-1,

➔ maior inteiro positivo: 2n-1_{– 1.}

Na aritmética em complemento a base, basta somar os números, sendo que um número negativo será representado pelo complemento a base. Deve-se ter, no entanto, cuidado com a possibilidade de acontecer overflow. Em qualquer sistema em C2, existe sempre um limite para o tamanho dos números a serem representados. Por exemplo, quando se usam palavras de 4 bits (um para o sinal), o valor 9 não tem associado qualquer palavra; por isso não se consegue uma resposta certa para a soma de 5 com 4 (0101 + 0100 = 1001 que é -7). A adição de dois números no sistema de representação em C2 segue duas regras:

1. Somar os dois números e observar se ocorre transbordo (vai 1) sobre o bit de sinal e se ocorre o transbordo após o bit de sinal.

2. Se ocorrer um e somente um dos dois transbordos, então houve overflow; caso contrário o resultado da soma está dentro do campo de definição.

As vantagens do uso do complemento de 2 é que existe apenas um zero e que as regras para soma e subtração são as mesmas. A desvantagem é o fato de ser um código assimétrico: o número de representações negativas é maior que o número de representações positivas. Por exemplo, com 8 bits podem-se representar, em complemento de 2, os números decimais entre -128 e +127.

A representação de um número inteiro num computador é exata. As operações aritméticas entre números inteiros também é exata, sob as seguintes condições:

a) o resultado não pode estar fora do intervalo de números inteiros que se podem representar; b) a divisão somente pode ser realizada entre números exatamente divisíveis (isto é, a parte

fracionária deve ser nula).

2.4.2. Representação de números reais

A representação de números reais em computadores denomina-se por representação de ponto flutuante normalizado, na qual um número é representado internamente através de uma notação científica: um bit de sinal s (interpretado como positivo ou negativo), um expoente inteiro exato e e uma mantissa inteira positiva M, sendo que apenas um número limitado de dígitos é permitido para e e M. Tomando todas estas quantidades juntas, estas representam o número

x = s × (0. d₁d₂... d_n) ×be

o qual está escrito numa forma legível para os seres humanos. Além das quantidades já definidas na fórmula anterior, os dígitos d₁, d₂, …, d_n são limitados pela base b (0  d_i b-1, i = 1, …, n e d ₁  0) e o expoente é limitado ao intervalo e  { e_min, ..., e_max }. Para além disso, n ≥ 1 é denominado de número de dígitos do sistema e define o tamanho da mantissa M = 0.d1d2...dn.

(20)

O valor zero não pode ser normalizado e tem representação especial, com mantissa nula (todos dígitos iguais a zero) e expoente o menor possível (m–1). O conjunto formado pelo zero e por todos os números em notação de ponto flutuante é chamado Sistema de Ponto Flutuante na base b com n algarismos significativos, e denota-se por F(b, n, emin, emax).

Contudo, um computador apenas pode representar os valores de e e M através de dígitos na base b. Um computador digital (b = 2), por exemplo, dispõe sempre de um tamanho de palavra finito, isto é, o número total de bits que podem ser utilizados para representar o sinal s (1 bit), o expoente e a mantissa é sempre fixo, para um dado tipo de números reais. Um número real de precisão simples, por exemplo, é normalmente representado por uma palavra de 4 bytes (32 bits), sendo que 1 bit é utilizado para representar o sinal, 8 bits são utilizados para representar o expoente e os restantes 23 bits para representar a mantissa. Desta forma, tal número será representado na memória do computador como

x = s e₇e₆... e₁e₀d₁d₂... d₂₂d₂₃, em que

s ,e₀,... ,e₇,d₁,...,d₂₃ ∈

{

0, 1

}

.

Exemplo: Considere-se dois números binários com 8 algarismos significativos em F(2, 8, -4, 5):

➔ n₁= 0 010 11100110₂ => (-1)0_{x 2}2_{x (0.11100110) = 3.59375} 10 ➔ n₂= 0 010 11100111₂ => (-1)0 x 22 x (0.11100111) = 3.609375₁₀.

Observe-se que, no sistema de representação utilizado, n₁e n₂ são dois números consecutivos, ou seja, não podemos representar nenhum outro número que tenha valor intermédio. Portanto, por exemplo, a quantidade 3.60000 não tem representação exata neste sistema, sendo representada por n₁ ou n₂, o que gerará um erro, denominado Erro de Arredondamento. Assim, enquanto os números reais podem ser representados por uma reta contínua, em notação de ponto flutuante apenas se podem representar pontos discretos da reta real.

A tabela que se segue ilustra representações de ponto flutuante para alguns números numa palavra típica de 32 bits (4 bytes), em F(2, 23, -128, 127).

número decimal (base 10)

binário (base 2)

s expoente de 8 bits Mantissa de 23 bits

1/2 0 00000000 (0) 10000000000000000000000

1/4 0 11111111 (-1) 10000000000000000000000

1 0 00000001 (1) 10000000000000000000000

(21)

A conversão de um número x representado na base b para a base decimal pode ser realizada pela seguinte fórmula polinomial:

x = (−1)s×be×

∑

k=1 n

(

d_k×b−k

)

.

No padrão IEEE 754, a sequência de 8 bits armazena o número E = e + 127. Desta forma, evita–se o teste sobre o valor do bit para saber se o número é positivo ou negativo e, para recuperar o expoente, é realizada a operação e = E − 127. Para se obter a forma como o expoente será armazenado pode-se também trabalhar na base 10 e converter depois o resultado final. Por exemplo, se e = 52₁₀ vai-se armazenar 127₁₀ + 52₁₀ = 179₁₀ = 10110011₂.

É importante destacar que as sequências de bits para o expoente "00000000" e "11111111" são reservadas para representar o zero e infinito (ou ocorrência de erro, NaN: not a number) respetivamente. O maior expoente é representado pela sequência 11111110₂ que, na base 10, representa o número (256 − 2)₁₀ = 254₁₀. Então o maior expoente é: 127 + e = 254 e = 254 − 127 =⇒ 127. O menor expoente é representado pela sequência 000000012 = 110. Daí que o menor expoente é: 127 + e = 1 e = 1 − 127 = −126.⇒

Considerando agora a representação da mantissa. Como no sistema normalizado d1 ≠ 0 e dado

que a base é 2, então primeiro dígito no sistema normalizado será sempre igual a 1 e por esta razão não é armazenado (é o denominado bit escondido). Esta normalização permite um ganho na precisão, pois pode-se considerar que a mantissa é armazenada em 24 bits.

A tabela seguinte mostra os valores de n, e_min, e_max, X_min, X_max e X_eps para um dado computador que usa o padrão IEEE 754.

Espécie REAL (4) REAL (8) REAL (10)

n emin e_max X_min X_max X_eps 23 -126 127 1.1754944 x 10-38 3.4028235 x 1038 1.1920929 x 10-7 52 -1022 1023 2.225073858507201 x 10-308 1.797693134862316 x 10308 2.220446049250313 x 10-16 64 -16382 16383 3.362103143112093506... x 10-4932 1.189731495357231765... x 104932 1.925929944387235853... x 10-34

(22)

Para uma base b qualquer, os números do sistema de ponto flutuante F = F(b, n, emin, emax)

contêm as seguintes características:

➔ O menor número positivo que pode ser representado neste sistema é x_min = 0.1 × bemin_.

Valores para x_min válidos para o compilador são apresentados na tabela anterior. Isto significa que qualquer número x tal que

−x_min < x < x_min

não poderá ser representado pelo computador. Esta ocorrência é denominada de underflow. Os compiladores podem ser instruídos para

- terminar o processamento neste ponto, disparando uma mensagem de erro, ou - então seguir o processamento arredondando x = 0.

➔ O maior número positivo que pode ser representado neste sistema é x_max = 0.(b−1)(b−1)...(b−1) n vezes ×bemax _{= (b−1)}

(

_∑

k=1 n b−k

)

bemax _{= (b−1)}

(

_{1 − b}−n

)

_bemax

Isto significa que qualquer número x tal que x < -xmax ou x > xmax

não poderá ser representado pelo computador. Esta ocorrência é denominada overflow. Os compiladores tomam normalmente duas possíveis providências quando detetam um overflow:

- param o processamento do programa emitindo uma mensagem de erro, ou

- continuam o processamento atribuindo a x o valor simbólico de -Infinito ou Infinito. ➔ O maior número que pode ser somado ou subtraído a 1.0, tal que o resultado permanece

inalterado (isto é, a diferença entre 1.0 e o número que lhe sucede em F), é x_eps = 0.10 ... 01

n vezes ×b

1₋_{0.1 0... 0 0} n vezes ×b

1 ₌ _b1−n

em que xeps é denominada de epsilon da máquina, , ou de ϵ precisão da máquina.

O epsilon da máquina, , também pode ser definido como o menor número de pontoϵ flutuante, tal que: 1 + > 1. Esta quantidade que, como se pode ver, depende da base e doϵ número de algarismos da mantissa, é da maior importância na análise de erros de arredondamento, como se verá mais adiante.

De uma forma mais geral, para um número em ponto flutuante x F define-se∈

ulp(x) = (0.00...01)b x be = b-n x be =  x be.

Em que ulp é a abreviatura para unit in the last place.

Se x > 0, então ulp(x) é a distância entre x e o número que lhe sucede em F; se x < 0, então ulp(x) é a distância entre x e o número que o antecede em F.

(23)

Uma aproximação para o epsilon da máquina de um sistema de ponto flutuante de base b pode ser calculada com o seguinte algoritmo (assumindo que o arredondamento é para o mais próximo):   1 fazer    / b   1 +  enquanto ( ≠ 1)

A interpretação é a seguinte: se x é uma potência negativa de b tal que x < ε então 1 + x = 1. O conhecimento de ε do sistema computacional ou máquina de calcular é fundamental. De facto, se considerarmos, por exemplo, a equação 1 + x = 1, esta admite muitas soluções em aritmética de ponto flutuante e não apenas x = 0.

➔ Apenas um conjunto finito R_F de números racionais podem ser representados na forma apresentada. Os números neste conjunto são denominados números de ponto flutuante. Para uma representação normalizada (d₁ ≠ 0), este conjunto contém precisamente

2(b−1) bn−1

₍

e_max−e_min+1

₎

+1 números racionais.

Exemplo:

Considere o sistema de representação numérica de ponto flutuante F(2, 4, -5, 6). Neste sistema, ➔ o menor número positivo possível é:

x_min = (0.1000)₂×2−5 = 2−5−1 = 1 64 logo, a região de underflow consiste no intervalo

− 1

64 < x < 164

➔ O maior número positivo possível é:

x_max = (0.1111)₂×26 =

(

1 − 2−4

)

×26 = 60; logo, as regiões de overflow consistem nos intervalos

x < −60 e x > 60.

➔ O maior número que pode ser somado ou subtraído de 1.0 e que mantém o resultado inalterado é:

x_eps = 21−4 = 2−3 = 1 8. ➔ O número de elementos em R_F é:

(24)

3. Análise e Representação de Erros

3.1. Teorema do Valor Médio

Para uma demonstração rigorosa da relação existente entre o crescimento ou decrescimento de uma função e o sinal da sua derivada, é necessário usar um resultado conhecido como Teorema do Valor Médio. Este teorema é um dos resultados mais importantes do cálculo diferencial, sendo usado, principalmente, na demonstração de outros teoremas.

O Teorema do Valor Médio é a tradução matemática para factos que aparecem de forma vulgar em muitas situações da vida real. Por exemplo, se a média da velocidade numa viagem de automóvel entre duas cidades é de 80 km/h, então em algum momento da viagem o velocímetro do automóvel deve ter marcado 80 km.

Vamos traduzir a afirmação anterior em termos matemáticos. Seja s(t) a posição do automóvel em cada instante de tempo t. Se a viagem começa em t = a (horas) e termina em t = b (horas), a velocidade média é dada por

v_m= s(b) − s(a) b − a .

A afirmação de que, em algum momento da viagem, a velocidade instantânea deve ser igual à velocidade média, significa que para algum instante de tempo c entre a e b tem-se

v_m= s(b) − s(a)

b − a = v (c) = s '(c).

O Teorema do Valor Médio estabelece as condições mínimas que uma função s deve satisfazer para que a igualdade acima seja verdadeira.

Antes de se enunciar o Teorema do Valor Médio, enuncie-se um dos seus casos particulares que ficou conhecido como teorema de Rolle (Michel Rolle, 1652-1719), que o demonstrou em 1690.

Teorema de Rolle

Considere-se uma função f satisfazendo as seguintes condições: 1) f é contínua no intervalo fechado [a, b]

2) f é derivável no intervalo aberto (a, b) 3) f(a) = f(b)

Então, existe um valor c em (a, b) tal que, f'(c) = 0.

O teorema de Rolle pode ser interpretado, geometricamente, da forma que a seguir se descreve. Seja f uma curva “suave” (contínua e derivável), não constante e que liga os pontos (a, f(a)) e (b, f(b)), tal que f(a) = f(b). Assim, se o gráfico de f sobe, então deverá descer, e vice-versa. Portanto, como a curva é “suave”, existe um ponto entre a e b onde o gráfico sofre uma inflexão (ponto de inflexão) e onde a reta tangente deve ser horizontal.

(25)

Teorema do Valor Médio

Considere-se uma função f satisfazendo as condições: 1) f é contínua no intervalo fechado [a, b]

2) f e derivável no intervalo aberto (a, b) Então, existe um número c em (a, b), tal que

f '(x) = f (b) − f(a) b − a

O Teorema do Valor Médio pode ser interpretado, em termos geométricos, da forma que se segue. Seja f é uma função

“suave” que liga os pontos A = (a, f(a)) e B = (b, f(b)). Então existe um ponto c, entre a e b, tal que a reta tangente ao gráfico de f em c é paralela à reta secante que passa por A e por B.

A partir do Teorema do Valor Médio pode-se enunciar vários outros resultados (corolários). Para os corolários que a seguir se enunciam, considere-se f e g contínuas no intervalo fechado [a, b] e deriváveis em (a, b).

Corolário 1 (Funções com derivada zero)

Se f'(x) = 0 em (a, b), então f é uma função constante em [a, b], isto é, existe um número real k, tal que, f(x) = k, qualquer que seja o ponto x de [a, b].

Corolário 2 (Funções com derivadas iguais)

Suponha que f'(x) = g'(x) para todo x no intervalo (a, b). Então, f e g diferem por uma constante, isto é, existe um número real k, tal que f(x) = g(x) + k, para todo x em [a, b].

Corolário 3 (Funções crescentes e decrescentes)

i) Se f'(x) > 0 para todo x em [a, b], então f é uma função crescente em [a, b]. ii) Se f'(x) < 0 para todo x em [a, b], então f é uma função decrescente em [a, b].

Corolário 4 (Teorema do valor médio generalizado)

Sejam f e g contínuas em [a, b] e deriváveis em (a, b) e suponha, além disso, que g'(x) ≠ 0 para a < x < b. Então, existe pelo menos um c em (a, b), tal que

f '(c) g '(c) =

f(b) − f(a) g(b) − g(a).

3.2. Fontes de erros e incertezas

Embora se procure sempre soluções “exatas” dos problemas reais, raramente este objetivo é atingido, devido há existência de erros e incertezas nos dados. Os erros e as incertezas nos dados podem ser introduzidos em cada etapa da formulação e da resolução dos problemas.

Aqui será abordada a natureza das incertezas que surgem quando se procura a solução de um problema. Serão também examinados, com um certo grau de detalhe, os erros introduzidos pela computação numérica, destinada a determinar a solução de um problema.

(26)

Neste documento, não serão considerados os erros triviais que podem ser evitados, tais como copiar uma fórmula incorretamente ou efetuar um erro de sintaxe na programação, embora tais erros ocorram e perfaçam uma fração considerável do esforço e do tempo despendidos em todo o processo de resolução de um problema matemático.

Desta forma, esta secção tratará apenas dos erros que resultam de forma inevitável, dada a própria natureza da representação finita de números num computador e/ou da implementação numérica de um determinado cálculo.

As incertezas introduzidas contaminam a solução e é importante tentar-se balanceá-las. Se a incerteza no modelo matemático é pequena, então não faz sentido a implementação de um modelo numérico e de um método que atinja muitos dígitos de precisão, por exemplo. No decurso do processo de resolução de um problema, as incertezas ocorrem em todas as fases deste processo.

3.3. Incerteza

A tomada de decisões num contexto de incerteza é certamente uma das situações mais frequentes em problemas reais, nomeadamente no planeamento de atividades em diversos campos. A incerteza é uma característica intrínseca dos problemas reais surgindo de múltiplas origens e possuindo natureza distinta.

A incerteza emerge da cada vez maior complexidade das interações no interior dos sistemas sociais, económicos e técnicos, caracterizados por uma rápida evolução tecnológica, alterações nas estruturas de mercado e de novas relações sociais. Geralmente, é impraticável que os modelos matemáticos possam capturar todos os fenómenos inter-relacionados relevantes presentes, chegar até toda a informação necessária e também dar conta das alterações e/ou hesitações relacionadas com a expressão das preferências de quem decide.

A incerteza pode ser proveniente de diversas fontes ou ser classificada em diferentes tipos, não sendo, em geral, adequado representar probabilisticamente todas as formas de incerteza associada a modelos matemáticos, nomeadamente se a informação disponível é para tal insuficiente. Um modelo matemático associado a um sistema real pode incluir vários tipos de incerteza, a qual pode ocorrer nos dados do modelo, na precisão do modelo usado para descrever o sistema, ou na sequência de possíveis acontecimentos que podem ocorrer num sistema de acontecimentos discretos. A importância da construção de modelos que incorporem explicitamente a incerteza está no facto de a maioria dos problemas reais não poderem ser modelados deterministicamente. Algumas razões da necessidade deste tipo de modelos são as seguintes:

1) a natural incerteza das previsões relativas ao futuro;

2) a impossibilidade de medir os conceitos do mundo real com a precisão exigida pelo modelo matemático;

3) a impossibilidade de implementar uma solução com a precisão obtida através do modelo matemático;

(27)

4) a natural e constante alteração do mundo real onde a solução é implementada;

5) o facto das expressões matemáticas associadas ao modelo serem apenas traduções aproximadas dos objetivos e das restrições do problema real.

Apesar de na literatura existir diversas classificações para a incerteza, esta pode ser classificada em dois tipos: aleatória e epistémica.

A incerteza aleatória descreve a variação associada ao sistema real, ou ambiente em consideração, em que esta variação é normalmente causada pela natureza aleatória dos dados associados ao problema, podendo ser representada matematicamente por uma distribuição de probabilidade, desde que os dados experimentais disponíveis sejam suficientes. Este é o tipo de incerteza que tem sido alvo de mais estudos, sendo uma propriedade inerente à modelação de sistemas (ou inserida no modelo para simular este comportamento) e que não pode ser reduzida.

A incerteza epistémica está associada a um certo nível de ignorância, ou informação incompleta, do sistema ou do ambiente que o rodeia. Este tipo de incerteza é usada para descrever qualquer falta de conhecimento ou informação numa qualquer fase ou atividade do processo de modelação do sistema.

As causas da incerteza influenciam o tipo de informação associada ao modelo usado no tratamento da incerteza para traduzir o sistema físico em análise. São várias e distintas as causas da incerteza: falta de informação, excesso de informação, provas em conflito, ambiguidade, medições e crença.

A falta de informação é provavelmente a causa mais frequente da incerteza. Existem situações em que um decisor não tem qualquer informação acerca de qual dos possíveis estados naturais irá ocorrer. Noutras, o decisor conhece apenas as probabilidades de ocorrência dos vários estados. Uma outra situação é aquela em que ninguém tem ou quer reunir informação suficiente para construir uma descrição exata do acontecimento, embora isto possa ser possível.

O excesso de informação deve-se ao facto de ser limitada a capacidade do Ser Humano em perceber e processar, simultaneamente, grande quantidade de dados. Em muitas situações, são disponibilizados mais dados do que aqueles que podem ser processados; noutras, os fenómenos que são transmitidos, definidos ou descritos com um grande número de características ou propriedades. Normalmente, estes dados são processados pelo analista que os transforma em dados percetíveis, ou que centra a sua atenção apenas nos aspetos que lhe parecem ser os mais importantes (que podem não ser para o decisor) e negligenciando todos os outros dados ou informação.

Podem existir várias classes de informação (importante) disponível sobre um mesmo sistema, mas em que cada uma delas aponta para diferentes comportamentos do sistema (provas em conflito). Este conflito pode acontecer devido ao facto de parte da informação disponível ao analista estar errada (mas não identificável como tal por ele), das características da informação serem irrelevantes para o sistema, do modelo que o analista tem do sistema ser incorreto, etc..

(28)

Se numa situação certas informações (por exemplo, linguísticas) têm significados totalmente diferentes ou têm uma correspondência de um para vários (matematicamente falando), então diz-se que existe ambiguidade. Todas as linguagens contêm palavras que, por diversas razões, têm diferentes significados em diferentes contextos.

O termo medição é aqui usado no sentido de “medição em engenharia”, isto é, instrumentos para medição de aspetos físicos, tais como peso, temperatura, altura, etc.. No entanto, se uma dada propriedade exata não puder ser medida com precisão, tem-se alguma incerteza relativamente à medição real, conhecendo-se apenas uma medida indicativa.

Em todas as causas da incerteza já referidas, a informação disponível ao analista é objetiva. No entanto, existem situações em que a informação disponível é subjetiva, as quais são classificadas segundo um tipo de crença numa certa circunstância. Estas situações são, talvez, as mais duvidosas de todas, pois também podiam ser classificadas como “falta de informação” no sentido objetivo.

3.4. Precisão e exatidão

A precisão refere-se ao quão próximo um número representado pelo computador representa o número que ambiciona representar. A precisão de um número é caracterizada pelo número de dígitos usados na representação e na álgebra. Assim, a constante  será representada com maior precisão utilizando 8 bytes do que utilizando 4 bytes, para armazenar o número.

A exatidão refere-se a quão próximo um número representado pelo computador (como resultado de uma série de operações, por exemplo) está do valor correto do número que ele almeja representar. A exatidão é caracterizada pelos erros (de truncatura e de arredondamento) no método numérico utilizado. Assim, se os números ₁ = 3.1416304958 e ₂ = 3.1415809485 almejam representar o mesmo número  = 3.141592654…, o número ₂ possui maior exatidão do que ₁, embora ambos possuam a mesma precisão.

Os conceitos de precisão e exatidão são muitas vezes confundidos entre si. É frequente, em linguagem coloquial, referir-se à precisão quando na verdade o correto seria referir-se à exatidão de um resultado. Mais adiante, indica-se como se pode medir a exatidão de um número através do cálculo dos erros absoluto e relativo do mesmo.

3.5. Tipos de erros

Durante as etapas de resolução de um problema, surgem erros de várias origens que podem alterar profundamente os resultados (soluções) obtidos. É de importância fundamental conhecer as causas desses erros para minimizar as suas consequências.

Em função da origem dos erros, pode-se considerar dois tipos: a) erros exteriores ao processo de cálculo, e

(29)

Os erros exteriores ao processo de cálculo podem ser

- iniciais (associados aos dados e aos parâmetros do modelo),

- de modelação (inerentes à construção dos modelos matemáticos), e - grosseiros (inerentes à elaboração e implementação dos algoritmos); Os erros que ocorrem durante o processo de cálculo podem ser

- de arredondamento (inerentes à representação de entidades numéricas nas máquinas e às operações que um computador pode realizar), e

- de truncatura (associados ao uso de métodos numéricos).

Como consequência da ocorrência destes erros, as soluções numéricas obtidas são, em geral, soluções aproximadas.

Definição do Problema 

Modelo Matemático  Erros de Modelação

 

Erros Iniciais  Dados e Parâmetros_{do Modelo} Método Numérico  Erros de Truncatura

 

Cálculo da Solução  Erros Grosseiros

 Erros de Arredondamento 

Análise da Solução

Erros nas diversas etapas do processo de resolução de um problema.

3.5.1. Erros iniciais (nos dados do modelo)

Num modelo matemático é muitas vezes necessário usar dados e parâmetros obtidos através de medidas experimentais, os quais são traduzidos com valores aproximados. As aproximações nos dados e parâmetros podem ter grande influência no resultado final.

Pode ocorrer que os dados sejam obtidos com pouca exatidão, sendo necessária a realização de testes para verificar o quanto os resultados são sensíveis às alterações dos dados fornecidos (análise de sensibilidade). Grandes alterações nos resultados devido a pequenas variações nos dados são sintomas de um mal condicionamento do modelo proposto, havendo então necessidade de uma nova modelação do problema. Um modelo matemático cuja solução obtida (resultados) é muito sensível a pequenas variações nos dados e nos parâmetros do modelo diz-me mal condicionado; por outro lado, diz-me bem condicionado se pequenas variações nos dados e parâmetros induzem sempre pequenas variações na solução.

(30)

3.5.2. Erros de modelação (ou de formulação)

Um modelo matemático raramente oferece uma representação exata dos fenómenos reais. Desta forma, na maioria dos casos são apenas modelos idealizados, uma vez que estudar os fenómenos da natureza implica, geralmente, aceitar-se certas condições que simplificam o problema real para o tornar resolúvel. Desta forma, pode ocorrer uma modelação incorreta, em que uma ou várias das expressões matemáticas associadas ao modelo não reflitam adequadamente o fenómeno real. Os melhores modelos são os que incluem as características do problema real necessárias para reduzir os erros a um nível aceitável.

Os erros de modelação estão também relacionados com uma certa tendência de alguns analistas não completarem, com algum rigor, o modelo matemático. Nesta situação, deve-se ter consciência do facto de que se está a trabalhar com um modelo mal construído e não adequado ao problema real. Desta forma, nenhum método numérico poderá originar resultados precisos.

3.5.3. Erros grosseiros

Apesar da probabilidade de um computador cometer um erro ser muito baixa, podem ser cometidos erros na elaboração do algoritmo, na sua implementação, na introdução dos dados iniciais e/ou na definição dos parâmetros do modelo.

Por outro lado, executar o programa com dados iniciais cujos resultados (solução) são conhecidos, ajuda a detetar erros e a removê-los, mas demonstra, apenas, que o programa está correto para aquele conjunto de dados; por isso, é que estes dados devem ser específicos.

3.5.4. Erros de arredondamento

Qualquer que seja o processo de obtenção dos cálculos, manual ou computacionalmente, há a necessidade de utilizar uma aritmética de precisão finita, ou seja, apenas se pode ter em consideração um número finito de dígitos na parte decimal dos valores envolvidos. O erro devido a desprezar os outros dígitos e arredondar o número, é designado por erro de arredondamento.

De facto, um qualquer número decimal, por exemplo 0.4₁₀ (base 10), não pode ser representado exatamente num computador porque tem que ser convertido em binário (base 2) e armazenado num número finito de bits. O erro causado por esta imperfeição na representação de um número é o erro de arredondamento.

3.5.5. Erros de truncatura

Muitas equações têm solução que apenas podem ser construídas de forma a que um processo infinito possa ser descrito como limite da solução do problema em análise. Por definição, um processo infinito não pode ser completado, pelo que tem de ser truncado após um determinado número finito de operações. Esta substituição, de um processo infinito por um finito, resulta num

(31)

O erro de truncatura é pois, devido à aproximação de um problema por outro, como, por exemplo, a substituição de um problema contínuo por um discreto. É sabido que, para avaliar uma função matemática no computador, apenas podem ser requeridas as operações aritméticas e lógicas, por serem as operações que ele é capaz de efetuar.

Por exemplo, para avaliar f(x) = sen(x) esta tem que ser aproximada por uma série, tal como sen(x) =

_∑

n=0 ∞ (−1)n x2n+1 (2n+1)! = x − x3 6 + x5 120− x7 5040+... , 0 ≤ x ≤ π4. À medida que n aumenta, mais o valor da série se aproxima do valor real.

A tabela que se segue mostra a diferença entre o valor obtida pela série de sen(x) e um valor mais exato, para n até 2, 3 e 4. Quando n aumenta, o erro de truncatura diminui, ficando claro que estes erros são devidos às várias truncaturas da série (ver tabela que se segue).

∑

n=0 ∞ (−1)n x2n+1 (2n+1)! − sen(x ) x t = 2 t = 3 t = 4 0 0 0 0 /16 2.4 x 10-6 _{2.2 x 10}-9 _{1.2 x 10}-12 /8 7.8 x 10-5 _{2.9 x 10}-7 _{6.1 x 10}-10 /6 3.3 x 10-4 _{2.1 x 10}-6 _{8.1 x 10}-9 /4 2.5 x 10-3 _{3.6 x 10}-5 _{3.1 x 10}-7

3.6. Valores aproximados e erros

Ao resolver um problema numérico no computador obtém-se, em geral, um valor aproximado da solução exata do problema. Assim sendo, é importante poder avaliar-se a qualidade da aproximação, isto é, estimar ou limitar a discrepância entre a solução aproximada calculada e a solução exata. Esta qualidade pode ser medida através do cálculo dos erros absoluto e relativo.

3.6.1. Erro absoluto

Seja X o valor exato de um número e fl(X) o seu valor aproximado por uma representação de ponto flutuante. O erro absoluto (EA_X) é definido como o valor absoluto da diferença entre o valor exato e o valor aproximado:

EAX = | X - fl(X) |.

Ou seja, conhecendo-se fl(X) e EA_X, pode-se afirmar que X = fl(X)  EA_X.

Como para a maior parte dos problemas X é desconhecido, não é possível calcular o erro absoluto, sendo apenas possível estimar-se o seu valor.