Convergˆ encia do M´ etodo do Gradiente Conjugado

Vamos agora provar uma série de resultados com o objetivo principal de demonstrar o fato mencionado acima que cki= 0 para todo i = 1, . . . , k − 1 e também que o método do gradiente conjugado converge em

aritm´etica exata em precisas n itera¸c˜oes para uma matriz de tamanho n.

5.33 Defini¸c˜ao. Dada uma matriz A ∈ Mn(C) e um vetor v ∈ Cn, o espa¸co de Krylov Kj(A, v) ´e o

5.34 Teorema. Depois de j itera¸c˜oes do algoritmo do gradiente conjugado (com rk 6= 0 em cada itera¸c˜ao), temos

p0_{, p}1_{, . . . , p}j−1_{= r}0_{, r}1_{, . . . , r}j−1₌_K

j A, r0 .

Prova: A demonstra¸cão é por indu¸cão. O resultado é trivial para j = 0, pois p0_{= r}0_{. Assuma o resultado}

v´alido para j − 1. Em primeiro lugar, mostraremos que r0_{, r}1_{, . . . , r}j_⊂_K

j+1 A, r0 . (5.83)

Em vista da hip´otese de indu¸c˜ao, basta mostrar que rj _∈ _K

j+1 A, r0. Como rj = rj−1− αj−1Apj−1 e

rj−1 _∈_K

j A, r0 ⊂ Kj+1 A, r0 por hip´otese de indu¸c˜ao, basta provar que Apj−1 ∈Kj+1 A, r0. Mas,

também por hipótese de indu¸cão, pj−1_∈_K

j+1 A, r0, logo

Apj−1∈Kj A, Ar0 = Ar0, A2r0, . . . , Ajr0 ⊂ r0, Ar0, A2r0, . . . , Ajr0 =Kj+1 A, r0 .

Em seguida, mostraremos que

p0_{, p}1_{, . . . , p}j_{⊂ r}0_{, r}1_{, . . . , r}j_. _(5.84)

Por hip´otese de indu¸c˜ao, basta provar que pj _∈_r0_{, r}1_{, . . . , r}j_{. Isso segue de (}_5.76_{) e da hip´}_{otese de indu¸}_c˜_ao.

At´e aqui provamos que

p0_{, p}1_{, . . . , p}j_{⊂ r}0_{, r}1_{, . . . , r}j_⊂_K

j+1 A, r0 . (5.85)

Para provar que eles são iguais, basta mostrar que eles têm a mesma dimensão. Isso decorre de dimr0, r1, . . . , rj 6 j + 1,

dimKj+1 A, r0 6 j + 1

dimp0, p1, . . . , pj = j + 1,

o último porque os vetores p0, p1, . . . , pj são vetores n˜_{ao-nulos A-ortogonais.} 5.35 Corolário. Depois de j itera¸cões do algoritmo do gradiente conjugado, temos

ej ⊥AKj A, r0

para todo j.

Prova: Segue imediatamente do teorema anterior e do Teorema5.32_.

5.36 Corol´ario. Depois de j itera¸c˜oes do algoritmo do gradiente conjugado, temos rj ⊥Kj A, r0

para todo j.

Prova: Em vista do Teorema5.34, basta provar que rj⊥ p0_{, p}1_{, . . . , p}j−1_{para todo j. Como Ae}j+1_{= r}j+1_,

rj+1_{, p}i_{= Ae}j+1_{, p}i_{= e}j+1_{, p}i

A= 0

para todo i = 1, . . . , j − 1, como vimos na demonstra¸c˜ao do Teorema5.32_.

Prova: Temos que provar que

rk+1_{, p}i

A=r

k+1_{, Ap}i_{= 0}

para todos i = 1, . . . , k − 1. Pelo Teorema 5.34, pi ∈p0_{, p}1_{, . . . , p}i_{= r}0_{, Ar}0_{, . . . , A}i_{r =} _K

i+1 A, r0,

logo

Api∈Ar0_{, A}2_r0_{, . . . , A}i+1_{r ⊂}_K

i+2 A, r0 ⊂Kk+1 A, r0

e o resultado segue do corol´_{ario anterior.}

5.38 Teorema. Seja A uma matriz simétrica positiva definida n×n. Então o método do gradiente conjugado converge em n itera¸cões.

Prova: Se fizemos n − 1 itera¸c˜oes em obter x, pelo Corol´ario 5.37os vetores r0_{, r}1_{, . . . , r}n−1 _{formam uma}

base ortogonal para Rn_{. Depois de mais uma itera¸}_c˜_{ao, de acordo com este mesmo corol´}_{ario o res´ıduo r}n

satisfaz rn_⊥_r0_{, r}1_{, . . . , r}n−1_{= R}n_{, logo r}n

= 0.

De fato, na maioria das aplica¸cões o método do gradiente conjugado converge ainda mais rápido, se apenas uma boa aproxima¸cão é requerida. Defina o número de condi¸cão de uma matriz simétrica positiva definida por

κ (A) = max {λ : λ ´e um autovalor de A}

min {λ : λ é um autovalor de A}; (5.86) assim, quanto maior o número de condi¸cão de uma matriz, ela é mais mal-condicionada e a convergência de métodos de descida é mais vagarosa. Pode-se provar a seguinte estimativa de erro para o método do gradiente conjugado (veja [Strikwerda]):

ek _A6 2 e0 _A p κ (A) − 1 pκ (A) + 1 !k . (5.87)

Esta estimativa é uma estimativa grosseira, mas mostra que o método do gradiente conjugado converge mais rapidamente para matrizes bem-condicionadas (κ (A) ∼ 1). Uma compara¸cão entre a velocidade de convergência dos dois métodos para a matriz de discretiza¸cão da fórmula de cinco pontos aplicada ao problema descrito na primeira se¸cão deste cap´ıtulo, desta vez com o tamanho das matrizes indicado na linha superior da tabela, é dada a seguir [Watkins].

n = 81 n = 361 n = 1521 Descida Mais Acentuada 304 1114 4010

Gradiente Conjugado 29 60 118

No caso desta matriz de discretiza¸c˜ao no quadrado unit´ario temos

κ (A) = sen2(n − 1) π 2n sen2 π 2n = cot2 π 2n = cot 2π∆x 2 ≈ 4 π2_∆x2 de modo que pκ (A) − 1 pκ (A) + 1≈ 1 − π∆x/2 1 + π∆x/2≈ 1 − π∆x,

o que dá uma velocidade de convergência para o método do gradiente conjugado duas vezes maior que a do método SOR com o fator de relaxamento ótimo. No entanto, deve-se ter em mente que enquanto que a taxa de covergência que obtivemos para o método SOR é precisa, a estimativa de erro (5.87) para o método do gradiente conjugado é apenas um limitante superior grosseiro (veja [Watkins] para algumas estimativas melhoradas).

Cap´ıtulo 6

M´etodos Multigrid

Neste cap´ıtulo consideraremos o método multigrid, que é o método mais rápido para resolver equa¸cões el´ıpticas em geral. Embora o método possa ser empregado em malhas de elementos finitos e volumes finitos também, neste cap´ıtulo consideraremos o seu emprego apenas em malhas de diferen¸cas finitas para a equa¸cão de Poisson no quadrado. A tabela a seguir (adaptada de [TOS]) compara o custo de processamento em uma máquina serial de alguns dos métodos mais populares para resolver sistemas lineares que surgem na discretiza¸cão do problema de Poisson (à exce¸cão do método de elimina¸cão gaussiana cujo custo de armazenamento é O n2, todos os demais métodos tem custo de armazenamento O (n)). Como estamos comparando métodos diretos (elimina¸cão gaussiana e transformada de Fourier rápida (FFT) ) com métodos iterativos (todos os demais), assumimos um único critério de parada para os vários métodos iterativos; se o critério de parada for escolhido da ordem do erro de discretiza¸cão da malha, um fator O (log n) deve ser multiplicado para todos os métodos iterativos, à exce¸cão do multigrid completo.

Método número de opera¸cões (2D; n = N2₎

Elimina¸c˜ao Gaussiana O n3 Jacobi O n2 Gauss-Seidel O n2 SOR O n3/2 Gradiente Conjugado O n3/2 FFT O (n log n) Multigrid iterativo O (n) Multigrid completo O (n)

A idéia do método multigrid é baseada em dois princ´ıpios: suaviza¸cão do erro e a sua corre¸cão em um grid mais grosseiro (menos refinado). Estes princ´ıpios serão explicados em detalhes nas próximas se¸cões.

Em linhas gerais, a idéia básica é eliminar os componentes de alta freqüência do erro em uma malha refinada. Para que isso ocorra, é necessário que estes componentes de alta freqüência correspondam aos menores autovalores da matriz de itera¸cão porque, como vimos no cap´ıtulo anterior, estes são eliminados rapidamente pelos métodos iterativos lineares (a velocidade de convergência de cada método é dada pelo raio espectral da matriz de itera¸cão, que corresponde ao valor absoluto do maior autovalor |λ1| < 1, enquanto

que as componentes do erro correspondentes aos menores autovalores λj convergem para zero muito mais

rapidamente (|λj/λ1| 1); isso significa que este m´etodo iterativo suaviza o erro, pois quanto maior a

influência das componentes de maior freqüência (maior oscila¸cão), menos suave é a fun¸cão. Aqui é útil fazer uma analogia com a série de Fourier: é exatamente a presen¸ca de componentes de oscila¸cão arbitrariamente maior que permite que a série convirja para uma fun¸cão não diferenciável, ou mesmo descont´ınua; se a série for truncada a qualquer momento o resultado é sempre uma fun¸cão suave, pois é a combina¸cão linear finita de autofun¸cões suaves. Esta visualiza¸cão também permanece verdade para fun¸cões discretizadas em

malhas de diferen¸cas finitas escritas como uma combina¸cão linear das autofun¸cões da matriz de itera¸cão nesta malha: mesmo que o número de componentes da fun¸cão seja finito, porque a malha é discreta a presen¸ca de componentes de alta oscila¸cão dão origem a um gráfico com um aspecto escarpado, não suave.

Assim, como o nosso objetivo é eliminar apenas as componentes de alta freqüência do erro, e não todo o erro, poucas itera¸cões do método iterativo são necessárias nesta malha refinada, onde o custo computacional é alto (malhas muito refinadas significa que elas possuem muitos pontos, o que por sua vez implica em matrizes de discretiza¸cão muito grandes). Ocorre que algumas autofun¸cões de freqüência baixa em uma malha mais refinada correspondem a autofun¸cões de freqüência alta em uma malha mais grosseira (como veremos). Uma vez tendo eliminado as componentes de alta freqüência do erro na malha mais refinada, tendo deixado as componentes de baixa freqüência praticamente intocadas, transferimos o problema para uma malha mais grosseira, cujos componentes de alta freqüência do erro correspondem a alguns dos componentes de baixa freqüência do erro na malha mais refinada anterior, que não puderam ser eliminados com as poucas itera¸cões do método iterativo permitidas na malha mais refinada. Com poucas itera¸cões do método iterativo nesta malha mais grosseira, estes erros também são rapidamente eliminados, a um custo computacional mais baixo do que se tivéssemos tentado eliminá-los ainda na malha mais refinada. Este processo é a corre¸cão do erro em uma malha mais grosseira. Ele é repetido em malhas cada vez mais grosseiras até que todo o erro é eliminado, a um custo computacional muito mais baixo do que se tivéssemos trabalhado sempre na malha mais refinada original.

6.1 A Malha de Multigrid

A discretiza¸c˜ao uniforme do problema de Poisson

−∆u = f em Ω, u = 0 sobre ∂Ω, onde Ω = (0, 1)2_{⊂ R}2_´_{e o quadrado unit´}_{ario, ser´}_{a denotada por}

−∆huh= fh em Ωh,

uh= 0 sobre ∂Ωh,

(6.1) onde uhcomo usual denota a solu¸cão do problema discretizado (aproxima¸cão da solu¸cão exata), fh a discre-

tiza¸c˜ao da fun¸c˜ao f em Ωh, h = 1 n, (6.2) Ωh= {(x, y) ∈ Ω : (x, y) = (ih, jh) , 1 6 i, j 6 n − 1} , ∂Ωh= {(x, y) ∈ ∂Ω : (x, y) = (ih, jh) , i = 0 ou i = n e 0 6 j 6 n; j = 0 ou j = n e 0 6 i 6 n} e − ∆huh= 1 h2   −1 −1 4 −1 −1   (6.3)

ou, em outras palavras, −∆huh=

−uh(xi−1, yj) − uh(xi+1, yj) + 4uh(xi, yj) − uh(xi, yj−1) − uh(xi, yj+1)

h2 ,

com (xi, yj) = (ih, jh), é o operador de discretiza¸cão dado pela fórmula dos cinco pontos. Denotaremos

usualmente a solu¸cão aproximada uh na itera¸cão k (ou seja, uma aproxima¸cão da solu¸cão discretizada, de

acordo com o m´etodo iterativo utilizado) por

de modo que o erro do método iterativo na itera¸cão m é dado por

em_h (xi, yj) = uh(xi, yj) − umh (xi, yj) . (6.5)

Em geral, tomaremos n par, ou mesmo n = 2p _{para algum p. Assim, uma malha Ω}

h ´e mais refinada que

uma malha Ω2h (esta é mais grosseira que a primeira). Temos uma seqüência de malhas progressivamente

mais grosseiras:

Ωh⊂ Ω2h⊂ Ω4h⊂ . . . ⊂ Ω2p_h= Ω₁,

onde Ω1 possui apenas uma c´elula.

No documento Notas de Aula. Equações Diferenciais Numéricas (páginas 126-131)