MÉTODOS ITERATIVOS PARA SISTEMAS LINEARES

(1)

UNIVERSIDADE FEDERAL DE SANTA CATARINA Centro de Ciˆencias F´ısicas e Matem´aticas

Curso de Licenciatura em Matem´atica

M ´ETODOS ITERATIVOS PARA SISTEMAS LINEARES

Autora: Ivandra Kremer

Orientador: Prof. Dr. Paulo Rafael B¨osing Florian´opolis

Fevereiro 2009

(2)

Ivandra Kremer

M´etodos Iterativos para Sistemas Lineares

Trabalho acadêmico de graduação apresentado

à disciplina Trabalho de Conclusão de Curso II, do Curso de Matemática - Habilitação Licenciatura, do Centro Ciências F´ısicas e Matemáticas da Universidade Federal de Santa Catarina

Professora: Carmem Suzane Comitre Gimenez

Florian´opolis Fevereiro 2009

(3)

Agradecimentos

Nestes cinco anos de muitos aprendizados gostaria de agradecer a muitas pessoas que estiveram do meu lado: À Deus, pela oportunidade de desfrutar das maravilhas do aprender e ter confiado a mim a tarefa de ensinar. Ao meu orientador Paulo, pelo incentivo, apoio, compreensão e por acreditar e acompanhar cada passo do meu trabalho. Ao meus avós, por me acolheram em sua casa, e me incentivaram nos momentos em que precisei. A minha fam´ılia, pelo incentivo dado em todos os momentos de minha vida.

Ao meu namorado Marcos, pelo companheirismo, incentivo e compreens˜ao. E aos meus amigos, que me incentivaram nas horas

mais dif´ıc´eis e tornaram estes cinco anos inesquec´ıveis.

(4)

(5)

Sum´ario

1 Noções Básicas 8

2 M´etodos Iterativos 14

2.1 Processos Estacion´arios . . . 14

2.1.1 M´etodo de Jacobi . . . 17

2.1.2 M´etodo de Gauss-Seidel . . . 18

2.1.3 Convergˆencia dos M´etodos . . . 20

2.2 Processos de Relaxac¸˜ao . . . 23

2.2.1 Princ´ıpios Básicos do Processo de Relaxação . . . 26

2.2.2 M´etodo dos Gradientes . . . 27

2.2.3 M´etodo dos Gradientes Conjugados . . . 28

3 Aplicações dos Métodos Iterativos 33

Referˆencias Bibliogr´aficas 47

(6)

Introduc¸˜ao

Os métodos iterativos foram muito utilizados durante o séculoXX, por causa dos avanços tecnológicos. Estes métodos servem para resolver sistemas lineares que surgem em diversas áreas como: engenharia e matemática.

Dentre os tipos de métodos para resolução de sistemas lineares podemos desta- car os métodos diretos e os iterativos, sendo que no primeiro as soluções são obtidas sem a necessidade de qualquer tipo de aproximação (à exceção da precisão da máquina) e no segundo a solução aproximada do sistema é encontrada sob uma certa tolerância previamente determinada.

Os métodos iterativos tem por finalidade o melhoramento cont´ınuo da solução aproximada até que esta esteja precisa o “suficiente”. Sendo que, nestes métodos são utilizadas técnicas para aproximações sucessivas chegando a soluções mais precisas a cada passo, para um dado sistema linear.

Não se pode garantir a priori que os métodos iterativos resolvam qualquer tipo de sistema, é necessário analisar certos critérios estabelecidos em relação ao sistema. Já os métodos diretos resolvem todos os tipos de sistema determinados, mas alguns de forma mais demorada.

Os métodos iterativos se dividem em estacionários e não-estacionários. Um método é estacionário quando cada aproximante da solução é obtido do anterior sempre pelo mesmo processo. Entre os métodos iterativos estacionários temos o Jacobi, Gauss-Seidel, Gradiente, SOR e SSOR. E entre os não-estacionários temos o Gradiente Conjugado (GC).

O método de Jacobi é uma homenagem ao matemático Carl Gustav Jacob Ja- cobi(1804−1851), que teve uma grande influência no renascimento da Matemática em universidades alemãs no século XIX. O método consiste em dada uma aproximação inicial e uma tolerância para a solução, gera-se uma sequência de vetores que converge para a solução exata, efetuando o mesmo processo uma quantidade finita de vezes.

(7)

Já o método de Gauss-Seidel é uma homenagem aos matemáticos alemães Carl Friedrich Gauss(1777−1855)e Philipp Ludwig von Seidel(1821−1896), este último trabalhou como assistente de Jacobi resolvendo problemas que resul- taram do estudo de Gauss. Este método difere-se apenas do Jacobi por utilizar valores mais atualizados para algumas componentes, o que faz reduzir o número de iterações até obter a tolerância determinada.

Um dos métodos iterativos mais conhecidos é o Gradiente Conjugado. Ele foi introduzido nos anos 50 por: Magnus Hestenes(1906−1991) e Edward Stiefel (1875−1968). O método resolve sistemas lineares onde a matriz A é positiva definida e simétrica. Ele possui como base para o seu desenvolvimento o método dos Gradientes.

O Gradiente Conjugado é utilizado frequentemente quando se resolve nu- mericamente equações diferencias parciais. O método consiste em, dado uma aproximação inicial e uma tolerância, calcula-se o res´ıduo e a direção de relaxação e em seguida gera-se uma sequência de vetores, que a cada iteração se aproxima da solução exata, em que o res´ıduo é ortogonal a direção de relaxação.

O objetivo principal deste trabalho é abordar três métodos iterativos: Jacobi, Gauss-Seidel e Gradiente Conjugado. Também mostraremos alguns exemplos fazendo comparações entre as soluções obtidas através de cada método.

Para tanto, dividiremos o trabalho em trˆes cap´ıtulos.

No primeiro apresentaremos os conceitos básicos de álgebra linear e cálculo, necessários para alcançar nossos objetivos. No segundo, desenvolveremos os métodos iterativos e observaremos as condições de convergência do sistema linear. Para finalizar, no terceiro cap´ıtulo resolveremos alguns exemplos aplicando o que foi desenvolvido anteriormente.

(8)

Cap´ıtulo 1

Noções Básicas

Neste cap´ıtulo, apresentaremos as ferramentas que serão utilizadas no decorrer do trabalho. Tais ferramentas, são resultados clássicos de álgebra linear e cálculo.

Primeiramente introduzimos conceitos b´asicos de ´algebra linear, tais como:

espac¸o vetorial real, produto interno, norma, autovalores, autovetores e raio espectral.

Definição 1.1. SejaV um conjunto não vazio.V é umespaço vetorial realse as operações de adição e multiplicação por escalar estão definidas emV, isto é, a) seu, v ∈V, entãou+v ∈V;

a1)u+v =v+u, ∀u, v ∈V;

a₂)(u+v) +z =u+ (v+z), ∀u, v, z ∈V; a₃)∃0(vetor nulo)∈V tal queu+ 0 =u, ∀u∈V; a₄)∀u∈V, ∃ −u∈V, u+ (−u) = 0;

b) sek ∈Reu∈V, ent˜aoku∈V;

b₁)a.(u+v) =a.u+a.v, ∀a∈R,∀u, v ∈V; b₂)(a+b).u=a.u+b.u, ∀a, b∈R, ∀u∈V; b₃)a(b.u) = (a.b)u, ∀a, b∈R, ∀u∈V; b₄)1.u=u, ∀u∈V.

Definição 1.2. Seja V um espaço vetorial. Dizemos que um vetor v é uma combinação linear dos vetoresv1, v2, . . . , vn, sevpode ser escrito na forma:

v =α₁v₁+α₂v₂+. . .+α_nv_n=

n

X

i=1

α_iv_i, em queα₁, α₂, . . . , α_n∈R.

(9)

Definição 1.3. SejaV um espaço vetorial real. Sejamuevelementos deV. Um produto escalar (produto interno) é uma aplicação

h·,·i: V ×V −→ R (u, v) 7−→ hu, vi que satisfaz as seguintes propriedades:

i)hu, vi=hv, ui,∀u, v ∈V (simetria);

ii)hv, u+wi=hv, ui+hv, wi(linearidade);

iii)hα.v, ui=α.hv, ui,∀α∈R,∀v, u∈V (transitividade);

iv)hv, vi ≥0ehv, vi= 0⇔v = 0.

Um espaço vetorial realV no qual está definido um produto escalar é chamado espaço vetorial euclidiano real.

Exemplo 1.1. SejaV = Rⁿ. Sejamuev ∈ V, dados poru = (u1, u2, ..., un)e v = (v1, v₂, ..., v_n), ent˜ao,

hu, vi=u₁v₁+u₂v₂+...+u_nv_n =

n

X

i=1

u_iv_i

´e um produto interno emV =Rⁿ, que ´e oproduto interno usualnoRⁿ.

Definição 1.4. SejaV um espaço vetorial euclidiano real. Sejamuev elementos deV. Dizemos queu é ortogonal av sehu, vi= 0.

Definição 1.5. SejaV um espaço vetorial euclidiano. Uma norma, denotada por k · k, é uma aplicação:

V −→ R

v 7−→ kvk Com as seguintes propriedades:

i)kvk ≥0para todov ∈V; ii)kvk= 0 ⇐⇒v = 0;

iii)kαvk=|α|kvkpara todoα ∈Rev ∈V; iv)kv+uk ≤ kvk +kukpara todov, u∈V.

Exemplo 1.2. Seja V = Rⁿ e u = (u₁, u₂,· · · , u_n) ∈ Rⁿ, então, as seguintes aplicações são normas emRⁿ:

a) kuk∞= max

1≤i≤n|ui|.

b) kuk1 =

n

X|ui|.

(10)

c) kuk2 =^qhu, ui.

Definição 1.6. Diz-se que uma sequência de vetores x^(k) em Rⁿ converge para x∈Rⁿcom relação a uma normak · kse, dado qualquer >0, existir um inteiro N()tal que:

kx^k−xk< , para todo k≥N().

Definição 1.7. Chama-se norma de uma matriz A qualquer função definida no espaço vetorial das matrizes, com valores em R, satisfazendo as seguintes propriedades:

i)kAk ≥0;

ii)kAk= 0, se e somente seAfor 0 ( matriz com todos os elementos 0);

iii)kαAk=|α|kAk;

iv)kA+Bk ≤ kAk+kBk;

v)kABk ≤ kAkkBk.

A distância entre as matrizesAeBcom relação a esta norma de matriz ékA−Bk.

Exemplo 1.3. SejaAuma matrizn×n, então as seguintes aplicações são normas no espaço vetorial das matrizesn×n, com valores emR:

a) kAk∞ = max

1≤i≤n n

X

j=1

|aij|(norma linha);

b) kAk1 = max

1≤j≤n n

X

i=1

|aij|(norma coluna);

c) kAk2 =

v u u t

n

X

i,j=1

a²_ij (norma euclidiana).

Uma matrizn ×m pode ser considerada como uma função que utiliza mul- tiplicação de matrizes para transformar vetores mdimensionais em vetoresn dimensionais. Uma matriz quadrada Aleva o conjunto de vetores n dimensionais em vetoresndimensionais. Neste caso, certos vetoresx, não nulos, são paralelos a Ax, o que significa que existe uma constante λ tal queAx = λx. Para esses vetores, temos(A−λI)x= 0.

Definição 1.8. SeAfor uma matriz quadrada, o polinômio caracter´ıstico deA é definido por

p(λ) =det(A−λI)

Definição 1.9. Sepfor o polinômio caracter´ıstico da matrizA, os zeros depsão os autovalores, ou valores próprios, da matriz A. Seλfor um autovalor deA e x6= 0satisfazer(A−λI)x= 0, entãox é umautovetor, ou vetor próprio, deA, correspondente ao autovalorλ.

(11)

Exemplo 1.4. Para a matriz

A=







2 0 0 1 1 2 1 −1 4







o polinˆomio caracter´ıstico ´e

p(λ) =det(A−λI) =det







2−λ 0 0

1 1−λ 2 1 −1 4−λ







=λ³−7λ²+ 16λ−12 = (λ−3)(λ−2)².

Assim os autovalores deAsãoλ₁ = 3eλ₂ = 2. Um autovetorx = (w, k, u) correspondente ao autovalorλ1 = 3é solução da equação matriz-vetor

(A−3.I)x= 0, isto ´e:







0 0 0





 =







−1 0 0

1 −2 2 1 −1 1





.







w k v





, o que implica w = 0 ek = v. Ent˜ao v_λ₁ = (0, y, y), y ∈Rⁿ,y6= 0.

Agora para o autovalor λ₂ = 2 um autovetor x = (w, k, u) é solução do sistema(A−2.I)x= 0, isto é:







0 0 0





 =







0 0 0 1 −1 2 1 −1 2





.







w k v





, o que implica quew−k+ 2.v = 0. Ent˜ao vλ2 = (−2z,2y, y+z), y, z∈Rⁿ

Teorema 1.1. Sek · kfor norma de vetor emRⁿ, ent˜ao kAk= max

kxk=1kAxk

´e uma norma de matriz.

Pode ser visto em[8]p´ag509.

Cada norma de vetor produz uma norma de matriz natural associada, e esta ´e denominada por norma de matriz natural.

Definição 1.10. O raio espectralρ(A)de uma matrizA é definido por ρ(A) = max(λi)

em queλ_i,i= 1,· · ·, ns˜ao autovalores deA.

(12)

Para a matriz do Exemplo 1.4 temos, ρ(A) = max

1≤i≤n{2,2,3}= 3.

O raio espectral esta intimamente ligado a norma da matriz, conforme veremos a seguir.

Teorema 1.2. SejaAuma matrizn×n, ent˜ao:

i)kAk2 = [ρ(A^TA)]^1/2,

ii)ρ(A)≤ kAk, para qualquer norma de matrizk · k.

Demonstração. i) A demonstração desta parte não será feita, mas pode ser encontrada em[7]pág. 21.

ii)Suponha que λi seja um autovalor qualquer de A com autovetor x e que kxk= 1. Comox´e um autovetor associado ao autovalorλitemos queAx=λix.

Ent˜ao,

|λi|=|λi|kxk=kλixk=kAxk ≤ kAkkxk=kAk Assimρ(A) = max

1≤i≤n|λi| ≤ kAk

Definição 1.11. Uma matrizA,n×n, é uma matriz convergente, se

k→∞lim a^k_ij = 0parai= 1,2,· · · , nej = 1,2,· · · , n.

Teorema 1.3. As seguintes afirmações são equivalentes:

i)A ´e uma matriz convergente;

ii) lim

n→∞kAⁿk= 0para alguma norma de matriz;

iii) lim

n→∞kAⁿk= 0para todas as normas de matrizes;

iv)ρ(A)<1;

v) lim

n→∞Aⁿx= 0, para todox.

A demonstração deste teorema pode ser encontrada em [3] pág. 14.

Agora vamos abordar alguns conceitos de cálculo que são utilizados para analisar os pontos cr´ıticos de uma função. Primeiramente para uma variável e em seguida para n variáveis. Mas antes vamos considerar algumas definições que serão necessárias durante o processo.

Definição 1.12. SejaAuma matrizn×n ex∈Rⁿ, então uma forma quadrática f(x) =x^tAx é classificada como uma das seguintes:

(13)

1)Positiva definida sef(x)>0para todox6= 0;

2)Positiva semidefinida sef(x)≥0para todox;

3)Negativa definida sef(x)<0para todox6= 0;

4)Negativa semidefinida sef(x)≤0para todox;

5)Indefinida sef(x)assume tanto valores positivos quanto negativos.

Uma matriz simétricaAé chamada de positiva definida, positiva semidefinida, negativa definida, negativa semidefinida ou indefinida se a forma quadráticaf(x) = x^tAxtem a propriedade correspondente.

Definição 1.13. Sejay =f(x)uma função de uma variável, sex∈R, então, um pontox₀ é denominadoponto cr´ıticodef sef⁰(x) = 0.

Teorema 1.4. Suponha quef⁰⁰seja cont´ınua na proximidadex.

a)Sef⁰⁰(x0)>0, ent˜aox₀ ´eponto de m´ınimo;

b)Sef⁰⁰(x0)<0, entãox0 éponto de máximo;

c)Sef⁰⁰(x₀) = 0, entãox₀ éponto de inflexão.

Definição 1.14. Um ponto P = (x1, x₂,· · · , x_n)^t tal que o grad f(P) = 0 é denominado ponto cr´ıtico def.

SejaAa matriz cujos elementos(aij) =_∂x^∂²^f

i∂xj isto ´e:

A(P) =







∂²f

∂x12 ∂²f

∂x1∂x2 · · · _∂x^∂₁²_∂x^f

∂²f n

∂x2∂x1

∂²f

∂x22 · · · _∂x^∂²^f

2∂xn

...

∂²f

∂xn∂x1

∂²f

∂xn∂x2 . . . _∂x^∂²^f

n2







.

Teorema 1.5. Suponha queA(P)seja cont´ınua na proximidade deP. Ent˜ao:

a)SeA(P):positiva definida, entãoP éponto de m´ınimo; b)SeA(P):negativa definida, entãoP éponto de máximo;

c)SeA(P): indefinida, ent˜aoP ´eponto de sela.

(14)

Cap´ıtulo 2

M´etodos Iterativos

O objetivo deste cap´ıtulo é inicialmente desenvolver a construção dos métodos iterativos de Jacobi, Gauss-Seidel, Gradiente e Gradiente Conjugado. Em seguida, apresentaremos resultados que garantem a convergência dos métodos desenvolvi- dos.

2.1 Processos Estacion´arios

Ummétodo iterativo é estacionáriose cada aproximante da solução é obtido do anterior sempre pelo mesmo processo. Como já afirmamos na introdução desse trabalho os métodos estacionários abordados nesse trabalho serão: o método de Jacobi, o método de Gauss-Seidel e o método de Gradiente.

Considere o sistema linearAx=b, em queAé uma matriz quadrada de ordem n,xé um vetorn×1eb é um vetorn×1.

Suponha que esse sistema seja transformado (de forma equivalente) em:

¯

x=Tx¯+c (2.1)

em queT =I −Aec=b.

A matrizT é uma matriz quadrada de ordemnecé um vetorn×1, de maneira que a soluçãoxde (2.1) é, também, solução deAx =b.

Partindo de uma aproximaçãox⁽⁰⁾, obtemos as aproximações sucessivasx^(k) para a solução desejadax, usando o processo iterativo estacionário definido por:

x^(k) =T x^(k−1)+c, k = 1,2,· · · . (2.2)

Se a sequência x^(k) converge para a solução x então esta coincide com a solução x de Ax = b. Nesse caso passando-se o limite em (2.2) em ambos os membros temos que

x=T x+c.

(15)

Entãoxtambém é solução do sistemaAx=b.

O resultado a seguir é utilizado no próximo teorema, que fornece a condição necessária e suficiente para a convergência da sequênciax^(k).

Lema 2.1. Se o raio espectralρ(T)satisfazρ(T)<1, ent˜ao(I −T)⁻¹ existe e (I−T)⁻¹ =I+T +T²+· · ·=

∞

X

j=0

T^j Esta demonstração pode ser encontrada em[3]pág.422.

Teorema 2.1. Para qualquerx⁽⁰⁾ ∈Rⁿ, a sequˆenciax^(k)definida por x^(k) =T x^(k−1)+c, para cada k ≥1,

converge para a soluc¸˜aox¯=Tx¯+cse e somente seρ(T)<1.

Demonstração. (⇐)Suponhaρ(T)<1. Então:

x^(k) =T x^(k−1)+c

=T(T x^(k−2)+c) +c

=T²x^(k−2)+ (T +I)c

=T²(T x^(k−3)+c) + (T +I)c

=T³x^(k−3)+ (T²+T +I)c.

x^(k) =T^kx⁽⁰⁾+ (T^(k−1)+· · ·+T +I)c.

Comoρ(T)<1, pelo Teorema 1.3, temos que:

k→∞lim T^kx⁽⁰⁾ = 0 O Lema 2.1 implica que:

k→∞lim x^(k) = lim

k→∞[T^(k)x⁽⁰⁾+ (T^(k−1)+· · ·+T + 1)c] =

= 0 +

∞

X

j=0

Tjc= (I−T)⁻¹c.

Assim a sequˆenciax^(k) converge para o vetorx¯= (I−T)⁻¹cex¯=Tx¯+c.

(16)

(⇒) Considere z ∈ Rⁿ, se lim

k→∞T^kz = 0, ent˜ao, pelo Teorema 1.3, isto ´e equivalente aρ(T)<1.

Sejaz um vetor arbitrário e x¯ a solução única dex¯ = Tx¯+c, pois se tiver mais de uma solução não seria convergente. Definax⁽⁰⁾ = ¯x−z e, parak ≥ 1, x^(k) =T x^(k−1)+c.

Ent˜aox^(k)converge parax.¯

Al´em dissox¯−x^(k) = (Tx¯−c)−(T x^(k−1)+c) =T(¯x−x^(k−1)), desta forma obtemos que:

¯

x−x^(k)=T(¯x−x^(k−1)) =T(T(¯x−x^(k−2))) = T²(¯x−x^(k−2)) =T^k(¯x−x⁽⁰⁾) =

=T^kz Logo lim

k→∞T^kz = lim

k→∞T^k(¯x−x⁽⁰⁾) = 0.

Comoz ∈Rⁿera arbitrário entãoT é uma matriz convergente e segue queρ(T)<

1.

Essa demonstração é apresentada em[3]pág. 423.

Em geral é dif´ıcil verificar o Teorema 2.1. Entretanto, podemos obter uma condição suficiente que a matriz T deve satisfazer para assegurar a convergência do processo iterativo definido por (2.1). Enunciaremos a seguir tal condição em um corolário.

Corol´ario 2.1. O processo iterativo definido porx^(k)=T x^(k−1)+c´e convergente se, para qualquer norma de matrizes,kTk<1.

Demonstração. Vamos introduzir o vetor erroe^(k)para estudar a convergência da sequênciax^(k) para a soluçãoxdeAx =b, então considere:

e^(k) = ¯x−x^(k) Subtraindo de (2.1) membro a membro (2.2) obtemos:

¯

x−x^(k)=T(¯x−x^(k−1)) +c−c

e^(k)=T e^(k−1) (2.3)

Donde podemos escrever quee^(k−1) =T e^(k−2)e substituindo em (2.3) temos:

e^(k) =T(T e^(k−2)) = T²e^(k−2) e^(k) =T²e^(k−2)

e assim, por aplicac¸˜oes sucessivas, segue que:

e^(k) =T^ke⁽⁰⁾ (2.4)

(17)

em quee⁽⁰⁾ ´e o erro inicial. Tomando norma de matriz na express˜ao (2.4), segue que:

ke^(k)k=kT^k.e⁽⁰⁾k ≤ kTk^k.ke⁽⁰⁾k Portantoke^(k)k ≤ kTk^k.ke⁽⁰⁾k.

SekTk<1, teremos que

ke^(k)k=kx−x^(k)k →0

se kTk < 1, para alguma norma de matriz, ent˜ao temos garantida a con- vergˆencia do processo iterativo definido inicialmente.

Demonstração apresentada em[4]pág. 169.

2.1.1 M´etodo de Jacobi

Considere o sistema linear,Ax=bde ordemn, comaii6= 0,











a11x1 +a12x2+· · ·+a1nxn =b1

a₂₁x₁ +a₂₂x₂+· · ·+a_2nx_n =b₂ ...

a_n1x₁+a_n2x₂+· · ·+a_nnx_n =b_n

(2.5)

Isolandoxmediante a separac¸˜ao pela diagonal temos:











x₁ = _a¹

11(b₁−a₁₂x₂−a₁₃x₃− · · · −a_1nx_n) x₂ = _a¹

22(b₂−a₂₁x₁−a₂₃x₃− · · · −a_2nx_n) ...

x_n= _a¹

nn(bn−a_n1x₁−a_n2x₂− · · · −a_n,n−1x_n−1)

(2.6)

Para o sistema linear (2.5), o método de Jacobi consiste em dado uma aproximação inicial x⁽⁰⁾ = (x⁽⁰⁾₁ , x⁽⁰⁾₂ ,· · · , x⁽⁰⁾_n )^t e uma tolerância, gera-se uma sequência de vetores

(x^(k)₁ , x^(k)₂ ,· · · , x^(k)_n )^t, k = 1,2,3,· · · ,

que converge para a solução exata, através do processo iterativo definido por:











x^(k+1)₁ = _a¹

11(b1−a12x^(k)₂ −a13x^(k)₃ − · · · −a1nx^(k)_n ) x^(k+1)₂ = _a¹

22(b2−a21x^(k)₁ −a23x^(k)₃ − · · · −a2nx^(k)_n ) ...

x^(k+1)_n = _a¹

nn(bn−an1x^(k)₁ −an2x^(k)₂ − · · · −an,n−1x^(k)_n−1)

(2.7)

(18)

Agora vamos escrever o m´etodo de outra maneira. Seja a matrizA=L+D+ U em que:

L=matriz triangular inferior formada pela parte inferior (abaixo da diagonal) da matrizA;

D=matriz diagonal formada pela diagonal da matrizA;

U =matriz triangular superior formada pela parte superior (acima da diagonal) da matrizA.

Ent˜ao escrevemos o sistema linearAx=bcomo (L+D+U)x=b Dx= (−L−U)x+b x=D⁻¹(−L−U)x+D⁻¹b

x=T x+c em queT =D⁻¹(−L−U)ec=D⁻¹b.

Determinando a seqüência de aproximações(x^(k)₁ , x^(k)₂ ,· · · , x^(k)_n ),k = 1,2,3,· · · temos:

x^(k+1) =T x^(k)+c. (2.8)

Resumindo:

1)Escolhe-se uma aproximac¸˜ao inicialx⁽⁰⁾e dado >0eM, em queM ∈N^∗

é o número máximo de iterações euma tolerância.

2)Geram-se aproximac¸˜oes sucessivas dex^(k) a partir do sistema (2.8).

3)Continua-se a gerar aproximações até que um dos critérios abaixo seja satisfeito:

a)kx^(k+1)−x^(k)k< ou b)k > M.

Observação 2.1. Na prática não efetuamos as iterações com base em (2.8), mas sim em (2.7). A iteração definida por (2.8) tem fins puramente teóricos para analisar a convergência do método.

2.1.2 M´etodo de Gauss-Seidel

Seja o sistema linear Ax = b, isolando x mediante a separação da diagonal obtemos um sistema como (2.6). O método iterativo de Gauss-Seidel consiste no

(19)

seguinte fato: a partir de uma aproximação inicial x⁽⁰⁾ = (x⁽⁰⁾₁ , x⁽⁰⁾₂ ,· · · , x⁽⁰⁾_n )^t, obter-se uma sequência

(x^(k)₁ , x^(k)₂ ,· · · , x^(k)_n )^t, k = 1,2,3,· · · , atrav´es do processo iterativo definido por:











x^(k+1)₁ = _a¹

11(b1−a12x^(k)₂ −a13x^(k)₃ − · · · −a1nx^(k)_n ) x^(k+1)₂ = _a¹

22(b2−a21x^(k+1)₁ −a23x^(k)₃ − · · · −a2nx^(k)_n ) ...

x^(k+1)_n = _a¹

nn(b_n−a_n1x^(k+1)₁ −a_n2x^(k+1)₂ − · · · −a_n,n−1x^(k+1)_n−1 )

(2.9)

Aqui temos que na iteraçãok+ 1já utilizamos os valores das coordenadas do vetorx^(k+1) calculados.

Considere novamente o sistema linearAx=bcomo:

(L+D+U)x=b (L+D)x=−U x+b multiplicando porD⁻¹temos

(L^∗+I)x=−U^∗x+b^∗, em que,L^∗ =D⁻¹L,U^∗ =D⁻¹U,b^∗ =D⁻¹b.

Determinando a seqüência de aproximações(x^(k)₁ , x^(k)₂ ,· · · , x^(k)_n )^t, k= 1,2,3,· · · temos:

(L^∗+I)x^(k+1) =−U^∗x^(k)+b^∗ x^(k+1) =−(L^∗+I)⁻¹U^∗x^(k)+ (L^∗+I)⁻¹b^∗ TomandoT =−(L^∗+I)⁻¹U^∗ec= (L^∗+I)⁻¹b^∗obtemos:

x^(k+1) =T x^(k)+c (2.10)

Resumindo temos:

1)Escolhe-se uma aproximação inicialx⁽⁰⁾ e dado > 0eM ∈ N^∗, em que M é o número máximo de iterações euma tolerância.

2)Geram-se aproximac¸˜oes sucessivas dex^(k) a partir do sistema (??).

3)Continua-se a gerar aproximações até que um dos critérios abaixo seja satisfeito:

a)kx^(k+1)−x^(k)k< ou b)k > M.

Observação 2.2. Assim como no método de Jacobi, não efetuamos as iterações com base em (2.10), mas sim, usando (2.9). Desse modo não é necessário inverter a matriz(L^∗+I).

(20)

2.1.3 Convergˆencia dos M´etodos

Considere o sistemaAx=bna sua forma

¯

x=Tx¯+c com a iterac¸˜ao definida por:

x^(k+1) =T x^(k)+c, k= 1,2,3,· · · (2.11) Sejae^(k), o erro na k-ésima iteração, isto é,

e^(k) =x^(k)−x¯=⇒x^(k) =e^(k)+ ¯x parak+ 1temos:

x^(k+1) =e^(k+1)+ ¯x.

Substituindo em (2.11) segue:

e^(k+1)+ ¯x=T(e^(k)+ ¯x) +c, k = 1,2,· · · e^(k+1) =T e^(k)+Tx¯+c−x¯

comox¯=Tx¯+c, assim

e^(k+1) =T e^(k).

Teorema 2.2. É condição suficiente para que a iteração (2.11) convirja, que os elementostij deT satisfaçam a desigualdade

n

X

i=1

|tij| ≤L <1,∀ j = 1,2,3,· · ·, n, qualquer que seja a aproximac¸˜ao inicialx⁽⁰⁾.

Demonstrac¸˜ao. Escrevendoe^(k+1) =T e^(k)na sua forma expandida, tem-se:

e^(k+1)₁ =t₁₁e^(k)₁ +t₁₂e^(k)₂ +· · ·+t_1ne^(k)_n e^(k+1)₂ =t₂₁e^(k)₁ +t₂₂e^(k)₂ +· · ·+t_2ne^(k)_n ...

e^(k+1)_n =tn1e^(k)₁ +tn2e^(k)₂ +· · ·+tnne^(k)_n

Tomando os m´odulos em ambos os lados e aplicando a desigualdade triangular, tem-se:

|e^(k+1)₁ | = |t11e^(k)₁ +t12e^(k)₂ +· · ·+t1ne^(k)_n | ≤ |t11||e^(k)₁ |+|t12||e^(k)₂ |+· · ·+

|t1n||e^(k)_n |

|e^(k+1)₂ | = |t21e^(k)₁ +t₂₂e^(k)₂ +· · ·+t_2ne^(k)_n | ≤ |t21||e^(k)₁ |+|t22||e^(k)₂ |+· · ·+

|t2n||e^(k)_n |

(21)

...

|e^(k+1)_n |=|tn1e^(k)₁ +tn2e^(k)₂ +· · ·+tnne^(k)_n | ≤ |tn1||e^(k)₁ |+|tn2||e^(k)₂ |+· · ·+

|tnn||e^(k)_n |.

Agora somando membro a membro, obt´em-se:

n

X

i=1

|e^(k+1)_i | ≤

n

X

i=1

|e^(k)₁ ||ti1|+|e^(k)₂ |

n

X

i=1

|ti2|+· · ·+|e^(k)_n |

n

X

i=1

|tin|.

De_n

X

i=1

|tij| ≤L <1, paraj = 0,1,· · · , ntemos

n

X

i=1

|e^(k+1)_i | ≤ |e^(k)₁ |L+|e^(k)₂ |L+· · ·+|e^(k)_n |L Ou seja:

n

X

i=1

|e^(k+1)_i | ≤L

n

X

i=1

|e^(k)_i | (2.12)

Se k=0 em (2.12)

n

X

i=1

|e⁽¹⁾_i | ≤L

n

X

i=1

|e⁽⁰⁾_i | (2.13)

Se k=1 em (2.12)

n

X

i=1

|e⁽²⁾_i | ≤L

n

X

i=1

|e⁽¹⁾_i | Por (2.13)

n

X

i=1

|e⁽²⁾_i | ≤L²

n

X

i=1

|e⁽⁰⁾_i | (2.14)

Se k=2 em (2.12)

n

X

i=1

|e⁽³⁾_i | ≤L

n

X

i=1

|e⁽²⁾_i | Por (2.14)

n

X

i=1

|e⁽³⁾_i | ≤L³

n

X

i=1

|e⁽⁰⁾_i | De modo geral temos

(22)

n

X

i=1

|e^(k+1)_i | ≤L^(k+1)

n

X

i=1

|e⁽⁰⁾_i |

Como0< L <1, segue que

k→∞lim

n

X

i=1

|e^(k+1)_i | ≤ lim

k→∞L^(k+1)

n

X

i=1

|e⁽⁰⁾_i |=

n

X

i=1

|e⁽⁰⁾_i | lim

k→∞L^(k+1) = 0 Logo lim

k→∞

n

X

i=1

|e^(k+1)_i |= 0.

Demonstração apresentada em[1]pág.66.

Corolário 2.2. (Critério das Linhas): É condição suficiente para que a iteração x^(k+1) =T x^(k)+cconvirja, que

|tii|>

n

X

j = 1 i6=j

|tij|, parai= 1,2,· · · , n (2.15)

Demonstração. •Para o método de Jacobi, temos que,

n

X

i=1

|t_ij|= (|t1j|+|t2j|+· · ·+|tj−1,j|+|tj+1,j|+· · ·+|tnj|)

|tjj| ,

paraj = 1,2,· · · , n.

De (2.15) obtemos que,







n

X

j= 1 i6=j

|t_ij|





|t_ii|<1.

Segue pelo Teorema 2.2 que a iterac¸˜aox^(k+1) =T x^(k)+cconverge.

•Para o m´etodo de Gauss-Seidel a prova encontra-se em[8]p´ag.240.

A matriz que satisfaz as hipóteses do critério das linhas é chamadadiagonal dominante estrita.

Teorema 2.3. É condição suficiente, para que a iteração definida por x^(k+1) = T x^k+cconvirja, que os elementost_ij deT satisfaçam a desigualdade:

n

X

j=1

|tij| ≤L <1, parai= 1,2,3,· · ·, n, qualquer que seja a aproximac¸˜ao inicialx⁽⁰⁾.

(23)

Corolário 2.3. (Critério das Colunas) É condição suficiente para que a iteração x^(k+1) =T x^(k)+cconvirja, que

|ajj|> ^X j = 1

i6=j

|aij|, paraj = 1,2,· · · , n.

A demonstração para o método de Jacobi é análoga ao Corolário 2.2 e para o método de Gauss-Seidel encontra-se em[8]pág. 240.

Na prática são usados apenas os corolários para verificar a convergência dos métodos. Note ainda que basta apenas um dos critérios ser satisfeito para garantir a convergência.

2.2 Processos de Relaxac¸˜ao

Nesta seção introduziremos alguns métodos iterativos para resolver sistemas lineares conhecidos como processos de relaxação. Seja o sistema linearAx+b= 0em queAé uma matriz simétrican×npositiva definida,xebsão vetoresn×1.

Considere que o sistema possui uma única solução.

Sejav uma aproximação da solução, então, r=Av+b

r é o vetor res´ıduo que indica o quanto a aproximação da solução ”falha”em satisfazer o sistema. O objetivo do processo de relaxação é que o res´ıduo se anule, ou seja, quevseja a solução do sistema.

Para que isto ocorra considere a função quadrática:

F(v) = 1

2hAv, vi+hb, vi (2.16)

em queA= (aij)é uma matriz simétrica,v = (v1, v₂,· · · , v_n)^t,b = (b1, b₂,· · · , b_n)^t. A idéia é calcular as derivadas parciais deF(v)(em relação av_i) e obtermos que gradF(v) = 0, assim vamos ter que o res´ıduo se anula, pois gradF(v) = Av+b =r, conforme vamos mostrar.

Calculando os produtos escalares da função quadrática, temos que, F(v) = 1

2

n

X

i,j=1

aijvivj +

n

X

i=1

bivi. Pois,

Av=







a₁₁ a₁₂ · · · a_1n a21 a22 · · · a2n

...













v₁ v2

...







=







a₁₁v₁+a₁₂v₂+· · ·+a_1nv_n a21v1+a22v2+· · ·+a2nvn

...







,

(24)

de onde segue que,

hAv, vi=a₁₁v₁²+a₁₂v₁v₂+· · ·+a_1nv₁v_n+ a₂₁v₂v₁+a₂₂v₂²+· · ·+a_2nv₂v_n+

...

an1vnv1+an2vnv2 +· · ·+annv²_n=

=

n

X

i=1 n

X

j=1

a_ijv_iv_j =

n

X

i,j=1

a_ijv_iv_j. Al´em disso,

hb, vi=b₁v₁+b₂v₂+· · ·+b_nv_n =

n

X

i=1

b_iv_i. Diferenciando cada um dos termos deF(v)temos,

∂

n

X

i,j=1

aijvivj

∂v_i =

= 2a11v₁+a₁₂v₂+· · ·+a_1iv_i+· · ·+a_1nv_n+ +ai1v₁+a_i2v₂+· · ·+ 2aiiv_i+· · ·+a_1nv_n+

...

+a_n1v₁+a_n2v₂+· · ·+a_niv_i+· · ·+ 2a_nnv_n=

= 2

n

X

j=1

a_ijv_j poisA´e sim´etrica.

E temos tamb´em

∂

n

X

i=1

bivi

∂v_i =b1+b2 +· · ·+bn =bi

Logo

∂F(v)

∂vi

= 1 22

n

X

j=1

a_ijv_j+b_i =

n

X

j=1

a_ijv_j+b_i, para i = 1,2,· · ·, n.

(25)

Portanto,

grad F(v) = 0 ⇔ ∂F(v)

∂v_i = 0, i = 1,2,· · ·, n

⇔

n

X

j=1

a_ijv_j+b_i = 0, i= 1,2,· · · , n.

Desta forma, seguegrad F(v) = 0e temosAv+b = 0, pois^Xⁿ

j=1

a_ijv_j +b_i = Av+b. Logo sev =x, ondex é a solução, devemos ter ograd F(v) = 0. Note que nos vetores que não são solução, o gradiente representa o res´ıduo, ou seja, grad F(v) =r.

Teorema 2.4. O problema de determinar a solução do sistema linearAx+b= 0, em queA é simétrica positiva definida, é equivalente ao problema de determinar o ponto de m´ınimo deF(v) = ¹₂hAv, vi+hb, vi.

Demonstração. Evidentemente que P = (x1, x2,· · · , xn)^t é ponto de m´ınimo de F se e somente se P é solução do sistema Ax+b = 0, pois, seP é ponto estacionário de F, entãograd F(v) = 0 ⇒r = 0assimP é solução do sistema Ax+b= 0. Resta provar queF tem um único ponto estacionário e que este ponto

´e de m´ınimo.

Temos quev ´e ponto de m´ınimo de F se e somente segrad F(v) = 0, isto ´e, se e somente se:

n

X

j=1

a_ijv_j +b_i = 0 , para i= 1,2,· · · , n.

Como o sistema admite uma única solução temos que o ponto estacionário é

´unico, assim

∂²F

∂vi2(v) =a₁₁,· · ·, ∂²F

∂vi∂vj

(v) =a_ij

temos queA = (vij). Como por hipóteseA é positiva definida, então pelo resultado na pág.13no primeiro cap´ıtulo temos quev é ponto de m´ınimo.

Demonstração apresentada em[4]pág.183.

Os métodos de relaxação são usados apenas para sistemas lineares onde a matriz dos coeficientes é positiva definida, caso isso não aconteça os métodos de relaxação não convergem.

(26)

2.2.1 Princ´ıpios Básicos do Processo de Relaxação

A base do princ´ıpio geral de relaxação é determinar o ponto de m´ınimo da função quadrática F(v) = ¹₂hAv, vi +hb, vi. Para isso começamos com uma aproximação para a soluçãov, selecionamos uma direção pe corrigimosv nesta direção, com o objetivo de minimizarF(v), e continuamos o processo até atingir o ponto de m´ınimo. Desta forma anularemos o res´ıduo na direçãop.

Variandovna direc¸˜aoptomamos

v⁰ =v+tp,

assim temos que encontrar o parâmetro t de modo que a funçãoF atinge o seu min´ımo nesta direção. Vamos determinar o min´ımo de F na direção p. Temos então:

F(v⁰) = 1

2hAv⁰, v⁰i+hb, v⁰i

= 1

2hA(v+tp), v+tpi+hb, v+tpi

= 1

2[hAv, vi+hAv, tpi+hAtp, vi+hAtp, tpi] +hb, vi+hb, tpi

= 1

2[hAv, vi+ 2hb, vi+ 2thAv, pi+t²hAp, pi] +thb, vi

=F(v) + 1

2[t²hAp, pi+ 2thAv, pi+ 2thb, pi]

=F(v) + t²

2hAp, pi+ 1

2[2t(hAv, pi+hb, pi)]

=F(v) + t²

2hAp, pi+thAv+b, pi comor=Av+btemos

=F(v) + t²

2hAp, pi+thr, pi que é uma função quadrática do parâmetrot.

O parâmetrot é selecionado de tal forma queF é m´ınimo dentro do conjunto examinado, onde a condição para que isto aconteça é:

∂F

∂t(v⁰) = ∂

∂t[F(v) + t²

2hAp, pi+thr, pi] = 0

(27)

⇒thAp, pi+hr, pi= 0logo

t = −hr, pi hAp, pi.

Como ∂²F

∂t² (v⁰) =hAp, pi>0,

pois A é positiva definida, temos que t é m´ınimo como foi visto na pág. 13do Cap´ıtulo 1.

Segue

tmin = −hr, pi hAp, pi.

Se a direção p da relaxação for ortogonal ao do res´ıduo r, então ter´ıamos t_min = 0e assim não haverá melhora na aproximação da solução.

Teorema 2.5. Para o ponto de m´ınimov⁰, com t = t_min, o novo res´ıduo r⁰ = Av⁰+b é ortogonal à direçãopda relaxação.

Demonstrac¸˜ao. Temos que

r⁰ =Av⁰+b=A(v+tp) +b=Av+b+Atp=r+tAp.

Portanto

hr⁰, pi=hr+tAp, pi=hr, pi+thAp, pi.

Parat=t_min

hr⁰, pi=hr, pi − hr, pi

hAp, pihAp, pi=hr, pi − hr, pi= 0.

Logor⁰ eps˜ao ortogonais.

Esta demonstração esta apresentada em[4]pág.185.

2.2.2 M´etodo dos Gradientes

SejaAx =b, comAsimétrica positiva definida. Vimos anteriormente que a solução do sistema linear coincide com o ponto de m´ınimo da função quadrática F(v). Agora vamos definir a direçãop^(k)por,

p^(k) =−r^(k−1), para k = 1,2,· · · , (2.17) de forma que esta direção é dirigida para este ponto de m´ınimo. Então vamos reescrever ot_minutilizando a direçãop^(k).

t = −hr, pi

= −hr^(k−1), p^(k)i

= hr^(k−1), r^(k−1)i

(28)

Assim temos que:

v^(k) =v^(k−1)+tp^(k) v^(k) =v^(k−1)−t_minr^(k−1). e que

r^(k)=Av^(k)+b

r^(k)=A(v^(k−1)−tminr^(k−1)) +b r^(k)=Av^(k−1)+b−t_minAr^(k−1)

r^(k) =r^(k−1)−t_minAr^(k−1).

Resumindo temos: dadov⁽⁰⁾, uma tolerˆancia >0, e umM ∈ N^∗, o m´etodo dos Gradientes consiste em:

a)r⁽⁰⁾ =Av⁽⁰⁾+b b)parak = 1,2,· · · b1)t_min = _hAr^hr^(k−1)(k−1)^,r,r^(k−1)^(k−1)ⁱi

b2)v^(k) =v^(k−1)−t_minr^(k−1) b3)r^(k)=r^(k−1)−tminAr^(k−1)

b4)Sekv^(k)−v^(k−1)k< ou sek≥M, fim, sen˜aob)novamente.

2.2.3 M´etodo dos Gradientes Conjugados

Este é outro método de relaxação, que iremos apresentar agora, mas para isso precisamos considerar a seguinte definição:

Definição 2.1. Dada uma matriz positiva definida A, p^(k)e p^(k−1) são direções conjugadas se

hAp^(k), p^(k−1)i=hp^(k), Ap^(k−1)i= 0.

O primeiro passo deste método é igual ao primeiro passo do método dos Gra- dientes.

Agora escolhap^(k), que é a direção de relaxação, como uma combinação linear der^(k−1)ep^(k−1), da seguinte forma:

p^(k) =−r^(k−1)+αk−1p^(k−1), para k = 1,2,3,· · · . (2.18) Precisamos determinar o parâmetroαk−1 que será obtido através das direções conjugadas. Como

hp^(k), Ap^(k−1)i= 0,

(29)

de (2.18) obtemos que

h−r^(k−1)+αk−1p^(k−1), Ap^(k−1)i= 0

−hr^(k−1), Ap^(k−1)i+α_k−1hp^(k−1), Ap^(k−1)i= 0, logo

α_k−1 = hr^(k−1), Ap^(k−1)i hp^(k−1), Ap^(k−1)i.

Agora vamos determinar a sequência de aproximações para a solução:

v^(k) =v^(k−1)+q_kp^(k) (2.19)

em que

qk= −hr^(k−1), p^(k)i hAp^(k), p^(k)i .

Subtituimos (2.19) no res´ıduo, que ´e dado porr^(k) =Av^(k)+bobtemos, r^(k) =A(v^(k−1)+q_kp^(k)) +b

r^(k) =r^(k−1)+qkAp^(k). (2.20)

Observac¸˜ao 2.3. O res´ıduo de cada passo, possui as seguintes propriedades:

a)hr^(k), r^(k−1)i= 0;

Temos que, substituindo emr^(k−1)por (2.17) e pelo Teorema 2.5 segue que res´ıduos consecutivos s˜ao ortogonais:

hr^(k), r^(k−1)i=−hr^(k), p^(k)i= 0, k = 1,2,· · · . b)hr^(k), p^(k)i= 0;

Substituindo p^(k) pela expressão (2.17) e pelo resultado da Observação 2.1 item a) temos:

hr^(k), p^(k)i=−hr^(k), r^(k−1)i= 0, k = 1,2,· · · .

Com estas propriedades obtemos algumas simplificações nas fórmulas deq_ke αk−1.

Primeiramente temos

qk = −hr^(k−1), p^(k)i hAp^(k), p^(k)i substituindop^(k), no numerador por (2.18) obtemos:

(30)

=hr^(k−1), r^(k−1)i −α_k−1hr^(k−1), p^(k−1)i da Observac¸˜ao 2.1 item b) temos quehr^(k−1), p^(k−1)i= 0assim:

−hr^(k−1), p^(k)i=hr^(k−1), r^(k−1)i logo

q_k= hr^(k−1), r^(k−1)i hAp^(k), p^(k)i . Agora vamos simplificar a express˜ao de

α_k−1 = hr^(k−1), Ap^(k−1)i hp^(k−1), Ap^(k−1)i. primeiramente de (2.20) obtemos

Ap^(k−1) = 1 qk−1

(r^(k−1)−r^(k−2)).

SubstituindoAp^(k−1) no numerador deα_k−1temos:

hr^(k−1), Ap^(k−1)i=hr^(k−1), 1

q_k−1(r^(k−1)−r^(k−2))i=

= 1 qk−1

hr^(k−1), r^(k−1)i − 1 qk−1

hr^(k−1), r^(k−2)i da Observac¸˜ao 2.1 item a) temos quehr^(k−1), r^(k−1)i= 0, segue:

hr^(k−1), Ap^(k−1)i= 1 qk−1

hr^(k−1), r^(k−1)i. (2.21)

Agora substituindoAp^(k−1)no denominador deαk−1 temos:

hp^(k−1), Ap^(k−1)i=hp^(k−1), 1 qk−1

(r^(k−1)−r^(k−2))i=

= 1 qk−1

hp^(k−1), r^(k−1)i − 1 qk−1

hp^(k−1), r^(k−2)i pela Observac¸˜ao 2.1 item b)hp^(k−1), r^(k−1)i= 0segue que:

hp^(k−1), Ap^(k−1)i=− 1 qk−1

hp^(k−1), r^(k−2)i. (2.22) Agora substituimosp^(k−1) por(2.18)temos: