Algumas Varia¸ c˜ oes da Classe Chebyshev-Halley

Sistemas N˜ ao Lineares

3.4 M´ etodos Tensoriais

3.4.3 Algumas Varia¸ c˜ oes da Classe Chebyshev-Halley

I+ 1

2 −α

L(x^k)

s^k₍₁₎

= (I−αL(x^k))s^k₍₁₎+1

2L(x^k)s^k₍₁₎. Com isso

(I−αL(x^k))s^k₍₂₎ = 1

2L(x^k)s^k₍₁₎.

Multiplicando porJ_F(x^k) em ambos os lados e usando a defini¸c˜ao deL(x) dada em (3.40), obtemos

(J_F(x^k) +αT^F(x^k)s^k₍₁₎)s^k₍₂₎ =−1

2T^F(x^k)s^k₍₁₎s^k₍₁₎.

Desta forma, temos (3.46).

3.4.3 Algumas Varia¸ c˜ oes da Classe Chebyshev-Halley

Apesar dos métodos da Classe Chebyshev-Halley serem muito atrativos para resolver o problema (3.1), por terem taxa de convergência cúbica, eles são computacionalmente caros, basicamente por dois motivos:

1. necessidade de se obter o tensor T^F(x^k) a cada itera¸c˜ao e 2. resolver de forma exata dois sistemas lineares.

Apresentaremos nesta subse¸cão uma aproxima¸cão para o tensor T^F(x^k) utilizando diferen¸cas finitas baseada no trabalho [26], e um algoritmo baseado no trabalho de Stei-haug e Suleiman [73], que procura encontrar um zero aproximado para o modelo quadrático deF em torno dex^k utilizando ideias da Classe Chebyshev-Halley.

Classe Chebyshev-Halley Discreta

Algumas aproxima¸c˜oes para o tensor T^F(x), relativamente antigas, foram publicadas em [26, 63, 76]. Aqui vamos nos restringir ao artigo [26] de Ehle e Schwetlick de 1976.

Para isso, considere a seguinte defini¸c˜ao:

Sistemas Não Lineares 54 Defini¸cão 3.5 Seja F : IRⁿ→IRⁿ duas vezes diferenciável. Dizemos queB: IRⁿ×IR→ IR^n×n×n é uma aproxima¸cão fortemente consistente para T^F quando existemc, r ≥0 tais que

kB(x, h)− T^F(x)k ≤c|h| para todox∈IRⁿ e para todo h tal que |h|< r.

Uma defini¸c˜ao mais geral pode ser vista em [26, Defini¸c˜ao 3.1].

Com hipótese Lipschitz sobreT^F, um exemplo de aproxima¸cão fortemente consistente para TF, é aproximar TF(x) usando diferen¸cas finitas, ou seja, constru´ımos um tensor B(x, h) tal que a q-ésima camada lateral de B(x, h) é

B^:q: =Be_q= J_F(x+he_q)−J_F(x)

h (3.48)

para todoq = 1. . . n, ondehé um parâmetro de discretiza¸cão, podendo ser diferente para cada derivada parcial. Este fato pode ser visto em [26].

A express˜ao (3.48) significa que cada camada horizontal ∇²f_i(x) com i = 1, . . . , n do tensorTF(x), pode ser aproximada por diferen¸cas de gradientes, ou seja,

col_q(∇²f_i(x))≈ ∇fi(x+heq)− ∇fi(x)

h .

Neste sentido, definimos a Classe Chebyshev-Halley discreta como J_F(x^k)s^k₍₁₎ = −F(x^k)

J_F(x^k) +αB(x^k, h_k)s^k₍₁₎

s^k₍₂₎ = −1

2B(x^k, h_k)s^k₍₁₎s^k₍₁₎, x^k+1 = x^k+s^k₍₁₎+s^k₍₂₎.

(3.49)

Algumas aproxima¸cões fortemente consistentes para o tensor T^F(x^k) foram utilizadas em um algoritmo proposto em [26], em particular a aproxima¸cão (3.48). Com essa abor-dagem, foi provado a convergência quadrática da Classe Chebyshev-Halley discreta (3.49).

Além disso, seh_k→0, então a taxa de convergência é superquadrática, no sentido que x^k+1−x^∗

≤ε_k

x^k−x^∗

2 com ε_k →0 (3.50)

e se

h_k=O

F(x^k)

então a convergência cúbica é garantida. Veja [26, Teorema 3.3].

Sistemas N˜ao Lineares 55 Classe Chebyshev-Halley Inexata

A Classe Chebyshev-Halley Inexata introduzida no artigo de Steihaug e Suleiman [73], publicado recentemente, foi motivada pelo fato de que um passo do método Super-Halley utilizado para encontrar um zero deF é equivalente a dois passos do método de Newton aplicados na aproxima¸cão quadrática de F em torno de x^k [37]. Para ver isso, note que um passos^kdo método Super-Halley é encontrado resolvendo o sistema (3.46) comα = 1, ou seja,

J_F(x^k)s^k₍₁₎ = −F(x^k)

J_F(x^k) +T^F(x^k)s^k₍₁₎

s^k₍₂₎ = −1

2T^F(x^k)s^k₍₁₎s^k₍₁₎, s^k = s^k₍₁₎+s^k₍₂₎.

Os vetores s^k₍₁₎ e s^k₍₂₎ s˜ao unicamente determinados supondo que as matrizes J_F(x^k) e J_F(x^k) +T^F(x^k)s^k₍₁₎ sejam n˜ao singulares.

O m´etodo de Newton aplicado duas vezes na quadr´atica M_k(s) =F(x^k) +J_F(x^k)s+1

2TF(x^k)ss, (3.51) come¸cando coms⁰ = 0, gera os sistemas

J_M_k(0)s¹ = −M_k(0)

J_M_k(s¹)s² = −M_k(s¹), (3.52) ondeJ_M_k denota a jacobiana deM_k. Vamos mostrar ques^k₍₁₎ =s¹ e s^k₍₂₎ =s². Temos que

J_M_k(s) =J_F(x^k) +TF(x^k)s e TMk(s) = TF(x^k).

ComoJ_M_k(0) =J_F(x^k) e M_k(0) =F(x^k), vemos facilmente que s^k₍₁₎ =s¹ e de J_M_k(s¹) = J_F(x^k) +TF(x^k)s¹

eM_k(s¹) = 1

2T^F(x^k)s¹s¹, temos s^k₍₂₎ =s².

Isto significa que o método Super-Halley pode ser definido como um método que, a cada itera¸cão, obtém um “zero aproximado” do modelo quadrático (3.51) usando dois passos do método de Newton no modelo quadrático (3.51).

Determinar os zeros do modelo quadrático (3.51) não é tarefa fácil devido as desvan-tagens citadas no in´ıcio da Se¸cão 3.4, principalmente porque os zeros podem nem existir.

Como visto na Se¸cão 3.4.1, na estratégia adotada por Schnabel e Frank [68], o tensor T^F(x^k) é aproximado pelo tensor T^k dado em (3.36), e então procura-se um zero para o modelo quadrático (3.37) resolvendo o problema de minimiza¸cão (3.38). Ao contrário

Sistemas N˜ao Lineares 56 dessa estrat´egia, com o objetivo de resolver o problema (3.1), Steihaug e Suleiman [73]

propuseram um algoritmo que consiste em encontrar um zero aproximado para o modelo quadr´atico (3.51) a cada itera¸c˜ao, de modo que o res´ıduo

r^k = 1 como no método de Newton inexato. Observe que nenhuma aproxima¸cão para o tensor T^F(x^k) é utilizada. Neste sentido, segue adiante o algoritmo de Steihaug e Suleiman.

Algoritmo 3.6:Algoritmo de Steihaug e Suleiman [73]

Dado: x⁰ ∈IRⁿ

Podemos entender o Algoritmo 3.6 como uma extensão do método de Newton inexato, pois ao invés de exigir um decréscimo suficiente no modelo linear, é exigido um decréscimo suficiente no modelo quadrático. Destacamos uma diferen¸ca sutil a respeito do termo for¸cante entre o Algoritmo 3.6 de Steihaug e Suleiman e o método de Newton inexato.

No método de Newton inexato, η_k pode ser dado a priori e no Algoritmo 3.6 não, ou seja, dado um η_k ∈[0,1), nem sempre é poss´ıvel obter um s^k tal que tal que a condi¸cão (3.54) seja verificada.

Como é de se esperar, assim como no método de Newton inexato, o termo for¸cante η_k tem um papel fundamental na taxa de convergência da sequência (x^k) gerada pelo Algoritmo 3.6, conforme estabelece o seguinte resultado.

Teorema 3.6 Sejam x^∗ ∈ IRⁿ um zero de F : IRⁿ → IRⁿ, η_k ≤ η < 1 para todo k ∈ IN. Suponha que F seja três vezes continuamente diferenciável e que J_F(x^∗) seja não

Sistemas N˜ao Lineares 57

F(x^k)

F 0.36F(x^k)

x^k

Figura 3.1: A condi¸cão do res´ıduo (3.54) não é verificada.

singular. Se

Prova. [73, Teorema 1].

E necess´´ ario ter um algoritmo que obtém um zero aproximado s^k para o modelo quadrático (3.51) de maneira que a condi¸cão do res´ıduo (3.53) seja verificada para algum η_k ∈ [0,1) e que

. Neste sentido e motivados pelo método Super-Halley, Steihaug e Suleiman também propuseram em [73] uma classe de métodos chamada Classe Chebyshev-Halley Inexata. Esta abordagem inexata consiste em aplicar o método de Newton inexato nos dois sistemas (3.52), ou seja, dados η_k⁽¹⁾, η_k⁽²⁾ ∈ [0,1), obter s^k₍₁₎ e

Sistemas N˜ao Lineares 58 ent˜ao (3.56) e (3.57) podem ser escritos, respectivamente, como

J_F(x^k)s^k₍₁₎ =−F(x^k) + ˜r^k₁ passo do método Super-Halley Inexato [38]. Desta forma, em [73] é proposto a Classe Chebyshev-Halley Inexata incorporando em (3.58) o parâmetroα∈IR da seguinte maneira

J_F(x^k)s^k₍₁₎ =−F(x^k) + ˜r^k₁ dados em (3.59) tais que as condi¸cões dos res´ıduos (3.55) sejam verificadas. Então os métodos da Classe Chebyshev-Halley Inexata são localmente convergentes. Além disso, supondo que

Sistemas Não Lineares 59 para algum p, q ∈(0,1], temos que a taxa de convergência é

min{(1 +p)(1 +q),3}, para α= 1 e

min{(1 +p)(1 +q),2 +p,3}, paraα 6= 1

Prova. Em [73, Teorema 3], a ideia da demonstra¸c˜ao ´e mostrar que paraksuficientemente grande existeη_k ∈(0,1), tal que

. Da´ı a convergˆencia segue do Teorema 3.6. O restante da prova pode ser vista em [73, Teorema 3].

Note no teorema anterior, que a convergência cúbica da Classe Chebyshev-Halley Ine-xata (3.59) para α 6= 1 é atingida, quando p= 1 e 0.5≤q ≤ 1 e para α = 1 é suficiente escolherp=q =√

3−1.

Os autores de [73] também propuseram uma modifica¸cão da Classe Chebyshev-Halley Inexata. Nesta classe, o passo de Newton é calculado de maneira exata e então o segundo sistema de (3.59) é resolvido por algum método iterativo, ou seja,

J_F(x^k)s^k₍₁₎ = −F(x^k) (3.60)

Esta classe ´e denominada em [73] como Classe Chebyshev-Halley Inexata Modificada.

A estratégia adotada em [73] para obter s^k₍₁₎ é resolver o sistema (3.60) via decomposi¸cão LU. Para resolver o sistema (3.61), os autores não utilizam a decomposi¸cão da matriz J_F(x^k)+αT^F(x^k)s^k₍₁₎. Eles reutilizam a decomposi¸cão LU da jacobianaJ_F(x^k) e executam algumas itera¸cões do método do ponto fixo linear baseado em splittings ² de

J_F(x^k) +αTF(x^k)s^k₍₁₎. Mais especificamente, fixadok e fazendo

B_k=J_F(x^k),

2Estratégias desta natureza são clássicas na literatura, como por exemplo os métodos de Jacobi e Gauss-Seidel.

Sistemas N˜ao Lineares 60 C_k =−αT^F(x^k)s^k₍₁₎

b=−1

2T^F(x^k)s^k₍₁₎s^k₍₁₎, o sistema (3.61) pode ser reescrito, como

Bw=Cw+b,

onde w=s^k₍₂₎. Dada uma estimativa inicial w⁰, o processo iterativo Bw^l=Cw^l−1+b

´e constru´ıdo para todo l= 1,2,3, . . .. Desta forma, o Algoritmo 3.7 ´e proposto em [73].

Algoritmo 3.7:C´alculo de s^k₍₂₎ e ˜r^k₂

DefinaA=J_F(x^k) +αTF(x^k)s^k₍₁₎, b =−1

2TF(x^k)s^k₍₁₎s^k₍₁₎. Dadosw⁰ = 0 er⁰ =b.

paral = 1,2, . . .

Definaz^l−1 a solu¸c˜ao do sistemaJF(x^k)z^l−1 =r^l−1 Atualize w^l =w^l−1+z^l−1

Atualize r^l =b−Aw^l fim

s^k₍₂₎ =w^l, ˜r₂^k=r^l e j =l.

Note que apenas a decomposi¸cão deJ_F(x^k) é necessária no Algoritmo 3.7. Calculando s^k₍₂₎ pelo Algoritmo 3.7, os autores mostraram a convergência da Classe Chebyshev-Halley Inexata Modificada. Isto pode ser constatado no próximo teorema.

Teorema 3.8 Sejam x^∗ ∈IRⁿ um zero de F : IRⁿ →IRⁿ, s^k₍₁₎ e s^k₍₂₎ solu¸cões de (3.60) e (3.61), respectivamente, tais que a condi¸cão do res´ıduo(3.55)seja verificada. Suponha que o Algoritmo 3.7 termine em j itera¸cões. Então os métodos da Classe Chebyshev-Halley Inexata Modificada são localmente convergentes e a taxa de convergência é min{3, j+ 2} para qualquer α∈IR.

Prova. Assim como na prova do Teorema 3.7, a ideia da demonstra¸c˜ao ´e mostrar que para k suficientemente grande existe η_k∈(0,1), tal que

2T^F(x^k)s^ks^k+J_F(x^k)s^k+F(x^k)

≤η_k

F(x^k) ,

Sistemas N˜ao Lineares 61 onde s^k =s^k₍₁₎+s^k₍₂₎ e que

s^k

F(x^k)

. Da´ı a convergência segue do Teorema 3.6. A taxa de convergência é obtida escolhendo ηk=O

F(x^k)

min{2,j+1}

no Teorema 3.6. Os detalhes da demonstra¸c˜ao podem ser vistos em [73, Teorema 2].

No documento Lista de Figuras (páginas 69-78)