CuritibaSetembrode2016 MÉTODOSDEGAUSS-NEWTONPARAPROBLEMASDEQUADRADOSMÍNIMOSNÃOLINEARES:TEORIA,VALIDAÇÃONUMÉRICAEAPLICAÇÃOEMGEOFÍSICA MONIQUEBONFIMDESOUZA

(1)

M´ ETODOS DE GAUSS-NEWTON PARA PROBLEMAS DE QUADRADOS M´INIMOS N ˜ AO LINEARES:

TEORIA, VALIDAC ¸ ˜ AO NUM´ ERICA E APLICAC ¸ ˜ AO EM GEOF´ISICA

Curitiba Setembro de 2016

(2)

M´ ETODOS DE GAUSS-NEWTON PARA PROBLEMAS DE QUADRADOS M´INIMOS N ˜ AO LINEARES:

TEORIA, VALIDAC ¸ ˜ AO NUM´ ERICA E APLICAC ¸ ˜ AO EM GEOF´ISICA

Disserta¸cão apresentada ao Programa de Pós-Gradua¸cão em Matemática da Univer- sidade Federal do Paraná, como requisito parcial à obten¸cão do grau de Mestre em Matemática.

Orientador: Prof. Dr. Saulo Pomponet Oliveira.

Curitiba Setembro de 2016

(3)

m´ınimos não lineares: teoria, valida¸cão numérica e aplica¸cão em geof´ısica / Monique Bonfim de Souza. — Curitiba, 2016.

66 f.: il.

Disserta¸cão (Mestrado) - Universidade Federal do Paraná, Se- tor de Ciências Exatas, Programa de Pós-gradua¸cão em Ma- temática, 2016.

Orientador: Prof. Dr. Saulo Pomponet Oliveira

1. Matem´atica. 2. Algoritmos. 3. Geof´ısica. I. Universidade Federal do Paran´a. II. Oliveira, Saulo Pomponet. III. T´ıtulo.

CDD: 510

(4)

!^ k1f V

PRÓrREITORIA

DE PESQUISA E

PÕS-GRADUAÇÀO Sctor C[j?NciAS EXATAS

V J r“ Jk rÇ**

Programa de Pós Graduação em MATEMÁTICA Código CAPES: 40001016041PK

UNIVERSIDADE EEDÊRAL DO PARANA

TERMO DE APROVAÇÃO

Os membros da Banca Examinadora designada ,pelo Colegiado do Programa de Pós-Graduação em MATEMÁTICA da Universidade Federal do Paraná To ram convocados para realizar a arguição da Dissertação de Mestrado de MONIQUE BONFIM DE SOUZA, intitulada: "MÉTODOS DE GAUSS- NEWTON PARA PROBLEMAS DE QUADRADOS MÍNIMOS NÃO LINEARES: TEORIA, VALIDAÇÃO NUMÉRICA E APLICAÇÃO EM GEOFÍSICA", após terem inquirido a aluna e realizado a avaliação do trabalho, são de parecer pela sua ^ ^p tf ^«\

Curitiba, 19 de Setembro de 2016.

^SAULO POMPONET OLIVEIRA Presidente da Banca Examinadora (UFPR)

%A \ íl

^ ^ ^

HIAREZ ops s a n to s azevèdo v Avaliador Externo (UFRB)

LUCAS GARCIA PEDROSO Avaliador Interno (UFPR)

Programa de Pós Graduação em MATEMÁTICA | UFPR

Coordenação PPGMA, Centro Politécnico, UFPR - Curitiba - Paraná - Brasil"

CEP 81531990 -Tel: (041) 3361 3026 - Fax: (041) 3361 3026 - E-mail: pgmat@ufpr.br

(5)

Para o meu amor mais puro e genu´ıno, minha m˜ae Maria.

(6)

Agrade¸co a Deus, pelo lugar na natureza e no mundo cient´ıfico.

Ao meu pai Manoel e minha mãe Maria José (in memoriam), pela educa¸cão que recebi, pela personalidade que tenho, por me apoiarem, por lutarem por meus sonhos, por suportarem a distância, e por deixarem de realizar algumas de suas vontades para que eu pudesse realizar as minhas.

A minha tia Carmel e ao meu irm˜` ao Lucas, pelo apoio e amor incondicional, pela compreens˜ao e por sempre dizer “sim”aos meus pedidos.

A todos os meus amigos que estão perto e aos que estão fisicamente distantes, mas próximos em pensamento. Em especial, a Flávia, Paulo, Teles, Mirella, Cami, Joseane, Geovani, Ana, Tai, Victor, Dan, Túlio, Bia, Cl´ıvia e Sulivan, por acreditarem em mim mais do que eu mesma pude acreditar, pela confian¸ca, pela parceria, pelas recep¸cões, pelos risos e lágrimas compartilhados.

Ao professor Marcio Bortoloti, pelas palavras de incentivo, por todo conhecimento adquirido, pela motiva¸c˜ao para que eu n˜ao pensasse em desistir.

A todo o corpo doscente do PPGMA, pelos conhecimentos compartilhados e pelo incentivo. Em especial, aos professores que tive o prazer de participar das aulas.

Aos membros da banca, Lucas, Juarez, Ana Gabriela e Rodolfo, por aceitarem o convite.

Ao meu orientador Saulo, pelo exemplo de excelência em docência e pesquisa, pela disposi¸cão para trabalhar comigo, por todo conhecimento adquirido, toda oportunidade, compreensão e paciência.

Ao Programa de Pós-Gradua¸cão em Matemática da UFPR, pela oportunidade e qualidade na forma¸cão.

A CAPES pelo apoio financeiro.`

A todos que direta ou indiretamente contribuiram para minha forma¸c˜ao, o meu muito obrigada.

(7)

E pela dor eu descobri o poder da alegria E a certeza de que tenho coisas novas Coisas novas pra dizer”

Belchior

(8)

Algoritmos de programa¸cão não-linear são importantes na resolu¸cão de problemas de quadrados m´ınimos. Neste trabalho apresentamos um estudo teórico e computacional dos métodos de Newton e Gauss-Newton, anali- sando algumas de suas caracter´ısticas, tais como o passo do método, prin- cipais pré-requisitos para funcionamento, e a convergência. Abordamos os métodos de busca pseudo-aleatória de Monte Carlo e Quasi-Monte Carlo, e mostramos exemplos de constru¸cão de uma das sequências de baixa dis- crepância (a sequência de Sobol) utilizadas na gera¸cão das amostras do método de Quasi-Monte Carlo. Analisamos os resultados numéricos de experimentos com versões clássicas de cada método e versões h´ıbridas (ou seja, métodos que combinam o método de (Quasi-)Monte Carlo com o método de Gauss-Newton). Os experimentos foram realizados com uma biblioteca de fun¸cões-objetivo em linguagem Fortran proposta por Moré, Garbow e Hills- trom. Comparamos os resultados observando o erro residual, quantidade de itera¸cões utilizadas, eficiência e robustez na resolu¸cão de problemas clássicos da literatura, e aplicamos os métodos a um problema de inversão de dados s´ısmicos considerando um modelo elástico para meios estratificados.

Palavras-chave: quadrados m´ınimos não-lineares; método de Gauss- Newton; método de Monte Carlo; método de Quasi-Monte Carlo; algoritmo h´ıbrido.

(9)

Nonlinear programming algorithms are important in solving least squares problems. We have presented a theoretical and computational study of New- ton and Gauss-Newton methods by analyzing their characteristics (such as the step size and main assumptions) and convergence. We considered pseudo random search methods, namely the Monte Carlo and Quasi-Monte Carlo methods, showing examples of construction of one of the low dis- crepancy sequences (Sobol sequence) used on samples generation of Quasi- Monte Carlo method. We analyzed numerical results of experiments using classical versions of each method and hybrid versions (i.e., combining Quasi- Monte Carlo with the Gauss-Newton methods). The numerical experiments were carried out with a library of objective functions in Fortran programming language proposed by Mor´e, Garbow, and Hillstrom. We compared the results obtained looking at the residual error, number of iterations used, efficiency and robustness in solving classic literature problems, and applied the methods to a seismic inverse problem considering an elastic model for layered media.

Keywords: nonlinear least squares; Gauss-Newton method; Monte Carlo method; Quasi-Monte Carlo method; hybrid algorithm.

(10)

3.1 Distribui¸c˜ao de 100 amostras . . . 30

4.1 Redu¸cão do res´ıduo encontrado pelos métodos HMC e HqMC, comparados ao res´ıduo inicial, utilizando 1000 amostras e critério de parada de 10⁻¹⁰. 42 4.2 Redu¸cão do res´ıduo utilizando 1000 amostras, com critério de parada de 10% do erro residual no ponto inicial dado por [25]. . . 43

4.3 Redu¸c˜ao do res´ıduo utilizando 20 amostras, com crit´erio de parada de 10% do erro residual no ponto inicial dado por [25]. . . 43

4.4 Métodos GN, GNMC, GNqMC, HMC, HqMC, MC e qMC (numerados de 1 a 7 no eixo x) aplicados à Fun¸cão Meyer, critério de parada 10⁻¹⁰, 1000 amostras. . . 44

4.5 Métodos GN, GNMC, GNqMC, HMC, HqMC, MC e qMC (numerados de 1 a 7 no eixo x) aplicados à Fun¸cão Chebyquad, critério de parada 10⁻¹⁰, 1000 amostras. . . 45

4.6 Res´ıduo atingido na solu¸c˜ao do Problema 54. . . 46

(11)

4.16 Perfil do desempenho: 1000 amostras. . . 52

4.21 Res´ıduo relativo final dos m´etodos GNMC, GNqMC, HMC e HqMC (numerados de 1 a 4 no eixo x) aplicados ao problema de invers˜ao s´ısmica. . 58

4.22 Res´ıduo dos m´etodos GNMC, GNqMC, HMC e HqMC. . . 59

4.23 Deslocamento calculado . . . 60

(12)

1 Introdu¸c˜ao 1

2 M´etodo de Newton e Gauss-Newton 4

2.1 Introdu¸c˜ao . . . 4

2.2 M´etodo de Newton . . . 5

2.2.1 Convergˆencia do m´etodo . . . 6

2.3 M´etodo de Gauss-Newton . . . 13

2.3.1 Convergˆencia do m´etodo . . . 16

2.3.2 Gauss-Newton Amortecido . . . 23

2.4 Regulariza¸c˜ao . . . 24

3 M´etodo de Monte Carlo e Quasi-Monte Carlo 25 3.1 Introdu¸c˜ao . . . 25

3.1.1 M´etodo de Monte Carlo . . . 25

3.1.2 M´etodo de Quasi-Monte Carlo . . . 27

3.1.3 Abordagem H´ıbrida . . . 32

4 Resultados Num´ericos 35 4.1 Banco de Fun¸c˜oes . . . 36

4.2 Crit´erios de Compara¸c˜ao . . . 37

4.2.1 Avalia¸c˜ao pelo n´umero de melhores resultados . . . 39

4.2.2 Avalia¸c˜ao por histogramas . . . 41

4.2.3 Erro residual de problemas espec´ıficos. . . 45

4.2.4 Perfil de Desempenho . . . 52

4.3 Aplica¸c˜ao a um problema geof´ısico . . . 56

5 Conclus˜ao 61

(13)

(14)

1 INTRODUC ¸ ˜ AO

A otimiza¸cão é uma área da matemática que possui muitas aplica¸cões, fazendo parte direta ou indiretamente do nosso cotidiano. Em economia, geof´ısica, medicina, engenharias, administra¸cão, biologia, entre outras ciências, surgem problemas onde é poss´ıvel representá-los através de um modelo matemático e utilizar técnicas de otimiza¸cão para resolvê-los.

Na geof´ısica, por exemplo, o estudo e desenvolvimento de métodos matemáticos torna eficiente a solu¸cão de problemas associados à propaga¸cão de sinais. O subsolo, por ser um meio heterogêneo, composto por rochas, areia, sedimentos, entre outros elementos, apresenta em cada uma de suas camadas velocidades de propaga¸cão de ondas distintas.

Para as indústrias petrol´ıferas, por exemplo, é importante descobrir se uma determinada região tem as caracter´ısticas de um reservatório de petróleo para iniciar os investimentos na extra¸cão.

Quando acontece um terremoto, explosões, ou outros eventos semelhantes na superf´ıcie da Terra, é poss´ıvel coletar dados através de receptores projetados com a finalidade de gravar as ondas de perturba¸cão do ambiente, que são emitidas durante o evento. Devido às altera¸cões que essas ondas sofrem durante a propaga¸cão é poss´ıvel coletar dados e identificar as rochas que compõem o solo, pois estas influenciam nas altera¸cões. Esses dados podem ser obtidos através do processo de inversão, utilizando, por exemplo, a tomografia s´ısmica, pois esta possibilita a visualiza¸cão de imagens mais n´ıtidas, livres de ru´ıdos, permitindo o reconhecimento da composi¸cão do subsolo.

Na tomografia por impedância reconstrói-se propriedades de um objeto, sabendo o valor de algumas medidas tomadas sobre a fronteira deste. Nos estudos referentes à tomografia computadorizada, tratamos de um problema inverso de otimiza¸cão, não-linear e mal-condicionado. O mal-condicionamento acontece devido à discretiza¸cão da Equa¸cão Integral de Fredholm, que torna o problema mal-posto pois a existência e unicidade da solu¸cão do problema nem sempre são garantidas [32]. Na tomografia, temos o objetivo de

(15)

minimizar diferen¸cas entre dados observados e dados calculados, utilizando um modelo num´erico.

Um dos objetivos da inversão geof´ısica, descrita em termos de probabilidade ou por abordagens clássicas, é a busca pelo m´ınimo de uma fun¸cão erro, E : Rⁿ → R, continuamente diferenciável, dada por

E(m) = 1

2kdobs −g(m)k², (1.1) sendod_obs o vetor de dados observados e g(m) uma fun¸cão não-linear que corresponde à solu¸cão do problema direto (em tomografia s´ısmica, usualmente corresponde ao cálculo dos tempos de trânsito a partir do campo de velocidades). Assim sendo, temos um problema de quadrados m´ınimos não linear, e os candidatos a minimizadores da fun¸cão E são seus pontos estacionários, portanto estaremos encontrando a solu¸cão do sistema

∇E(m) = 0. (1.2)

Segundo Leon [15], a técnica de quadrados m´ınimos foi desenvolvida indepen- dentemente por Andrien-Marie-Legendre e Carl Friedrich Gauss. O primeiro artigo sobre o assunto foi publicado por Legendre em 1806, embora haja evidências de que nove anos antes desta publica¸cão, Gauss havia descoberto o método como estudante e o utilizado para fazer cálculos astronômicos. A chave do sucesso de Gauss e reconhecimento como matemático, e não apenas astrônomo, foi o uso do método de quadrados m´ınimos.

Para resolver o problema de quadrados m´ınimos não lineares existem diver- sos métodos com vantagens e desvantagens, como por exemplo, o método de Newton e Gauss-Newton [5], que possuem convergência local. São métodos eficientes, porém, caso a superf´ıcie definida pela fun¸cão erro tenha vários picos e depressões, esse tipo de abordagem pode falhar, pois o método encontrará o m´ınimo mais próximo ao ponto de partida, que pode não ser o melhor minimizador do problema.

A fim de resolver o caso em que a fun¸cão erro tem vários pontos cr´ıticos, utiliza-se os métodos de otimiza¸cão global. Um dos métodos estudados para esse tipo de problema inverso é o método de resfriamento simulado (Simulated Annealing), como citado em [11],

(16)

[20] e [23]. O método foi proposto inicialmente para lidar com problemas de otimiza¸cão combinatória, mais tarde estendido para problemas cont´ınuos. Como resultados dos estudos realizados, foram encontrados convergência assintótica para um m´ınimo global

´

otimo, mas não há garantia de que obtenhamos uma boa solu¸cão em um número finito de itera¸cões [27].

Além do método de resfriamento simulado, os métodos de Monte Carlo e Quasi- Monte Carlo também utilizam otimiza¸cão aleatória, podendo ser aplicados individualmente ou em conjunto com métodos que utilizam derivadas, como por exemplo, o Newton e Gauss-Newton.

A finalidade deste trabalho é fazer um levantamento teórico/prático dos métodos de Newton, Gauss-Newton, Monte Carlo e Quasi-Monte Carlo, e compará-los mediante experimentos numéricos com versões h´ıbridas, com busca unidirecional quando poss´ıvel, além de observar o comportamento de cada um quando aplicado individualmente.

O Cap´ıtulo 2 apresenta defini¸cões, caracter´ısticas e convergência do método de Newton, além de mostrar uma de suas varia¸cões.. Apresenta defini¸cões e caracter´ısticas do método de Gauss-Newton, mostrando que esse converge quadraticamente, enunciando e demonstrando teoremas com resultados necessários para provar a convergência.

O Cap´ıtulo 3 apresenta defini¸cões sobre o métodos de Monte Carlo, além de um pouco da teoria sobre o método de Quasi-Monte Carlo, explicitando a sequência pseudo-aleatória utilizada no método, chamada sequência Sobol.

O objetivo do Cap´ıtulo 4 é apresentar os resultados númericos da compara¸cão dos métodos definidos e discutidos nos cap´ıtulos anteriores. Para isto, utilizamos diferentes quantidades de amostras, a fim de perceber quantas amostras são suficientes para que determinados métodos atinjam resultados satisfatórios. Comparamos versões clássicas e h´ıbridas dos métodos, com diferentes critérios de parada, observando quais métodos obtêm melhores resultados. Realizamos também uma aplica¸cão dos métodos a um problema inverso com motiva¸cão geof´ısica.

(17)

2 M´ ETODO DE NEWTON E GAUSS-NEWTON

2.1 Introdu¸ c˜ ao

Num problema de quadrados m´ınimos desejamos resolver um sistema de equa¸c˜oes

g(m) = d_obs (2.1)

em que devemos observar se o sistema a ser resolvido ´e um caso linear ou n˜ao-linear.

Como exemplo de um caso n˜ao-linear, considere a fun¸c˜ao

g(m) =







1

2(m₁² +m₂²) m₁m₂

2m₂





 ,

onde g :R² →R³. Problemas desse tipo podem ou não ter solu¸cão. Para os dois casos existem algoritmos que resolvem o problema. Se para g(m) citado acima considerarmos d_obs = (0,0,0), por exemplo, o sistema possui solu¸cãom₁ = 0 em₂ = 0. Para o caso em qued_obs = (0,1,0), é fácil notar que o sistema não possui solu¸cão.

Ao resolver sistemas como o exemplo em que d_obs = (0,1,0), estamos resolvendo um problema de quadrados m´ınimos. Neste cap´ıtulo trataremos do método de Newton e uma de suas varia¸cões, o método de Gauss-Newton, para o problema de quadrados m´ınimos não linear

m∈minRⁿ

E(m), E(m) = 1

2kd_obs−g(m)k², (2.2) sendo dobs ∈ R^m o vetor de dados observados e g : Rⁿ → R^m uma fun¸cão não-linear dos parâmetrosm₁, . . . , m_n. Na nomenclatura de problemas inversos, calcular d=g(m) corresponde a resolver o problema direto (forward problem), enquanto calcularmtal que d_obs ∼=g(m) corresponde a resolver o problema inverso (inverse problem).

(18)

Neste cap´ıtulo utilizaremos frequentemente gradientes de fun¸c˜oes escalares e vetoriais, conforme a defini¸c˜ao a seguir.

Defini¸cão 2.1 Sejam (X,k · k_X) e (Y,k · k_Y) espa¸cos normados. Dizemos que uma fun¸cão f : X → Y é diferenciável em x₀ ∈ X se existe uma transforma¸cão linear Df[x₀] :X →Y tal que

f(x₀+h) = f(x₀) +Df[x₀](h) +r(h), lim

khk_X→0

r(h)

khk_X = 0. (2.3)

Em particular, sejam X =Rⁿ e Y =R^m, dotados com a norma euclideana. Se m= 1, ent˜ao Df[x₀](h) = ∇f(x₀)^th, sendo

[∇f(x₀)]_i = ∂f

∂xi

(x₀), 1≤i≤n,

o gradiente de f em x₀. Se m > 1, ou seja, f(x) = [f₁(x), . . . , f_m(x)]^T, ent˜ao Df[x₀](h) =∇f(x₀)^th, sendo o gradiente em x₀ agora dado por

[∇f(x0)]_ij = ∂f_j

∂x_i(x0), 1≤i≤n, 1≤j ≤m.

2.2 M´ etodo de Newton

Assuma que a fun¸cão E : Rⁿ → R seja de classe C². Como o problema de minimiza¸cão (2.2) é irrestrito, os candidatos a minimizadores são os pontos estacionários deE(m), ou seja, os vetores m tais que

∇E(m) = 0. (2.4)

Ao resolver este tipo de problema, como se trata de um caso não linear, aproxima¸cões de fun¸cões geralmente são utilizadas, de modo que escolhemos um tipo de aproxima¸cão e aplicamos à fun¸cão do sistema.

(19)

Podemos usar o metodo de Newton para resolver o sistema (2.2), e para chegar- mos ao passo do m´etodo come¸caremos utilizando a aproxima¸c˜ao de Taylor de primeira ordem para∇E(m). Definindo F :Rⁿ →Rⁿ, tal que F(m) =∇E(m), temos que

F(m^(k)) +∇F(m^(k))(m−m^(k)) = 0

∇F(m^(k))(m−m^(k)) =−F(m^(k)), (2.5) sendom^(k) as aproxima¸c˜oes do vetorm e∇F a matriz hessiana de E. Se ∇F(m^(k)) for invers´ıvel, ent˜ao temos de (2.5) que

∇F(m^(k))m=−F(m^(k)) +∇F(m^(k))m^(k)

m=m^(k)−(∇F(m^(k)))⁻¹F(m^(k)). (2.6) Caso∇F(m^(k)) não seja invers´ıvel, o método de Newton não consegue calcular a próxima itera¸cão. Neste caso há duas alternativas: utilizar uma regulariza¸cão da matriz

∇F(m^(k)), comprometendo, entretanto, a precisão da solu¸cão aproximada pelo método, ou escolher um novo ponto inicial m⁽⁰⁾.

2.2.1 Convergˆ encia do m´ etodo

Nesta se¸cão mostraremos a prova, baseada em [5], de que a convergência do método de Newton para sistemas de equa¸cões não lineares é quadrática. O teorema a seguir, enunciado em [5], apresenta propriedades de norma matricial utilizadas na prova da convergência.

Teorema 2.2 Seja k · kuma norma em R^n×n tal que, para todoA, B ∈R^n×n e x∈Rⁿ, kABk ≤ kAkkBk, kIk= 1ekAxk ≤ kAk kxk. (2.7) Seja C ∈R^n×n. Se kCk<1, ent˜ao (I−C)⁻¹ existe, e

k(I−C)⁻¹k ≤ 1

1− kCk. (2.8)

(20)

Além disso, se A é não singular e kA⁻¹(B−A)k<1, então B é não singular e kB⁻¹k ≤ kA⁻¹k

1− kA⁻¹(B −A)k. (2.9)

Demonstra¸c˜ao.

Como kCk <1, temos que kCkⁿ < 1 . Além disso, segue de (2.7) que kCⁿk ≤ kCkⁿ < 1 logo limn→∞Cⁿ = 0. Se λ é um autovalor qualquer de C, entãoCⁿx= λⁿx, sendo x um autovetor associando a λ, temos que limn→∞λⁿ = 0. Como consequência,

|λ| < 1 para todo λ e portanto temos que ρ(C) < 1, onde ρ é o raio espectral. Como os autovalores deI−C são dados por 1−λ(C), sendoλ(C) autovalores de C e como o raio espectral de C é menor que um, conclu´ımos queI−C é não singular.

Sendo I =I−C+C, multiplicamos, pela direita, ambos os lados da igualdade por (I−C)⁻¹, e obtemos (I−C)⁻¹ =I+C(I−C)⁻¹. Aplicando a norma `a igualdade temos

k(I−C)⁻¹k = kI+C(I−C)⁻¹k

≤ kIk+kCk k(I −C)⁻¹k

= 1 +kCk k(I−C)⁻¹k. (2.10)

Da equa¸c˜ao (2.10), segue que

k(I−C)⁻¹k ≤ 1 +kCk k(I−C)⁻¹k k(I−C)⁻¹k − kCk k(I−C)⁻¹k ≤ 1

k(I−C)⁻¹k(1− kCk) ≤ 1 (2.11) Dividindo-se a desigualdade (2.11) por (1− kCk) obt´em-se a desigualdade (2.8) e, assim a desigualdade (2.11) vale quando kCk<1.

De maneira análoga, temos que k −Ck<1, então I−(−C) é invers´ıvel, e

k(I−(−C))⁻¹k ≤ 1 1− k −Ck k(I+C)⁻¹k ≤ 1

1− kCk (2.12)

(21)

Observe que, tomandoC =A⁻¹B−I, temos queI+C =I+A⁻¹B−I =A⁻¹B.

Ou seja, A⁻¹B é invers´ıvel. Como A também é invers´ıvel, B é invers´ıvel e (A⁻¹B)⁻¹ = B⁻¹A, logo

k(A⁻¹B)⁻¹k ≤ 1

1− kA⁻¹B−Ik kB⁻¹Ak ≤ 1

1− kA⁻¹B−A⁻¹Ak kB⁻¹Ak ≤ 1

1− kA⁻¹(B −A)k.

(2.13) Multiplicando a desigualdade (2.13) por kA⁻¹k, a desigualdade a seguir vale

kB⁻¹Ak kA⁻¹k ≤ kA⁻¹k

1− kA⁻¹(B−A)k.

(2.14) Considerando a propriedadekB⁻¹AA⁻¹k ≤ kB⁻¹AkkA⁻¹k, temos que

kB⁻¹k=kB⁻¹AA⁻¹k ≤ kB⁻¹AkkA⁻¹k

≤ kA⁻¹k

1− kA⁻¹(B −A)k. (2.15)

Teorema 2.3 Seja f :Rⁿ →R cont´ınua e diferenciável em um aberto conexo D⊂Rⁿ. Dadosx∈D e uma dire¸cão não-nulap∈Rⁿ, a derivada direcional def de xna dire¸cão de p, definida por

∂f(x)

∂p = lim

ξ→0

f(x+ξp)−f(x)

ξ ,

existe e ´e igual a ∇f(x)^tp. Al´em disso,

f(x+p) =f(x) + Z 1

0

∇f(x+tp)^tp dt

(22)

e existe z ∈Rⁿ tal que z =x+tp, com 0≤t≤1, e f(x+p) =f(x) +∇f(z)^tp.

Demonstra¸c˜ao. Veja [5].

Teorema 2.4 Seja F : Rⁿ → R^m continuamente diferenci´avel num conjunto aberto conexo D⊂Rⁿ. Para x, x+p∈D quaisquer, existe z =x+tp, tal que

F(x+p)−F(x) = Z 1

0

∇F(x+tp)^tp dt.

Demonstra¸cão. Como F é continuamente diferenciável, então cada componente F_i, i = 1, . . . , n, de F é continuamente diferenciável também. Definindo g(t) = F_i(x+tp) e usando o Teorema2.3 temos que

g(1)−g(0) = Z 1

0

g⁰(t)dt F_i(x+p)−F_i(x) =

Z 1 0

∇F_i(x+tp)^tp dt, logo,

F(x+p)−F(x) = Z 1

0

∇F(x+tp)^tp dt,

Teorema 2.5 Seja F : Rⁿ → R^m continuamente diferenciável num conjunto aberto conexo D ⊂ Rⁿ, x ∈ D, e seja ∇F(x)^t Lipschitz cont´ınua numa vizinhan¸ca de D, tal queα é a constante de Lipschitz. Então, para x+p∈D qualquer,

kF(x+p)−F(x)− ∇F(x)^tpk ≤ α

2kpk², p∈Rⁿ. Demonstra¸c˜ao. Pelo Teorema 2.4, temos que

F(x+p)−F(x) = Z 1

0

∇F(x+tp)^tp dt F(x+p)−F(x)− ∇F(x)^tp =

Z 1 0

∇F(x+tp)^tp dt− ∇F(x)^tp

= Z 1

0

∇F(x+tp)^t− ∇F(x)^t p dt.

(23)

Aplicando a norma nos dois lados da igualdade e propriedades da fun¸c˜ao norma, demonstradas utilizando defini¸c˜oes e teoremas de [16], temos que

kF(x+p)−F(x)− ∇F(x)^tpk =

Z 1 0

∇F(x+tp)^t− ∇F(x)^t p dt

≤ Z 1

0

∇F(x+tp)^t− ∇F(x)^t p

dt

≤ Z 1

0

∇F(x+tp)^t− ∇F(x)^t

kpk dt, como∇F^t ´e Lipschitz cont´ınua, temos que

∇F(x+tp)^t− ∇F(x)^t

≤ αkx+tp−xk = αktpk. Segue que

kF(x+p)−F(x)− ∇F(x)^tpk ≤ Z 1

0

αktpk kpkdt

≤ Z 1

0

α|t| kpk kpkdt

= αkpk² Z 1

0

|t|dt

= α

2kpk², concluindo a prova.

Defina V(x, r) como a vizinhan¸ca aberta de raio r em torno de x dada uma norma vetorial k · k, ou seja, V(x, r) = {bx∈Rⁿ:kbx−xk< r}.

Teorema 2.6 Seja F :Rⁿ→Rⁿ continuamente diferenciável num aberto convexo D⊂ Rⁿ. Assuma que existe m∗ ∈Rⁿ tal que F(m∗) = 0 e ∇F(m∗)é invers´ıvel, que existem r, β > 0 tais que V(m∗, r) ⊂ D, k∇F(m∗)⁻¹k ≤ β, e ∇F ∈ Lip_γ(V(m∗, r)). Então, existe >0 tal que para todo m₀ ∈V(m∗, ) a sequência m⁽¹⁾, m⁽²⁾, . . . gerada por

m^(k+1) =m^(k)− ∇F(m^(k))⁻¹F(m^(k)), k= 0,1, . . .

(24)

´e bem definida, e converge quadraticamente param_∗, ou seja,

km^(k+1)−m∗k ≤βγkm^(k)−m∗k², k= 0,1, . . . (2.16) Demonstra¸cão. Vamos escolher um tal que ∇F(m) é não singular para todo m ∈ V(m∗, ). Devemos mostrar que o erro local do modelo definido pela aproxima¸cão de Taylor, avaliado em m_∗, utilizado para gerar cada itera¸cão do Método de Newton é de, no máximo, O(km^(k)−m∗k²).

Considere

= min

r, 1 2βγ

. (2.17)

Vamos mostrar por indu¸cão em k que a cada passo a equa¸cão (2.16) é válida, e km^(k+1)−m∗k ≤ 1

2km^(k)−m∗k. (2.18)

Segue de (2.18) que m^(k+1) ∈V(m∗, ),o que garante que m^(k)∈V(m∗, ).

Devemos primeiro mostrar que ∇F(m⁽⁰⁾) ´e n˜ao singular. De fato, seja m⁽⁰⁾ tal que km⁽⁰⁾−m∗k ≤ . Pela igualdade (2.17) e pelo fato de ∇F(m∗) ser cont´ınua e lipschitziana, segue que

k∇F(m∗)⁻¹[∇F(m⁽⁰⁾)− ∇F(m∗)]k ≤ k∇F(m∗)⁻¹k k∇F(m⁽⁰⁾)− ∇F(m∗)k

≤ βγkm⁽⁰⁾−m∗k

≤ β.γ.

≤ 1

2. (2.19)

Assim, pela rela¸cão (2.9) do Teorema 2.2, ∇F(m₀) é não singular e k∇F(m⁽⁰⁾)⁻¹k ≤ k∇F(m∗)⁻¹k

1− k∇F(m∗)⁻¹[∇F(m₀)− ∇F(m∗)]k

≤ 2.k∇F(m∗)⁻¹k ≤2β.

Considere o conjuntoA={k∈N;m^(k) ∈V(m∗, )}. ComoF(m∗) = ∇E(m∗) = 0, como ∇F(m⁽⁰⁾)⁻¹ e F(m⁽⁰⁾) est˜ao bem definidos, temos que

(25)

m⁽¹⁾−m_∗ = m⁽⁰⁾−m_∗− ∇F(m⁽⁰⁾)⁻¹F(m⁽⁰⁾)

= m⁽⁰⁾−m_∗− ∇F(m⁽⁰⁾)⁻¹[F(m⁽⁰⁾)−F(m_∗)]

= ∇F(m⁽⁰⁾)⁻¹[F(m∗)−F(m⁽⁰⁾)− ∇F(m⁽⁰⁾)(m∗−m⁽⁰⁾)].

Temos que o termo entre colchetes é a diferen¸ca entre F(m∗)e o modelo definido pela aproxima¸cão de Taylor, avaliado em m∗. Portanto, podemos utilizar o Teorema 2.5 e pela equa¸cão (2.20) conclu´ımos que

km⁽¹⁾−m∗k ≤ k∇F(m⁽⁰⁾)⁻¹k kF(m∗)−F(m⁽⁰⁾)− ∇F(m⁽⁰⁾)(m∗−m⁽⁰⁾)k

≤ 2βγ

2km⁽⁰⁾−m∗k²

= βγkm⁽⁰⁾−m∗k². (2.20)

Da equa¸c˜ao (2.19), temos que

km⁽⁰⁾−m∗k ≤ 1 2(βγ), logo

km⁽¹⁾−m∗k ≤ 1

2km⁽⁰⁾−m∗k, o que prova que m⁽¹⁾ ∈V(m∗, ). Portanto,1∈A.

Supondo que k ∈ A, devemos mostrar que k + 1 ∈ A. Se k ∈ A, então m_k ∈ V(m∗, ). Primeiro, note que da mesma maneira que∇F(m⁽⁰⁾), ∇F(m^(k))é não singular e k∇F⁻¹(m^(k))k ≤2β. Portanto, m^(k) está bem definido e

m^(k+1)−m_∗ = m⁽⁰⁾−m_∗− ∇F(m^(k))⁻¹F(m^(k))

= m^(k)−m_∗− ∇F(m^(k))⁻¹[F(m^(k))−F(m_∗)]

= ∇F(m^(k))⁻¹[F(m_∗)−F(m^(k))− ∇F(m^(k))(m_∗−m^(k))]. (2.21) Utilizando o Teorema 2.5 e pela equa¸c˜ao (2.20) conclu´ımos que

(26)

km^(k+1)−m∗k ≤ k∇F(m^(k))⁻¹k.kF(m∗)−F(m^k)− ∇F(m^(k))(m∗−m^(k))k

≤ 2βγ

2km^(k)−m∗k²

= βγkm^(k)−m∗k². (2.22)

Conclu´ımos que k+ 1 ∈ A, logo, A = N, que junto com (2.22), prova que o teorema vale para todok ∈N.

Portanto, a sequˆencia m^(k) ⊂ Rⁿ, gerada pelo m´etodo de Newton, converge quadraticamente para m∗ ∈ Rⁿ, ou seja, m^(k) →m∗ e existe uma constante M > 0 tal que

km^(k+1)−m∗k km^(k)−m∗k² ≤M.

Apesar de ser um método localmente rápido, e sua convergência acontecer em apenas um passo para o caso de fun¸cões quadráticas, o método de Newton tem alto custo computacional, pois necessita do cálculo da matriz hessiana. Por isso, modifica¸cões deste métodos são mais utilizadas, já que muitos problemas não possuem fun¸cão objetivo quadrática. Na próxima se¸cão mostraremos uma modifica¸cão do Método de Newton.

2.3 M´ etodo de Gauss-Newton

O método de Gauss-Newton é bastante utilizado em aplica¸cões que se reduzem a um problema de quadrados m´ınimos da forma (2.2). A principal motiva¸cão para o uso deste método é que seu custo computacional é inferior ao método de Newton, pois não utiliza a hessiana da fun¸cão. O método consiste em aproxima¸cões do sistema não-linear por um sistema linearizado.

Considerando a fun¸cão objetivo E(m) da equa¸cão (2.2) e F : R^m → Rⁿ dada porF(m) = ∇E(m), tomando a expansão de Taylor de primeira ordem, assim como na equa¸cão (2.6), segue que

m=m^(k)−(∇F(m^(k)))⁻¹F(m^(k)). (2.23)

(27)

Calculando a derivada parcial de E(m) em rela¸c˜ao a m_j temos

∂E(m)

∂mj

= 1 2

m

X

k=1

∂

∂mj

(d^obs_k −g_k(m))²

= 1 2

m

X

k=1

2 d^obs_k −gk(m) ∂

∂m_j(−gk(m))

=

m

X

k=1

d^obs_k −g_k(m)

− ∂

∂m_jg_k(m)

(2.24) ou seja,

F(m) =







−∂g1(m)

∂m₁ . . . −∂gm(m)

∂m₁ ... . .. ...

−∂g1(m)

∂m_n . . . −∂gm(m)

∂m_n













d^obs₁ −g₁(m) ... d^obs_m −g_m(m)







= −J^t(m) (d_obs−g(m)), (2.25)

ondeJ(m) é uma matriz de derivadas parciais de dados com respeito à fun¸cãog(m), ou seja,J(m) é a matriz Jacobiana de g(m).

Para encontrar o passo do método de Gauss-Newton, precisamos escrever uma fórmula para∇F(m^(k)). Através do cálculo da segunda derivada deE(m) é poss´ıvel sepa- rar a expressão encontrada em termos lineares e não lineares. Eliminando o termo não linear mostramos que∇F(m^(k)) pode ser escrito como uma aproxima¸cão paraJ^t(m)J(m).

De fato,

∂²E(m)

∂m_i∂m_j =

m

X

k=1

−∂gk(m)

∂m_i

−∂gk(m)

∂m_j

+ d^obs_k −g_k(m)

−∂²gk(m)

∂m_i∂m_j

=

n

X

k=1

∂g_k(m)

∂m_i

∂g_k(m)

∂m_j +

d^obs_k −g_k(m)

−∂²g_k(m)

∂m_i∂m_j

. (2.26) Desprezando o ´ultimo termo da soma, temos que

∂²E(m)

∂m_i∂m_j ≈

n

X

k=1

∂g_k(m)

∂m_i

∂g_k(m)

∂m_j . (2.27)

(28)

Na forma matricial,

∇F(m)≈







∂g₁(m)

∂m₁

∂g₂(m)

∂m₁ . . . ∂g_n(m)

∂m₁ ... ... . .. ...

∂g₁(m)

∂m_n

∂g₂(m)

∂m_n . . . ∂g_n(m)

∂m_n













∂g₁(m)

∂m₁

∂g₁(m)

∂m₂ . . . ∂g₁(m)

∂m_n ... ... . .. ...

∂g_n(m)

∂m₁

∂g_n(m)

∂m₂ . . . ∂g_n(m)

∂m_n







∇F(m) ≈ J^t(m)J(m). (2.28)

A fórmula iterativa do método de Gauss-Newton é obtida escolhendo m^(k+1) como sendo a solu¸cão de (2.23) em que ∇F(m^(k)) é aproximada de acordo com (2.28), ou seja:

m^(k+1) = m^(k)+ (J^t(m^(k))J(m^(k)))⁻¹J^t(m^(k)) d_obs−g(m^(k)) J^t(m^(k))J(m^(k))d^(k) = J^t(m^(k))R(m^(k)) (2.29) sendod^(k) =m^(k+1)−m^(k) eR(m) =d_obs−g(m), que ´e equivalente a resolver o problema de quadrados m´ınimos lineares

minm kJ(m^(k))d^(k)−R(m^(k))k. (2.30) Dos resultados acima pode-se notar que o vetor dire¸cãod^(k) no passo de Gauss- Newton é obtido resolvendo um sistema linearizado. Note que essa dire¸cão é de descida.

De fato, segue de (2.25) e (2.30) qued^(k) = (J^t(m^(k))J(m^(k)))⁻¹∇E(m^(k)) e

∇E(m^(k))^td^(k) = ∇E^t(m^(k))(J^t(m^(k))J(m^(k)))⁻¹∇E(m^(k)). (2.31) Além disso, se J(m^(k)) tem posto completo, então a matriz J^t(m^(k))J(m^(k)) é definida positiva, logo seus autovalores são positivos, assim como sua inversa. Portanto,

−x^t[J^t(m^(k))J_k(m^(k))]x <0 ∀x6= 0.

Assumindo em particular que x=∇E(m^(k))6= 0, segue que ∇E(m^(k))^td_k<0.

(29)

2.3.1 Convergˆ encia do m´ etodo

Como discutido anteriormente, se a matriz jacobiana tem posto completo e o vetor ∇E(m^(k)) for não-nulo, então a dire¸cão do método é de descida. Vamos mostrar especificamente em quais condi¸cões o método converge localmente e que sua convergência

é quadrática. Para isso, utilizaremos os teoremas e demonstra¸cões conforme [5].

Teorema 2.7 Seja σ₁(A) o maior autovalor de A. Ent˜ao kAk₂ =p

ρ(A^HA) =p

ρ(AA^H) = σ₁(A).

Em particular, se A é hermitiana (ou real e simétrica), então kAk₂ =ρ(A),

enquanto, se A ´e unit´aria, kAk₂ = 1.

Demonstra¸c˜ao. Veja [1].

O teorema a seguir provará as propriedades que verificarão a convergência.

Teorema 2.8 Seja R : R^m → Rⁿ continuamente diferenci´avel no aberto convexo D ⊂ R^m, e R(m) = d_obs−g(m). Assuma que J(m) ´e lipschitziana em Dcom kJ(m)k₂ ≤M, para todo m ∈ D e que existe m^∗ ∈ D tal que J(m^∗)^tR(m^∗) = 0. Seja λ o menor autovalor de J(m^∗)^tJ(m^∗). Assuma que existe 0< σ < λ tal que

[J(m)−J(m^∗)]^tR(m^∗)

2 ≤ σkm−m^∗k₂ (2.32)

para todom ∈D.

Ent˜ao, ∀c ∈ 1,_σ^λ

,∃ε > 0 tal que ∀m₀ ∈ B(m_∗, ε), a sequˆencia gerada pelo m´etodo de Gauss-Newton

m^(k+1) =m^(k)−

J^t(m^(k))J(m^(k))⁻¹

J^t(m^(k))R(m^(k)) (2.33)

´e bem definida (ou seja, J^t(m^(k))J(m^(k)) ´e invers´ıvel), converge para m∗, e satisfaz as seguintes desigualdades

(30)

(1)

m^(k+1)−m∗

2 ≤ ^cσ_λ

m^(k)−m∗

2 + ^{cM α}_2λ

m^(k)−m∗

2

2 onde α ´e constante de Lipschitz de J(m∗).

(2)

m^(k+1)−m∗

2 ≤ ^cσ+λ_2λ

m^(k)−m∗

2, ^cσ+λ_2λ <1 Demonstra¸c˜ao.

A prova pode ser feita por indu¸c˜ao. Vamos denotar k.k₂ por k.k, e abreviar J(m₀), R(m₀) e R(m∗) porJ₀, R₀ e R∗, respectivamente.

Seja c∈ 1,^λ_σ

. Note que ∃ε₁ >0 tal que J₀^tJ₀ ´e n˜ao singular e

J₀^tJ₀−1 ≤ c

λ

para todom₀ ∈ B(m∗, ε₁). De fato, sendo λ₁, . . . λ_r autovalores de J_k^tJ_k, ent˜ao _λ¹

1 . . ._λ¹

r

são os autovalores de (J_k^tJ_k)⁻¹. No nosso caso, λ é o menor autovalor de J_∗^tJ∗, logo _λ¹ é o maior autovalor de (J_∗^tJ∗)⁻¹.

Sendo ρ (J∗J∗)⁻¹

o raio espectral de (J_∗^tJ∗)⁻¹, temos que

ρh J_∗^tJ∗

−1i

= 1 λ

= 1 λ. Do Teorema 2.7, temos que

J_∗^tJ_∗⁻¹ = 1

λ, comoc > 1, temos que _λ^c > _λ¹, logo

J_∗^tJ∗⁻¹ ≤ c

λ. (2.34)

Por hip´otese, J(m) ´e Lipschitziana. Considerando γ a constante de Lipschitz, seja

ε₁ = min

r, λ 2cγ

. (2.35)

(31)

Dado m₀ ∈B(m_∗, ε₁), temos que km₀−m_∗k ≤ε₁. Logo J^t(m)J(m) tamb´em ´e Lipschitiziana. Sejaγ a constante de Lipschitz de J^t(m)J(m). Logo

k(J_∗^tJ_∗)⁻¹[J₀^tJ₀−J_∗^tJ_∗]k ≤ k(J_∗^tJ_∗)⁻¹k.kJ₀^tJ₀−J_∗^tJ_∗k

≤ c

λγkm₀−m_∗k

≤ c λ.γ.ε

≤ 1

2. (2.36)

Assim, pela rela¸cão (2.9), temos que J(m₀)^tJ(m₀) é não singular e

kJ₀^tJ₀⁻¹k ≤ kJ_∗^tJ∗

−1k 1− kJ_∗^tJ∗−1

[J₀^tJ₀−J_∗^tJ∗]k

≤ 2.kJ_∗^tJ_∗⁻¹k ≤ 2c λ. Aplicando o primeiro passo m₁ temos que

m₁−m∗ = m₀− J₀^tJ₀−1

J₀^tR₀−m∗

= (m₀−m^∗)− J₀^tJ₀−1

J₀^tR₀

= J₀^tJ₀−1

J₀^tJ₀

(m₀−m∗)− J₀^tJ₀−1

J₀^tR₀

= − J₀^tJ₀−1

J₀^tJ₀(m₀−m∗) +J₀^tR₀

= − J₀^tJ₀−1

J₀^tJ₀(m₀−m∗) +J₀^tR∗ −J₀^tR∗+J₀^tR₀

= − J₀^tJ₀−1

J₀^tR∗−J₀^t(R∗−R₀−J₀(m∗−m₀))

. (2.37) Aplicando a norma 2 em (2.37) temos que

km₁−m∗k =

− J₀^tJ₀−1

J₀^tR∗−J₀^t(R∗−R₀−J₀(m∗−m₀)) ,

≤

− J₀^tJ₀−1

J₀^tR∗

+kJ₀^tk(kR∗−R₀−J₀(m∗−m₀)k)

.(2.38) De (2.34) temos que k −(J₀^tJ0)⁻¹k ≤ _λ^c, da´ı segue que

(32)

km₁−m_∗k ≤ c λ

kJ₀^tR_∗k+kJ₀^tk kR_∗ −R₀−J₀(m_∗−m₀)k

. (2.39)

Pelo Teorema 2.5, temos que

kR_∗−R₀ −J₀(m_∗ −m₀)k ≤ α

2km₀−m_∗k². (2.40) De (2.40) conclu´ımos que a desigualdade a seguir ´e v´alida

km₁−m∗k ≤ c λ

hkJ₀^tR∗k+kJ₀^tkα

2k(m₀ −m∗)k²i

. (2.41)

Da desigualdade (2.32), conclu´ımos que (J(m)−J(m∗))^tR(m∗)

≤ σkm−m∗k J^t(m)R(m∗)−J^t(m∗)R(m∗)

≤ σkm−m∗k, (2.42)

comoJ^t(m∗)R(m∗) = 0,

kJ^t(m)R(m∗)k ≤σkm−m∗k. (2.43) E, de (2.43) temos que

km₁ −m∗k ≤ c λ

hσkm₀−m∗k+kJ₀^tkα

2k(m₀−m∗)k²i

. (2.44)

Como kJ(m)k ≤M, segue que km₁−m∗k ≤ cσ

λ km₀−m∗k+ cM α

2λ k(m₀−m∗)k². (2.45) Portanto, o item (1) do teorema vale para k = 0.

Definindo o conjunto A ={k ∈N; a desigualdade no item (1) é satisfeita}, mostramos que 0∈A. Supondo que n∈A, temos que n+ 1∈A. De fato, de kx_k−x∗k ≤ε, da Lipschitz continuidade deJ(x_∗), e pela defini¸cão deε₁ na equa¸cão (2.35), de maneira análoga ao casoJ₀, temos que

k(J_∗^tJ∗)⁻¹[J_n^tJ_n−J_∗^tJ∗]k ≤ 1

2. (2.46)

(33)

Portanto, pela rela¸cão (2.9), temos que J_n^tJ_n é não singular e kJ_n^tJ_n⁻¹k ≤ 2.kJ_∗^tJ∗

−1k ≤ 2c λ .

Portanto,J_neF(m_n) est˜ao bem definidos e seguindo os mesmos passos da demonstra¸c˜ao quandok = 0 para o item(1), provamos que a desigualdade vale para k =n+ 1, ou seja

km_n+1−m_∗k ≤ cσ

λ km_n−m_∗k+ cM α

2λ k(m_n−m_∗)k².

(2.47) Logo, A=N. Portanto, a desigualdade vale para todo k∈N.

Passemos ao item (2) do teorema. Escolhendo ε = min

ε₁,λ−cσ cM α

, e usando a desigualdade do item (1) do teorema temos que

km₁−m_∗k ≤ cσ

λ km₀−m_∗k+ cM α

2λ k(m₀−m_∗)k².

≤ km₀−m∗k cσ

λ + cM α

2λ k(m₀ −m∗)k

≤ km₀−m∗k cσ

λ +cM α 2λ

λ−cσ cM α

= km₀−m∗k cσ

λ + λ−cσ 2λ

= km₀−m∗k

cσ+λ 2λ

<km₀−m∗k

(2.48) poiscσ≤ ^λ_σ.σ=λ, que implica que

cσ+λ

2λ ≤ λ+λ 2λ = 1.

Assim, provamos que o item (2) do teorema é válido para k = 0. De maneira análoga, supondo que vale parak =n, provamos que vale parak =n+ 1, assim∀k ∈N, temos que o item (2) é satisfeito, concluindo a prova do teorema.

(34)

Corolário 2.3.1 Assumindo que valem as hipóteses do Teorema 2.8. Se R(m_∗) = 0, então ∃ ε > 0 tal que para todo m₀ ∈ B(m∗, ε), a sequência gerada pelo Método de Gauss-Newton é bem definida e converge quadraticamente para m∗.

Demonstra¸cão. Se R(m∗) = 0 então ∀σ≥0, em particular para σ= 0, a desigualdade a seguir é válida

[J(m)−J(m∗)]^tR(m∗)

≤σkm−m∗k, ∀m∈D.

Como resultado do teorema anterior temos que km^(k+1)−m∗k ≤ cσ

λ km^(k)−m∗k+cM α

2λ k(m^(k)−m∗)k². Considerando σ= 0 temos que

km^(k+1)−m∗k ≤ cM α

2λ k(m^(k)−m∗)k². logo

km^(k+1)−m∗k

k(m^(k)−m∗)k² ≤ cM α 2λ .

Como ^{cM α}_2λ ≥0, conclu´ımos que o m´etodo converge quadraticamente.

Considerando S(m∗) igual ao segundo termo da equa¸cão (2.26), desprezado na defini¸cão do passo do método de Gauss-Newton, devemos ter kS(m∗)k ≤ σ, sendo σ a constante definida no Teorema 2.8. Logo, σ está relacionada a parte desprezada pelo método de Gauss-Newton, uma vez que para m suficientemente perto de m∗, temos que

(J(m)−J(m∗))^tR(m∗)∼=S(m∗)(m−m∗). (2.49)

De fato, levando em considera¸c˜ao que J(m)^tR(m∗) =

m

X

i=1

g_i(m∗)∇g_i(m), temos que

(35)

[J(m)−J(m_∗)]^tR(m_∗) = J^t(m)R(m_∗)−J^t(m_∗)R(m_∗)

=

m

X

i=1

g_i(m∗)∇g_i(m)−

m

X

i=1

g_i(m∗)∇g_i(m∗). (2.50) Aproximando ∇g_i(m) pelo seu polinˆomio de Taylor de primeira ordem,

∇g_i(m)≈ ∇g_i(m∗) +∇²g_i(m∗)(m−m∗), (2.51) e substituindo (2.51) em (2.50) temos que

[J(m)−J(m∗)]^tR(m∗) =

m

X

i=1

g_i(m∗)[∇g_i(m∗) +∇²g_i(m∗)(m−m∗)]

−

m

X

i=1

gi(m∗)∇gi(m∗)

=

m

X

i=1

g_i(m_∗)∇g_i(m_∗) +

m

X

i=1

g_i(m_∗)∇²g_i(m_∗)(m−m_∗)

−

m

X

i=1

g_i(m_∗)∇g_i(m_∗) (2.52)

≈

m

X

i=1

g_i(m∗)∇²g_i(m∗)(m−m∗), (2.53) onde

[∇²gi(m∗)]ij = ∂²gi(m)

∂m_i∂m_j. Logo,

[[J(m)−J(m∗)]^tR(m∗)]_ij ≈

m

X

i=1

g_i(m∗)∂²g_i(m)

∂m_i∂m_j(m_i−m∗i), Portando, temos que a aproxima¸c˜ao (2.49) vale.

Observe que devemos ter σ < λ para garantir a convergência do método de Gauss-Newton. Essa propor¸cão pode ser vista como uma rela¸cão entre a não-linearidade e o tamanho do res´ıduo do problema. Portanto, a velocidade da convergência do método diminui à medida que a não-linearidade ou o res´ıduo relativo do problema aumenta.

Alternativamente, podemos dizer que quanto maior for S(m∗), mais dif´ıcil fica executar o m´etodo de Gauss-Newton.

(36)

2.3.2 Gauss-Newton Amortecido

Ao implementar o método de Gauss-Newton, o algoritmo pode precisar de muitas itera¸cões para convergir. A dire¸cão de descida d^(k) pode ser adequada, porém o tamanho do passo pode atrasar a convergência.

Uma maneira de acelerar o processo de convergência, reduzindo a quantidade de itera¸cões necessárias para alcan¸car o res´ıduo desejado, é utilizar uma busca linear ao longo da dire¸cão de descida, ou seja, devemos encontrar um t >0 tal que

E(m^(k)+td^(k))< E(m^(k)).

Essa modifica¸cão do método é chamada de Gauss-Newton Amortecido (damped Gauss-Newton method).

A busca pode ser de Armijo, Goldstein, Wolfe, entre outras. Em [3] encontramos mais detalhes sobre a busca linear de Armijo-Goldstein e o m´etodo de Gauss-Newton Amortecido.

No passo de Armijo, como citado em [26], calcula-se um t^(k) que satisfa¸ca a desigualdade

E(m^(k)+t^(k)d^(k))≤E(m^(k)) +ηt^(k)∇E(m^(k))^td^(k), (2.54) sendoη <1 um parˆametro definido pelo usu´ario. Para encontrart^(k), primeiro definimos t= 1. Se

E(m^(k)+td^(k))≤E(m^(k)) +ηt∇E(m^(k))^td^(k), (2.55) tomamost^(k) =t. Senão, redefinimos tcomo sendot←γt, sendoγ <1 outro parâmetro definido pelo usuário, e reavaliamos a desigualdade (2.55), repetindo o processo até garantir (2.55) ou t < t_tol, em que t_min é o tamanho m´ınimo de passo permitido. Após a busca, atualizamos m^(k), usando o passo escolhido com a dire¸cão encontrada:

m^(k+1) =m^(k)+t^(k)d^(k).

CuritibaSetembrode2016 MÉTODOSDEGAUSS-NEWTONPARAPROBLEMASDEQUADRADOSMÍNIMOSNÃOLINEARES:TEORIA,VALIDAÇÃONUMÉRICAEAPLICAÇÃOEMGEOFÍSICA MONIQUEBONFIMDESOUZA

M´ ETODOS DE GAUSS-NEWTON PARA PROBLEMAS DE QUADRADOS M´INIMOS N ˜ AO LINEARES:

TEORIA, VALIDAC ¸ ˜ AO NUM´ ERICA E APLICAC ¸ ˜ AO EM GEOF´ISICA

M´ ETODOS DE GAUSS-NEWTON PARA PROBLEMAS DE QUADRADOS M´INIMOS N ˜ AO LINEARES:

TEORIA, VALIDAC ¸ ˜ AO NUM´ ERICA E APLICAC ¸ ˜ AO EM GEOF´ISICA

!^ k1f V

DE PESQUISA E

V J r“ Jk** rÇ

TERMO DE APROVAÇÃO

Curitiba, 19 de Setembro de 2016.

^SAULO POMPONET OLIVEIRA Presidente da Banca Examinadora (UFPR)

^ ^ ^

HIAREZ ops s a n to s azevèdo v Avaliador Externo (UFRB)

LUCAS GARCIA PEDROSO Avaliador Interno (UFPR)

1 INTRODUC ¸ ˜ AO

2 M´ ETODO DE NEWTON E GAUSS-NEWTON

2.1 Introdu¸ c˜ ao

2.2 M´ etodo de Newton

2.2.1 Convergˆ encia do m´ etodo

2.3 M´ etodo de Gauss-Newton

2.3.1 Convergˆ encia do m´ etodo

2.3.2 Gauss-Newton Amortecido

V J r“ Jk rÇ**