• Nenhum resultado encontrado

CuritibaSetembrode2016 M´ETODOSDEGAUSS-NEWTONPARAPROBLEMASDEQUADRADOSM´INIMOSN˜AOLINEARES:TEORIA,VALIDAC¸˜AONUM´ERICAEAPLICAC¸˜AOEMGEOF´ISICA MONIQUEBONFIMDESOUZA

N/A
N/A
Protected

Academic year: 2022

Share "CuritibaSetembrode2016 M´ETODOSDEGAUSS-NEWTONPARAPROBLEMASDEQUADRADOSM´INIMOSN˜AOLINEARES:TEORIA,VALIDAC¸˜AONUM´ERICAEAPLICAC¸˜AOEMGEOF´ISICA MONIQUEBONFIMDESOUZA"

Copied!
79
0
0

Texto

(1)

M´ ETODOS DE GAUSS-NEWTON PARA PROBLEMAS DE QUADRADOS M´INIMOS N ˜ AO LINEARES:

TEORIA, VALIDAC ¸ ˜ AO NUM´ ERICA E APLICAC ¸ ˜ AO EM GEOF´ISICA

Curitiba Setembro de 2016

(2)

M´ ETODOS DE GAUSS-NEWTON PARA PROBLEMAS DE QUADRADOS M´INIMOS N ˜ AO LINEARES:

TEORIA, VALIDAC ¸ ˜ AO NUM´ ERICA E APLICAC ¸ ˜ AO EM GEOF´ISICA

Disserta¸c˜ao apresentada ao Programa de P´os-Gradua¸c˜ao em Matem´atica da Univer- sidade Federal do Paran´a, como requisito parcial `a obten¸c˜ao do grau de Mestre em Matem´atica.

Orientador: Prof. Dr. Saulo Pomponet Oliveira.

Curitiba Setembro de 2016

(3)

m´ınimos n˜ao lineares: teoria, valida¸c˜ao num´erica e aplica¸c˜ao em geof´ısica / Monique Bonfim de Souza. — Curitiba, 2016.

66 f.: il.

Disserta¸c˜ao (Mestrado) - Universidade Federal do Paran´a, Se- tor de Ciˆencias Exatas, Programa de P´os-gradua¸c˜ao em Ma- tem´atica, 2016.

Orientador: Prof. Dr. Saulo Pomponet Oliveira

1. Matem´atica. 2. Algoritmos. 3. Geof´ısica. I. Universidade Federal do Paran´a. II. Oliveira, Saulo Pomponet. III. T´ıtulo.

CDD: 510

(4)

!^ k1f V

PRÓrREITORIA

DE PESQUISA E

PÕS-GRADUAÇÀO Sctor C[j?NciAS EXATAS

V J r“ Jk** rÇ

Programa de Pós Graduação em MATEMÁTICA Código CAPES: 40001016041PK

UNIVERSIDADE EEDÊRAL DO PARANA

TERMO DE APROVAÇÃO

Os membros da Banca Examinadora designada ,pelo Colegiado do Programa de Pós-Graduação em MATEMÁTICA da Universidade Federal do Paraná To ram convocados para realizar a arguição da Dissertação de Mestrado de MONIQUE BONFIM DE SOUZA, intitulada: "MÉTODOS DE GAUSS- NEWTON PARA PROBLEMAS DE QUADRADOS MÍNIMOS NÃO LINEARES: TEORIA, VALIDAÇÃO NUMÉRICA E APLICAÇÃO EM GEOFÍSICA", após terem inquirido a aluna e realizado a avaliação do trabalho, são de parecer pela sua ^ p tf «\

Curitiba, 19 de Setembro de 2016.

^SAULO POMPONET OLIVEIRA Presidente da Banca Examinadora (UFPR)

%A \ íl

^ ^ ^

HIAREZ ops s a n to s azevèdo v Avaliador Externo (UFRB)

LUCAS GARCIA PEDROSO Avaliador Interno (UFPR)

Programa de Pós Graduação em MATEMÁTICA | UFPR

Coordenação PPGMA, Centro Politécnico, UFPR - Curitiba - Paraná - Brasil"

CEP 81531990 -Tel: (041) 3361 3026 - Fax: (041) 3361 3026 - E-mail: pgmat@ufpr.br

(5)

Para o meu amor mais puro e genu´ıno, minha m˜ae Maria.

(6)

Agrade¸co a Deus, pelo lugar na natureza e no mundo cient´ıfico.

Ao meu pai Manoel e minha m˜ae Maria Jos´e (in memoriam), pela educa¸c˜ao que recebi, pela personalidade que tenho, por me apoiarem, por lutarem por meus sonhos, por suportarem a distˆancia, e por deixarem de realizar algumas de suas vontades para que eu pudesse realizar as minhas.

A minha tia Carmel e ao meu irm˜` ao Lucas, pelo apoio e amor incondicional, pela compreens˜ao e por sempre dizer “sim”aos meus pedidos.

A todos os meus amigos que est˜ao perto e aos que est˜ao fisicamente distantes, mas pr´oximos em pensamento. Em especial, a Fl´avia, Paulo, Teles, Mirella, Cami, Joseane, Geovani, Ana, Tai, Victor, Dan, T´ulio, Bia, Cl´ıvia e Sulivan, por acreditarem em mim mais do que eu mesma pude acreditar, pela confian¸ca, pela parceria, pelas recep¸c˜oes, pelos risos e l´agrimas compartilhados.

Ao professor Marcio Bortoloti, pelas palavras de incentivo, por todo conheci- mento adquirido, pela motiva¸c˜ao para que eu n˜ao pensasse em desistir.

A todo o corpo doscente do PPGMA, pelos conhecimentos compartilhados e pelo incentivo. Em especial, aos professores que tive o prazer de participar das aulas.

Aos membros da banca, Lucas, Juarez, Ana Gabriela e Rodolfo, por aceitarem o convite.

Ao meu orientador Saulo, pelo exemplo de excelˆencia em docˆencia e pesquisa, pela disposi¸c˜ao para trabalhar comigo, por todo conhecimento adquirido, toda oportu- nidade, compreens˜ao e paciˆencia.

Ao Programa de P´os-Gradua¸c˜ao em Matem´atica da UFPR, pela oportunidade e qualidade na forma¸c˜ao.

A CAPES pelo apoio financeiro.`

A todos que direta ou indiretamente contribuiram para minha forma¸c˜ao, o meu muito obrigada.

(7)

E pela dor eu descobri o poder da alegria E a certeza de que tenho coisas novas Coisas novas pra dizer”

Belchior

(8)

Algoritmos de programa¸c˜ao n˜ao-linear s˜ao importantes na resolu¸c˜ao de pro- blemas de quadrados m´ınimos. Neste trabalho apresentamos um estudo te´orico e computacional dos m´etodos de Newton e Gauss-Newton, anali- sando algumas de suas caracter´ısticas, tais como o passo do m´etodo, prin- cipais pr´e-requisitos para funcionamento, e a convergˆencia. Abordamos os m´etodos de busca pseudo-aleat´oria de Monte Carlo e Quasi-Monte Carlo, e mostramos exemplos de constru¸c˜ao de uma das sequˆencias de baixa dis- crepˆancia (a sequˆencia de Sobol) utilizadas na gera¸c˜ao das amostras do m´etodo de Quasi-Monte Carlo. Analisamos os resultados num´ericos de ex- perimentos com vers˜oes cl´assicas de cada m´etodo e vers˜oes h´ıbridas (ou seja, m´etodos que combinam o m´etodo de (Quasi-)Monte Carlo com o m´etodo de Gauss-Newton). Os experimentos foram realizados com uma biblioteca de fun¸c˜oes-objetivo em linguagem Fortran proposta por Mor´e, Garbow e Hills- trom. Comparamos os resultados observando o erro residual, quantidade de itera¸c˜oes utilizadas, eficiˆencia e robustez na resolu¸c˜ao de problemas cl´assicos da literatura, e aplicamos os m´etodos a um problema de invers˜ao de dados s´ısmicos considerando um modelo el´astico para meios estratificados.

Palavras-chave: quadrados m´ınimos n˜ao-lineares; m´etodo de Gauss- Newton; m´etodo de Monte Carlo; m´etodo de Quasi-Monte Carlo; algoritmo h´ıbrido.

(9)

Nonlinear programming algorithms are important in solving least squares problems. We have presented a theoretical and computational study of New- ton and Gauss-Newton methods by analyzing their characteristics (such as the step size and main assumptions) and convergence. We considered pseudo random search methods, namely the Monte Carlo and Quasi-Monte Carlo methods, showing examples of construction of one of the low dis- crepancy sequences (Sobol sequence) used on samples generation of Quasi- Monte Carlo method. We analyzed numerical results of experiments using classical versions of each method and hybrid versions (i.e., combining Quasi- Monte Carlo with the Gauss-Newton methods). The numerical experiments were carried out with a library of objective functions in Fortran program- ming language proposed by Mor´e, Garbow, and Hillstrom. We compared the results obtained looking at the residual error, number of iterations used, efficiency and robustness in solving classic literature problems, and applied the methods to a seismic inverse problem considering an elastic model for layered media.

Keywords: nonlinear least squares; Gauss-Newton method; Monte Carlo method; Quasi-Monte Carlo method; hybrid algorithm.

(10)

3.1 Distribui¸c˜ao de 100 amostras . . . 30

3.2 Distribui¸c˜ao de 200 amostras . . . 30

3.3 Distribui¸c˜ao de 500 amostras . . . 31

3.4 Distribui¸c˜ao de 1000 amostras . . . 31

4.1 Redu¸c˜ao do res´ıduo encontrado pelos m´etodos HMC e HqMC, comparados ao res´ıduo inicial, utilizando 1000 amostras e crit´erio de parada de 10−10. 42 4.2 Redu¸c˜ao do res´ıduo utilizando 1000 amostras, com crit´erio de parada de 10% do erro residual no ponto inicial dado por [25]. . . 43

4.3 Redu¸c˜ao do res´ıduo utilizando 20 amostras, com crit´erio de parada de 10% do erro residual no ponto inicial dado por [25]. . . 43

4.4 M´etodos GN, GNMC, GNqMC, HMC, HqMC, MC e qMC (numerados de 1 a 7 no eixo x) aplicados `a Fun¸c˜ao Meyer, crit´erio de parada 10−10, 1000 amostras. . . 44

4.5 M´etodos GN, GNMC, GNqMC, HMC, HqMC, MC e qMC (numerados de 1 a 7 no eixo x) aplicados `a Fun¸c˜ao Chebyquad, crit´erio de parada 10−10, 1000 amostras. . . 45

4.6 Res´ıduo atingido na solu¸c˜ao do Problema 54. . . 46

4.7 Res´ıduo atingido na solu¸c˜ao do Problema 42. . . 47

4.8 Res´ıduo atingido na solu¸c˜ao do Problema 43. . . 48

4.9 Res´ıduo atingido na solu¸c˜ao do Problema 44. . . 48

4.10 Res´ıduo atingido na solu¸c˜ao do Problema 45. . . 49

4.11 Res´ıduo atingido na solu¸c˜ao do Problema 46. . . 49

4.12 Res´ıduo atingido na solu¸c˜ao do Problema 47. . . 50

4.13 Res´ıduo atingido na solu¸c˜ao do Problema 25. . . 50

4.14 Res´ıduo atingido na solu¸c˜ao do Problema 26. . . 51

(11)

4.16 Perfil do desempenho: 1000 amostras. . . 52

4.17 Perfil do desempenho: 1000 amostras. . . 53

4.18 Perfil do desempenho: 500 amostras. . . 54

4.19 Perfil do desempenho: 20 amostras. . . 54

4.20 Perfil do desempenho: 100 amostras. . . 55

4.21 Res´ıduo relativo final dos m´etodos GNMC, GNqMC, HMC e HqMC (nu- merados de 1 a 4 no eixo x) aplicados ao problema de invers˜ao s´ısmica. . 58

4.22 Res´ıduo dos m´etodos GNMC, GNqMC, HMC e HqMC. . . 59

4.23 Deslocamento calculado . . . 60

(12)

1 Introdu¸c˜ao 1

2 M´etodo de Newton e Gauss-Newton 4

2.1 Introdu¸c˜ao . . . 4

2.2 M´etodo de Newton . . . 5

2.2.1 Convergˆencia do m´etodo . . . 6

2.3 M´etodo de Gauss-Newton . . . 13

2.3.1 Convergˆencia do m´etodo . . . 16

2.3.2 Gauss-Newton Amortecido . . . 23

2.4 Regulariza¸c˜ao . . . 24

3 M´etodo de Monte Carlo e Quasi-Monte Carlo 25 3.1 Introdu¸c˜ao . . . 25

3.1.1 M´etodo de Monte Carlo . . . 25

3.1.2 M´etodo de Quasi-Monte Carlo . . . 27

3.1.3 Abordagem H´ıbrida . . . 32

4 Resultados Num´ericos 35 4.1 Banco de Fun¸c˜oes . . . 36

4.2 Crit´erios de Compara¸c˜ao . . . 37

4.2.1 Avalia¸c˜ao pelo n´umero de melhores resultados . . . 39

4.2.2 Avalia¸c˜ao por histogramas . . . 41

4.2.3 Erro residual de problemas espec´ıficos. . . 45

4.2.4 Perfil de Desempenho . . . 52

4.3 Aplica¸c˜ao a um problema geof´ısico . . . 56

5 Conclus˜ao 61

(13)
(14)

1 INTRODUC ¸ ˜ AO

A otimiza¸c˜ao ´e uma ´area da matem´atica que possui muitas aplica¸c˜oes, fazendo parte direta ou indiretamente do nosso cotidiano. Em economia, geof´ısica, medicina, engenharias, administra¸c˜ao, biologia, entre outras ciˆencias, surgem problemas onde ´e poss´ıvel represent´a-los atrav´es de um modelo matem´atico e utilizar t´ecnicas de otimiza¸c˜ao para resolvˆe-los.

Na geof´ısica, por exemplo, o estudo e desenvolvimento de m´etodos matem´aticos torna eficiente a solu¸c˜ao de problemas associados `a propaga¸c˜ao de sinais. O subsolo, por ser um meio heterogˆeneo, composto por rochas, areia, sedimentos, entre outros elementos, apresenta em cada uma de suas camadas velocidades de propaga¸c˜ao de ondas distintas.

Para as ind´ustrias petrol´ıferas, por exemplo, ´e importante descobrir se uma determinada regi˜ao tem as caracter´ısticas de um reservat´orio de petr´oleo para iniciar os investimentos na extra¸c˜ao.

Quando acontece um terremoto, explos˜oes, ou outros eventos semelhantes na superf´ıcie da Terra, ´e poss´ıvel coletar dados atrav´es de receptores projetados com a finalidade de gravar as ondas de perturba¸c˜ao do ambiente, que s˜ao emitidas durante o evento. Devido `as altera¸c˜oes que essas ondas sofrem durante a propaga¸c˜ao ´e poss´ıvel coletar dados e identificar as rochas que comp˜oem o solo, pois estas influenciam nas altera¸c˜oes. Esses dados podem ser obtidos atrav´es do processo de invers˜ao, utilizando, por exemplo, a tomografia s´ısmica, pois esta possibilita a visualiza¸c˜ao de imagens mais n´ıtidas, livres de ru´ıdos, permitindo o reconhecimento da composi¸c˜ao do subsolo.

Na tomografia por impedˆancia reconstr´oi-se propriedades de um objeto, sabendo o valor de algumas medidas tomadas sobre a fronteira deste. Nos estudos referentes `a tomografia computadorizada, tratamos de um problema inverso de otimiza¸c˜ao, n˜ao-linear e mal-condicionado. O mal-condicionamento acontece devido `a discretiza¸c˜ao da Equa¸c˜ao Integral de Fredholm, que torna o problema mal-posto pois a existˆencia e unicidade da solu¸c˜ao do problema nem sempre s˜ao garantidas [32]. Na tomografia, temos o objetivo de

(15)

minimizar diferen¸cas entre dados observados e dados calculados, utilizando um modelo num´erico.

Um dos objetivos da invers˜ao geof´ısica, descrita em termos de probabilidade ou por abordagens cl´assicas, ´e a busca pelo m´ınimo de uma fun¸c˜ao erro, E : Rn → R, continuamente diferenci´avel, dada por

E(m) = 1

2kdobs −g(m)k2, (1.1) sendodobs o vetor de dados observados e g(m) uma fun¸c˜ao n˜ao-linear que corresponde `a solu¸c˜ao do problema direto (em tomografia s´ısmica, usualmente corresponde ao c´alculo dos tempos de trˆansito a partir do campo de velocidades). Assim sendo, temos um problema de quadrados m´ınimos n˜ao linear, e os candidatos a minimizadores da fun¸c˜ao E s˜ao seus pontos estacion´arios, portanto estaremos encontrando a solu¸c˜ao do sistema

∇E(m) = 0. (1.2)

Segundo Leon [15], a t´ecnica de quadrados m´ınimos foi desenvolvida indepen- dentemente por Andrien-Marie-Legendre e Carl Friedrich Gauss. O primeiro artigo sobre o assunto foi publicado por Legendre em 1806, embora haja evidˆencias de que nove anos antes desta publica¸c˜ao, Gauss havia descoberto o m´etodo como estudante e o utilizado para fazer c´alculos astronˆomicos. A chave do sucesso de Gauss e reconhecimento como matem´atico, e n˜ao apenas astrˆonomo, foi o uso do m´etodo de quadrados m´ınimos.

Para resolver o problema de quadrados m´ınimos n˜ao lineares existem diver- sos m´etodos com vantagens e desvantagens, como por exemplo, o m´etodo de Newton e Gauss-Newton [5], que possuem convergˆencia local. S˜ao m´etodos eficientes, por´em, caso a superf´ıcie definida pela fun¸c˜ao erro tenha v´arios picos e depress˜oes, esse tipo de abordagem pode falhar, pois o m´etodo encontrar´a o m´ınimo mais pr´oximo ao ponto de partida, que pode n˜ao ser o melhor minimizador do problema.

A fim de resolver o caso em que a fun¸c˜ao erro tem v´arios pontos cr´ıticos, utiliza-se os m´etodos de otimiza¸c˜ao global. Um dos m´etodos estudados para esse tipo de problema inverso ´e o m´etodo de resfriamento simulado (Simulated Annealing), como citado em [11],

(16)

[20] e [23]. O m´etodo foi proposto inicialmente para lidar com problemas de otimiza¸c˜ao combinat´oria, mais tarde estendido para problemas cont´ınuos. Como resultados dos estudos realizados, foram encontrados convergˆencia assint´otica para um m´ınimo global

´

otimo, mas n˜ao h´a garantia de que obtenhamos uma boa solu¸c˜ao em um n´umero finito de itera¸c˜oes [27].

Al´em do m´etodo de resfriamento simulado, os m´etodos de Monte Carlo e Quasi- Monte Carlo tamb´em utilizam otimiza¸c˜ao aleat´oria, podendo ser aplicados individual- mente ou em conjunto com m´etodos que utilizam derivadas, como por exemplo, o Newton e Gauss-Newton.

A finalidade deste trabalho ´e fazer um levantamento te´orico/pr´atico dos m´etodos de Newton, Gauss-Newton, Monte Carlo e Quasi-Monte Carlo, e compar´a-los mediante experimentos num´ericos com vers˜oes h´ıbridas, com busca unidirecional quando poss´ıvel, al´em de observar o comportamento de cada um quando aplicado individualmente.

O Cap´ıtulo 2 apresenta defini¸c˜oes, caracter´ısticas e convergˆencia do m´etodo de Newton, al´em de mostrar uma de suas varia¸c˜oes.. Apresenta defini¸c˜oes e caracter´ısticas do m´etodo de Gauss-Newton, mostrando que esse converge quadraticamente, enunciando e demonstrando teoremas com resultados necess´arios para provar a convergˆencia.

O Cap´ıtulo 3 apresenta defini¸c˜oes sobre o m´etodos de Monte Carlo, al´em de um pouco da teoria sobre o m´etodo de Quasi-Monte Carlo, explicitando a sequˆencia pseudo-aleat´oria utilizada no m´etodo, chamada sequˆencia Sobol.

O objetivo do Cap´ıtulo 4 ´e apresentar os resultados n´umericos da compara¸c˜ao dos m´etodos definidos e discutidos nos cap´ıtulos anteriores. Para isto, utilizamos di- ferentes quantidades de amostras, a fim de perceber quantas amostras s˜ao suficientes para que determinados m´etodos atinjam resultados satisfat´orios. Comparamos vers˜oes cl´assicas e h´ıbridas dos m´etodos, com diferentes crit´erios de parada, observando quais m´etodos obtˆem melhores resultados. Realizamos tamb´em uma aplica¸c˜ao dos m´etodos a um problema inverso com motiva¸c˜ao geof´ısica.

(17)

2 M´ ETODO DE NEWTON E GAUSS-NEWTON

2.1 Introdu¸ c˜ ao

Num problema de quadrados m´ınimos desejamos resolver um sistema de equa¸c˜oes

g(m) = dobs (2.1)

em que devemos observar se o sistema a ser resolvido ´e um caso linear ou n˜ao-linear.

Como exemplo de um caso n˜ao-linear, considere a fun¸c˜ao

g(m) =

1

2(m12 +m22) m1m2

2m2

 ,

onde g :R2 →R3. Problemas desse tipo podem ou n˜ao ter solu¸c˜ao. Para os dois casos existem algoritmos que resolvem o problema. Se para g(m) citado acima considerarmos dobs = (0,0,0), por exemplo, o sistema possui solu¸c˜aom1 = 0 em2 = 0. Para o caso em quedobs = (0,1,0), ´e f´acil notar que o sistema n˜ao possui solu¸c˜ao.

Ao resolver sistemas como o exemplo em que dobs = (0,1,0), estamos resolvendo um problema de quadrados m´ınimos. Neste cap´ıtulo trataremos do m´etodo de Newton e uma de suas varia¸c˜oes, o m´etodo de Gauss-Newton, para o problema de quadrados m´ınimos n˜ao linear

m∈minRn

E(m), E(m) = 1

2kdobs−g(m)k2, (2.2) sendo dobs ∈ Rm o vetor de dados observados e g : Rn → Rm uma fun¸c˜ao n˜ao-linear dos parˆametrosm1, . . . , mn. Na nomenclatura de problemas inversos, calcular d=g(m) corresponde a resolver o problema direto (forward problem), enquanto calcularmtal que dobs ∼=g(m) corresponde a resolver o problema inverso (inverse problem).

(18)

Neste cap´ıtulo utilizaremos frequentemente gradientes de fun¸c˜oes escalares e vetoriais, conforme a defini¸c˜ao a seguir.

Defini¸c˜ao 2.1 Sejam (X,k · kX) e (Y,k · kY) espa¸cos normados. Dizemos que uma fun¸c˜ao f : X → Y ´e diferenci´avel em x0 ∈ X se existe uma transforma¸c˜ao linear Df[x0] :X →Y tal que

f(x0+h) = f(x0) +Df[x0](h) +r(h), lim

khkX→0

r(h)

khkX = 0. (2.3)

Em particular, sejam X =Rn e Y =Rm, dotados com a norma euclideana. Se m= 1, ent˜ao Df[x0](h) = ∇f(x0)th, sendo

[∇f(x0)]i = ∂f

∂xi

(x0), 1≤i≤n,

o gradiente de f em x0. Se m > 1, ou seja, f(x) = [f1(x), . . . , fm(x)]T, ent˜ao Df[x0](h) =∇f(x0)th, sendo o gradiente em x0 agora dado por

[∇f(x0)]ij = ∂fj

∂xi(x0), 1≤i≤n, 1≤j ≤m.

2.2 M´ etodo de Newton

Assuma que a fun¸c˜ao E : Rn → R seja de classe C2. Como o problema de minimiza¸c˜ao (2.2) ´e irrestrito, os candidatos a minimizadores s˜ao os pontos estacion´arios deE(m), ou seja, os vetores m tais que

∇E(m) = 0. (2.4)

Ao resolver este tipo de problema, como se trata de um caso n˜ao linear, aproxima¸c˜oes de fun¸c˜oes geralmente s˜ao utilizadas, de modo que escolhemos um tipo de aproxima¸c˜ao e aplicamos `a fun¸c˜ao do sistema.

(19)

Podemos usar o metodo de Newton para resolver o sistema (2.2), e para chegar- mos ao passo do m´etodo come¸caremos utilizando a aproxima¸c˜ao de Taylor de primeira ordem para∇E(m). Definindo F :Rn →Rn, tal que F(m) =∇E(m), temos que

F(m(k)) +∇F(m(k))(m−m(k)) = 0

∇F(m(k))(m−m(k)) =−F(m(k)), (2.5) sendom(k) as aproxima¸c˜oes do vetorm e∇F a matriz hessiana de E. Se ∇F(m(k)) for invers´ıvel, ent˜ao temos de (2.5) que

∇F(m(k))m=−F(m(k)) +∇F(m(k))m(k)

m=m(k)−(∇F(m(k)))−1F(m(k)). (2.6) Caso∇F(m(k)) n˜ao seja invers´ıvel, o m´etodo de Newton n˜ao consegue calcular a pr´oxima itera¸c˜ao. Neste caso h´a duas alternativas: utilizar uma regulariza¸c˜ao da matriz

∇F(m(k)), comprometendo, entretanto, a precis˜ao da solu¸c˜ao aproximada pelo m´etodo, ou escolher um novo ponto inicial m(0).

2.2.1 Convergˆ encia do m´ etodo

Nesta se¸c˜ao mostraremos a prova, baseada em [5], de que a convergˆencia do m´etodo de Newton para sistemas de equa¸c˜oes n˜ao lineares ´e quadr´atica. O teorema a seguir, enunciado em [5], apresenta propriedades de norma matricial utilizadas na prova da convergˆencia.

Teorema 2.2 Seja k · kuma norma em Rn×n tal que, para todoA, B ∈Rn×n e x∈Rn, kABk ≤ kAkkBk, kIk= 1ekAxk ≤ kAk kxk. (2.7) Seja C ∈Rn×n. Se kCk<1, ent˜ao (I−C)−1 existe, e

k(I−C)−1k ≤ 1

1− kCk. (2.8)

(20)

Al´em disso, se A ´e n˜ao singular e kA−1(B−A)k<1, ent˜ao B ´e n˜ao singular e kB−1k ≤ kA−1k

1− kA−1(B −A)k. (2.9)

Demonstra¸c˜ao.

Como kCk <1, temos que kCkn < 1 . Al´em disso, segue de (2.7) que kCnk ≤ kCkn < 1 logo limn→∞Cn = 0. Se λ ´e um autovalor qualquer de C, ent˜aoCnx= λnx, sendo x um autovetor associando a λ, temos que limn→∞λn = 0. Como consequˆencia,

|λ| < 1 para todo λ e portanto temos que ρ(C) < 1, onde ρ ´e o raio espectral. Como os autovalores deI−C s˜ao dados por 1−λ(C), sendoλ(C) autovalores de C e como o raio espectral de C ´e menor que um, conclu´ımos queI−C ´e n˜ao singular.

Sendo I =I−C+C, multiplicamos, pela direita, ambos os lados da igualdade por (I−C)−1, e obtemos (I−C)−1 =I+C(I−C)−1. Aplicando a norma `a igualdade temos

k(I−C)−1k = kI+C(I−C)−1k

≤ kIk+kCk k(I −C)−1k

= 1 +kCk k(I−C)−1k. (2.10)

Da equa¸c˜ao (2.10), segue que

k(I−C)−1k ≤ 1 +kCk k(I−C)−1k k(I−C)−1k − kCk k(I−C)−1k ≤ 1

k(I−C)−1k(1− kCk) ≤ 1 (2.11) Dividindo-se a desigualdade (2.11) por (1− kCk) obt´em-se a desigualdade (2.8) e, assim a desigualdade (2.11) vale quando kCk<1.

De maneira an´aloga, temos que k −Ck<1, ent˜ao I−(−C) ´e invers´ıvel, e

k(I−(−C))−1k ≤ 1 1− k −Ck k(I+C)−1k ≤ 1

1− kCk (2.12)

(21)

Observe que, tomandoC =A−1B−I, temos queI+C =I+A−1B−I =A−1B.

Ou seja, A−1B ´e invers´ıvel. Como A tamb´em ´e invers´ıvel, B ´e invers´ıvel e (A−1B)−1 = B−1A, logo

k(A−1B)−1k ≤ 1

1− kA−1B−Ik kB−1Ak ≤ 1

1− kA−1B−A−1Ak kB−1Ak ≤ 1

1− kA−1(B −A)k.

(2.13) Multiplicando a desigualdade (2.13) por kA−1k, a desigualdade a seguir vale

kB−1Ak kA−1k ≤ kA−1k

1− kA−1(B−A)k.

(2.14) Considerando a propriedadekB−1AA−1k ≤ kB−1AkkA−1k, temos que

kB−1k=kB−1AA−1k ≤ kB−1AkkA−1k

≤ kA−1k

1− kA−1(B −A)k. (2.15)

Teorema 2.3 Seja f :Rn →R cont´ınua e diferenci´avel em um aberto conexo D⊂Rn. Dadosx∈D e uma dire¸c˜ao n˜ao-nulap∈Rn, a derivada direcional def de xna dire¸c˜ao de p, definida por

∂f(x)

∂p = lim

ξ→0

f(x+ξp)−f(x)

ξ ,

existe e ´e igual a ∇f(x)tp. Al´em disso,

f(x+p) =f(x) + Z 1

0

∇f(x+tp)tp dt

(22)

e existe z ∈Rn tal que z =x+tp, com 0≤t≤1, e f(x+p) =f(x) +∇f(z)tp.

Demonstra¸c˜ao. Veja [5].

Teorema 2.4 Seja F : Rn → Rm continuamente diferenci´avel num conjunto aberto conexo D⊂Rn. Para x, x+p∈D quaisquer, existe z =x+tp, tal que

F(x+p)−F(x) = Z 1

0

∇F(x+tp)tp dt.

Demonstra¸c˜ao. Como F ´e continuamente diferenci´avel, ent˜ao cada componente Fi, i = 1, . . . , n, de F ´e continuamente diferenci´avel tamb´em. Definindo g(t) = Fi(x+tp) e usando o Teorema2.3 temos que

g(1)−g(0) = Z 1

0

g0(t)dt Fi(x+p)−Fi(x) =

Z 1 0

∇Fi(x+tp)tp dt, logo,

F(x+p)−F(x) = Z 1

0

∇F(x+tp)tp dt,

Teorema 2.5 Seja F : Rn → Rm continuamente diferenci´avel num conjunto aberto conexo D ⊂ Rn, x ∈ D, e seja ∇F(x)t Lipschitz cont´ınua numa vizinhan¸ca de D, tal queα ´e a constante de Lipschitz. Ent˜ao, para x+p∈D qualquer,

kF(x+p)−F(x)− ∇F(x)tpk ≤ α

2kpk2, p∈Rn. Demonstra¸c˜ao. Pelo Teorema 2.4, temos que

F(x+p)−F(x) = Z 1

0

∇F(x+tp)tp dt F(x+p)−F(x)− ∇F(x)tp =

Z 1 0

∇F(x+tp)tp dt− ∇F(x)tp

= Z 1

0

∇F(x+tp)t− ∇F(x)t p dt.

(23)

Aplicando a norma nos dois lados da igualdade e propriedades da fun¸c˜ao norma, demonstradas utilizando defini¸c˜oes e teoremas de [16], temos que

kF(x+p)−F(x)− ∇F(x)tpk =

Z 1 0

∇F(x+tp)t− ∇F(x)t p dt

≤ Z 1

0

∇F(x+tp)t− ∇F(x)t p

dt

≤ Z 1

0

∇F(x+tp)t− ∇F(x)t

kpk dt, como∇Ft ´e Lipschitz cont´ınua, temos que

∇F(x+tp)t− ∇F(x)t

≤ αkx+tp−xk = αktpk. Segue que

kF(x+p)−F(x)− ∇F(x)tpk ≤ Z 1

0

αktpk kpkdt

≤ Z 1

0

α|t| kpk kpkdt

= αkpk2 Z 1

0

|t|dt

= α

2kpk2, concluindo a prova.

Defina V(x, r) como a vizinhan¸ca aberta de raio r em torno de x dada uma norma vetorial k · k, ou seja, V(x, r) = {bx∈Rn:kbx−xk< r}.

Teorema 2.6 Seja F :Rn→Rn continuamente diferenci´avel num aberto convexo D⊂ Rn. Assuma que existe m ∈Rn tal que F(m) = 0 e ∇F(m)´e invers´ıvel, que existem r, β > 0 tais que V(m, r) ⊂ D, k∇F(m)−1k ≤ β, e ∇F ∈ Lipγ(V(m, r)). Ent˜ao, existe >0 tal que para todo m0 ∈V(m, ) a sequˆencia m(1), m(2), . . . gerada por

m(k+1) =m(k)− ∇F(m(k))−1F(m(k)), k= 0,1, . . .

(24)

´e bem definida, e converge quadraticamente param, ou seja,

km(k+1)−mk ≤βγkm(k)−mk2, k= 0,1, . . . (2.16) Demonstra¸c˜ao. Vamos escolher um tal que ∇F(m) ´e n˜ao singular para todo m ∈ V(m, ). Devemos mostrar que o erro local do modelo definido pela aproxima¸c˜ao de Taylor, avaliado em m, utilizado para gerar cada itera¸c˜ao do M´etodo de Newton ´e de, no m´aximo, O(km(k)−mk2).

Considere

= min

r, 1 2βγ

. (2.17)

Vamos mostrar por indu¸c˜ao em k que a cada passo a equa¸c˜ao (2.16) ´e v´alida, e km(k+1)−mk ≤ 1

2km(k)−mk. (2.18)

Segue de (2.18) que m(k+1) ∈V(m, ),o que garante que m(k)∈V(m, ).

Devemos primeiro mostrar que ∇F(m(0)) ´e n˜ao singular. De fato, seja m(0) tal que km(0)−mk ≤ . Pela igualdade (2.17) e pelo fato de ∇F(m) ser cont´ınua e lipschitziana, segue que

k∇F(m)−1[∇F(m(0))− ∇F(m)]k ≤ k∇F(m)−1k k∇F(m(0))− ∇F(m)k

≤ βγkm(0)−mk

≤ β.γ.

≤ 1

2. (2.19)

Assim, pela rela¸c˜ao (2.9) do Teorema 2.2, ∇F(m0) ´e n˜ao singular e k∇F(m(0))−1k ≤ k∇F(m)−1k

1− k∇F(m)−1[∇F(m0)− ∇F(m)]k

≤ 2.k∇F(m)−1k ≤2β.

Considere o conjuntoA={k∈N;m(k) ∈V(m, )}. ComoF(m) = ∇E(m) = 0, como ∇F(m(0))−1 e F(m(0)) est˜ao bem definidos, temos que

(25)

m(1)−m = m(0)−m− ∇F(m(0))−1F(m(0))

= m(0)−m− ∇F(m(0))−1[F(m(0))−F(m)]

= ∇F(m(0))−1[F(m)−F(m(0))− ∇F(m(0))(m−m(0))].

Temos que o termo entre colchetes ´e a diferen¸ca entre F(m)e o modelo definido pela aproxima¸c˜ao de Taylor, avaliado em m. Portanto, podemos utilizar o Teorema 2.5 e pela equa¸c˜ao (2.20) conclu´ımos que

km(1)−mk ≤ k∇F(m(0))−1k kF(m)−F(m(0))− ∇F(m(0))(m−m(0))k

≤ 2βγ

2km(0)−mk2

= βγkm(0)−mk2. (2.20)

Da equa¸c˜ao (2.19), temos que

km(0)−mk ≤ 1 2(βγ), logo

km(1)−mk ≤ 1

2km(0)−mk, o que prova que m(1) ∈V(m, ). Portanto,1∈A.

Supondo que k ∈ A, devemos mostrar que k + 1 ∈ A. Se k ∈ A, ent˜ao mk ∈ V(m, ). Primeiro, note que da mesma maneira que∇F(m(0)), ∇F(m(k))´e n˜ao singular e k∇F−1(m(k))k ≤2β. Portanto, m(k) est´a bem definido e

m(k+1)−m = m(0)−m− ∇F(m(k))−1F(m(k))

= m(k)−m− ∇F(m(k))−1[F(m(k))−F(m)]

= ∇F(m(k))−1[F(m)−F(m(k))− ∇F(m(k))(m−m(k))]. (2.21) Utilizando o Teorema 2.5 e pela equa¸c˜ao (2.20) conclu´ımos que

(26)

km(k+1)−mk ≤ k∇F(m(k))−1k.kF(m)−F(mk)− ∇F(m(k))(m−m(k))k

≤ 2βγ

2km(k)−mk2

= βγkm(k)−mk2. (2.22)

Conclu´ımos que k+ 1 ∈ A, logo, A = N, que junto com (2.22), prova que o teorema vale para todok ∈N.

Portanto, a sequˆencia m(k) ⊂ Rn, gerada pelo m´etodo de Newton, converge quadraticamente para m ∈ Rn, ou seja, m(k) →m e existe uma constante M > 0 tal que

km(k+1)−mk km(k)−mk2 ≤M.

Apesar de ser um m´etodo localmente r´apido, e sua convergˆencia acontecer em apenas um passo para o caso de fun¸c˜oes quadr´aticas, o m´etodo de Newton tem alto custo computacional, pois necessita do c´alculo da matriz hessiana. Por isso, modifica¸c˜oes deste m´etodos s˜ao mais utilizadas, j´a que muitos problemas n˜ao possuem fun¸c˜ao objetivo quadr´atica. Na pr´oxima se¸c˜ao mostraremos uma modifica¸c˜ao do M´etodo de Newton.

2.3 M´ etodo de Gauss-Newton

O m´etodo de Gauss-Newton ´e bastante utilizado em aplica¸c˜oes que se reduzem a um problema de quadrados m´ınimos da forma (2.2). A principal motiva¸c˜ao para o uso deste m´etodo ´e que seu custo computacional ´e inferior ao m´etodo de Newton, pois n˜ao utiliza a hessiana da fun¸c˜ao. O m´etodo consiste em aproxima¸c˜oes do sistema n˜ao-linear por um sistema linearizado.

Considerando a fun¸c˜ao objetivo E(m) da equa¸c˜ao (2.2) e F : Rm → Rn dada porF(m) = ∇E(m), tomando a expans˜ao de Taylor de primeira ordem, assim como na equa¸c˜ao (2.6), segue que

m=m(k)−(∇F(m(k)))−1F(m(k)). (2.23)

(27)

Calculando a derivada parcial de E(m) em rela¸c˜ao a mj temos

∂E(m)

∂mj

= 1 2

m

X

k=1

∂mj

(dobsk −gk(m))2

= 1 2

m

X

k=1

2 dobsk −gk(m) ∂

∂mj(−gk(m))

=

m

X

k=1

dobsk −gk(m)

− ∂

∂mjgk(m)

(2.24) ou seja,

F(m) =

−∂g1(m)

∂m1 . . . −∂gm(m)

∂m1 ... . .. ...

−∂g1(m)

∂mn . . . −∂gm(m)

∂mn

dobs1 −g1(m) ... dobsm −gm(m)

= −Jt(m) (dobs−g(m)), (2.25)

ondeJ(m) ´e uma matriz de derivadas parciais de dados com respeito `a fun¸c˜aog(m), ou seja,J(m) ´e a matriz Jacobiana de g(m).

Para encontrar o passo do m´etodo de Gauss-Newton, precisamos escrever uma f´ormula para∇F(m(k)). Atrav´es do c´alculo da segunda derivada deE(m) ´e poss´ıvel sepa- rar a express˜ao encontrada em termos lineares e n˜ao lineares. Eliminando o termo n˜ao li- near mostramos que∇F(m(k)) pode ser escrito como uma aproxima¸c˜ao paraJt(m)J(m).

De fato,

2E(m)

∂mi∂mj =

m

X

k=1

−∂gk(m)

∂mi

−∂gk(m)

∂mj

+ dobsk −gk(m)

−∂2gk(m)

∂mi∂mj

=

n

X

k=1

∂gk(m)

∂mi

∂gk(m)

∂mj +

dobsk −gk(m)

−∂2gk(m)

∂mi∂mj

. (2.26) Desprezando o ´ultimo termo da soma, temos que

2E(m)

∂mi∂mj

n

X

k=1

∂gk(m)

∂mi

∂gk(m)

∂mj . (2.27)

(28)

Na forma matricial,

∇F(m)≈

∂g1(m)

∂m1

∂g2(m)

∂m1 . . . ∂gn(m)

∂m1 ... ... . .. ...

∂g1(m)

∂mn

∂g2(m)

∂mn . . . ∂gn(m)

∂mn

∂g1(m)

∂m1

∂g1(m)

∂m2 . . . ∂g1(m)

∂mn ... ... . .. ...

∂gn(m)

∂m1

∂gn(m)

∂m2 . . . ∂gn(m)

∂mn

∇F(m) ≈ Jt(m)J(m). (2.28)

A f´ormula iterativa do m´etodo de Gauss-Newton ´e obtida escolhendo m(k+1) como sendo a solu¸c˜ao de (2.23) em que ∇F(m(k)) ´e aproximada de acordo com (2.28), ou seja:

m(k+1) = m(k)+ (Jt(m(k))J(m(k)))−1Jt(m(k)) dobs−g(m(k)) Jt(m(k))J(m(k))d(k) = Jt(m(k))R(m(k)) (2.29) sendod(k) =m(k+1)−m(k) eR(m) =dobs−g(m), que ´e equivalente a resolver o problema de quadrados m´ınimos lineares

minm kJ(m(k))d(k)−R(m(k))k. (2.30) Dos resultados acima pode-se notar que o vetor dire¸c˜aod(k) no passo de Gauss- Newton ´e obtido resolvendo um sistema linearizado. Note que essa dire¸c˜ao ´e de descida.

De fato, segue de (2.25) e (2.30) qued(k) = (Jt(m(k))J(m(k)))−1∇E(m(k)) e

∇E(m(k))td(k) = ∇Et(m(k))(Jt(m(k))J(m(k)))−1∇E(m(k)). (2.31) Al´em disso, se J(m(k)) tem posto completo, ent˜ao a matriz Jt(m(k))J(m(k)) ´e definida positiva, logo seus autovalores s˜ao positivos, assim como sua inversa. Portanto,

−xt[Jt(m(k))Jk(m(k))]x <0 ∀x6= 0.

Assumindo em particular que x=∇E(m(k))6= 0, segue que ∇E(m(k))tdk<0.

(29)

2.3.1 Convergˆ encia do m´ etodo

Como discutido anteriormente, se a matriz jacobiana tem posto completo e o vetor ∇E(m(k)) for n˜ao-nulo, ent˜ao a dire¸c˜ao do m´etodo ´e de descida. Vamos mostrar especificamente em quais condi¸c˜oes o m´etodo converge localmente e que sua convergˆencia

´e quadr´atica. Para isso, utilizaremos os teoremas e demonstra¸c˜oes conforme [5].

Teorema 2.7 Seja σ1(A) o maior autovalor de A. Ent˜ao kAk2 =p

ρ(AHA) =p

ρ(AAH) = σ1(A).

Em particular, se A ´e hermitiana (ou real e sim´etrica), ent˜ao kAk2 =ρ(A),

enquanto, se A ´e unit´aria, kAk2 = 1.

Demonstra¸c˜ao. Veja [1].

O teorema a seguir provar´a as propriedades que verificar˜ao a convergˆencia.

Teorema 2.8 Seja R : Rm → Rn continuamente diferenci´avel no aberto convexo D ⊂ Rm, e R(m) = dobs−g(m). Assuma que J(m) ´e lipschitziana em Dcom kJ(m)k2 ≤M, para todo m ∈ D e que existe m ∈ D tal que J(m)tR(m) = 0. Seja λ o menor autovalor de J(m)tJ(m). Assuma que existe 0< σ < λ tal que

[J(m)−J(m)]tR(m)

2 ≤ σkm−mk2 (2.32)

para todom ∈D.

Ent˜ao, ∀c ∈ 1,σλ

,∃ε > 0 tal que ∀m0 ∈ B(m, ε), a sequˆencia gerada pelo m´etodo de Gauss-Newton

m(k+1) =m(k)

Jt(m(k))J(m(k))−1

Jt(m(k))R(m(k)) (2.33)

´e bem definida (ou seja, Jt(m(k))J(m(k)) ´e invers´ıvel), converge para m, e satisfaz as seguintes desigualdades

(30)

(1)

m(k+1)−m

2λ

m(k)−m

2 + cM α

m(k)−m

2

2 onde α ´e constante de Lipschitz de J(m).

(2)

m(k+1)−m

2cσ+λ

m(k)−m

2, cσ+λ <1 Demonstra¸c˜ao.

A prova pode ser feita por indu¸c˜ao. Vamos denotar k.k2 por k.k, e abreviar J(m0), R(m0) e R(m) porJ0, R0 e R, respectivamente.

Seja c∈ 1,λσ

. Note que ∃ε1 >0 tal que J0tJ0 ´e n˜ao singular e

J0tJ0−1 ≤ c

λ

para todom0 ∈ B(m, ε1). De fato, sendo λ1, . . . λr autovalores de JktJk, ent˜ao λ1

1 . . .λ1

r

s˜ao os autovalores de (JktJk)−1. No nosso caso, λ ´e o menor autovalor de JtJ, logo λ1 ´e o maior autovalor de (JtJ)−1.

Sendo ρ (JJ)−1

o raio espectral de (JtJ)−1, temos que

ρh JtJ

−1i

= 1 λ

= 1 λ. Do Teorema 2.7, temos que

JtJ−1 = 1

λ, comoc > 1, temos que λc > λ1, logo

JtJ−1 ≤ c

λ. (2.34)

Por hip´otese, J(m) ´e Lipschitziana. Considerando γ a constante de Lipschitz, seja

ε1 = min

r, λ 2cγ

. (2.35)

(31)

Dado m0 ∈B(m, ε1), temos que km0−mk ≤ε1. Logo Jt(m)J(m) tamb´em ´e Lipschitiziana. Sejaγ a constante de Lipschitz de Jt(m)J(m). Logo

k(JtJ)−1[J0tJ0−JtJ]k ≤ k(JtJ)−1k.kJ0tJ0−JtJk

≤ c

λγkm0−mk

≤ c λ.γ.ε

≤ 1

2. (2.36)

Assim, pela rela¸c˜ao (2.9), temos que J(m0)tJ(m0) ´e n˜ao singular e

kJ0tJ0−1k ≤ kJtJ

−1k 1− kJtJ−1

[J0tJ0−JtJ]k

≤ 2.kJtJ−1k ≤ 2c λ. Aplicando o primeiro passo m1 temos que

m1−m = m0− J0tJ0−1

J0tR0−m

= (m0−m)− J0tJ0−1

J0tR0

= J0tJ0−1

J0tJ0

(m0−m)− J0tJ0−1

J0tR0

= − J0tJ0−1

J0tJ0(m0−m) +J0tR0

= − J0tJ0−1

J0tJ0(m0−m) +J0tR −J0tR+J0tR0

= − J0tJ0−1

J0tR−J0t(R−R0−J0(m−m0))

. (2.37) Aplicando a norma 2 em (2.37) temos que

km1−mk =

− J0tJ0−1

J0tR−J0t(R−R0−J0(m−m0)) ,

− J0tJ0−1

J0tR

+kJ0tk(kR−R0−J0(m−m0)k)

.(2.38) De (2.34) temos que k −(J0tJ0)−1k ≤ λc, da´ı segue que

(32)

km1−mk ≤ c λ

kJ0tRk+kJ0tk kR −R0−J0(m−m0)k

. (2.39)

Pelo Teorema 2.5, temos que

kR−R0 −J0(m −m0)k ≤ α

2km0−mk2. (2.40) De (2.40) conclu´ımos que a desigualdade a seguir ´e v´alida

km1−mk ≤ c λ

hkJ0tRk+kJ0t

2k(m0 −m)k2i

. (2.41)

Da desigualdade (2.32), conclu´ımos que (J(m)−J(m))tR(m)

≤ σkm−mk Jt(m)R(m)−Jt(m)R(m)

≤ σkm−mk, (2.42)

comoJt(m)R(m) = 0,

kJt(m)R(m)k ≤σkm−mk. (2.43) E, de (2.43) temos que

km1 −mk ≤ c λ

hσkm0−mk+kJ0t

2k(m0−m)k2i

. (2.44)

Como kJ(m)k ≤M, segue que km1−mk ≤ cσ

λ km0−mk+ cM α

2λ k(m0−m)k2. (2.45) Portanto, o item (1) do teorema vale para k = 0.

Definindo o conjunto A ={k ∈N; a desigualdade no item (1) ´e satisfeita}, mos- tramos que 0∈A. Supondo que n∈A, temos que n+ 1∈A. De fato, de kxk−xk ≤ε, da Lipschitz continuidade deJ(x), e pela defini¸c˜ao deε1 na equa¸c˜ao (2.35), de maneira an´aloga ao casoJ0, temos que

k(JtJ)−1[JntJn−JtJ]k ≤ 1

2. (2.46)

(33)

Portanto, pela rela¸c˜ao (2.9), temos que JntJn ´e n˜ao singular e kJntJn−1k ≤ 2.kJtJ

−1k ≤ 2c λ .

Portanto,JneF(mn) est˜ao bem definidos e seguindo os mesmos passos da demonstra¸c˜ao quandok = 0 para o item(1), provamos que a desigualdade vale para k =n+ 1, ou seja

kmn+1−mk ≤ cσ

λ kmn−mk+ cM α

2λ k(mn−m)k2.

(2.47) Logo, A=N. Portanto, a desigualdade vale para todo k∈N.

Passemos ao item (2) do teorema. Escolhendo ε = min

ε1,λ−cσ cM α

, e usando a desigualdade do item (1) do teorema temos que

km1−mk ≤ cσ

λ km0−mk+ cM α

2λ k(m0−m)k2.

≤ km0−mk cσ

λ + cM α

2λ k(m0 −m)k

≤ km0−mk cσ

λ +cM α 2λ

λ−cσ cM α

= km0−mk cσ

λ + λ−cσ 2λ

= km0−mk

cσ+λ 2λ

<km0−mk

(2.48) poiscσ≤ λσ.σ=λ, que implica que

cσ+λ

2λ ≤ λ+λ 2λ = 1.

Assim, provamos que o item (2) do teorema ´e v´alido para k = 0. De maneira an´aloga, supondo que vale parak =n, provamos que vale parak =n+ 1, assim∀k ∈N, temos que o item (2) ´e satisfeito, concluindo a prova do teorema.

(34)

Corol´ario 2.3.1 Assumindo que valem as hip´oteses do Teorema 2.8. Se R(m) = 0, ent˜ao ∃ ε > 0 tal que para todo m0 ∈ B(m, ε), a sequˆencia gerada pelo M´etodo de Gauss-Newton ´e bem definida e converge quadraticamente para m.

Demonstra¸c˜ao. Se R(m) = 0 ent˜ao ∀σ≥0, em particular para σ= 0, a desigualdade a seguir ´e v´alida

[J(m)−J(m)]tR(m)

≤σkm−mk, ∀m∈D.

Como resultado do teorema anterior temos que km(k+1)−mk ≤ cσ

λ km(k)−mk+cM α

2λ k(m(k)−m)k2. Considerando σ= 0 temos que

km(k+1)−mk ≤ cM α

2λ k(m(k)−m)k2. logo

km(k+1)−mk

k(m(k)−m)k2 ≤ cM α 2λ .

Como cM α ≥0, conclu´ımos que o m´etodo converge quadraticamente.

Considerando S(m) igual ao segundo termo da equa¸c˜ao (2.26), desprezado na defini¸c˜ao do passo do m´etodo de Gauss-Newton, devemos ter kS(m)k ≤ σ, sendo σ a constante definida no Teorema 2.8. Logo, σ est´a relacionada a parte desprezada pelo m´etodo de Gauss-Newton, uma vez que para m suficientemente perto de m, temos que

(J(m)−J(m))tR(m)∼=S(m)(m−m). (2.49)

De fato, levando em considera¸c˜ao que J(m)tR(m) =

m

X

i=1

gi(m)∇gi(m), temos que

(35)

[J(m)−J(m)]tR(m) = Jt(m)R(m)−Jt(m)R(m)

=

m

X

i=1

gi(m)∇gi(m)−

m

X

i=1

gi(m)∇gi(m). (2.50) Aproximando ∇gi(m) pelo seu polinˆomio de Taylor de primeira ordem,

∇gi(m)≈ ∇gi(m) +∇2gi(m)(m−m), (2.51) e substituindo (2.51) em (2.50) temos que

[J(m)−J(m)]tR(m) =

m

X

i=1

gi(m)[∇gi(m) +∇2gi(m)(m−m)]

m

X

i=1

gi(m)∇gi(m)

=

m

X

i=1

gi(m)∇gi(m) +

m

X

i=1

gi(m)∇2gi(m)(m−m)

m

X

i=1

gi(m)∇gi(m) (2.52)

m

X

i=1

gi(m)∇2gi(m)(m−m), (2.53) onde

[∇2gi(m)]ij = ∂2gi(m)

∂mi∂mj. Logo,

[[J(m)−J(m)]tR(m)]ij

m

X

i=1

gi(m)∂2gi(m)

∂mi∂mj(mi−m∗i), Portando, temos que a aproxima¸c˜ao (2.49) vale.

Observe que devemos ter σ < λ para garantir a convergˆencia do m´etodo de Gauss-Newton. Essa propor¸c˜ao pode ser vista como uma rela¸c˜ao entre a n˜ao-linearidade e o tamanho do res´ıduo do problema. Portanto, a velocidade da convergˆencia do m´etodo diminui `a medida que a n˜ao-linearidade ou o res´ıduo relativo do problema aumenta.

Alternativamente, podemos dizer que quanto maior for S(m), mais dif´ıcil fica executar o m´etodo de Gauss-Newton.

(36)

2.3.2 Gauss-Newton Amortecido

Ao implementar o m´etodo de Gauss-Newton, o algoritmo pode precisar de mui- tas itera¸c˜oes para convergir. A dire¸c˜ao de descida d(k) pode ser adequada, por´em o tamanho do passo pode atrasar a convergˆencia.

Uma maneira de acelerar o processo de convergˆencia, reduzindo a quantidade de itera¸c˜oes necess´arias para alcan¸car o res´ıduo desejado, ´e utilizar uma busca linear ao longo da dire¸c˜ao de descida, ou seja, devemos encontrar um t >0 tal que

E(m(k)+td(k))< E(m(k)).

Essa modifica¸c˜ao do m´etodo ´e chamada de Gauss-Newton Amortecido (damped Gauss-Newton method).

A busca pode ser de Armijo, Goldstein, Wolfe, entre outras. Em [3] encontramos mais detalhes sobre a busca linear de Armijo-Goldstein e o m´etodo de Gauss-Newton Amortecido.

No passo de Armijo, como citado em [26], calcula-se um t(k) que satisfa¸ca a desigualdade

E(m(k)+t(k)d(k))≤E(m(k)) +ηt(k)∇E(m(k))td(k), (2.54) sendoη <1 um parˆametro definido pelo usu´ario. Para encontrart(k), primeiro definimos t= 1. Se

E(m(k)+td(k))≤E(m(k)) +ηt∇E(m(k))td(k), (2.55) tomamost(k) =t. Sen˜ao, redefinimos tcomo sendot←γt, sendoγ <1 outro parˆametro definido pelo usu´ario, e reavaliamos a desigualdade (2.55), repetindo o processo at´e garantir (2.55) ou t < ttol, em que tmin ´e o tamanho m´ınimo de passo permitido. Ap´os a busca, atualizamos m(k), usando o passo escolhido com a dire¸c˜ao encontrada:

m(k+1) =m(k)+t(k)d(k).

Referências

Documentos relacionados

Visando atender de forma mais eficaz a demanda do mercado e deixar nossos clientes menos dependentes de um único produto para execução da imprimação, a

Chora Peito Chora Joao Bosco e Vinicius 000 / 001.. Chão De Giz Camila e

Como recursos para a modelagem do problema, serão adotados os conceitos da Análise de Decisão, capazes de interpretar os diversos aspectos envolvidos no contexto de decisão, bem como

A fixação da Contribuição Assistencial se constitui em deliberação de Assembléia Geral Extraordinária da categoria profissional e tem amparo no Acórdão do “Egrégio

1.1.2.8 O segundo classificado, que será a equipa vice-campeã da II Divisão de Honra, e o terceiro classificado, ficarão apurados para disputar a 2ª Fase da Fase

Em primeiro lugar, devemos considerar que Sustentabilidade possui um conceito sistêmico, ou seja, a Sustentabilidade está relacionada com a manutenção dos aspectos

A odontologia legal é uma especialidade imprescindível para soluções de casos jurídicos por negligência ou imprudência no ramo da odontologia, em processos éticos e pode

A singularidade da experiência literária pode sensibilizar os alunos a enxergar nessa prática a representação de questões que são também suas, criando uma