M´ ETODOS DE GAUSS-NEWTON PARA PROBLEMAS DE QUADRADOS M´INIMOS N ˜ AO LINEARES:
TEORIA, VALIDAC ¸ ˜ AO NUM´ ERICA E APLICAC ¸ ˜ AO EM GEOF´ISICA
Curitiba Setembro de 2016
M´ ETODOS DE GAUSS-NEWTON PARA PROBLEMAS DE QUADRADOS M´INIMOS N ˜ AO LINEARES:
TEORIA, VALIDAC ¸ ˜ AO NUM´ ERICA E APLICAC ¸ ˜ AO EM GEOF´ISICA
Disserta¸c˜ao apresentada ao Programa de P´os-Gradua¸c˜ao em Matem´atica da Univer- sidade Federal do Paran´a, como requisito parcial `a obten¸c˜ao do grau de Mestre em Matem´atica.
Orientador: Prof. Dr. Saulo Pomponet Oliveira.
Curitiba Setembro de 2016
m´ınimos n˜ao lineares: teoria, valida¸c˜ao num´erica e aplica¸c˜ao em geof´ısica / Monique Bonfim de Souza. — Curitiba, 2016.
66 f.: il.
Disserta¸c˜ao (Mestrado) - Universidade Federal do Paran´a, Se- tor de Ciˆencias Exatas, Programa de P´os-gradua¸c˜ao em Ma- tem´atica, 2016.
Orientador: Prof. Dr. Saulo Pomponet Oliveira
1. Matem´atica. 2. Algoritmos. 3. Geof´ısica. I. Universidade Federal do Paran´a. II. Oliveira, Saulo Pomponet. III. T´ıtulo.
CDD: 510
!^ k1f V
PRÓrREITORIADE PESQUISA E
PÕS-GRADUAÇÀO Sctor C[j?NciAS EXATASV J r“ Jk** rÇ
Programa de Pós Graduação em MATEMÁTICA Código CAPES: 40001016041PKUNIVERSIDADE EEDÊRAL DO PARANA
TERMO DE APROVAÇÃO
Os membros da Banca Examinadora designada ,pelo Colegiado do Programa de Pós-Graduação em MATEMÁTICA da Universidade Federal do Paraná To ram convocados para realizar a arguição da Dissertação de Mestrado de MONIQUE BONFIM DE SOUZA, intitulada: "MÉTODOS DE GAUSS- NEWTON PARA PROBLEMAS DE QUADRADOS MÍNIMOS NÃO LINEARES: TEORIA, VALIDAÇÃO NUMÉRICA E APLICAÇÃO EM GEOFÍSICA", após terem inquirido a aluna e realizado a avaliação do trabalho, são de parecer pela sua ^ p tf «\
Curitiba, 19 de Setembro de 2016.
^SAULO POMPONET OLIVEIRA Presidente da Banca Examinadora (UFPR)
%A \ íl
^ ^ ^
HIAREZ ops s a n to s azevèdo v Avaliador Externo (UFRB)
LUCAS GARCIA PEDROSO Avaliador Interno (UFPR)
Programa de Pós Graduação em MATEMÁTICA | UFPR
Coordenação PPGMA, Centro Politécnico, UFPR - Curitiba - Paraná - Brasil"
CEP 81531990 -Tel: (041) 3361 3026 - Fax: (041) 3361 3026 - E-mail: pgmat@ufpr.br
Para o meu amor mais puro e genu´ıno, minha m˜ae Maria.
Agrade¸co a Deus, pelo lugar na natureza e no mundo cient´ıfico.
Ao meu pai Manoel e minha m˜ae Maria Jos´e (in memoriam), pela educa¸c˜ao que recebi, pela personalidade que tenho, por me apoiarem, por lutarem por meus sonhos, por suportarem a distˆancia, e por deixarem de realizar algumas de suas vontades para que eu pudesse realizar as minhas.
A minha tia Carmel e ao meu irm˜` ao Lucas, pelo apoio e amor incondicional, pela compreens˜ao e por sempre dizer “sim”aos meus pedidos.
A todos os meus amigos que est˜ao perto e aos que est˜ao fisicamente distantes, mas pr´oximos em pensamento. Em especial, a Fl´avia, Paulo, Teles, Mirella, Cami, Joseane, Geovani, Ana, Tai, Victor, Dan, T´ulio, Bia, Cl´ıvia e Sulivan, por acreditarem em mim mais do que eu mesma pude acreditar, pela confian¸ca, pela parceria, pelas recep¸c˜oes, pelos risos e l´agrimas compartilhados.
Ao professor Marcio Bortoloti, pelas palavras de incentivo, por todo conheci- mento adquirido, pela motiva¸c˜ao para que eu n˜ao pensasse em desistir.
A todo o corpo doscente do PPGMA, pelos conhecimentos compartilhados e pelo incentivo. Em especial, aos professores que tive o prazer de participar das aulas.
Aos membros da banca, Lucas, Juarez, Ana Gabriela e Rodolfo, por aceitarem o convite.
Ao meu orientador Saulo, pelo exemplo de excelˆencia em docˆencia e pesquisa, pela disposi¸c˜ao para trabalhar comigo, por todo conhecimento adquirido, toda oportu- nidade, compreens˜ao e paciˆencia.
Ao Programa de P´os-Gradua¸c˜ao em Matem´atica da UFPR, pela oportunidade e qualidade na forma¸c˜ao.
A CAPES pelo apoio financeiro.`
A todos que direta ou indiretamente contribuiram para minha forma¸c˜ao, o meu muito obrigada.
E pela dor eu descobri o poder da alegria E a certeza de que tenho coisas novas Coisas novas pra dizer”
Belchior
Algoritmos de programa¸c˜ao n˜ao-linear s˜ao importantes na resolu¸c˜ao de pro- blemas de quadrados m´ınimos. Neste trabalho apresentamos um estudo te´orico e computacional dos m´etodos de Newton e Gauss-Newton, anali- sando algumas de suas caracter´ısticas, tais como o passo do m´etodo, prin- cipais pr´e-requisitos para funcionamento, e a convergˆencia. Abordamos os m´etodos de busca pseudo-aleat´oria de Monte Carlo e Quasi-Monte Carlo, e mostramos exemplos de constru¸c˜ao de uma das sequˆencias de baixa dis- crepˆancia (a sequˆencia de Sobol) utilizadas na gera¸c˜ao das amostras do m´etodo de Quasi-Monte Carlo. Analisamos os resultados num´ericos de ex- perimentos com vers˜oes cl´assicas de cada m´etodo e vers˜oes h´ıbridas (ou seja, m´etodos que combinam o m´etodo de (Quasi-)Monte Carlo com o m´etodo de Gauss-Newton). Os experimentos foram realizados com uma biblioteca de fun¸c˜oes-objetivo em linguagem Fortran proposta por Mor´e, Garbow e Hills- trom. Comparamos os resultados observando o erro residual, quantidade de itera¸c˜oes utilizadas, eficiˆencia e robustez na resolu¸c˜ao de problemas cl´assicos da literatura, e aplicamos os m´etodos a um problema de invers˜ao de dados s´ısmicos considerando um modelo el´astico para meios estratificados.
Palavras-chave: quadrados m´ınimos n˜ao-lineares; m´etodo de Gauss- Newton; m´etodo de Monte Carlo; m´etodo de Quasi-Monte Carlo; algoritmo h´ıbrido.
Nonlinear programming algorithms are important in solving least squares problems. We have presented a theoretical and computational study of New- ton and Gauss-Newton methods by analyzing their characteristics (such as the step size and main assumptions) and convergence. We considered pseudo random search methods, namely the Monte Carlo and Quasi-Monte Carlo methods, showing examples of construction of one of the low dis- crepancy sequences (Sobol sequence) used on samples generation of Quasi- Monte Carlo method. We analyzed numerical results of experiments using classical versions of each method and hybrid versions (i.e., combining Quasi- Monte Carlo with the Gauss-Newton methods). The numerical experiments were carried out with a library of objective functions in Fortran program- ming language proposed by Mor´e, Garbow, and Hillstrom. We compared the results obtained looking at the residual error, number of iterations used, efficiency and robustness in solving classic literature problems, and applied the methods to a seismic inverse problem considering an elastic model for layered media.
Keywords: nonlinear least squares; Gauss-Newton method; Monte Carlo method; Quasi-Monte Carlo method; hybrid algorithm.
3.1 Distribui¸c˜ao de 100 amostras . . . 30
3.2 Distribui¸c˜ao de 200 amostras . . . 30
3.3 Distribui¸c˜ao de 500 amostras . . . 31
3.4 Distribui¸c˜ao de 1000 amostras . . . 31
4.1 Redu¸c˜ao do res´ıduo encontrado pelos m´etodos HMC e HqMC, comparados ao res´ıduo inicial, utilizando 1000 amostras e crit´erio de parada de 10−10. 42 4.2 Redu¸c˜ao do res´ıduo utilizando 1000 amostras, com crit´erio de parada de 10% do erro residual no ponto inicial dado por [25]. . . 43
4.3 Redu¸c˜ao do res´ıduo utilizando 20 amostras, com crit´erio de parada de 10% do erro residual no ponto inicial dado por [25]. . . 43
4.4 M´etodos GN, GNMC, GNqMC, HMC, HqMC, MC e qMC (numerados de 1 a 7 no eixo x) aplicados `a Fun¸c˜ao Meyer, crit´erio de parada 10−10, 1000 amostras. . . 44
4.5 M´etodos GN, GNMC, GNqMC, HMC, HqMC, MC e qMC (numerados de 1 a 7 no eixo x) aplicados `a Fun¸c˜ao Chebyquad, crit´erio de parada 10−10, 1000 amostras. . . 45
4.6 Res´ıduo atingido na solu¸c˜ao do Problema 54. . . 46
4.7 Res´ıduo atingido na solu¸c˜ao do Problema 42. . . 47
4.8 Res´ıduo atingido na solu¸c˜ao do Problema 43. . . 48
4.9 Res´ıduo atingido na solu¸c˜ao do Problema 44. . . 48
4.10 Res´ıduo atingido na solu¸c˜ao do Problema 45. . . 49
4.11 Res´ıduo atingido na solu¸c˜ao do Problema 46. . . 49
4.12 Res´ıduo atingido na solu¸c˜ao do Problema 47. . . 50
4.13 Res´ıduo atingido na solu¸c˜ao do Problema 25. . . 50
4.14 Res´ıduo atingido na solu¸c˜ao do Problema 26. . . 51
4.16 Perfil do desempenho: 1000 amostras. . . 52
4.17 Perfil do desempenho: 1000 amostras. . . 53
4.18 Perfil do desempenho: 500 amostras. . . 54
4.19 Perfil do desempenho: 20 amostras. . . 54
4.20 Perfil do desempenho: 100 amostras. . . 55
4.21 Res´ıduo relativo final dos m´etodos GNMC, GNqMC, HMC e HqMC (nu- merados de 1 a 4 no eixo x) aplicados ao problema de invers˜ao s´ısmica. . 58
4.22 Res´ıduo dos m´etodos GNMC, GNqMC, HMC e HqMC. . . 59
4.23 Deslocamento calculado . . . 60
1 Introdu¸c˜ao 1
2 M´etodo de Newton e Gauss-Newton 4
2.1 Introdu¸c˜ao . . . 4
2.2 M´etodo de Newton . . . 5
2.2.1 Convergˆencia do m´etodo . . . 6
2.3 M´etodo de Gauss-Newton . . . 13
2.3.1 Convergˆencia do m´etodo . . . 16
2.3.2 Gauss-Newton Amortecido . . . 23
2.4 Regulariza¸c˜ao . . . 24
3 M´etodo de Monte Carlo e Quasi-Monte Carlo 25 3.1 Introdu¸c˜ao . . . 25
3.1.1 M´etodo de Monte Carlo . . . 25
3.1.2 M´etodo de Quasi-Monte Carlo . . . 27
3.1.3 Abordagem H´ıbrida . . . 32
4 Resultados Num´ericos 35 4.1 Banco de Fun¸c˜oes . . . 36
4.2 Crit´erios de Compara¸c˜ao . . . 37
4.2.1 Avalia¸c˜ao pelo n´umero de melhores resultados . . . 39
4.2.2 Avalia¸c˜ao por histogramas . . . 41
4.2.3 Erro residual de problemas espec´ıficos. . . 45
4.2.4 Perfil de Desempenho . . . 52
4.3 Aplica¸c˜ao a um problema geof´ısico . . . 56
5 Conclus˜ao 61
1 INTRODUC ¸ ˜ AO
A otimiza¸c˜ao ´e uma ´area da matem´atica que possui muitas aplica¸c˜oes, fazendo parte direta ou indiretamente do nosso cotidiano. Em economia, geof´ısica, medicina, engenharias, administra¸c˜ao, biologia, entre outras ciˆencias, surgem problemas onde ´e poss´ıvel represent´a-los atrav´es de um modelo matem´atico e utilizar t´ecnicas de otimiza¸c˜ao para resolvˆe-los.
Na geof´ısica, por exemplo, o estudo e desenvolvimento de m´etodos matem´aticos torna eficiente a solu¸c˜ao de problemas associados `a propaga¸c˜ao de sinais. O subsolo, por ser um meio heterogˆeneo, composto por rochas, areia, sedimentos, entre outros elementos, apresenta em cada uma de suas camadas velocidades de propaga¸c˜ao de ondas distintas.
Para as ind´ustrias petrol´ıferas, por exemplo, ´e importante descobrir se uma determinada regi˜ao tem as caracter´ısticas de um reservat´orio de petr´oleo para iniciar os investimentos na extra¸c˜ao.
Quando acontece um terremoto, explos˜oes, ou outros eventos semelhantes na superf´ıcie da Terra, ´e poss´ıvel coletar dados atrav´es de receptores projetados com a finalidade de gravar as ondas de perturba¸c˜ao do ambiente, que s˜ao emitidas durante o evento. Devido `as altera¸c˜oes que essas ondas sofrem durante a propaga¸c˜ao ´e poss´ıvel coletar dados e identificar as rochas que comp˜oem o solo, pois estas influenciam nas altera¸c˜oes. Esses dados podem ser obtidos atrav´es do processo de invers˜ao, utilizando, por exemplo, a tomografia s´ısmica, pois esta possibilita a visualiza¸c˜ao de imagens mais n´ıtidas, livres de ru´ıdos, permitindo o reconhecimento da composi¸c˜ao do subsolo.
Na tomografia por impedˆancia reconstr´oi-se propriedades de um objeto, sabendo o valor de algumas medidas tomadas sobre a fronteira deste. Nos estudos referentes `a tomografia computadorizada, tratamos de um problema inverso de otimiza¸c˜ao, n˜ao-linear e mal-condicionado. O mal-condicionamento acontece devido `a discretiza¸c˜ao da Equa¸c˜ao Integral de Fredholm, que torna o problema mal-posto pois a existˆencia e unicidade da solu¸c˜ao do problema nem sempre s˜ao garantidas [32]. Na tomografia, temos o objetivo de
minimizar diferen¸cas entre dados observados e dados calculados, utilizando um modelo num´erico.
Um dos objetivos da invers˜ao geof´ısica, descrita em termos de probabilidade ou por abordagens cl´assicas, ´e a busca pelo m´ınimo de uma fun¸c˜ao erro, E : Rn → R, continuamente diferenci´avel, dada por
E(m) = 1
2kdobs −g(m)k2, (1.1) sendodobs o vetor de dados observados e g(m) uma fun¸c˜ao n˜ao-linear que corresponde `a solu¸c˜ao do problema direto (em tomografia s´ısmica, usualmente corresponde ao c´alculo dos tempos de trˆansito a partir do campo de velocidades). Assim sendo, temos um problema de quadrados m´ınimos n˜ao linear, e os candidatos a minimizadores da fun¸c˜ao E s˜ao seus pontos estacion´arios, portanto estaremos encontrando a solu¸c˜ao do sistema
∇E(m) = 0. (1.2)
Segundo Leon [15], a t´ecnica de quadrados m´ınimos foi desenvolvida indepen- dentemente por Andrien-Marie-Legendre e Carl Friedrich Gauss. O primeiro artigo sobre o assunto foi publicado por Legendre em 1806, embora haja evidˆencias de que nove anos antes desta publica¸c˜ao, Gauss havia descoberto o m´etodo como estudante e o utilizado para fazer c´alculos astronˆomicos. A chave do sucesso de Gauss e reconhecimento como matem´atico, e n˜ao apenas astrˆonomo, foi o uso do m´etodo de quadrados m´ınimos.
Para resolver o problema de quadrados m´ınimos n˜ao lineares existem diver- sos m´etodos com vantagens e desvantagens, como por exemplo, o m´etodo de Newton e Gauss-Newton [5], que possuem convergˆencia local. S˜ao m´etodos eficientes, por´em, caso a superf´ıcie definida pela fun¸c˜ao erro tenha v´arios picos e depress˜oes, esse tipo de abordagem pode falhar, pois o m´etodo encontrar´a o m´ınimo mais pr´oximo ao ponto de partida, que pode n˜ao ser o melhor minimizador do problema.
A fim de resolver o caso em que a fun¸c˜ao erro tem v´arios pontos cr´ıticos, utiliza-se os m´etodos de otimiza¸c˜ao global. Um dos m´etodos estudados para esse tipo de problema inverso ´e o m´etodo de resfriamento simulado (Simulated Annealing), como citado em [11],
[20] e [23]. O m´etodo foi proposto inicialmente para lidar com problemas de otimiza¸c˜ao combinat´oria, mais tarde estendido para problemas cont´ınuos. Como resultados dos estudos realizados, foram encontrados convergˆencia assint´otica para um m´ınimo global
´
otimo, mas n˜ao h´a garantia de que obtenhamos uma boa solu¸c˜ao em um n´umero finito de itera¸c˜oes [27].
Al´em do m´etodo de resfriamento simulado, os m´etodos de Monte Carlo e Quasi- Monte Carlo tamb´em utilizam otimiza¸c˜ao aleat´oria, podendo ser aplicados individual- mente ou em conjunto com m´etodos que utilizam derivadas, como por exemplo, o Newton e Gauss-Newton.
A finalidade deste trabalho ´e fazer um levantamento te´orico/pr´atico dos m´etodos de Newton, Gauss-Newton, Monte Carlo e Quasi-Monte Carlo, e compar´a-los mediante experimentos num´ericos com vers˜oes h´ıbridas, com busca unidirecional quando poss´ıvel, al´em de observar o comportamento de cada um quando aplicado individualmente.
O Cap´ıtulo 2 apresenta defini¸c˜oes, caracter´ısticas e convergˆencia do m´etodo de Newton, al´em de mostrar uma de suas varia¸c˜oes.. Apresenta defini¸c˜oes e caracter´ısticas do m´etodo de Gauss-Newton, mostrando que esse converge quadraticamente, enunciando e demonstrando teoremas com resultados necess´arios para provar a convergˆencia.
O Cap´ıtulo 3 apresenta defini¸c˜oes sobre o m´etodos de Monte Carlo, al´em de um pouco da teoria sobre o m´etodo de Quasi-Monte Carlo, explicitando a sequˆencia pseudo-aleat´oria utilizada no m´etodo, chamada sequˆencia Sobol.
O objetivo do Cap´ıtulo 4 ´e apresentar os resultados n´umericos da compara¸c˜ao dos m´etodos definidos e discutidos nos cap´ıtulos anteriores. Para isto, utilizamos di- ferentes quantidades de amostras, a fim de perceber quantas amostras s˜ao suficientes para que determinados m´etodos atinjam resultados satisfat´orios. Comparamos vers˜oes cl´assicas e h´ıbridas dos m´etodos, com diferentes crit´erios de parada, observando quais m´etodos obtˆem melhores resultados. Realizamos tamb´em uma aplica¸c˜ao dos m´etodos a um problema inverso com motiva¸c˜ao geof´ısica.
2 M´ ETODO DE NEWTON E GAUSS-NEWTON
2.1 Introdu¸ c˜ ao
Num problema de quadrados m´ınimos desejamos resolver um sistema de equa¸c˜oes
g(m) = dobs (2.1)
em que devemos observar se o sistema a ser resolvido ´e um caso linear ou n˜ao-linear.
Como exemplo de um caso n˜ao-linear, considere a fun¸c˜ao
g(m) =
1
2(m12 +m22) m1m2
2m2
,
onde g :R2 →R3. Problemas desse tipo podem ou n˜ao ter solu¸c˜ao. Para os dois casos existem algoritmos que resolvem o problema. Se para g(m) citado acima considerarmos dobs = (0,0,0), por exemplo, o sistema possui solu¸c˜aom1 = 0 em2 = 0. Para o caso em quedobs = (0,1,0), ´e f´acil notar que o sistema n˜ao possui solu¸c˜ao.
Ao resolver sistemas como o exemplo em que dobs = (0,1,0), estamos resolvendo um problema de quadrados m´ınimos. Neste cap´ıtulo trataremos do m´etodo de Newton e uma de suas varia¸c˜oes, o m´etodo de Gauss-Newton, para o problema de quadrados m´ınimos n˜ao linear
m∈minRn
E(m), E(m) = 1
2kdobs−g(m)k2, (2.2) sendo dobs ∈ Rm o vetor de dados observados e g : Rn → Rm uma fun¸c˜ao n˜ao-linear dos parˆametrosm1, . . . , mn. Na nomenclatura de problemas inversos, calcular d=g(m) corresponde a resolver o problema direto (forward problem), enquanto calcularmtal que dobs ∼=g(m) corresponde a resolver o problema inverso (inverse problem).
Neste cap´ıtulo utilizaremos frequentemente gradientes de fun¸c˜oes escalares e vetoriais, conforme a defini¸c˜ao a seguir.
Defini¸c˜ao 2.1 Sejam (X,k · kX) e (Y,k · kY) espa¸cos normados. Dizemos que uma fun¸c˜ao f : X → Y ´e diferenci´avel em x0 ∈ X se existe uma transforma¸c˜ao linear Df[x0] :X →Y tal que
f(x0+h) = f(x0) +Df[x0](h) +r(h), lim
khkX→0
r(h)
khkX = 0. (2.3)
Em particular, sejam X =Rn e Y =Rm, dotados com a norma euclideana. Se m= 1, ent˜ao Df[x0](h) = ∇f(x0)th, sendo
[∇f(x0)]i = ∂f
∂xi
(x0), 1≤i≤n,
o gradiente de f em x0. Se m > 1, ou seja, f(x) = [f1(x), . . . , fm(x)]T, ent˜ao Df[x0](h) =∇f(x0)th, sendo o gradiente em x0 agora dado por
[∇f(x0)]ij = ∂fj
∂xi(x0), 1≤i≤n, 1≤j ≤m.
2.2 M´ etodo de Newton
Assuma que a fun¸c˜ao E : Rn → R seja de classe C2. Como o problema de minimiza¸c˜ao (2.2) ´e irrestrito, os candidatos a minimizadores s˜ao os pontos estacion´arios deE(m), ou seja, os vetores m tais que
∇E(m) = 0. (2.4)
Ao resolver este tipo de problema, como se trata de um caso n˜ao linear, aproxima¸c˜oes de fun¸c˜oes geralmente s˜ao utilizadas, de modo que escolhemos um tipo de aproxima¸c˜ao e aplicamos `a fun¸c˜ao do sistema.
Podemos usar o metodo de Newton para resolver o sistema (2.2), e para chegar- mos ao passo do m´etodo come¸caremos utilizando a aproxima¸c˜ao de Taylor de primeira ordem para∇E(m). Definindo F :Rn →Rn, tal que F(m) =∇E(m), temos que
F(m(k)) +∇F(m(k))(m−m(k)) = 0
∇F(m(k))(m−m(k)) =−F(m(k)), (2.5) sendom(k) as aproxima¸c˜oes do vetorm e∇F a matriz hessiana de E. Se ∇F(m(k)) for invers´ıvel, ent˜ao temos de (2.5) que
∇F(m(k))m=−F(m(k)) +∇F(m(k))m(k)
m=m(k)−(∇F(m(k)))−1F(m(k)). (2.6) Caso∇F(m(k)) n˜ao seja invers´ıvel, o m´etodo de Newton n˜ao consegue calcular a pr´oxima itera¸c˜ao. Neste caso h´a duas alternativas: utilizar uma regulariza¸c˜ao da matriz
∇F(m(k)), comprometendo, entretanto, a precis˜ao da solu¸c˜ao aproximada pelo m´etodo, ou escolher um novo ponto inicial m(0).
2.2.1 Convergˆ encia do m´ etodo
Nesta se¸c˜ao mostraremos a prova, baseada em [5], de que a convergˆencia do m´etodo de Newton para sistemas de equa¸c˜oes n˜ao lineares ´e quadr´atica. O teorema a seguir, enunciado em [5], apresenta propriedades de norma matricial utilizadas na prova da convergˆencia.
Teorema 2.2 Seja k · kuma norma em Rn×n tal que, para todoA, B ∈Rn×n e x∈Rn, kABk ≤ kAkkBk, kIk= 1ekAxk ≤ kAk kxk. (2.7) Seja C ∈Rn×n. Se kCk<1, ent˜ao (I−C)−1 existe, e
k(I−C)−1k ≤ 1
1− kCk. (2.8)
Al´em disso, se A ´e n˜ao singular e kA−1(B−A)k<1, ent˜ao B ´e n˜ao singular e kB−1k ≤ kA−1k
1− kA−1(B −A)k. (2.9)
Demonstra¸c˜ao.
Como kCk <1, temos que kCkn < 1 . Al´em disso, segue de (2.7) que kCnk ≤ kCkn < 1 logo limn→∞Cn = 0. Se λ ´e um autovalor qualquer de C, ent˜aoCnx= λnx, sendo x um autovetor associando a λ, temos que limn→∞λn = 0. Como consequˆencia,
|λ| < 1 para todo λ e portanto temos que ρ(C) < 1, onde ρ ´e o raio espectral. Como os autovalores deI−C s˜ao dados por 1−λ(C), sendoλ(C) autovalores de C e como o raio espectral de C ´e menor que um, conclu´ımos queI−C ´e n˜ao singular.
Sendo I =I−C+C, multiplicamos, pela direita, ambos os lados da igualdade por (I−C)−1, e obtemos (I−C)−1 =I+C(I−C)−1. Aplicando a norma `a igualdade temos
k(I−C)−1k = kI+C(I−C)−1k
≤ kIk+kCk k(I −C)−1k
= 1 +kCk k(I−C)−1k. (2.10)
Da equa¸c˜ao (2.10), segue que
k(I−C)−1k ≤ 1 +kCk k(I−C)−1k k(I−C)−1k − kCk k(I−C)−1k ≤ 1
k(I−C)−1k(1− kCk) ≤ 1 (2.11) Dividindo-se a desigualdade (2.11) por (1− kCk) obt´em-se a desigualdade (2.8) e, assim a desigualdade (2.11) vale quando kCk<1.
De maneira an´aloga, temos que k −Ck<1, ent˜ao I−(−C) ´e invers´ıvel, e
k(I−(−C))−1k ≤ 1 1− k −Ck k(I+C)−1k ≤ 1
1− kCk (2.12)
Observe que, tomandoC =A−1B−I, temos queI+C =I+A−1B−I =A−1B.
Ou seja, A−1B ´e invers´ıvel. Como A tamb´em ´e invers´ıvel, B ´e invers´ıvel e (A−1B)−1 = B−1A, logo
k(A−1B)−1k ≤ 1
1− kA−1B−Ik kB−1Ak ≤ 1
1− kA−1B−A−1Ak kB−1Ak ≤ 1
1− kA−1(B −A)k.
(2.13) Multiplicando a desigualdade (2.13) por kA−1k, a desigualdade a seguir vale
kB−1Ak kA−1k ≤ kA−1k
1− kA−1(B−A)k.
(2.14) Considerando a propriedadekB−1AA−1k ≤ kB−1AkkA−1k, temos que
kB−1k=kB−1AA−1k ≤ kB−1AkkA−1k
≤ kA−1k
1− kA−1(B −A)k. (2.15)
Teorema 2.3 Seja f :Rn →R cont´ınua e diferenci´avel em um aberto conexo D⊂Rn. Dadosx∈D e uma dire¸c˜ao n˜ao-nulap∈Rn, a derivada direcional def de xna dire¸c˜ao de p, definida por
∂f(x)
∂p = lim
ξ→0
f(x+ξp)−f(x)
ξ ,
existe e ´e igual a ∇f(x)tp. Al´em disso,
f(x+p) =f(x) + Z 1
0
∇f(x+tp)tp dt
e existe z ∈Rn tal que z =x+tp, com 0≤t≤1, e f(x+p) =f(x) +∇f(z)tp.
Demonstra¸c˜ao. Veja [5].
Teorema 2.4 Seja F : Rn → Rm continuamente diferenci´avel num conjunto aberto conexo D⊂Rn. Para x, x+p∈D quaisquer, existe z =x+tp, tal que
F(x+p)−F(x) = Z 1
0
∇F(x+tp)tp dt.
Demonstra¸c˜ao. Como F ´e continuamente diferenci´avel, ent˜ao cada componente Fi, i = 1, . . . , n, de F ´e continuamente diferenci´avel tamb´em. Definindo g(t) = Fi(x+tp) e usando o Teorema2.3 temos que
g(1)−g(0) = Z 1
0
g0(t)dt Fi(x+p)−Fi(x) =
Z 1 0
∇Fi(x+tp)tp dt, logo,
F(x+p)−F(x) = Z 1
0
∇F(x+tp)tp dt,
Teorema 2.5 Seja F : Rn → Rm continuamente diferenci´avel num conjunto aberto conexo D ⊂ Rn, x ∈ D, e seja ∇F(x)t Lipschitz cont´ınua numa vizinhan¸ca de D, tal queα ´e a constante de Lipschitz. Ent˜ao, para x+p∈D qualquer,
kF(x+p)−F(x)− ∇F(x)tpk ≤ α
2kpk2, p∈Rn. Demonstra¸c˜ao. Pelo Teorema 2.4, temos que
F(x+p)−F(x) = Z 1
0
∇F(x+tp)tp dt F(x+p)−F(x)− ∇F(x)tp =
Z 1 0
∇F(x+tp)tp dt− ∇F(x)tp
= Z 1
0
∇F(x+tp)t− ∇F(x)t p dt.
Aplicando a norma nos dois lados da igualdade e propriedades da fun¸c˜ao norma, demonstradas utilizando defini¸c˜oes e teoremas de [16], temos que
kF(x+p)−F(x)− ∇F(x)tpk =
Z 1 0
∇F(x+tp)t− ∇F(x)t p dt
≤ Z 1
0
∇F(x+tp)t− ∇F(x)t p
dt
≤ Z 1
0
∇F(x+tp)t− ∇F(x)t
kpk dt, como∇Ft ´e Lipschitz cont´ınua, temos que
∇F(x+tp)t− ∇F(x)t
≤ αkx+tp−xk = αktpk. Segue que
kF(x+p)−F(x)− ∇F(x)tpk ≤ Z 1
0
αktpk kpkdt
≤ Z 1
0
α|t| kpk kpkdt
= αkpk2 Z 1
0
|t|dt
= α
2kpk2, concluindo a prova.
Defina V(x, r) como a vizinhan¸ca aberta de raio r em torno de x dada uma norma vetorial k · k, ou seja, V(x, r) = {bx∈Rn:kbx−xk< r}.
Teorema 2.6 Seja F :Rn→Rn continuamente diferenci´avel num aberto convexo D⊂ Rn. Assuma que existe m∗ ∈Rn tal que F(m∗) = 0 e ∇F(m∗)´e invers´ıvel, que existem r, β > 0 tais que V(m∗, r) ⊂ D, k∇F(m∗)−1k ≤ β, e ∇F ∈ Lipγ(V(m∗, r)). Ent˜ao, existe >0 tal que para todo m0 ∈V(m∗, ) a sequˆencia m(1), m(2), . . . gerada por
m(k+1) =m(k)− ∇F(m(k))−1F(m(k)), k= 0,1, . . .
´e bem definida, e converge quadraticamente param∗, ou seja,
km(k+1)−m∗k ≤βγkm(k)−m∗k2, k= 0,1, . . . (2.16) Demonstra¸c˜ao. Vamos escolher um tal que ∇F(m) ´e n˜ao singular para todo m ∈ V(m∗, ). Devemos mostrar que o erro local do modelo definido pela aproxima¸c˜ao de Taylor, avaliado em m∗, utilizado para gerar cada itera¸c˜ao do M´etodo de Newton ´e de, no m´aximo, O(km(k)−m∗k2).
Considere
= min
r, 1 2βγ
. (2.17)
Vamos mostrar por indu¸c˜ao em k que a cada passo a equa¸c˜ao (2.16) ´e v´alida, e km(k+1)−m∗k ≤ 1
2km(k)−m∗k. (2.18)
Segue de (2.18) que m(k+1) ∈V(m∗, ),o que garante que m(k)∈V(m∗, ).
Devemos primeiro mostrar que ∇F(m(0)) ´e n˜ao singular. De fato, seja m(0) tal que km(0)−m∗k ≤ . Pela igualdade (2.17) e pelo fato de ∇F(m∗) ser cont´ınua e lipschitziana, segue que
k∇F(m∗)−1[∇F(m(0))− ∇F(m∗)]k ≤ k∇F(m∗)−1k k∇F(m(0))− ∇F(m∗)k
≤ βγkm(0)−m∗k
≤ β.γ.
≤ 1
2. (2.19)
Assim, pela rela¸c˜ao (2.9) do Teorema 2.2, ∇F(m0) ´e n˜ao singular e k∇F(m(0))−1k ≤ k∇F(m∗)−1k
1− k∇F(m∗)−1[∇F(m0)− ∇F(m∗)]k
≤ 2.k∇F(m∗)−1k ≤2β.
Considere o conjuntoA={k∈N;m(k) ∈V(m∗, )}. ComoF(m∗) = ∇E(m∗) = 0, como ∇F(m(0))−1 e F(m(0)) est˜ao bem definidos, temos que
m(1)−m∗ = m(0)−m∗− ∇F(m(0))−1F(m(0))
= m(0)−m∗− ∇F(m(0))−1[F(m(0))−F(m∗)]
= ∇F(m(0))−1[F(m∗)−F(m(0))− ∇F(m(0))(m∗−m(0))].
Temos que o termo entre colchetes ´e a diferen¸ca entre F(m∗)e o modelo definido pela aproxima¸c˜ao de Taylor, avaliado em m∗. Portanto, podemos utilizar o Teorema 2.5 e pela equa¸c˜ao (2.20) conclu´ımos que
km(1)−m∗k ≤ k∇F(m(0))−1k kF(m∗)−F(m(0))− ∇F(m(0))(m∗−m(0))k
≤ 2βγ
2km(0)−m∗k2
= βγkm(0)−m∗k2. (2.20)
Da equa¸c˜ao (2.19), temos que
km(0)−m∗k ≤ 1 2(βγ), logo
km(1)−m∗k ≤ 1
2km(0)−m∗k, o que prova que m(1) ∈V(m∗, ). Portanto,1∈A.
Supondo que k ∈ A, devemos mostrar que k + 1 ∈ A. Se k ∈ A, ent˜ao mk ∈ V(m∗, ). Primeiro, note que da mesma maneira que∇F(m(0)), ∇F(m(k))´e n˜ao singular e k∇F−1(m(k))k ≤2β. Portanto, m(k) est´a bem definido e
m(k+1)−m∗ = m(0)−m∗− ∇F(m(k))−1F(m(k))
= m(k)−m∗− ∇F(m(k))−1[F(m(k))−F(m∗)]
= ∇F(m(k))−1[F(m∗)−F(m(k))− ∇F(m(k))(m∗−m(k))]. (2.21) Utilizando o Teorema 2.5 e pela equa¸c˜ao (2.20) conclu´ımos que
km(k+1)−m∗k ≤ k∇F(m(k))−1k.kF(m∗)−F(mk)− ∇F(m(k))(m∗−m(k))k
≤ 2βγ
2km(k)−m∗k2
= βγkm(k)−m∗k2. (2.22)
Conclu´ımos que k+ 1 ∈ A, logo, A = N, que junto com (2.22), prova que o teorema vale para todok ∈N.
Portanto, a sequˆencia m(k) ⊂ Rn, gerada pelo m´etodo de Newton, converge quadraticamente para m∗ ∈ Rn, ou seja, m(k) →m∗ e existe uma constante M > 0 tal que
km(k+1)−m∗k km(k)−m∗k2 ≤M.
Apesar de ser um m´etodo localmente r´apido, e sua convergˆencia acontecer em apenas um passo para o caso de fun¸c˜oes quadr´aticas, o m´etodo de Newton tem alto custo computacional, pois necessita do c´alculo da matriz hessiana. Por isso, modifica¸c˜oes deste m´etodos s˜ao mais utilizadas, j´a que muitos problemas n˜ao possuem fun¸c˜ao objetivo quadr´atica. Na pr´oxima se¸c˜ao mostraremos uma modifica¸c˜ao do M´etodo de Newton.
2.3 M´ etodo de Gauss-Newton
O m´etodo de Gauss-Newton ´e bastante utilizado em aplica¸c˜oes que se reduzem a um problema de quadrados m´ınimos da forma (2.2). A principal motiva¸c˜ao para o uso deste m´etodo ´e que seu custo computacional ´e inferior ao m´etodo de Newton, pois n˜ao utiliza a hessiana da fun¸c˜ao. O m´etodo consiste em aproxima¸c˜oes do sistema n˜ao-linear por um sistema linearizado.
Considerando a fun¸c˜ao objetivo E(m) da equa¸c˜ao (2.2) e F : Rm → Rn dada porF(m) = ∇E(m), tomando a expans˜ao de Taylor de primeira ordem, assim como na equa¸c˜ao (2.6), segue que
m=m(k)−(∇F(m(k)))−1F(m(k)). (2.23)
Calculando a derivada parcial de E(m) em rela¸c˜ao a mj temos
∂E(m)
∂mj
= 1 2
m
X
k=1
∂
∂mj
(dobsk −gk(m))2
= 1 2
m
X
k=1
2 dobsk −gk(m) ∂
∂mj(−gk(m))
=
m
X
k=1
dobsk −gk(m)
− ∂
∂mjgk(m)
(2.24) ou seja,
F(m) =
−∂g1(m)
∂m1 . . . −∂gm(m)
∂m1 ... . .. ...
−∂g1(m)
∂mn . . . −∂gm(m)
∂mn
dobs1 −g1(m) ... dobsm −gm(m)
= −Jt(m) (dobs−g(m)), (2.25)
ondeJ(m) ´e uma matriz de derivadas parciais de dados com respeito `a fun¸c˜aog(m), ou seja,J(m) ´e a matriz Jacobiana de g(m).
Para encontrar o passo do m´etodo de Gauss-Newton, precisamos escrever uma f´ormula para∇F(m(k)). Atrav´es do c´alculo da segunda derivada deE(m) ´e poss´ıvel sepa- rar a express˜ao encontrada em termos lineares e n˜ao lineares. Eliminando o termo n˜ao li- near mostramos que∇F(m(k)) pode ser escrito como uma aproxima¸c˜ao paraJt(m)J(m).
De fato,
∂2E(m)
∂mi∂mj =
m
X
k=1
−∂gk(m)
∂mi
−∂gk(m)
∂mj
+ dobsk −gk(m)
−∂2gk(m)
∂mi∂mj
=
n
X
k=1
∂gk(m)
∂mi
∂gk(m)
∂mj +
dobsk −gk(m)
−∂2gk(m)
∂mi∂mj
. (2.26) Desprezando o ´ultimo termo da soma, temos que
∂2E(m)
∂mi∂mj ≈
n
X
k=1
∂gk(m)
∂mi
∂gk(m)
∂mj . (2.27)
Na forma matricial,
∇F(m)≈
∂g1(m)
∂m1
∂g2(m)
∂m1 . . . ∂gn(m)
∂m1 ... ... . .. ...
∂g1(m)
∂mn
∂g2(m)
∂mn . . . ∂gn(m)
∂mn
∂g1(m)
∂m1
∂g1(m)
∂m2 . . . ∂g1(m)
∂mn ... ... . .. ...
∂gn(m)
∂m1
∂gn(m)
∂m2 . . . ∂gn(m)
∂mn
∇F(m) ≈ Jt(m)J(m). (2.28)
A f´ormula iterativa do m´etodo de Gauss-Newton ´e obtida escolhendo m(k+1) como sendo a solu¸c˜ao de (2.23) em que ∇F(m(k)) ´e aproximada de acordo com (2.28), ou seja:
m(k+1) = m(k)+ (Jt(m(k))J(m(k)))−1Jt(m(k)) dobs−g(m(k)) Jt(m(k))J(m(k))d(k) = Jt(m(k))R(m(k)) (2.29) sendod(k) =m(k+1)−m(k) eR(m) =dobs−g(m), que ´e equivalente a resolver o problema de quadrados m´ınimos lineares
minm kJ(m(k))d(k)−R(m(k))k. (2.30) Dos resultados acima pode-se notar que o vetor dire¸c˜aod(k) no passo de Gauss- Newton ´e obtido resolvendo um sistema linearizado. Note que essa dire¸c˜ao ´e de descida.
De fato, segue de (2.25) e (2.30) qued(k) = (Jt(m(k))J(m(k)))−1∇E(m(k)) e
∇E(m(k))td(k) = ∇Et(m(k))(Jt(m(k))J(m(k)))−1∇E(m(k)). (2.31) Al´em disso, se J(m(k)) tem posto completo, ent˜ao a matriz Jt(m(k))J(m(k)) ´e definida positiva, logo seus autovalores s˜ao positivos, assim como sua inversa. Portanto,
−xt[Jt(m(k))Jk(m(k))]x <0 ∀x6= 0.
Assumindo em particular que x=∇E(m(k))6= 0, segue que ∇E(m(k))tdk<0.
2.3.1 Convergˆ encia do m´ etodo
Como discutido anteriormente, se a matriz jacobiana tem posto completo e o vetor ∇E(m(k)) for n˜ao-nulo, ent˜ao a dire¸c˜ao do m´etodo ´e de descida. Vamos mostrar especificamente em quais condi¸c˜oes o m´etodo converge localmente e que sua convergˆencia
´e quadr´atica. Para isso, utilizaremos os teoremas e demonstra¸c˜oes conforme [5].
Teorema 2.7 Seja σ1(A) o maior autovalor de A. Ent˜ao kAk2 =p
ρ(AHA) =p
ρ(AAH) = σ1(A).
Em particular, se A ´e hermitiana (ou real e sim´etrica), ent˜ao kAk2 =ρ(A),
enquanto, se A ´e unit´aria, kAk2 = 1.
Demonstra¸c˜ao. Veja [1].
O teorema a seguir provar´a as propriedades que verificar˜ao a convergˆencia.
Teorema 2.8 Seja R : Rm → Rn continuamente diferenci´avel no aberto convexo D ⊂ Rm, e R(m) = dobs−g(m). Assuma que J(m) ´e lipschitziana em Dcom kJ(m)k2 ≤M, para todo m ∈ D e que existe m∗ ∈ D tal que J(m∗)tR(m∗) = 0. Seja λ o menor autovalor de J(m∗)tJ(m∗). Assuma que existe 0< σ < λ tal que
[J(m)−J(m∗)]tR(m∗)
2 ≤ σkm−m∗k2 (2.32)
para todom ∈D.
Ent˜ao, ∀c ∈ 1,σλ
,∃ε > 0 tal que ∀m0 ∈ B(m∗, ε), a sequˆencia gerada pelo m´etodo de Gauss-Newton
m(k+1) =m(k)−
Jt(m(k))J(m(k))−1
Jt(m(k))R(m(k)) (2.33)
´e bem definida (ou seja, Jt(m(k))J(m(k)) ´e invers´ıvel), converge para m∗, e satisfaz as seguintes desigualdades
(1)
m(k+1)−m∗
2 ≤ cσλ
m(k)−m∗
2 + cM α2λ
m(k)−m∗
2
2 onde α ´e constante de Lipschitz de J(m∗).
(2)
m(k+1)−m∗
2 ≤ cσ+λ2λ
m(k)−m∗
2, cσ+λ2λ <1 Demonstra¸c˜ao.
A prova pode ser feita por indu¸c˜ao. Vamos denotar k.k2 por k.k, e abreviar J(m0), R(m0) e R(m∗) porJ0, R0 e R∗, respectivamente.
Seja c∈ 1,λσ
. Note que ∃ε1 >0 tal que J0tJ0 ´e n˜ao singular e
J0tJ0−1 ≤ c
λ
para todom0 ∈ B(m∗, ε1). De fato, sendo λ1, . . . λr autovalores de JktJk, ent˜ao λ1
1 . . .λ1
r
s˜ao os autovalores de (JktJk)−1. No nosso caso, λ ´e o menor autovalor de J∗tJ∗, logo λ1 ´e o maior autovalor de (J∗tJ∗)−1.
Sendo ρ (J∗J∗)−1
o raio espectral de (J∗tJ∗)−1, temos que
ρh J∗tJ∗
−1i
= 1 λ
= 1 λ. Do Teorema 2.7, temos que
J∗tJ∗−1 = 1
λ, comoc > 1, temos que λc > λ1, logo
J∗tJ∗−1 ≤ c
λ. (2.34)
Por hip´otese, J(m) ´e Lipschitziana. Considerando γ a constante de Lipschitz, seja
ε1 = min
r, λ 2cγ
. (2.35)
Dado m0 ∈B(m∗, ε1), temos que km0−m∗k ≤ε1. Logo Jt(m)J(m) tamb´em ´e Lipschitiziana. Sejaγ a constante de Lipschitz de Jt(m)J(m). Logo
k(J∗tJ∗)−1[J0tJ0−J∗tJ∗]k ≤ k(J∗tJ∗)−1k.kJ0tJ0−J∗tJ∗k
≤ c
λγkm0−m∗k
≤ c λ.γ.ε
≤ 1
2. (2.36)
Assim, pela rela¸c˜ao (2.9), temos que J(m0)tJ(m0) ´e n˜ao singular e
kJ0tJ0−1k ≤ kJ∗tJ∗
−1k 1− kJ∗tJ∗−1
[J0tJ0−J∗tJ∗]k
≤ 2.kJ∗tJ∗−1k ≤ 2c λ. Aplicando o primeiro passo m1 temos que
m1−m∗ = m0− J0tJ0−1
J0tR0−m∗
= (m0−m∗)− J0tJ0−1
J0tR0
= J0tJ0−1
J0tJ0
(m0−m∗)− J0tJ0−1
J0tR0
= − J0tJ0−1
J0tJ0(m0−m∗) +J0tR0
= − J0tJ0−1
J0tJ0(m0−m∗) +J0tR∗ −J0tR∗+J0tR0
= − J0tJ0−1
J0tR∗−J0t(R∗−R0−J0(m∗−m0))
. (2.37) Aplicando a norma 2 em (2.37) temos que
km1−m∗k =
− J0tJ0−1
J0tR∗−J0t(R∗−R0−J0(m∗−m0)) ,
≤
− J0tJ0−1
J0tR∗
+kJ0tk(kR∗−R0−J0(m∗−m0)k)
.(2.38) De (2.34) temos que k −(J0tJ0)−1k ≤ λc, da´ı segue que
km1−m∗k ≤ c λ
kJ0tR∗k+kJ0tk kR∗ −R0−J0(m∗−m0)k
. (2.39)
Pelo Teorema 2.5, temos que
kR∗−R0 −J0(m∗ −m0)k ≤ α
2km0−m∗k2. (2.40) De (2.40) conclu´ımos que a desigualdade a seguir ´e v´alida
km1−m∗k ≤ c λ
hkJ0tR∗k+kJ0tkα
2k(m0 −m∗)k2i
. (2.41)
Da desigualdade (2.32), conclu´ımos que (J(m)−J(m∗))tR(m∗)
≤ σkm−m∗k Jt(m)R(m∗)−Jt(m∗)R(m∗)
≤ σkm−m∗k, (2.42)
comoJt(m∗)R(m∗) = 0,
kJt(m)R(m∗)k ≤σkm−m∗k. (2.43) E, de (2.43) temos que
km1 −m∗k ≤ c λ
hσkm0−m∗k+kJ0tkα
2k(m0−m∗)k2i
. (2.44)
Como kJ(m)k ≤M, segue que km1−m∗k ≤ cσ
λ km0−m∗k+ cM α
2λ k(m0−m∗)k2. (2.45) Portanto, o item (1) do teorema vale para k = 0.
Definindo o conjunto A ={k ∈N; a desigualdade no item (1) ´e satisfeita}, mos- tramos que 0∈A. Supondo que n∈A, temos que n+ 1∈A. De fato, de kxk−x∗k ≤ε, da Lipschitz continuidade deJ(x∗), e pela defini¸c˜ao deε1 na equa¸c˜ao (2.35), de maneira an´aloga ao casoJ0, temos que
k(J∗tJ∗)−1[JntJn−J∗tJ∗]k ≤ 1
2. (2.46)
Portanto, pela rela¸c˜ao (2.9), temos que JntJn ´e n˜ao singular e kJntJn−1k ≤ 2.kJ∗tJ∗
−1k ≤ 2c λ .
Portanto,JneF(mn) est˜ao bem definidos e seguindo os mesmos passos da demonstra¸c˜ao quandok = 0 para o item(1), provamos que a desigualdade vale para k =n+ 1, ou seja
kmn+1−m∗k ≤ cσ
λ kmn−m∗k+ cM α
2λ k(mn−m∗)k2.
(2.47) Logo, A=N. Portanto, a desigualdade vale para todo k∈N.
Passemos ao item (2) do teorema. Escolhendo ε = min
ε1,λ−cσ cM α
, e usando a desigualdade do item (1) do teorema temos que
km1−m∗k ≤ cσ
λ km0−m∗k+ cM α
2λ k(m0−m∗)k2.
≤ km0−m∗k cσ
λ + cM α
2λ k(m0 −m∗)k
≤ km0−m∗k cσ
λ +cM α 2λ
λ−cσ cM α
= km0−m∗k cσ
λ + λ−cσ 2λ
= km0−m∗k
cσ+λ 2λ
<km0−m∗k
(2.48) poiscσ≤ λσ.σ=λ, que implica que
cσ+λ
2λ ≤ λ+λ 2λ = 1.
Assim, provamos que o item (2) do teorema ´e v´alido para k = 0. De maneira an´aloga, supondo que vale parak =n, provamos que vale parak =n+ 1, assim∀k ∈N, temos que o item (2) ´e satisfeito, concluindo a prova do teorema.
Corol´ario 2.3.1 Assumindo que valem as hip´oteses do Teorema 2.8. Se R(m∗) = 0, ent˜ao ∃ ε > 0 tal que para todo m0 ∈ B(m∗, ε), a sequˆencia gerada pelo M´etodo de Gauss-Newton ´e bem definida e converge quadraticamente para m∗.
Demonstra¸c˜ao. Se R(m∗) = 0 ent˜ao ∀σ≥0, em particular para σ= 0, a desigualdade a seguir ´e v´alida
[J(m)−J(m∗)]tR(m∗)
≤σkm−m∗k, ∀m∈D.
Como resultado do teorema anterior temos que km(k+1)−m∗k ≤ cσ
λ km(k)−m∗k+cM α
2λ k(m(k)−m∗)k2. Considerando σ= 0 temos que
km(k+1)−m∗k ≤ cM α
2λ k(m(k)−m∗)k2. logo
km(k+1)−m∗k
k(m(k)−m∗)k2 ≤ cM α 2λ .
Como cM α2λ ≥0, conclu´ımos que o m´etodo converge quadraticamente.
Considerando S(m∗) igual ao segundo termo da equa¸c˜ao (2.26), desprezado na defini¸c˜ao do passo do m´etodo de Gauss-Newton, devemos ter kS(m∗)k ≤ σ, sendo σ a constante definida no Teorema 2.8. Logo, σ est´a relacionada a parte desprezada pelo m´etodo de Gauss-Newton, uma vez que para m suficientemente perto de m∗, temos que
(J(m)−J(m∗))tR(m∗)∼=S(m∗)(m−m∗). (2.49)
De fato, levando em considera¸c˜ao que J(m)tR(m∗) =
m
X
i=1
gi(m∗)∇gi(m), temos que
[J(m)−J(m∗)]tR(m∗) = Jt(m)R(m∗)−Jt(m∗)R(m∗)
=
m
X
i=1
gi(m∗)∇gi(m)−
m
X
i=1
gi(m∗)∇gi(m∗). (2.50) Aproximando ∇gi(m) pelo seu polinˆomio de Taylor de primeira ordem,
∇gi(m)≈ ∇gi(m∗) +∇2gi(m∗)(m−m∗), (2.51) e substituindo (2.51) em (2.50) temos que
[J(m)−J(m∗)]tR(m∗) =
m
X
i=1
gi(m∗)[∇gi(m∗) +∇2gi(m∗)(m−m∗)]
−
m
X
i=1
gi(m∗)∇gi(m∗)
=
m
X
i=1
gi(m∗)∇gi(m∗) +
m
X
i=1
gi(m∗)∇2gi(m∗)(m−m∗)
−
m
X
i=1
gi(m∗)∇gi(m∗) (2.52)
≈
m
X
i=1
gi(m∗)∇2gi(m∗)(m−m∗), (2.53) onde
[∇2gi(m∗)]ij = ∂2gi(m)
∂mi∂mj. Logo,
[[J(m)−J(m∗)]tR(m∗)]ij ≈
m
X
i=1
gi(m∗)∂2gi(m)
∂mi∂mj(mi−m∗i), Portando, temos que a aproxima¸c˜ao (2.49) vale.
Observe que devemos ter σ < λ para garantir a convergˆencia do m´etodo de Gauss-Newton. Essa propor¸c˜ao pode ser vista como uma rela¸c˜ao entre a n˜ao-linearidade e o tamanho do res´ıduo do problema. Portanto, a velocidade da convergˆencia do m´etodo diminui `a medida que a n˜ao-linearidade ou o res´ıduo relativo do problema aumenta.
Alternativamente, podemos dizer que quanto maior for S(m∗), mais dif´ıcil fica executar o m´etodo de Gauss-Newton.
2.3.2 Gauss-Newton Amortecido
Ao implementar o m´etodo de Gauss-Newton, o algoritmo pode precisar de mui- tas itera¸c˜oes para convergir. A dire¸c˜ao de descida d(k) pode ser adequada, por´em o tamanho do passo pode atrasar a convergˆencia.
Uma maneira de acelerar o processo de convergˆencia, reduzindo a quantidade de itera¸c˜oes necess´arias para alcan¸car o res´ıduo desejado, ´e utilizar uma busca linear ao longo da dire¸c˜ao de descida, ou seja, devemos encontrar um t >0 tal que
E(m(k)+td(k))< E(m(k)).
Essa modifica¸c˜ao do m´etodo ´e chamada de Gauss-Newton Amortecido (damped Gauss-Newton method).
A busca pode ser de Armijo, Goldstein, Wolfe, entre outras. Em [3] encontramos mais detalhes sobre a busca linear de Armijo-Goldstein e o m´etodo de Gauss-Newton Amortecido.
No passo de Armijo, como citado em [26], calcula-se um t(k) que satisfa¸ca a desigualdade
E(m(k)+t(k)d(k))≤E(m(k)) +ηt(k)∇E(m(k))td(k), (2.54) sendoη <1 um parˆametro definido pelo usu´ario. Para encontrart(k), primeiro definimos t= 1. Se
E(m(k)+td(k))≤E(m(k)) +ηt∇E(m(k))td(k), (2.55) tomamost(k) =t. Sen˜ao, redefinimos tcomo sendot←γt, sendoγ <1 outro parˆametro definido pelo usu´ario, e reavaliamos a desigualdade (2.55), repetindo o processo at´e garantir (2.55) ou t < ttol, em que tmin ´e o tamanho m´ınimo de passo permitido. Ap´os a busca, atualizamos m(k), usando o passo escolhido com a dire¸c˜ao encontrada:
m(k+1) =m(k)+t(k)d(k).