Kl´
eber Aderaldo Benatti
O M´
etodo de Levenberg-Marquardt
para o Problema de Quadrados
M´ınimos n˜
ao Linear
Curitiba
2017
Kl´
eber Aderaldo Benatti
O M´
etodo de Levenberg-Marquardt
para o Problema de Quadrados
M´ınimos n˜
ao Linear
Disserta¸c˜ao apresentada como requisito par-cial `a obten¸c˜ao do grau de Mestre em Ma-tem´atica, no Programa de P´os-Gradua¸c˜ao em Matem´atica, Setor de Ciˆencias Exatas, Universidade Federal do Paran´a.
Orientador: Ademir Alves Ribeiro.
Curitiba
2017
Dedico meus sinceros agradecimentos `aqueles que muito me ajudaram para concluir este trabalho. Com certeza essas pessoas tornaram a realiza¸c˜ao deste trabalho uma tarefa poss´ıvel.
A Deus, respons´avel por todas as minhas vit´orias, e portanto digno da honra que elas detˆem.
`
A minha esposa, Natalha Cristina da Cruz Machado Benatti, por todo aux´ılio e com-preens˜ao durante este per´ıodo.
Aos meus familiares, e em particular aos meus pais, Claudemir Po¸cas Benatti e Apa-recida Cilaine Aderaldo Benatti, que sempre me impulsionaram a buscar o melhor em minha vida.
Ao meu orientador, professor Ademir Alves Ribeiro, por aceitar orientar-me, e por todo auxilio prestado a mim durante a confec¸c˜ao desta disserta¸c˜ao.
Aos integrantes da minha banca, e em particular ao professor Lucas Garcia Pedroso, por toda paciˆencia e dedica¸c˜ao em prestar ajuda nos momentos em que necessitei.
Aos meus amigos, e em particular aos amigos do Programa de P´os-Gradua¸c˜ao em Matem´atica, por tornarem tal ambiente mais agrad´avel e descontra´ıdo.
Ao PPGM e `a UFPR, pela oportunidade que me foi dada. `
Nesta disserta¸c˜ao, apresentamos uma revis˜ao de conceitos acerca do m´etodo de Levenberg-Marquardt, utilizado para o problema de quadrados m´ınimos n˜ao linear. Al´em da abordagem cl´assica do m´etodo, constam neste traba-lho duas contribui¸c˜oes por n´os estabelecidas. A primeira contribui¸c˜ao ´e a sugest˜ao de um novo parˆametro de damping, ou parˆametro de Levenberg-Marquardt, que est´a diretamente ligado ao desempenho do m´etodo. A segunda contribui¸c˜ao estabelece uma nova maneira de resolu¸c˜ao do sub-problema relacionado ao m´etodo para problemas mal escalados, utilizando decomposi¸c˜oes matriciais pautadas em dire¸c˜oes conjugadas.
Palavras-chave: Quadrados M´ınimos N˜ao Linear, Levenberg-Marquardt, Parˆametros de damping, Problemas mal escalados.
Abstract
In this work, we present a review about the Levenberg-Marquardt method, used for the Nonlinear Least Square Pro-blem. In addition to the classical approach of the method, two contributions are made by us. The first contribution is the sugges-tion of a new damping parameter, or Levenberg-Marquardt parameter, that is directly linked to the performance of the method. The second contribution establishes a new approach to solve the subproblem related to the Levenberg-Marquardt method for bad scaled problems, using matrix decompositions based on Conjugated Gradients.
Keywords: Nonlinear Least Squares Problem, Levenberg-Marquardt, Dam-ping parameter, Bad scaled problems.
1.1 Interpreta¸c˜ao geom´etrica de uma matriz de rota¸c˜ao no R2. . . . 22
1.2 Caso em que o M´etodo de Newton para zero de fun¸c˜oes falha. . . 41
1.3 M´etodo de Regi˜ao de Confian¸ca. . . 42
2.1 Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b ∈ Im(A). . . 50
2.2 Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b 6∈ Im(A). . . 50
2.3 Interpreta¸c˜ao geom´etrica de quadrados m´ınimos aplicados `a regress˜ao. . . . 52
2.4 Ajuste de pontos por uma quadr´atica. . . 53
3.1 Perfil de desempenho dos parˆametros P1-P7 de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de eficiˆencia. . . 67
3.2 Perfil de desempenho dos parˆametros P1-P7 de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de robustez. . . 68
3.3 Perfil de desempenho dos parˆametros P1-P7 de Levenberg-Marquardt em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de eficiˆencia. . . 68
3.4 Perfil de desempenho dos parˆametros P1-P7 de Levenberg-Marquardt em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de robustez. . . 69
3.5 Perfil de desempenho geral dos parˆametros de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de eficiˆencia. . . 70
3.6 Perfil de desempenho geral dos parˆametros de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de robustez. . . 70
3.7 Perfil de desempenho geral dos parˆametros de Levenberg-Marquardt em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de eficiˆencia. . . 71
3.8 Perfil de desempenho geral dos parˆametros de Levenberg-Marquardt em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de robustez. . . 71
3.9 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do tempo. Escala de eficiˆencia. . . 95
3.10 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do tempo. Escala de robustez. . . 96
3.11 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de eficiˆencia. . . 96
3.12 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de robustez. . . 97
Introdu¸c˜ao 12
1 Conceitos introdut´orios 14
1.1 Elementos de ´Algebra Linear . . . 14
1.1.1 Decomposi¸c˜ao LU . . . 14
1.1.2 Decomposi¸c˜ao de Cholesky . . . 16
1.1.3 Decomposi¸c˜ao QR . . . 18
1.1.4 Decomposi¸c˜ao em dire¸c˜oes conjugadas . . . 27
1.2 Elementos de Otimiza¸c˜ao . . . 31
1.2.1 Condi¸c˜oes de otimalidade para problemas sem restri¸c˜oes . . . 31
1.2.2 Condi¸c˜oes de otimalidade para problemas com restri¸c˜oes . . . 34
1.2.3 M´etodo do gradiente . . . 36
1.2.4 M´etodo de Newton . . . 38
1.2.5 M´etodo de Newton para zeros de fun¸c˜oes . . . 39
1.2.6 M´etodo de regi˜ao de confian¸ca . . . 42
2 Introdu¸c˜ao ao problema de quadrados m´ınimos 49 2.1 O problema de quadrados m´ınimos linear . . . 49
2.2 O problema de quadrados m´ınimos n˜ao linear . . . 53
2.2.1 M´etodo de Newton . . . 55
2.2.2 M´etodo de Gauss-Newton . . . 56
3 M´etodo de Levenberg-Marquardt 59 3.1 Escolha do parˆametro de Levenberg-Marquardt . . . 60
3.1.1 Experimentos num´ericos . . . 67
3.2 Levenberg-Marquardt e o m´etodo de regi˜ao de confian¸ca . . . 72
3.2.1 Caracteriza¸c˜ao do subproblema de quadrados m´ınimos . . . 73
3.2.2 A raiz da equa¸c˜ao secular . . . 75
3.2.3 Monitoramento da regi˜ao de confian¸ca . . . 80
3.3 M´etodo de Levenberg-Marquardt sem derivadas . . . 84
3.4 Escalamento no m´etodo de Levenberg-Marquardt . . . 86
Conclus˜ao e trabalhos futuros 98
Apˆendice 100
A modelagem de problemas atrav´es de equa¸c˜oes ´e comumente utilizada em ciˆencias experimentais, como a F´ısica, Biologia, Economia, entre outras. Por isso, ´e importante o desenvolvimento da teoria matem´atica para tratamento desses sistemas. Um caso parti-cular de tais sistemas ´e o linear, onde dada uma matriz A ∈ Rm×n e um vetor b ∈ Rm
nosso objetivo ´e encontrar x ∈ Rn tal que
Ax = b.
Apesar da grande aplicabilidade desses modelos a problemas reais, h´a casos que n˜ao podem ser tratados a partir de modelos lineares. Nesses casos, podemos considerar a fun¸c˜ao R : Rn→ Rm, sendo nosso objetivo a busca por x ∈ Rn tal que
R(x) = 0.
Ao decorrer de todo trabalho, denotaremos por k . k a norma-2, k . k2. Considerando a
hip´otese de n˜ao haver solu¸c˜ao para o sistema acima, o objetivo central de nosso trabalho ´e solucionar o problema min x∈Rn 1 2kR(x)k 2 , denominado problema de quadrados m´ınimos n˜ao linear.
Antes da abordagem desse problema, que vem a ser o foco central do trabalho, estabe-leceremos no primeiro cap´ıtulo uma revis˜ao de conceitos b´asicos de Otimiza¸c˜ao e ´Algebra Linear, que ser˜ao utilizados ao longo dos demais cap´ıtulos.
O segundo cap´ıtulo tr´as uma introdu¸c˜ao ao problema de quadrados m´ınimos, abran-gendo primeiramente o caso linear, e em segundo momento o caso n˜ao linear, apresentando os m´etodos de Newton e Gauss-Newton.
O terceiro cap´ıtulo deste trabalho ser´a dividido em quatro se¸c˜oes, abrangendo o m´etodo de Levenberg-Marquardt. Desenvolvido por Levenberg [11], e aprimorado por Marquardt [13], tal m´etodo mant´em o baixo custo computacional do m´etodo de Gauss-Newton, por´em o supera relativamente `a boa defini¸c˜ao de seus iterandos, que est˜ao sempre bem definidos independentemente do problema.
O m´etodo de Levenberg-Marquardt est´a intimamente ligado `a escolha de um parˆametro λ, denominado parˆametro de damping, ou parˆametro de Levenberg-Marquardt, o qual ser´a
um dos objetos de nosso estudo na primeira se¸c˜ao do terceiro cap´ıtulo. Al´em de discorrer acerca dos parˆametros da literatura, exporemos a primeira de nossas contribui¸c˜oes, a apre-senta¸c˜ao de um novo parˆametro, comparando-o computacionalmente com os parˆametros j´a existentes.
A segunda se¸c˜ao do terceiro cap´ıtulo traz uma revis˜ao do m´etodo de Levenberg-Marquardt visto como um m´etodo de regi˜ao de confian¸ca, sendo tal abordagem feita por [15] e revisitada por [8].
A terceira se¸c˜ao do terceiro cap´ıtulo aborda de maneira superficial o m´etodo de Levenberg-Marquardt sem derivadas, utilizando o m´etodo de diferen¸cas finitas, tratado em [2]. Nessa se¸c˜ao veremos que a utiliza¸c˜ao de diferen¸cas finitas mant´em as propriedades de convergˆencia, sob determinadas hip´oteses.
A quarta e ´ultima se¸c˜ao do terceiro cap´ıtulo trata do m´etodo de Levenberg-Marquardt para problemas mal-escalados. No primeiro momento abordaremos uma t´ecnica criada por Zhou e Si [28], que utiliza decomposi¸c˜oes matriciais para resolver o sistema de Levenberg-Marquardt para problemas mal-escalados de maneira mais eficaz. Ap´os essa abordagem, utilizando ideias an´alogas `as de Zhou e Si, introduziremos uma proposta de resolu¸c˜ao do mesmo problema, por´em utilizando a decomposi¸c˜ao matricial exposta por [27], pautada em dire¸c˜oes conjugadas. Sendo essa nossa segunda contribui¸c˜ao para o trabalho, traremos tamb´em os experimentos num´ericos comparando algumas t´ecnicas existentes na literatura com nossa proposta de extens˜ao.
Conceitos introdut´
orios
Neste cap´ıtulo apresentaremos defini¸c˜oes e resultados cl´assicos que ser˜ao utilizados ao longo do nosso trabalho. A primeira se¸c˜ao concentra-se em apresentar decomposi¸c˜oes matriciais cl´assicas, como a decomposi¸c˜ao LU, de Cholesky e QR. Na segunda se¸c˜ao abordaremos conceitos b´asicos de Otimiza¸c˜ao, como as condi¸c˜oes de otimalidade de 1a e 2a ordem para fun¸c˜oes com e sem restri¸c˜oes, al´em de alguns m´etodos de minimiza¸c˜ao irrestrita e obten¸c˜ao de zeros de fun¸c˜oes.
1.1
Elementos de ´
Algebra Linear
A ´Algebra Linear ´e uma ´area muito importante da Matem´atica, estabelecendo ferra-mentas para a maioria das outras ´areas. Tendo surgido do estudo detalhado de sistemas de equa¸c˜oes lineares, utiliza conceitos e estruturas fundamentais da Matem´atica como ve-tores, espa¸cos vetoriais, transforma¸c˜oes lineares e matrizes. Nesta se¸c˜ao apresentaremos resultados cl´assicos desta ´area, focando nosso estudo nas decomposi¸c˜oes matriciais, as quais ser˜ao utilizadas nos cap´ıtulos posteriores.
Um dos objetos de estudo da ´Algebra Linear ´e a solu¸c˜ao de sistemas lineares, isto ´e, dada uma matriz A ∈ Rm×n de posto n e um vetor b ∈ Rm, o objetivo ´e encontrar um vetor x ∈ Rn tal que
Ax = b. (1.1)
Em problemas de larga escala ou quando a estrutura da matriz A ´e muito complexa podemos ter dificuldades na solu¸c˜ao do sistema, tornando a busca por estrat´egias para facilitar a resolu¸c˜ao deste problema um objeto de estudo muito amplo. Uma possibilidade ´e a utiliza¸c˜ao das decomposi¸c˜oes matriciais, onde a matriz A ´e reescrita geralmente como a multiplica¸c˜ao de outras matrizes de estrutura mais simples ou de mais f´acil manuseio.
1.1.1
Decomposi¸
c˜
ao LU
Os pr´oximos resultados s˜ao v´alidos para o caso em que a matriz A ´e quadrada. Uma das decomposi¸c˜oes mais cl´assicas ´e a LU, onde dada matriz A ∈ Rn×n, podemos reescrevˆ
la como
A = LU,
onde L ∈ Rn×n ´e uma matriz triangular inferior com diagonal unit´aria e U ∈ Rn×n ´e
triangular superior. O pr´oximo teorema exp˜oe condi¸c˜oes para existˆencia e unicidade da decomposi¸c˜ao LU de determinada matriz.
Teorema 1.1. Uma matriz A ∈ Rn×n tem decomposi¸c˜ao LU se o determinante dos
menores principais de dimens˜ao at´e n−1 s˜ao n˜ao nulos, isto ´e, det(A(1 : k, 1 : k)) 6= 0 para k = 1, ..., n − 1. Se a decomposi¸c˜ao LU existe e A ´e n˜ao singular, ent˜ao a decomposi¸c˜ao ´e ´unica.
Demonstra¸c˜ao. [9, Teorema 3.2.1].
Utilizando a decomposi¸c˜ao A = LU , ´e poss´ıvel resolver o sistema linear apresentado em (1.1) atrav´es de dois sistemas triangulares, dados por
Lz = b; U x = z.
Nos casos onde n˜ao ´e poss´ıvel obter a decomposi¸c˜ao A = LU , podemos enfraquecer as hip´oteses adicionando a estrat´egia de pivoteamento parcial. Lembrando que uma matriz de permuta¸c˜ao P ´e originada atrav´es da permuta¸c˜ao de linhas ou colunas da matriz identidade. O teorema a seguir mostra a existˆencia e unicidade da decomposi¸c˜ao LU utilizando a estrat´egia de pivoteamento.
Teorema 1.2. Seja A ∈ Rn×n uma matriz n˜ao singular. Ent˜ao existe uma matriz de
permuta¸c˜ao P ∈ Rn×n onde
P A = LU.
Al´em disso, a decomposi¸c˜ao LU da matriz A∗ = P A = LU ´e ´unica. Demonstra¸c˜ao. [23, Teorema 5.4].
Desta forma, podemos resolver o sistema apresentado em (1.1) multiplicando-o por P em ambos os lados, obtendo
LU x = P Ax = P b e resolvendo os dois sistemas triangulares
Lz = P b; U x = z.
H´a outras adapta¸c˜oes para decomposi¸c˜ao LU de uma matriz, estendendo-as para ma-trizes n˜ao quadradas. Al´em disso, pode-se usar a estrat´egia de pivoteamento total. Para
mais informa¸c˜oes acerca destas abordagens, verifique [9]. Para nossos estudos nos focare-mos na decomposi¸c˜ao LU de matrizes quadradas.
Caso a decomposi¸c˜ao A = LU exista para uma dada matriz A ∈ Rn×n n˜ao singular, ainda ´e poss´ıvel apresentar outra decomposi¸c˜ao, na qual
A = LDV,
onde L ∈ Rn×n ´e uma matriz triangular inferior com diagonal unit´aria, D ∈ Rn×n ´e uma matriz diagonal e V ∈ Rn×n´e triangular superior com diagonal unit´aria. Tal decomposi¸c˜ao ´e originada a partir da decomposi¸c˜ao LU, onde tomamos D = diag(u11, u22, ..., unn), sendo
uii o elemento situado na posi¸c˜ao (i, i) de U , i = 1, ..., n, e V = D−1U . Note que
det(A) = u11.u22. . . . .unn. Ent˜ao a matriz D tem inversa, pois A ´e n˜ao singular.
1.1.2
Decomposi¸
c˜
ao de Cholesky
Nesta subse¸c˜ao, abordaremos as decomposi¸c˜oes que exploram a simetria da matriz a ser decomposta. Consideraremos no pr´oximo teorema um caso particular da decom-posi¸c˜ao A = LDV onde a matriz A ´e sim´etrica.
Teorema 1.3. Seja uma matriz sim´etrica tal que os determinantes de todos menores principais sejam n˜ao nulos. Ent˜ao A pode ser decomposta de maneira ´unica como
A = LDLT.
Demonstra¸c˜ao. [25, Teorema 1.7.30]. ´
E poss´ıvel provar que para A definida positiva, isto ´e,
xTAx > 0 ∀x ∈ Rn\ {0},
obtemos a decomposi¸c˜ao expressa acima, por´em com D uma matriz diagonal de ele-mentos estritamente positivos. A partir desta decomposi¸c˜ao, ´e poss´ıvel tomar D12 =
diag(√d11, √ d22, . . . , √ dnn), obtendo A = LDLT = LD12D 1 2LT = LD12D 1 2 T LT = (LD12)(LD 1 2)T = RTR,
onde R = (LD12)T ´e uma matriz triangular superior de diagonal estritamente positiva.
Esta decomposi¸c˜ao ´e chamada decomposi¸c˜ao de Cholesky. A existˆencia de tal decom-posi¸c˜ao estabelece uma equivalˆencia com o fato de A ser sim´etrica e definida positiva. Uma das implica¸c˜oes j´a foi estabelecida quando provamos que uma matriz A sim´etrica e
definida positiva pode ser decomposta em A = RTR. Apresentemos a rec´ıproca de tal afirma¸c˜ao no pr´oximo teorema.
Lema 1.1. Se A ∈ Rn×n pode ser decomposta em A = RTR, com R n˜ao singular, ent˜ao A ´e sim´etrica definida positiva.
Demonstra¸c˜ao. Consideremos A decomposta em A = RTR. Pela estrutura de A ´e trivial que tal matriz ´e sim´etrica. Relativamente `a sua positividade, temos que para todo x ∈ Rn\ {0}
xTAx = xTRTRx = (Rx)T(Rx) = kRxk2 ≥ 0,
e como R ´e invers´ıvel, Rx 6= 0 para todo x ∈ Rn\{0}, e portanto xTAx > 0, caracterizando
A como definida positiva.
Agora veremos decomposi¸c˜oes similares `as apresentadas nesta subse¸c˜ao, por´em para uma matriz semidefinida positiva. Tais decomposi¸c˜oes n˜ao s˜ao consideradas cl´assicas como as que foram apresentadas at´e ent˜ao, mas ser˜ao de grande utilidade em nosso es-tudo posterior.
Primeiramente, consideremos a decomposi¸c˜ao proposta por Higham [10], Teorema 10.9, que afirma que dada matriz sim´etrica semidefinida positiva A de posto r, existe uma matriz de permuta¸c˜ao P ∈ Rn×n tal que
PTAP = RTR,
onde R ∈ Rn×n tem a parti¸c˜ao
R = R1 R2 0 0
!
em que R1 ∈ Rr×r ´e uma matriz triangular superior com elementos positivos na diagonal
e R2 ∈ Rn×(n−r). A partir deste teorema, podemos construir a decomposi¸c˜ao
PTAP = UTDU, (1.2)
onde P ∈ Rn×n ´e uma matriz de permuta¸c˜ao, U ∈ Rn×n ´e uma matriz triangular superior com diagonal unit´aria, D ∈ Rn×n ´e matriz diagonal de parti¸c˜ao
D = D1 0 0 0
! ,
onde D1 ∈ Rr×r ´e uma matriz diagonal de elementos positivos. De fato, consideremos
positivo. Sejam as matrizes U1 ∈ Rr×r e U2 ∈ Rr×(n−r) satisfazendo R1 = D 1 2 1U1 R2 = D 1 2 1U2.
Al´em disso, seja U3 a matriz identidade de dimens˜ao (n − r) × (n − r). Assim, temos que
se U = U1 U2 0 U3 ! , ent˜ao UTDU = U1 U2 0 U3 !T D1 0 0 0 ! U1 U2 0 U3 ! = U T 1 0 U2T U3T ! D1 0 0 0 ! U1 U2 0 U3 ! = U T 1D1U1 U1TD1U2 UT 2D1U1 U2TD1U2 ! = U T 1D 1 2 1D 1 2 1U1 U1TD 1 2 1D 1 2 1U2 U2TD 1 2 1D 1 2 1U1 U2TD 1 2 1D 1 2 1U2 !
Como D1 ´e matriz diagonal, coincide com sua transposta, e portanto
UTDU = U T 1 (D 1 2 1)TD 1 2 1U1 U1T(D 1 2 1)TD 1 2 1U2 UT 2 (D 1 2 1)TD 1 2 1U1 U2T(D 1 2 1)TD 1 2 1U2 ! = (D 1 2 1U1)TD 1 2 1U1 (D 1 2 1U1)TD 1 2 1U2 (D 1 2 1U2)TD 1 2 1U1 (D 1 2 1U2)TD 1 2 1U2 ! = R T 1R1 R1TR2 RT 2R1 R2TR2 ! = R1 R2 0 0 !T R1 R2 0 0 ! = RTR = PTAP
provando assim a decomposi¸c˜ao desejada.
1.1.3
Decomposi¸
c˜
ao QR
Dada uma matriz A ∈ Rm×n, abordaremos nesta subse¸c˜ao a decomposi¸c˜ao
onde Q ∈ Rm×m´e uma matriz ortogonal e R ∈ Rm×n´e triangular superior. O interesse em construir uma decomposi¸c˜ao pautada em matrizes ortogonais ´e a facilidade da resolu¸c˜ao de sistemas lineares, j´a que considerando a decomposi¸c˜ao acima para o sistema (1.1) temos que
QRx = b Rx = QTb,
isto ´e, basta-nos fazer uma multiplica¸c˜ao matriz-vetor e resolver um sistema triangular. Al´em disso, temos o conhecimento de v´arias informa¸c˜oes associadas a uma matriz orto-gonal, como por exemplo sua norma, kQk2 = 1, seu determinante, det(Q) = ±1 e seu
raio espectral, ρ(Q) = 1, sendo estes sua norma-2, seu determinante e seu raio espectral, respectivamente. Iremos expor trˆes formas cl´assicas para obten¸c˜ao desta decomposi¸c˜ao, sendo elas as transforma¸c˜oes de Householder, as rota¸c˜oes de Givens e o processo de orto-gonaliza¸c˜ao de Gram-Schmidt.
Transforma¸c˜oes de Householder
Primeiramente, temos que uma transforma¸c˜ao de Householder ´e uma matriz que pode ser escrita na forma
P = I − 2vv
T
vTv,
com I ∈ Rn×n a matriz identidade e v ∈ Rn \ {0}. Note que al´em de sim´etrica, uma transforma¸c˜ao de Householder ´e uma matriz ortogonal. De fato,
PTP = I − 2vv T vTv T I − 2vv T vTv = I − 2vv T vTv I − 2vv T vTv = I − 2vv T vTv − 2 vvT vTv + 4 vvTvvT (vTv)2 = I .
Nosso objetivo ´e, dado um x ∈ Rn, encontrar um vetor v para o qual
P x = ±kxke1,
onde e1 ´e o vetor da base canˆonica
h
1 0 . . . 0 iT
. O seguinte teorema ser´a utilizado na constru¸c˜ao de tal vetor v.
Teorema 1.4. Seja x ∈ Rn, y ∈ Rn tal que kyk = 1, v = x − kxky e P = I − 2vvT
matriz de Householder. Nestas condi¸c˜oes temos que
P x = kxky.
Demonstra¸c˜ao. Temos que
P x = I − 2vv T vTv x = x − 2(v Tx)v vTv = x − 2(x − kxky) Tx(x − kxky) (x − kxky)T(x − kxky) = x − 2(x Tx − kxkyTx)(x − kxky) (x − kxky)T(x − kxky) = x − 2 (x Tx − kxkyTx)(x − kxky) xTx − kxkxTy − kxkyTx + kxk2kyk2
e como kyk = 1 temos
P x = x − 2(x
Tx − kxkyTx)(x − kxky)
2(xTx − kxkyTx)
= x − (x − kxky) = kxky.
Atrav´es deste teorema, podemos tomar y = ±e1, obtendo a matriz de Householder
nas condi¸c˜oes desejadas.
Uma observa¸c˜ao importante ´e que se x ≈ P x = kxke1 pode ocorrer, em aritm´etica de
ponto flutuante, que v = x − kxke1 = 0. Neste caso, escolhemos v tal que P x = −kxke1,
sendo tal vetor v = x + kxke1. Para contemplar esses dois casos, podemos considerar
sempre v = x + sign(x1)kxke1, sendo poss´ıvel provar que este vetor cumpre
kvk = max{kx − kxke1k, kx + kxke1k}.
Podemos ent˜ao utilizar as transforma¸c˜oes de Householder para calcular a decomposi¸c˜ao QR de uma matriz, como veremos a seguir.
Dada A ∈ Rm×n, nosso intuito ´e triangulariz´a-la a partir de transforma¸c˜oes ortogonais,
que em nosso caso ser˜ao as transforma¸c˜oes de Householder. Consideremos o vetor x = a1 como sendo a primeira coluna de A, criamos ent˜ao a transforma¸c˜ao de Householder
respectiva, P1, e portanto teremos
P1A =
ka1ke1 Ab1
sendo bA1 o resultado da multiplica¸c˜ao entre P1 e as restantes colunas de A. No processo
de triangulariza¸c˜ao, tomando r11= ka1k podemos considerar a seguinte parti¸c˜ao
P1A = r11 r12 . . . r1n 0 .. . 0 A2
e aplicar o mesmo processo `a A2, tornando sua primeira coluna um m´ultiplo de e1 (vetor
canˆonico no espa¸co de dimens˜ao (m − 1)). Ou seja, considerar uma matriz de Householder P2 ∈ R(m−1)×(m−1) tal que P2A2 = r22 r23 . . . r2n 0 .. . 0 A3 .
Para aplicar a matriz P2 diretamente a P1A, sem estragar a coluna j´a modificada,
multi-plicamos P1A pela matriz
Q2 = 1 0 · · · 0 0 .. . 0 P2 .
Seguindo este procedimento, temos ao final de n − 1 itera¸c˜oes a seguinte estrutura
In−2 0 0 Pn−1 ! ... 1 0 0 1 0 0 P3 1 0 · · · 0 0 .. . 0 P2 P1A = R,
sendo In−2 a matriz identidade de R(n−2)×(n−2) e R triangular superior. Considerando
Q1 = P1, temos
Qn−1Qn−2...Q2Q1A = R.
´
E f´acil verificar que cada matriz Qi´e sim´etrica e ortogonal, i = 1, ..., n−1, uma vez que s˜ao
formadas por matrizes identidades e matrizes de Householder. Podemos assim denotar QT = Q
n−1Qn−2...Q2Q1, que ´e ortogonal por ser multiplica¸c˜ao de matrizes ortogonais,
obtendo ent˜ao a decomposi¸c˜ao
A = QR.
Rota¸c˜oes de Givens
Outra forma cl´assica de obter a decomposi¸c˜ao QR de uma matriz ´e atrav´es das Rota¸c˜oes de Givens, como veremos a seguir.
Considerando um vetor x ∈ R2, de coordenadas
x = " x1 x2 # ,
temos que a matriz de rota¸c˜ao
G = cos(θ) sen(θ) −sen(θ) cos(θ)
!
rotaciona x um ˆangulo de θ radianos no sentido hor´ario, como mostra a Figura 1.1.
Figura 1.1: Interpreta¸c˜ao geom´etrica de uma matriz de rota¸c˜ao no R2.
podemos criar uma matriz de rota¸c˜ao tal que Gx = " kxk 0 # .
Efetivamente, n˜ao ´e necess´ario que o ˆangulo θ seja calculado, mas sim os valores cos(θ) e sen(θ), dados por
cos(θ) = x1 px2 1+ x22 ; sen(θ) = x2 px2 1+ x22 .
Atrav´es desta motiva¸c˜ao, foram criadas as matrizes de rota¸c˜ao de Givens, como vere-mos na pr´oxima defini¸c˜ao.
Defini¸c˜ao 1.1. Uma matriz do tipo rota¸c˜ao de Givens ´e dada por
G(i, j, θ) = I − Y,
onde I ∈ Rm×m ´e a matriz identidade e Y ∈ Rm×m ´e uma matriz nula, exceto nas
coordenadas yii = yjj = 1 − cos(θ), yij = −sen(θ) = −yji, para algum ˆangulo θ. Isto ´e,
G(i, j, θ) ´e da forma i j G(i, j, θ) = 1 0 1 . .. cos(θ) sen(θ) . .. −sen(θ) cos(θ) . .. 1 0 1 i j
Agora, dado um vetor x ∈ Rm, e fixadas duas entradas de tal vetor, i e j, podemos
criar a matriz de rota¸c˜ao de Givens cujo valor de θ satisfaz
cos(θ) = q xi x2 i + x2j ; sen(θ) = q xj x2 i + x2j ,
obtemos assim G(i, j, θ)x = x1 x2 .. . xicos(θ) + xjsen(θ) xi+1 .. . −xisen(θ) + xjcos(θ) xj+1 .. . xm = x1 x2 .. . q x2 i + x2j xi+1 .. . 0 xj+1 .. . xm .
Nosso objetivo agora ´e abordar a utiliza¸c˜ao das matrizes de rota¸c˜ao de Givens na obten¸c˜ao da decomposi¸c˜ao QR de uma matriz. Para tal, consideremos A ∈ Rm×n, e seja
cos(θ11) = a11 pa2 11+ a221 ; sen(θ11) = a21 pa2 11+ a221 , obtendo portanto G1(1, 2, θ11)A = pa2 11+ a221 0 a31 .. . am1 b A1
Podemos assim construir sucessivas matrizes de Rota¸c˜ao de Givens, de forma que
G1(1, m, θm−11 )...G1(1, 3, θ21)G1(1, 2, θ11)A = pa2 11+ · · · + a2n1 0 0 .. . 0 ea12 . . . ea1n A2
Podemos a partir desta etapa proceder de maneira an´aloga ao que foi feito no caso das transforma¸c˜oes de Householder, aplicando as matrizes de Rota¸c˜ao de Givens a A2, e
considerando as matrizes no formato
1 0 0 G2
!
para que as dimens˜oes estejam em consonˆancia para multiplica¸c˜ao por A e de forma a n˜ao retirar os zeros que j´a foram estabelecidos. Procedendo assim de forma a reduzir a dimens˜ao das matrizes trabalhadas, ao final de m22−m multiplica¸c˜oes teremos
Im−2 0 0 Gm−1(m − 1, m, θ1m−1) ! Im−3 0 0 Gm−2(m − 2, m, θ2m−2) ! . . . . . . Im−3 0 0 Gm−2(m − 2, m − 1, θm−21 ) ! G1(1, m, θ1m−1)...G1(1, 2, θ11)A = R,
onde R ∈ Rm×n ´e triangular superior. Podemos ent˜ao denominar o conjunto de matrizes multiplicadas `a esquerda de A por QT, sendo tal matriz ortogonal, e portanto teremos a decomposi¸c˜ao
A = QR.
Note que as transforma¸c˜oes de Householder s˜ao mais complexas, por´em modificam coluna a coluna, enquanto que as Rota¸c˜oes de Givens s˜ao mais simples de serem cons-tru´ıdas, mas modificam elemento a elemento. ´E poss´ıvel construir a decomposi¸c˜ao QR de uma matriz mesclando ambas t´ecnicas, onde as colunas esparsas (com muitos zeros) s˜ao modificadas atrav´es das Rota¸c˜oes de Givens, e caso contr´ario s˜ao modificadas atrav´es das transforma¸c˜oes de Householder.
Processo de ortogonaliza¸c˜ao de Gram-Schmidt
Nesta subse¸c˜ao, discorreremos acerca de um m´etodo de ortogonaliza¸c˜ao de vetores, denominado processo de ortogonaliza¸c˜ao de Gram-Schmidt. Tal processo ser´a utilizado em seguida para decomposi¸c˜ao de uma matriz na forma QR j´a vista nas subse¸c˜oes anteriores. Defini¸c˜ao 1.2. Sejam x e y vetores de Rn, com x 6= 0. A proje¸c˜ao ortogonal de y sobre
x ´e definida como o vetor
projxy = hx, yi kxk2 x.
Utilizando tal defini¸c˜ao, apresentemos agora o processo de ortogonaliza¸c˜ao de Gram-Schmidt.
Teorema 1.5. Sejam F um subespa¸co de Rn e {v
1, . . . , vk} uma base de F . Definamos
e em seguida, sucessivamente, u2 = v2− proju1v2 u3 = v3− proju1v3− proju2v3 .. . uk = vk− k−1 X i=1 projuivk.
Desta forma, temos que {u1, . . . , uk} ´e uma base ortogonal de F .
Demonstra¸c˜ao. [22, Teorema 5.20].
O teorema seguinte utiliza o processo de ortogonaliza¸c˜ao de Gram-Schmidt para cons-truir a decomposi¸c˜ao QR de uma matriz, como veremos agora.
Teorema 1.6. Se A ∈ Rm×n tem as colunas linearmente independentes, ent˜ao A pode
ser decomposta na forma A = QR, onde Q ∈ Rm×n tem colunas ortonormais e R ∈ Rn×n
´e uma matriz triangular superior n˜ao singular.
Demonstra¸c˜ao. Designemos as colunas de A por v1, . . . , vn, e designemos por u1, . . . , un
os vetores dois a dois ortogonais que se obt´em das colunas de A aplicando o processo de ortogonaliza¸c˜ao de Gram-Schmidt. Tais vetores est˜ao relacionados por
u1 = v1u2 = v2− α12u1 u3 = v3− α13u1− α23u2 .. . un = vn− n−1 X i=1 αinui.
onde αrs s˜ao certos n´umeros. Estas rela¸c˜oes podem ser escritas como
v1 = u1 v2 = α12u1+ u2 v3 = α13u1+ α23u2+ u3 .. . vn= α1nu1+ α2nu2+ · · · + αn−1,nun−1+ un.
Designando por U a matriz cujas colunas s˜ao u1, . . . , un, temos que A = U T , onde T = 1 α12 α13 . . . α1n 0 0 α23 . . . α2n 0 0 1 . . . α3n .. . ... ... . .. ... 0 0 0 . . . 1 .
Definamos agora D ∈ Rn×n como uma matriz diagonal de elementos ku1k, . . . , kunk.
Ent˜ao, temos que D ´e invers´ıvel. Al´em disso, Q = U D−1´e uma matriz ortogonal, R = DT ´e triangular superior n˜ao singular, e temos que
A = U T = U D−1DT = QR,
como quer´ıamos demonstrar.
1.1.4
Decomposi¸
c˜
ao em dire¸
c˜
oes conjugadas
O objetivo nesta subse¸c˜ao ´e apresentar a decomposi¸c˜ao de uma matriz semidefinida positiva, pautada em vetores dire¸c˜oes conjugadas, defini¸c˜ao que veremos a seguir. Vale salientar que a existˆencia de tal decomposi¸c˜ao est´a afirmada em [27], por´em sem demons-tra¸c˜ao e sem a abordagem de como conseguir os vetores A-conjugados de determinada matriz semidefinida positiva A ∈ Rn×n, sendo nosso objetivo explorar tais aspectos. Defini¸c˜ao 1.3. Seja A ∈ Rn×n uma matriz sim´etrica. Um conjunto {d
1, ..., dj} ´e dito
A-conjugado se dT
rAds= 0 se r 6= s e dTrAdr 6= 0, para todo 1 ≤ r, s ≤ j.
O pr´oximo Lema estabelece um fato simples de ´Algebra Linear, mas de sobremodo importante para o avan¸co de nossa teoria.
Lema 1.2. Seja A ∈ Rn×n sim´etrica semidefinida positiva, com posto(A) = k. Ent˜ao
dado v ∈ Im(A) \ {0}, tem-se que vTAv > 0.
Demonstra¸c˜ao. Segundo o Teorema Espectral [9], como A ´e sim´etrica, existe uma base ortonormal de Rn formada por autovetores de A. Seja {u
1, ..., uk, uk+1, ..., un} tal base, de
forma que os vetores u1, ..., uk s˜ao autovetores de A associados a autovalores n˜ao nulos,
e uk+1, ..., un autovetores associados ao autovalor 0. Desta forma, seja v ∈ Im(A), e
portanto existe b ∈ Rn tal que
Reescrevendo b segundo a base de autovetores temos v = Ab = A n X j=1 αjuj ! = n X j=1 αjAuj = k X j=1 αjAuj + n X j=k+1 αjAuj = k X j=1 αjλjuj = k X j=1 βjuj. (1.3)
com βj = αjλj. Isto prova que Im(A) ⊆ span{u1, ..., uk}.
Agora, reescrevendo v segundo (1.3) em vTAv temos
vTAv = ( k X j=1 βjuj)TA( k X j=1 βjuj) = ( k X j=1 βjuj)T( k X j=1 βjAuj) = ( k X j=1 βjuj)T( k X j=1 βjλjuj) = k X j=1 k X i=1 βjβiλiuTjui = k X j=1 βj2λjkujk2,
e como pelo menos um escalar βj 6= 0, e λj > 0 para todo j = 1, ..., k, temos que vTAv > 0,
como quer´ıamos demonstrar.
A partir deste lema, poderemos utilizar uma t´ecnica para criar vetores A-conjugados, a qual utilizaremos a seguir. Sejam v1, ...vk vetores de uma base para Im(A). Assim,
consideremos os seguintes vetores: p1 = v1; p2 = v2− pT1Av2 pT 1Ap1 p1; .. . pi = vi− i−1 X j=1 pT jAvi pT jApj pj i = 1, ..., k.
Note que o procedimento acima pode ser visto como uma generaliza¸c˜ao do processo de ortogonaliza¸c˜ao de Gram-Schmidt, m´etodo j´a estudado neste trabalho. Para todo i = 1, ..., k, pi ´e combina¸c˜ao linear dos vetores {v1, ..., vk}, e portanto pi ∈ Im(A). Assim,
para mostrar que pTiApi 6= 0, basta provar que pi 6= 0. De fato, temos que se
pi = vi− αi−1vi−1− · · · − α1v1 = 0,
ter´ıamos uma combina¸c˜ao linear n˜ao nula de v1, ..., vi gerando o vetor nulo, o que ´e uma
contradi¸c˜ao, j´a que v1, ..., vk s˜ao vetores linearmente independentes.
´
E f´acil verificar que para i fixo, os vetores pt, t = 1, ..., i − 1, satisfazem pTtApi = 0.
Tal demonstra¸c˜ao ´e feita por indu¸c˜ao forte em i. De fato, para i = 2, temos
pT1Ap2 = pT1A(v2− pT1Av2 pT 1Ap1 p1) = pT1Av2− pT1Ap1 pT1Av2 pT 1Ap1 = 0.
Assumindo a proposi¸c˜ao para 2, ..., i − 1 com i fixo, isto ´e, para 2 ≤ t, h ≤ i − 1 com t 6= h temos pT
tAph = 0, provaremos que a proposi¸c˜ao ´e v´alida para i. Seja t ∈ {1, ..., i − 1} fixo,
ent˜ao pTtApi = pTtA(vi− i−1 X h=1 pT hAvi pT hAph ph) = pTtAvi− i−1 X h=1 pT hAvi pT hAph pTtAph = pTtAvi− i−1 X h=1 ; h6=t pT hAvi pT hAph pTtAph− pT tAvi pT tApt pTtApt = pTtAvi− pT tAvi pT tApt pTtApt = 0
como quer´ıamos demonstrar.
e j ∈ {k + 1, ..., n} temos
pTi Apj = pTi0 = 0.
Al´em disso, p1, ...., pk, pk+1, ..., pn´e base Rn, e portanto a matriz
P = p1 . . . pk pk+1 . . . pn
´e n˜ao singular. Desta forma, obtemos a decomposi¸c˜ao matricial
PTAP = D,
onde
D = D1 0 0 0
!
com D1 ∈ Rk×k matriz diagonal, onde os elementos da diagonal s˜ao da forma dii = pTi Api.
De fato, consideremos a parti¸c˜ao
P = P1 P2
onde P1 ´e formada pelos vetores da base de Im(A) e P2 ´e formada pelos vetores da base
de N (A). Ent˜ao PTAP = P T 1 PT 2 ! AP1 P2 = P T 1 PT 2 ! AP1 AP2 ,
e como P2 ´e formada por vetores base de N (A), AP2 = 0. Ent˜ao
PTAP = P T 1 PT 2 ! AP1 0 = P T 1 AP1 0 PT 2 AP1 0 ! .
Agora, temos que
Al´em disso, reescrevendo o primeiro bloco da matriz temos P1TAP1 = pT 1 pT 2 .. . pT k Ap1 p2 . . . pk = pT 1Ap1 pT1Ap2 . . . pT1Apk pT 2Ap1 pT2Ap2 . . . pT2Apk .. . ... . .. ... pT kAp1 pTkAp2 . . . pTkApk = pT 1Ap1 0 . . . 0 0 pT 2Ap2 . . . 0 0 0 . .. 0 0 0 . . . pTkApk ,
provando ent˜ao o desejado.
1.2
Elementos de Otimiza¸
c˜
ao
Na matem´atica, o termo Otimiza¸c˜ao refere-se ao estudo de problemas em que se busca minimizar ou maximizar uma fun¸c˜ao atrav´es da escolha de vari´aveis dentro de um conjunto vi´avel. O desenvolvimento deste campo matem´atico ´e de muito interesse, j´a que o mesmo tem grande aplicabilidade na resolu¸c˜ao de problemas reais. Grande parte dos teoremas apresentados nessa se¸c˜ao podem ser encontrados em [21], sendo alguns expostos aqui para maior facilidade de leitura e compreens˜ao dos t´opicos subsequentes.
Primeiramente, consideremos o seguinte problema de otimiza¸c˜ao
min f (x)
s.a x ∈ Ω , (1.4)
onde f : Rn → R ´e uma fun¸c˜ao arbitr´aria e Ω ⊆ Rn ´e denominado conjunto vi´avel.
Durante esta se¸c˜ao, exploraremos condi¸c˜oes necess´arias e suficientes para que um dado ponto x∗ seja solu¸c˜ao do problema (1.4), considerando os casos em que o conjunto vi´avel Ω compreende todo o espa¸co Rn, ou quando tal conjunto ´e um subconjunto pr´oprio de
Rn.
1.2.1
Condi¸
c˜
oes de otimalidade para problemas sem restri¸
c˜
oes
Para esta subse¸c˜ao, consideraremos o caso em que Ω = Rn, isto ´e, o problema (1.4) ´e
Defini¸c˜ao 1.4. Considere a fun¸c˜ao f : Rn → R e x∗ ∈ Ω ⊂ Rn. Dizemos que x∗ ´e um minimizador local de f em Ω quando existe δ > 0 tal que f (x∗) ≤ f (x), para todo x ∈ B(x∗, δ)R Ω.
O teorema a seguir estabelece uma condi¸c˜ao necess´aria para que um ponto seja mini-mizador de f , isto ´e, solu¸c˜ao do problema (1.4).
Teorema 1.7 (Condi¸c˜ao necess´aria de 1aordem). Seja f : Rn→ R diferenci´avel no ponto x∗. Se x∗ ´e um minimizador local de f , ent˜ao
∇f (x∗) = 0.
Demonstra¸c˜ao. Considere d ∈ Rn\ {0} arbitr´ario. Como x∗ ´e minimizador local, existe δ > 0 tal que
f (x∗) ≤ f (x∗+ td), (1.5) para todo t ∈ (0, δ). Pela expans˜ao de Taylor,
f (x∗+ td) = f (x∗) + t∇f (x∗)Td + r(t),
com lim
t→0 r(t)
t = 0. Usando (1.5) e dividindo por t obtemos
0 ≤ ∇f (x∗)Td + r(t) t .
Aplicando o limite quando t → 0, obtemos ∇f (x∗)Td ≥ 0. Se ∇f (x∗) n˜ao fosse nulo, poder´ıamos tomar d = −∇f (x∗), resultando em
k∇f (x∗)k2 = −∇f (x∗)Td ≤ 0,
o que ´e uma contradi¸c˜ao. Logo, ∇f (x∗) = 0.
Denominaremos os pontos x ∈ Rn que cumprem ∇f (x) = 0 por pontos cr´ıticos ou
estacion´arios de f . Vale salientar que nem todo ponto estacion´ario ´e um minimizador local de f , isto ´e, a rec´ıproca do teorema acima n˜ao ´e v´alida.
Avan¸cando na caracteriza¸c˜ao dos minimizadores de f , apresentemos no pr´oximo teo-rema a condi¸c˜ao necess´aria de 2a ordem para minimizadores.
Teorema 1.8 (Condi¸c˜ao necess´aria de 2a ordem). Seja f : Rn → R duas vezes dife-renci´avel no ponto x∗. Se x∗ ´e um minimizador local de f , ent˜ao a matriz Hessiana de f no ponto x∗ ´e semidefinida positiva, isto ´e,
dT∇2f (x∗
para todo d ∈ Rn.
Demonstra¸c˜ao. Considere d ∈ Rn\ {0} arbitr´ario. Por Taylor,
f (x∗+ td) = f (x∗) + t∇f (x∗)Td + t 2 2d T∇2f (x∗ )d + r(t), com lim t→0 r(t) t2 = 0. Como x
∗´e minimizador local, pelo teorema anterior temos que ∇f (x∗) =
0. Portanto, para t suficientemente pequeno,
0 ≤ f (x∗+ td) − f (x∗) = t
2
2d
t∇2f (x∗
)d + r(t).
Dividindo por t2 e aplicando limite quando t → 0, obtemos
dT∇2f (x∗
)d ≥ 0.
Apresentadas as condi¸c˜oes necess´arias para que um ponto seja minimizador, apre-sentemos agora uma condi¸c˜ao suficiente de 2a ordem para que um ponto seja de fato
minimizador.
Teorema 1.9 (Condi¸c˜ao suficiente de 2a ordem). Seja f : Rn → R duas vezes
dife-renci´avel no ponto x∗. Se x∗ ´e um ponto estacion´ario de f e ∇2f (x∗) ´e definida positiva,
ent˜ao x∗ ´e minimizador local de f .
Demonstra¸c˜ao. Seja λ o menor autovalor de ∇2f (x∗). Como esta matriz ´e definida
posi-tiva, temos que λ > 0. Al´em disso, pelo quociente de Rayleigh (ver Apˆendice A) temos que dT∇2f (x∗)d ≥ λkdk2, para todo d ∈ Rn. Por Taylor, j´a usando o fato de x∗ ser
estacion´ario, temos
f (x∗+ d) = f (x∗) + 1 2d T∇2f (x∗ )d + r(d) ≥ f (x∗) + λ 2kdk 2+ r(d), onde lim d→0 r(d)
kdk2 = 0. Podemos ent˜ao escrever
f (x∗ + d) − f (x∗) kdk2 ≥ λ 2 + r(d) kdk2. Como lim d→0 λ 2 + r(d) kdk2
> 0, existe δ > 0 tal que λ2 + kdkr(d)2 > 0, para todo d ∈ B(0, δ) \ {0},
donde segue que f (x∗+ d) − f (x∗) > 0, para todo d ∈ B(0, δ) \ {0}, ou, equivalentemente,
f (x∗) < f (x),
H´a ainda dois resultados a serem enunciados, fazendo referˆencia ao caso convexo, como veremos a seguir.
Teorema 1.10. Se ∇2f (x) ≥ 0 para todo x ∈ Ω, ent˜ao f ´e convexa em Ω. Demonstra¸c˜ao. [21, Teorema 3.16].
Teorema 1.11. Se f : Rn→ R ´e convexa, e ∇f(x∗) = 0, ent˜ao x∗ ´e minimizador global
de f em Rn.
Demonstra¸c˜ao. [21, Teorema 3.13].
Desta forma, j´a temos ferramentas suficientes para discorrer acerca de minimizadores em problemas irrestritos. Nosso pr´oximo passo ´e estabelecer resultados an´alogos aos apresentados nesta subse¸c˜ao, por´em para problemas restritos, isto ´e, quando o conjunto vi´avel Ω ´e um subconjunto pr´oprio de Rn.
1.2.2
Condi¸
c˜
oes de otimalidade para problemas com restri¸
c˜
oes
Nesta subse¸c˜ao, consideraremos o caso em que o problema (1.4) tem a seguinte for-mula¸c˜ao min f (x) s.a cE(x) = 0 cI(x) ≤ 0 , (1.6) onde f : Rn → R, c
i : Rn → R, i ∈ E ∪ I s˜ao fun¸c˜oes de classe C2. Desta forma, temos
que o conjunto vi´avel ´e dado por
Ω = {x ∈ Rn| cE(x) = 0, cI(x) ≤ 0}. (1.7)
Defini¸c˜ao 1.5. Seja x ∈ Ω. Uma restri¸c˜ao de desigualdade ci, i ∈ I ´e dita ativa em x
se ci(x) = 0. Caso ci(x) < 0, dizemos que ci ´e inativa em x.
Vamos denotar por I(x) o conjunto de ´ındices das restri¸c˜oes de desigualdade ativas em um ponto vi´avel x, isto ´e,
I(x) = {i ∈ I | ci(x) = 0}.
Para avan¸carmos a caracteriza¸c˜ao das solu¸c˜oes de (1.6), precisamos discorrer sobre as chamadas condi¸c˜oes de qualifica¸c˜ao. Um ponto x ∈ Rn ´e dito qualificado quando atende
uma condi¸c˜ao de qualifica¸c˜ao.
Condi¸c˜ao de qualifica¸c˜ao de Slater: Consideremos o conjunto Ω, definido em (1.7). Dizemos que a condi¸c˜ao de Slater ´e satisfeita quando cE ´e linear, cada componente ci,
i ∈ I ´e convexa e existe x ∈ Ω tal quee
cE(ex) = 0 e cI(x) < 0.e
Condi¸c˜ao de qualifica¸c˜ao de independˆencia linear dos gradientes: Dizemos que x atende a condi¸c˜ao de qualifica¸c˜ao de independˆencia linear (LICQ) quando o conjunto formado pelos gradientes das restri¸c˜oes de igualdade e das restri¸c˜oes de desigualdade ativas ´e linearmente independente, isto ´e,
{∇ci(x) | i ∈ E ∪ I(x)}
´e linearmente independente.
H´a ainda na literatura outras condi¸c˜oes de qualifica¸c˜ao (ver [21]), sendo estas apresen-tadas aqui as mais cl´assicas e geralmente mais simples de se verificar. Agora, apresentemos condi¸c˜oes de caracteriza¸c˜ao para as solu¸c˜oes do problema (1.6).
Teorema 1.12 (Condi¸c˜oes de Karush-Kuhn-Tucker). Seja x∗ ∈ Ω um minimizador local de (1.6) e suponha que tal ponto ´e qualificado. Ent˜ao existem vetores λ∗ e µ∗ tais que
−∇f (x∗) =P i∈E λ ∗ i∇ci(x∗) +Pi∈Iµ∗i∇ci(x∗), µ∗i ≥ 0, i ∈ I, µ∗ici(x∗) = 0, i ∈ I. (1.8)
Demonstra¸c˜ao. [21, Teoremas 7.25, 7.35, 7.40 e 7.43].
As condi¸c˜oes apresentadas em (1.8) s˜ao ditas condi¸c˜oes de Karush-Kuhn-Tucker. Pela formula¸c˜ao do teorema, nota-se que se n˜ao for verificada nenhuma condi¸c˜ao de qualifica¸c˜ao para x∗pode ocorrer que x∗seja minimizador e n˜ao cumpra as condi¸c˜oes de Karush-Kuhn-Tucker (KKT), dificultando assim a caracteriza¸c˜ao das solu¸c˜oes de (1.6).
Agora, na continuidade da caracteriza¸c˜ao das solu¸c˜oes de (1.6), ´e de nosso interesse analisar as condi¸c˜oes de otimalidade de segunda ordem, como veremos nos pr´oximos teoremas. Para isso, consideremos o Lagrangiano associado ao problema (1.6), dado por
(x, λ, µ) ∈ Rn× Rm
× Rq 7→ l(x, λ, µ) = f (x) + λTc
E(x) + µTcI(x).
Os vetores λ e µ s˜ao denominados multiplicadores de Lagrange. Denotando as Jacobianas de cE e cI por AE e AI, respectivamente, temos
e ∇2 xxl(x, λ, µ) = ∇2f (x) + X i∈E λi∇2ci(x) + X i∈I µi∇2ci(x).
Teorema 1.13 (Condi¸c˜oes necess´arias de 2a ordem). Suponha que x∗ ´e um minimizador
local do problema (1.6) e que a condi¸c˜ao de qualifica¸c˜ao de independˆencia linear ´e satisfeita em x∗. Considere os multiplicadores λ∗ e µ∗, que satisfazem as condi¸c˜oes de KKT. Ent˜ao,
dT∇2xxl(x∗, λ∗, µ∗)d ≥ 0,
para todo d ∈ N (AE(x∗) ∪ N (AI(x∗)(x∗)).
Demonstra¸c˜ao. [21, Teorema 7.47].
Teorema 1.14 (Condi¸c˜oes suficientes de 2a ordem). Suponha que x∗ ´e vi´avel para pro-blema (1.6) e que existem λ∗ ∈ Rm e µ∗ ∈ Rq+ tais que (µ∗)TcI(x∗) = 0 e
∇f (x∗) + AE(x∗)Tλ∗+ AI(x∗)Tµ∗ = 0. Considere I+= {i ∈ I(x∗)|µ∗i > 0}. Se dT∇2 xxl(x ∗ , λ∗, µ∗)d > 0,
para todo d ∈ N (AE(x∗) ∪ N (AI+(x∗)) \ {0}, ent˜ao existem δ > 0 e uma vizinhan¸ca V de
x∗ tal que
f (x) − f (x∗) ≥ δkx − x∗k2,
para todo ponto vi´avel x ∈ V . Em particular, segue que x∗ ´e um minimizador local estrito do problema (1.6).
Demonstra¸c˜ao. Pode ser encontrada em [21], Teorema 7.48.
Agora que j´a vimos as condi¸c˜oes de otimalidade para problemas de minimiza¸c˜ao sem e com restri¸c˜oes, o foco de nossa pr´oxima se¸c˜ao ser´a a abordagem de m´etodos de mini-miza¸c˜ao para problemas irrestritos, como os m´etodos do gradiente, Newton e regi˜ao de confian¸ca.
1.2.3
M´
etodo do gradiente
Dada uma fun¸c˜ao f : Rn→ R ∈ C1, consideremos o problema irrestrito
min
x∈Rn f (x).
Um m´etodo cl´assico para resolver este problema ´e o m´etodo do gradiente, sendo um m´etodo iterativo onde a cada itera¸c˜ao k a dire¸c˜ao de minimiza¸c˜ao ser´a a oposta ao gra-diente, isto ´e, para xk ∈ Rn a dire¸c˜ao de minimiza¸c˜ao ´e dada por dk = −∇f (xk). Tal
escolha prov´em do fato de que d = −∇f (x) ´e a dire¸c˜ao de decr´escimo mais acentuado de f a partir de x. De fato, se d = −∇f (x) e v ∈ Rn ´e tal que kvk = kdk, ent˜ao
∂f
∂d(x) = ∇f (x)
Td = −k∇f (x)k2 = −k∇f (x)kkvk ≤ ∇f (x)Tv = ∂f
∂v(x).
Pelo resultado acima, muitos autores denotam tal m´etodo por m´etodo de m´axima descida, ou ainda m´etodo de Cauchy.
No geral, calculado dk = −∇f (xk), fazemos uma busca linear ao londo da dire¸c˜ao dk,
tomando ent˜ao a seguinte aproxima¸c˜ao da solu¸c˜ao como xk+1 = xk + αkdk, onde αk ´e
o tamanho do passo obtido na busca. Vejamos a seguir o algoritmo para o M´etodo do Gradiente.
Algoritmo 1 : M´etodo do Gradiente Dados x0 ∈ Rn, defina k = 0.
Enquanto ∇f (xk) 6= 0
Defina dk = −∇f (xk).
Determine o tamanho do passo αk > 0.
Defina xk+1 = xk+ αkdk.
k = k + 1 Fim
A convergˆencia global deste m´etodo est´a descrita em [21], supondo a utiliza¸c˜ao da busca linear exata ou de Armijo.
1.2.4
M´
etodo de Newton
Considere a fun¸c˜ao f : Rn→ R, com f ∈ C2, e o problema de minimiza¸c˜ao
min
x∈Rn f (x). (1.9)
Para minimizar tal fun¸c˜ao objetivo, podemos considerar a aproxima¸c˜ao de segunda ordem de f em torno de um ponto xk, dada por
f (x) ≈ f (xk) + ∇f (xk)T(x − xk) +
1
2(x − xk)
T∇2f (x
k)(x − xk)
onde ∇2f (x) ∈ Rn×n ´e a Hessiana de f , e minimizar assim esse modelo local da fun¸c˜ao
f . Tomando d = x − xk, podemos resolver o problema aproximado
min d∈Rn f (xk) + ∇f (xk) T d + 1 2d T∇2 f (xk)d.
Pela condi¸c˜ao necess´aria de primeira ordem, a dire¸c˜ao de minimiza¸c˜ao satisfaz
∇2f (x
k)d = −∇f (xk). (1.10)
Ent˜ao, desde que ∇2f (x
k) seja invers´ıvel, a dire¸c˜ao de minimiza¸c˜ao ser´a dada por
dk = −∇2f (xk)−1∇f (xk), (1.11)
chamada dire¸c˜ao de Newton.
Assim como o m´etodo do gradiente, dada a dire¸c˜ao dk, fazemos uma busca linear
obtendo o tamanho do passo αk, e assim tomando xk+1 = xk+ αkdk. Apresentemos agora
Algoritmo 2 : M´etodo de Newton Dados x0 ∈ Rn, defina k = 0.
Enquanto ∇f (xk) 6= 0
Defina dk= −∇2f (xk)−1∇f (xk).
Determine o tamanho do passo αk > 0.
Defina xk+1 = xk+ αkdk.
k = k + 1 Fim
Computacionalmente, ´e mais vi´avel obter a dire¸c˜ao de Newton atrav´es da equa¸c˜ao (1.10), pois geralmente a invers˜ao da matriz Hessiana ∇2f (x
k) ´e mais dispendiosa. Al´em
disso, o m´etodo pode n˜ao estar bem definido quando a Hessiana n˜ao ´e invers´ıvel para alguma itera¸c˜ao.
A convergˆencia deste m´etodo ´e atestada no pr´oximo teorema, cuja demonstra¸c˜ao pode ser encontrada em [21], Teorema 5.10.
Teorema 1.15. Seja f : Rn→ R de classe C2. Suponha que x∗
∈ Rn seja um
minimiza-dor local de f , com ∇2f (x∗) definida positiva. Ent˜ao existe δ > 0 tal que se x
0 ∈ B(x∗, δ),
o algoritmo do M´etodo de Newton, com αk= 1 para todo k ∈ N, gera uma sequˆencia (xk)
tal que: (i) ∇2f (x
k) ´e definida positiva, para todo k ∈ N;
(ii) (xk) converge superlinearmente para x∗;
(iii) Se ∇2f ´e Lipschitz, ent˜ao a convergˆencia ´e quadr´atica. ´
E poss´ıvel considerar uma formula¸c˜ao mais geral para o m´etodo de Newton, utilizado para encontrar zeros de fun¸c˜oes. Neste caso, poder´ıamos aplicar tal m´etodo para encontrar o zero do gradiente de f , obtendo a formula¸c˜ao cl´assica do M´etodo de Newton para minimiza¸c˜ao, tratado nesta subse¸c˜ao.
1.2.5
M´
etodo de Newton para zeros de fun¸
c˜
oes
Consideremos F : Rn→ Rn de classe C1 e o problema de resolver o sistema
F (x) = 0.
Assim, dado xk, podemos considerar a aproxima¸c˜ao linear de F em torno de xk, dada por
T (x) = F (xk) + J (xk)(x − xk),
onde J (xk) ∈ Rn×n ´e a Jacobiana de F avaliada em xk, e buscar x tal que T (x) = 0, isto
´e,
Desde que J (xk) seja invers´ıvel, temos que a nova aproxima¸c˜ao para um zero da F ´e
xk+1 = xk− (J(xk))−1F (xk).
Podemos formalizar o m´etodo no seguinte algoritmo.
Algoritmo 3 : M´etodo de Newton para zeros de fun¸c˜oes Dados x0 ∈ Rn, defina k = 0. Enquanto F (xk) 6= 0 Defina dk = −(J (xk))−1F (xk). Defina xk+1 = xk+ dk. k = k + 1 Fim
A demonstra¸c˜ao de convergˆencia ´e dada no pr´oximo teorema, e sua demonstra¸c˜ao tamb´em pode ser encontrada em [21], Teorema 5.13.
Teorema 1.16. Seja F : Rn→ Rn de classe C1 com Jacobiana J Lipschitz de constante
L, x∗ ∈ Rn uma raiz de F , com J (x∗) invers´ıvel e δ = 2 3 λ
L, onde λ > 0 ´e o menor valor
singular de J (x∗). Se x0 ∈ B(x∗, δ), ent˜ao o algoritmo para o M´etodo de Newton para
zeros de fun¸c˜oes gera uma sequˆencia (xk) tal que xk→ x∗ com velocidade de convergˆencia
quadr´atica.
No caso de fun¸c˜oes reais de vari´avel real, dado xk∈ R obtemos como pr´oximo iterando
xk+1 = xk− αk
f (xk)
f0(x k)
.
Como vimos no Teorema 1.16, a convergˆencia deste m´etodo ´e local, e portanto ´e interes-sante conhecer o intervalo onde a raiz se encontra. Vejamos um exemplo onde o m´etodo de Newton para zeros de fun¸c˜oes falha.
Exemplo 1.1: Consideremos a fun¸c˜ao f : R+ → R dada por
f (x) = 3x − 1 x2 .
A fun¸c˜ao f tem um zero em x = 13, e dado xk, a sequˆencia gerada pelo m´etodo de Newton
considerando o passo αk= 1 ´e dada por
xk+1 = xk− f (xk) f0(x k) = xk− (3xk− 1)xk −3xk+ 2 .
Assim, tomando x0 > 23, temos que −
(3xk−1)xk
−3xk+2 > 0 e portanto a sequˆencia ´e crescente.
Al´em disso, xk+1 xk = xk− (3xk−1)xk −3xk+2 xk = 1 + 3xk− 1 3xk− 2 = 1 + 3xk− 2 + 1 3xk− 2 = 2 + 1 3 xk− 23 ≥ 2
e portanto a sequˆencia tende a infinito, n˜ao obtendo a raiz desejada, como podemos ver na pr´oxima imagem, onde consideramos x0 = 1.
Figura 1.2: Caso em que o M´etodo de Newton para zero de fun¸c˜oes falha.
Por este motivo, um dos objetos de estudo ´e estabelecer salvaguardas para o problema, isto ´e, encontrar um intervalo onde o zero da fun¸c˜ao se encontra. Para o exemplo anterior, se tivermos o conhecimento de que a raiz se encontra no intervalo [0, 1], ao iniciarmos com x0 = 1, x1 6∈ [0, 1] e portanto teremos um ind´ıcio de que estamos indo pelo caminho
errado. Assim, podemos tomar um novo x0 ∈ [0, 1], at´e obtermos de fato a raiz.
Apesar da convergˆencia quadr´atica do m´etodo de Newton, em ambas vers˜oes, o m´etodo apresenta problemas acerca do custo computacional, pois faz o uso de derivadas de segunda ordem. Veremos na pr´oxima subse¸c˜ao um m´etodo pautado na aproxima¸c˜ao quadr´atica da fun¸c˜ao objetivo, por´em considerando um majorante para norma do passo, denominado m´etodo de regi˜ao de confian¸ca.
1.2.6
M´
etodo de regi˜
ao de confian¸
ca
Considere o problema irrestrito apresentado em (1.9). Assim, dado um ponto xk, o
m´etodo de regi˜ao de confian¸ca consiste na resolu¸c˜ao do problema
min qk(x)
s.a kx − xkk ≤ ∆k
onde ∆k > 0 ´e chamada raio de confian¸ca, qk(x) ´e a aproxima¸c˜ao da fun¸c˜ao f por um
modelo quadr´atico em volta de xk, isto ´e,
qk(x) = f (xk) + ∇f (xk)T(x − xk) +
1
2(x − xk)
T
Bk(x − xk),
onde Bk∈ Rn×n pode ser a Hessiana ∇2f (xk) ou qualquer matriz sim´etrica que satisfa¸ca
kBkk ≤ β, para algum valor de β > 0, independente de k ∈ N. Tomando d = x − xk,
podemos facilitar a nota¸c˜ao tomando mk(d) = qk(xk+ d), e portanto nosso problema se
resume a
min mk(d)
s.a kdk ≤ ∆k
. (1.12)
A pr´oxima imagem retrata o m´etodo de regi˜ao de confian¸ca tomando Bk = ∇2f (xk).
x
kx
k+1
Figura 1.3: M´etodo de Regi˜ao de Confian¸ca.
Desde que a regi˜ao ∆k n˜ao seja grande, ´e natural que a minimiza¸c˜ao do modelo
quadr´atico influencie na minimiza¸c˜ao da fun¸c˜ao f . Por´em, n˜ao ´e anal´ıtica a determina¸c˜ao de uma regi˜ao ´otima, de forma que a cada passo da minimiza¸c˜ao do modelo seja feita uma an´alise da redu¸c˜ao real na fun¸c˜ao objetivo, decidindo assim a aceita¸c˜ao ou rejei¸c˜ao do minimizador. Para tal, consideremos
aredk = f (xk) − f (xk+ dk)
a redu¸c˜ao real na fun¸c˜ao objetivo provocada na itera¸c˜ao k, predk = mk(0) − mk(dk)
a redu¸c˜ao descrita no modelo quadr´atico mk e
ρk =
aredk
predk
. (1.13)
o coeficiente de redu¸c˜ao relativa. Desta forma, temos um indicador da efic´acia do modelo mk(d). Note que predk ´e sempre positivo, j´a que dk ´e minimizador de mk(d). Assim, se
ρk´e pequeno, ou at´e mesmo negativo, ent˜ao a redu¸c˜ao real n˜ao foi satisfat´oria em rela¸c˜ao
`
a redu¸c˜ao do modelo. Caso ρk esteja pr´oximo de 1, o modelo representou bem a fun¸c˜ao
objetivo localmente em torno de xk. Ainda pode ocorrer de ρk > 1, o que nos diz que a
redu¸c˜ao real foi maior que a apresentada pelo modelo.
Aceitaremos o passo dk, solu¸c˜ao de (1.12), quando o coeficiente ρk for maior que uma
constante η ≥ 0 dada. Neste caso, temos xk+1 = xk+ dk. Caso ρk ≤ η, temos que o
modelo n˜ao representou bem a fun¸c˜ao na regi˜ao de confian¸ca, ent˜ao rejeitamos o passo dk, diminu´ımos a regi˜ao de confian¸ca e constru´ımos um novo modelo (1.12) sujeito `a nova
regi˜ao.
A fim de caracterizar a solu¸c˜ao do problema (1.12), os pr´oximos dois teoremas estabe-lecem a equivalˆencia entre o problema de minimiza¸c˜ao e a solu¸c˜ao de um sistema linear, facilitando a obten¸c˜ao da solu¸c˜ao. As demonstra¸c˜oes n˜ao foram encontradas na literatura, exceto para o caso S = I, em [3], Teorema 7.2.1, e [8], Teorema 1, do qual nos embasamos para adaptar a prova.
Teorema 1.17. Sejam B ∈ Rn×n uma matriz sim´etrica, S ∈ Rn×n, g ∈ Rn e c ∈
R.Assim, dado d∗ ∈ Rn, com kSd∗k ≤ ∆ e λ∗ ≥ 0 tais que as trˆes condi¸c˜oes s˜ao
simulta-neamente satisfeitas
(B + λ∗STS)d∗ = −g, (∆ − kSd∗k)λ∗ = 0 e (B + λ∗STS) ≥ 0
ent˜ao d∗ ´e solu¸c˜ao global do problema de regi˜ao de confian¸ca
min m(d) = c + gTd + 1 2d
TBd
s.a kSdk ≤ ∆
Demonstra¸c˜ao. Primeiramente, minimizar a fun¸c˜ao objetivo acima ´e equivalente a mini-mizar m(d) = gTd + 1
2d
TBd, j´a que c ´e uma constante. Temos que d
∗ ´e minimizador b m(d) = gTd +1 2d T(B + λ ∗STS)d = m(d) + λ∗ 2 d TSTSd,
por ser o ponto estacion´ario da quadr´atica convexa m(d), por (1.11) . Ent˜b ao m(d) ≥b b
m(d∗), para todo d ∈ Rn, e segue que
m(d) =m(d) −b λ∗ 2 d TSTSd ≥m(d) −b λ∗ 2 d T STSd ≥ m(d∗) + λ∗ 2 (d T ∗S T Sd∗− dTSTSd). (1.14)
Multiplicando λ∗(∆ − kSd∗k) = 0 por 12(∆ + kSd∗k) em ambos lados da equa¸c˜ao temos
que 1 2λ∗(∆ 2− dT ∗STSd∗) = 0. (1.15) Somando (1.15) em (1.14) temos m(d) ≥ m(d∗) + λ∗ 2 (∆ 2− dTSTSd) = m(d∗) + λ∗ 2 (∆ 2− kSdk2).
Assim, por λ∗ ≥ 0, m(d) ≥ m(d∗), para todo d com kSdk ≤ ∆, e portanto d∗ ´e solu¸c˜ao
do problema
min m(d) = gTd + 12dTBd s.a kSdk ≤ ∆ .
O pr´oximo teorema estabelece a rec´ıproca do resultado anterior, caracterizando com-pletamente o minimizador global do problema de regi˜ao de confian¸ca.
Teorema 1.18. Se d∗ ´e solu¸c˜ao global do problema
min m(d) = c + gTd + 12dTBd s.a kSdk ≤ ∆
ent˜ao existe λ∗ ≥ 0 tal que
(B + λ∗STS)d∗ = −g, (∆ − kSd∗k)λ∗ = 0 e (B + λ∗STS) ≥ 0
Demonstra¸c˜ao. Primeiramente, reescrevamos a restri¸c˜ao kSdk ≤ ∆ como r(d) = 12(kSdk2− ∆2) ≤ 0. Para provar tal teorema, consideraremos dois casos:
(1) Se kSd∗k < ∆, ent˜ao d∗ ´e minimizador irrestrito de m(d). Logo, pelas condi¸c˜oes
(
∇m(d∗) = 0 ⇒ Bd∗+ g = 0
∇2m(d
∗) ≥ 0 ⇒ B ≥ 0
Assim, λ∗ = 0 satisfaz as condi¸c˜oes desejadas.
(2) Se kSd∗k = ∆, d∗ ´e qualificado, pois o conjunto dos gradientes das restri¸c˜oes ativas,
formado apenas por STSd∗ 6= 0, ´e linearmente independente. Assim, consideremos
a Lagrangeana associada ao problema,
L(d, λ) = m(d) + λr(d) = m(d) + λ 2(d
TSTSd − ∆2).
Desta forma, a condi¸c˜ao de KKT sobre a Lagrangeana ´e dada por
0 = ∇dL(d∗, λ∗) = ∇m(d∗) + λ∗∇r(d∗) (1.16) = Bd∗+ g + λ∗STSd∗ do que segue (B + λ∗STS)d∗ = −g. ´
E importante lembrar que a propriedade (∆ − kSd∗k)λ∗ = 0 j´a ´e atendida, pelo fato de
que kSd∗k = ∆. Assim, basta mostrar que (B + λ∗STS) ≥ 0.
De (1.16) temos que ∇m(d∗) = −λ∗STSd∗. Como d∗ ´e solu¸c˜ao do problema, m(d) ≥
m(d∗), para todo d tal que kSdk ≤ ∆, em particular, para d tal que kSdk = ∆. Ent˜ao
temos que ∇m(d∗)T(d − d∗) = −λ∗dT∗STS(d − d∗) = λ∗(∆2− dT∗STSd) = λ∗ 1 2(d T ∗STSd∗+ d T STSd) − dT∗STSd = λ∗ 2 (d − d∗) TSTS(d − d ∗). (1.17)
Como m ´e quadr´atica, temos que sua aproxima¸c˜ao de segunda ordem ´e
m(d) = m(d∗) + ∇m(d∗)T(d − d∗) + 1 2(d − d∗) T B(d − d∗). Por (1.17) temos m(d) = m(d∗) + 1 2(d − d∗) T(B + λ ∗STS)(d − d∗).
Como m(d) − m(d∗) ≥ 0, segue que
1
2(d − d∗)
T(B + λ
∗STS)(d − d∗) ≥ 0. (1.18)
Por outro lado, pelas condi¸c˜oes de segunda ordem sobre a Lagrangeana do problema (Teorema 1.13), temos que ∇2
dL(d∗, λ∗) = B + λ∗STS ´e semidefinida positiva no n´ucleo
de ∇r(d∗) = STSd∗, ou seja, zT(B + λ∗STS)z ≥ 0 para todo z ∈ Rn tal que zTSTSd∗ =
0. Assim, basta mostrar a semipositividade para v ∈ Rn\ {0} tal que vTSTSd ∗ 6= 0.
Consideremos a reta Sd∗ + ξSv, com ξ ∈ R. Dado que (Sv)T(Sd)∗ 6= 0, tal reta ir´a
interceptar a esfera de raio ∆ em dois pontos. De fato, a equa¸c˜ao
kSd∗+ ξSvk2 = ∆2
tem solu¸c˜ao em ξ = 0 com p = Sd∗, e para ξ 6= 0, temos que
kSd∗k2+ 2ξ(Sd∗)TSv + ξ2(Sv)TSv − ∆2 = 0,
e por hip´otese kSd∗k = ∆2 e ξ 6= 0, ent˜ao
ξ = −2(Sd∗)
TSv
(Sv)T(Sv),
estando bem definido e sendo diferente de zero, pois vTSTSd∗ 6= 0. Nomeando tal ξ por ξ,
com p = Sd∗+ ξSv, e denominando d = d∗+ ξv, temos que kSdk = ∆. Logo, substituindo
d − d∗ = ξv em (1.18) nos da
1 2(ξ)
2vT(B + λ
∗STS)v ≥ 0
provando assim o desejado.
O problema apresentado em (1.12) ´e um caso particular em que S = I. Na pr´atica, nem sempre ´e poss´ıvel obter a solu¸c˜ao exata para o subproblema (1.12), por´em ´e poss´ıvel tomar uma solu¸c˜ao aproximada e ainda assim obter a convergˆencia do m´etodo. As solu¸c˜oes que possibilitam essa convergˆencia est˜ao fortemente associadas `a dire¸c˜ao de Cauchy, atrav´es de uma rela¸c˜ao que veremos a seguir. Por sua vez, o passo de Cauchy ´e dado por
dck = −αk∇f (xk), (1.19)
onde αk> 0 ´e a solu¸c˜ao do problema
min mk(−α∇f (xk)) = f (xk) − αk∇f (xk)k2+12α2∇f (xk)Bk∇f (xk)
s.a kα∇f (xk)k ≤ ∆k
Assim, podemos resolver o problema unidimensional (1.20), encontrando uma aproxima¸c˜ao para solu¸c˜ao de (1.12). Podemos estimar a redu¸c˜ao obtida no modelo quadr´atico atrav´es do uso da dire¸c˜ao de Cauchy, como veremos no seguinte lema.
Lema 1.3. O passo de Cauchy, definido em (1.19), satisfaz
mk(0) − mk(dck) ≥ 1 2k∇f (xk)kmin ∆k, k∇f (xk)k kBkk . (1.21) :
Demonstra¸c˜ao. [21, Lema 5.36].
Como j´a dissemos, para que haja a convergˆencia do M´etodo de Regi˜ao de Confian¸ca, n˜ao ´e necess´ario que tomemos o minimizador exato do problema (1.12), mas sim uma aproxima¸c˜ao que satisfa¸ca algumas propriedades. Efetivamente, se a dire¸c˜ao de mini-miza¸c˜ao obtida proporciona uma redu¸c˜ao do modelo proporcional `a apresentada no Lema 1.3, j´a ´e poss´ıvel obter a convergˆencia do m´etodo. Apresentemos agora o algoritmo do M´etodo de Regi˜ao de Confian¸ca.
Algoritmo 4 : M´etodo de Regi˜ao de Confian¸ca Dados x0 ∈ Rn, ∆0 > 0 e η ∈ [0,14), defina k = 0.
Enquanto ∇f (xk) 6= 0
Obtenha dk, solu¸c˜ao aproximada de (1.12).
Calcule ρk usando (1.13). se ρk > η xk+1 = xk+ dk sen˜ao xk+1 = xk fim se ρk < 14 ∆k+1 = ∆2k sen˜ao se ρk > 34 e kdkk = ∆k ∆k+1 = 2∆k sen˜ao ∆k+1 = ∆k fim fim k = k + 1 Fim
Note que se o decr´escimo relativo for suficientemente grande, no nosso caso maior que
3
4, e se kdkk = ∆k, temos um ind´ıcio de que poder´ıamos obter uma dire¸c˜ao de maior
decr´escimo fora da regi˜ao de confian¸ca. Por isso, neste caso aumentamos a regi˜ao para pr´oxima itera¸c˜ao. Vale salientar que os valores 14, 34, e as constantes de atualiza¸c˜ao da regi˜ao de confian¸ca, consideradas aqui por 12 para redu¸c˜ao e 2 para extens˜ao, podem ser
alterados sem comprometer a convergˆencia do m´etodo. Veremos no pr´oximo teorema as condi¸c˜oes que garantem tal convergˆencia.
Teorema 1.19. Consideremos o problema irrestrito (1.4), e que as seguintes hip´oteses sejam satisfeitas:
H1 A fun¸c˜ao objetivo f ´e de classe C1, com ∇f Lipschitz. H2 A solu¸c˜ao aproximada dk de (1.12) satisfaz
predk = mk(0) − mk(dk) ≥ c1k∇f (xk)kmin ∆k, k∇f (xk)k kBkk ,
onde c1 > 0 ´e uma constante.
H3 O passo dk satisfaz kdkk ≤ γ∆k, para alguma constante γ ≥ 1.
H4 As Hessianas Bk s˜ao uniformemente limitadas, isto ´e, existe uma constante β > 0
tal que kBkk ≤ β para todo k ∈ N.
H5 A fun¸c˜ao f ´e limitada inferiormente no conjunto de n´ıvel
N = {x ∈ Rn|f (x) ≤ f (x0)}.
Desta forma, seja (xk) a sequˆencia gerada pelo algoritmo do m´etodo de regi˜ao de confian¸ca.
Segue que
lim inf
k→+∞ k∇f (xk)k = 0.
Al´em disso, se η > 0 temos que
∇f (xk) → 0.
Introdu¸
c˜
ao ao problema de
quadrados m´ınimos
Veremos ao longo deste cap´ıtulo conceitos introdut´orios acerca do problema de qua-drados m´ınimos. A primeira se¸c˜ao trata da resolu¸c˜ao de sistemas lineares que admitem ou n˜ao solu¸c˜ao exata. A segunda se¸c˜ao foca-se na introdu¸c˜ao do problema de quadrados m´ınimos n˜ao linear, abrangendo os m´etodos de Newton e de Gauss-Newton.
2.1
O problema de quadrados m´ınimos linear
Consideremos o sistema linear (1.1), isto ´e,
Ax = b,
onde A ∈ Rm×n, x ∈ Rn e b ∈ Rm. Temos que o espa¸co das colunas de A, Im(A), ´e dado por
Im(A) = {Ax : x ∈ Rn} , isto ´e,
Im(A) = span{A1, A2, . . . , An},
onde Ai representa a coluna i de A, i = 1, . . . , n. Desta forma, o sistema (1.1) admitir´a
solu¸c˜ao caso b ∈ span{A1, A2, . . . , An}. Uma interpreta¸c˜ao geom´etrica deste caso ´e dada
a seguir.
Figura 2.1: Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b ∈ Im(A).
No caso em que b 6∈ span{A1, A2, . . . , An}, o sistema (1.1) n˜ao tem solu¸c˜ao. Desta
forma, ´e de nosso interesse encontrar um ponto x tal que a distˆancia entre Ax e b seja m´ınima, relativamente `a norma-2, como podemos ver ilustrado na pr´oxima figura.
Figura 2.2: Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b 6∈ Im(A).
Matematicamente, queremos resolver o problema
min