• Nenhum resultado encontrado

UNIVERSIDADE FEDERAL DO PARANÁ Kléber Aderaldo Benatti. O Método de Levenberg-Marquardt para o Problema de Quadrados Mínimos não Linear

N/A
N/A
Protected

Academic year: 2021

Share "UNIVERSIDADE FEDERAL DO PARANÁ Kléber Aderaldo Benatti. O Método de Levenberg-Marquardt para o Problema de Quadrados Mínimos não Linear"

Copied!
108
0
0

Texto

(1)

Kl´

eber Aderaldo Benatti

O M´

etodo de Levenberg-Marquardt

para o Problema de Quadrados

M´ınimos n˜

ao Linear

Curitiba

2017

(2)

Kl´

eber Aderaldo Benatti

O M´

etodo de Levenberg-Marquardt

para o Problema de Quadrados

M´ınimos n˜

ao Linear

Disserta¸c˜ao apresentada como requisito par-cial `a obten¸c˜ao do grau de Mestre em Ma-tem´atica, no Programa de P´os-Gradua¸c˜ao em Matem´atica, Setor de Ciˆencias Exatas, Universidade Federal do Paran´a.

Orientador: Ademir Alves Ribeiro.

Curitiba

2017

(3)
(4)
(5)
(6)
(7)

Dedico meus sinceros agradecimentos `aqueles que muito me ajudaram para concluir este trabalho. Com certeza essas pessoas tornaram a realiza¸c˜ao deste trabalho uma tarefa poss´ıvel.

A Deus, respons´avel por todas as minhas vit´orias, e portanto digno da honra que elas detˆem.

`

A minha esposa, Natalha Cristina da Cruz Machado Benatti, por todo aux´ılio e com-preens˜ao durante este per´ıodo.

Aos meus familiares, e em particular aos meus pais, Claudemir Po¸cas Benatti e Apa-recida Cilaine Aderaldo Benatti, que sempre me impulsionaram a buscar o melhor em minha vida.

Ao meu orientador, professor Ademir Alves Ribeiro, por aceitar orientar-me, e por todo auxilio prestado a mim durante a confec¸c˜ao desta disserta¸c˜ao.

Aos integrantes da minha banca, e em particular ao professor Lucas Garcia Pedroso, por toda paciˆencia e dedica¸c˜ao em prestar ajuda nos momentos em que necessitei.

Aos meus amigos, e em particular aos amigos do Programa de P´os-Gradua¸c˜ao em Matem´atica, por tornarem tal ambiente mais agrad´avel e descontra´ıdo.

Ao PPGM e `a UFPR, pela oportunidade que me foi dada. `

(8)
(9)

Nesta disserta¸c˜ao, apresentamos uma revis˜ao de conceitos acerca do m´etodo de Levenberg-Marquardt, utilizado para o problema de quadrados m´ınimos n˜ao linear. Al´em da abordagem cl´assica do m´etodo, constam neste traba-lho duas contribui¸c˜oes por n´os estabelecidas. A primeira contribui¸c˜ao ´e a sugest˜ao de um novo parˆametro de damping, ou parˆametro de Levenberg-Marquardt, que est´a diretamente ligado ao desempenho do m´etodo. A segunda contribui¸c˜ao estabelece uma nova maneira de resolu¸c˜ao do sub-problema relacionado ao m´etodo para problemas mal escalados, utilizando decomposi¸c˜oes matriciais pautadas em dire¸c˜oes conjugadas.

Palavras-chave: Quadrados M´ınimos N˜ao Linear, Levenberg-Marquardt, Parˆametros de damping, Problemas mal escalados.

Abstract

In this work, we present a review about the Levenberg-Marquardt method, used for the Nonlinear Least Square Pro-blem. In addition to the classical approach of the method, two contributions are made by us. The first contribution is the sugges-tion of a new damping parameter, or Levenberg-Marquardt parameter, that is directly linked to the performance of the method. The second contribution establishes a new approach to solve the subproblem related to the Levenberg-Marquardt method for bad scaled problems, using matrix decompositions based on Conjugated Gradients.

Keywords: Nonlinear Least Squares Problem, Levenberg-Marquardt, Dam-ping parameter, Bad scaled problems.

(10)

1.1 Interpreta¸c˜ao geom´etrica de uma matriz de rota¸c˜ao no R2. . . . 22

1.2 Caso em que o M´etodo de Newton para zero de fun¸c˜oes falha. . . 41

1.3 M´etodo de Regi˜ao de Confian¸ca. . . 42

2.1 Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b ∈ Im(A). . . 50

2.2 Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b 6∈ Im(A). . . 50

2.3 Interpreta¸c˜ao geom´etrica de quadrados m´ınimos aplicados `a regress˜ao. . . . 52

2.4 Ajuste de pontos por uma quadr´atica. . . 53

3.1 Perfil de desempenho dos parˆametros P1-P7 de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de eficiˆencia. . . 67

3.2 Perfil de desempenho dos parˆametros P1-P7 de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de robustez. . . 68

3.3 Perfil de desempenho dos parˆametros P1-P7 de Levenberg-Marquardt em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de eficiˆencia. . . 68

3.4 Perfil de desempenho dos parˆametros P1-P7 de Levenberg-Marquardt em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de robustez. . . 69

3.5 Perfil de desempenho geral dos parˆametros de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de eficiˆencia. . . 70

3.6 Perfil de desempenho geral dos parˆametros de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de robustez. . . 70

3.7 Perfil de desempenho geral dos parˆametros de Levenberg-Marquardt em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de eficiˆencia. . . 71

3.8 Perfil de desempenho geral dos parˆametros de Levenberg-Marquardt em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de robustez. . . 71

3.9 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do tempo. Escala de eficiˆencia. . . 95

3.10 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do tempo. Escala de robustez. . . 96

3.11 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de eficiˆencia. . . 96

(11)

3.12 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do n´umero de itera¸c˜oes. Escala de robustez. . . 97

(12)

Introdu¸c˜ao 12

1 Conceitos introdut´orios 14

1.1 Elementos de ´Algebra Linear . . . 14

1.1.1 Decomposi¸c˜ao LU . . . 14

1.1.2 Decomposi¸c˜ao de Cholesky . . . 16

1.1.3 Decomposi¸c˜ao QR . . . 18

1.1.4 Decomposi¸c˜ao em dire¸c˜oes conjugadas . . . 27

1.2 Elementos de Otimiza¸c˜ao . . . 31

1.2.1 Condi¸c˜oes de otimalidade para problemas sem restri¸c˜oes . . . 31

1.2.2 Condi¸c˜oes de otimalidade para problemas com restri¸c˜oes . . . 34

1.2.3 M´etodo do gradiente . . . 36

1.2.4 M´etodo de Newton . . . 38

1.2.5 M´etodo de Newton para zeros de fun¸c˜oes . . . 39

1.2.6 M´etodo de regi˜ao de confian¸ca . . . 42

2 Introdu¸c˜ao ao problema de quadrados m´ınimos 49 2.1 O problema de quadrados m´ınimos linear . . . 49

2.2 O problema de quadrados m´ınimos n˜ao linear . . . 53

2.2.1 M´etodo de Newton . . . 55

2.2.2 M´etodo de Gauss-Newton . . . 56

3 M´etodo de Levenberg-Marquardt 59 3.1 Escolha do parˆametro de Levenberg-Marquardt . . . 60

3.1.1 Experimentos num´ericos . . . 67

3.2 Levenberg-Marquardt e o m´etodo de regi˜ao de confian¸ca . . . 72

3.2.1 Caracteriza¸c˜ao do subproblema de quadrados m´ınimos . . . 73

3.2.2 A raiz da equa¸c˜ao secular . . . 75

3.2.3 Monitoramento da regi˜ao de confian¸ca . . . 80

3.3 M´etodo de Levenberg-Marquardt sem derivadas . . . 84

3.4 Escalamento no m´etodo de Levenberg-Marquardt . . . 86

(13)

Conclus˜ao e trabalhos futuros 98

Apˆendice 100

(14)

A modelagem de problemas atrav´es de equa¸c˜oes ´e comumente utilizada em ciˆencias experimentais, como a F´ısica, Biologia, Economia, entre outras. Por isso, ´e importante o desenvolvimento da teoria matem´atica para tratamento desses sistemas. Um caso parti-cular de tais sistemas ´e o linear, onde dada uma matriz A ∈ Rm×n e um vetor b ∈ Rm

nosso objetivo ´e encontrar x ∈ Rn tal que

Ax = b.

Apesar da grande aplicabilidade desses modelos a problemas reais, h´a casos que n˜ao podem ser tratados a partir de modelos lineares. Nesses casos, podemos considerar a fun¸c˜ao R : Rn→ Rm, sendo nosso objetivo a busca por x ∈ Rn tal que

R(x) = 0.

Ao decorrer de todo trabalho, denotaremos por k . k a norma-2, k . k2. Considerando a

hip´otese de n˜ao haver solu¸c˜ao para o sistema acima, o objetivo central de nosso trabalho ´e solucionar o problema min x∈Rn 1 2kR(x)k 2 , denominado problema de quadrados m´ınimos n˜ao linear.

Antes da abordagem desse problema, que vem a ser o foco central do trabalho, estabe-leceremos no primeiro cap´ıtulo uma revis˜ao de conceitos b´asicos de Otimiza¸c˜ao e ´Algebra Linear, que ser˜ao utilizados ao longo dos demais cap´ıtulos.

O segundo cap´ıtulo tr´as uma introdu¸c˜ao ao problema de quadrados m´ınimos, abran-gendo primeiramente o caso linear, e em segundo momento o caso n˜ao linear, apresentando os m´etodos de Newton e Gauss-Newton.

O terceiro cap´ıtulo deste trabalho ser´a dividido em quatro se¸c˜oes, abrangendo o m´etodo de Levenberg-Marquardt. Desenvolvido por Levenberg [11], e aprimorado por Marquardt [13], tal m´etodo mant´em o baixo custo computacional do m´etodo de Gauss-Newton, por´em o supera relativamente `a boa defini¸c˜ao de seus iterandos, que est˜ao sempre bem definidos independentemente do problema.

O m´etodo de Levenberg-Marquardt est´a intimamente ligado `a escolha de um parˆametro λ, denominado parˆametro de damping, ou parˆametro de Levenberg-Marquardt, o qual ser´a

(15)

um dos objetos de nosso estudo na primeira se¸c˜ao do terceiro cap´ıtulo. Al´em de discorrer acerca dos parˆametros da literatura, exporemos a primeira de nossas contribui¸c˜oes, a apre-senta¸c˜ao de um novo parˆametro, comparando-o computacionalmente com os parˆametros j´a existentes.

A segunda se¸c˜ao do terceiro cap´ıtulo traz uma revis˜ao do m´etodo de Levenberg-Marquardt visto como um m´etodo de regi˜ao de confian¸ca, sendo tal abordagem feita por [15] e revisitada por [8].

A terceira se¸c˜ao do terceiro cap´ıtulo aborda de maneira superficial o m´etodo de Levenberg-Marquardt sem derivadas, utilizando o m´etodo de diferen¸cas finitas, tratado em [2]. Nessa se¸c˜ao veremos que a utiliza¸c˜ao de diferen¸cas finitas mant´em as propriedades de convergˆencia, sob determinadas hip´oteses.

A quarta e ´ultima se¸c˜ao do terceiro cap´ıtulo trata do m´etodo de Levenberg-Marquardt para problemas mal-escalados. No primeiro momento abordaremos uma t´ecnica criada por Zhou e Si [28], que utiliza decomposi¸c˜oes matriciais para resolver o sistema de Levenberg-Marquardt para problemas mal-escalados de maneira mais eficaz. Ap´os essa abordagem, utilizando ideias an´alogas `as de Zhou e Si, introduziremos uma proposta de resolu¸c˜ao do mesmo problema, por´em utilizando a decomposi¸c˜ao matricial exposta por [27], pautada em dire¸c˜oes conjugadas. Sendo essa nossa segunda contribui¸c˜ao para o trabalho, traremos tamb´em os experimentos num´ericos comparando algumas t´ecnicas existentes na literatura com nossa proposta de extens˜ao.

(16)

Conceitos introdut´

orios

Neste cap´ıtulo apresentaremos defini¸c˜oes e resultados cl´assicos que ser˜ao utilizados ao longo do nosso trabalho. A primeira se¸c˜ao concentra-se em apresentar decomposi¸c˜oes matriciais cl´assicas, como a decomposi¸c˜ao LU, de Cholesky e QR. Na segunda se¸c˜ao abordaremos conceitos b´asicos de Otimiza¸c˜ao, como as condi¸c˜oes de otimalidade de 1a e 2a ordem para fun¸c˜oes com e sem restri¸c˜oes, al´em de alguns m´etodos de minimiza¸c˜ao irrestrita e obten¸c˜ao de zeros de fun¸c˜oes.

1.1

Elementos de ´

Algebra Linear

A ´Algebra Linear ´e uma ´area muito importante da Matem´atica, estabelecendo ferra-mentas para a maioria das outras ´areas. Tendo surgido do estudo detalhado de sistemas de equa¸c˜oes lineares, utiliza conceitos e estruturas fundamentais da Matem´atica como ve-tores, espa¸cos vetoriais, transforma¸c˜oes lineares e matrizes. Nesta se¸c˜ao apresentaremos resultados cl´assicos desta ´area, focando nosso estudo nas decomposi¸c˜oes matriciais, as quais ser˜ao utilizadas nos cap´ıtulos posteriores.

Um dos objetos de estudo da ´Algebra Linear ´e a solu¸c˜ao de sistemas lineares, isto ´e, dada uma matriz A ∈ Rm×n de posto n e um vetor b ∈ Rm, o objetivo ´e encontrar um vetor x ∈ Rn tal que

Ax = b. (1.1)

Em problemas de larga escala ou quando a estrutura da matriz A ´e muito complexa podemos ter dificuldades na solu¸c˜ao do sistema, tornando a busca por estrat´egias para facilitar a resolu¸c˜ao deste problema um objeto de estudo muito amplo. Uma possibilidade ´e a utiliza¸c˜ao das decomposi¸c˜oes matriciais, onde a matriz A ´e reescrita geralmente como a multiplica¸c˜ao de outras matrizes de estrutura mais simples ou de mais f´acil manuseio.

1.1.1

Decomposi¸

ao LU

Os pr´oximos resultados s˜ao v´alidos para o caso em que a matriz A ´e quadrada. Uma das decomposi¸c˜oes mais cl´assicas ´e a LU, onde dada matriz A ∈ Rn×n, podemos reescrevˆ

(17)

la como

A = LU,

onde L ∈ Rn×n ´e uma matriz triangular inferior com diagonal unit´aria e U ∈ Rn×n ´e

triangular superior. O pr´oximo teorema exp˜oe condi¸c˜oes para existˆencia e unicidade da decomposi¸c˜ao LU de determinada matriz.

Teorema 1.1. Uma matriz A ∈ Rn×n tem decomposi¸ao LU se o determinante dos

menores principais de dimens˜ao at´e n−1 s˜ao n˜ao nulos, isto ´e, det(A(1 : k, 1 : k)) 6= 0 para k = 1, ..., n − 1. Se a decomposi¸c˜ao LU existe e A ´e n˜ao singular, ent˜ao a decomposi¸c˜ao ´e ´unica.

Demonstra¸c˜ao. [9, Teorema 3.2.1].

Utilizando a decomposi¸c˜ao A = LU , ´e poss´ıvel resolver o sistema linear apresentado em (1.1) atrav´es de dois sistemas triangulares, dados por

Lz = b; U x = z.

Nos casos onde n˜ao ´e poss´ıvel obter a decomposi¸c˜ao A = LU , podemos enfraquecer as hip´oteses adicionando a estrat´egia de pivoteamento parcial. Lembrando que uma matriz de permuta¸c˜ao P ´e originada atrav´es da permuta¸c˜ao de linhas ou colunas da matriz identidade. O teorema a seguir mostra a existˆencia e unicidade da decomposi¸c˜ao LU utilizando a estrat´egia de pivoteamento.

Teorema 1.2. Seja A ∈ Rn×n uma matriz n˜ao singular. Ent˜ao existe uma matriz de

permuta¸c˜ao P ∈ Rn×n onde

P A = LU.

Al´em disso, a decomposi¸c˜ao LU da matriz A∗ = P A = LU ´e ´unica. Demonstra¸c˜ao. [23, Teorema 5.4].

Desta forma, podemos resolver o sistema apresentado em (1.1) multiplicando-o por P em ambos os lados, obtendo

LU x = P Ax = P b e resolvendo os dois sistemas triangulares

Lz = P b; U x = z.

H´a outras adapta¸c˜oes para decomposi¸c˜ao LU de uma matriz, estendendo-as para ma-trizes n˜ao quadradas. Al´em disso, pode-se usar a estrat´egia de pivoteamento total. Para

(18)

mais informa¸c˜oes acerca destas abordagens, verifique [9]. Para nossos estudos nos focare-mos na decomposi¸c˜ao LU de matrizes quadradas.

Caso a decomposi¸c˜ao A = LU exista para uma dada matriz A ∈ Rn×n n˜ao singular, ainda ´e poss´ıvel apresentar outra decomposi¸c˜ao, na qual

A = LDV,

onde L ∈ Rn×n ´e uma matriz triangular inferior com diagonal unit´aria, D ∈ Rn×n ´e uma matriz diagonal e V ∈ Rn×n´e triangular superior com diagonal unit´aria. Tal decomposi¸c˜ao ´e originada a partir da decomposi¸c˜ao LU, onde tomamos D = diag(u11, u22, ..., unn), sendo

uii o elemento situado na posi¸c˜ao (i, i) de U , i = 1, ..., n, e V = D−1U . Note que

det(A) = u11.u22. . . . .unn. Ent˜ao a matriz D tem inversa, pois A ´e n˜ao singular.

1.1.2

Decomposi¸

ao de Cholesky

Nesta subse¸c˜ao, abordaremos as decomposi¸c˜oes que exploram a simetria da matriz a ser decomposta. Consideraremos no pr´oximo teorema um caso particular da decom-posi¸c˜ao A = LDV onde a matriz A ´e sim´etrica.

Teorema 1.3. Seja uma matriz sim´etrica tal que os determinantes de todos menores principais sejam n˜ao nulos. Ent˜ao A pode ser decomposta de maneira ´unica como

A = LDLT.

Demonstra¸c˜ao. [25, Teorema 1.7.30]. ´

E poss´ıvel provar que para A definida positiva, isto ´e,

xTAx > 0 ∀x ∈ Rn\ {0},

obtemos a decomposi¸c˜ao expressa acima, por´em com D uma matriz diagonal de ele-mentos estritamente positivos. A partir desta decomposi¸c˜ao, ´e poss´ıvel tomar D12 =

diag(√d11, √ d22, . . . , √ dnn), obtendo A = LDLT = LD12D 1 2LT = LD12D 1 2 T LT = (LD12)(LD 1 2)T = RTR,

onde R = (LD12)T ´e uma matriz triangular superior de diagonal estritamente positiva.

Esta decomposi¸c˜ao ´e chamada decomposi¸c˜ao de Cholesky. A existˆencia de tal decom-posi¸c˜ao estabelece uma equivalˆencia com o fato de A ser sim´etrica e definida positiva. Uma das implica¸c˜oes j´a foi estabelecida quando provamos que uma matriz A sim´etrica e

(19)

definida positiva pode ser decomposta em A = RTR. Apresentemos a rec´ıproca de tal afirma¸c˜ao no pr´oximo teorema.

Lema 1.1. Se A ∈ Rn×n pode ser decomposta em A = RTR, com R n˜ao singular, ent˜ao A ´e sim´etrica definida positiva.

Demonstra¸c˜ao. Consideremos A decomposta em A = RTR. Pela estrutura de A ´e trivial que tal matriz ´e sim´etrica. Relativamente `a sua positividade, temos que para todo x ∈ Rn\ {0}

xTAx = xTRTRx = (Rx)T(Rx) = kRxk2 ≥ 0,

e como R ´e invers´ıvel, Rx 6= 0 para todo x ∈ Rn\{0}, e portanto xTAx > 0, caracterizando

A como definida positiva.

Agora veremos decomposi¸c˜oes similares `as apresentadas nesta subse¸c˜ao, por´em para uma matriz semidefinida positiva. Tais decomposi¸c˜oes n˜ao s˜ao consideradas cl´assicas como as que foram apresentadas at´e ent˜ao, mas ser˜ao de grande utilidade em nosso es-tudo posterior.

Primeiramente, consideremos a decomposi¸c˜ao proposta por Higham [10], Teorema 10.9, que afirma que dada matriz sim´etrica semidefinida positiva A de posto r, existe uma matriz de permuta¸c˜ao P ∈ Rn×n tal que

PTAP = RTR,

onde R ∈ Rn×n tem a parti¸c˜ao

R = R1 R2 0 0

!

em que R1 ∈ Rr×r ´e uma matriz triangular superior com elementos positivos na diagonal

e R2 ∈ Rn×(n−r). A partir deste teorema, podemos construir a decomposi¸c˜ao

PTAP = UTDU, (1.2)

onde P ∈ Rn×n ´e uma matriz de permuta¸c˜ao, U ∈ Rn×n ´e uma matriz triangular superior com diagonal unit´aria, D ∈ Rn×n ´e matriz diagonal de parti¸c˜ao

D = D1 0 0 0

! ,

onde D1 ∈ Rr×r ´e uma matriz diagonal de elementos positivos. De fato, consideremos

(20)

positivo. Sejam as matrizes U1 ∈ Rr×r e U2 ∈ Rr×(n−r) satisfazendo R1 = D 1 2 1U1 R2 = D 1 2 1U2.

Al´em disso, seja U3 a matriz identidade de dimens˜ao (n − r) × (n − r). Assim, temos que

se U = U1 U2 0 U3 ! , ent˜ao UTDU = U1 U2 0 U3 !T D1 0 0 0 ! U1 U2 0 U3 ! = U T 1 0 U2T U3T ! D1 0 0 0 ! U1 U2 0 U3 ! = U T 1D1U1 U1TD1U2 UT 2D1U1 U2TD1U2 ! = U T 1D 1 2 1D 1 2 1U1 U1TD 1 2 1D 1 2 1U2 U2TD 1 2 1D 1 2 1U1 U2TD 1 2 1D 1 2 1U2 !

Como D1 ´e matriz diagonal, coincide com sua transposta, e portanto

UTDU = U T 1 (D 1 2 1)TD 1 2 1U1 U1T(D 1 2 1)TD 1 2 1U2 UT 2 (D 1 2 1)TD 1 2 1U1 U2T(D 1 2 1)TD 1 2 1U2 ! = (D 1 2 1U1)TD 1 2 1U1 (D 1 2 1U1)TD 1 2 1U2 (D 1 2 1U2)TD 1 2 1U1 (D 1 2 1U2)TD 1 2 1U2 ! = R T 1R1 R1TR2 RT 2R1 R2TR2 ! = R1 R2 0 0 !T R1 R2 0 0 ! = RTR = PTAP

provando assim a decomposi¸c˜ao desejada.

1.1.3

Decomposi¸

ao QR

Dada uma matriz A ∈ Rm×n, abordaremos nesta subse¸c˜ao a decomposi¸c˜ao

(21)

onde Q ∈ Rm×m´e uma matriz ortogonal e R ∈ Rm×n´e triangular superior. O interesse em construir uma decomposi¸c˜ao pautada em matrizes ortogonais ´e a facilidade da resolu¸c˜ao de sistemas lineares, j´a que considerando a decomposi¸c˜ao acima para o sistema (1.1) temos que

QRx = b Rx = QTb,

isto ´e, basta-nos fazer uma multiplica¸c˜ao matriz-vetor e resolver um sistema triangular. Al´em disso, temos o conhecimento de v´arias informa¸c˜oes associadas a uma matriz orto-gonal, como por exemplo sua norma, kQk2 = 1, seu determinante, det(Q) = ±1 e seu

raio espectral, ρ(Q) = 1, sendo estes sua norma-2, seu determinante e seu raio espectral, respectivamente. Iremos expor trˆes formas cl´assicas para obten¸c˜ao desta decomposi¸c˜ao, sendo elas as transforma¸c˜oes de Householder, as rota¸c˜oes de Givens e o processo de orto-gonaliza¸c˜ao de Gram-Schmidt.

Transforma¸c˜oes de Householder

Primeiramente, temos que uma transforma¸c˜ao de Householder ´e uma matriz que pode ser escrita na forma

P = I − 2vv

T

vTv,

com I ∈ Rn×n a matriz identidade e v ∈ Rn \ {0}. Note que al´em de sim´etrica, uma transforma¸c˜ao de Householder ´e uma matriz ortogonal. De fato,

PTP =  I − 2vv T vTv T  I − 2vv T vTv  =  I − 2vv T vTv   I − 2vv T vTv  = I − 2vv T vTv − 2 vvT vTv + 4 vvTvvT (vTv)2 = I .

Nosso objetivo ´e, dado um x ∈ Rn, encontrar um vetor v para o qual

P x = ±kxke1,

onde e1 ´e o vetor da base canˆonica

h

1 0 . . . 0 iT

. O seguinte teorema ser´a utilizado na constru¸c˜ao de tal vetor v.

Teorema 1.4. Seja x ∈ Rn, y ∈ Rn tal que kyk = 1, v = x − kxky e P = I − 2vvT

(22)

matriz de Householder. Nestas condi¸c˜oes temos que

P x = kxky.

Demonstra¸c˜ao. Temos que

P x =  I − 2vv T vTv  x = x − 2(v Tx)v vTv = x − 2(x − kxky) Tx(x − kxky) (x − kxky)T(x − kxky) = x − 2(x Tx − kxkyTx)(x − kxky) (x − kxky)T(x − kxky) = x − 2 (x Tx − kxkyTx)(x − kxky) xTx − kxkxTy − kxkyTx + kxk2kyk2

e como kyk = 1 temos

P x = x − 2(x

Tx − kxkyTx)(x − kxky)

2(xTx − kxkyTx)

= x − (x − kxky) = kxky.

Atrav´es deste teorema, podemos tomar y = ±e1, obtendo a matriz de Householder

nas condi¸c˜oes desejadas.

Uma observa¸c˜ao importante ´e que se x ≈ P x = kxke1 pode ocorrer, em aritm´etica de

ponto flutuante, que v = x − kxke1 = 0. Neste caso, escolhemos v tal que P x = −kxke1,

sendo tal vetor v = x + kxke1. Para contemplar esses dois casos, podemos considerar

sempre v = x + sign(x1)kxke1, sendo poss´ıvel provar que este vetor cumpre

kvk = max{kx − kxke1k, kx + kxke1k}.

Podemos ent˜ao utilizar as transforma¸c˜oes de Householder para calcular a decomposi¸c˜ao QR de uma matriz, como veremos a seguir.

Dada A ∈ Rm×n, nosso intuito ´e triangulariz´a-la a partir de transforma¸c˜oes ortogonais,

que em nosso caso ser˜ao as transforma¸c˜oes de Householder. Consideremos o vetor x = a1 como sendo a primeira coluna de A, criamos ent˜ao a transforma¸c˜ao de Householder

(23)

respectiva, P1, e portanto teremos

P1A =



ka1ke1 Ab1 

sendo bA1 o resultado da multiplica¸c˜ao entre P1 e as restantes colunas de A. No processo

de triangulariza¸c˜ao, tomando r11= ka1k podemos considerar a seguinte parti¸c˜ao

P1A =       r11 r12 . . . r1n 0 .. . 0 A2      

e aplicar o mesmo processo `a A2, tornando sua primeira coluna um m´ultiplo de e1 (vetor

canˆonico no espa¸co de dimens˜ao (m − 1)). Ou seja, considerar uma matriz de Householder P2 ∈ R(m−1)×(m−1) tal que P2A2 =       r22 r23 . . . r2n 0 .. . 0 A3       .

Para aplicar a matriz P2 diretamente a P1A, sem estragar a coluna j´a modificada,

multi-plicamos P1A pela matriz

Q2 =            1 0 · · · 0 0 .. . 0 P2            .

Seguindo este procedimento, temos ao final de n − 1 itera¸c˜oes a seguinte estrutura

In−2 0 0 Pn−1 ! ...               1 0 0 1 0 0 P3                          1 0 · · · 0 0 .. . 0 P2            P1A = R,

(24)

sendo In−2 a matriz identidade de R(n−2)×(n−2) e R triangular superior. Considerando

Q1 = P1, temos

Qn−1Qn−2...Q2Q1A = R.

´

E f´acil verificar que cada matriz Qi´e sim´etrica e ortogonal, i = 1, ..., n−1, uma vez que s˜ao

formadas por matrizes identidades e matrizes de Householder. Podemos assim denotar QT = Q

n−1Qn−2...Q2Q1, que ´e ortogonal por ser multiplica¸c˜ao de matrizes ortogonais,

obtendo ent˜ao a decomposi¸c˜ao

A = QR.

Rota¸c˜oes de Givens

Outra forma cl´assica de obter a decomposi¸c˜ao QR de uma matriz ´e atrav´es das Rota¸c˜oes de Givens, como veremos a seguir.

Considerando um vetor x ∈ R2, de coordenadas

x = " x1 x2 # ,

temos que a matriz de rota¸c˜ao

G = cos(θ) sen(θ) −sen(θ) cos(θ)

!

rotaciona x um ˆangulo de θ radianos no sentido hor´ario, como mostra a Figura 1.1.

Figura 1.1: Interpreta¸c˜ao geom´etrica de uma matriz de rota¸c˜ao no R2.

(25)

podemos criar uma matriz de rota¸c˜ao tal que Gx = " kxk 0 # .

Efetivamente, n˜ao ´e necess´ario que o ˆangulo θ seja calculado, mas sim os valores cos(θ) e sen(θ), dados por

cos(θ) = x1 px2 1+ x22 ; sen(θ) = x2 px2 1+ x22 .

Atrav´es desta motiva¸c˜ao, foram criadas as matrizes de rota¸c˜ao de Givens, como vere-mos na pr´oxima defini¸c˜ao.

Defini¸c˜ao 1.1. Uma matriz do tipo rota¸c˜ao de Givens ´e dada por

G(i, j, θ) = I − Y,

onde I ∈ Rm×m ´e a matriz identidade e Y ∈ Rm×m ´e uma matriz nula, exceto nas

coordenadas yii = yjj = 1 − cos(θ), yij = −sen(θ) = −yji, para algum ˆangulo θ. Isto ´e,

G(i, j, θ) ´e da forma i j G(i, j, θ) =                    1 0 1 . .. cos(θ) sen(θ) . .. −sen(θ) cos(θ) . .. 1 0 1                    i j

Agora, dado um vetor x ∈ Rm, e fixadas duas entradas de tal vetor, i e j, podemos

criar a matriz de rota¸c˜ao de Givens cujo valor de θ satisfaz

cos(θ) = q xi x2 i + x2j ; sen(θ) = q xj x2 i + x2j ,

(26)

obtemos assim G(i, j, θ)x =                      x1 x2 .. . xicos(θ) + xjsen(θ) xi+1 .. . −xisen(θ) + xjcos(θ) xj+1 .. . xm                      =                       x1 x2 .. . q x2 i + x2j xi+1 .. . 0 xj+1 .. . xm                       .

Nosso objetivo agora ´e abordar a utiliza¸c˜ao das matrizes de rota¸c˜ao de Givens na obten¸c˜ao da decomposi¸c˜ao QR de uma matriz. Para tal, consideremos A ∈ Rm×n, e seja

cos(θ11) = a11 pa2 11+ a221 ; sen(θ11) = a21 pa2 11+ a221 , obtendo portanto G1(1, 2, θ11)A =          pa2 11+ a221 0 a31 .. . am1 b A1         

Podemos assim construir sucessivas matrizes de Rota¸c˜ao de Givens, de forma que

G1(1, m, θm−11 )...G1(1, 3, θ21)G1(1, 2, θ11)A =            pa2 11+ · · · + a2n1 0 0 .. . 0 ea12 . . . ea1n A2           

Podemos a partir desta etapa proceder de maneira an´aloga ao que foi feito no caso das transforma¸c˜oes de Householder, aplicando as matrizes de Rota¸c˜ao de Givens a A2, e

(27)

considerando as matrizes no formato

1 0 0 G2

!

para que as dimens˜oes estejam em consonˆancia para multiplica¸c˜ao por A e de forma a n˜ao retirar os zeros que j´a foram estabelecidos. Procedendo assim de forma a reduzir a dimens˜ao das matrizes trabalhadas, ao final de m22−m multiplica¸c˜oes teremos

Im−2 0 0 Gm−1(m − 1, m, θ1m−1) ! Im−3 0 0 Gm−2(m − 2, m, θ2m−2) ! . . . . . . Im−3 0 0 Gm−2(m − 2, m − 1, θm−21 ) ! G1(1, m, θ1m−1)...G1(1, 2, θ11)A = R,

onde R ∈ Rm×n ´e triangular superior. Podemos ent˜ao denominar o conjunto de matrizes multiplicadas `a esquerda de A por QT, sendo tal matriz ortogonal, e portanto teremos a decomposi¸c˜ao

A = QR.

Note que as transforma¸c˜oes de Householder s˜ao mais complexas, por´em modificam coluna a coluna, enquanto que as Rota¸c˜oes de Givens s˜ao mais simples de serem cons-tru´ıdas, mas modificam elemento a elemento. ´E poss´ıvel construir a decomposi¸c˜ao QR de uma matriz mesclando ambas t´ecnicas, onde as colunas esparsas (com muitos zeros) s˜ao modificadas atrav´es das Rota¸c˜oes de Givens, e caso contr´ario s˜ao modificadas atrav´es das transforma¸c˜oes de Householder.

Processo de ortogonaliza¸c˜ao de Gram-Schmidt

Nesta subse¸c˜ao, discorreremos acerca de um m´etodo de ortogonaliza¸c˜ao de vetores, denominado processo de ortogonaliza¸c˜ao de Gram-Schmidt. Tal processo ser´a utilizado em seguida para decomposi¸c˜ao de uma matriz na forma QR j´a vista nas subse¸c˜oes anteriores. Defini¸c˜ao 1.2. Sejam x e y vetores de Rn, com x 6= 0. A proje¸ao ortogonal de y sobre

x ´e definida como o vetor

projxy = hx, yi kxk2 x.

Utilizando tal defini¸c˜ao, apresentemos agora o processo de ortogonaliza¸c˜ao de Gram-Schmidt.

Teorema 1.5. Sejam F um subespa¸co de Rn e {v

1, . . . , vk} uma base de F . Definamos

(28)

e em seguida, sucessivamente, u2 = v2− proju1v2 u3 = v3− proju1v3− proju2v3 .. . uk = vk− k−1 X i=1 projuivk.

Desta forma, temos que {u1, . . . , uk} ´e uma base ortogonal de F .

Demonstra¸c˜ao. [22, Teorema 5.20].

O teorema seguinte utiliza o processo de ortogonaliza¸c˜ao de Gram-Schmidt para cons-truir a decomposi¸c˜ao QR de uma matriz, como veremos agora.

Teorema 1.6. Se A ∈ Rm×n tem as colunas linearmente independentes, ent˜ao A pode

ser decomposta na forma A = QR, onde Q ∈ Rm×n tem colunas ortonormais e R ∈ Rn×n

´e uma matriz triangular superior n˜ao singular.

Demonstra¸c˜ao. Designemos as colunas de A por v1, . . . , vn, e designemos por u1, . . . , un

os vetores dois a dois ortogonais que se obt´em das colunas de A aplicando o processo de ortogonaliza¸c˜ao de Gram-Schmidt. Tais vetores est˜ao relacionados por

u1 = v1u2 = v2− α12u1 u3 = v3− α13u1− α23u2 .. . un = vn− n−1 X i=1 αinui.

onde αrs s˜ao certos n´umeros. Estas rela¸c˜oes podem ser escritas como

v1 = u1 v2 = α12u1+ u2 v3 = α13u1+ α23u2+ u3 .. . vn= α1nu1+ α2nu2+ · · · + αn−1,nun−1+ un.

(29)

Designando por U a matriz cujas colunas s˜ao u1, . . . , un, temos que A = U T , onde T =         1 α12 α13 . . . α1n 0 0 α23 . . . α2n 0 0 1 . . . α3n .. . ... ... . .. ... 0 0 0 . . . 1         .

Definamos agora D ∈ Rn×n como uma matriz diagonal de elementos ku1k, . . . , kunk.

Ent˜ao, temos que D ´e invers´ıvel. Al´em disso, Q = U D−1´e uma matriz ortogonal, R = DT ´e triangular superior n˜ao singular, e temos que

A = U T = U D−1DT = QR,

como quer´ıamos demonstrar.

1.1.4

Decomposi¸

ao em dire¸

oes conjugadas

O objetivo nesta subse¸c˜ao ´e apresentar a decomposi¸c˜ao de uma matriz semidefinida positiva, pautada em vetores dire¸c˜oes conjugadas, defini¸c˜ao que veremos a seguir. Vale salientar que a existˆencia de tal decomposi¸c˜ao est´a afirmada em [27], por´em sem demons-tra¸c˜ao e sem a abordagem de como conseguir os vetores A-conjugados de determinada matriz semidefinida positiva A ∈ Rn×n, sendo nosso objetivo explorar tais aspectos. Defini¸c˜ao 1.3. Seja A ∈ Rn×n uma matriz sim´etrica. Um conjunto {d

1, ..., dj} ´e dito

A-conjugado se dT

rAds= 0 se r 6= s e dTrAdr 6= 0, para todo 1 ≤ r, s ≤ j.

O pr´oximo Lema estabelece um fato simples de ´Algebra Linear, mas de sobremodo importante para o avan¸co de nossa teoria.

Lema 1.2. Seja A ∈ Rn×n sim´etrica semidefinida positiva, com posto(A) = k. Ent˜ao

dado v ∈ Im(A) \ {0}, tem-se que vTAv > 0.

Demonstra¸c˜ao. Segundo o Teorema Espectral [9], como A ´e sim´etrica, existe uma base ortonormal de Rn formada por autovetores de A. Seja {u

1, ..., uk, uk+1, ..., un} tal base, de

forma que os vetores u1, ..., uk s˜ao autovetores de A associados a autovalores n˜ao nulos,

e uk+1, ..., un autovetores associados ao autovalor 0. Desta forma, seja v ∈ Im(A), e

portanto existe b ∈ Rn tal que

(30)

Reescrevendo b segundo a base de autovetores temos v = Ab = A n X j=1 αjuj ! = n X j=1 αjAuj = k X j=1 αjAuj + n X j=k+1 αjAuj = k X j=1 αjλjuj = k X j=1 βjuj. (1.3)

com βj = αjλj. Isto prova que Im(A) ⊆ span{u1, ..., uk}.

Agora, reescrevendo v segundo (1.3) em vTAv temos

vTAv = ( k X j=1 βjuj)TA( k X j=1 βjuj) = ( k X j=1 βjuj)T( k X j=1 βjAuj) = ( k X j=1 βjuj)T( k X j=1 βjλjuj) = k X j=1 k X i=1 βjβiλiuTjui = k X j=1 βj2λjkujk2,

e como pelo menos um escalar βj 6= 0, e λj > 0 para todo j = 1, ..., k, temos que vTAv > 0,

como quer´ıamos demonstrar.

A partir deste lema, poderemos utilizar uma t´ecnica para criar vetores A-conjugados, a qual utilizaremos a seguir. Sejam v1, ...vk vetores de uma base para Im(A). Assim,

(31)

consideremos os seguintes vetores: p1 = v1; p2 = v2− pT1Av2 pT 1Ap1 p1; .. . pi = vi− i−1 X j=1 pT jAvi pT jApj pj i = 1, ..., k.

Note que o procedimento acima pode ser visto como uma generaliza¸c˜ao do processo de ortogonaliza¸c˜ao de Gram-Schmidt, m´etodo j´a estudado neste trabalho. Para todo i = 1, ..., k, pi ´e combina¸c˜ao linear dos vetores {v1, ..., vk}, e portanto pi ∈ Im(A). Assim,

para mostrar que pTiApi 6= 0, basta provar que pi 6= 0. De fato, temos que se

pi = vi− αi−1vi−1− · · · − α1v1 = 0,

ter´ıamos uma combina¸c˜ao linear n˜ao nula de v1, ..., vi gerando o vetor nulo, o que ´e uma

contradi¸c˜ao, j´a que v1, ..., vk s˜ao vetores linearmente independentes.

´

E f´acil verificar que para i fixo, os vetores pt, t = 1, ..., i − 1, satisfazem pTtApi = 0.

Tal demonstra¸c˜ao ´e feita por indu¸c˜ao forte em i. De fato, para i = 2, temos

pT1Ap2 = pT1A(v2− pT1Av2 pT 1Ap1 p1) = pT1Av2− pT1Ap1 pT1Av2 pT 1Ap1 = 0.

Assumindo a proposi¸c˜ao para 2, ..., i − 1 com i fixo, isto ´e, para 2 ≤ t, h ≤ i − 1 com t 6= h temos pT

tAph = 0, provaremos que a proposi¸c˜ao ´e v´alida para i. Seja t ∈ {1, ..., i − 1} fixo,

ent˜ao pTtApi = pTtA(vi− i−1 X h=1 pT hAvi pT hAph ph) = pTtAvi− i−1 X h=1 pT hAvi pT hAph pTtAph = pTtAvi− i−1 X h=1 ; h6=t pT hAvi pT hAph pTtAph− pT tAvi pT tApt pTtApt = pTtAvi− pT tAvi pT tApt pTtApt = 0

como quer´ıamos demonstrar.

(32)

e j ∈ {k + 1, ..., n} temos

pTi Apj = pTi0 = 0.

Al´em disso, p1, ...., pk, pk+1, ..., pn´e base Rn, e portanto a matriz

P = p1 . . . pk pk+1 . . . pn



´e n˜ao singular. Desta forma, obtemos a decomposi¸c˜ao matricial

PTAP = D,

onde

D = D1 0 0 0

!

com D1 ∈ Rk×k matriz diagonal, onde os elementos da diagonal s˜ao da forma dii = pTi Api.

De fato, consideremos a parti¸c˜ao

P = P1 P2



onde P1 ´e formada pelos vetores da base de Im(A) e P2 ´e formada pelos vetores da base

de N (A). Ent˜ao PTAP = P T 1 PT 2 ! AP1 P2  = P T 1 PT 2 !  AP1 AP2  ,

e como P2 ´e formada por vetores base de N (A), AP2 = 0. Ent˜ao

PTAP = P T 1 PT 2 !  AP1 0  = P T 1 AP1 0 PT 2 AP1 0 ! .

Agora, temos que

(33)

Al´em disso, reescrevendo o primeiro bloco da matriz temos P1TAP1 =       pT 1 pT 2 .. . pT k       Ap1 p2 . . . pk  =       pT 1Ap1 pT1Ap2 . . . pT1Apk pT 2Ap1 pT2Ap2 . . . pT2Apk .. . ... . .. ... pT kAp1 pTkAp2 . . . pTkApk       =       pT 1Ap1 0 . . . 0 0 pT 2Ap2 . . . 0 0 0 . .. 0 0 0 . . . pTkApk       ,

provando ent˜ao o desejado.

1.2

Elementos de Otimiza¸

ao

Na matem´atica, o termo Otimiza¸c˜ao refere-se ao estudo de problemas em que se busca minimizar ou maximizar uma fun¸c˜ao atrav´es da escolha de vari´aveis dentro de um conjunto vi´avel. O desenvolvimento deste campo matem´atico ´e de muito interesse, j´a que o mesmo tem grande aplicabilidade na resolu¸c˜ao de problemas reais. Grande parte dos teoremas apresentados nessa se¸c˜ao podem ser encontrados em [21], sendo alguns expostos aqui para maior facilidade de leitura e compreens˜ao dos t´opicos subsequentes.

Primeiramente, consideremos o seguinte problema de otimiza¸c˜ao

min f (x)

s.a x ∈ Ω , (1.4)

onde f : Rn → R ´e uma fun¸c˜ao arbitr´aria e Ω ⊆ Rn ´e denominado conjunto vi´avel.

Durante esta se¸c˜ao, exploraremos condi¸c˜oes necess´arias e suficientes para que um dado ponto x∗ seja solu¸c˜ao do problema (1.4), considerando os casos em que o conjunto vi´avel Ω compreende todo o espa¸co Rn, ou quando tal conjunto ´e um subconjunto pr´oprio de

Rn.

1.2.1

Condi¸

oes de otimalidade para problemas sem restri¸

oes

Para esta subse¸c˜ao, consideraremos o caso em que Ω = Rn, isto ´e, o problema (1.4) ´e

(34)

Defini¸c˜ao 1.4. Considere a fun¸c˜ao f : Rn → R e x∈ Ω ⊂ Rn. Dizemos que x∗ ´e um minimizador local de f em Ω quando existe δ > 0 tal que f (x∗) ≤ f (x), para todo x ∈ B(x∗, δ)R Ω.

O teorema a seguir estabelece uma condi¸c˜ao necess´aria para que um ponto seja mini-mizador de f , isto ´e, solu¸c˜ao do problema (1.4).

Teorema 1.7 (Condi¸c˜ao necess´aria de 1aordem). Seja f : Rn→ R diferenci´avel no ponto x∗. Se x∗ ´e um minimizador local de f , ent˜ao

∇f (x∗) = 0.

Demonstra¸c˜ao. Considere d ∈ Rn\ {0} arbitr´ario. Como x∗ ´e minimizador local, existe δ > 0 tal que

f (x∗) ≤ f (x∗+ td), (1.5) para todo t ∈ (0, δ). Pela expans˜ao de Taylor,

f (x∗+ td) = f (x∗) + t∇f (x∗)Td + r(t),

com lim

t→0 r(t)

t = 0. Usando (1.5) e dividindo por t obtemos

0 ≤ ∇f (x∗)Td + r(t) t .

Aplicando o limite quando t → 0, obtemos ∇f (x∗)Td ≥ 0. Se ∇f (x∗) n˜ao fosse nulo, poder´ıamos tomar d = −∇f (x∗), resultando em

k∇f (x∗)k2 = −∇f (x∗)Td ≤ 0,

o que ´e uma contradi¸c˜ao. Logo, ∇f (x∗) = 0.

Denominaremos os pontos x ∈ Rn que cumprem ∇f (x) = 0 por pontos cr´ıticos ou

estacion´arios de f . Vale salientar que nem todo ponto estacion´ario ´e um minimizador local de f , isto ´e, a rec´ıproca do teorema acima n˜ao ´e v´alida.

Avan¸cando na caracteriza¸c˜ao dos minimizadores de f , apresentemos no pr´oximo teo-rema a condi¸c˜ao necess´aria de 2a ordem para minimizadores.

Teorema 1.8 (Condi¸c˜ao necess´aria de 2a ordem). Seja f : Rn → R duas vezes dife-renci´avel no ponto x∗. Se x∗ ´e um minimizador local de f , ent˜ao a matriz Hessiana de f no ponto x∗ ´e semidefinida positiva, isto ´e,

dT∇2f (x

(35)

para todo d ∈ Rn.

Demonstra¸c˜ao. Considere d ∈ Rn\ {0} arbitr´ario. Por Taylor,

f (x∗+ td) = f (x∗) + t∇f (x∗)Td + t 2 2d T2f (x∗ )d + r(t), com lim t→0 r(t) t2 = 0. Como x

´e minimizador local, pelo teorema anterior temos que ∇f (x) =

0. Portanto, para t suficientemente pequeno,

0 ≤ f (x∗+ td) − f (x∗) = t

2

2d

t2f (x

)d + r(t).

Dividindo por t2 e aplicando limite quando t → 0, obtemos

dT∇2f (x

)d ≥ 0.

Apresentadas as condi¸c˜oes necess´arias para que um ponto seja minimizador, apre-sentemos agora uma condi¸c˜ao suficiente de 2a ordem para que um ponto seja de fato

minimizador.

Teorema 1.9 (Condi¸c˜ao suficiente de 2a ordem). Seja f : Rn → R duas vezes

dife-renci´avel no ponto x∗. Se x∗ ´e um ponto estacion´ario de f e ∇2f (x) ´e definida positiva,

ent˜ao x∗ ´e minimizador local de f .

Demonstra¸c˜ao. Seja λ o menor autovalor de ∇2f (x). Como esta matriz ´e definida

posi-tiva, temos que λ > 0. Al´em disso, pelo quociente de Rayleigh (ver Apˆendice A) temos que dT2f (x)d ≥ λkdk2, para todo d ∈ Rn. Por Taylor, j´a usando o fato de xser

estacion´ario, temos

f (x∗+ d) = f (x∗) + 1 2d T2f (x∗ )d + r(d) ≥ f (x∗) + λ 2kdk 2+ r(d), onde lim d→0 r(d)

kdk2 = 0. Podemos ent˜ao escrever

f (x∗ + d) − f (x∗) kdk2 ≥ λ 2 + r(d) kdk2. Como lim d→0  λ 2 + r(d) kdk2 

> 0, existe δ > 0 tal que λ2 + kdkr(d)2 > 0, para todo d ∈ B(0, δ) \ {0},

donde segue que f (x∗+ d) − f (x∗) > 0, para todo d ∈ B(0, δ) \ {0}, ou, equivalentemente,

f (x∗) < f (x),

(36)

H´a ainda dois resultados a serem enunciados, fazendo referˆencia ao caso convexo, como veremos a seguir.

Teorema 1.10. Se ∇2f (x) ≥ 0 para todo x ∈ Ω, ent˜ao f ´e convexa em Ω. Demonstra¸c˜ao. [21, Teorema 3.16].

Teorema 1.11. Se f : Rn→ R ´e convexa, e ∇f(x) = 0, ent˜ao x´e minimizador global

de f em Rn.

Demonstra¸c˜ao. [21, Teorema 3.13].

Desta forma, j´a temos ferramentas suficientes para discorrer acerca de minimizadores em problemas irrestritos. Nosso pr´oximo passo ´e estabelecer resultados an´alogos aos apresentados nesta subse¸c˜ao, por´em para problemas restritos, isto ´e, quando o conjunto vi´avel Ω ´e um subconjunto pr´oprio de Rn.

1.2.2

Condi¸

oes de otimalidade para problemas com restri¸

oes

Nesta subse¸c˜ao, consideraremos o caso em que o problema (1.4) tem a seguinte for-mula¸c˜ao min f (x) s.a cE(x) = 0 cI(x) ≤ 0 , (1.6) onde f : Rn → R, c

i : Rn → R, i ∈ E ∪ I s˜ao fun¸c˜oes de classe C2. Desta forma, temos

que o conjunto vi´avel ´e dado por

Ω = {x ∈ Rn| cE(x) = 0, cI(x) ≤ 0}. (1.7)

Defini¸c˜ao 1.5. Seja x ∈ Ω. Uma restri¸c˜ao de desigualdade ci, i ∈ I ´e dita ativa em x

se ci(x) = 0. Caso ci(x) < 0, dizemos que ci ´e inativa em x.

Vamos denotar por I(x) o conjunto de ´ındices das restri¸c˜oes de desigualdade ativas em um ponto vi´avel x, isto ´e,

I(x) = {i ∈ I | ci(x) = 0}.

Para avan¸carmos a caracteriza¸c˜ao das solu¸c˜oes de (1.6), precisamos discorrer sobre as chamadas condi¸c˜oes de qualifica¸c˜ao. Um ponto x ∈ Rn ´e dito qualificado quando atende

uma condi¸c˜ao de qualifica¸c˜ao.

Condi¸c˜ao de qualifica¸c˜ao de Slater: Consideremos o conjunto Ω, definido em (1.7). Dizemos que a condi¸c˜ao de Slater ´e satisfeita quando cE ´e linear, cada componente ci,

(37)

i ∈ I ´e convexa e existe x ∈ Ω tal quee

cE(ex) = 0 e cI(x) < 0.e

Condi¸c˜ao de qualifica¸c˜ao de independˆencia linear dos gradientes: Dizemos que x atende a condi¸c˜ao de qualifica¸c˜ao de independˆencia linear (LICQ) quando o conjunto formado pelos gradientes das restri¸c˜oes de igualdade e das restri¸c˜oes de desigualdade ativas ´e linearmente independente, isto ´e,

{∇ci(x) | i ∈ E ∪ I(x)}

´e linearmente independente.

H´a ainda na literatura outras condi¸c˜oes de qualifica¸c˜ao (ver [21]), sendo estas apresen-tadas aqui as mais cl´assicas e geralmente mais simples de se verificar. Agora, apresentemos condi¸c˜oes de caracteriza¸c˜ao para as solu¸c˜oes do problema (1.6).

Teorema 1.12 (Condi¸c˜oes de Karush-Kuhn-Tucker). Seja x∗ ∈ Ω um minimizador local de (1.6) e suponha que tal ponto ´e qualificado. Ent˜ao existem vetores λ∗ e µ∗ tais que

−∇f (x∗) =P i∈E λ ∗ i∇ci(x∗) +Pi∈Iµ∗i∇ci(x∗), µ∗i ≥ 0, i ∈ I, µ∗ici(x∗) = 0, i ∈ I. (1.8)

Demonstra¸c˜ao. [21, Teoremas 7.25, 7.35, 7.40 e 7.43].

As condi¸c˜oes apresentadas em (1.8) s˜ao ditas condi¸c˜oes de Karush-Kuhn-Tucker. Pela formula¸c˜ao do teorema, nota-se que se n˜ao for verificada nenhuma condi¸c˜ao de qualifica¸c˜ao para x∗pode ocorrer que x∗seja minimizador e n˜ao cumpra as condi¸c˜oes de Karush-Kuhn-Tucker (KKT), dificultando assim a caracteriza¸c˜ao das solu¸c˜oes de (1.6).

Agora, na continuidade da caracteriza¸c˜ao das solu¸c˜oes de (1.6), ´e de nosso interesse analisar as condi¸c˜oes de otimalidade de segunda ordem, como veremos nos pr´oximos teoremas. Para isso, consideremos o Lagrangiano associado ao problema (1.6), dado por

(x, λ, µ) ∈ Rn× Rm

× Rq 7→ l(x, λ, µ) = f (x) + λTc

E(x) + µTcI(x).

Os vetores λ e µ s˜ao denominados multiplicadores de Lagrange. Denotando as Jacobianas de cE e cI por AE e AI, respectivamente, temos

(38)

e ∇2 xxl(x, λ, µ) = ∇2f (x) + X i∈E λi∇2ci(x) + X i∈I µi∇2ci(x).

Teorema 1.13 (Condi¸c˜oes necess´arias de 2a ordem). Suponha que x´e um minimizador

local do problema (1.6) e que a condi¸c˜ao de qualifica¸c˜ao de independˆencia linear ´e satisfeita em x∗. Considere os multiplicadores λ∗ e µ∗, que satisfazem as condi¸c˜oes de KKT. Ent˜ao,

dT∇2xxl(x∗, λ∗, µ∗)d ≥ 0,

para todo d ∈ N (AE(x∗) ∪ N (AI(x∗)(x∗)).

Demonstra¸c˜ao. [21, Teorema 7.47].

Teorema 1.14 (Condi¸c˜oes suficientes de 2a ordem). Suponha que x∗ ´e vi´avel para pro-blema (1.6) e que existem λ∗ ∈ Rm e µ∗ ∈ Rq+ tais que (µ∗)TcI(x∗) = 0 e

∇f (x∗) + AE(x∗)Tλ∗+ AI(x∗)Tµ∗ = 0. Considere I+= {i ∈ I(x∗)|µ∗i > 0}. Se dT∇2 xxl(x ∗ , λ∗, µ∗)d > 0,

para todo d ∈ N (AE(x∗) ∪ N (AI+(x∗)) \ {0}, ent˜ao existem δ > 0 e uma vizinhan¸ca V de

x∗ tal que

f (x) − f (x∗) ≥ δkx − x∗k2,

para todo ponto vi´avel x ∈ V . Em particular, segue que x∗ ´e um minimizador local estrito do problema (1.6).

Demonstra¸c˜ao. Pode ser encontrada em [21], Teorema 7.48.

Agora que j´a vimos as condi¸c˜oes de otimalidade para problemas de minimiza¸c˜ao sem e com restri¸c˜oes, o foco de nossa pr´oxima se¸c˜ao ser´a a abordagem de m´etodos de mini-miza¸c˜ao para problemas irrestritos, como os m´etodos do gradiente, Newton e regi˜ao de confian¸ca.

1.2.3

etodo do gradiente

Dada uma fun¸c˜ao f : Rn→ R ∈ C1, consideremos o problema irrestrito

min

x∈Rn f (x).

Um m´etodo cl´assico para resolver este problema ´e o m´etodo do gradiente, sendo um m´etodo iterativo onde a cada itera¸c˜ao k a dire¸c˜ao de minimiza¸c˜ao ser´a a oposta ao gra-diente, isto ´e, para xk ∈ Rn a dire¸c˜ao de minimiza¸c˜ao ´e dada por dk = −∇f (xk). Tal

(39)

escolha prov´em do fato de que d = −∇f (x) ´e a dire¸c˜ao de decr´escimo mais acentuado de f a partir de x. De fato, se d = −∇f (x) e v ∈ Rn ´e tal que kvk = kdk, ent˜ao

∂f

∂d(x) = ∇f (x)

Td = −k∇f (x)k2 = −k∇f (x)kkvk ≤ ∇f (x)Tv = ∂f

∂v(x).

Pelo resultado acima, muitos autores denotam tal m´etodo por m´etodo de m´axima descida, ou ainda m´etodo de Cauchy.

No geral, calculado dk = −∇f (xk), fazemos uma busca linear ao londo da dire¸c˜ao dk,

tomando ent˜ao a seguinte aproxima¸c˜ao da solu¸c˜ao como xk+1 = xk + αkdk, onde αk ´e

o tamanho do passo obtido na busca. Vejamos a seguir o algoritmo para o M´etodo do Gradiente.

(40)

Algoritmo 1 : M´etodo do Gradiente Dados x0 ∈ Rn, defina k = 0.

Enquanto ∇f (xk) 6= 0

Defina dk = −∇f (xk).

Determine o tamanho do passo αk > 0.

Defina xk+1 = xk+ αkdk.

k = k + 1 Fim

A convergˆencia global deste m´etodo est´a descrita em [21], supondo a utiliza¸c˜ao da busca linear exata ou de Armijo.

1.2.4

etodo de Newton

Considere a fun¸c˜ao f : Rn→ R, com f ∈ C2, e o problema de minimiza¸c˜ao

min

x∈Rn f (x). (1.9)

Para minimizar tal fun¸c˜ao objetivo, podemos considerar a aproxima¸c˜ao de segunda ordem de f em torno de um ponto xk, dada por

f (x) ≈ f (xk) + ∇f (xk)T(x − xk) +

1

2(x − xk)

T2f (x

k)(x − xk)

onde ∇2f (x) ∈ Rn×n ´e a Hessiana de f , e minimizar assim esse modelo local da fun¸c˜ao

f . Tomando d = x − xk, podemos resolver o problema aproximado

min d∈Rn f (xk) + ∇f (xk) T d + 1 2d T2 f (xk)d.

Pela condi¸c˜ao necess´aria de primeira ordem, a dire¸c˜ao de minimiza¸c˜ao satisfaz

∇2f (x

k)d = −∇f (xk). (1.10)

Ent˜ao, desde que ∇2f (x

k) seja invers´ıvel, a dire¸c˜ao de minimiza¸c˜ao ser´a dada por

dk = −∇2f (xk)−1∇f (xk), (1.11)

chamada dire¸c˜ao de Newton.

Assim como o m´etodo do gradiente, dada a dire¸c˜ao dk, fazemos uma busca linear

obtendo o tamanho do passo αk, e assim tomando xk+1 = xk+ αkdk. Apresentemos agora

(41)

Algoritmo 2 : M´etodo de Newton Dados x0 ∈ Rn, defina k = 0.

Enquanto ∇f (xk) 6= 0

Defina dk= −∇2f (xk)−1∇f (xk).

Determine o tamanho do passo αk > 0.

Defina xk+1 = xk+ αkdk.

k = k + 1 Fim

Computacionalmente, ´e mais vi´avel obter a dire¸c˜ao de Newton atrav´es da equa¸c˜ao (1.10), pois geralmente a invers˜ao da matriz Hessiana ∇2f (x

k) ´e mais dispendiosa. Al´em

disso, o m´etodo pode n˜ao estar bem definido quando a Hessiana n˜ao ´e invers´ıvel para alguma itera¸c˜ao.

A convergˆencia deste m´etodo ´e atestada no pr´oximo teorema, cuja demonstra¸c˜ao pode ser encontrada em [21], Teorema 5.10.

Teorema 1.15. Seja f : Rn→ R de classe C2. Suponha que x

∈ Rn seja um

minimiza-dor local de f , com ∇2f (x) definida positiva. Ent˜ao existe δ > 0 tal que se x

0 ∈ B(x∗, δ),

o algoritmo do M´etodo de Newton, com αk= 1 para todo k ∈ N, gera uma sequˆencia (xk)

tal que: (i) ∇2f (x

k) ´e definida positiva, para todo k ∈ N;

(ii) (xk) converge superlinearmente para x∗;

(iii) Se ∇2f ´e Lipschitz, ent˜ao a convergˆencia ´e quadr´atica. ´

E poss´ıvel considerar uma formula¸c˜ao mais geral para o m´etodo de Newton, utilizado para encontrar zeros de fun¸c˜oes. Neste caso, poder´ıamos aplicar tal m´etodo para encontrar o zero do gradiente de f , obtendo a formula¸c˜ao cl´assica do M´etodo de Newton para minimiza¸c˜ao, tratado nesta subse¸c˜ao.

1.2.5

etodo de Newton para zeros de fun¸

oes

Consideremos F : Rn→ Rn de classe C1 e o problema de resolver o sistema

F (x) = 0.

Assim, dado xk, podemos considerar a aproxima¸c˜ao linear de F em torno de xk, dada por

T (x) = F (xk) + J (xk)(x − xk),

onde J (xk) ∈ Rn×n ´e a Jacobiana de F avaliada em xk, e buscar x tal que T (x) = 0, isto

´e,

(42)

Desde que J (xk) seja invers´ıvel, temos que a nova aproxima¸c˜ao para um zero da F ´e

xk+1 = xk− (J(xk))−1F (xk).

Podemos formalizar o m´etodo no seguinte algoritmo.

Algoritmo 3 : M´etodo de Newton para zeros de fun¸c˜oes Dados x0 ∈ Rn, defina k = 0. Enquanto F (xk) 6= 0 Defina dk = −(J (xk))−1F (xk). Defina xk+1 = xk+ dk. k = k + 1 Fim

A demonstra¸c˜ao de convergˆencia ´e dada no pr´oximo teorema, e sua demonstra¸c˜ao tamb´em pode ser encontrada em [21], Teorema 5.13.

Teorema 1.16. Seja F : Rn→ Rn de classe C1 com Jacobiana J Lipschitz de constante

L, x∗ ∈ Rn uma raiz de F , com J (x) invers´ıvel e δ = 2 3 λ

L, onde λ > 0 ´e o menor valor

singular de J (x∗). Se x0 ∈ B(x∗, δ), ent˜ao o algoritmo para o M´etodo de Newton para

zeros de fun¸c˜oes gera uma sequˆencia (xk) tal que xk→ x∗ com velocidade de convergˆencia

quadr´atica.

No caso de fun¸c˜oes reais de vari´avel real, dado xk∈ R obtemos como pr´oximo iterando

xk+1 = xk− αk

f (xk)

f0(x k)

.

Como vimos no Teorema 1.16, a convergˆencia deste m´etodo ´e local, e portanto ´e interes-sante conhecer o intervalo onde a raiz se encontra. Vejamos um exemplo onde o m´etodo de Newton para zeros de fun¸c˜oes falha.

Exemplo 1.1: Consideremos a fun¸c˜ao f : R+ → R dada por

f (x) = 3x − 1 x2 .

A fun¸c˜ao f tem um zero em x = 13, e dado xk, a sequˆencia gerada pelo m´etodo de Newton

considerando o passo αk= 1 ´e dada por

xk+1 = xk− f (xk) f0(x k) = xk− (3xk− 1)xk −3xk+ 2 .

(43)

Assim, tomando x0 > 23, temos que −

(3xk−1)xk

−3xk+2 > 0 e portanto a sequˆencia ´e crescente.

Al´em disso, xk+1 xk = xk− (3xk−1)xk −3xk+2 xk = 1 + 3xk− 1 3xk− 2 = 1 + 3xk− 2 + 1 3xk− 2 = 2 + 1 3 xk− 23  ≥ 2

e portanto a sequˆencia tende a infinito, n˜ao obtendo a raiz desejada, como podemos ver na pr´oxima imagem, onde consideramos x0 = 1.

Figura 1.2: Caso em que o M´etodo de Newton para zero de fun¸c˜oes falha.

Por este motivo, um dos objetos de estudo ´e estabelecer salvaguardas para o problema, isto ´e, encontrar um intervalo onde o zero da fun¸c˜ao se encontra. Para o exemplo anterior, se tivermos o conhecimento de que a raiz se encontra no intervalo [0, 1], ao iniciarmos com x0 = 1, x1 6∈ [0, 1] e portanto teremos um ind´ıcio de que estamos indo pelo caminho

errado. Assim, podemos tomar um novo x0 ∈ [0, 1], at´e obtermos de fato a raiz.

Apesar da convergˆencia quadr´atica do m´etodo de Newton, em ambas vers˜oes, o m´etodo apresenta problemas acerca do custo computacional, pois faz o uso de derivadas de segunda ordem. Veremos na pr´oxima subse¸c˜ao um m´etodo pautado na aproxima¸c˜ao quadr´atica da fun¸c˜ao objetivo, por´em considerando um majorante para norma do passo, denominado m´etodo de regi˜ao de confian¸ca.

(44)

1.2.6

etodo de regi˜

ao de confian¸

ca

Considere o problema irrestrito apresentado em (1.9). Assim, dado um ponto xk, o

m´etodo de regi˜ao de confian¸ca consiste na resolu¸c˜ao do problema

min qk(x)

s.a kx − xkk ≤ ∆k

onde ∆k > 0 ´e chamada raio de confian¸ca, qk(x) ´e a aproxima¸c˜ao da fun¸c˜ao f por um

modelo quadr´atico em volta de xk, isto ´e,

qk(x) = f (xk) + ∇f (xk)T(x − xk) +

1

2(x − xk)

T

Bk(x − xk),

onde Bk∈ Rn×n pode ser a Hessiana ∇2f (xk) ou qualquer matriz sim´etrica que satisfa¸ca

kBkk ≤ β, para algum valor de β > 0, independente de k ∈ N. Tomando d = x − xk,

podemos facilitar a nota¸c˜ao tomando mk(d) = qk(xk+ d), e portanto nosso problema se

resume a

min mk(d)

s.a kdk ≤ ∆k

. (1.12)

A pr´oxima imagem retrata o m´etodo de regi˜ao de confian¸ca tomando Bk = ∇2f (xk).

x

k

x

k+1

Figura 1.3: M´etodo de Regi˜ao de Confian¸ca.

Desde que a regi˜ao ∆k n˜ao seja grande, ´e natural que a minimiza¸c˜ao do modelo

quadr´atico influencie na minimiza¸c˜ao da fun¸c˜ao f . Por´em, n˜ao ´e anal´ıtica a determina¸c˜ao de uma regi˜ao ´otima, de forma que a cada passo da minimiza¸c˜ao do modelo seja feita uma an´alise da redu¸c˜ao real na fun¸c˜ao objetivo, decidindo assim a aceita¸c˜ao ou rejei¸c˜ao do minimizador. Para tal, consideremos

(45)

aredk = f (xk) − f (xk+ dk)

a redu¸c˜ao real na fun¸c˜ao objetivo provocada na itera¸c˜ao k, predk = mk(0) − mk(dk)

a redu¸c˜ao descrita no modelo quadr´atico mk e

ρk =

aredk

predk

. (1.13)

o coeficiente de redu¸c˜ao relativa. Desta forma, temos um indicador da efic´acia do modelo mk(d). Note que predk ´e sempre positivo, j´a que dk ´e minimizador de mk(d). Assim, se

ρk´e pequeno, ou at´e mesmo negativo, ent˜ao a redu¸c˜ao real n˜ao foi satisfat´oria em rela¸c˜ao

`

a redu¸c˜ao do modelo. Caso ρk esteja pr´oximo de 1, o modelo representou bem a fun¸c˜ao

objetivo localmente em torno de xk. Ainda pode ocorrer de ρk > 1, o que nos diz que a

redu¸c˜ao real foi maior que a apresentada pelo modelo.

Aceitaremos o passo dk, solu¸c˜ao de (1.12), quando o coeficiente ρk for maior que uma

constante η ≥ 0 dada. Neste caso, temos xk+1 = xk+ dk. Caso ρk ≤ η, temos que o

modelo n˜ao representou bem a fun¸c˜ao na regi˜ao de confian¸ca, ent˜ao rejeitamos o passo dk, diminu´ımos a regi˜ao de confian¸ca e constru´ımos um novo modelo (1.12) sujeito `a nova

regi˜ao.

A fim de caracterizar a solu¸c˜ao do problema (1.12), os pr´oximos dois teoremas estabe-lecem a equivalˆencia entre o problema de minimiza¸c˜ao e a solu¸c˜ao de um sistema linear, facilitando a obten¸c˜ao da solu¸c˜ao. As demonstra¸c˜oes n˜ao foram encontradas na literatura, exceto para o caso S = I, em [3], Teorema 7.2.1, e [8], Teorema 1, do qual nos embasamos para adaptar a prova.

Teorema 1.17. Sejam B ∈ Rn×n uma matriz sim´etrica, S ∈ Rn×n, g ∈ Rn e c ∈

R.Assim, dado d∗ ∈ Rn, com kSd∗k ≤ ∆ e λ∗ ≥ 0 tais que as trˆes condi¸c˜oes s˜ao

simulta-neamente satisfeitas

(B + λ∗STS)d∗ = −g, (∆ − kSd∗k)λ∗ = 0 e (B + λ∗STS) ≥ 0

ent˜ao d∗ ´e solu¸c˜ao global do problema de regi˜ao de confian¸ca

min m(d) = c + gTd + 1 2d

TBd

s.a kSdk ≤ ∆

Demonstra¸c˜ao. Primeiramente, minimizar a fun¸c˜ao objetivo acima ´e equivalente a mini-mizar m(d) = gTd + 1

2d

TBd, j´a que c ´e uma constante. Temos que d

∗ ´e minimizador b m(d) = gTd +1 2d T(B + λ ∗STS)d = m(d) + λ∗ 2 d TSTSd,

(46)

por ser o ponto estacion´ario da quadr´atica convexa m(d), por (1.11) . Ent˜b ao m(d) ≥b b

m(d∗), para todo d ∈ Rn, e segue que

m(d) =m(d) −b λ∗ 2 d TSTSd ≥m(d) −b λ∗ 2 d T STSd ≥ m(d∗) + λ∗ 2 (d T ∗S T Sd∗− dTSTSd). (1.14)

Multiplicando λ∗(∆ − kSd∗k) = 0 por 12(∆ + kSd∗k) em ambos lados da equa¸c˜ao temos

que 1 2λ∗(∆ 2− dT ∗STSd∗) = 0. (1.15) Somando (1.15) em (1.14) temos m(d) ≥ m(d∗) + λ∗ 2 (∆ 2− dTSTSd) = m(d∗) + λ∗ 2 (∆ 2− kSdk2).

Assim, por λ∗ ≥ 0, m(d) ≥ m(d∗), para todo d com kSdk ≤ ∆, e portanto d∗ ´e solu¸c˜ao

do problema

min m(d) = gTd + 12dTBd s.a kSdk ≤ ∆ .

O pr´oximo teorema estabelece a rec´ıproca do resultado anterior, caracterizando com-pletamente o minimizador global do problema de regi˜ao de confian¸ca.

Teorema 1.18. Se d∗ ´e solu¸c˜ao global do problema

min m(d) = c + gTd + 12dTBd s.a kSdk ≤ ∆

ent˜ao existe λ∗ ≥ 0 tal que

(B + λ∗STS)d∗ = −g, (∆ − kSd∗k)λ∗ = 0 e (B + λ∗STS) ≥ 0

Demonstra¸c˜ao. Primeiramente, reescrevamos a restri¸c˜ao kSdk ≤ ∆ como r(d) = 12(kSdk2− ∆2) ≤ 0. Para provar tal teorema, consideraremos dois casos:

(1) Se kSd∗k < ∆, ent˜ao d∗ ´e minimizador irrestrito de m(d). Logo, pelas condi¸c˜oes

(47)

(

∇m(d∗) = 0 ⇒ Bd∗+ g = 0

∇2m(d

∗) ≥ 0 ⇒ B ≥ 0

Assim, λ∗ = 0 satisfaz as condi¸c˜oes desejadas.

(2) Se kSd∗k = ∆, d∗ ´e qualificado, pois o conjunto dos gradientes das restri¸c˜oes ativas,

formado apenas por STSd∗ 6= 0, ´e linearmente independente. Assim, consideremos

a Lagrangeana associada ao problema,

L(d, λ) = m(d) + λr(d) = m(d) + λ 2(d

TSTSd − ∆2).

Desta forma, a condi¸c˜ao de KKT sobre a Lagrangeana ´e dada por

0 = ∇dL(d∗, λ∗) = ∇m(d∗) + λ∗∇r(d∗) (1.16) = Bd∗+ g + λ∗STSd∗ do que segue (B + λ∗STS)d∗ = −g. ´

E importante lembrar que a propriedade (∆ − kSd∗k)λ∗ = 0 j´a ´e atendida, pelo fato de

que kSd∗k = ∆. Assim, basta mostrar que (B + λ∗STS) ≥ 0.

De (1.16) temos que ∇m(d∗) = −λ∗STSd∗. Como d∗ ´e solu¸c˜ao do problema, m(d) ≥

m(d∗), para todo d tal que kSdk ≤ ∆, em particular, para d tal que kSdk = ∆. Ent˜ao

temos que ∇m(d∗)T(d − d∗) = −λ∗dT∗STS(d − d∗) = λ∗(∆2− dT∗STSd) = λ∗  1 2(d T ∗STSd∗+ d T STSd) − dTSTSd  = λ∗ 2 (d − d∗) TSTS(d − d ∗). (1.17)

Como m ´e quadr´atica, temos que sua aproxima¸c˜ao de segunda ordem ´e

m(d) = m(d∗) + ∇m(d∗)T(d − d∗) + 1 2(d − d∗) T B(d − d∗). Por (1.17) temos m(d) = m(d∗) + 1 2(d − d∗) T(B + λ ∗STS)(d − d∗).

(48)

Como m(d) − m(d∗) ≥ 0, segue que

1

2(d − d∗)

T(B + λ

∗STS)(d − d∗) ≥ 0. (1.18)

Por outro lado, pelas condi¸c˜oes de segunda ordem sobre a Lagrangeana do problema (Teorema 1.13), temos que ∇2

dL(d∗, λ∗) = B + λ∗STS ´e semidefinida positiva no n´ucleo

de ∇r(d∗) = STSd∗, ou seja, zT(B + λ∗STS)z ≥ 0 para todo z ∈ Rn tal que zTSTSd∗ =

0. Assim, basta mostrar a semipositividade para v ∈ Rn\ {0} tal que vTSTSd ∗ 6= 0.

Consideremos a reta Sd∗ + ξSv, com ξ ∈ R. Dado que (Sv)T(Sd)∗ 6= 0, tal reta ir´a

interceptar a esfera de raio ∆ em dois pontos. De fato, a equa¸c˜ao

kSd∗+ ξSvk2 = ∆2

tem solu¸c˜ao em ξ = 0 com p = Sd∗, e para ξ 6= 0, temos que

kSd∗k2+ 2ξ(Sd∗)TSv + ξ2(Sv)TSv − ∆2 = 0,

e por hip´otese kSd∗k = ∆2 e ξ 6= 0, ent˜ao

ξ = −2(Sd∗)

TSv

(Sv)T(Sv),

estando bem definido e sendo diferente de zero, pois vTSTSd∗ 6= 0. Nomeando tal ξ por ξ,

com p = Sd∗+ ξSv, e denominando d = d∗+ ξv, temos que kSdk = ∆. Logo, substituindo

d − d∗ = ξv em (1.18) nos da

1 2(ξ)

2vT(B + λ

∗STS)v ≥ 0

provando assim o desejado.

O problema apresentado em (1.12) ´e um caso particular em que S = I. Na pr´atica, nem sempre ´e poss´ıvel obter a solu¸c˜ao exata para o subproblema (1.12), por´em ´e poss´ıvel tomar uma solu¸c˜ao aproximada e ainda assim obter a convergˆencia do m´etodo. As solu¸c˜oes que possibilitam essa convergˆencia est˜ao fortemente associadas `a dire¸c˜ao de Cauchy, atrav´es de uma rela¸c˜ao que veremos a seguir. Por sua vez, o passo de Cauchy ´e dado por

dck = −αk∇f (xk), (1.19)

onde αk> 0 ´e a solu¸c˜ao do problema

min mk(−α∇f (xk)) = f (xk) − αk∇f (xk)k2+12α2∇f (xk)Bk∇f (xk)

s.a kα∇f (xk)k ≤ ∆k

(49)

Assim, podemos resolver o problema unidimensional (1.20), encontrando uma aproxima¸c˜ao para solu¸c˜ao de (1.12). Podemos estimar a redu¸c˜ao obtida no modelo quadr´atico atrav´es do uso da dire¸c˜ao de Cauchy, como veremos no seguinte lema.

Lema 1.3. O passo de Cauchy, definido em (1.19), satisfaz

mk(0) − mk(dck) ≥ 1 2k∇f (xk)kmin  ∆k, k∇f (xk)k kBkk  . (1.21) :

Demonstra¸c˜ao. [21, Lema 5.36].

Como j´a dissemos, para que haja a convergˆencia do M´etodo de Regi˜ao de Confian¸ca, n˜ao ´e necess´ario que tomemos o minimizador exato do problema (1.12), mas sim uma aproxima¸c˜ao que satisfa¸ca algumas propriedades. Efetivamente, se a dire¸c˜ao de mini-miza¸c˜ao obtida proporciona uma redu¸c˜ao do modelo proporcional `a apresentada no Lema 1.3, j´a ´e poss´ıvel obter a convergˆencia do m´etodo. Apresentemos agora o algoritmo do M´etodo de Regi˜ao de Confian¸ca.

Algoritmo 4 : M´etodo de Regi˜ao de Confian¸ca Dados x0 ∈ Rn, ∆0 > 0 e η ∈ [0,14), defina k = 0.

Enquanto ∇f (xk) 6= 0

Obtenha dk, solu¸c˜ao aproximada de (1.12).

Calcule ρk usando (1.13). se ρk > η xk+1 = xk+ dk sen˜ao xk+1 = xk fim se ρk < 14 ∆k+1 = ∆2k sen˜ao se ρk > 34 e kdkk = ∆k ∆k+1 = 2∆k sen˜ao ∆k+1 = ∆k fim fim k = k + 1 Fim

Note que se o decr´escimo relativo for suficientemente grande, no nosso caso maior que

3

4, e se kdkk = ∆k, temos um ind´ıcio de que poder´ıamos obter uma dire¸c˜ao de maior

decr´escimo fora da regi˜ao de confian¸ca. Por isso, neste caso aumentamos a regi˜ao para pr´oxima itera¸c˜ao. Vale salientar que os valores 14, 34, e as constantes de atualiza¸c˜ao da regi˜ao de confian¸ca, consideradas aqui por 12 para redu¸c˜ao e 2 para extens˜ao, podem ser

(50)

alterados sem comprometer a convergˆencia do m´etodo. Veremos no pr´oximo teorema as condi¸c˜oes que garantem tal convergˆencia.

Teorema 1.19. Consideremos o problema irrestrito (1.4), e que as seguintes hip´oteses sejam satisfeitas:

H1 A fun¸c˜ao objetivo f ´e de classe C1, com ∇f Lipschitz. H2 A solu¸c˜ao aproximada dk de (1.12) satisfaz

predk = mk(0) − mk(dk) ≥ c1k∇f (xk)kmin  ∆k, k∇f (xk)k kBkk  ,

onde c1 > 0 ´e uma constante.

H3 O passo dk satisfaz kdkk ≤ γ∆k, para alguma constante γ ≥ 1.

H4 As Hessianas Bk s˜ao uniformemente limitadas, isto ´e, existe uma constante β > 0

tal que kBkk ≤ β para todo k ∈ N.

H5 A fun¸c˜ao f ´e limitada inferiormente no conjunto de n´ıvel

N = {x ∈ Rn|f (x) ≤ f (x0)}.

Desta forma, seja (xk) a sequˆencia gerada pelo algoritmo do m´etodo de regi˜ao de confian¸ca.

Segue que

lim inf

k→+∞ k∇f (xk)k = 0.

Al´em disso, se η > 0 temos que

∇f (xk) → 0.

(51)

Introdu¸

ao ao problema de

quadrados m´ınimos

Veremos ao longo deste cap´ıtulo conceitos introdut´orios acerca do problema de qua-drados m´ınimos. A primeira se¸c˜ao trata da resolu¸c˜ao de sistemas lineares que admitem ou n˜ao solu¸c˜ao exata. A segunda se¸c˜ao foca-se na introdu¸c˜ao do problema de quadrados m´ınimos n˜ao linear, abrangendo os m´etodos de Newton e de Gauss-Newton.

2.1

O problema de quadrados m´ınimos linear

Consideremos o sistema linear (1.1), isto ´e,

Ax = b,

onde A ∈ Rm×n, x ∈ Rn e b ∈ Rm. Temos que o espa¸co das colunas de A, Im(A), ´e dado por

Im(A) = {Ax : x ∈ Rn} , isto ´e,

Im(A) = span{A1, A2, . . . , An},

onde Ai representa a coluna i de A, i = 1, . . . , n. Desta forma, o sistema (1.1) admitir´a

solu¸c˜ao caso b ∈ span{A1, A2, . . . , An}. Uma interpreta¸c˜ao geom´etrica deste caso ´e dada

a seguir.

(52)

Figura 2.1: Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b ∈ Im(A).

No caso em que b 6∈ span{A1, A2, . . . , An}, o sistema (1.1) n˜ao tem solu¸c˜ao. Desta

forma, ´e de nosso interesse encontrar um ponto x tal que a distˆancia entre Ax e b seja m´ınima, relativamente `a norma-2, como podemos ver ilustrado na pr´oxima figura.

Figura 2.2: Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b 6∈ Im(A).

Matematicamente, queremos resolver o problema

min

Referências

Documentos relacionados

nas decisões coletivas são alguns dos pontos de entrave para o desenvolvimento de uma abordagem CTS. Essas pesquisas são foco de interesse visto que as compreensões dos

F REQUÊNCIAS PRÓPRIAS E MODOS DE VIBRAÇÃO ( MÉTODO ANALÍTICO ) ... O RIENTAÇÃO PELAS EQUAÇÕES DE PROPAGAÇÃO DE VIBRAÇÕES ... P REVISÃO DOS VALORES MÁXIMOS DE PPV ...

As questões acima foram a motivação para o desenvolvimento deste artigo, orientar o desenvol- vedor sobre o impacto que as cores podem causar no layout do aplicativo,

[r]

De acordo com o Consed (2011), o cursista deve ter em mente os pressupostos básicos que sustentam a formulação do Progestão, tanto do ponto de vista do gerenciamento

A pesquisa em tela visa analisar as relações entre Leitura, Literatura e Cidade, para isso parte da criação poética de Elmo Elton, poeta capixaba que escreveu sobre Vitória, capital

Este estudo possibilitou delinear o panorama epidemiológico e a incidência de dengue no município de São Carlos (SP) em período epidêmico e não epidêmico no país,

Para efetuar a detecção dos intervalos de saturação, utilizou-se a técnica descrita na seção II e para compensação do sinal de corrente secundária, utilizou-se a técnica dos