UNIVERSIDADE FEDERAL DO PARANÁ Kléber Aderaldo Benatti. O Método de Levenberg-Marquardt para o Problema de Quadrados Mínimos não Linear

(1)

Kl´

eber Aderaldo Benatti

O M´

etodo de Levenberg-Marquardt

para o Problema de Quadrados

M´ınimos n˜

ao Linear

Curitiba

2017

(2)

Kl´

eber Aderaldo Benatti

O M´

etodo de Levenberg-Marquardt

para o Problema de Quadrados

M´ınimos n˜

ao Linear

Disserta¸cão apresentada como requisito par-cial à obten¸cão do grau de Mestre em Ma-temática, no Programa de Pós-Gradua¸cão em Matemática, Setor de Ciências Exatas, Universidade Federal do Paraná.

Orientador: Ademir Alves Ribeiro.

Curitiba

2017

(3)

(4)

(5)

(6)

(7)

Dedico meus sinceros agradecimentos `aqueles que muito me ajudaram para concluir este trabalho. Com certeza essas pessoas tornaram a realiza¸c˜ao deste trabalho uma tarefa poss´ıvel.

A Deus, responsável por todas as minhas vitórias, e portanto digno da honra que elas detêm.

`

A minha esposa, Natalha Cristina da Cruz Machado Benatti, por todo aux´ılio e com-preens˜ao durante este per´ıodo.

Aos meus familiares, e em particular aos meus pais, Claudemir Po¸cas Benatti e Apa-recida Cilaine Aderaldo Benatti, que sempre me impulsionaram a buscar o melhor em minha vida.

Ao meu orientador, professor Ademir Alves Ribeiro, por aceitar orientar-me, e por todo auxilio prestado a mim durante a confeçcão desta disserta¸cão.

Aos integrantes da minha banca, e em particular ao professor Lucas Garcia Pedroso, por toda paciˆencia e dedica¸c˜ao em prestar ajuda nos momentos em que necessitei.

Aos meus amigos, e em particular aos amigos do Programa de Pós-Gradua¸cão em Matemática, por tornarem tal ambiente mais agradável e descontra´ıdo.

Ao PPGM e `a UFPR, pela oportunidade que me foi dada. `

(8)

(9)

Nesta disserta¸cão, apresentamos uma revisão de conceitos acerca do método de Levenberg-Marquardt, utilizado para o problema de quadrados m´ınimos não linear. Além da abordagem clássica do método, constam neste traba-lho duas contribui¸cões por nós estabelecidas. A primeira contribui¸cão é a sugestão de um novo parâmetro de damping, ou parâmetro de Levenberg-Marquardt, que está diretamente ligado ao desempenho do método. A segunda contribui¸cão estabelece uma nova maneira de resolu¸cão do sub-problema relacionado ao método para problemas mal escalados, utilizando decomposi¸cões matriciais pautadas em dire¸cões conjugadas.

Palavras-chave: Quadrados M´ınimos N˜ao Linear, Levenberg-Marquardt, Parˆametros de damping, Problemas mal escalados.

Abstract

In this work, we present a review about the Levenberg-Marquardt method, used for the Nonlinear Least Square Pro-blem. In addition to the classical approach of the method, two contributions are made by us. The first contribution is the sugges-tion of a new damping parameter, or Levenberg-Marquardt parameter, that is directly linked to the performance of the method. The second contribution establishes a new approach to solve the subproblem related to the Levenberg-Marquardt method for bad scaled problems, using matrix decompositions based on Conjugated Gradients.

Keywords: Nonlinear Least Squares Problem, Levenberg-Marquardt, Dam-ping parameter, Bad scaled problems.

(10)

1.1 Interpreta¸c˜ao geom´etrica de uma matriz de rota¸c˜_{ao no R}2_{. . . .} ₂₂

1.2 Caso em que o M´etodo de Newton para zero de fun¸c˜oes falha. . . 41

1.3 M´etodo de Regi˜ao de Confian¸ca. . . 42

2.1 Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b ∈ Im(A). . . 50

2.2 Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b 6∈ Im(A). . . 50

2.3 Interpreta¸cão geométrica de quadrados m´ınimos aplicados à regressão. . . . 52

2.4 Ajuste de pontos por uma quadr´atica. . . 53

3.1 Perfil de desempenho dos parâmetros P1-P7 de Levenberg-Marquardt em fun¸cão do tempo. Escala de eficiência. . . 67

3.2 Perfil de desempenho dos parˆametros P1-P7 de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de robustez. . . 68

3.3 Perfil de desempenho dos parâmetros P1-P7 de Levenberg-Marquardt em fun¸cão do número de itera¸cões. Escala de eficiência. . . 68

3.4 Perfil de desempenho dos parâmetros P1-P7 de Levenberg-Marquardt em fun¸cão do número de itera¸cões. Escala de robustez. . . 69

3.5 Perfil de desempenho geral dos parâmetros de Levenberg-Marquardt em fun¸cão do tempo. Escala de eficiência. . . 70

3.6 Perfil de desempenho geral dos parˆametros de Levenberg-Marquardt em fun¸c˜ao do tempo. Escala de robustez. . . 70

3.7 Perfil de desempenho geral dos parâmetros de Levenberg-Marquardt em fun¸cão do número de itera¸cões. Escala de eficiência. . . 71

3.8 Perfil de desempenho geral dos parâmetros de Levenberg-Marquardt em fun¸cão do número de itera¸cões. Escala de robustez. . . 71

3.9 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do tempo. Escala de eficiˆencia. . . 95

3.10 Perfil de desempenho dos algoritmos E1 a E5 em fun¸c˜ao do tempo. Escala de robustez. . . 96

3.11 Perfil de desempenho dos algoritmos E1 a E5 em fun¸cão do número de itera¸cões. Escala de eficiência. . . 96

(11)

3.12 Perfil de desempenho dos algoritmos E1 a E5 em fun¸cão do número de itera¸cões. Escala de robustez. . . 97

(12)

Introdu¸c˜ao 12

1 Conceitos introdut´orios 14

1.1 Elementos de ´Algebra Linear . . . 14

1.1.1 Decomposi¸c˜ao LU . . . 14

1.1.2 Decomposi¸c˜ao de Cholesky . . . 16

1.1.3 Decomposi¸c˜ao QR . . . 18

1.1.4 Decomposi¸c˜ao em dire¸c˜oes conjugadas . . . 27

1.2 Elementos de Otimiza¸c˜ao . . . 31

1.2.1 Condi¸c˜oes de otimalidade para problemas sem restri¸c˜oes . . . 31

1.2.2 Condi¸c˜oes de otimalidade para problemas com restri¸c˜oes . . . 34

1.2.3 M´etodo do gradiente . . . 36

1.2.4 M´etodo de Newton . . . 38

1.2.5 M´etodo de Newton para zeros de fun¸c˜oes . . . 39

1.2.6 M´etodo de regi˜ao de confian¸ca . . . 42

2 Introdu¸c˜ao ao problema de quadrados m´ınimos 49 2.1 O problema de quadrados m´ınimos linear . . . 49

2.2 O problema de quadrados m´ınimos n˜ao linear . . . 53

2.2.1 M´etodo de Newton . . . 55

2.2.2 M´etodo de Gauss-Newton . . . 56

3 M´etodo de Levenberg-Marquardt 59 3.1 Escolha do parˆametro de Levenberg-Marquardt . . . 60

3.1.1 Experimentos num´ericos . . . 67

3.2 Levenberg-Marquardt e o m´etodo de regi˜ao de confian¸ca . . . 72

3.2.1 Caracteriza¸c˜ao do subproblema de quadrados m´ınimos . . . 73

3.2.2 A raiz da equa¸c˜ao secular . . . 75

3.2.3 Monitoramento da regi˜ao de confian¸ca . . . 80

3.3 M´etodo de Levenberg-Marquardt sem derivadas . . . 84

3.4 Escalamento no m´etodo de Levenberg-Marquardt . . . 86

(13)

Conclus˜ao e trabalhos futuros 98

Apˆendice 100

(14)

A modelagem de problemas através de equa¸cões é comumente utilizada em ciências experimentais, como a F´ısica, Biologia, Economia, entre outras. Por isso, é importante o desenvolvimento da teoria matemática para tratamento desses sistemas. Um caso parti-cular de tais sistemas ´_{e o linear, onde dada uma matriz A ∈ R}m×n _{e um vetor b ∈ R}m

nosso objetivo ´_{e encontrar x ∈ R}n _{tal que}

Ax = b.

Apesar da grande aplicabilidade desses modelos a problemas reais, h´a casos que n˜ao podem ser tratados a partir de modelos lineares. Nesses casos, podemos considerar a fun¸c˜_{ao R : R}n_{→ R}m_{, sendo nosso objetivo a busca por x ∈ R}n _{tal que}

R(x) = 0.

Ao decorrer de todo trabalho, denotaremos por k . k a norma-2, k . k2. Considerando a

hipótese de não haver solu¸cão para o sistema acima, o objetivo central de nosso trabalho é solucionar o problema min x∈Rn 1 2kR(x)k 2 , denominado problema de quadrados m´ınimos não linear.

Antes da abordagem desse problema, que vem a ser o foco central do trabalho, estabe-leceremos no primeiro cap´ıtulo uma revisão de conceitos básicos de Otimiza¸cão e Álgebra Linear, que serão utilizados ao longo dos demais cap´ıtulos.

O segundo cap´ıtulo trás uma introdu¸cão ao problema de quadrados m´ınimos, abran-gendo primeiramente o caso linear, e em segundo momento o caso não linear, apresentando os métodos de Newton e Gauss-Newton.

O terceiro cap´ıtulo deste trabalho será dividido em quatro se¸cões, abrangendo o método de Levenberg-Marquardt. Desenvolvido por Levenberg [11], e aprimorado por Marquardt [13], tal método mantém o baixo custo computacional do método de Gauss-Newton, porém o supera relativamente à boa defini¸cão de seus iterandos, que estão sempre bem definidos independentemente do problema.

O método de Levenberg-Marquardt está intimamente ligado à escolha de um parâmetro λ, denominado parâmetro de damping, ou parâmetro de Levenberg-Marquardt, o qual será

(15)

um dos objetos de nosso estudo na primeira se¸cão do terceiro cap´ıtulo. Além de discorrer acerca dos parâmetros da literatura, exporemos a primeira de nossas contribui¸cões, a apre-senta¸cão de um novo parâmetro, comparando-o computacionalmente com os parâmetros já existentes.

A segunda se¸cão do terceiro cap´ıtulo traz uma revisão do método de Levenberg-Marquardt visto como um método de região de confian¸ca, sendo tal abordagem feita por [15] e revisitada por [8].

A terceira se¸cão do terceiro cap´ıtulo aborda de maneira superficial o método de Levenberg-Marquardt sem derivadas, utilizando o método de diferen¸cas finitas, tratado em [2]. Nessa se¸cão veremos que a utiliza¸cão de diferen¸cas finitas mantém as propriedades de convergência, sob determinadas hipóteses.

A quarta e última se¸cão do terceiro cap´ıtulo trata do método de Levenberg-Marquardt para problemas mal-escalados. No primeiro momento abordaremos uma técnica criada por Zhou e Si [28], que utiliza decomposi¸cões matriciais para resolver o sistema de Levenberg-Marquardt para problemas mal-escalados de maneira mais eficaz. Após essa abordagem, utilizando ideias análogas às de Zhou e Si, introduziremos uma proposta de resolu¸cão do mesmo problema, porém utilizando a decomposi¸cão matricial exposta por [27], pautada em dire¸cões conjugadas. Sendo essa nossa segunda contribui¸cão para o trabalho, traremos também os experimentos numéricos comparando algumas técnicas existentes na literatura com nossa proposta de extensão.

(16)

Conceitos introdut´

orios

Neste cap´ıtulo apresentaremos defini¸cões e resultados clássicos que serão utilizados ao longo do nosso trabalho. A primeira se¸cão concentra-se em apresentar decomposi¸cões matriciais clássicas, como a decomposi¸cão LU, de Cholesky e QR. Na segunda se¸cão abordaremos conceitos básicos de Otimiza¸cão, como as condi¸cões de otimalidade de 1a e 2a ordem para fun¸cões com e sem restri¸cões, além de alguns métodos de minimiza¸cão irrestrita e obten¸cão de zeros de fun¸cões.

1.1 Elementos de ´

Algebra Linear

A Álgebra Linear é uma área muito importante da Matemática, estabelecendo ferra-mentas para a maioria das outras áreas. Tendo surgido do estudo detalhado de sistemas de equa¸cões lineares, utiliza conceitos e estruturas fundamentais da Matemática como ve-tores, espa¸cos vetoriais, transforma¸cões lineares e matrizes. Nesta se¸cão apresentaremos resultados clássicos desta área, focando nosso estudo nas decomposi¸cões matriciais, as quais serão utilizadas nos cap´ıtulos posteriores.

Um dos objetos de estudo da Álgebra Linear é a solu¸cão de sistemas lineares, isto é, dada uma matriz A ∈ Rm×n de posto n e um vetor b ∈ Rm, o objetivo é encontrar um vetor x ∈ Rn tal que

Ax = b. (1.1)

Em problemas de larga escala ou quando a estrutura da matriz A é muito complexa podemos ter dificuldades na solu¸cão do sistema, tornando a busca por estratégias para facilitar a resolu¸cão deste problema um objeto de estudo muito amplo. Uma possibilidade é a utiliza¸cão das decomposi¸cões matriciais, onde a matriz A é reescrita geralmente como a multiplica¸cão de outras matrizes de estrutura mais simples ou de mais fácil manuseio.

1.1.1 Decomposi¸

c˜

ao LU

Os próximos resultados são válidos para o caso em que a matriz A é quadrada. Uma das decomposi¸cões mais clássicas ´_{e a LU, onde dada matriz A ∈ R}n×n_{, podemos reescrevˆ}

(17)

la como

A = LU,

onde L ∈ Rn×n _´_{e uma matriz triangular inferior com diagonal unit´}_{aria e U ∈ R}n×n _´_e

triangular superior. O próximo teorema expõe condi¸cões para existência e unicidade da decomposi¸cão LU de determinada matriz.

Teorema 1.1. Uma matriz A ∈ Rn×n _{tem decomposi¸}_c˜_{ao LU se o determinante dos}

menores principais de dimensão até n−1 são não nulos, isto é, det(A(1 : k, 1 : k)) 6= 0 para k = 1, ..., n − 1. Se a decomposi¸cão LU existe e A é não singular, então a decomposi¸cão é única.

Demonstra¸c˜ao. [9, Teorema 3.2.1].

Utilizando a decomposi¸cão A = LU , é poss´ıvel resolver o sistema linear apresentado em (1.1) através de dois sistemas triangulares, dados por

Lz = b; U x = z.

Nos casos onde não é poss´ıvel obter a decomposi¸cão A = LU , podemos enfraquecer as hipóteses adicionando a estratégia de pivoteamento parcial. Lembrando que uma matriz de permuta¸cão P é originada através da permuta¸cão de linhas ou colunas da matriz identidade. O teorema a seguir mostra a existência e unicidade da decomposi¸cão LU utilizando a estratégia de pivoteamento.

Teorema 1.2. Seja A ∈ Rn×n _{uma matriz n˜}_{ao singular. Ent˜}_{ao existe uma matriz de}

permuta¸c˜_{ao P ∈ R}n×n _onde

P A = LU.

Além disso, a decomposi¸cão LU da matriz A∗ = P A = LU é única. Demonstra¸cão. [23, Teorema 5.4].

Desta forma, podemos resolver o sistema apresentado em (1.1) multiplicando-o por P em ambos os lados, obtendo

LU x = P Ax = P b e resolvendo os dois sistemas triangulares

Lz = P b; U x = z.

Há outras adapta¸cões para decomposi¸cão LU de uma matriz, estendendo-as para ma-trizes não quadradas. Além disso, pode-se usar a estratégia de pivoteamento total. Para

(18)

mais informa¸c˜oes acerca destas abordagens, verifique [9]. Para nossos estudos nos focare-mos na decomposi¸c˜ao LU de matrizes quadradas.

Caso a decomposi¸c˜_{ao A = LU exista para uma dada matriz A ∈ R}n×n não singular, ainda é poss´ıvel apresentar outra decomposi¸cão, na qual

A = LDV,

onde L ∈ Rn×n é uma matriz triangular inferior com diagonal unit´_{aria, D ∈ R}n×n é uma matriz diagonal e V ∈ Rn×né triangular superior com diagonal unitária. Tal decomposi¸cão é originada a partir da decomposi¸cão LU, onde tomamos D = diag(u11, u22, ..., unn), sendo

uii o elemento situado na posi¸c˜ao (i, i) de U , i = 1, ..., n, e V = D−1U . Note que

det(A) = u11.u22. . . . .unn. Então a matriz D tem inversa, pois A é não singular.

1.1.2 Decomposi¸

c˜

ao de Cholesky

Nesta subse¸cão, abordaremos as decomposi¸cões que exploram a simetria da matriz a ser decomposta. Consideraremos no próximo teorema um caso particular da decom-posi¸cão A = LDV onde a matriz A é simétrica.

Teorema 1.3. Seja uma matriz simétrica tal que os determinantes de todos menores principais sejam não nulos. Então A pode ser decomposta de maneira única como

A = LDLT.

Demonstra¸c˜ao. [25, Teorema 1.7.30]. ´

E poss´ıvel provar que para A definida positiva, isto ´e,

xTAx > 0 _{∀x ∈ R}n\ {0},

obtemos a decomposi¸cão expressa acima, porém com D uma matriz diagonal de ele-mentos estritamente positivos. A partir desta decomposi¸cão, é poss´ıvel tomar D12 =

diag(√d11, √ d22, . . . , √ dnn), obtendo A = LDLT = LD12D 1 2LT = LD12D 1 2 T LT = (LD12)(LD 1 2)T = RTR,

onde R = (LD12)T ´e uma matriz triangular superior de diagonal estritamente positiva.

Esta decomposi¸cão é chamada decomposi¸cão de Cholesky. A existência de tal decom-posi¸cão estabelece uma equivalência com o fato de A ser simétrica e definida positiva. Uma das implica¸cões já foi estabelecida quando provamos que uma matriz A simétrica e

(19)

definida positiva pode ser decomposta em A = RTR. Apresentemos a rec´ıproca de tal afirma¸c˜ao no pr´oximo teorema.

Lema 1.1. Se A ∈ Rn×n pode ser decomposta em A = RTR, com R não singular, então A é simétrica definida positiva.

Demonstra¸cão. Consideremos A decomposta em A = RTR. Pela estrutura de A é trivial que tal matriz é simétrica. Relativamente à sua positividade, temos que para todo x ∈ Rn\ {0}

xTAx = xTRTRx = (Rx)T(Rx) = kRxk2 ≥ 0,

e como R ´_{e invers´ıvel, Rx 6= 0 para todo x ∈ R}n_{\{0}, e portanto x}T_{Ax > 0, caracterizando}

A como definida positiva.

Agora veremos decomposi¸cões similares às apresentadas nesta subse¸cão, porém para uma matriz semidefinida positiva. Tais decomposi¸cões não são consideradas clássicas como as que foram apresentadas até então, mas serão de grande utilidade em nosso es-tudo posterior.

Primeiramente, consideremos a decomposi¸c˜ao proposta por Higham [10], Teorema 10.9, que afirma que dada matriz sim´etrica semidefinida positiva A de posto r, existe uma matriz de permuta¸c˜_{ao P ∈ R}n×n tal que

PTAP = RTR,

onde R ∈ Rn×n _{tem a parti¸c˜}_ao

R = R1 R2 0 0

!

em que R1 ∈ Rr×r ´e uma matriz triangular superior com elementos positivos na diagonal

e R2 ∈ Rn×(n−r). A partir deste teorema, podemos construir a decomposi¸c˜ao

PTAP = UTDU, (1.2)

onde P ∈ Rn×n é uma matriz de permuta¸c˜_{ao, U ∈ R}n×n é uma matriz triangular superior com diagonal unit´_{aria, D ∈ R}n×n é matriz diagonal de parti¸cão

D = D1 0 0 0

! ,

onde D1 ∈ Rr×r ´e uma matriz diagonal de elementos positivos. De fato, consideremos

(20)

positivo. Sejam as matrizes U1 ∈ Rr×r e U2 ∈ Rr×(n−r) satisfazendo R1 = D 1 2 1U1 R2 = D 1 2 1U2.

Al´em disso, seja U3 a matriz identidade de dimens˜ao (n − r) × (n − r). Assim, temos que

se U = U1 U2 0 U3 ! , ent˜ao UTDU = U1 U2 0 U3 !T D1 0 0 0 ! U1 U2 0 U3 ! = U T 1 0 U₂T U₃T ! D1 0 0 0 ! U1 U2 0 U3 ! = U T 1D1U1 U1TD1U2 UT 2D1U1 U2TD1U2 ! = U T 1D 1 2 1D 1 2 1U1 U1TD 1 2 1D 1 2 1U2 U₂TD 1 2 1D 1 2 1U1 U2TD 1 2 1D 1 2 1U2 !

Como D1 ´e matriz diagonal, coincide com sua transposta, e portanto

UTDU = U T 1 (D 1 2 1)TD 1 2 1U1 U1T(D 1 2 1)TD 1 2 1U2 UT 2 (D 1 2 1)TD 1 2 1U1 U2T(D 1 2 1)TD 1 2 1U2 ! = (D 1 2 1U1)TD 1 2 1U1 (D 1 2 1U1)TD 1 2 1U2 (D 1 2 1U2)TD 1 2 1U1 (D 1 2 1U2)TD 1 2 1U2 ! = R T 1R1 R1TR2 RT 2R1 R2TR2 ! = R1 R2 0 0 !T R1 R2 0 0 ! = RTR = PTAP

provando assim a decomposi¸c˜ao desejada.

1.1.3 Decomposi¸

c˜

ao QR

Dada uma matriz A ∈ Rm×n_{, abordaremos nesta subse¸c˜}_{ao a decomposi¸c˜}_ao

(21)

onde Q ∈ Rm×m´_{e uma matriz ortogonal e R ∈ R}m×né triangular superior. O interesse em construir uma decomposi¸cão pautada em matrizes ortogonais é a facilidade da resolu¸cão de sistemas lineares, já que considerando a decomposi¸cão acima para o sistema (1.1) temos que

QRx = b Rx = QTb,

isto é, basta-nos fazer uma multiplica¸cão matriz-vetor e resolver um sistema triangular. Além disso, temos o conhecimento de várias informa¸cões associadas a uma matriz orto-gonal, como por exemplo sua norma, kQk2 = 1, seu determinante, det(Q) = ±1 e seu

raio espectral, ρ(Q) = 1, sendo estes sua norma-2, seu determinante e seu raio espectral, respectivamente. Iremos expor três formas clássicas para obten¸cão desta decomposi¸cão, sendo elas as transforma¸cões de Householder, as rota¸cões de Givens e o processo de orto-gonaliza¸cão de Gram-Schmidt.

Transforma¸c˜oes de Householder

Primeiramente, temos que uma transforma¸c˜ao de Householder ´e uma matriz que pode ser escrita na forma

P = I − 2vv

T

vT_v,

com I ∈ Rn×n a matriz identidade e v ∈ Rn \ {0}. Note que além de simétrica, uma transforma¸cão de Householder é uma matriz ortogonal. De fato,

PTP = I − 2vv T vT_v T I − 2vv T vT_v = I − 2vv T vT_v I − 2vv T vT_v = I − 2vv T vT_v − 2 vvT vT_v + 4 vvTvvT (vT_v)2 = I .

Nosso objetivo ´_{e, dado um x ∈ R}n_{, encontrar um vetor v para o qual}

P x = ±kxke1,

onde e1 ´e o vetor da base canˆonica

h

1 0 . . . 0 iT

. O seguinte teorema ser´a utilizado na constru¸c˜ao de tal vetor v.

Teorema 1.4. Seja x ∈ Rn_{, y ∈ R}n _{tal que kyk = 1, v = x − kxky e P = I − 2}vvT

(22)

matriz de Householder. Nestas condi¸c˜oes temos que

P x = kxky.

Demonstra¸c˜ao. Temos que

P x = I − 2vv T vT_v x = x − 2(v T_x)v vT_v = x − 2(x − kxky) T_{x(x − kxky)} (x − kxky)T_{(x − kxky)} = x − 2(x T_{x − kxky}T_{x)(x − kxky)} (x − kxky)T_{(x − kxky)} = x − 2 (x T_{x − kxky}T_{x)(x − kxky)} xT_{x − kxkx}T_{y − kxky}T_{x + kxk}2_kyk2

e como kyk = 1 temos

P x = x − 2(x

T_{x − kxky}T_{x)(x − kxky)}

2(xT_{x − kxky}T_x)

= x − (x − kxky) = kxky.

Atrav´es deste teorema, podemos tomar y = ±e1, obtendo a matriz de Householder

nas condi¸c˜oes desejadas.

Uma observa¸cão importante é que se x ≈ P x = kxke1 pode ocorrer, em aritmética de

ponto flutuante, que v = x − kxke1 = 0. Neste caso, escolhemos v tal que P x = −kxke1,

sendo tal vetor v = x + kxke1. Para contemplar esses dois casos, podemos considerar

sempre v = x + sign(x1)kxke1, sendo poss´ıvel provar que este vetor cumpre

kvk = max{kx − kxke1k, kx + kxke1k}.

Podemos então utilizar as transforma¸cões de Householder para calcular a decomposi¸cão QR de uma matriz, como veremos a seguir.

Dada A ∈ Rm×n_{, nosso intuito ´}_{e triangulariz´}_{a-la a partir de transforma¸c˜}_{oes ortogonais,}

que em nosso caso serão as transforma¸cões de Householder. Consideremos o vetor x = a1 como sendo a primeira coluna de A, criamos então a transforma¸cão de Householder

(23)

respectiva, P1, e portanto teremos

P1A =

ka1ke1 Ab₁

sendo bA1 o resultado da multiplica¸c˜ao entre P1 e as restantes colunas de A. No processo

de triangulariza¸c˜ao, tomando r11= ka1k podemos considerar a seguinte parti¸c˜ao

P1A =       r11 r12 . . . r1n 0 .. . 0 A2      

e aplicar o mesmo processo `a A2, tornando sua primeira coluna um m´ultiplo de e1 (vetor

canˆonico no espa¸co de dimens˜ao (m − 1)). Ou seja, considerar uma matriz de Householder P2 ∈ R(m−1)×(m−1) tal que P2A2 =       r22 r23 . . . r2n 0 .. . 0 A3       .

Para aplicar a matriz P2 diretamente a P1A, sem estragar a coluna j´a modificada,

multi-plicamos P1A pela matriz

Q2 =            1 0 · · · 0 0 .. . 0 P2            .

Seguindo este procedimento, temos ao final de n − 1 itera¸c˜oes a seguinte estrutura

In−2 0 0 Pn−1 ! ...               1 0 0 1 0 0 P3                          1 0 · · · 0 0 .. . 0 P2            P1A = R,

(24)

sendo In−2 a matriz identidade de R(n−2)×(n−2) e R triangular superior. Considerando

Q1 = P1, temos

Qn−1Qn−2...Q2Q1A = R.

´

E fácil verificar que cada matriz Qié simétrica e ortogonal, i = 1, ..., n−1, uma vez que são

formadas por matrizes identidades e matrizes de Householder. Podemos assim denotar QT _{= Q}

n−1Qn−2...Q2Q1, que ´e ortogonal por ser multiplica¸c˜ao de matrizes ortogonais,

obtendo ent˜ao a decomposi¸c˜ao

A = QR.

Rota¸c˜oes de Givens

Outra forma clássica de obter a decomposi¸cão QR de uma matriz é através das Rota¸cões de Givens, como veremos a seguir.

Considerando um vetor x ∈ R2_{, de coordenadas}

x = " x1 x2 # ,

temos que a matriz de rota¸c˜ao

G = cos(θ) sen(θ) −sen(θ) cos(θ)

!

rotaciona x um ˆangulo de θ radianos no sentido hor´ario, como mostra a Figura 1.1.

Figura 1.1: Interpreta¸c˜ao geom´etrica de uma matriz de rota¸c˜_{ao no R}2_.

(25)

podemos criar uma matriz de rota¸c˜ao tal que Gx = " kxk 0 # .

Efetivamente, não é necessário que o ângulo θ seja calculado, mas sim os valores cos(θ) e sen(θ), dados por

cos(θ) = x1 px2 1+ x22 ; sen(θ) = x2 px2 1+ x22 .

Através desta motiva¸cão, foram criadas as matrizes de rota¸cão de Givens, como vere-mos na próxima defini¸cão.

Defini¸cão 1.1. Uma matriz do tipo rota¸cão de Givens é dada por

G(i, j, θ) = I − Y,

onde I ∈ Rm×m _´_{e a matriz identidade e Y ∈ R}m×m _´_{e uma matriz nula, exceto nas}

coordenadas yii = yjj = 1 − cos(θ), yij = −sen(θ) = −yji, para algum ˆangulo θ. Isto ´e,

G(i, j, θ) ´e da forma i j G(i, j, θ) =                    1 0 1 . .. cos(θ) sen(θ) . .. −sen(θ) cos(θ) . .. 1 0 1                    i j

Agora, dado um vetor x ∈ Rm_{, e fixadas duas entradas de tal vetor, i e j, podemos}

criar a matriz de rota¸c˜ao de Givens cujo valor de θ satisfaz

cos(θ) = _q xi x2 i + x2j ; sen(θ) = _q xj x2 i + x2j ,

(26)

obtemos assim G(i, j, θ)x =                      x1 x2 .. . xicos(θ) + xjsen(θ) xi+1 .. . −xisen(θ) + xjcos(θ) xj+1 .. . xm                      =                       x1 x2 .. . q x2 i + x2j xi+1 .. . 0 xj+1 .. . xm                       .

Nosso objetivo agora é abordar a utiliza¸cão das matrizes de rota¸cão de Givens na obten¸cão da decomposi¸c˜_{ao QR de uma matriz. Para tal, consideremos A ∈ R}m×n, e seja

cos(θ1₁) = a11 pa2 11+ a221 ; sen(θ1₁) = a21 pa2 11+ a221 , obtendo portanto G1(1, 2, θ11)A =          pa2 11+ a221 0 a31 .. . am1 b A1         

Podemos assim construir sucessivas matrizes de Rota¸c˜ao de Givens, de forma que

G1(1, m, θm−11 )...G1(1, 3, θ21)G1(1, 2, θ11)A =            pa2 11+ · · · + a2n1 0 0 .. . 0 ea12 . . . ea1n A2           

Podemos a partir desta etapa proceder de maneira análoga ao que foi feito no caso das transforma¸cões de Householder, aplicando as matrizes de Rota¸cão de Givens a A2, e

(27)

considerando as matrizes no formato

1 0 0 G2

!

para que as dimensões estejam em consonância para multiplica¸cão por A e de forma a não retirar os zeros que já foram estabelecidos. Procedendo assim de forma a reduzir a dimensão das matrizes trabalhadas, ao final de m2₂−m multiplica¸cões teremos

Im−2 0 0 Gm−1(m − 1, m, θ1m−1) ! Im−3 0 0 Gm−2(m − 2, m, θ2m−2) ! . . . . . . Im−3 0 0 Gm−2(m − 2, m − 1, θm−21 ) ! G1(1, m, θ1m−1)...G1(1, 2, θ11)A = R,

onde R ∈ Rm×n é triangular superior. Podemos então denominar o conjunto de matrizes multiplicadas à esquerda de A por QT, sendo tal matriz ortogonal, e portanto teremos a decomposi¸cão

A = QR.

Note que as transforma¸cões de Householder são mais complexas, porém modificam coluna a coluna, enquanto que as Rota¸cões de Givens são mais simples de serem cons-tru´ıdas, mas modificam elemento a elemento. É poss´ıvel construir a decomposi¸cão QR de uma matriz mesclando ambas técnicas, onde as colunas esparsas (com muitos zeros) são modificadas através das Rota¸cões de Givens, e caso contrário são modificadas através das transforma¸cões de Householder.

Processo de ortogonaliza¸c˜ao de Gram-Schmidt

Nesta subse¸cão, discorreremos acerca de um método de ortogonaliza¸cão de vetores, denominado processo de ortogonaliza¸cão de Gram-Schmidt. Tal processo será utilizado em seguida para decomposi¸cão de uma matriz na forma QR já vista nas subse¸cões anteriores. Defini¸c˜_{ao 1.2. Sejam x e y vetores de R}n_{, com x 6= 0. A proje¸}_c˜_{ao ortogonal de y sobre}

x ´e definida como o vetor

proj_xy = hx, yi kxk2 x.

Utilizando tal defini¸c˜ao, apresentemos agora o processo de ortogonaliza¸c˜ao de Gram-Schmidt.

Teorema 1.5. Sejam F um subespa¸_{co de R}n _{e {v}

1, . . . , vk} uma base de F . Definamos

(28)

e em seguida, sucessivamente, u2 = v2− proju1v2 u3 = v3− proju1v3− proju2v3 .. . uk = vk− k−1 X i=1 proj_u_ivk.

Desta forma, temos que {u1, . . . , uk} ´e uma base ortogonal de F .

Demonstra¸c˜ao. [22, Teorema 5.20].

O teorema seguinte utiliza o processo de ortogonaliza¸c˜ao de Gram-Schmidt para cons-truir a decomposi¸c˜ao QR de uma matriz, como veremos agora.

Teorema 1.6. Se A ∈ Rm×n _{tem as colunas linearmente independentes, ent˜}_{ao A pode}

ser decomposta na forma A = QR, onde Q ∈ Rm×n _{tem colunas ortonormais e R ∈ R}n×n

´e uma matriz triangular superior n˜ao singular.

Demonstra¸c˜ao. Designemos as colunas de A por v1, . . . , vn, e designemos por u1, . . . , un

os vetores dois a dois ortogonais que se obtém das colunas de A aplicando o processo de ortogonaliza¸cão de Gram-Schmidt. Tais vetores estão relacionados por

u1 = v1u2 = v2− α12u1 u3 = v3− α13u1− α23u2 .. . un = vn− n−1 X i=1 αinui.

onde αrs são certos números. Estas rela¸cões podem ser escritas como

v1 = u1 v2 = α12u1+ u2 v3 = α13u1+ α23u2+ u3 .. . vn= α1nu1+ α2nu2+ · · · + αn−1,nun−1+ un.

(29)

Designando por U a matriz cujas colunas s˜ao u1, . . . , un, temos que A = U T , onde T =         1 α12 α13 . . . α1n 0 0 α23 . . . α2n 0 0 1 . . . α3n .. . ... ... . .. ... 0 0 0 . . . 1         .

Definamos agora D ∈ Rn×n como uma matriz diagonal de elementos ku1k, . . . , kunk.

Então, temos que D é invers´ıvel. Além disso, Q = U D−1é uma matriz ortogonal, R = DT é triangular superior não singular, e temos que

A = U T = U D−1DT = QR,

como quer´ıamos demonstrar.

1.1.4 Decomposi¸

c˜

ao em dire¸

c˜

oes conjugadas

O objetivo nesta subse¸cão é apresentar a decomposi¸cão de uma matriz semidefinida positiva, pautada em vetores dire¸cões conjugadas, defini¸cão que veremos a seguir. Vale salientar que a existência de tal decomposi¸cão está afirmada em [27], porém sem demons-tra¸cão e sem a abordagem de como conseguir os vetores A-conjugados de determinada matriz semidefinida positiva A ∈ Rn×n, sendo nosso objetivo explorar tais aspectos. Defini¸c˜_{ao 1.3. Seja A ∈ R}n×n _{uma matriz sim´}_{etrica. Um conjunto {d}

1, ..., dj} ´e dito

A-conjugado se dT

rAds= 0 se r 6= s e dTrAdr 6= 0, para todo 1 ≤ r, s ≤ j.

O pr´oximo Lema estabelece um fato simples de ´Algebra Linear, mas de sobremodo importante para o avan¸co de nossa teoria.

Lema 1.2. Seja A ∈ Rn×n _sim´_{etrica semidefinida positiva, com posto(A) = k. Ent˜}_ao

dado v ∈ Im(A) \ {0}, tem-se que vT_{Av > 0.}

Demonstra¸cão. Segundo o Teorema Espectral [9], como A é simétrica, existe uma base ortonormal de Rn _{formada por autovetores de A. Seja {u}

1, ..., uk, uk+1, ..., un} tal base, de

forma que os vetores u1, ..., uk s˜ao autovetores de A associados a autovalores n˜ao nulos,

e uk+1, ..., un autovetores associados ao autovalor 0. Desta forma, seja v ∈ Im(A), e

portanto existe b ∈ Rn _{tal que}

(30)

Reescrevendo b segundo a base de autovetores temos v = Ab = A n X j=1 αjuj ! = n X j=1 αjAuj = k X j=1 αjAuj + n X j=k+1 αjAuj = k X j=1 αjλjuj = k X j=1 βjuj. (1.3)

com βj = αjλj. Isto prova que Im(A) ⊆ span{u1, ..., uk}.

Agora, reescrevendo v segundo (1.3) em vT_{Av temos}

vTAv = ( k X j=1 βjuj)TA( k X j=1 βjuj) = ( k X j=1 βjuj)T( k X j=1 βjAuj) = ( k X j=1 βjuj)T( k X j=1 βjλjuj) = k X j=1 k X i=1 βjβiλiuTjui = k X j=1 β_j2λjkujk2,

e como pelo menos um escalar βj 6= 0, e λj > 0 para todo j = 1, ..., k, temos que vTAv > 0,

A partir deste lema, poderemos utilizar uma t´ecnica para criar vetores A-conjugados, a qual utilizaremos a seguir. Sejam v1, ...vk vetores de uma base para Im(A). Assim,

(31)

consideremos os seguintes vetores: p1 = v1; p2 = v2− pT₁Av2 pT 1Ap1 p1; .. . pi = vi− i−1 X j=1 pT jAvi pT jApj pj i = 1, ..., k.

Note que o procedimento acima pode ser visto como uma generaliza¸cão do processo de ortogonaliza¸cão de Gram-Schmidt, método já estudado neste trabalho. Para todo i = 1, ..., k, pi é combina¸cão linear dos vetores {v1, ..., vk}, e portanto pi ∈ Im(A). Assim,

para mostrar que pT_iApi 6= 0, basta provar que pi 6= 0. De fato, temos que se

pi = vi− αi−1vi−1− · · · − α1v1 = 0,

ter´ıamos uma combina¸cão linear não nula de v1, ..., vi gerando o vetor nulo, o que é uma

contradi¸cão, já que v1, ..., vk são vetores linearmente independentes.

´

E f´acil verificar que para i fixo, os vetores pt, t = 1, ..., i − 1, satisfazem pTtApi = 0.

Tal demonstra¸cão é feita por indu¸cão forte em i. De fato, para i = 2, temos

pT₁Ap2 = pT1A(v2− pT₁Av2 pT 1Ap1 p1) = pT1Av2− pT1Ap1 pT₁Av2 pT 1Ap1 = 0.

Assumindo a proposi¸c˜ao para 2, ..., i − 1 com i fixo, isto ´e, para 2 ≤ t, h ≤ i − 1 com t 6= h temos pT

tAph = 0, provaremos que a proposi¸cão é válida para i. Seja t ∈ {1, ..., i − 1} fixo,

ent˜ao pT_tApi = pTtA(vi− i−1 X h=1 pT hAvi pT hAph ph) = pT_tAvi− i−1 X h=1 pT hAvi pT hAph pT_tAph = pT_tAvi− i−1 X h=1 ; h6=t pT hAvi pT hAph pT_tAph− pT tAvi pT tApt pT_tApt = pT_tAvi− pT tAvi pT tApt pT_tApt = 0

(32)

e j ∈ {k + 1, ..., n} temos

pT_i Apj = pTi0 = 0.

Al´em disso, p1, ...., pk, pk+1, ..., pn´e base Rn, e portanto a matriz

P = p1 . . . pk pk+1 . . . pn

é não singular. Desta forma, obtemos a decomposi¸cão matricial

PTAP = D,

onde

D = D1 0 0 0

!

com D1 ∈ Rk×k matriz diagonal, onde os elementos da diagonal s˜ao da forma dii = pTi Api.

De fato, consideremos a parti¸c˜ao

P = P1 P2

onde P1 ´e formada pelos vetores da base de Im(A) e P2 ´e formada pelos vetores da base

de N (A). Ent˜ao PTAP = P T 1 PT 2 ! AP1 P2 = P T 1 PT 2 ! AP1 AP2 ,

e como P2 ´e formada por vetores base de N (A), AP2 = 0. Ent˜ao

PTAP = P T 1 PT 2 ! AP1 0 = P T 1 AP1 0 PT 2 AP1 0 ! .

Agora, temos que

(33)

Al´em disso, reescrevendo o primeiro bloco da matriz temos P₁TAP1 =       pT 1 pT 2 .. . pT k       Ap1 p2 . . . pk =       pT 1Ap1 pT1Ap2 . . . pT1Apk pT 2Ap1 pT2Ap2 . . . pT2Apk .. . ... . .. ... pT kAp1 pTkAp2 . . . pTkApk       =       pT 1Ap1 0 . . . 0 0 pT 2Ap2 . . . 0 0 0 . .. 0 0 0 . . . pT_kApk       ,

provando ent˜ao o desejado.

1.2 Elementos de Otimiza¸

c˜

ao

Na matemática, o termo Otimiza¸cão refere-se ao estudo de problemas em que se busca minimizar ou maximizar uma fun¸cão através da escolha de variáveis dentro de um conjunto viável. O desenvolvimento deste campo matemático é de muito interesse, já que o mesmo tem grande aplicabilidade na resolu¸cão de problemas reais. Grande parte dos teoremas apresentados nessa se¸cão podem ser encontrados em [21], sendo alguns expostos aqui para maior facilidade de leitura e compreensão dos tópicos subsequentes.

Primeiramente, consideremos o seguinte problema de otimiza¸c˜ao

min f (x)

s.a x ∈ Ω , (1.4)

onde f : Rn _{→ R é uma fun¸cão arbitrária e Ω ⊆ R}n _´_{e denominado conjunto vi´}_avel.

Durante esta se¸cão, exploraremos condi¸cões necessárias e suficientes para que um dado ponto x∗ seja solu¸cão do problema (1.4), considerando os casos em que o conjunto viável Ω compreende todo o espa¸co Rn_{, ou quando tal conjunto ´}_{e um subconjunto pr´}_{oprio de}

Rn.

1.2.1 Condi¸

c˜

oes de otimalidade para problemas sem restri¸

c˜

oes

Para esta subse¸c˜_{ao, consideraremos o caso em que Ω = R}n_{, isto ´}_{e, o problema (1.4) ´}_e

(34)

Defini¸c˜ao 1.4. Considere a fun¸c˜_{ao f : R}n _{→ R e x}∗ _{∈ Ω ⊂ R}n. Dizemos que x∗ ´e um minimizador local de f em Ω quando existe δ > 0 tal que f (x∗) ≤ f (x), para todo x ∈ B(x∗, δ)R Ω.

O teorema a seguir estabelece uma condi¸cão necessária para que um ponto seja mini-mizador de f , isto é, solu¸cão do problema (1.4).

Teorema 1.7 (Condi¸cão necessária de 1a_{ordem). Seja f : R}n_{→ R diferenciável no ponto} x∗. Se x∗ é um minimizador local de f , então

∇f (x∗) = 0.

Demonstra¸c˜_{ao. Considere d ∈ R}n\ {0} arbitr´ario. Como x∗ ´e minimizador local, existe δ > 0 tal que

f (x∗) ≤ f (x∗+ td), (1.5) para todo t ∈ (0, δ). Pela expans˜ao de Taylor,

f (x∗+ td) = f (x∗) + t∇f (x∗)Td + r(t),

com lim

t→0 r(t)

t = 0. Usando (1.5) e dividindo por t obtemos

0 ≤ ∇f (x∗)Td + r(t) t .

Aplicando o limite quando t → 0, obtemos ∇f (x∗)Td ≥ 0. Se ∇f (x∗) n˜ao fosse nulo, poder´ıamos tomar d = −∇f (x∗), resultando em

k∇f (x∗)k2 = −∇f (x∗)Td ≤ 0,

o que ´e uma contradi¸c˜ao. Logo, ∇f (x∗) = 0.

Denominaremos os pontos x ∈ Rn _{que cumprem ∇f (x) = 0 por pontos cr´ıticos ou}

estacionários de f . Vale salientar que nem todo ponto estacionário é um minimizador local de f , isto é, a rec´ıproca do teorema acima não é válida.

Avan¸cando na caracteriza¸cão dos minimizadores de f , apresentemos no próximo teo-rema a condi¸cão necessária de 2a _{ordem para minimizadores.}

Teorema 1.8 (Condi¸cão necessária de 2a _{ordem). Seja f : R}n _{→ R duas vezes} dife-renciável no ponto x∗. Se x∗ é um minimizador local de f , então a matriz Hessiana de f no ponto x∗ é semidefinida positiva, isto é,

dT∇2_{f (x}∗

(35)

para todo d ∈ Rn.

Demonstra¸c˜_{ao. Considere d ∈ R}n\ {0} arbitr´ario. Por Taylor,

f (x∗+ td) = f (x∗) + t∇f (x∗)Td + t 2 2d T_∇2_{f (x}∗ )d + r(t), com lim t→0 r(t) t2 = 0. Como x

∗_´_{e minimizador local, pelo teorema anterior temos que ∇f (x}∗_{) =}

0. Portanto, para t suficientemente pequeno,

0 ≤ f (x∗+ td) − f (x∗) = t

2

2d

t_∇2_{f (x}∗

)d + r(t).

Dividindo por t2 e aplicando limite quando t → 0, obtemos

dT∇2_{f (x}∗

)d ≥ 0.

Apresentadas as condi¸cões necessárias para que um ponto seja minimizador, apre-sentemos agora uma condi¸cão suficiente de 2a _{ordem para que um ponto seja de fato}

minimizador.

Teorema 1.9 (Condi¸c˜ao suficiente de 2a _{ordem). Seja f : R}n _{→ R duas vezes}

dife-renciável no ponto x∗. Se x∗ é um ponto estacionário de f e ∇2_{f (x}∗_{) ´}_{e definida positiva,}

ent˜ao x∗ ´e minimizador local de f .

Demonstra¸c˜ao. Seja λ o menor autovalor de ∇2_{f (x}∗_{). Como esta matriz ´}_{e definida}

posi-tiva, temos que λ > 0. Al´em disso, pelo quociente de Rayleigh (ver Apˆendice A) temos que dT_∇2_{f (x}∗_{)d ≥ λkdk}2_{, para todo d ∈ R}n_{. Por Taylor, j´}_{a usando o fato de x}∗ _ser

estacion´ario, temos

f (x∗+ d) = f (x∗) + 1 2d T_∇2_{f (x}∗ )d + r(d) ≥ f (x∗) + λ 2kdk 2_{+ r(d),} onde lim d→0 r(d)

kdk2 = 0. Podemos ent˜ao escrever

f (x∗ + d) − f (x∗) kdk2 ≥ λ 2 + r(d) kdk2. Como lim d→0 λ 2 + r(d) kdk2

> 0, existe δ > 0 tal que λ₂ + _kdkr(d)2 > 0, para todo d ∈ B(0, δ) \ {0},

donde segue que f (x∗+ d) − f (x∗) > 0, para todo d ∈ B(0, δ) \ {0}, ou, equivalentemente,

f (x∗) < f (x),

(36)

H´a ainda dois resultados a serem enunciados, fazendo referˆencia ao caso convexo, como veremos a seguir.

Teorema 1.10. Se ∇2f (x) ≥ 0 para todo x ∈ Ω, então f é convexa em Ω. Demonstra¸cão. [21, Teorema 3.16].

Teorema 1.11. Se f : Rn_{→ R ´e convexa, e ∇f(x}∗_{) = 0, ent˜}_{ao x}∗ _´_{e minimizador global}

de f em Rn_.

Desta forma, já temos ferramentas suficientes para discorrer acerca de minimizadores em problemas irrestritos. Nosso próximo passo é estabelecer resultados análogos aos apresentados nesta subse¸cão, porém para problemas restritos, isto é, quando o conjunto viável Ω é um subconjunto pr´_{oprio de R}n.

1.2.2 Condi¸

c˜

oes de otimalidade para problemas com restri¸

c˜

oes

Nesta subse¸c˜ao, consideraremos o caso em que o problema (1.4) tem a seguinte for-mula¸c˜ao min f (x) s.a cE(x) = 0 cI(x) ≤ 0 , (1.6) onde f : Rn _{→ R, c}

i : Rn → R, i ∈ E ∪ I s˜ao fun¸c˜oes de classe C2. Desta forma, temos

que o conjunto vi´avel ´e dado por

Ω = {x ∈ Rn| cE(x) = 0, cI(x) ≤ 0}. (1.7)

Defini¸cão 1.5. Seja x ∈ Ω. Uma restri¸cão de desigualdade ci, i ∈ I é dita ativa em x

se ci(x) = 0. Caso ci(x) < 0, dizemos que ci ´e inativa em x.

Vamos denotar por I(x) o conjunto de ´ındices das restri¸cões de desigualdade ativas em um ponto viável x, isto é,

I(x) = {i ∈ I | ci(x) = 0}.

Para avan¸carmos a caracteriza¸cão das solu¸cões de (1.6), precisamos discorrer sobre as chamadas condi¸cões de qualifica¸c˜_{ao. Um ponto x ∈ R}n _´_{e dito qualificado quando atende}

uma condi¸c˜ao de qualifica¸c˜ao.

Condi¸cão de qualifica¸cão de Slater: Consideremos o conjunto Ω, definido em (1.7). Dizemos que a condi¸cão de Slater é satisfeita quando cE é linear, cada componente ci,

(37)

i ∈ I ´e convexa e existe x ∈ Ω tal que_e

cE(_ex) = 0 e cI(x) < 0._e

Condi¸cão de qualifica¸cão de independência linear dos gradientes: Dizemos que x atende a condi¸cão de qualifica¸cão de independência linear (LICQ) quando o conjunto formado pelos gradientes das restri¸cões de igualdade e das restri¸cões de desigualdade ativas é linearmente independente, isto é,

{∇ci(x) | i ∈ E ∪ I(x)}

´e linearmente independente.

Há ainda na literatura outras condi¸cões de qualifica¸cão (ver [21]), sendo estas apresen-tadas aqui as mais clássicas e geralmente mais simples de se verificar. Agora, apresentemos condi¸cões de caracteriza¸cão para as solu¸cões do problema (1.6).

Teorema 1.12 (Condi¸cões de Karush-Kuhn-Tucker). Seja x∗ ∈ Ω um minimizador local de (1.6) e suponha que tal ponto é qualificado. Então existem vetores λ∗ e µ∗ tais que

−∇f (x∗_{) =}P i∈E λ ∗ i∇ci(x∗) +P_i∈Iµ∗i∇ci(x∗), µ∗_i ≥ 0, i ∈ I, µ∗_ici(x∗) = 0, i ∈ I. (1.8)

Demonstra¸c˜ao. [21, Teoremas 7.25, 7.35, 7.40 e 7.43].

As condi¸cões apresentadas em (1.8) são ditas condi¸cões de Karush-Kuhn-Tucker. Pela formula¸cão do teorema, nota-se que se não for verificada nenhuma condi¸cão de qualifica¸cão para x∗pode ocorrer que x∗seja minimizador e não cumpra as condi¸cões de Karush-Kuhn-Tucker (KKT), dificultando assim a caracteriza¸cão das solu¸cões de (1.6).

Agora, na continuidade da caracteriza¸cão das solu¸cões de (1.6), é de nosso interesse analisar as condi¸cões de otimalidade de segunda ordem, como veremos nos próximos teoremas. Para isso, consideremos o Lagrangiano associado ao problema (1.6), dado por

(x, λ, µ) ∈ Rn× Rm

× Rq _{7→ l(x, λ, µ) = f (x) + λ}T_c

E(x) + µTcI(x).

Os vetores λ e µ s˜ao denominados multiplicadores de Lagrange. Denotando as Jacobianas de cE e cI por AE e AI, respectivamente, temos

(38)

e ∇2 xxl(x, λ, µ) = ∇2f (x) + X i∈E λi∇2ci(x) + X i∈I µi∇2ci(x).

Teorema 1.13 (Condi¸c˜oes necess´arias de 2a _{ordem). Suponha que x}∗ _´_{e um minimizador}

local do problema (1.6) e que a condi¸cão de qualifica¸cão de independência linear é satisfeita em x∗. Considere os multiplicadores λ∗ e µ∗, que satisfazem as condi¸cões de KKT. Então,

dT∇2_xxl(x∗, λ∗, µ∗)d ≥ 0,

para todo d ∈ N (AE(x∗) ∪ N (AI(x∗₎(x∗)).

Teorema 1.14 (Condi¸cões suficientes de 2a ordem). Suponha que x∗ é viável para pro-blema (1.6) e que existem λ∗ _{∈ R}m e µ∗ _{∈ R}q₊ tais que (µ∗)TcI(x∗) = 0 e

∇f (x∗) + AE(x∗)Tλ∗+ AI(x∗)Tµ∗ = 0. Considere I+= {i ∈ I(x∗)|µ∗_i > 0}. Se dT∇2 xxl(x ∗ , λ∗, µ∗)d > 0,

para todo d ∈ N (AE(x∗) ∪ N (AI+(x∗)) \ {0}, ent˜ao existem δ > 0 e uma vizinhan¸ca V de

x∗ tal que

f (x) − f (x∗) ≥ δkx − x∗k2,

para todo ponto vi´avel x ∈ V . Em particular, segue que x∗ ´e um minimizador local estrito do problema (1.6).

Demonstra¸c˜ao. Pode ser encontrada em [21], Teorema 7.48.

Agora que já vimos as condi¸cões de otimalidade para problemas de minimiza¸cão sem e com restri¸cões, o foco de nossa próxima se¸cão será a abordagem de métodos de mini-miza¸cão para problemas irrestritos, como os métodos do gradiente, Newton e região de confian¸ca.

1.2.3 M´

etodo do gradiente

Dada uma fun¸c˜_{ao f : R}n_{→ R ∈ C}1_{, consideremos o problema irrestrito}

min

x∈Rn f (x).

Um método clássico para resolver este problema é o método do gradiente, sendo um método iterativo onde a cada itera¸cão k a dire¸cão de minimiza¸cão será a oposta ao gra-diente, isto é, para xk ∈ Rn a dire¸cão de minimiza¸cão é dada por dk = −∇f (xk). Tal

(39)

escolha provém do fato de que d = −∇f (x) é a dire¸cão de decréscimo mais acentuado de f a partir de x. De fato, se d = −∇f (x) e v ∈ Rn é tal que kvk = kdk, então

∂f

∂d(x) = ∇f (x)

T_{d = −k∇f (x)k}2 _{= −k∇f (x)kkvk ≤ ∇f (x)}T_{v =} ∂f

∂v(x).

Pelo resultado acima, muitos autores denotam tal método por método de máxima descida, ou ainda método de Cauchy.

No geral, calculado dk = −∇f (xk), fazemos uma busca linear ao londo da dire¸c˜ao dk,

tomando então a seguinte aproxima¸cão da solu¸cão como xk+1 = xk + αkdk, onde αk é

o tamanho do passo obtido na busca. Vejamos a seguir o algoritmo para o M´etodo do Gradiente.

(40)

Algoritmo 1 : M´etodo do Gradiente Dados x0 ∈ Rn, defina k = 0.

Enquanto ∇f (xk) 6= 0

Defina dk = −∇f (xk).

Determine o tamanho do passo αk > 0.

Defina xk+1 = xk+ αkdk.

k = k + 1 Fim

A convergência global deste método está descrita em [21], supondo a utiliza¸cão da busca linear exata ou de Armijo.

1.2.4 M´

etodo de Newton

Considere a fun¸c˜_{ao f : R}n_{→ R, com f ∈ C}2_{, e o problema de minimiza¸c˜}_ao

min

x∈Rn f (x). (1.9)

Para minimizar tal fun¸c˜ao objetivo, podemos considerar a aproxima¸c˜ao de segunda ordem de f em torno de um ponto xk, dada por

f (x) ≈ f (xk) + ∇f (xk)T(x − xk) +

1

2(x − xk)

T_∇2_{f (x}

k)(x − xk)

onde ∇2_{f (x) ∈ R}n×n _´_{e a Hessiana de f , e minimizar assim esse modelo local da fun¸c˜}_ao

f . Tomando d = x − xk, podemos resolver o problema aproximado

min d∈Rn f (xk) + ∇f (xk) T d + 1 2d T_∇2 f (xk)d.

Pela condi¸cão necessária de primeira ordem, a dire¸cão de minimiza¸cão satisfaz

∇2_{f (x}

k)d = −∇f (xk). (1.10)

Ent˜ao, desde que ∇2_{f (x}

k) seja invers´ıvel, a dire¸cão de minimiza¸cão será dada por

dk = −∇2f (xk)−1∇f (xk), (1.11)

chamada dire¸c˜ao de Newton.

Assim como o m´etodo do gradiente, dada a dire¸c˜ao dk, fazemos uma busca linear

obtendo o tamanho do passo αk, e assim tomando xk+1 = xk+ αkdk. Apresentemos agora

(41)

Algoritmo 2 : M´etodo de Newton Dados x0 ∈ Rn, defina k = 0.

Defina dk= −∇2f (xk)−1∇f (xk).

Determine o tamanho do passo αk > 0.

Defina xk+1 = xk+ αkdk.

k = k + 1 Fim

Computacionalmente, é mais viável obter a dire¸cão de Newton através da equa¸cão (1.10), pois geralmente a inversão da matriz Hessiana ∇2_{f (x}

k) ´e mais dispendiosa. Al´em

disso, o método pode não estar bem definido quando a Hessiana não é invers´ıvel para alguma itera¸cão.

A convergência deste método é atestada no próximo teorema, cuja demonstra¸cão pode ser encontrada em [21], Teorema 5.10.

Teorema 1.15. Seja f : Rn_{→ R de classe C}2_{. Suponha que x}∗

∈ Rn _{seja um}

minimiza-dor local de f , com ∇2_{f (x}∗_{) definida positiva. Ent˜}_{ao existe δ > 0 tal que se x}

0 ∈ B(x∗, δ),

o algoritmo do M´etodo de Newton, com αk= 1 para todo k ∈ N, gera uma sequˆencia (xk)

tal que: (i) ∇2_{f (x}

k) ´e definida positiva, para todo k ∈ N;

(ii) (xk) converge superlinearmente para x∗;

(iii) Se ∇2f é Lipschitz, então a convergência é quadrática. ´

E poss´ıvel considerar uma formula¸cão mais geral para o método de Newton, utilizado para encontrar zeros de fun¸cões. Neste caso, poder´ıamos aplicar tal método para encontrar o zero do gradiente de f , obtendo a formula¸cão clássica do Método de Newton para minimiza¸cão, tratado nesta subse¸cão.

1.2.5 M´

etodo de Newton para zeros de fun¸

c˜

oes

Consideremos F : Rn_{→ R}n _{de classe C}1 _{e o problema de resolver o sistema}

F (x) = 0.

Assim, dado xk, podemos considerar a aproxima¸c˜ao linear de F em torno de xk, dada por

T (x) = F (xk) + J (xk)(x − xk),

onde J (xk) ∈ Rn×n ´e a Jacobiana de F avaliada em xk, e buscar x tal que T (x) = 0, isto

´e,

(42)

Desde que J (xk) seja invers´ıvel, temos que a nova aproxima¸c˜ao para um zero da F ´e

xk+1 = xk− (J(xk))−1F (xk).

Podemos formalizar o m´etodo no seguinte algoritmo.

Algoritmo 3 : M´etodo de Newton para zeros de fun¸c˜oes Dados x0 ∈ Rn, defina k = 0. Enquanto F (xk) 6= 0 Defina dk = −(J (xk))−1F (xk). Defina xk+1 = xk+ dk. k = k + 1 Fim

A demonstra¸cão de convergência é dada no próximo teorema, e sua demonstra¸cão também pode ser encontrada em [21], Teorema 5.13.

Teorema 1.16. Seja F : Rn_{→ R}n _{de classe C}1 _{com Jacobiana J Lipschitz de constante}

L, x∗ _{∈ R}n _{uma raiz de F , com J (x}∗_{) invers´ıvel e δ =} 2 3 λ

L, onde λ > 0 ´e o menor valor

singular de J (x∗). Se x0 ∈ B(x∗, δ), ent˜ao o algoritmo para o M´etodo de Newton para

zeros de fun¸cões gera uma sequência (xk) tal que xk→ x∗ com velocidade de convergência

quadr´atica.

No caso de fun¸cões reais de variável real, dado xk∈ R obtemos como próximo iterando

xk+1 = xk− αk

f (xk)

f0_(x k)

.

Como vimos no Teorema 1.16, a convergência deste método é local, e portanto é interes-sante conhecer o intervalo onde a raiz se encontra. Vejamos um exemplo onde o método de Newton para zeros de fun¸cões falha.

Exemplo 1.1: Consideremos a fun¸c˜_{ao f : R}+ _{→ R dada por}

f (x) = 3x − 1 x2 .

A fun¸cão f tem um zero em x = 1₃, e dado xk, a sequência gerada pelo método de Newton

considerando o passo αk= 1 ´e dada por

xk+1 = xk− f (xk) f0_(x k) = xk− (3xk− 1)xk −3xk+ 2 .

(43)

Assim, tomando x0 > 2₃, temos que −

(3xk−1)xk

−3xk+2 > 0 e portanto a sequˆencia ´e crescente.

Al´em disso, xk+1 xk = xk− (3xk−1)xk −3xk+2 xk = 1 + 3xk− 1 3xk− 2 = 1 + 3xk− 2 + 1 3xk− 2 = 2 + 1 3 xk− 2₃ ≥ 2

e portanto a sequência tende a infinito, não obtendo a raiz desejada, como podemos ver na próxima imagem, onde consideramos x0 = 1.

Figura 1.2: Caso em que o M´etodo de Newton para zero de fun¸c˜oes falha.

Por este motivo, um dos objetos de estudo é estabelecer salvaguardas para o problema, isto é, encontrar um intervalo onde o zero da fun¸cão se encontra. Para o exemplo anterior, se tivermos o conhecimento de que a raiz se encontra no intervalo [0, 1], ao iniciarmos com x0 = 1, x1 6∈ [0, 1] e portanto teremos um ind´ıcio de que estamos indo pelo caminho

errado. Assim, podemos tomar um novo x0 ∈ [0, 1], at´e obtermos de fato a raiz.

Apesar da convergência quadrática do método de Newton, em ambas versões, o método apresenta problemas acerca do custo computacional, pois faz o uso de derivadas de segunda ordem. Veremos na próxima subse¸cão um método pautado na aproxima¸cão quadrática da fun¸cão objetivo, porém considerando um majorante para norma do passo, denominado método de região de confian¸ca.

(44)

1.2.6 M´

etodo de regi˜

ao de confian¸

ca

Considere o problema irrestrito apresentado em (1.9). Assim, dado um ponto xk, o

método de região de confian¸ca consiste na resolu¸cão do problema

min qk(x)

s.a kx − xkk ≤ ∆k

onde ∆k > 0 é chamada raio de confian¸ca, qk(x) é a aproxima¸cão da fun¸cão f por um

modelo quadr´atico em volta de xk, isto ´e,

qk(x) = f (xk) + ∇f (xk)T(x − xk) +

1

2(x − xk)

T

Bk(x − xk),

onde Bk∈ Rn×n pode ser a Hessiana ∇2f (xk) ou qualquer matriz sim´etrica que satisfa¸ca

kBkk ≤ β, para algum valor de β > 0, independente de k ∈ N. Tomando d = x − xk,

podemos facilitar a nota¸c˜ao tomando mk(d) = qk(xk+ d), e portanto nosso problema se

resume a

min mk(d)

s.a kdk ≤ ∆k

. (1.12)

A próxima imagem retrata o método de região de confian¸ca tomando Bk = ∇2f (xk).

x

k

x

k+1

Figura 1.3: M´etodo de Regi˜ao de Confian¸ca.

Desde que a região ∆k não seja grande, é natural que a minimiza¸cão do modelo

quadrático influencie na minimiza¸cão da fun¸cão f . Porém, não é anal´ıtica a determina¸cão de uma região ótima, de forma que a cada passo da minimiza¸cão do modelo seja feita uma análise da redu¸cão real na fun¸cão objetivo, decidindo assim a aceita¸cão ou rejei¸cão do minimizador. Para tal, consideremos

(45)

aredk = f (xk) − f (xk+ dk)

a redu¸cão real na fun¸cão objetivo provocada na itera¸cão k, predk = mk(0) − mk(dk)

a redu¸c˜ao descrita no modelo quadr´atico mk e

ρk =

aredk

predk

. (1.13)

o coeficiente de redu¸cão relativa. Desta forma, temos um indicador da eficácia do modelo mk(d). Note que predk é sempre positivo, já que dk é minimizador de mk(d). Assim, se

ρké pequeno, ou até mesmo negativo, então a redu¸cão real não foi satisfatória em rela¸cão

`

a redu¸cão do modelo. Caso ρk esteja próximo de 1, o modelo representou bem a fun¸cão

objetivo localmente em torno de xk. Ainda pode ocorrer de ρk > 1, o que nos diz que a

redu¸c˜ao real foi maior que a apresentada pelo modelo.

Aceitaremos o passo dk, solu¸c˜ao de (1.12), quando o coeficiente ρk for maior que uma

constante η ≥ 0 dada. Neste caso, temos xk+1 = xk+ dk. Caso ρk ≤ η, temos que o

modelo não representou bem a fun¸cão na região de confian¸ca, então rejeitamos o passo dk, diminu´ımos a região de confian¸ca e constru´ımos um novo modelo (1.12) sujeito à nova

regi˜ao.

A fim de caracterizar a solu¸cão do problema (1.12), os próximos dois teoremas estabe-lecem a equivalência entre o problema de minimiza¸cão e a solu¸cão de um sistema linear, facilitando a obten¸cão da solu¸cão. As demonstra¸cões não foram encontradas na literatura, exceto para o caso S = I, em [3], Teorema 7.2.1, e [8], Teorema 1, do qual nos embasamos para adaptar a prova.

Teorema 1.17. Sejam B ∈ Rn×n _{uma matriz sim´}_{etrica, S ∈ R}n×n_{, g ∈ R}n _{e c ∈}

R.Assim, dado d∗ ∈ Rn, com kSd∗k ≤ ∆ e λ∗ ≥ 0 tais que as três condi¸cões são

simulta-neamente satisfeitas

(B + λ∗STS)d∗ = −g, (∆ − kSd∗k)λ∗ = 0 e (B + λ∗STS) ≥ 0

então d∗ é solu¸cão global do problema de região de confian¸ca

min m(d) = c + gT_{d +} 1 2d

T_Bd

s.a kSdk ≤ ∆

Demonstra¸cão. Primeiramente, minimizar a fun¸cão objetivo acima é equivalente a mini-mizar m(d) = gT_{d +} 1

2d

T_{Bd, j´}_{a que c ´}_{e uma constante. Temos que d}

∗ ´e minimizador b m(d) = gTd +1 2d T_{(B + λ} ∗STS)d = m(d) + λ∗ 2 d T_ST_Sd,

(46)

por ser o ponto estacion´ario da quadr´atica convexa m(d), por (1.11) . Ent˜_b ao m(d) ≥_b b

m(d∗), para todo d ∈ Rn, e segue que

m(d) =m(d) −_b λ∗ 2 d T_ST_Sd ≥m(d) −_b λ∗ 2 d T STSd ≥ m(d∗) + λ∗ 2 (d T ∗S T Sd∗− dTSTSd). (1.14)

Multiplicando λ∗(∆ − kSd∗k) = 0 por 1₂(∆ + kSd∗k) em ambos lados da equa¸c˜ao temos

que 1 2λ∗(∆ 2_{− d}T ∗STSd∗) = 0. (1.15) Somando (1.15) em (1.14) temos m(d) ≥ m(d∗) + λ∗ 2 (∆ 2_{− d}T_ST_Sd) = m(d∗) + λ∗ 2 (∆ 2_{− kSdk}2_).

Assim, por λ∗ ≥ 0, m(d) ≥ m(d∗), para todo d com kSdk ≤ ∆, e portanto d∗ ´e solu¸c˜ao

do problema

min m(d) = gTd + 1₂dTBd s.a kSdk ≤ ∆ .

O pr´oximo teorema estabelece a rec´ıproca do resultado anterior, caracterizando com-pletamente o minimizador global do problema de regi˜ao de confian¸ca.

Teorema 1.18. Se d∗ ´e solu¸c˜ao global do problema

min m(d) = c + gTd + 1₂dTBd s.a kSdk ≤ ∆

ent˜ao existe λ∗ ≥ 0 tal que

(B + λ∗STS)d∗ = −g, (∆ − kSd∗k)λ∗ = 0 e (B + λ∗STS) ≥ 0

Demonstra¸c˜ao. Primeiramente, reescrevamos a restri¸c˜ao kSdk ≤ ∆ como r(d) = 1₂(kSdk2− ∆2) ≤ 0. Para provar tal teorema, consideraremos dois casos:

(1) Se kSd∗k < ∆, então d∗ é minimizador irrestrito de m(d). Logo, pelas condi¸cões

(47)

(

∇m(d∗) = 0 ⇒ Bd∗+ g = 0

∇2_m(d

∗) ≥ 0 ⇒ B ≥ 0

Assim, λ∗ = 0 satisfaz as condi¸c˜oes desejadas.

(2) Se kSd∗k = ∆, d∗ ´e qualificado, pois o conjunto dos gradientes das restri¸c˜oes ativas,

formado apenas por STSd∗ 6= 0, ´e linearmente independente. Assim, consideremos

a Lagrangeana associada ao problema,

L(d, λ) = m(d) + λr(d) = m(d) + λ 2(d

T_ST_{Sd − ∆}2_).

Desta forma, a condi¸c˜ao de KKT sobre a Lagrangeana ´e dada por

0 = ∇dL(d∗, λ∗) = ∇m(d∗) + λ∗∇r(d∗) (1.16) = Bd∗+ g + λ∗STSd∗ do que segue (B + λ∗STS)d∗ = −g. ´

E importante lembrar que a propriedade (∆ − kSd∗k)λ∗ = 0 j´a ´e atendida, pelo fato de

que kSd∗k = ∆. Assim, basta mostrar que (B + λ∗STS) ≥ 0.

De (1.16) temos que ∇m(d∗) = −λ∗STSd∗. Como d∗ ´e solu¸c˜ao do problema, m(d) ≥

m(d∗), para todo d tal que kSdk ≤ ∆, em particular, para d tal que kSdk = ∆. Ent˜ao

temos que ∇m(d∗)T(d − d∗) = −λ∗dT∗STS(d − d∗) = λ∗(∆2− dT∗STSd) = λ∗ 1 2(d T ∗STSd∗+ d T STSd) − dT_∗STSd = λ∗ 2 (d − d∗) T_ST_{S(d − d} ∗). (1.17)

Como m é quadrática, temos que sua aproxima¸cão de segunda ordem é

m(d) = m(d∗) + ∇m(d∗)T(d − d∗) + 1 2(d − d∗) T B(d − d∗). Por (1.17) temos m(d) = m(d∗) + 1 2(d − d∗) T_{(B + λ} ∗STS)(d − d∗).

(48)

Como m(d) − m(d∗) ≥ 0, segue que

1

2(d − d∗)

T_{(B + λ}

∗STS)(d − d∗) ≥ 0. (1.18)

Por outro lado, pelas condi¸c˜oes de segunda ordem sobre a Lagrangeana do problema (Teorema 1.13), temos que ∇2

dL(d∗, λ∗) = B + λ∗STS ´e semidefinida positiva no n´ucleo

de ∇r(d∗) = STSd∗, ou seja, zT(B + λ∗STS)z ≥ 0 para todo z ∈ Rn tal que zTSTSd∗ =

0. Assim, basta mostrar a semipositividade para v ∈ Rn_{\ {0} tal que v}T_ST_Sd ∗ 6= 0.

Consideremos a reta Sd∗ + ξSv, com ξ ∈ R. Dado que (Sv)T(Sd)∗ 6= 0, tal reta ir´a

interceptar a esfera de raio ∆ em dois pontos. De fato, a equa¸c˜ao

kSd∗+ ξSvk2 = ∆2

tem solu¸c˜ao em ξ = 0 com p = Sd∗, e para ξ 6= 0, temos que

kSd∗k2+ 2ξ(Sd∗)TSv + ξ2(Sv)TSv − ∆2 = 0,

e por hip´otese kSd∗k = ∆2 e ξ 6= 0, ent˜ao

ξ = −2(Sd∗)

T_Sv

(Sv)T_(Sv),

estando bem definido e sendo diferente de zero, pois vTSTSd∗ 6= 0. Nomeando tal ξ por ξ,

com p = Sd∗+ ξSv, e denominando d = d∗+ ξv, temos que kSdk = ∆. Logo, substituindo

d − d∗ = ξv em (1.18) nos da

1 2(ξ)

2_vT_{(B + λ}

∗STS)v ≥ 0

provando assim o desejado.

O problema apresentado em (1.12) é um caso particular em que S = I. Na prática, nem sempre é poss´ıvel obter a solu¸cão exata para o subproblema (1.12), porém é poss´ıvel tomar uma solu¸cão aproximada e ainda assim obter a convergência do método. As solu¸cões que possibilitam essa convergência estão fortemente associadas à dire¸cão de Cauchy, através de uma rela¸cão que veremos a seguir. Por sua vez, o passo de Cauchy é dado por

dc_k = −αk∇f (xk), (1.19)

onde αk> 0 ´e a solu¸c˜ao do problema

min mk(−α∇f (xk)) = f (xk) − αk∇f (xk)k2+1₂α2∇f (xk)Bk∇f (xk)

s.a kα∇f (xk)k ≤ ∆k

(49)

Assim, podemos resolver o problema unidimensional (1.20), encontrando uma aproxima¸cão para solu¸cão de (1.12). Podemos estimar a redu¸cão obtida no modelo quadrático através do uso da dire¸cão de Cauchy, como veremos no seguinte lema.

Lema 1.3. O passo de Cauchy, definido em (1.19), satisfaz

mk(0) − mk(dck) ≥ 1 2k∇f (xk)kmin ∆k, k∇f (xk)k kBkk . (1.21) :

Demonstra¸c˜ao. [21, Lema 5.36].

Como já dissemos, para que haja a convergência do Método de Região de Confian¸ca, não é necessário que tomemos o minimizador exato do problema (1.12), mas sim uma aproxima¸cão que satisfa¸ca algumas propriedades. Efetivamente, se a dire¸cão de mini-miza¸cão obtida proporciona uma redu¸cão do modelo proporcional à apresentada no Lema 1.3, já é poss´ıvel obter a convergência do método. Apresentemos agora o algoritmo do Método de Região de Confian¸ca.

Algoritmo 4 : M´etodo de Regi˜ao de Confian¸ca Dados x0 ∈ Rn, ∆0 > 0 e η ∈ [0,1₄), defina k = 0.

Obtenha dk, solu¸c˜ao aproximada de (1.12).

Calcule ρk usando (1.13). se ρk > η xk+1 = xk+ dk senão xk+1 = xk fim se ρk < 1₄ ∆k+1 = ∆₂k senão se ρk > 3₄ e kdkk = ∆k ∆k+1 = 2∆k senão ∆k+1 = ∆k fim fim k = k + 1 Fim

Note que se o decr´escimo relativo for suficientemente grande, no nosso caso maior que

3

4, e se kdkk = ∆k, temos um ind´ıcio de que poder´ıamos obter uma dire¸c˜ao de maior

decréscimo fora da região de confian¸ca. Por isso, neste caso aumentamos a região para próxima itera¸cão. Vale salientar que os valores 1₄, 3₄, e as constantes de atualiza¸cão da região de confian¸ca, consideradas aqui por 1₂ para redu¸cão e 2 para extensão, podem ser

(50)

alterados sem comprometer a convergência do método. Veremos no próximo teorema as condi¸cões que garantem tal convergência.

Teorema 1.19. Consideremos o problema irrestrito (1.4), e que as seguintes hip´oteses sejam satisfeitas:

H1 A fun¸cão objetivo f é de classe C1, com ∇f Lipschitz. H2 A solu¸cão aproximada dk de (1.12) satisfaz

predk = mk(0) − mk(dk) ≥ c1k∇f (xk)kmin ∆k, k∇f (xk)k kBkk ,

onde c1 > 0 ´e uma constante.

H3 O passo dk satisfaz kdkk ≤ γ∆k, para alguma constante γ ≥ 1.

H4 As Hessianas Bk s˜ao uniformemente limitadas, isto ´e, existe uma constante β > 0

tal que kBkk ≤ β para todo k ∈ N.

H5 A fun¸c˜ao f ´e limitada inferiormente no conjunto de n´ıvel

N = {x ∈ Rn|f (x) ≤ f (x0)}.

Desta forma, seja (xk) a sequência gerada pelo algoritmo do método de região de confian¸ca.

Segue que

lim inf

k→+∞ k∇f (xk)k = 0.

Al´em disso, se η > 0 temos que

∇f (xk) → 0.

(51)

Introdu¸

c˜

ao ao problema de

quadrados m´ınimos

Veremos ao longo deste cap´ıtulo conceitos introdutórios acerca do problema de qua-drados m´ınimos. A primeira se¸cão trata da resolu¸cão de sistemas lineares que admitem ou não solu¸cão exata. A segunda se¸cão foca-se na introdu¸cão do problema de quadrados m´ınimos não linear, abrangendo os métodos de Newton e de Gauss-Newton.

2.1 O problema de quadrados m´ınimos linear

Consideremos o sistema linear (1.1), isto ´e,

Ax = b,

onde A ∈ Rm×n, x ∈ Rn e b ∈ Rm. Temos que o espa¸co das colunas de A, Im(A), ´e dado por

Im(A) = {Ax : x ∈ Rn} , isto ´e,

Im(A) = span{A1, A2, . . . , An},

onde Ai representa a coluna i de A, i = 1, . . . , n. Desta forma, o sistema (1.1) admitir´a

solu¸cão caso b ∈ span{A1, A2, . . . , An}. Uma interpreta¸cão geométrica deste caso é dada

a seguir.

(52)

Figura 2.1: Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b ∈ Im(A).

No caso em que b 6∈ span{A1, A2, . . . , An}, o sistema (1.1) n˜ao tem solu¸c˜ao. Desta

forma, é de nosso interesse encontrar um ponto x tal que a distância entre Ax e b seja m´ınima, relativamente à norma-2, como podemos ver ilustrado na próxima figura.

Figura 2.2: Interpreta¸c˜ao geom´etrica do sistema Ax = b caso b 6∈ Im(A).

Matematicamente, queremos resolver o problema

min