1.2 Elementos de Otimiza¸ c˜ ao
1.2.6 M´ etodo de regi˜ ao de confian¸ ca
Considere o problema irrestrito apresentado em (1.9). Assim, dado um ponto xk, o m´etodo de regi˜ao de confian¸ca consiste na resolu¸c˜ao do problema
min qk(x) s.a kx−xkk ≤∆k
onde ∆k > 0 ´e chamada raio de confian¸ca, qk(x) ´e a aproxima¸c˜ao da fun¸c˜ao f por um modelo quadr´atico em volta dexk, isto ´e,
qk(x) =f(xk) +∇f(xk)T(x−xk) + 1
2(x−xk)TBk(x−xk),
ondeBk∈Rn×n pode ser a Hessiana ∇2f(xk) ou qualquer matriz sim´etrica que satisfa¸ca kBkk ≤ β, para algum valor de β > 0, independente de k ∈ N. Tomando d = x−xk, podemos facilitar a nota¸c˜ao tomando mk(d) = qk(xk+d), e portanto nosso problema se resume a
min mk(d)
s.a kdk ≤∆k. (1.12)
A pr´oxima imagem retrata o m´etodo de regi˜ao de confian¸ca tomando Bk =∇2f(xk).
x
kx
k+1Figura 1.3: M´etodo de Regi˜ao de Confian¸ca.
Desde que a regi˜ao ∆k n˜ao seja grande, ´e natural que a minimiza¸c˜ao do modelo quadr´atico influencie na minimiza¸c˜ao da fun¸c˜aof. Por´em, n˜ao ´e anal´ıtica a determina¸c˜ao de uma regi˜ao ´otima, de forma que a cada passo da minimiza¸c˜ao do modelo seja feita uma an´alise da redu¸c˜ao real na fun¸c˜ao objetivo, decidindo assim a aceita¸c˜ao ou rejei¸c˜ao do minimizador. Para tal, consideremos
aredk =f(xk)−f(xk+dk) a redu¸c˜ao real na fun¸c˜ao objetivo provocada na itera¸c˜ao k,
predk =mk(0)−mk(dk) a redu¸c˜ao descrita no modelo quadr´atico mk e
ρk = aredk
predk. (1.13)
o coeficiente de redu¸c˜ao relativa. Desta forma, temos um indicador da efic´acia do modelo mk(d). Note que predk ´e sempre positivo, j´a que dk ´e minimizador de mk(d). Assim, se ρk´e pequeno, ou at´e mesmo negativo, ent˜ao a redu¸c˜ao real n˜ao foi satisfat´oria em rela¸c˜ao
`
a redu¸c˜ao do modelo. Caso ρk esteja pr´oximo de 1, o modelo representou bem a fun¸c˜ao objetivo localmente em torno de xk. Ainda pode ocorrer de ρk >1, o que nos diz que a redu¸c˜ao real foi maior que a apresentada pelo modelo.
Aceitaremos o passodk, solu¸c˜ao de (1.12), quando o coeficiente ρk for maior que uma constante η ≥ 0 dada. Neste caso, temos xk+1 = xk+dk. Caso ρk ≤ η, temos que o modelo n˜ao representou bem a fun¸c˜ao na regi˜ao de confian¸ca, ent˜ao rejeitamos o passo dk, diminu´ımos a regi˜ao de confian¸ca e constru´ımos um novo modelo (1.12) sujeito `a nova regi˜ao.
A fim de caracterizar a solu¸c˜ao do problema (1.12), os pr´oximos dois teoremas estabe-lecem a equivalˆencia entre o problema de minimiza¸c˜ao e a solu¸c˜ao de um sistema linear, facilitando a obten¸c˜ao da solu¸c˜ao. As demonstra¸c˜oes n˜ao foram encontradas na literatura, exceto para o casoS =I, em [3], Teorema 7.2.1, e [8], Teorema 1, do qual nos embasamos para adaptar a prova.
Teorema 1.17. Sejam B ∈ Rn×n uma matriz sim´etrica, S ∈ Rn×n, g ∈ Rn e c ∈ R.Assim, dadod∗ ∈Rn, com kSd∗k ≤∆e λ∗ ≥0 tais que as trˆes condi¸c˜oes s˜ao simulta-neamente satisfeitas
(B+λ∗STS)d∗ =−g, (∆− kSd∗k)λ∗ = 0 e (B +λ∗STS)≥0 ent˜ao d∗ ´e solu¸c˜ao global do problema de regi˜ao de confian¸ca
min m(d) =c+gTd+ 12dTBd s.a kSdk ≤∆
Demonstra¸c˜ao. Primeiramente, minimizar a fun¸c˜ao objetivo acima ´e equivalente a mini-mizarm(d) =gTd+ 12dTBd, j´a que c´e uma constante. Temos que d∗ ´e minimizador
m(d) =b gTd+1
2dT(B+λ∗STS)d=m(d) + λ∗
2 dTSTSd,
por ser o ponto estacion´ario da quadr´atica convexa m(d), por (1.11) . Ent˜b ao m(d)b ≥ m(db ∗), para todo d∈Rn, e segue que
m(d) =m(d)b − λ∗
2 dTSTSd
≥m(d)b − λ∗
2 dTSTSd
≥m(d∗) + λ∗
2 (dT∗STSd∗−dTSTSd). (1.14) Multiplicando λ∗(∆− kSd∗k) = 0 por 12(∆ +kSd∗k) em ambos lados da equa¸c˜ao temos que
1
2λ∗(∆2−dT∗STSd∗) = 0. (1.15) Somando (1.15) em (1.14) temos
m(d)≥m(d∗) + λ∗
2 (∆2−dTSTSd)
=m(d∗) + λ∗
2 (∆2− kSdk2).
Assim, por λ∗ ≥ 0, m(d) ≥ m(d∗), para todo d com kSdk ≤ ∆, e portanto d∗ ´e solu¸c˜ao do problema
min m(d) =gTd+ 12dTBd s.a kSdk ≤∆ .
O pr´oximo teorema estabelece a rec´ıproca do resultado anterior, caracterizando com-pletamente o minimizador global do problema de regi˜ao de confian¸ca.
Teorema 1.18. Se d∗ ´e solu¸c˜ao global do problema
min m(d) =c+gTd+ 12dTBd s.a kSdk ≤∆
ent˜ao existe λ∗ ≥0 tal que
(B+λ∗STS)d∗ =−g, (∆− kSd∗k)λ∗ = 0 e (B +λ∗STS)≥0
Demonstra¸c˜ao. Primeiramente, reescrevamos a restri¸c˜aokSdk ≤∆ comor(d) = 12(kSdk2−
∆2)≤0. Para provar tal teorema, consideraremos dois casos:
(1) Se kSd∗k < ∆, ent˜ao d∗ ´e minimizador irrestrito de m(d). Logo, pelas condi¸c˜oes necess´arias de otimalidade temos
( ∇m(d∗) = 0 ⇒ Bd∗+g = 0
∇2m(d∗)≥0 ⇒ B ≥0 Assim, λ∗ = 0 satisfaz as condi¸c˜oes desejadas.
(2) SekSd∗k= ∆, d∗ ´e qualificado, pois o conjunto dos gradientes das restri¸c˜oes ativas, formado apenas por STSd∗ 6= 0, ´e linearmente independente. Assim, consideremos a Lagrangeana associada ao problema,
L(d, λ) =m(d) +λr(d) = m(d) + λ
2(dTSTSd−∆2).
Desta forma, a condi¸c˜ao de KKT sobre a Lagrangeana ´e dada por 0 = ∇dL(d∗, λ∗)
=∇m(d∗) +λ∗∇r(d∗) (1.16)
=Bd∗+g+λ∗STSd∗
do que segue
(B +λ∗STS)d∗ =−g.
E importante lembrar que a propriedade (∆´ − kSd∗k)λ∗ = 0 j´a ´e atendida, pelo fato de quekSd∗k= ∆. Assim, basta mostrar que (B +λ∗STS)≥0.
De (1.16) temos que ∇m(d∗) =−λ∗STSd∗. Como d∗ ´e solu¸c˜ao do problema, m(d)≥ m(d∗), para todo d tal que kSdk ≤ ∆, em particular, para d tal que kSdk = ∆. Ent˜ao temos que
∇m(d∗)T(d−d∗) = −λ∗dT∗STS(d−d∗)
=λ∗(∆2−dT∗STSd)
=λ∗
1
2(dT∗STSd∗+dTSTSd)−dT∗STSd
= λ∗
2 (d−d∗)TSTS(d−d∗). (1.17) Comom ´e quadr´atica, temos que sua aproxima¸c˜ao de segunda ordem ´e
m(d) =m(d∗) +∇m(d∗)T(d−d∗) + 1
2(d−d∗)TB(d−d∗).
Por (1.17) temos
m(d) =m(d∗) + 1
2(d−d∗)T(B +λ∗STS)(d−d∗).
Comom(d)−m(d∗)≥0, segue que 1
2(d−d∗)T(B+λ∗STS)(d−d∗)≥0. (1.18) Por outro lado, pelas condi¸c˜oes de segunda ordem sobre a Lagrangeana do problema (Teorema 1.13), temos que ∇2dL(d∗, λ∗) = B+λ∗STS ´e semidefinida positiva no n´ucleo de∇r(d∗) =STSd∗, ou seja, zT(B +λ∗STS)z ≥ 0 para todoz ∈ Rn tal que zTSTSd∗ = 0. Assim, basta mostrar a semipositividade para v ∈ Rn\ {0} tal que vTSTSd∗ 6= 0.
Consideremos a reta Sd∗ +ξSv, com ξ ∈ R. Dado que (Sv)T(Sd)∗ 6= 0, tal reta ir´a interceptar a esfera de raio ∆ em dois pontos. De fato, a equa¸c˜ao
kSd∗+ξSvk2 = ∆2 tem solu¸c˜ao em ξ= 0 com p=Sd∗, e paraξ 6= 0, temos que
kSd∗k2+ 2ξ(Sd∗)TSv+ξ2(Sv)TSv−∆2 = 0, e por hip´otese kSd∗k= ∆2 eξ 6= 0, ent˜ao
ξ =−2(Sd∗)TSv (Sv)T(Sv),
estando bem definido e sendo diferente de zero, poisvTSTSd∗ 6= 0. Nomeando talξ porξ, comp=Sd∗+ξSv, e denominandod=d∗+ξv, temos quekSdk= ∆. Logo, substituindo d−d∗ =ξv em (1.18) nos da
1
2(ξ)2vT(B+λ∗STS)v ≥0 provando assim o desejado.
O problema apresentado em (1.12) ´e um caso particular em queS =I. Na pr´atica, nem sempre ´e poss´ıvel obter a solu¸c˜ao exata para o subproblema (1.12), por´em ´e poss´ıvel tomar uma solu¸c˜ao aproximada e ainda assim obter a convergˆencia do m´etodo. As solu¸c˜oes que possibilitam essa convergˆencia est˜ao fortemente associadas `a dire¸c˜ao de Cauchy, atrav´es de uma rela¸c˜ao que veremos a seguir. Por sua vez, o passo de Cauchy ´e dado por
dck =−αk∇f(xk), (1.19)
onde αk>0 ´e a solu¸c˜ao do problema
min mk(−α∇f(xk)) =f(xk)−αk∇f(xk)k2+12α2∇f(xk)Bk∇f(xk)
s.a kα∇f(xk)k ≤∆k
. (1.20)
Assim, podemos resolver o problema unidimensional (1.20), encontrando uma aproxima¸c˜ao para solu¸c˜ao de (1.12). Podemos estimar a redu¸c˜ao obtida no modelo quadr´atico atrav´es do uso da dire¸c˜ao de Cauchy, como veremos no seguinte lema.
Lema 1.3. O passo de Cauchy, definido em (1.19), satisfaz mk(0)−mk(dck)≥ 1
Demonstra¸c˜ao. [21, Lema 5.36].
Como j´a dissemos, para que haja a convergˆencia do M´etodo de Regi˜ao de Confian¸ca, n˜ao ´e necess´ario que tomemos o minimizador exato do problema (1.12), mas sim uma aproxima¸c˜ao que satisfa¸ca algumas propriedades. Efetivamente, se a dire¸c˜ao de mini-miza¸c˜ao obtida proporciona uma redu¸c˜ao do modelo proporcional `a apresentada no Lema 1.3, j´a ´e poss´ıvel obter a convergˆencia do m´etodo. Apresentemos agora o algoritmo do M´etodo de Regi˜ao de Confian¸ca.
Algoritmo 4 : M´etodo de Regi˜ao de Confian¸ca Dadosx0 ∈Rn, ∆0 >0 e η∈[0,14), defina k= 0.
Enquanto∇f(xk)6= 0
Obtenha dk, solu¸c˜ao aproximada de (1.12).
Calculeρk usando (1.13).
se ρk > η
Note que se o decr´escimo relativo for suficientemente grande, no nosso caso maior que
3
4, e se kdkk = ∆k, temos um ind´ıcio de que poder´ıamos obter uma dire¸c˜ao de maior decr´escimo fora da regi˜ao de confian¸ca. Por isso, neste caso aumentamos a regi˜ao para pr´oxima itera¸c˜ao. Vale salientar que os valores 14, 34, e as constantes de atualiza¸c˜ao da regi˜ao de confian¸ca, consideradas aqui por 12 para redu¸c˜ao e 2 para extens˜ao, podem ser
alterados sem comprometer a convergˆencia do m´etodo. Veremos no pr´oximo teorema as condi¸c˜oes que garantem tal convergˆencia.
Teorema 1.19. Consideremos o problema irrestrito (1.4), e que as seguintes hip´oteses sejam satisfeitas:
H1 A fun¸c˜ao objetivo f ´e de classeC1, com ∇f Lipschitz.
H2 A solu¸c˜ao aproximada dk de (1.12) satisfaz
predk =mk(0)−mk(dk)≥c1k∇f(xk)kmin
∆k,k∇f(xk)k kBkk
, onde c1 >0 ´e uma constante.
H3 O passo dk satisfaz kdkk ≤γ∆k, para alguma constante γ ≥1.
H4 As Hessianas Bk s˜ao uniformemente limitadas, isto ´e, existe uma constante β > 0 tal que kBkk ≤β para todo k ∈N.
H5 A fun¸c˜ao f ´e limitada inferiormente no conjunto de n´ıvel N ={x∈Rn|f(x)≤f(x0)}.
Desta forma, seja(xk)a sequˆencia gerada pelo algoritmo do m´etodo de regi˜ao de confian¸ca.
Segue que
lim inf
k→+∞ k∇f(xk)k= 0.
Al´em disso, se η >0 temos que
∇f(xk)→0.
Demonstra¸c˜ao. [21, Teoremas 5.38 e 5.39].