• Nenhum resultado encontrado

1.2 Elementos de Otimiza¸ c˜ ao

1.2.6 M´ etodo de regi˜ ao de confian¸ ca

Considere o problema irrestrito apresentado em (1.9). Assim, dado um ponto xk, o m´etodo de regi˜ao de confian¸ca consiste na resolu¸c˜ao do problema

min qk(x) s.a kx−xkk ≤∆k

onde ∆k > 0 ´e chamada raio de confian¸ca, qk(x) ´e a aproxima¸c˜ao da fun¸c˜ao f por um modelo quadr´atico em volta dexk, isto ´e,

qk(x) =f(xk) +∇f(xk)T(x−xk) + 1

2(x−xk)TBk(x−xk),

ondeBk∈Rn×n pode ser a Hessiana ∇2f(xk) ou qualquer matriz sim´etrica que satisfa¸ca kBkk ≤ β, para algum valor de β > 0, independente de k ∈ N. Tomando d = x−xk, podemos facilitar a nota¸c˜ao tomando mk(d) = qk(xk+d), e portanto nosso problema se resume a

min mk(d)

s.a kdk ≤∆k. (1.12)

A pr´oxima imagem retrata o m´etodo de regi˜ao de confian¸ca tomando Bk =∇2f(xk).

x

k

x

k+1

Figura 1.3: M´etodo de Regi˜ao de Confian¸ca.

Desde que a regi˜ao ∆k n˜ao seja grande, ´e natural que a minimiza¸c˜ao do modelo quadr´atico influencie na minimiza¸c˜ao da fun¸c˜aof. Por´em, n˜ao ´e anal´ıtica a determina¸c˜ao de uma regi˜ao ´otima, de forma que a cada passo da minimiza¸c˜ao do modelo seja feita uma an´alise da redu¸c˜ao real na fun¸c˜ao objetivo, decidindo assim a aceita¸c˜ao ou rejei¸c˜ao do minimizador. Para tal, consideremos

aredk =f(xk)−f(xk+dk) a redu¸c˜ao real na fun¸c˜ao objetivo provocada na itera¸c˜ao k,

predk =mk(0)−mk(dk) a redu¸c˜ao descrita no modelo quadr´atico mk e

ρk = aredk

predk. (1.13)

o coeficiente de redu¸c˜ao relativa. Desta forma, temos um indicador da efic´acia do modelo mk(d). Note que predk ´e sempre positivo, j´a que dk ´e minimizador de mk(d). Assim, se ρk´e pequeno, ou at´e mesmo negativo, ent˜ao a redu¸c˜ao real n˜ao foi satisfat´oria em rela¸c˜ao

`

a redu¸c˜ao do modelo. Caso ρk esteja pr´oximo de 1, o modelo representou bem a fun¸c˜ao objetivo localmente em torno de xk. Ainda pode ocorrer de ρk >1, o que nos diz que a redu¸c˜ao real foi maior que a apresentada pelo modelo.

Aceitaremos o passodk, solu¸c˜ao de (1.12), quando o coeficiente ρk for maior que uma constante η ≥ 0 dada. Neste caso, temos xk+1 = xk+dk. Caso ρk ≤ η, temos que o modelo n˜ao representou bem a fun¸c˜ao na regi˜ao de confian¸ca, ent˜ao rejeitamos o passo dk, diminu´ımos a regi˜ao de confian¸ca e constru´ımos um novo modelo (1.12) sujeito `a nova regi˜ao.

A fim de caracterizar a solu¸c˜ao do problema (1.12), os pr´oximos dois teoremas estabe-lecem a equivalˆencia entre o problema de minimiza¸c˜ao e a solu¸c˜ao de um sistema linear, facilitando a obten¸c˜ao da solu¸c˜ao. As demonstra¸c˜oes n˜ao foram encontradas na literatura, exceto para o casoS =I, em [3], Teorema 7.2.1, e [8], Teorema 1, do qual nos embasamos para adaptar a prova.

Teorema 1.17. Sejam B ∈ Rn×n uma matriz sim´etrica, S ∈ Rn×n, g ∈ Rn e c ∈ R.Assim, dadod ∈Rn, com kSdk ≤∆e λ ≥0 tais que as trˆes condi¸c˜oes s˜ao simulta-neamente satisfeitas

(B+λSTS)d =−g, (∆− kSdk)λ = 0 e (B +λSTS)≥0 ent˜ao d ´e solu¸c˜ao global do problema de regi˜ao de confian¸ca

min m(d) =c+gTd+ 12dTBd s.a kSdk ≤∆

Demonstra¸c˜ao. Primeiramente, minimizar a fun¸c˜ao objetivo acima ´e equivalente a mini-mizarm(d) =gTd+ 12dTBd, j´a que c´e uma constante. Temos que d ´e minimizador

m(d) =b gTd+1

2dT(B+λSTS)d=m(d) + λ

2 dTSTSd,

por ser o ponto estacion´ario da quadr´atica convexa m(d), por (1.11) . Ent˜b ao m(d)b ≥ m(db ), para todo d∈Rn, e segue que

m(d) =m(d)b − λ

2 dTSTSd

≥m(d)b − λ

2 dTSTSd

≥m(d) + λ

2 (dTSTSd−dTSTSd). (1.14) Multiplicando λ(∆− kSdk) = 0 por 12(∆ +kSdk) em ambos lados da equa¸c˜ao temos que

1

(∆2−dTSTSd) = 0. (1.15) Somando (1.15) em (1.14) temos

m(d)≥m(d) + λ

2 (∆2−dTSTSd)

=m(d) + λ

2 (∆2− kSdk2).

Assim, por λ ≥ 0, m(d) ≥ m(d), para todo d com kSdk ≤ ∆, e portanto d ´e solu¸c˜ao do problema

min m(d) =gTd+ 12dTBd s.a kSdk ≤∆ .

O pr´oximo teorema estabelece a rec´ıproca do resultado anterior, caracterizando com-pletamente o minimizador global do problema de regi˜ao de confian¸ca.

Teorema 1.18. Se d ´e solu¸c˜ao global do problema

min m(d) =c+gTd+ 12dTBd s.a kSdk ≤∆

ent˜ao existe λ ≥0 tal que

(B+λSTS)d =−g, (∆− kSdk)λ = 0 e (B +λSTS)≥0

Demonstra¸c˜ao. Primeiramente, reescrevamos a restri¸c˜aokSdk ≤∆ comor(d) = 12(kSdk2

2)≤0. Para provar tal teorema, consideraremos dois casos:

(1) Se kSdk < ∆, ent˜ao d ´e minimizador irrestrito de m(d). Logo, pelas condi¸c˜oes necess´arias de otimalidade temos

( ∇m(d) = 0 ⇒ Bd+g = 0

2m(d)≥0 ⇒ B ≥0 Assim, λ = 0 satisfaz as condi¸c˜oes desejadas.

(2) SekSdk= ∆, d ´e qualificado, pois o conjunto dos gradientes das restri¸c˜oes ativas, formado apenas por STSd 6= 0, ´e linearmente independente. Assim, consideremos a Lagrangeana associada ao problema,

L(d, λ) =m(d) +λr(d) = m(d) + λ

2(dTSTSd−∆2).

Desta forma, a condi¸c˜ao de KKT sobre a Lagrangeana ´e dada por 0 = ∇dL(d, λ)

=∇m(d) +λ∇r(d) (1.16)

=Bd+g+λSTSd

do que segue

(B +λSTS)d =−g.

E importante lembrar que a propriedade (∆´ − kSdk)λ = 0 j´a ´e atendida, pelo fato de quekSdk= ∆. Assim, basta mostrar que (B +λSTS)≥0.

De (1.16) temos que ∇m(d) =−λSTSd. Como d ´e solu¸c˜ao do problema, m(d)≥ m(d), para todo d tal que kSdk ≤ ∆, em particular, para d tal que kSdk = ∆. Ent˜ao temos que

∇m(d)T(d−d) = −λdTSTS(d−d)

(∆2−dTSTSd)

1

2(dTSTSd+dTSTSd)−dTSTSd

= λ

2 (d−d)TSTS(d−d). (1.17) Comom ´e quadr´atica, temos que sua aproxima¸c˜ao de segunda ordem ´e

m(d) =m(d) +∇m(d)T(d−d) + 1

2(d−d)TB(d−d).

Por (1.17) temos

m(d) =m(d) + 1

2(d−d)T(B +λSTS)(d−d).

Comom(d)−m(d)≥0, segue que 1

2(d−d)T(B+λSTS)(d−d)≥0. (1.18) Por outro lado, pelas condi¸c˜oes de segunda ordem sobre a Lagrangeana do problema (Teorema 1.13), temos que ∇2dL(d, λ) = B+λSTS ´e semidefinida positiva no n´ucleo de∇r(d) =STSd, ou seja, zT(B +λSTS)z ≥ 0 para todoz ∈ Rn tal que zTSTSd = 0. Assim, basta mostrar a semipositividade para v ∈ Rn\ {0} tal que vTSTSd 6= 0.

Consideremos a reta Sd +ξSv, com ξ ∈ R. Dado que (Sv)T(Sd) 6= 0, tal reta ir´a interceptar a esfera de raio ∆ em dois pontos. De fato, a equa¸c˜ao

kSd+ξSvk2 = ∆2 tem solu¸c˜ao em ξ= 0 com p=Sd, e paraξ 6= 0, temos que

kSdk2+ 2ξ(Sd)TSv+ξ2(Sv)TSv−∆2 = 0, e por hip´otese kSdk= ∆2 eξ 6= 0, ent˜ao

ξ =−2(Sd)TSv (Sv)T(Sv),

estando bem definido e sendo diferente de zero, poisvTSTSd 6= 0. Nomeando talξ porξ, comp=Sd+ξSv, e denominandod=d+ξv, temos quekSdk= ∆. Logo, substituindo d−d =ξv em (1.18) nos da

1

2(ξ)2vT(B+λSTS)v ≥0 provando assim o desejado.

O problema apresentado em (1.12) ´e um caso particular em queS =I. Na pr´atica, nem sempre ´e poss´ıvel obter a solu¸c˜ao exata para o subproblema (1.12), por´em ´e poss´ıvel tomar uma solu¸c˜ao aproximada e ainda assim obter a convergˆencia do m´etodo. As solu¸c˜oes que possibilitam essa convergˆencia est˜ao fortemente associadas `a dire¸c˜ao de Cauchy, atrav´es de uma rela¸c˜ao que veremos a seguir. Por sua vez, o passo de Cauchy ´e dado por

dck =−αk∇f(xk), (1.19)

onde αk>0 ´e a solu¸c˜ao do problema

min mk(−α∇f(xk)) =f(xk)−αk∇f(xk)k2+12α2∇f(xk)Bk∇f(xk)

s.a kα∇f(xk)k ≤∆k

. (1.20)

Assim, podemos resolver o problema unidimensional (1.20), encontrando uma aproxima¸c˜ao para solu¸c˜ao de (1.12). Podemos estimar a redu¸c˜ao obtida no modelo quadr´atico atrav´es do uso da dire¸c˜ao de Cauchy, como veremos no seguinte lema.

Lema 1.3. O passo de Cauchy, definido em (1.19), satisfaz mk(0)−mk(dck)≥ 1

Demonstra¸c˜ao. [21, Lema 5.36].

Como j´a dissemos, para que haja a convergˆencia do M´etodo de Regi˜ao de Confian¸ca, n˜ao ´e necess´ario que tomemos o minimizador exato do problema (1.12), mas sim uma aproxima¸c˜ao que satisfa¸ca algumas propriedades. Efetivamente, se a dire¸c˜ao de mini-miza¸c˜ao obtida proporciona uma redu¸c˜ao do modelo proporcional `a apresentada no Lema 1.3, j´a ´e poss´ıvel obter a convergˆencia do m´etodo. Apresentemos agora o algoritmo do M´etodo de Regi˜ao de Confian¸ca.

Algoritmo 4 : M´etodo de Regi˜ao de Confian¸ca Dadosx0 ∈Rn, ∆0 >0 e η∈[0,14), defina k= 0.

Enquanto∇f(xk)6= 0

Obtenha dk, solu¸c˜ao aproximada de (1.12).

Calculeρk usando (1.13).

se ρk > η

Note que se o decr´escimo relativo for suficientemente grande, no nosso caso maior que

3

4, e se kdkk = ∆k, temos um ind´ıcio de que poder´ıamos obter uma dire¸c˜ao de maior decr´escimo fora da regi˜ao de confian¸ca. Por isso, neste caso aumentamos a regi˜ao para pr´oxima itera¸c˜ao. Vale salientar que os valores 14, 34, e as constantes de atualiza¸c˜ao da regi˜ao de confian¸ca, consideradas aqui por 12 para redu¸c˜ao e 2 para extens˜ao, podem ser

alterados sem comprometer a convergˆencia do m´etodo. Veremos no pr´oximo teorema as condi¸c˜oes que garantem tal convergˆencia.

Teorema 1.19. Consideremos o problema irrestrito (1.4), e que as seguintes hip´oteses sejam satisfeitas:

H1 A fun¸c˜ao objetivo f ´e de classeC1, com ∇f Lipschitz.

H2 A solu¸c˜ao aproximada dk de (1.12) satisfaz

predk =mk(0)−mk(dk)≥c1k∇f(xk)kmin

k,k∇f(xk)k kBkk

, onde c1 >0 ´e uma constante.

H3 O passo dk satisfaz kdkk ≤γ∆k, para alguma constante γ ≥1.

H4 As Hessianas Bk s˜ao uniformemente limitadas, isto ´e, existe uma constante β > 0 tal que kBkk ≤β para todo k ∈N.

H5 A fun¸c˜ao f ´e limitada inferiormente no conjunto de n´ıvel N ={x∈Rn|f(x)≤f(x0)}.

Desta forma, seja(xk)a sequˆencia gerada pelo algoritmo do m´etodo de regi˜ao de confian¸ca.

Segue que

lim inf

k→+∞ k∇f(xk)k= 0.

Al´em disso, se η >0 temos que

∇f(xk)→0.

Demonstra¸c˜ao. [21, Teoremas 5.38 e 5.39].

Introdu¸ c˜ ao ao problema de

Documentos relacionados