M´ etodo de regi˜ ao de confian¸ ca - Elementos de Otimiza¸ c˜ ao

1.2 Elementos de Otimiza¸ c˜ ao

1.2.6 M´ etodo de regi˜ ao de confian¸ ca

Considere o problema irrestrito apresentado em (1.9). Assim, dado um ponto x_k, o método de região de confian¸ca consiste na resolu¸cão do problema

min q_k(x) s.a kx−x_kk ≤∆_k

onde ∆_k > 0 é chamada raio de confian¸ca, q_k(x) é a aproxima¸cão da fun¸cão f por um modelo quadrático em volta dex_k, isto é,

qk(x) =f(xk) +∇f(xk)^T(x−xk) + 1

2(x−xk)^TBk(x−xk),

ondeB_k∈R^n×n pode ser a Hessiana ∇²f(x_k) ou qualquer matriz sim´etrica que satisfa¸ca kB_kk ≤ β, para algum valor de β > 0, independente de k ∈ N. Tomando d = x−x_k, podemos facilitar a nota¸c˜ao tomando m_k(d) = q_k(x_k+d), e portanto nosso problema se resume a

min m_k(d)

s.a kdk ≤∆_k. (1.12)

A próxima imagem retrata o método de região de confian¸ca tomando B_k =∇²f(x_k).

x

^k+1

Figura 1.3: M´etodo de Regi˜ao de Confian¸ca.

Desde que a região ∆_k não seja grande, é natural que a minimiza¸cão do modelo quadrático influencie na minimiza¸cão da fun¸cãof. Porém, não é anal´ıtica a determina¸cão de uma região ótima, de forma que a cada passo da minimiza¸cão do modelo seja feita uma análise da redu¸cão real na fun¸cão objetivo, decidindo assim a aceita¸cão ou rejei¸cão do minimizador. Para tal, consideremos

ared_k =f(x_k)−f(x_k+d_k) a redu¸cão real na fun¸cão objetivo provocada na itera¸cão k,

pred_k =m_k(0)−m_k(d_k) a redu¸c˜ao descrita no modelo quadr´atico m_k e

ρ_k = ared_k

pred_k. (1.13)

o coeficiente de redu¸cão relativa. Desta forma, temos um indicador da eficácia do modelo m_k(d). Note que pred_k é sempre positivo, já que d_k é minimizador de m_k(d). Assim, se ρ_ké pequeno, ou até mesmo negativo, então a redu¸cão real não foi satisfatória em rela¸cão

a redu¸cão do modelo. Caso ρ_k esteja próximo de 1, o modelo representou bem a fun¸cão objetivo localmente em torno de x_k. Ainda pode ocorrer de ρ_k >1, o que nos diz que a redu¸cão real foi maior que a apresentada pelo modelo.

Aceitaremos o passod_k, solu¸cão de (1.12), quando o coeficiente ρ_k for maior que uma constante η ≥ 0 dada. Neste caso, temos x_k+1 = x_k+d_k. Caso ρ_k ≤ η, temos que o modelo não representou bem a fun¸cão na região de confian¸ca, então rejeitamos o passo d_k, diminu´ımos a região de confian¸ca e constru´ımos um novo modelo (1.12) sujeito à nova região.

A fim de caracterizar a solu¸cão do problema (1.12), os próximos dois teoremas estabe-lecem a equivalência entre o problema de minimiza¸cão e a solu¸cão de um sistema linear, facilitando a obten¸cão da solu¸cão. As demonstra¸cões não foram encontradas na literatura, exceto para o casoS =I, em [3], Teorema 7.2.1, e [8], Teorema 1, do qual nos embasamos para adaptar a prova.

Teorema 1.17. Sejam B ∈ R^n×n uma matriz simétrica, S ∈ R^n×n, g ∈ Rⁿ e c ∈ R.Assim, dadod_∗ ∈Rⁿ, com kSd_∗k ≤∆e λ_∗ ≥0 tais que as três condi¸cões são simulta-neamente satisfeitas

(B+λ_∗S^TS)d_∗ =−g, (∆− kSd_∗k)λ_∗ = 0 e (B +λ_∗S^TS)≥0 então d∗ é solu¸cão global do problema de região de confian¸ca

min m(d) =c+g^Td+ ¹₂d^TBd s.a kSdk ≤∆

Demonstra¸cão. Primeiramente, minimizar a fun¸cão objetivo acima é equivalente a mini-mizarm(d) =g^Td+ ¹₂d^TBd, já que cé uma constante. Temos que d∗ é minimizador

m(d) =b g^Td+1

2d^T(B+λ∗S^TS)d=m(d) + λ∗

2 d^TS^TSd,

por ser o ponto estacion´ario da quadr´atica convexa m(d), por (1.11) . Ent˜b ao m(d)b ≥ m(db ∗), para todo d∈Rⁿ, e segue que

m(d) =m(d)b − λ∗

2 d^TS^TSd

≥m(d)b − λ∗

2 d^TS^TSd

≥m(d∗) + λ_∗

2 (d^T_∗S^TSd∗−d^TS^TSd). (1.14) Multiplicando λ∗(∆− kSd∗k) = 0 por ¹₂(∆ +kSd∗k) em ambos lados da equa¸c˜ao temos que

2λ_∗(∆²−d^T_∗S^TSd_∗) = 0. (1.15) Somando (1.15) em (1.14) temos

m(d)≥m(d∗) + λ∗

2 (∆²−d^TS^TSd)

=m(d∗) + λ∗

2 (∆²− kSdk²).

Assim, por λ_∗ ≥ 0, m(d) ≥ m(d_∗), para todo d com kSdk ≤ ∆, e portanto d_∗ ´e solu¸c˜ao do problema

min m(d) =g^Td+ ¹₂d^TBd s.a kSdk ≤∆ .

O pr´oximo teorema estabelece a rec´ıproca do resultado anterior, caracterizando com-pletamente o minimizador global do problema de regi˜ao de confian¸ca.

Teorema 1.18. Se d∗ ´e solu¸c˜ao global do problema

min m(d) =c+g^Td+ ¹₂d^TBd s.a kSdk ≤∆

ent˜ao existe λ∗ ≥0 tal que

(B+λ∗S^TS)d∗ =−g, (∆− kSd∗k)λ∗ = 0 e (B +λ∗S^TS)≥0

Demonstra¸c˜ao. Primeiramente, reescrevamos a restri¸c˜aokSdk ≤∆ comor(d) = ¹₂(kSdk²−

∆²)≤0. Para provar tal teorema, consideraremos dois casos:

(1) Se kSd∗k < ∆, então d∗ é minimizador irrestrito de m(d). Logo, pelas condi¸cões necessárias de otimalidade temos

( ∇m(d_∗) = 0 ⇒ Bd_∗+g = 0

∇²m(d_∗)≥0 ⇒ B ≥0 Assim, λ∗ = 0 satisfaz as condi¸c˜oes desejadas.

(2) SekSd∗k= ∆, d∗ é qualificado, pois o conjunto dos gradientes das restri¸cões ativas, formado apenas por S^TSd∗ 6= 0, é linearmente independente. Assim, consideremos a Lagrangeana associada ao problema,

L(d, λ) =m(d) +λr(d) = m(d) + λ

2(d^TS^TSd−∆²).

Desta forma, a condi¸c˜ao de KKT sobre a Lagrangeana ´e dada por 0 = ∇_dL(d∗, λ∗)

=∇m(d∗) +λ∗∇r(d∗) (1.16)

=Bd∗+g+λ∗S^TSd∗

do que segue

(B +λ∗S^TS)d∗ =−g.

E importante lembrar que a propriedade (∆´ − kSd_∗k)λ_∗ = 0 j´a ´e atendida, pelo fato de quekSd_∗k= ∆. Assim, basta mostrar que (B +λ_∗S^TS)≥0.

De (1.16) temos que ∇m(d_∗) =−λ_∗S^TSd_∗. Como d_∗ é solu¸cão do problema, m(d)≥ m(d_∗), para todo d tal que kSdk ≤ ∆, em particular, para d tal que kSdk = ∆. Então temos que

∇m(d∗)^T(d−d∗) = −λ∗d^T_∗S^TS(d−d∗)

=λ_∗(∆²−d^T_∗S^TSd)

=λ∗

2(d^T_∗S^TSd∗+d^TS^TSd)−d^T_∗S^TSd

= λ∗

2 (d−d∗)^TS^TS(d−d∗). (1.17) Comom é quadrática, temos que sua aproxima¸cão de segunda ordem é

m(d) =m(d∗) +∇m(d∗)^T(d−d∗) + 1

2(d−d∗)^TB(d−d∗).

Por (1.17) temos

m(d) =m(d∗) + 1

2(d−d∗)^T(B +λ∗S^TS)(d−d∗).

Comom(d)−m(d∗)≥0, segue que 1

2(d−d∗)^T(B+λ∗S^TS)(d−d∗)≥0. (1.18) Por outro lado, pelas condi¸cões de segunda ordem sobre a Lagrangeana do problema (Teorema 1.13), temos que ∇²_dL(d_∗, λ_∗) = B+λ_∗S^TS é semidefinida positiva no núcleo de∇r(d_∗) =S^TSd_∗, ou seja, z^T(B +λ_∗S^TS)z ≥ 0 para todoz ∈ Rⁿ tal que z^TS^TSd_∗ = 0. Assim, basta mostrar a semipositividade para v ∈ Rⁿ\ {0} tal que v^TS^TSd_∗ 6= 0.

Consideremos a reta Sd_∗ +ξSv, com ξ ∈ R. Dado que (Sv)^T(Sd)_∗ 6= 0, tal reta ir´a interceptar a esfera de raio ∆ em dois pontos. De fato, a equa¸c˜ao

kSd∗+ξSvk² = ∆² tem solu¸c˜ao em ξ= 0 com p=Sd∗, e paraξ 6= 0, temos que

kSd∗k²+ 2ξ(Sd∗)^TSv+ξ²(Sv)^TSv−∆² = 0, e por hip´otese kSd∗k= ∆² eξ 6= 0, ent˜ao

ξ =−2(Sd∗)^TSv (Sv)^T(Sv),

estando bem definido e sendo diferente de zero, poisv^TS^TSd∗ 6= 0. Nomeando talξ porξ, comp=Sd∗+ξSv, e denominandod=d∗+ξv, temos quekSdk= ∆. Logo, substituindo d−d∗ =ξv em (1.18) nos da

2(ξ)²v^T(B+λ∗S^TS)v ≥0 provando assim o desejado.

O problema apresentado em (1.12) é um caso particular em queS =I. Na prática, nem sempre é poss´ıvel obter a solu¸cão exata para o subproblema (1.12), porém é poss´ıvel tomar uma solu¸cão aproximada e ainda assim obter a convergência do método. As solu¸cões que possibilitam essa convergência estão fortemente associadas à dire¸cão de Cauchy, através de uma rela¸cão que veremos a seguir. Por sua vez, o passo de Cauchy é dado por

d^c_k =−α_k∇f(x_k), (1.19)

onde α_k>0 ´e a solu¸c˜ao do problema

min mk(−α∇f(xk)) =f(xk)−αk∇f(xk)k²+¹₂α²∇f(xk)Bk∇f(xk)

s.a kα∇f(xk)k ≤∆k

. (1.20)

Assim, podemos resolver o problema unidimensional (1.20), encontrando uma aproxima¸cão para solu¸cão de (1.12). Podemos estimar a redu¸cão obtida no modelo quadrático através do uso da dire¸cão de Cauchy, como veremos no seguinte lema.

Lema 1.3. O passo de Cauchy, definido em (1.19), satisfaz m_k(0)−m_k(d^c_k)≥ 1

Demonstra¸c˜ao. [21, Lema 5.36].

Como já dissemos, para que haja a convergência do Método de Região de Confian¸ca, não é necessário que tomemos o minimizador exato do problema (1.12), mas sim uma aproxima¸cão que satisfa¸ca algumas propriedades. Efetivamente, se a dire¸cão de mini-miza¸cão obtida proporciona uma redu¸cão do modelo proporcional à apresentada no Lema 1.3, já é poss´ıvel obter a convergência do método. Apresentemos agora o algoritmo do Método de Região de Confian¸ca.

Algoritmo 4 : M´etodo de Regi˜ao de Confian¸ca Dadosx₀ ∈Rⁿ, ∆₀ >0 e η∈[0,¹₄), defina k= 0.

Enquanto∇f(x_k)6= 0

Obtenha d_k, solu¸c˜ao aproximada de (1.12).

Calculeρ_k usando (1.13).

se ρ_k > η

Note que se o decr´escimo relativo for suficientemente grande, no nosso caso maior que

4, e se kd_kk = ∆_k, temos um ind´ıcio de que poder´ıamos obter uma dire¸cão de maior decréscimo fora da região de confian¸ca. Por isso, neste caso aumentamos a região para próxima itera¸cão. Vale salientar que os valores ¹₄, ³₄, e as constantes de atualiza¸cão da região de confian¸ca, consideradas aqui por ¹₂ para redu¸cão e 2 para extensão, podem ser

alterados sem comprometer a convergência do método. Veremos no próximo teorema as condi¸cões que garantem tal convergência.

Teorema 1.19. Consideremos o problema irrestrito (1.4), e que as seguintes hip´oteses sejam satisfeitas:

H1 A fun¸c˜ao objetivo f ´e de classeC¹, com ∇f Lipschitz.

H2 A solu¸c˜ao aproximada d_k de (1.12) satisfaz

pred_k =m_k(0)−m_k(d_k)≥c₁k∇f(x_k)kmin

∆_k,k∇f(x_k)k kBkk

, onde c₁ >0 ´e uma constante.

H3 O passo d_k satisfaz kd_kk ≤γ∆_k, para alguma constante γ ≥1.

H4 As Hessianas B_k s˜ao uniformemente limitadas, isto ´e, existe uma constante β > 0 tal que kB_kk ≤β para todo k ∈N.

H5 A fun¸c˜ao f ´e limitada inferiormente no conjunto de n´ıvel N ={x∈Rⁿ|f(x)≤f(x₀)}.

Desta forma, seja(x_k)a sequência gerada pelo algoritmo do método de região de confian¸ca.

Segue que

lim inf

k→+∞ k∇f(x_k)k= 0.

Al´em disso, se η >0 temos que

∇f(x_k)→0.

Demonstra¸c˜ao. [21, Teoremas 5.38 e 5.39].

Introdu¸ c˜ ao ao problema de

No documento Curitiba2017 OMétododeLevenberg-MarquardtparaoProblemadeQuadradosM´ınimosnãoLinear UNIVERSIDADEFEDERALDOPARANÁKléberAderaldoBenatti (páginas 44-51)