Defini¸c˜ oes e resultados preliminares - UNIVERSIDADE FEDERAL DO PARANÁ EGMARA ANTUNES DOS SAN

Nesta se¸cão, descrevemos algumas defini¸cões e resultados com o objetivo de facilitar o entendimento dos teoremas e demonstra¸cões deste cap´ıtulo. A primeira defini¸cão que

apresentamos é a dedire¸cão viável.

Defini¸cão 1.1. Sejam Ω⊂Rⁿ um conjunto qualquer, d∈Rⁿ e x¯∈Ω. Dizemos que dé uma dire¸cão viável em rela¸cão a Ω a partir de x¯ se existir ε >0 tal que

x+td ∈Ω, ∀ t∈[0, ε].

Denotamos porVΩ(¯x) o conjunto de todas as dire¸cões viáveis em rela¸cão a Ω a partir de ¯x. É fácil ver que, se d é uma dire¸cão viável, entãoαd também é uma dire¸cão viável, para qualquer α≥0. Esta caracter´ıstica nos permite afirmar que o conjuntoV_Ω(¯x) é um cone, de acordo com a defini¸cão a seguir.

Defini¸cão 1.2. Seja K ⊂ Rⁿ um conjunto qualquer não vazio. Dizemos que K é um cone se, para qualquer t≥0,

d∈K ⇒td∈K.

Na Figura 1.1 representamos uma dire¸c˜ao vi´avel d a partir de ¯x, para um conjunto convexo Ω.

Figura 1.1: Dire¸c˜ao vi´avel. Fonte: a autora.

Além do conceito de dire¸cão viável, a defini¸cão de dire¸cão tangente é importante quando estudamos métodos para otimiza¸cão com restri¸cões. Neste trabalho, vamos utili-zar a seguinte defini¸cão para uma dire¸cão tangente, como em [5].

Defini¸cão 1.3. Sejam Ω⊂Rⁿ um conjunto qualquer, d∈Rⁿ e x¯∈Ω. O vetor d é uma dire¸cão tangente ao conjunto Ω a partir de x¯ quando é nula ou se existir uma sequência (x^k)⊂Ω, com x^k →x, tal que¯

x^k−x¯

kx^k−xk¯ → d kdk.

A defini¸cão acima é equivalente a dizer que existem sequências (t_k) ⊂ R++ com t_k →0₊ e (d^k)⊂Rⁿ, com d^k→d, tais que

x+t_kd^k ∈Ω, ∀ k ∈N. (1.3)

De fato, caso d = 0, a expressão acima é válida de forma trivial. Se d é tangente e não nula, basta tomarmos

d^k= x^k−x¯

t_k com tk= kx^k−xk¯ kdk ,

para obtermos a rela¸cão (1.3) satisfeita. Reciprocamente, se existirem sequências (d^k) e (t_k) tais que vale (1.3) então, definimos

x^k = ¯x+tkd^k, ∀ k∈N.

Denotamos por T_Ω(¯x) o conjunto de todas as dire¸c˜oes tangentes a Ω a partir de ¯x.

Este conjunto é chamado decone tangente, uma vez que é um cone. Podemos dizer que as dire¸cões tangentes tangenciam ou penetram o conjunto viável. Por exemplo, para um conjunto convexo como o da Figura 1.1, ilustramos, na Figura 1.2, uma dire¸cão tangente d, a partir de ¯x.

Figura 1.2: Dire¸c˜ao tangente. Fonte: a autora.

Note que, o cone das dire¸cões viáveis está contido no cone das dire¸cões tangentes, isto é,

V_Ω(¯x)⊂T_Ω(¯x). (1.4)

Além disso, quando o conjunto Ω é convexo, em [6, Teorema 3.1.8] mostra-se que o cone tangente é o fecho do cone das dire¸cões viáveis, isto é,

T_Ω(¯x) =V_Ω(¯x). (1.5)

Em [16], o cone tangente para conjuntos convexos é definido pela igualdade acima. Defi-nimos também o cone normal para conjuntos convexos. Este conjunto será utilizado nas próximas se¸cões para justificar algumas propriedades geométricas do algoritmo de região de confian¸ca para problemas restritos.

Defini¸c˜ao 1.4. Seja Ω⊂ Rⁿ um conjunto convexo e x¯ ∈Ω. O cone normal a partir de

x em rela¸cão a Ω é o conjunto de dire¸cões

N_Ω(¯x) ={d∈Rⁿ | d^T(x−x)¯ ≤0, ∀ x∈Ω}.

Tamb´em definimos o conceito de proje¸c˜ao, bastante importante para o desenvolvi-mento dos algoritmos.

Defini¸cão 1.5. Seja Ω ⊂ Rⁿ um conjunto qualquer. A proje¸cão de x ∈ Rⁿ sobre Ω é uma solu¸cão, quando existe, do problema

minimizar ky−xk sujeito a y∈Ω.

Da defini¸cão anterior, interpretamos a proje¸cão de x ∈ Rⁿ sobre o conjunto Ω, quando existe, como sendo um ponto em Ω cuja distância a x é m´ınima. Quando o conjunto Ω é convexo e fechado, o próximo teorema estabelece algumas propriedades da proje¸cão.

Teorema 1.6. [7, Teorema 1.3.1] Seja Ω⊂Rⁿ convexo e fechado. Ent˜ao

(a) Para todo x∈Rⁿ, a proje¸cão de x sobre Ω existe e é única, denotada por P_Ω(x).

(b) Para todo x∈Rⁿ, temos que x¯=P_Ω(x) se, e somente se,

(x−x)¯ ^T(y−x)¯ ≤0,∀ y∈Ω. (1.6) (c) Para todo x, y ∈Rⁿ, vale

kP_Ω(x)−P_Ω(y)k ≤ kx−yk.

(d) Para x∈Rⁿ e d∈Rⁿ vale que

0< α₁ ≤α₂ ⇒ kP_Ω(x+α₁d)−xk ≤ kP_Ω(x+α₂d)−xk.

(e) Para x∈Rⁿ e d∈Rⁿ vale que

0< α₁ ≤α₂ ⇒ kP_Ω(x+α₁d)−xk

α₁ ≥ kP_Ω(x+α₂d)−xk

α₂ .

Quando o conjunto Ω é da forma (1.2), o cálculo da proje¸cão é feito de forma simples, isto é, dadox∈Rⁿ, a i-ésima coordenada da proje¸cão de x em Ω é

P_Ω(x)

i =







`_i, se x_i ≤`_i, x_i, se x_i ∈(`_i, u_i), u_i, se x_i ≥u_i,

(1.7) para cada i= 1, . . . , n. A Figura 1.3 ilustra o c´alculo da proje¸c˜ao para o caso n= 2.

Figura 1.3: Proje¸c˜ao na caixa. Fonte: a autora.

Antes de estabelecermos condi¸c˜oes de otimalidade de primeira ordem para o pro-blema (1.1), recorde as seguintes defini¸c˜oes.

Defini¸c˜ao 1.7. Um ponto x¯∈Ω ´e um minimizador global para o problema (1.1) se f(¯x)≤f(x),

para todox∈Ω.

Defini¸c˜ao 1.8. Um pontox¯∈Ω´e um minimizador local para o problema (1.1) se existir ε >0 tal que

f(¯x)≤f(x), para todox∈Ω com kx−xk ≤¯ ε.

As fórmulas de Taylor serão bastante úteis neste trabalho. Enunciamos as fórmulas de primeira e segunda ordem, demonstradas em [21, Cap´ıtulo 3, Teorema 5].

Teorema 1.9. Sejamf :Rⁿ →Ruma fun¸cão continuamente diferenciável em um aberto U ⊂Rⁿ e x¯∈U. Então, para todo d∈Rⁿ tal que x¯+d∈U, vale que

Teorema 1.10. Sejam f :Rⁿ → R uma fun¸cão duas vezes continuamente diferenciável em um aberto U ⊂Rⁿ e x¯∈U. Então, para todo d∈Rⁿ tal que x¯+d∈U, vale que

Os limites (1.9) e (1.11) implicam que os erros r(d) e s(d) tendem a zero mais r´apido do que kdk e kdk² tendem a zero, respectivamente, ou seja, quando estamos nos aproximando de ¯x. Ent˜ao, podemos reescrever as igualdades (1.8) e (1.10) como

f(¯x+d) = f(¯x) +∇f(¯x)^Td+o(kdk) (1.12) e

f(¯x+d) =f(¯x) +∇f(¯x)^Td+ 1

2d^T∇²f(¯x)d+o(kdk²), (1.13) respectivamente. Além disso, em alguns casos, é útil reescrever as fórmulas de Taylor (1.8) e (1.10) como

f(¯x+d) = f(¯x) +∇f(¯x)^Td+R(d)kdk (1.14) e

f(¯x+d) =f(¯x) +∇f(¯x)^Td+ 1

2d^T∇²f(¯x)d+S(d)kdk²,

respectivamente, sendo as fun¸c˜oes R(d) =r(d)/kdk e S(d) =s(d)/kdk² tais que lim

kdk→0R(d) = 0 e lim

kdk→0S(d) = 0. (1.15)

O lema a seguir facilita as pr´oximas demonstra¸c˜oes.

Lema 1.11. Seja Ω⊂Rⁿ um conjunto convexo e x¯∈Ω. Ent˜ao

Podemos demonstrar agora uma condi¸c˜ao necess´aria de otimalidade para o problema (1.1).

Teorema 1.12. [6, Teorema 3.1.12]Considere o problema (1.1). Se x¯∈Ω´e um minimi-zador local para este problema ent˜ao

∇f(¯x)^T(x−x)¯ ≥0,∀ x∈Ω. (1.16) Demonstra¸c˜ao. Primeiramente, note que

∇f(¯x)^Td≥0,∀ d∈TΩ(¯x).

De fato, para d = 0 ∈T_Ω(¯x), a desigualdade acima é imediata. Considerando d∈ T_Ω(¯x) não nulo, sabemos que existe uma sequência (t_k)⊂R+tal quet_k →0+, e uma sequência (d^k) ⊂ Rⁿ com d^k →d, tais que vale (1.3). Como kd^kk → kdk> 0, ¯x+t_kd^k → x¯ e ¯x é minimizador local, vale que, para todok suficientemente grande,

f(¯x)≤f(¯x+t_kd^k) e kd^kk>0.

Ent˜ao, da f´ormula de Taylor de primeira ordem (1.12), temos 0≤t_k∇f(¯x)^Td^k+o(t_kkd^kk).

Dividindo esta express˜ao por tkkd^kk>0 e passando o limite em k, obtemos

∇f(¯x)^Td≥0.

Al´em disso, o Lema 1.11 e a inclus˜ao (1.4) implicam que

{d∈Rⁿ | d =x−x,¯ ∀ x∈Ω} ⊂T_Ω(¯x).

Portanto, vale a condi¸c˜ao (1.16).

Observe que a condi¸cão (1.16) é suficiente para ¯xser um minimizador global, quando f é convexa, pois, nesse caso,

f(x)≥f(¯x) +∇f(¯x)^T(x−x),¯ para qualquer x∈Ω.

O próximo teorema estabelece a condi¸cão necessária de otimalidade para ¯x, em termos da proje¸cão.

Teorema 1.13. [6, Teorema 3.2.34] Se x¯∈Ω´e um minimizador local do problema (1.1) ent˜ao para qualquer α >0, temos

P_Ω(¯x−α∇f(¯x)) = ¯x. (1.17) Demonstra¸c˜ao. Sejaα >0. Ent˜ao, fazendo y= ¯xem (1.6), temos

x−α∇f(¯x)−P_Ω(¯x−α∇f(¯x))T

x−P_Ω(¯x−α∇f(¯x))

≤0.

Isso implica que

k¯x−PΩ(¯x−α∇f(¯x))k² ≤α∇f(¯x)^T x¯−PΩ(¯x−α∇f(¯x)) . Usando o Teorema 1.12 para o lado direito da desigualdade acima, temos

k¯x−P_Ω(¯x−α∇f(¯x))k² ≤0.

Portanto, vale (1.17).

A Figura 1.4 exemplifica a condi¸cão de otimalidade (1.17) em um ponto ¯xpara uma fun¸cão quadrática f com matriz Hessiana definida positiva.

Figura 1.4: Condi¸c˜ao necess´aria (1.17). Fonte: a autora.

Assim como a condi¸cão (1.16), para fun¸cões convexas, a condi¸cão (1.17) torna-se suficiente para ¯x ser um minimizador (veja [6, Teorema 3.4.36]).

Neste cap´ıtulo, vamos considerar que um ponto ¯x é estacionário para o problema (1.1) se satisfazer a condi¸cão necessária dada pelo Teorema 1.13 ou a condi¸cão (1.16), uma vez que estas condi¸cões são equivalentes quando Ω é convexo e fechado, como mostra [6, Teorema 3.4.36].

Para alguns resultados, vamos supor condi¸c˜oes sobre a derivada da fun¸c˜ao objetivo.

Uma condi¸c˜ao bastante comum ´e pedir que a derivada seja Lipschitz-cont´ınua.

Defini¸cão 1.14. Dado um conjunto Ω⊂ Rⁿ, dizemos que uma aplica¸cão h : Ω →R^p é Lipschitz-cont´ınua com constante L >0 se

kh(x)−h(y)k ≤Lkx−yk, para quaisquer x, y ∈Ω.

Para finalizar esta se¸c˜ao, enunciamos um resultado que ser´a utilizado mais adiante.

Lema 1.15. [7, Lema 1.5.4] Seja f : Rⁿ →R uma fun¸cão diferenciável. Suponha que f tem derivada Lipschitz-cont´ınua com constante L > 0. Então, dado qualquer x ∈ Rⁿ e qualquer dire¸cão d∈Rⁿ, vale que

|f(x+d)−f(x)− ∇f(x)^Td| ≤ Lkdk² 2 .

No documento UNIVERSIDADE FEDERAL DO PARANÁ EGMARA ANTUNES DOS SANTOS (páginas 11-17)