Nesta se¸c˜ao, descrevemos algumas defini¸c˜oes e resultados com o objetivo de facilitar o entendimento dos teoremas e demonstra¸c˜oes deste cap´ıtulo. A primeira defini¸c˜ao que
apresentamos ´e a dedire¸c˜ao vi´avel.
Defini¸c˜ao 1.1. Sejam Ω⊂Rn um conjunto qualquer, d∈Rn e x¯∈Ω. Dizemos que d´e uma dire¸c˜ao vi´avel em rela¸c˜ao a Ω a partir de x¯ se existir ε >0 tal que
¯
x+td ∈Ω, ∀ t∈[0, ε].
Denotamos porVΩ(¯x) o conjunto de todas as dire¸c˜oes vi´aveis em rela¸c˜ao a Ω a partir de ¯x. ´E f´acil ver que, se d ´e uma dire¸c˜ao vi´avel, ent˜aoαd tamb´em ´e uma dire¸c˜ao vi´avel, para qualquer α≥0. Esta caracter´ıstica nos permite afirmar que o conjuntoVΩ(¯x) ´e um cone, de acordo com a defini¸c˜ao a seguir.
Defini¸c˜ao 1.2. Seja K ⊂ Rn um conjunto qualquer n˜ao vazio. Dizemos que K ´e um cone se, para qualquer t≥0,
d∈K ⇒td∈K.
Na Figura 1.1 representamos uma dire¸c˜ao vi´avel d a partir de ¯x, para um conjunto convexo Ω.
Figura 1.1: Dire¸c˜ao vi´avel. Fonte: a autora.
Al´em do conceito de dire¸c˜ao vi´avel, a defini¸c˜ao de dire¸c˜ao tangente ´e importante quando estudamos m´etodos para otimiza¸c˜ao com restri¸c˜oes. Neste trabalho, vamos utili-zar a seguinte defini¸c˜ao para uma dire¸c˜ao tangente, como em [5].
Defini¸c˜ao 1.3. Sejam Ω⊂Rn um conjunto qualquer, d∈Rn e x¯∈Ω. O vetor d ´e uma dire¸c˜ao tangente ao conjunto Ω a partir de x¯ quando ´e nula ou se existir uma sequˆencia (xk)⊂Ω, com xk →x, tal que¯
xk−x¯
kxk−xk¯ → d kdk.
A defini¸c˜ao acima ´e equivalente a dizer que existem sequˆencias (tk) ⊂ R++ com tk →0+ e (dk)⊂Rn, com dk→d, tais que
¯
x+tkdk ∈Ω, ∀ k ∈N. (1.3)
De fato, caso d = 0, a express˜ao acima ´e v´alida de forma trivial. Se d ´e tangente e n˜ao nula, basta tomarmos
dk= xk−x¯
tk com tk= kxk−xk¯ kdk ,
para obtermos a rela¸c˜ao (1.3) satisfeita. Reciprocamente, se existirem sequˆencias (dk) e (tk) tais que vale (1.3) ent˜ao, definimos
xk = ¯x+tkdk, ∀ k∈N.
Denotamos por TΩ(¯x) o conjunto de todas as dire¸c˜oes tangentes a Ω a partir de ¯x.
Este conjunto ´e chamado decone tangente, uma vez que ´e um cone. Podemos dizer que as dire¸c˜oes tangentes tangenciam ou penetram o conjunto vi´avel. Por exemplo, para um conjunto convexo como o da Figura 1.1, ilustramos, na Figura 1.2, uma dire¸c˜ao tangente d, a partir de ¯x.
Figura 1.2: Dire¸c˜ao tangente. Fonte: a autora.
Note que, o cone das dire¸c˜oes vi´aveis est´a contido no cone das dire¸c˜oes tangentes, isto ´e,
VΩ(¯x)⊂TΩ(¯x). (1.4)
Al´em disso, quando o conjunto Ω ´e convexo, em [6, Teorema 3.1.8] mostra-se que o cone tangente ´e o fecho do cone das dire¸c˜oes vi´aveis, isto ´e,
TΩ(¯x) =VΩ(¯x). (1.5)
Em [16], o cone tangente para conjuntos convexos ´e definido pela igualdade acima. Defi-nimos tamb´em o cone normal para conjuntos convexos. Este conjunto ser´a utilizado nas pr´oximas se¸c˜oes para justificar algumas propriedades geom´etricas do algoritmo de regi˜ao de confian¸ca para problemas restritos.
Defini¸c˜ao 1.4. Seja Ω⊂ Rn um conjunto convexo e x¯ ∈Ω. O cone normal a partir de
¯
x em rela¸c˜ao a Ω ´e o conjunto de dire¸c˜oes
NΩ(¯x) ={d∈Rn | dT(x−x)¯ ≤0, ∀ x∈Ω}.
Tamb´em definimos o conceito de proje¸c˜ao, bastante importante para o desenvolvi-mento dos algoritmos.
Defini¸c˜ao 1.5. Seja Ω ⊂ Rn um conjunto qualquer. A proje¸c˜ao de x ∈ Rn sobre Ω ´e uma solu¸c˜ao, quando existe, do problema
minimizar ky−xk sujeito a y∈Ω.
Da defini¸c˜ao anterior, interpretamos a proje¸c˜ao de x ∈ Rn sobre o conjunto Ω, quando existe, como sendo um ponto em Ω cuja distˆancia a x ´e m´ınima. Quando o conjunto Ω ´e convexo e fechado, o pr´oximo teorema estabelece algumas propriedades da proje¸c˜ao.
Teorema 1.6. [7, Teorema 1.3.1] Seja Ω⊂Rn convexo e fechado. Ent˜ao
(a) Para todo x∈Rn, a proje¸c˜ao de x sobre Ω existe e ´e ´unica, denotada por PΩ(x).
(b) Para todo x∈Rn, temos que x¯=PΩ(x) se, e somente se,
(x−x)¯ T(y−x)¯ ≤0,∀ y∈Ω. (1.6) (c) Para todo x, y ∈Rn, vale
kPΩ(x)−PΩ(y)k ≤ kx−yk.
(d) Para x∈Rn e d∈Rn vale que
0< α1 ≤α2 ⇒ kPΩ(x+α1d)−xk ≤ kPΩ(x+α2d)−xk.
(e) Para x∈Rn e d∈Rn vale que
0< α1 ≤α2 ⇒ kPΩ(x+α1d)−xk
α1 ≥ kPΩ(x+α2d)−xk
α2 .
Quando o conjunto Ω ´e da forma (1.2), o c´alculo da proje¸c˜ao ´e feito de forma simples, isto ´e, dadox∈Rn, a i-´esima coordenada da proje¸c˜ao de x em Ω ´e
PΩ(x)
i =
`i, se xi ≤`i, xi, se xi ∈(`i, ui), ui, se xi ≥ui,
(1.7) para cada i= 1, . . . , n. A Figura 1.3 ilustra o c´alculo da proje¸c˜ao para o caso n= 2.
Figura 1.3: Proje¸c˜ao na caixa. Fonte: a autora.
Antes de estabelecermos condi¸c˜oes de otimalidade de primeira ordem para o pro-blema (1.1), recorde as seguintes defini¸c˜oes.
Defini¸c˜ao 1.7. Um ponto x¯∈Ω ´e um minimizador global para o problema (1.1) se f(¯x)≤f(x),
para todox∈Ω.
Defini¸c˜ao 1.8. Um pontox¯∈Ω´e um minimizador local para o problema (1.1) se existir ε >0 tal que
f(¯x)≤f(x), para todox∈Ω com kx−xk ≤¯ ε.
As f´ormulas de Taylor ser˜ao bastante ´uteis neste trabalho. Enunciamos as f´ormulas de primeira e segunda ordem, demonstradas em [21, Cap´ıtulo 3, Teorema 5].
Teorema 1.9. Sejamf :Rn →Ruma fun¸c˜ao continuamente diferenci´avel em um aberto U ⊂Rn e x¯∈U. Ent˜ao, para todo d∈Rn tal que x¯+d∈U, vale que
Teorema 1.10. Sejam f :Rn → R uma fun¸c˜ao duas vezes continuamente diferenci´avel em um aberto U ⊂Rn e x¯∈U. Ent˜ao, para todo d∈Rn tal que x¯+d∈U, vale que
Os limites (1.9) e (1.11) implicam que os erros r(d) e s(d) tendem a zero mais r´apido do que kdk e kdk2 tendem a zero, respectivamente, ou seja, quando estamos nos aproximando de ¯x. Ent˜ao, podemos reescrever as igualdades (1.8) e (1.10) como
f(¯x+d) = f(¯x) +∇f(¯x)Td+o(kdk) (1.12) e
f(¯x+d) =f(¯x) +∇f(¯x)Td+ 1
2dT∇2f(¯x)d+o(kdk2), (1.13) respectivamente. Al´em disso, em alguns casos, ´e ´util reescrever as f´ormulas de Taylor (1.8) e (1.10) como
f(¯x+d) = f(¯x) +∇f(¯x)Td+R(d)kdk (1.14) e
f(¯x+d) =f(¯x) +∇f(¯x)Td+ 1
2dT∇2f(¯x)d+S(d)kdk2,
respectivamente, sendo as fun¸c˜oes R(d) =r(d)/kdk e S(d) =s(d)/kdk2 tais que lim
kdk→0R(d) = 0 e lim
kdk→0S(d) = 0. (1.15)
O lema a seguir facilita as pr´oximas demonstra¸c˜oes.
Lema 1.11. Seja Ω⊂Rn um conjunto convexo e x¯∈Ω. Ent˜ao
Podemos demonstrar agora uma condi¸c˜ao necess´aria de otimalidade para o problema (1.1).
Teorema 1.12. [6, Teorema 3.1.12]Considere o problema (1.1). Se x¯∈Ω´e um minimi-zador local para este problema ent˜ao
∇f(¯x)T(x−x)¯ ≥0,∀ x∈Ω. (1.16) Demonstra¸c˜ao. Primeiramente, note que
∇f(¯x)Td≥0,∀ d∈TΩ(¯x).
De fato, para d = 0 ∈TΩ(¯x), a desigualdade acima ´e imediata. Considerando d∈ TΩ(¯x) n˜ao nulo, sabemos que existe uma sequˆencia (tk)⊂R+tal quetk →0+, e uma sequˆencia (dk) ⊂ Rn com dk →d, tais que vale (1.3). Como kdkk → kdk> 0, ¯x+tkdk → x¯ e ¯x ´e minimizador local, vale que, para todok suficientemente grande,
f(¯x)≤f(¯x+tkdk) e kdkk>0.
Ent˜ao, da f´ormula de Taylor de primeira ordem (1.12), temos 0≤tk∇f(¯x)Tdk+o(tkkdkk).
Dividindo esta express˜ao por tkkdkk>0 e passando o limite em k, obtemos
∇f(¯x)Td≥0.
Al´em disso, o Lema 1.11 e a inclus˜ao (1.4) implicam que
{d∈Rn | d =x−x,¯ ∀ x∈Ω} ⊂TΩ(¯x).
Portanto, vale a condi¸c˜ao (1.16).
Observe que a condi¸c˜ao (1.16) ´e suficiente para ¯xser um minimizador global, quando f ´e convexa, pois, nesse caso,
f(x)≥f(¯x) +∇f(¯x)T(x−x),¯ para qualquer x∈Ω.
O pr´oximo teorema estabelece a condi¸c˜ao necess´aria de otimalidade para ¯x, em termos da proje¸c˜ao.
Teorema 1.13. [6, Teorema 3.2.34] Se x¯∈Ω´e um minimizador local do problema (1.1) ent˜ao para qualquer α >0, temos
PΩ(¯x−α∇f(¯x)) = ¯x. (1.17) Demonstra¸c˜ao. Sejaα >0. Ent˜ao, fazendo y= ¯xem (1.6), temos
¯
x−α∇f(¯x)−PΩ(¯x−α∇f(¯x))T
¯
x−PΩ(¯x−α∇f(¯x))
≤0.
Isso implica que
k¯x−PΩ(¯x−α∇f(¯x))k2 ≤α∇f(¯x)T x¯−PΩ(¯x−α∇f(¯x)) . Usando o Teorema 1.12 para o lado direito da desigualdade acima, temos
k¯x−PΩ(¯x−α∇f(¯x))k2 ≤0.
Portanto, vale (1.17).
A Figura 1.4 exemplifica a condi¸c˜ao de otimalidade (1.17) em um ponto ¯xpara uma fun¸c˜ao quadr´atica f com matriz Hessiana definida positiva.
Figura 1.4: Condi¸c˜ao necess´aria (1.17). Fonte: a autora.
Assim como a condi¸c˜ao (1.16), para fun¸c˜oes convexas, a condi¸c˜ao (1.17) torna-se suficiente para ¯x ser um minimizador (veja [6, Teorema 3.4.36]).
Neste cap´ıtulo, vamos considerar que um ponto ¯x ´e estacion´ario para o problema (1.1) se satisfazer a condi¸c˜ao necess´aria dada pelo Teorema 1.13 ou a condi¸c˜ao (1.16), uma vez que estas condi¸c˜oes s˜ao equivalentes quando Ω ´e convexo e fechado, como mostra [6, Teorema 3.4.36].
Para alguns resultados, vamos supor condi¸c˜oes sobre a derivada da fun¸c˜ao objetivo.
Uma condi¸c˜ao bastante comum ´e pedir que a derivada seja Lipschitz-cont´ınua.
Defini¸c˜ao 1.14. Dado um conjunto Ω⊂ Rn, dizemos que uma aplica¸c˜ao h : Ω →Rp ´e Lipschitz-cont´ınua com constante L >0 se
kh(x)−h(y)k ≤Lkx−yk, para quaisquer x, y ∈Ω.
Para finalizar esta se¸c˜ao, enunciamos um resultado que ser´a utilizado mais adiante.
Lema 1.15. [7, Lema 1.5.4] Seja f : Rn →R uma fun¸c˜ao diferenci´avel. Suponha que f tem derivada Lipschitz-cont´ınua com constante L > 0. Ent˜ao, dado qualquer x ∈ Rn e qualquer dire¸c˜ao d∈Rn, vale que
|f(x+d)−f(x)− ∇f(x)Td| ≤ Lkdk2 2 .