O M´etodo de M´axima Descida - Publicações do PESC Algumas Aplicações da Geometria Riemanniana

Estamos interessados em resolver o seguinte problema de otimizac¸˜ao:

(p) min

x∈Mf (x)

ondeM é uma variedade Riemanniana conexa, completa de dimensão finita e f : M _{→ IR é}

uma função continuamente diferenciável e quase-convexa. O método de máxima descida gera uma seqüência de pontos_{xk_{} dados por:}

x0 ∈ M, (4.1)

xk+1 = expxk(−t_kgradf (xk)) (4.2)

ondeexp é a aplicação exponencial etk é um parâmetro positivo.

vazio.

Denotamos o valor ´otimo de(p) por f∗_{. Agora, definamos o seguinte conjunto}

U :={x ∈ M : f(x) ≤ inf

k f (x k₎_}.

O lema seguinte é a chave de nosso trabalho já que ele será usado para provar que a seqüência,

definida pelo método de máxima descida, é quasi-Fejér convergente aU.

Lemma 4.3.1 Sejaf : M → IR uma função continuamente differenciável e quase-convexa em

uma variedade Riemanniana conexa, completa e de dimensão finita com curvatura seccional não negativa, então

d2(xk+1, x)_{≤ d}2(xk, x) + t2_k_||gradf (xk)_||2

para todox∈ U e todo tk> 0.

Demonstração. Sejax∈ U arbitrário. Seja também γ1 : [0, 1]→ M a geodésica minimal lig-

andoxk_e_{x e γ}

2 : [0, 1]→ M uma geod´esica ligando xkexk+1 comγ2′(0) =−tkgradf (xk).

Do Teorema 2.2.3 temos:

d2(xk+1, x)_{≤ d}2(xk, x) + t2_k_||gradf (xk)_||2+ 2tkd(xk, x)hgradf (xk), γ1′(0)i.

Comof ´e quase-convexa e f (x)_{≤ f(x}k_{), do Teorema 4.2.2 obtemos que}

hgradf (xk), γ₁′(0)i ≤ 0.

Usando este resultado na desigualdade anterior obtemos o resultado desejado.

A partir de agora M denotar´a uma variedade Riemanniana conexa, completa e de dimens˜ao

finita com curvatura seccional n˜ao negativa.

4.3.1 M´etodo com uma busca de Armijo generalizada

O método de máxima descida com busca de Armijo gera uma seqüência de pontos_{xk_{} dados} por (4.1)-(4.2) onde tk = arg max{t : f exp_xk(−tgradf (xk)) ≤ f(xk)_−αt||gradf (xk)||2, t = 2−i, i = 0, 1, ...} (4.3)

comα ∈ (0, 1).

Nesta subseção provamos a convergência global deste método para o caso quase-convexo. Nos-

sos resultados são uma generalização de Kiwiel e Murty [48] para variedades Riemannianas e

estende prévios resultados de convergência obtidos, para o caso convexo, por Burachik et al. [9] e Cruz Neto et al. [16]. Como em [48], considere a seguinte hipótese:

Hipótese A2. Sejaφ : IR+→ IR+uma função tal que:

A2.1 Existeα _{∈ (0, 1), τ}α > 0, tal que∀t ∈ (0, τα] : φ(t)≤ αt,

A2.2 Existeβ > 0, τβ ∈ (0, +∞], tal que ∀t ∈ (0, τβ)∩ IR: φ(t) ≥ βt2,

A2.3 Para todok, f (xk+1₎_{≤ f(x}k₎_{− φ(t}

k)||gradf (xk)||2e0 < tk ≤ τβ em (4.2),

A2.4 Existeγ > 1, τγ > 0, tal que∀k : tk ≥ τγ ou

existe ¯tk ∈ [tk, γtk] : f (expxk(−¯t_kgradf (xk)))≥ f(xk)− φ(¯t_k)||gradf (xk)||2

. Observação 4.3.1 Observemos que a hipóteseA2 é satisfeita pela regra de Armijo (4.3) para φ(t) = αt, β = α, γ = 2 e τα = τβ = τγ = 1.

Observação 4.3.2 A hipótese A2 também é satisfeita pelo método de máxima descida com

passos fixos introduzida em [9] e generalizada para variedades Riemannianas em [16]. De fato, em [9] e [16] a regra para obtertk ´e a seguinte:

Dadosδ1 eδ2 tal que δ1Γ + δ2 < 1, onde Γ ´e a constante de Lipschitz associada agradf,

escolher tk∈ δ1, 2 Γ(1− δ2) . Definindoφ(t) = βt2_{, com β =} Γδ2 2(1−δ2), τγ = δ1, τβ = (2/Γ)(1− δ2), α ∈ (0, 1) arbitr´ario e

τα = α/β, garantimos a hip´otese A2.

Proposição 4.3.1 Sejaf : M _{→ IR uma função continuamente diferenciável e quase-convexa.}

Suponha que as hipótesesA1 e A2 são satisfeitas. Então a seqüência_{xk_{} gerada pelo método}

de máxima descida com busca de Armijo generalizada é quase-Fejér convergente aU. Demonstração. Das hipótesesA2.2 e A2.3 temos

Isto implica que +∞ X k=0 t2_k_||gradf (xk)_||2 _≤ f (x 0₎_{− f}∗ β < +∞.

Do Lemma 4.3.1 e Definic¸˜ao 4.2.1 temos o resultado.

Teorema 4.3.1 Sejaf : M _{→ IR uma função continuamente diferenciável e quase-convexa.}

Suponha que as hipótesesA1 e A2 são satisfeitas. Então a seqüência_{xk_{} gerada pelo método}

de máxima descida com busca de Armijo generalizada converge. Além disso, ela converge para um ponto estacionário (um pontox tal que¯ gradf (¯x) = 0).

Demonstração. Da Proposição anterior, _{xk_{} é quase-Fejér convergente a U, assim {x}k_{} é}

limitado (ver Teorema 4.2.1). Então existemx e uma subseqüência¯ _{xkj} de {xk} convergindo

parax. Da continuidade de f obtemos¯ lim

j→+∞f (x

kj_{) = f (¯}_x).

Devido a que_{f(xk)} é uma seqüência não crescente, ver (4.4), com uma subseqüência con-

vergindo paraf (¯x), toda a seq¨uˆencia converge para f (¯x) e assim f (¯x)≤ f(xk_), _{∀k ∈ IN.}

Isto implica quex¯_{∈ U. Agora, do Teorema 4.2.1, concluimos que {x}k_{} converge para ¯x.}

Finalmente, provaremos quegradf (¯x) = 0. Por contradic¸˜ao, suponhamos quegradf (¯x)6= 0.

Claramente, temos que gradf (xk₎ _→ _grad_{f (¯}_x) _{6= 0 e f(x}k₎ _{→ f(¯x). Agora, de (4.4),}

cumpre-se que

lim

k→+∞tk = 0. (4.5)

Por outro lado, usandoA2.4 e A2.1, temos, para k suficientemente grande,

f (exp_xk(−¯t_kgradf (xk)))− f(xk)≥ −α¯t_k||gradf (xk)||2. (4.6)

Al´em disso, do teorema do valor medio, para cadak, existe t∗

k∈ [0, ¯tk] tal que

−hgradf (exp_xk(−t_k∗gradf (xk))), P_γ_k_,0,t∗

kgradf (x

k₎

onde Pγk,0,t∗k ´e o transporte paralelo ao longo da geod´esicaγk tal queγk(0) = x

k _e _γ′ k(0) =

−gradf (xk_{). Agora, (4.5) e A2.4 implicam que lim}

k→+∞t∗k = 0. Fazendo k → +∞ na de-

sigualdade acima e tomando em conta a continuidade degradf , exp e o transporte paralelo,

temos que1_{≤ α, o que contradiz A2.1. Portanto,}gradf (¯x) = 0.

Como conseq¨uˆencia do teorema anterior e do Teorema 4.2.3 temos o seguinte resultado.

Corolário 4.3.1 Sejaf : M → IR uma função continuamente diferenciável e pseudoconvexa.

Então, com as hipótesesA1 e A2, a seqüência_{xk_{} converge para um ponto de m´ınimo global}

do problema(p).

4.3.2 Método com uma regularizaç ão proximal

Seja_{λk} uma seqüência de números reais tal que

λ′ _{≤ λ}k≤ λ′′,

onde0 < λ′ _{≤ λ}′′_{. O método de máxima descida com uma regularização proximal gera uma}

seq¨uˆencia_{xk_{} definida por (4.1)-(4.2) onde}

tk = arg min{f(expxk(−tgradf (xk))) + t2λ_k||gradf (xk)||2 : t≥ 0}. (4.7)

Este método foi introduzido por Iusem e Svaiter em [42] para resolver problemas de otimização

convexa em espaços Euclidianos e logo generalizado para variedades Riemannianas em Cruz Neto et al. [18]. Nesta subseção, estendemos os resultados de convergência global destes

trabalhos para o caso quase-convexo.

Proposição 4.3.2 Sejaf : M _{→ IR uma função continuamente diferenciável e quase-convexa.}

Suponha que a hipóteseA1 é satisfeita. Então, a seqüência{xk_{}, gerada por (4.1),(4.2) e (4.7),}

é quase-Fejér convergente ao conjuntoU. Demonstração. De (5.11) e (4.7) :

Daqui, ´e f´acil verificar que

+∞

k=0

t2_k_||gradf (xk)_||2 _{≤ (1/λ}′)(f (x0)_{− f}∗) < +_∞.

Do Lema 4.3.1 e Definic¸˜ao 4.2.1, obtemos o resultado desejado.

Teorema 4.3.2 Sejaf : M _{→ IR uma função continuamente diferenciável e quase-convexa.}

Suponha que a hipótese A1 é satisfeita. Então, a seqüência {xk_{}, gerada por (4.1),(4.2) e}

(4.7), converge a um ponto estacion´ario.

Demonstração. De (4.8) temos que_{f(xk)} é uma seqüência não crescente. Usando os mes-

mos argumentos da demonstração do Teorema 4.3.1, podemos mostar que_{xk_{} converge a um} pontox∗ _{∈ U. Finalmente, temos}_grad_{f (x}∗_{) = 0, como uma aplicação do Teorema 4.1, iiii,}

em [18], onde isto foi provado para uma função arbitária.

Similar ao Corolario 4.3.1 temos o seguinte resultado

Corolário 4.3.2 Sejaf : M → IR uma função continuamente diferenciável e pseudoconvexa.

Então, com a hipóteseA1, a seqüência_{xk_{} converge a um ponto de m´ınimo global de (p).}

No documento Publicações do PESC Algumas Aplicações da Geometria Riemanniana à Otimização (páginas 52-57)