Error Bounds - Problema de Viabilidade Convexa em Variedades de Hadamard

Considere uma fun¸cão não decrescente ω : [0,∞) → [0,∞) com ω(0) =0. Dizemos quef:M→Rsatisfaz um error bounds local com fun¸cão residual ωse existir r₀ >0 tal que

(ω◦f)(x)>dist(x,S), (4.2) para todox∈[06f6r0] (Estamos considerando min f=0).

Um importante caso particular é quando a fun¸cão residual é dada por ω(s) =γ⁻¹^ps¹^p, nesse caso podemos rescrever a desigualdade(4.2) da seguinte forma:

f(x)>γd(x,S)^p.

Defini¸cão 4.1. Dizemos que uma fun¸cãoϕ: [0,r)→R em C¹(0,r)∩C⁰[0,r₀]) e nula na origem tem comportamento moderado (próximo a origem) se ela satisfaz a desigualdade

sϕ⁰(s)>cϕ(s) ∀s∈(0,r),

onde c´e uma constante positiva.

Observa¸cão 4.1. Seϕfor côncava, entãoc61. De fato, sejas∈(0,r)tal queϕ(s)6=0, pelo teorema do valor médio existe t_s ∈(0,s) tal que ϕ(s) −ϕ(0) =sϕ⁰(t_s), logo

ϕ(s) =ϕ(s) −ϕ(0) =sϕ⁰(t_s)>sϕ⁰(s)>cϕ(s),

donde c61.

Exemplo 4.1. Considere a fun¸c˜ao ϕ: [0,r)→R dada por ϕ(s) =γ s^p¹. Da´ı ϕ⁰(s) = 1

p γ s¹^p⁻¹. Fazendo c= 1

p, obtemos

sϕ⁰(s)>cϕ(s), ∀s ∈(0,r),

ou seja, ϕ tem comportamento moderado próximo a origem. Além disso, se γ > 0 e p>1, é fácil ver que ϕ é côncava e c= 1

p 61.

Quando f ´e uma fun¸c˜ao convexa definida em um espa¸co de Hilbert e satisfaz a de-sigualdade KL, o teorema 27 em [7] fornece uma estimativa para o comprimento das

trajet´orias subgradientes. Utilizando a existˆencia das curvas subgradientes em varieda-des de Hadamard e algumas propriedavarieda-des que foram varieda-desenvolvidas no cap´ıtulo anterior, generalizaremos este resultado para variedades de Hadamard.

Relembramos aqui que estamos assumindo que S = arg min f e que min f = 0.

Proposi¸cão 4.3. Sejam ¯x ∈ S,ρ > 0 e ϕ ∈ K(0,r0). As seguintes afirma¸cões são

Demonstra¸c˜ao. Primeiro mostraremos que(i)⇒(ii).

Dado x ∈B(¯x,ρ)∩[0< f < r₀] e 06t < s, considere a curva subgradiente partindo para quase todot >0. Observe que

ϕ(f(x(t))) −ϕ(f(x(s))) =

Na proposi¸c˜ao 3.2, provamos que d

dτ(f(x(τ))) = −kx⁰(τ)k² para quase todo τ > 0, e na

Note quex(t)∈B(¯x,ρ)para todot >0, poisx(0) =x∈B(¯x,ρ)e a fun¸c˜aot7→d(x(t), ¯x)

é decrescente (ver proposi¸cão 3.5). Além disso, pela proposi¸cão 3.2, a fun¸cãot 7→f(x(t))

´e decrescente, portanto x(t)∈[0< f < r0]para todo t >0. Assim, x(t)∈B(¯x,ρ)∩[0< f < r₀] ∀t >0,

dessa forma, por hip´otese, tem-se queϕ⁰(f(x(τ)))k∂⁰f(x(τ))k>1 para todoτ >0. Logo, ϕ(f(x(t))) −ϕ(f(x(s))) =

Zs t

ϕ⁰(f(x(τ)))·∂⁰f(x(τ))· kx⁰(τ)kdτ>

Zs t

kx⁰(τ)kdτ.

Mostraremos agora que(ii)⇒(i).

Dado x ∈B(¯x,ρ)∩[0< f < r₀], considere a curva subgradiente partindo de x, segue da hip´otese que

1 h

Zh 0

kx⁰(τ)kdτ6−ϕ(f(x(h))) −ϕ(f(x(0)))

h , ∀ h >0.

Fazendoh→0⁺, obtemos

kx⁰(0⁺)k6−ϕ⁰(f(x(0)))·(f◦x)⁰(0⁺).

Lembre-se que (f◦x)⁰(t⁺) = −kx⁰(t⁺)k² e x⁰(t⁺) = −∂⁰f(x(t)) para todo t > 0 (ver proposi¸c˜ao 3.4 e o corol´ario 3.1), da´ı

kx⁰(0⁺)k6−ϕ⁰(f(x))·(f◦x)⁰(0⁺) ⇒ k∂⁰f(x)k6ϕ⁰(f(x))· k∂⁰f(x)k²

⇒ 16ϕ⁰(f(x))· k∂⁰f(x)k.

O teorema a seguir é o principal resultado desse cap´ıtulo. Ele garante que se uma fun¸cão convexa f : M → R possui a propriedade KL em ¯x, então f satisfaz um error bounds em ¯x, a rec´ıproca não é verdade, mas se f satisfaz um error bound em ¯x e sua fun¸cão residual tem comportamento moderado, entãof satisfaz a desigualdade KL em ¯x.

Além disso, no primeiro caso a fun¸cão desingularizante e a fun¸cão residual são iguais e no segundo caso diferem apenas por uma constante multiplicativa. Este resultado encontra-se feito em [7], no caso em que f está definida em um espa¸co de Hilbert. Usando a existência da curva subgradiente, que desenvolvemos no cap´ıtulo anterior, também iremos generalizar este resultado para Variedades de Hadamard.

Teorema 4.1 (Caracteriza¸c˜ao da desigualdade KL para fun¸c˜oes convexas).

Sejam f : M → R uma fun¸c˜ao convexa, com min f = 0, r₀ > 0, c > 0, ϕ ∈ K(0,r₀), ρ >0 e x¯∈S. Ent˜ao

(i) (Desigualdade KL implica error bounds.)

Se k∂⁰f(x)kϕ⁰(f(x))>1 para todo x∈[0< f < r₀]∩B(¯x,ρ), ent˜ao dist(x,S)6ϕ(f(x)), ∀x∈[0< f < r₀]∩B(¯x,ρ).

(ii) (Error bounds e comportamento moderado implica desigualdade KL.)

Se sϕ⁰(s) > cϕ(s) para todo s ∈ (0,r₀) e dist(x,S) 6 ϕ(f(x)) para todo x ∈[0< f < r₀]∩B(¯x,ρ), ent˜ao

ϕ⁰(f(x))k∂⁰f(x)k>c, ∀x∈[0< f < r₀]∩B(¯x,ρ).

Demonstra¸c˜ao. (i) Como f tem a propriedade KL em ¯x, a proposi¸c˜ao 4.3 garante que para cada x∈[0< f < r0]∩B(¯x,ρ) e 06t < s, tem-se

d(x(s),x(t))6 Zs

kx⁰(τ)kdτ6ϕ(f(x(t))) −ϕ(f(x(s)), (4.3) ondex : [0,∞]→M´e a curva subgradiente, com x(0) =x. Lembre-se que na proposi¸c˜ao 3.8 provamos que lim

t→+∞x(t) = x^∗ ∈ arg minf e lim

t→+∞(f◦ x)(t) = minf = 0. Assim, tomando t=0 e fazendo s→∞ em (4.3), obtemos

d(x^∗,x)6ϕ(f(x)).

Portanto,

dist(x,S)6ϕ(f(x)), ∀ x ∈[0< f < r₀]∩B(¯x,ρ).

(ii) Tome x∈[0< f < r₀]∩B(¯x,ρ) e sejay=P_S(x). Por convexidade, temos 0=f(y)>f(x) +h∂⁰f(x),exp⁻¹_x yi.

Assim,

f(x)6kh∂⁰f(x),exp⁻¹_x yik 6 k∂⁰f(x)k · kexp⁻¹_x yk

= k∂⁰f(x)k ·d(x,y)

= k∂⁰f(x)k ·d(x,S) 6 k∂⁰f(x)k ·ϕ(f(x))

= 1

c ·cϕ(f(x))· k∂⁰f(x)k

6 1

c ·f(x)ϕ⁰(f(x))· k∂⁰f(x)k.

Observe que na ultima desigualdade usamos queϕtem comportamento moderado. Al´em disso, note quef(x)>0, pois x∈[0< f < r₀], portanto

ϕ⁰(f(x))k∂⁰f(x)k>c.

A seguir caracterizaremos a existência global da propriedade KL. A demonstra¸cão do caso global é completamente análoga à do teorema anterior.

Corolário 4.1 (Caracteriza¸cão da desigualdade KL para fun¸cões convexas: caso global).

Sejamf:M→R uma fun¸c˜ao convexa, com min f=0, r0 >0, c >0 e ϕ∈K(0,r0).

(i) (Desigualdade KL implica error bounds.) Se k∂⁰f(x)kϕ⁰(f(x)) > 1 para todo x ∈[0< f], ent˜ao dist(x,S)6ϕ(f(x)), ∀x ∈[0< f].

(ii) (Error bounds e comportamento moderado implica desigualdade KL.)

Se sϕ⁰(s) > cϕ(s) para todo s ∈ (0,r0) e dist(x,S) 6 ϕ(f(x)) para todo x ∈[0< f], ent˜ao ϕ⁰(f(x))k∂⁰f(x)k>c, ∀x∈[0< f].

Observa¸cão 4.2. Observe que há uma certa assimetria entre as conclusões de (i) e (ii):

Em (i) a fun¸cão residual é exatamente a fun¸cão desingularizante, enquanto em (ii), a fun¸cão residual e a fun¸cão desingularizante diferem por uma constante multiplicativa.

Cap´ıtulo 5

Problema de viabilidade convexa

Um problema muito comum em diversas áreas de matemática e ciências f´ısicas consiste em tentar encontrar um ponto na interse¸cão de conjuntos convexos, mas precisamente, seC₁,C₂, . . . ,C_m são conjuntos convexos e fechados tais que C:= Tm

i=1C_i6=∅, estamos interessados em encontrar algum ponto x ∈ C, esse problema ´e conhecido na literatura como problema de viabilidade convexa.

5.1 M´ etodo do gradiente

Enunciaremos a seguir o método do gradiente, que também é conhecido na literatura como método de máxima descida. Para mais detalhes sobre este método, consulte o apêndice A, desta disserta¸cão.

Algoritmo 5.1 (M´etodo do gradiente).

Passo 1: Escolha um ponto inicial x⁰ ∈M;

Passo 2: Dadox_k, sex_k é um ponto cr´ıtico de f, então fa¸ca x_k+p =x_k para todo p∈N; Passo 3: Caso contrário, tome como a próxima iterada x_k+1 ∈M tal que

x_k+1 =exp_x

k(−t_kgradf(x_k)), (5.1)

onde o comprimento de passot_k ´e dado pela busca de Armijo’s, isto ´e, t_k :=max{2^−j :j∈N, f −exp_x_k(2^−jgradf(x_k)

6f(x_k) −α2^−jkgrad f(x_k)k²}, com α∈(0, 1).

Observa¸cão 5.1. A boa defini¸cão da igualdade (5.1) segue do Teorema de Cartan-Hadamard, mais precisamente, pelo fato de, em uma variedade de Cartan-Hadamard, a aplica¸cão exponencial é um difeomorfismo (global). Além disso, segue de (5.1) que

t_kkgradf(x_k)k=d(x_k+1,x_k), ∀k>0. (5.2) Sex_k+1 =x_k, segue de (5.1) que grad f(x_k) =0, uma vez que t_k >0, ou seja, x_k é ponto cr´ıtico def. Com isso, temos um critério de parada prático para o Algoritmo 5.1.

Considere a fun¸c˜ao f:M→Rdada por f(x) = 1

2 Xm i=1

α_idist²(x,C_i), (5.3)

onde α_i > 0 para todo i = 1, 2, . . . ,m e Pm

i=1α_i = 1. Note que x ∈ C se, e somente se, x ∈ arg minf, isto é, resolver este problema de viabilidade convexa é equivalente à minimizar a fun¸cãof.

Para minimizar f, aplicaremos o m´etodo do gradiente para variedades de Hadamard, que pode ser encontrado com mais detalhes em [6].

Observe que pela defini¸cão da busca de Armijo’s, a sequência {x_k} gerada pelo algo-ritmo de máxima descida satisfaz a desigualdade

f(x_k+1) +αt_kkgrad f(x_k)k² 6f(x_k).

Em particular, a sequˆencia f(x_k)´e estritamente decrescente.

A partir da defini¸cão do comprimento de passo t_k, é poss´ıvel mostrar que se a fun¸cão objetivoftem gradiente Lipschitz, então zero não é um ponto de acumula¸cão da sequência {t_k}.

Quando {x_k} tem um ponto de acumula¸cão ¯x e f satisfaz a desigualdade KL em ¯x, a sequência gerada pelo método do gradiente converge para um ponto cr´ıtico de f.

Teorema 5.1. Seja {x_k} a sequencia gerada pelo algoritmo 5.1. Se {x_k} tem um ponto de acumula¸cão x¯ ∈ M e f satisfaz a desigualdade de Kurdyka- Lojasiewicz em ¯x, então x¯ é um ponto cr´ıtico def. Além disso,

k→+∞lim f(x_k) =f(¯x) e lim

k→+∞x_k =¯x.

Demonstra¸c˜ao. Ver teorema A.1, no apˆendice A.

Finalmente resolveremos o problema de viabilidade convexa, mas para isso precisare-mos acrescentar uma hip´otese adicional:

Defini¸c˜ao 5.1. Considere os conjuntos A₁,A₂, . . . ,A_m ⊂M e A=∩^m_i=1A_i.

(i) Dizemos que os conjuntos A₁,A₂, . . . ,A_m s˜ao linearmente limitadamente regular se para cada conjunto limitado existir uma constante κ >0 tal que

dist(x,A)6κmax{dist(x,A_i), i=1, . . . ,m}, ∀x∈S.

(ii) Dizemos que os conjuntos A₁,A₂, . . . ,A_m s˜ao linearmente regular se existir uma constante κ > 0 tal que

dist(x,A)6κmax{dist(x,A_i), i =1, . . . ,m}, ∀x ∈M.

Observa¸c˜ao 5.2. Segue da defini¸c˜ao que todo conjunto linearmente limitadamente regular

´e linearmente regular.

Demonstra¸c˜ao. Inicialmente mostraremos que f possui um error bounds local. De fato, como que o conjunto[06f6r₀] =f⁻¹([0,r₀])´e limitado, temos

Assim,fadmite um error bound com fun¸c˜ao residual dada por ω(s) = κ α

√s, como vimos no exemplo 4.1, esta fun¸c˜ao tem comportamento moderado em (0,∞) com c= 1

2. Segue do teorema 4.1 que f satisfaz a desigualdade de Kurdyka- Lojasiewicz em cada ponto x∈[0< f < r0], com fun¸c˜ao desingularizante dada porϕ(s) = ¹₂−1

ω(s) = 2κ α

√s.

Mostraremos agora que a sequˆencia {x_k}´e limitada. Com efeito, d(x_k,P_C(x_k)) =dist(x_k,C)6 κ

pf(x_k).

Como {f(x_k)} é limitada (pois é decrescente), segue que a sequência {d(x_k,P_C(x_k))} também é limitada. Além disso, fixado y₀ ∈ C, note que {d(P_C(x_k),y₀)} também é limitada, poisC é compacto. Finalmente, pela desigualdade triangular obtemos

d(x_k.y₀)6d(x_k,P_C(x_k)) +d(P_C(x_k),y₀).

Logo a sequência {x_k}é limitada e portanto admite algum ponto de acumula¸cão ¯x. Pelo teorema 5.1, segue que ¯xé um ponto cr´ıtico de fe

k→+lim∞f(x_k) =f(¯x) =0 e lim

k→+∞x_k =x.¯

5.2 Complexidade do m´ etodo

Na se¸cão anterior, aplicamos o método do gradiente e obtemos uma sequência{x_k}que converge para a interse¸cão dos conjuntosC₁,C₂, . . . ,C_m, nesta se¸cão estamos interessados em obter uma taxa de convergência para esta sequência, para isso, usaremos um resultado sobre a complexidade do método do gradiente, que pode ser encontrado em [6].

Teorema 5.3. Assuma que f satisfaz a desigualdade de Kurdyka - Lojasiewicz em um ponto de acumula¸cão x¯ de {x_k} com fun¸cão desingularizante ϕ(t) = ^c_θt^θ com c > 0 e θ∈(0, 1]. Então, vale a seguinte estimativa:

1. Se θ=1, a sequˆencia {x_k} converge em um n´umero finito de passos.

2. Se θ∈[¹₂, 1), ent˜ao existem constantes c1 >0 e c2 >0 tais que f(xk) −f(¯x)6c2e^−c¹^k.

3. Se θ∈(0,¹₂), ent˜ao existe uma constante c >0 e k0 ∈R tais que f(x_k) −f(¯x)6c(k−k₀−1)^1−2θ⁻¹ .

Demonstra¸c˜ao. Veja Teorema 3, em [6].

Sob as hipóteses do teorema 5.2, temos a seguinte taxa de convergência para a sequência {x_k}.

Teorema 5.4 (Taxa de convergˆencia). Existem constantes µ₁ >0, µ₂ >0 e k₀ ∈N tais que

d(x_k,C)6µ₂e^−µ¹^k, para todok > k₀.

Demonstra¸cão. Lembre-se que a sequência{x_k}é gerada aplicando o método do gradiente na fun¸cão f(x) = ¹₂ Pm

i=1α_idist²(x,C_i). Na demonstra¸cão do teorema 5.2, vimos que a fun¸cão desingularizante de f é dada por ϕ(s) = 2k

√s, ou seja, θ = ¹₂ ∈ [¹₂, 1). Pelo teorema 5.3, existem constantes positivasc₁ ec₂ tais que

f(x_k) −f(¯x)6c₂e^−c¹^k. Comof(¯x) =minf=0 e d(x,C)6 κ

pf(x), tem-se

f(x_k) −f(¯x)6c₂e^−c¹^k ⇒ f(x_k)6c₂e^−c¹^k

⇒ p

f(x_k)6√

c₂·e^−c²¹^k

⇒ κ α

pf(x)6 κ α

√c₂·e^−c²¹^k

⇒ d(x,C)6 κ α

√c₂·e^−c²¹^k.

Tomandoµ₁ = c₁

2 e µ₂ = κ 2

√c₂, temos

d(xk,C)6µ2e^−µ¹^k.

Apˆ endice A

An´ alise de convergˆ encia do m´ etodo do gradiente

A.1 M´ etodo do gradiente

Nesta se¸cão abordaremos o método do gradiente também presente na literatura como método de máxima descida. Os resultados da primeira parte deste cap´ıtulo seguem a mesma ideia de [1, 4]. Foi em 1972 com Luenberger [18] que o método de máxima des-cida ao longo de geodésicas foi primeiramente estudado. Mas, foi somente em 1993 que Smith [20] obteve os primeiros resultados de convergência desse método no contexto das variedades Riemannianas. Em 2008, Cruz Neto et al.[9] observa a influência da curvatura da variedade para obter a convergência global da sequência gerada pelo método de máxima descida (com o passo de Armijo e passo fixo) para fun¸cões continuamente diferenciáveis e convexas definidas em uma variedade Riemanniana completa de dimensão finita com curvatura não-negativa. Esse resultado foi estendido para fun¸cões quase-convexas (con-tinuamente diferenciáveis) por Papa Quiroz et al.[19] em 2008. Dessa forma, tem sido comum considerar o contexto das variedades Riemannianas com curvatura não-negativa como o ambiente apropriado para se estudar a convergência global de métodos como gradi-ente e subgradigradi-ente, veja por exemplo [9, 10, 15, 19]. No decorrer dessa se¸cão mostraremos que o método de máxima descida pode ser estendido para as variedades de Hadamard usando a propriedade de Kurdyka- Lojasiewicz.

Considere o problema de minimiza¸c˜ao irrestrito

x∈Mminf(x) (A.1)

onde M é uma variedade de Hadamard de dimensão finita e f : M → R é uma fun¸cão continuamente diferenciável com gradiente Lipschitz de constante L >0. Assuma que o conjunto solu¸cão de (A.1) é não-vazio.

O método de máxima descida gera uma sequência da seguinte forma:

Algoritmo A.1. Passo 1: Escolha x⁰ ∈M e δ₁,δ₂ >0 tal que Lδ₁ +δ₂ <1;

Passo 2: Dado x_k ∈ M, se x_k ´e um ponto cr´ıtico de f, ent˜ao fa¸ca x_k+p = x_k para todo p∈N;

Passo 3: Caso contr´ario, tome como pr´oxima iteradax_k+1 ∈M tal que

x_k+1 =exp_x_k(−t_kgradf(x_k)), (A.2) onde

tk ∈

δ1,2

L(1−δ2)

. (A.3)

Observa¸cão A.1. Lembre-se que a boa defini¸cão da igualdade (A.2) segue do Teorema de Cartan-Hadamard, mais precisamente, pelo fato de, em uma variedade de Hadamard, a aplica¸cão exponencial é um difeomorfismo (global). Além disso, segue de (A.2) que

tkkgradf(x_k)k=d(xk+1,xk), ∀k>0. (A.4) Se x_k+1 =x_k, segue de (A.4) que gradf(x_k) = 0, uma vez que t_k > 0, ou seja, x_k é ponto cr´ıtico def. Com isso, temos um critério de parada prático para o Algoritmo A.1.

Proposi¸cão A.1. Seja {x_k} uma sequência gerada pelo Algoritmo A.1. Se x_k+1 = x_k, então o algoritmo para em xk e xk é um ponto cr´ıtico de f.

Observa¸c˜ao A.2. Note que em (A.3) o passo pode variar desde que permane¸ca no inter-valo determinado. Mesmo assim, esse passo ´e denominado na literatura como passo fixo.

Nos resultados desta se¸cão iremos considerar o método de máxima descida com o passo fixo como em (A.3), mas ressaltamos que resultados similares podem ser obtidos com o passo clássico conhecido como “busca de Armijo”e definido da seguinte forma:

tk:= arg max

f exp_x_k(−tgradf(xk)

6f(xk) −αtkgradf(xk)k², t =2^−j : j∈N , com α∈(0, 1). Dessa forma, quando a fun¸cão objetivo f tem gradiente Lipschitz, temos que zero não é um ponto de acumula¸cão da sequência {t_k}. Além disso, pela defini¸cão da

busca de Armijo, a sequência gerada pelo método de máxima descida satisfaz f(x_k+1) +αt²_kkgradf(x_k)k² 6f(x_k), ∀k>0,

que é uma desigualdade importante para a convergência do método, conforme veremos na análise de convergência.

A seguir, apresentamos um resultado que mostra que o Algoritmo A.1 satisfaz a desi-gualdade acima sem a necessidade de nenhum procedimento adicional, como por exemplo a busca de Armijo. A proposi¸cão seguinte é a motiva¸cão da escolha do passo como em (A.3) ao invés da busca de Armijo.

Proposi¸cão A.2. Seja {x_k}uma sequência gerada pelo Algoritmo A.1. Então, existe uma constante β >0 tal que

f(xk+1) +βt²_kkgradf(xk)k² 6f(xk), ∀k>0. (A.5) Em particular, vale um dos seguintes itens:

1. {x_k} para em um ponto cr´ıtico;

2. a sequˆencia {f(xk)}´e estritamente decrescente.

Demonstra¸c˜ao. Veja [9, Teorema 5.1].

Observa¸c˜ao A.3. De uma forma mais geral, a proposi¸c˜ao anterior foi provada em [9]

apenas supondo f continuamente diferenciável com gradiente Lipschitz e sem nenhuma hipótese na curvatura da variedade. Porém, para obter os resultados de convergência parcial (no sentido de que pontos de acumula¸cão de{x_k}são pontos cr´ıticos def) os autores assumem que os conjuntos de n´ıveis de f são compactos. Substituindo essa hipótese pela convexidade de f juntamente com a não negatividade da curvatura da variedade, eles provam a convergência da sequência para um minimizador de f.

A seguir, apresentamos um resultado técnico que será usado na análise de convergência do método.

Lema A.1. Seja {a_k} uma sequˆencia de n´umeros reais positivos tal que

+∞

k=1

a²_k/a_k−1 <+∞. Ent˜ao, P+∞

k=1a_k <+∞.

Demonstra¸c˜ao. Veja [5, Lema 4.1].

A.2 An´ alise de convergˆ encia

Recentemente, Bento et al. [5] provaram a convergência do método do ponto proximal para variedades de Riemann sem nenhuma hipótese sobre a curvatura desde que a fun¸cão objetivo satisfa¸ca a propriedade de Kurdyka- Lojasiewicz. Nesta se¸cão substituiremos a hipótese de convexidade da fun¸cão objetivo analisada em [9] para convergência do método de máxima descida em uma variedade de Riemann com curvatura não negativa pela propriedade de Kurdyka- Lojasiewicz para analisar a convergência do Algoritmo A.1 em variedades de Hadamard.

No decorrer desta se¸cão os termos ϕ, ηe U são os mesmo que aparecem na defini¸cão da desigualdade KL. Além disso, nos resultados que seguem iremos supor que a sequência {x_k} gerada pelo Algoritmo A.1 não satisfaz o critério de parada, ou seja, {x_k} é uma sequência de infinitos termos tais que x_k+1 6= x_k e gradf(x_k) 6=0 para todo k > 0, pois caso contrário os resultados são triviais.

Proposi¸cão A.3. Seja {x_k}uma sequência gerada pelo Algoritmo A.1. Suponha que{x_k} tenha um ponto de acumula¸cão ˜x∈M e f satisfaz a propriedade de Kurdyka- Lojasiewicz no ponto ˜x. Então, dada uma constante c >0, para todo ρ > 0 existe k₀ ∈N tal que

f(˜x)< f(x_k)< f(˜x) +η, ∀k>k₀ (A.6) e

d(x_k₀, ˜x) +2d(x_k₀₊₁,x_k₀) +cϕ(f(x_k₀) −f(˜x))< ρ. (A.7) Demonstra¸cão. Seja{x_k_j}uma subsequência de {x_k}convergindo para ˜x. Segue da conti-nuidade de fque {f(x_k_j)} converge paraf(˜x). Além disso, segue de (A.5) que

f(x_k+1) +βδ²₁kgradf(x_k)k² 6f(x_k), ∀k>0, (A.8) onde usamos quetk > δ1. Da´ı, segue que{f(xk)}é uma sequência estritamente decrescente e sendo o conjunto solu¸cão de (A.1) não vazio, temos que {f(x_k)} é convergente e, como f(xk_j) → f(˜x) quando j → +∞, temos que f(xk) → f(˜x) quando k → +∞. Logo, para todoη >0, existek₀ ∈N tal que

f(˜x)< f(x_k)< f(˜x) +η, ∀k>k₀. Agora, combinando (A.2) com (A.8), obtemos

2d(x_k+1,x_k)< 2 δ₁√

pf(x_k) −f(x_k+1), ∀k>0.

Sendo {f(xk)} convergente, segue da desigualdade acima que d(xk+1,xk) → 0 quando k→+∞. Com isso, levando em considera¸c˜ao que ϕ´e cont´ınua, temos que

d(x_k_j, ˜x) +2d(x_k_j₊₁,x_k_j) +cϕ(f(x_k_j) −f(˜x))→0,

quando j → +∞. Portanto, podemos assumir (tomando o m´aximo dos ´ındices se ne-cess´ario) que

d(x_k₀, ˜x) +2d(x_k₀₊₁,x_k₀) +cϕ(f(x_k₀) −f(˜x))< ρ, e isso conclui a demonstra¸c˜ao.

Proposi¸cão A.4. Seja {x_k} uma sequência gerada pelo Algoritmo A.1. Se as hipóteses da Proposi¸cão A.3 são satisfeitas e existem k0 ∈N e >0 tais que xk0 ∈ B(˜x,ε), então existem α,β > 0 tais que

d²(x_k₀₊₁,x_k₀) d(x_k₀,x_k₀₋₁) 6 α

β[ϕ(f(x_k₀) −f(˜x)) −ϕ(f(x_k₀₊₁) −f(˜x))]. (A.9) Demonstra¸cão. Assuma, sem perda de generalidade, quek₀ ∈Né tal que(A.6)se verifica e > 0 é suficientemente pequeno tal que B(˜x,ε)⊂U. Assim,

xk0 ∈U∩[f(˜x)< f < f(˜x) +η].

Comof satisfaz a propriedade de Kurdyka- Lojasiewicz em ˜x, temos que ϕ⁰(f(x_k₀) −f(˜x))> 1 onde a segunda desigualdade segue de (A.10) e (A.5), e a terceira vem de (A.2). Al´em disso, sendo a aplica¸c˜ao x 7→ gradf(x) Lipschitz cont´ınua e o transporte paralelo uma isometria, segue da desigualdade triangular que

kgradf(x_k₀)k 6 kgradf(x_k₀) −P_x_k

Portanto, o resultado desejado segue combinando as inequa¸c˜oes (A.12) e (A.11), com α= (L+_δ¹

1).

Proposi¸cão A.5. Seja {xk} uma sequência gerada pelo algoritmo A.1. Se as hipóteses da proposi¸cão A.3 são satisfeitas. Então, existem k₀ ∈N e ε >0 tais que

x_k ∈B(˜x,ε), ∀k>k₀. (A.13) Demonstra¸cão. Seja {x_k_j} uma subsequência de {x_k} convergindo para ˜x e tome > 0 suficientemente pequeno tal que B(˜x,ε)⊂U. Segue da Proposi¸cão A.3, para ρ=, que existe k₀ ∈ N tal que (A.7) se verifica. Provaremos (A.13) por indu¸cão sobre k. Para k=k₀, a afirma¸cão segue diretamente de (A.7). Agora, suponha que x_k ∈ B(˜x,ε), para todok=k₀+1, . . . ,k₀+j−1. Então, pela proposi¸cão A.4, obtemos

pd(x_k,x_k−1)(α/β)[ϕ(f(x_k) −f(˜x)) −ϕ(f(x_k+1) −f(˜x))]>d(x_k+1,x_k), (A.14) para k =k₀+1, . . . ,k₀ +j−1. Note que, para quaisquer n´umeros reais r,s > 0, temos quer+s>2√

rs. Assim, para k=k₀+1, . . . ,k₀+j−1, tomando

r=d(x_k,x_k−1)es= (α/β)[ϕ(f(x_k) −f(˜x)) −ϕ(f(x_k+1) −f(˜x))], pela desigualdade (A.14), segue que

2d(xk+1,xk)6d(xk,xk−1) + α

β[ϕ(f(xk) −f(˜x)) −ϕ(f(xk+1) −f(˜x))],

para k = k₀ +1, . . . ,k₀ +j −1. Somando a ´ultima desigualdade de k = k₀ +1 at´e k=k0+j−1, obtemos

k0X+j−1 i=k0+1

d(x_i+1,x_i) +d(x_k₀_+j,x_k₀_+j−1) 6 d(x_k₀₊₁,x_k₀)

+ α

β[ϕ(f(xk0+1) −f(˜x))]

− α

β[ϕ(f(x_k₀_+j) −f(˜x))], que nos leva a concluir que

k0X+j−1 i=k0+1

d(x_i+1,x_i)6d(x_k₀₊₁,x_k₀) +α

βϕ(f(x_k₀) −f(˜x)) (A.15)

porqueϕ´e crescente,f(xk+1)6f(xk), para todok>0, ed(x,y)>0 para todox,y∈M.

Agora, usando a desigualdade triˆangular, temos que d(xk0+j, ˜x) 6 d(xk0+j,xk0) +d(xk0, ˜x)

onde a desigualdade do lado direito vem da Proposi¸cão A.3 para ρ = . Portanto, conclu´ımos quex_k₀_+j ∈B(˜x,ε), e a indu¸cão está completa.

Proposi¸cão A.6. Seja {x_k} uma sequência gerada pelo Algoritmo A.1. Se as hipóteses da Proposi¸cão A.3 são satisfeitas, então P+∞

k=0d(x_k+1,x_k)<+∞. Em particular,

k→+lim∞d(x_k+1,x_k) =0.

Demonstra¸c˜ao. Tome k₀,N ∈ N n´umeros naturais tais que N > k₀ e (A.13) se verifica.

Então, combinando a Proposi¸cão 3.2 com a Proposi¸cão A.5, temos que d²(x_k+1,x_k)

A maioria dos resultados de convergência de métodos numéricos em minimiza¸cão con-vexa são obtidos supondo a existência de um minimizador local (e com isso global) da fun¸cão objetivo. No presente cenário não-convexo, a existência de um minimizador local não implica a existência de um minimizador global mesmo se a fun¸cão em considera¸cão for limitada inferiormente. Dessa forma, não é esperado se obter limita¸cão da sequência das iteradas.

Teorema A.1. Seja {x_k} uma sequência gerada pelo Algoritmo A.1. Assuma que {x_k} tem um ponto de acumula¸cão ˜x ∈ M e f satisfaz a propriedade de Kurdyka- Lojasiewicz em x. Ent˜˜ ao, limk→+∞f(x_k) =f(˜x) e {x_k} converge para ˜x que é um ponto cr´ıtico de f.

Demonstra¸cão. Seja{xk_j}uma subsequência de{xk}convergindo para ˜x. Da Proposi¸cão A.6 segue que {x_k} é uma sequência de Cauchy, e com isso, {x_k} converge para ˜x quando k→+∞. Sendo fcont´ınua, temos quef(xk)converge para f(˜x)quando k→+∞. Além disso, de(A.2), temos que

tkkgradf(x_k)k=d(xk+1,xk), ∀k>0.

Aplicando o limite comk→+∞ na igualdade acima obtemos kgradf(˜x)k=0,

uma vez que lim infk→+∞t_k > 0 e limk→+∞d(x_k+1,x_k) = 0. Portanto, ˜x é um ponto cr´ıtico de fe a demonstra¸cão está conclu´ıda.

Referˆ encias Bibliogr´ aficas

[1] Attouch, H., Bolte, J., Svaiter, B.F. - Convergence of descent methods for semi-algebraic and tame problems: proximal algorithms, forward-backward splitting, and regularized Gauss-Seidel methods. Math. Program., 137(1-2), 91–129, 2013.

[2] Bac´ak, M. - Convex analysis and optimization in Hadamard spaces, in: De Gruyter Series in Nonlinear Analysis and Applications 22 - Walter de Gruyter, Berlin/Boston, 2014.

[3] Bauschke, H. H., Borwein, J. M. - On projection algorithms for solving convex feasi-bility problems. Siam Review, 38 (3), 367–426, 1996.

[4] Bento, G.C., Cruz Neto, J.X., Oliveira, P.R. -Convergence of inexact descent methods for nonconvex optimization on Riemannian manifolds . Preprint, 2011.

[5] Bento, G.C., Cruz Neto, J.X., Oliveira, P.R. - A new approach to the proximal point method: convergence on general Riemannian manifolds . J. Optim. Theory Appl., 168, 743–755, 2016.

[6] Souza, J. C., Bento, G.C., Cruz Neto, J.X., Oliveira, P. R., Convergence of the steepest descent method for computing Riemannian center of mass on Hadamard manifolds, Preprint, 2016.

[7] Bolte, J., Nguyen, T.P., Peypouquet, J., Suter, B.W. - From error bounds to the complexity of first-order descent methods for convex functions. Math. Program., 1–

37, 2016. doi:10.1007/s10107-016-1091-6

[8] Burtscher, A.Y. - Length structures on manifolds with continuous Riemannian me-trics. New York J. Math., 21, 273–296, 2015.

[9] Cruz Neto, J.X., Lima, L.L., Oliveira, P.R. - Geodesic algorithms in Riemannian geometry. Balkan J. Geom. Appl., 3(2), 89–100, 1998.

[10] Cruz Neto, J.X., Ferreira, O.P., Lucambio Perez, L.R. -A proximal regularization of the steepest descent method in Riemannian manifold. Balkan J. Geom. Appl., 4(2), 1–8, 1999.

[11] Cruz Neto, J.X., Ferreira, O.P., Lucˆambio P´erez, L.R. -Contribution to the study of monotone vector fields. Acta Math. Hungar., 94, 307–320, 2002.

[12] Cruz Neto, J.X., Oliveira, P.R., Soares Jr., P.A., Soubeyran, A. - Learning how to play Nash, potential games and alternating minimization method for structured nonconvex problems on Riemannian manifolds. J. Convex Anal., 20, 395–438, 2013.

[13] Cruz Neto, J.X., Melo, I.D., Sousa, P.A., Souza, J.C.O. -Solving Convex Feasibility Problems in Hadamard spaces, Preprint, 2019.

[14] do Carmo, M. P. -Geometria Riemanniana. Projeto Euclides - IMPA, 2005.

[15] Ferreira, O.P., Oliveira, P.R. - Subgradient algorithm on Riemannian manifolds. J.

Optim. Theory Appl., 97, 93–104, 1998.

[16] Lang, S. - Fundamentals of differential geometry. Graduate Texts in Mathematics -Springer-Verlag, New York, 191, 1999.

[17] Li, C., L´opez, G., Mart´ın-M´arquez, V. -Monotone vector fields and the proximal point algorithm on Hadamard manifolds. J. Lond. Math. Soc. (2), 79(3):663-683, 2009.

[18] Luenberger, D.G. - The gradient projection method along geodesics. Management Science, 18(11), 620–631,1972.

[19] Papa Quiroz, E.A., Quispe, E.M., Oliveira, P.R. - Steepest descent method with a generalized Armijo search for quasiconvex functions on Riemannian manifolds. J.

Math. Anal. Appl., 341, 467–477, 2008.

[20] Smith, S.T. - Optimization techniques on Riemannian manifolds. Fields institute communications, 3(3), 113–135, 1994.

[21] Udriste, C. - Convex functions and optimization algorithms on Riemannian mani-folds. Mathematics and its applications - Kluwer Academic, Dordrecht, 297, 1994.

No documento Problema de Viabilidade Convexa em Variedades de Hadamard (páginas 50-69)