Propriedades da Trajet´oria Central Primal-Dual

7.4 Uma Nova Barreira e sua Trajet´oria Central

7.4.4 Propriedades da Trajet´oria Central Primal-Dual

Proposição 7.4.3 Para todor > 0, o conjunto_{{(X(µ), S(µ), W (µ)) : µ ≤ r} é limitado.} Prova. Como X(µ) _{∈ S}n

(0,I), o conjunto {X(µ)} ´e limitado, em particular, quando µ ≤

r. Agora, provaremos que _{{(S(µ), W (µ)) : µ ≤ r} é também limitado. Sabemos que} (X(µ), y(µ), S(µ), W (µ)) resolve as equações

A∗_{y + S}_{− W = ∇f(X) + 2µ[ln X − ln(I − X)],}

W = µ(I− X)−1_,

S = µX−1.

Por isso, definindo a func¸˜ao Lagrangeana sobre_S_(0,I)n _{× IR}m_{× S}n_{× S}n

L(X, y, S, W ) = f (X)_−yT₍_{AX−b)−S•X−W •(I−X)+2µ}_tr_{[X ln X +(I}_{−X) ln(I−X)]}

temos

∇XL(X(µ), y(µ), S(µ), W (µ)) = 0, (7.33)

onde_∇X denota o gradiente deL relativo `a vari´avel X. Agora, observando que L(. , y(µ), S(µ), W (µ))

é uma função estritamente convexa sobre_S_(0,I)n , (7.33) implica queX(µ) é o único m´ınimo da

func¸˜aoL(X, y(µ), S(µ), W (µ))) sobreSn

(0,I). Por outro lado, temos que:

f (X(µ))− L(X(µ), y(µ), S(µ), W (µ))

= nµ + nµ− 2µtr[X(µ) ln X(µ) + (I− X(µ)) ln(I − X(µ))] ≤ 2nµ(1 + ln 2).

Logo, pela hip´otese 1, podemos tomar um pontoX0_{primal vi´avel, obtendo}

f (X(µ))_{− 2nµ(1 + ln 2) ≤ L(X(µ), y(µ), S(µ), W (µ))}

≤ L(X0_{, y(µ), S(µ), W (µ))}

≤ f(X0)_{− S(µ) • X}0_{− W (µ) • (I − X}0) (7.34) onde a última desigualdade é conseqüência da viabilidade deX0_{, e de que}

i=1

[λi(X0) ln λi(X0) + (1− λi(X0)) ln(1− λi(X0))]≤ 0.

Usandoλmin(X)trS≤ X • S e (1 − λmin(X))trW ≤ (I − X) • W em (7.34), obtemos:

f (X(µ))− 2nµ(1 + ln 2) ≤ f(X0₎_{− λ}

min(X0)trS(µ)− (1 − λmin(X0))trW (µ),

e assim

λmin(X0)trS(µ) + (1− λmin(X0))trW (µ)≤ f(X0) + 2nµ(1 + ln 2)− f(X(µ)). (7.35)

Desde que0 < λi(X0) < 1 para todo i = 1, ..., n, temos, em particular, 0 < λmin(X0) < 1, e

assim, o valorǫ definido por

ǫ = min_{λmin(X0), 1− λmin(X0)}

´e positivo.

Agora, sejaf∗_{o valor ´otimo do problema (7.1). De (7.35), e usando}_µ_{≤ r, obtemos que:}

trS(µ) +trW (µ) _≤ 1 ǫ[f (X 0_{) + 2nµ(1 + ln 2)} − f(X(µ))] ≤ 1 ǫ(f (X 0_{) + 2n(1 + ln 2)r}_{− f}∗_). Como_kSkF ≤trS ekW kF ≤trW temos: kS(µ)kF +kW (µ)kF ≤ 1 ǫ[f (X 0_{) + 2nµ(1 + ln 2)}_{− f(X(µ))].}

Portanto o conjunto_{{(X(µ), S(µ), W (µ)) : µ ≤ r} ´e limitado.}

Embora a função ln(X(µ))− ln(I − X(µ))) não seja limitada em Sn

(0,I), ´e poss´ıvel provar

a existência de pontos de acumulação da trajetória central primal-dual.

Lemma 7.4.4 O conjunto dos pontos de acumulação da trajetória central primal-dual {(X(µ), y(µ), S(µ), W (µ))} é não vazio.

Prova. Devido que_{{(X(µ), S(µ), W (µ)) : µ ≤ r} é limitado (ver proposição anterior) existe}

uma subseq¨uˆencia_{(X(µj), S(µj), W (µj))} e um ponto ( ¯X, ¯S, ¯W ) tal que:

(X(µj), S(µj), W (µj))→ ( ¯X, ¯S, ¯W ), j → ∞, e

µj → 0, j → ∞.

Da equação da trajetória central:

y(µj) = (AA∗)−1A (∇f(X(µj)) + 2µj[ln(X(µj)− ln(I − X(µj))]− S(µj) + W (µj)) .

Aplicando o limite emj, usando a continuidade de_{∇f e o resultado do Corol´ario 7.4.1 temos} y(µj)→ (AA∗)−1A

∇f( ¯X)− ¯S + ¯W, j → ∞.

Definindo y := (¯ _AA∗₎−1_A_∇2_{f ( ¯}_X)_{− ¯}_{S + ¯}_W_{, obtemos que} _{( ¯}_{X, ¯}_{y, ¯}_{S, ¯}_{W ) ´e um ponto de}

acumulação da trajetória primal-dual. Portanto o conjunto de pontos de acumulação é não vazio.

Proposição 7.4.4 Todo ponto de acumulação da trajetória central primal-dual é solução ótima

do par de problemas primal (7.1) e dual (7.2).

Prova. Seja ( ¯X, ¯y, ¯S, ¯W ) um ponto de acumulação da trajetória central primal-dual. Então

existem seq¨uˆencias_{µk} e (X(µk), y(µk), S(µk), W (µk)) tais que

µk → 0, k → ∞, e

Pela Proposição 7.4.1 ¯X é solução do problema primal (7.1). Resta então provar que ( ¯X, ¯y, ¯S, ¯W )

é solução do problema dual (7.2). Das condições de KKT do problema penalizado:

A∗_yk_{+ S}k_{− W}k₌_∇f(Xk_{) + 2µ[ln X}k_{− ln(I − X}k_)],

levando ao limite em k, usando a propriedade de continuidade de ∇f e o Corol´ario 7.4.1,

tem-se:

A∗_{y + ¯}_¯ _S_{− ¯}_{W =}_{∇f( ¯}_X) _(7.36)

Tamb´em comoSk _{≻ 0 e W}k _{≻ 0 obtemos:}

S_{0 e ¯}W ₀ (7.37)

De (7.36) e (7.37) concluimos que( ¯X, ¯y, ¯S, ¯W ) ´e um ponto vi´avel do problema (7.2). Para

verificar que( ¯X, ¯y, ¯S, ¯W ) é solução ótima, é suficiente provar a propriedade de complemen-

taridade, isto ´e, ¯W _{• ( ¯}X_{− I) = 0 e ¯}S_{• ¯}X = 0.

Das condic¸˜oes de KKT do problema penalizado,X(µk)• S(µk) = µk, ou, no limite,

X• ¯S = 0.

Da mesma forma pode-se mostrar que

W _{• (I − ¯}X) = 0.

Portanto, a prova est´a concluida.

Mostraremos que no caso de ser a função objetivo linear a trajetória central primal-dual

converge. Para obter este resultado usaremos o Lemma 2.5.1. Os argumentos s˜ao similares aos usados para a barreira logar´ıtmica, em Halick´a et al. [38].

Teorema 7.4.2 Sef (X) = C_{•X, ent˜ao a trajet´oria (X(µ), y(µ), S(µ), W (µ)) converge para}

um ponto(X∗_{, y}∗_{, S}∗_{, W}∗₎_{∈ P}∗_{× D}∗_.

Proof. Usando o resultado de existência dos pontos de acumulação da seqüência

(X(µ), y(µ), S(µ), W (µ)), existe um ponto (X∗_{, y}∗_{, S}∗_{, W}∗₎ _{∈ P}∗ _{× D}∗ _{e uma seq¨uˆencia}

{µj} tal que

lim

µj→0

Definamos o seguinte conjunto: M :=                            A ¯X = 0 A∗_{y + ¯}_¯ _S_{− ¯}_{W =} _{2µ[ln( ¯}_{X + X}∗₎_{− ln(I − ( ¯}_{X + X}∗_))] ( ¯X, ¯y, ¯S, ¯W , µ): ( ¯X + X∗_{)( ¯}_{S + S}∗_{) =} _µI (I− ( ¯X + X∗_{))( ¯}_{W + W}∗_{) =} _µI ( ¯X + X∗₎_{≻ 0, (I − ( ¯}_{X + X}∗₎₎_{≻ 0, ( ¯}_{S + S}∗₎_{≻ 0, ( ¯}_{W + W}∗₎_{≻ 0 and µ > 0.}                            . ´

E simples mostrar que se existe( ¯X, ¯y, ¯S, ¯W , µ)∈ M, ent˜ao ( ¯X +X∗_{, ¯}_{y +y}∗_{, ¯}_{S +S}∗_{, ¯}_{W +W}∗₎

é um ponto da trajetória central primal-dual. Temos também que o elemento zero está contido

no fecho deM. De fato, como lim

µj→0

(X(µj), y(µj), S(µj), W (µj)) = (X∗, y∗, S∗, W∗), (7.38)

podemos definir a seq¨uˆencia

( ¯Xj, ¯yj, ¯Sj, ¯Wj, ¯µj) := (X(µj)− X∗, y(µj)− y∗, S(µj)− S∗, W (µj)− W∗, µj).

De (7.38) temos que( ¯Xj, ¯yj, ¯Sj, ¯Wj, ¯µj)∈ M e

lim

j→∞( ¯Xj, ¯yj, ¯Sj, ¯Wj, ¯µj) = (0n×n, 0m, 0n×n, 0n×n, 0).

Portanto,0_{∈ M.}

Neste ponto aplicaremos o Lema 2.5.1 da curva Selecionada. Observe que este Lema implica

a existência de umǫ > 0 e uma função anal´ıtica γ: [0, ǫ)_{→ S}n_{× IR}m

× Sn_{× S}n_{× IR tal que}

e set > 0, ( ¯X(t), ¯y(t), ¯S(t), ¯W (t), µ(t))∈ M, isto ´e, A ¯X(t) = 0, A∗_{y(t) + ¯}_¯ _S(t)_{− ¯}_{W (t) = 2µ[ln( ¯}_{X(t) + X}∗₎_{− ln(I − ( ¯}_{X(t) + X}∗_))], ( ¯X(t) + X∗_{)( ¯}_{S(t) + S}∗₎ ₌ _µI, (I_{− ( ¯}X(t) + X∗_{))( ¯}_{W (t) + W}∗₎ ₌ _µI, ¯ X(t) + X∗ _≻ _0, I_{− ( ¯}X(t) + X∗₎ _≻ _0, ¯ S(t) + S∗ _≻ _0, ¯ W (t) + W∗ _≻ _0, µ(t) > 0. (7.40)

Observando que a trajetória central é única, então o sistema (7.40) também tem uma única solução, dada por

X(µ(t)) = ¯X(t)+X∗, y(µ(t)) = ¯y(t)+y∗, S(µ(t)) = ¯S(t)+S∗, W (µ(t)) = ¯W (t)+W∗,

parat > 0. Agora, aplicando limite quando t→ 0 e usando (7.39), obtemos, para lim

t→0µ(t) = 0, lim t→0X(µ(t)) = X ∗_, _lim t→0y(µ(t)) = y ∗_, _lim t→0S(µ(t)) = S ∗_, _lim t→0W (µ(t)) = W ∗ _.

Desde queµ(t) > 0 em (0, ǫ), µ(0) = 0, e µ(t) ´e anal´ıtica em [0, ǫ), existe um intervalo, (0, ǫ′₎

onde µ′_{(t) > 0. Devido a isto a func¸˜ao inversa µ}−1_{: µ(t)} _{→ t existe no intervalo (0, µ(ǫ}′_)).

Al´em disso,µ−1_{(t) > 0 para todo t}_{∈ (0, µ(ǫ}′_{)), e lim} t→0µ

−1_{(t) = 0. Portanto, segue-se que}

lim t→0X(t) = limt→0X(µ(µ −1_{(t))) = lim} t→0 ¯ X(µ−1(t)) + X∗ = X∗.

de manera similar, obtemos

lim t→0y(t) = y ∗_, _lim t→0S(t) = S ∗_, _lim t→0W (t) = W ∗_.

7.5 Um M´etodo de Ponto Proximal

Nesta seção introduzimos um método de ponto proximal para resolver o problema (7.1) baseada em uma distância de Bregman induzida pela barreiraB, isto é,

DB(Z, Y ) = B(Z)− B(Y ) −tr[∇B(Y )(Y − Z)]. (7.41)

O método gera uma seqüência_{Zk_{} ⊂ S}_(0,I)n definida como

Z0 _{∈ S}_(0,I)n tal que _∇B(Z0)_{∈ Im(A}∗), (7.42)

Zk+1 = arg min Z∈Sn{C • Z + λkDB(Z, Z k_{) :}_{AZ = b, 0 Z I}} _(7.43) onde_{λk} ⊂ IR++satisfaz ∞ X k=0 λ−1_k =_∞. (7.44) e

DB(Z, Zk) = 2tr[Z ln Z− Z ln Zk− Z ln(I − Z) + Z ln(I − Zk)]− ln det(ZZk−1) +

ln det(I− Z)(I − Zk₎−1₊_tr_(ZZk−1_{) +}_tr_((I _{− Z)(I − Z}k₎−1₎_{− 2n.}

A seqüência _{Zk_{}, k = 1, 2, ..., gerada pelo método, é bem definida e única (para cada k)} devido à estrita convexidade da função objetivo sobre_P0e toma valores infinitos sobre a fron- teira de_{P. Assim, para todo k ≥ 1, Z}k _{∈ P}0.

ComoZk+1 _{é a solução do problema (7.43), existe}_vk _{∈ IR}m_{tal que}

C + λk(∇B(Zk+1)− ∇B(Zk)) = A∗vk (7.45)

Agora, é fácil verificar, usando a hipótese_∇B(Z0)∈ Im(A∗_{), que a trajetória central primal}

X(µ), como foi definida na seção anterior, é a única solução do seguinte problema min Z∈Sn{C • Z + µDB(Z, Z 0_{) :}_{AZ = b, 0 Z I}.} Assim,X(µ) satisfaz C + µ(_{∇B(X(µ)) − ∇B(Z}0_{)) =}_A∗_w(µ) _(7.46) para algumw(µ)∈ IRm_.

O resultado que mostraremos a seguir é uma natural extensão para programação semidefinida do resultado obtido por Iusem et al. [43].

Teorema 7.5.1 A sequˆencia_{Xk_{} gerada por (7.42)-(7.43) e a trajet´oria central convergem}

para o mesmo ponto.

Demonstrac¸˜ao. Sejaµk = ( k−1

j=0λ −1

j )−1. Obviamente{µk} é uma seqüência decrescente para

cadak _{≥ 1 e converge para zero quando k vai para infinito. De (7.46) temos} C + µk(∇B(X(µk))− ∇B(Z0)) =A∗w(µk)

C + µk+1(∇B(X(µk+1))− ∇B(Z0)) = A∗w(µk+1),

para alguma seq¨uˆencia_{w(µk)}.

Usando o seguinte fatoµ−1_k+1− µ−1

k = λ−1k , a desigualdade acima implica que

C + λk(∇B(X(µk+1))− ∇B(X(µk))) =A∗vk,

onde

vk = λk(µ−1k+1w(µk+1)− µ−1k w(µk)).

Agora, devido à unicidade do ponto de minimo de (7.43), temos, da equação anterior e de (7.45), queZk _{= X(µ} k). Finalmente lim k→∞Z k _{= lim} k→∞X(µk) = X ∗

Cap´ıtulo 8

Conclus˜oes

8.1 Conclus˜oes e Futuras Pesquisas do Cap´ıtulo 3

No Cap´ıtulo 3, estudamos as propriedades geom´etricas das m´etricas diagonais no ortante

positivoIRn

++ e o hipercubo (0, 1)n, vistos como variedades Riemannianas. Obtemos alguns

resultados importantes no contexto das aplicações da geometria Riemanniana à otimização,

por exemplo, curvatura zero, equações bem mais simples para obter geodésicas e distâncias Riemannianas, condições suficientes para garantir completitude da variedade Riemanniana,

fórmulas expl´ıcitas para o gradiente e a Hessiana de uma função diferenciável. Este estudo per- mitiu descobrir duas métricas diagonais,π2_csc4_{(πx) e X}−2_(I_−X)−2_{, com curvas e distâncias}

geodésicas expl´ıcitas, obtendo assim métodos de máxima descida, subgradientes e ponto proximal, cujos resultados de convergência são conhecidos na literatura de aplicações da geometria

Riemanniana à otimização. Outro fato interessante é que estas métricas são as Hessianas das funções barreiras b1(x) =− 1 6 n X i=1 {4 ln(sin πxi)− cot2(πxi)}, b2(x) = n X i=1 (2xi− 1)[ln xi− ln(1 − xi)]

para o hipercubo[0, 1]n_{. Um futura pesquisa ´e o estudo das propriedades geom´etricas de uma}

No documento Publicações do PESC Algumas Aplicações da Geometria Riemanniana à Otimização (páginas 127-136)