Condi¸c˜ oes suficientes para convergˆ encia do algoritmo

3.2 Um algoritmo geral

3.2.2 Condi¸c˜ oes suficientes para convergˆ encia do algoritmo

Agora vamos discutir condi¸c˜oes que garantem a convergˆencia do Algoritmo Geral no

sen-tindo probabil´ıstico, j´a que se trata de um algoritmo estoc´astico. O teorema a seguir,

que ´e uma releitura de [38, Teoremas 1 e 2], apresenta uma condi¸c˜ao suficiente para tal

convergˆencia.

Teorema 3.1 Suponhamos que o Algoritmo Geral satisfaz a seguinte propriedade:

Para todo ε >0, existe L(ε)∈(0,1) tal que

P X

_k_j

∈ D: f(X

_k_j

)< f

^∗

+ε|σ(O

₍_k_j₎₋₁

)

≥L(ε), (3.3)

para alguma subsequˆencia de ´ındices {k

}

_j≥1

. Ent˜ao f(X

_k^∗

)→f

^∗

quase certamente. Al´em

disso, se o minimizador x

^∗

existe e é único então X

_k^∗

→x

^∗

quase certamente.

Demonstra¸c˜ao. Fixado ε > 0, defina S

:={x∈ D : f(x) < f

^∗

+ε}. Pela Hip´otese (3.3)

tem-se, para qualquer j ≥1

P X

_k_j

∈S

_ε

|σ(O

₍_k_j₎−1

)≥L(ε). (3.4)

Agora, para cada j ≥1, de (2.4) e da Propriedade 2.4 (a), segue

P X

_k₁

∈/ S

_ε

, . . . , X

_k_j

∈/ S

_ε

=

Y

i=1

PX

_k_i

∈/ S

_ε

|X

_k₁

∈/ S

_ε

, . . . , X

_k₍_i₋₁₎

∈/ S

_ε

=

Y

i=1

1−P X

_k_i

∈S

_ε

|X

_k₁

∈/ S

_ε

, . . . , X

_k₍_i₋₁₎

∈/ S

_ε

. (3.5)

Por outro lado, de (3.4) e do condicionamento dos elementos aleat´orios emO

(ki)−1

tem-se

que

P

X

∈S

|X

∈/ S

, X

∈/ S

, . . . , X

k₍_i₋₁₎

∈/ S

≥L(ε). (3.6)

3.2. Um algoritmo geral 27

Portanto, de (3.5) e (3.6) segue que

P X

_k₁

∈/ S

_ε

, X

_k₂

∈/ S

_ε

, . . . , X

_k_j

∈/ S

_ε

≤(1−L(ε))

. (3.7)

Observe que se ¯k ´e o menor ´ındice tal que X

¯_k

∈ S

, atendendo `a forma como a sequˆencia

(X

_k^∗

) ´e definida no Algoritmo Geral, ent˜ao tem-se que X

_k_¯^∗

=X

¯_k

e que, para todok ≥^¯k,

f(X

_k^∗

)≤f(X

_k^∗₋₁

)≤ · · · ≤f(X

¯_k^∗

)< f

^∗

+ε.

Ou seja, X

_k^∗

∈S

_ε

para todo k≥k^¯. Consequentemente,

X

_k^∗

∈/ S

_ε

⇒X

_k₁

∈/ S

_ε

, X

_k₂

∈/ S

_ε

,· · ·X

_k_j

∈/ S

_ε

. (3.8)

Logo, de (3.7), (3.8) e da Propriedade 2.4-(c), para cadaj ≥1, tem-se

0≤P f(X

_k^∗_j

)−f

^∗

≥ε=Pf(X

_k^∗_j

)≥f

^∗

+ε=P X

_k^∗_j

∈/ S

_ε

≤

≤P X

_k₁

∈/ S

_ε

, X

_k₂

∈/ S

_ε

,· · · , X

_k_j

∈/ S

_ε

≤(1−L(ε))

.

Portanto,

lim

j→∞

P f(X

_k^∗_j

)−f

^∗

≥ε= 0.

Ou seja, f(X

_k^∗_j

) → f

^∗

em probabilidade. E pelo item (b) do Teorema 2.40 segue que

f(X

_k^∗

j(i)

) → f

^∗

quase certamente, com i → ∞ para alguma subsequˆencia de ´ındices

{k

_j₍_i₎

}

_i≥1

.

Dado que f

^∗

> −∞ e a sequˆencia (f(X

_k^∗

))

k≥1

é monótona não crescente, tem-se que

lim

k→∞

f(X

_k^∗

(ω)) existe para todo ponto amostral. Assim, da unicidade do limite podemos

concluir que

f(X

_k^∗

)→f

^∗

q.s. (3.9)

Resta agora mostrar que, sex

^∗

existe e é único entãoX

_k^∗

→x

^∗

quase certamente. Para

isso, fixado ε >0 defina ˜f := inf

x∈D,kx−x∗k≥ε

f(x). Da unicidade de x

^∗

, segue que ˜f > f

^∗

. De

(3.9) temos que tal convergˆencia ocorre a menos de um conjunto de medida nula; isto ´e,

existe N ⊂ Ω com P(N) = 0 e tal que f(X

_k^∗

(ω)) → f(x

^∗

), para todo ω ∈ N

. Logo, da

28 Cap´ıtulo 3. Algoritmos estoc´asticos com iterandos vi´aveis

defini¸c˜ao de limite de sequˆencia, para todoω ∈ N

existe um inteiro N tal que para todo

k ≥N,

f(X

_k^∗

(ω))−f(x

^∗

) = |f(X

_k^∗

(ω))−f(x

^∗

)|<f^˜−f(x

^∗

),

ou seja,

f(X

_k^∗

(ω))<f ,^˜ (3.10)

para todok ≥N e ω∈ N

.

Agora vamos mostrar que kX

_k^∗

(ω)−x

^∗

k< ε para todo ω∈ N

. De fato, suponha por

contradi¸c˜ao que existe ω ∈ N

tal que kX

_k^∗

(ω)−x

^∗

k ≥ ε. Da defini¸c˜ao de ˜f, segue que

f(X

_k^∗

(ω)) ≥ f^˜, o que contradiz (3.10). Assim, temos que para todo ω ∈ N

existe um

inteiro N tal que para todok ≥N, kX

_k^∗

(ω)−x

^∗

k< ε. Portanto, X

_k^∗

(ω)→x

^∗

q.s.

O lema a seguir nos auxiliará na demonstra¸cão dos próximos teoremas.

Lema 3.2 Sejam µ a medida de Lebesgue em IR

ⁿ

e x

^∗

um minimizador global de f sobre

D, com f cont´ınua em x

^∗

. Considere que para todo δ >0,

ψ

(δ) := inf

z∈D

µ(B(z, δ)∩ D)>0,

e seja(X

_k_j

)

_j≥1

uma subsequˆencia de(X

)tal que, para cadaj ≥1, X

_k_j

tem uma densidade

condicional denotada por g

(x|σ(O

(kj)−1))

.

(i) Se

µ({x∈ D: G(x) = 0}) = 0, onde G(x) := inf

j≥1

g

_k_j

(x|σ(O

₍_k_j₎₋₁

)), (3.11)

ent˜ao para qualquer z ∈ D e δ >0, existe v(z, δ)∈(0,1) tal que

P X

_k_j

∈B(z, δ)∩ D |σ(O

₍_k_j₎−1

)≥v(z, δ). (3.12)

(ii) Nas mesmas condi¸c˜oes de (i), para todo ε >0, existe L(ε)∈(0,1) tal que

P X

∈ D : f(X

)< f(x

^∗

) +ε|σ(O

₍_k_j₎−1

)≥L(ε).

3.2. Um algoritmo geral 29

(i) Fixadosδ >0 ez ∈ D, da defini¸c˜ao de probabilidade e das propriedades de integra¸c˜ao

temos, para todo j ≥1, que

P X

∈(B(z, δ)∩ D) |σ(O

₍_k_j₎−1

)=

Z

B(z,δ)∩D

g

(x|σ(O

₍_k_j₎−1

))dx

≥

Z

B(z,δ)∩D

G(x)dx.

Uma vez queG´e n˜ao negativa emD,µ({x∈ D: G(x) = 0}) = 0, eµ(B(z, δ)∩ D)≥

ψ

(δ)>0, segue que

v(z, δ) :=

Z

B(z,δ)∩D

G(x)dx >0.

Logo, para todoj ≥1, existev(z, δ)∈(0,1), tal que

P X

_k_j

∈(B(z, δ)∩ D) |σ(O

₍_k_j₎−1

) ≥v(z, δ).

(ii) Fixadoε >0, da continuidade def em x

^∗

existeδ(ε)>0 tal que se kx−x

^∗

k< δ(ε),

ent˜ao |f(x) −f(x

^∗

)| < ε. Consequentemente, temos a seguinte rela¸c˜ao entre os

eventos, para cada j ≥1,

[X

∈ D: f(X

)< f(x

^∗

) +ε] = [X

∈ D: |f(X

)−f(x

^∗

)|< ε]

⊇[X

∈ D: kX

−x

^∗

k< δ(ε)].

Assim, da propriedade de monotonicidade (2.4) e da hip´otese (3.12),

P X

∈ D: f(X

)< f(x

^∗

) +ε|σ(O

₍_k_j₎−1

)≥

≥P X

∈ D : kX

−x

^∗

k< δ(ε)|σ(O

₍_k_j₎−1

)≥v(x

^∗

, δ(ε)) =: L(ε)>0,

O teorema a seguir, uma releitura de [38, Teorema 3], estuda uma condi¸c˜ao suficiente

para a convergˆencia no caso em quef ´e cont´ınua num minimizador global de f sobre D.

Teorema 3.3 Seja x

^∗

um minimizador global de f sobre D e suponha que f ´e cont´ınua

em x

^∗

. Mais ainda, suponha que o Algoritmo Geral satisfaz a seguinte propriedade:

Para qualquer z ∈ D e δ >0, existe v(z, δ)∈(0,1) tal que

30 Cap´ıtulo 3. Algoritmos estoc´asticos com iterandos vi´aveis

para alguma subsequˆencia de ´ındices {k

}

_j≥1

, onde B(z, δ) ´e uma bola aberta centrada

em z e com raio δ. Ent˜ao f(X

_k^∗

) → f

^∗

quase certamente. Al´em disso, se x

^∗

´e o ´unico

minimizador global, ent˜ao X

_k^∗

→x

^∗

quase certamente.

Demonstra¸c˜ao. Pelo item (ii) do Lema 3.2 temos que para todoε >0, existe L(ε)∈(0,1)

tal que,

P X

_k_j

∈ D : f(X

_k_j

)< f(x

^∗

) +ε|σ(O

₍_k_j₎−1

)≥L(ε).

Portanto, o resultado segue do Teorema 3.1.

Os dois teoremas a seguir, os quais s˜ao uma adapta¸c˜ao de [38, Teoremas 4 e 5] para o

Algoritmo Geral, apresentam uma condi¸c˜ao suficiente para a garantia da convergˆencia do

algoritmo em termos do ´ınfimo das fun¸c˜oes densidade condicional dos iterandos de vetores

aleat´orios candidatos/tentativos.

Teorema 3.4 Sejamµa medida de Lebesgue em IR

ⁿ

, x

^∗

um minimizador global def sobre

D, com f cont´ınua em x

^∗

, e considere as sequˆencias (X

) e (X

_k^∗

) geradas pelo Algoritmo

Geral. Considere ainda que para todo δ >0,

ψ

(δ) := inf

z∈D

µ(B(z, δ)∩ D)>0.

Suponha que existe uma subsequˆencia de ´ındices {k

j}j≥1

tal que, para cada j ≥1, X

tem

uma densidade condicional g

_k_j

(x|σ(O

₍_k_j₎−1

))satisfazendo a seguinte condi¸c˜ao:

µ({x∈ D: G(x) = 0}) = 0, onde G(x) := inf

j≥1

g

_k_j

(x|σ(O

₍_k_j₎−1

)). (3.14)

Ent˜ao, f(X

_k^∗

) → f

^∗

quase certamente. Al´em disso, se x

^∗

´e o ´unico minimizador global,

ent˜ao X

_k^∗

→x

^∗

quase certamente.

Demonstra¸c˜ao. Pelo item (i) do Lema 3.2 temos que para todo δ > 0 e z ∈ D, existe

v(z, δ)∈(0,1) tal que,

P X

_k_j

∈(B(z, δ)∩ D) |σ(O

₍_k_j₎−1

)≥v(z, δ).

Portanto, do teorema anterior seguem os resultados.

3.2. Um algoritmo geral 31

O teorema a seguir contempla a situa¸c˜ao em que os iterandos de vetores aleat´orios

s˜ao gerados usando diferentes distribui¸c˜oes de probabilidade nas diferentes componentes

de um iterando. Dado um vetor aleat´orio X, vamos denotar por (X)

a vari´avel aleat´oria

que corresponde `ai-´esima coordenada de X e por (v)

ai-´esima coordenada de um ponto

v ∈D. Seja (D)

o conjunto definido por (D)

:={x∈IR : x= (v)

para algumv ∈D}.

Teorema 3.5 Sejamµa medida de Lebesgue em IR

ⁿ

, x

^∗

um minimizador global def sobre

D, com f cont´ınua em x

^∗

. Considere as sequˆencias (X

) e (X

_k^∗

) geradas pelo Algoritmo

Geral. Suponha que ψ

(δ) := inf

z∈D

µ(B(z, δ)∩ D) > 0 para todo δ > 0, e que existe uma

subsequˆencia de ´ındices {k

}

_j≥1

tal que as seguintes propriedades s˜ao satisfeitas:

(i) Para cada j ≥1 as vari´aveis aleat´orias (X

_k_j

)

₁

, (X

_k_j

)

₂

,· · · , (X

_k_j

)

s˜ao

condicional-mente independentes dados os elementos aleat´orios em O

₍_k_j₎₋₁

; e

(ii) Para cadaj ≥1e para cada1≤i≤n, a vari´avel aleat´oria(X

_k_j

)

tem uma densidade

condicional (g

_k_j

)

(u|σ(O

₍_k_j₎−1

)) que satisfaz:

µ({u∈(D)

: G

(u) = 0}) = 0, onde G

(u) := inf

j≥1

(g

)

(u|σ(O

(kj)−1))

. (3.15)

Ent˜ao, f(X

_k^∗

) → f

^∗

quase certamente. Al´em disso, se x

^∗

´e o ´unico minimizador global,

ent˜ao X

_k^∗

→x

^∗

quase certamente.

Demonstra¸c˜ao. Da propriedade (i) temos que, para cada j ≥1, X

_k_j

tem uma densidade

condicional dada por

g

_k_j

(x|σ(O

₍_k_j₎₋₁

)) =

Y

i=1

(g

_k_j

)

((x)

|σ(O

₍_k_j₎₋₁

)).

Al´em disso, da defini¸c˜ao de G e de propriedade de ´ınfimo segue que

G(x) = inf

j≥1 n

Y

i=1

(g

_k_j

)

((x)

|σ(O

₍_k_j₎−1

))≥

Y

i=1

inf

j≥1

(g

_k_j

)

((x)

|σ(O

₍_k_j₎−1

))

=

Y

i=1

G

((x)

).

Uma vez que

{x∈ D: G(x) = 0} ⊆

[

i=1

32 Cap´ıtulo 3. Algoritmos estoc´asticos com iterandos vi´aveis

temos

µ({x∈ D: G(x) = 0})≤µ

[

i=1

{x∈ D: G

((x)

) = 0}

!

≤

X

i=1

µ({x∈ D: G

((x)

) = 0}). (3.16)

Al´em disso,

{x∈ D : G

((x)

) = 0} ⊆(D)

₁

× · · · × {v ∈(D)

: G

(v) = 0} × · · · ×(D)

,

usando a propriedade (ii) segue que,

µ({x∈ D: G

((x)

) = 0})≤µ((D)

₁

×. . .× {v ∈(D)

: G

(v) = 0} ×. . .×(D)

) =

=µ((D)1). . . µ((D)

i−1)

µ({v ∈(D)

: G

(v) = 0})µ((D)

i+1)

. . . µ((D)

) = 0.

Usando isto em (3.16), µ({x∈ D: G(x) = 0}) = 0 e pelo Teorema 3.4 seguem os

resulta-dos.

O pr´oximo teorema, uma releitura de [38, Teor. 6 e Cor. 2], garante a convergˆencia em

probabilidade do Algoritmo Geral quando existe uma subsequˆencia em que os iterandos

são dados como a soma do melhor ponto obtido, até então, com um vetor aleatório cuja

distribui¸c˜ao ´e multivariada normal.

Teorema 3.6 Sejaµa medida de Lebesgue emIR

ⁿ

. Suponha queD´e um conjunto limitado

satisfazendo ψ

(δ) := inf

z∈D

µ(B(z, δ)∩ D) > 0 para todo δ > 0. Seja x

^∗

um minimizador

global de f sobre D, com f cont´ınua em x

^∗

. Considere as sequˆencias (X

) e (X

_k^∗

) geradas

pelo Algoritmo Geral e suponha que existe uma subsequˆencia de ´ındices {k

}

_j≥1

tal que

para cada j ≥1, tem-se

X

_k_j

=X

₍^∗_k

j)−1

+W

, (3.17)

onde W

é um vetor aleatório cuja distribui¸cão condicional dado σ(O

₍_k_j₎−1

)´e multivariada

normal com vetor de m´edia nulo e matriz de covariˆancia V

. Para cada j ≥ 1, seja λ^¯

o

menor autovalor de V

. Se inf

j≥1

¯

λ

> 0, ent˜ao f(X

_k^∗

) → f

^∗

quase certamente. Al´em disso,

se x

^∗

é o único minimizador global de f em D, então X

_k^∗

→x

^∗

quase certamente.

3.2. Um algoritmo geral 33

Demonstra¸c˜ao. Pelo mecanismo do algoritmo,

X

₍^∗_k j)−1

=

(kj)−1

X

i=1

X

1 (X

), (3.18)

onde 1

é a fun¸cão indicadora e E é o evento definido por

E = [f(X

)≤f(X

), ∀t= 1, . . . , (k

)−1 e` ´e o menor ´ındice com esta propriedade].

Para cada i = 1, . . . ,(k

) −1, X

é uma fun¸cão determin´ıstica de elementos aleatórios

em O

. Consequentemente, X

₍^∗_k_j₎₋₁

é uma fun¸cão determin´ıstica dos elementos aleatórios

em O

₍_k_j₎₋₁

. Sendo assim, por (3.17) a distribui¸c˜ao condicional de X

_k_j

dado σ(O

₍_k_j₎₋₁

) ´e

uma distribui¸c˜ao multivariada normal, com m´edia X

₍^∗_k_j₎₋₁

e matriz de covariˆanciaV

. Esta

matriz ´e invert´ıvel para todo j ≥ 1, pois por hip´otese inf

j≥1

¯

λ

> 0. Logo, por (2.32), X

_k_j

tem densidade condicional dada por

g

(x|σ(O

₍_k_j₎−1

)) =γ[det(V

)]

⁻¹^/²

Ψ

(x−X

₍^∗_k_j₎₋₁

)

V

_j⁻¹

(x−X

₍^∗_k_j₎₋₁

)

, (3.19)

onde Ψ(x) = e

⁻^x/²

, γ = (2π)

⁻^n/²

ex∈R

ⁿ

.

Da defini¸c˜ao da norma Euclidiana e de ¯λ

segue que,

kV

_j⁻¹

k=

q

maior autovalor de V

_j⁻¹

V

_j⁻¹

=

s

1 ¯

λ

2 j

= ¹

|λ^¯

| ⁼

1 ¯

λ

.

Usando o fato que V

´e definida positiva, a desigualdade de Cauchy-Schwarz e a igualdade

anterior temos, para cada j ≥1 e x∈ D,

(x−X

₍^∗_k j)−1

)

V

_j⁻¹

(x−X

₍^∗_k j)−1

)≤ kx−X

₍^∗_k j)−1

k

kV

_j⁻¹

k ≤ ^D

¯

λ

^,

onde D =diam(D) = sup

x,y∈D

kx−yk<∞, uma vez que D ´e limitado. Como Ψ ´e

monoto-nicamente n˜ao crescente,

Ψ(x−X

₍^∗_k j)−1

)

V

_j⁻¹

(x−X

₍^∗_k j)−1

)≥Ψ

D

¯

λ

. (3.20)

Uma vez que o determinante de uma matriz ´e o produto dos seus autovalores, segue que

det(V

) ≤ λ

^∗_j

ⁿ

, onde λ

^∗_j

´e o maior autovalor de V

. Usando isto e (3.20) em (3.19) e o

34 Cap´ıtulo 3. Algoritmos estoc´asticos com iterandos vi´aveis

fato de que Ψ ´e monotonicamente n˜ao crescente temos, para cadax∈ D

g

_k_j

(x|σ(O

₍_k_j₎₋₁

))≥γ λ

^∗_j

−n/2

Ψ

D

¯

λ

≥γ

sup

`≥1

λ

^∗_`

−

n/2

Ψ





D

inf

`≥1

¯

λ



.

Logo, para todo x∈ D

G(x) = inf

j≥1

g

_k_j

(x|σ(O

₍_k_j₎₋₁

))≥γ

sup

`≥1

λ

^∗_`

−

n/2

Ψ

D

inf

_`_≥₁

λ^¯

>0,

o que implica,

µ({x∈ D : G(x) = 0}) = 0.

E, assim, do Teorema 3.4 seguem os resultados.

Portanto, qualquer algoritmo estoc´astico nos moldes do Algoritmo Geral satisfazendo

alguma das condi¸c˜oes suficientes estudadas nesta se¸c˜ao converge em probabilidade.

No documento CURITIBA2017 ALGORITMODEPROCURACOMESCOLHADINÂMICADASCOORDENADASPARAPROGRAMAÇÃONÃOLINEARCOMRESTRIÇÕES MARIAJOSEANEFELIPEGUEDESMACÊDO UNIVERSIDADEFEDERALDOPARANÁ (páginas 54-62)