• Nenhum resultado encontrado

Uma estratégia aleatória chamada de MOSES

N/A
N/A
Protected

Academic year: 2017

Share "Uma estratégia aleatória chamada de MOSES"

Copied!
74
0
0

Texto

(1)

Universidade Federal do Rio Grande do Norte

Centro de Ciˆencias Exata e da Terra

Programa de P´os-Gradua¸c˜ao em Matem´atica Aplicada e Estat´ıstica

Maria Jucimeire dos Santos

Uma Estrat´

egia Aleat´

oria Chamada de

MOSES

(2)

Maria Jucimeire dos Santos

Uma Estrat´

egia Aleat´

oria Chamada de

MOSES

Disserta¸c˜ao apresentada ao Programa de P´os-Gradua¸c˜ao em Matem´atica Aplicada e Estat´ıstica da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigˆencias legais para obten¸c˜ao do t´ıtulo de Mestre.

´

Area de Concentra¸c˜ao: Probabilidade e Estat´ıstica

Orientador:

Prof. Juan Alberto Rojas Cruz

(3)

Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial Centro de Ciências Exatas e da Terra – CCET.

Santos, Maria Jucimeire dos.

Uma estratégia aleatória chamada de MOSES / Maria Jucimeire dos Santos. - Natal, 2013.

73 f. : il.

Orientador: Prof. Dr. Juan Alberto Rojas Cruz.

Dissertação (Mestrado) – Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Programa de Pós-Graduação em Matemátca Aplicada e Estatística.

1. Cadeias de Markov – Dissertação. 2. Convergência – Dissertação. 3. Estratégia evolutiva – Dissertação. 4. Grandes desvios – Dissertação. 5. Probabilidade – Estatística – Dissertação. I. Cruz, Juan Alberto Rojas. II. Título.

(4)
(5)

Dedicat´

oria

(6)

Agradecimentos

Primeiramente agrade¸co a Deus que me deu sa´ude e for¸cas para vencer essa batalha. E colocou na minha vida pessoas maravilhosas que contribu´ıram bastante para realiza¸c˜ao deste trabalho.

A minha m˜ae Maria de F´atima que n˜ao tenho nem palavras para descrever o quanto foi importante nessa etapa da minha vida. Caminhou ao meu lado em todos os momentos, a distˆancia e o pouco estudo n˜ao foram obst´aculos para que ela compreendesse cada fase pela qual estava passando.

Ao meu pai Juarez que sempre acreditou em mim, torceu e fez o que pode para que eu alcan¸casse esse sonho.

Aos meus irm˜aos Jairo e Juciane, pelo amor, dedica¸c˜ao e carinho. Exemplos de apoio uns aos outros.

Ao meu sobrinho Juan Victor que por v´arias vezes me fez esquecer as minhas preocupa¸c˜oes e entrar no seu mundo m´agico, onde tudo ´e brincadeira.

A minha cunhada Gercileide que desde a gradua¸c˜ao tem colaborado para eu atingir meus objetivos. Sempre pedindo a Deus o meu sucesso.

Ao meu orientador Juan Rojas pela sugest˜ao do tema, por sua paciˆencia, seus ensinamentos e conselhos.

A Antonio um anjo que surgiu na minha vida, sempre se dispˆos a me ajudar, a me ouvir. Obrigada pelas sugest˜oes, discuss˜oes e ensinamentos.

A Rafael que me ensinou utilizar o software Matlab e contribui na programa¸c˜ao do meu algoritmo.

A Michele que alimentou este sonho e sempre esteve ao meu lado, me apoiando e me guiando.

A Al´ecia, amiga com a qual tenho uma d´ıvida impag´avel. Obrigada pelo apoio recebido desde a minha gradua¸c˜ao em Caic´o e tamb´em pelo impulso para a minha vinda a natal.

(7)

meus objetivos.

As minhas amigas de Caic´o Mariane, Gerlˆania, Denizy e Marluce que sempre contei com elas para compartilhar minhas alegrias, tristezas e dificuldades.

As minhas amigas Ta´ıs, Suzara, Iselda, Gabi, Monara e Carlinha pela aten¸c˜ao, carinho, companheirismo, gargalhadas, momentos de descontra¸c˜ao e todo apoio.

As Mipibuenses pela convivˆencia, em especial a todas que incentivaram e co-laboraram de alguma forma para realiza¸c˜ao deste trabalho.

Aos meus amigos Alcilene, Fabiana, Rafael e Luiz. A amizade de vocˆes me fortalece.

A minha amiga Paulinha pela for¸ca, carinho e amizade. Sempre t˜ao ocupada e mesmo assim encontrava tempo para me ouvir.

A todos os professores do mestrado pelos ensinamentos e conselhos.

Aos meus colegas de mestrado Rafaela, Alex, Aldemir, Ivanildo, Marcio, Jose-mir e Elisˆangela, companheiros de momentos de ang´ustia, de estudos e reflex˜oes. E a todos os demais colegas do PPGMAE pela for¸ca e carinho.

A Paulinho e Elvis, monitores da escola de ver˜ao, colegas e amigos. Obrigada por me ajudar desde o in´ıcio.

A professora Viviane que esteve presente na pr´e-qualifica¸c˜ao. Obrigada pelos conselhos.

Ao professor Andr´e Gustavo que esteve presente na qualifica¸c˜ao. Suas cr´ıticas e sugest˜oes me fortaleceram para a defesa.

A professora Daniele que aceitou o nosso convite para estar presente na defesa de mestrado. Obrigada pelas sugest˜oes.

Em especial agrade¸co a professora D´ebora que esteve presente em todas as etapas desse trabalho, pr´e-qualifica¸c˜ao, qualifica¸c˜ao e defesa. Obrigada por todas as cr´ıticas e sugest˜oes. Sua presen¸ca na defesa foi muito importante para mim.

Agrade¸co a todos os funcion´arios do CCET em especial a Liandra, Russinho e a Rafael secret´ario.

A Capes pelo apoio financeiro.

(8)

Resumo

Neste trabalho estudamos uma estrat´egia aleat´oria chamada de MOSES, que foi introduzida por Fran¸cois em 1996. Resultados assint´oticos desta estrat´egia; com-portamento das distribui¸c˜oes estacion´arias da cadeia associada a estrat´egia, foram derivados por Fran¸cois, em 1998, da teoria de Freidlin e Wentzell [8]. Detalhamentos destes resultados est˜ao neste trabalho. Por outro lado, notamos que uma aborda-gem alternativa da convergˆencia desta estrat´egia ´e poss´ıvel sem fazer uso da teoria de Freidlin e Wentzell, obtendo-se a visita quase certa da estrat´egia `as popula¸c˜oes uniformes que contˆem o m´ınimo. Algumas simula¸c˜oes no Matlab s˜ao apresentadas neste trabalho.

(9)

Abstract

This paper we study a random strategy called MOSES, which was introduced in 1996 by Fran¸cois. Asymptotic results of this strategy; behavior of the stationary distributions of the chain associated to strategy, were derived by Fran¸cois, in 1998, of the theory of Freidlin and Wentzell [8]. Detailings of these results are in this work. Moreover, we noted that an alternative approach the convergence of this strategy is possible without making use of theory of Freidlin and Wentzell, yielding the visit almost certain of the strategy to uniform populations which contain the minimum. Some simulations in Matlab are presented in this work.

(10)

Sum´

ario

1 Cadeias de Markov 3

1.1 Processos Estoc´asticos . . . 3

1.2 Cadeias de Markov . . . 4

1.2.1 Cadeias de Markov Irredut´ıveis . . . 5

1.2.2 Convergˆencia da Cadeia de Markov . . . 6

1.2.3 Cadeias de Markov N˜ao-Homogˆeneas . . . 8

2 Estrat´egia Aleat´oria MOSES 12 2.1 Algoritmos Evolutivos . . . 12

2.2 Cotas para as Probabilidades de Transi¸c˜ao . . . 15

2.2.1 Dinˆamica da estrat´egia . . . 16

3 Comportamento Assint´otico da estrat´egia MOSES 24 3.1 x-grafo . . . 24

3.2 Princ´ıpio dos Grandes Desvios . . . 29

3.3 Convergˆencia da Estrat´egia MOSES . . . 29

4 Convergˆencia Quase Certa da Estrat´egia MOSES 39 5 Estrat´egia MOSES no Matlab: Algumas Simula¸c˜oes 44 5.1 Testes Sobre Tempo M´edio da Primeira Visita da estrat´egia MOSES ao M´ınimo . . . 45

5.2 MOSES Versus Simulated Annealing em Paralelo . . . 48

(11)

SUM ´ARIO 1

Apˆendice 54

Programas . . . 54

Estrat´egia MOSES . . . 54 Simulated Annealing em Paralelo . . . 57

(12)

Introdu¸

ao

Neste trabalho apresentamos um tipo de estrat´egia aleat´oria chamada MOSES (Estrat´egia Evolutiva Sele¸c˜ao-Muta¸c˜ao) introduzida em 1996, por Fran¸cois [6].

A dinˆamica da estrat´egia emprega muta¸c˜ao e sele¸c˜ao (sem cruzamento). O objetivo de MOSES ´e encontrar o m´ınimo global de uma fun¸c˜aof :E →R, chamada

de fun¸c˜ao objetivo, ondeE´e um conjunto finito. Uma vizinhan¸ca para cada elemento em E ´e determinado por um grafo g = (E, A), estas vizinhan¸cas determinam as muta¸c˜oes da estrat´egia.

Este trabalho ´e baseado no artigo “An evolutionary strategy for global mini-mization and its Markov chain analysis” de Fran¸cois [7].

(13)

Cap´ıtulo 1

Cadeias de Markov

O intuito deste cap´ıtulo ´e servir como suporte para a leitura deste trabalho. Apresentamos os resultados essenciais da teoria de cadeia de Markov homogˆenea e n˜ao-homogˆenea, uma vez que a estrat´egia MOSES possui uma estrutura Markoviana.

1.1

Processos Estoc´

asticos

Defini¸c˜ao 1.1.1. Um Processo Estoc´astico ´e uma fam´ılia de vari´aveis aleat´orias definidas sobre o mesmo espa¸co amostral. Se a fam´ılia ´e enumer´avel o processo

´e denotado por {Xt}tN. Se a fam´ılia ´e n˜ao-enumer´avel o processo ´e denotado por

{Xt}t∈[0,∞). No primeiro caso, o processo ´e dito um processo a tempo discreto,

enquanto no segundo caso ´e dito a tempo cont´ınuo.

Um processo estoc´astico pode ser visto como uma fun¸c˜ao de duas vari´aveis

Xt(w) =X(t, w).

Parat fixo, a fun¸c˜ao ´e uma vari´avel aleat´oria e para w fixo temos uma fun¸c˜ao real de t que ´e chamada de trajet´oria.

Defini¸c˜ao 1.1.2. O conjunto S de todos os valores assumidos pelo processo ´e cha-mado espa¸co de estados.

(14)

1.2 Cadeias de Markov 4

tempo t. Se o processo no tempo t−1 se encontra no estado i, a probabilidade condicional de no tempot estar no estado j ´e representado por

P(Xt =j|Xt−1 =i),

esta probabilidade ´e chamada de probabilidade de transi¸c˜ao.

1.2

Cadeias de Markov

Um Processo Estoc´astico {Xt}t∈N com espa¸co de estados S = {i1, i2, i3, . . .},

satisfaz `a propriedade de Markov se para todote todos os estados{i1, i2, . . . , it} ∈S temos

P(Xt =it|Xt−1=it−1, Xt−2 =it−2, . . . , X1 =i1) =P (Xt = it|Xt−1=it−1).

Defini¸c˜ao 1.2.1. Um processo a tempo discreto, com espa¸co de estados enumer´avel, que satisfaz `a propriedade de Markov ´e chamado de cadeia de Markov.

Uma cadeia de Markov ´e dita homogˆenea quando as probabilidades de transi¸c˜ao n˜ao mudam no tempo, isto ´e, para todos os estados i, j∈S temos que:

P(Xt+1 =j|Xt =i) =P (X2 =j|X1 =i), ∀t≥1.

A cadeia de Markov ´e dita n˜ao-homogˆenea se as probabilidades de transi¸c˜ao mudam com o tempo. No caso homogˆeneo temos

pij =P (Xt =j|Xt−1 =i), ∀ t≥1.

A probabilidade de transi¸c˜ao em n passos pn

ij ´e definida:

pnij =P(Xt+n =j|Xt =i), n≥0, i, j ∈S.

Dada uma cadeia de Markov homogˆenea{Xt}t∈N com espa¸co de estados finito

S = {1,2, . . . , n}, existem n2 probabilidades de transi¸c˜ao p

ij, i = 1,2, . . . , n e

(15)

1.2 Cadeias de Markov 5 P =     

p11 p12 · · · p1n

p21 p22 · · · p2n

... ...

pn1 pn2 · · · pnn

     .

Como veremos adiante, esta matriz n˜ao ´e s´o uma boa maneira de guardar as informa¸c˜oes das probabilidades de transi¸c˜ao, as suas potˆencias determinam o com-portamento da cadeia. Observe as seguintes propriedades das matrizes de transi¸c˜ao:

(i) Todas as entradas s˜ao n˜ao-negativas, pois representam probabilidades;

(ii) As somas das entradas em cada linha ´e sempre 1.

Uma matriz quadrada que satisfaz as propriedades acima ´e chamada deMatriz Estoc´astica.

1.2.1

Cadeias de Markov Irredut´ıveis

Seja P = (pij)i,jS a matriz de transi¸c˜ao de uma cadeia homogˆenea. As equa¸c˜oes deChapman-Kolmogorovfornecem um m´etodo para calcular as proba-bilidades de transi¸c˜ao emn passos. Essas equa¸c˜oes s˜ao:

pnij+m=

X

k=0

pnikpmkj, ∀ n, m≥0, ∀ i, j∈S.

Se considerarmos P(n) como a matriz das probabilidades de transi¸c˜ao em n

passospn

ij, ent˜ao a equa¸c˜ao anterior afirma que:

P(n+m) =P(n)·P(m),

onde o ponto representa a multiplica¸c˜ao das matrizes. Assim,

P(n) =P ·P(n−1)= P ·P ·P(n−2)=· · · =Pn

dessa forma, P(n) pode ser calculada multiplicando a matriz P por ela mesma n

vezes.

Defini¸c˜ao 1.2.2. O estado j ´e dito ser acess´ıvel a partir do estado i se existe um

n∈N, tal quepn

(16)

1.2 Cadeias de Markov 6

i→j ej →i, ou seja, existe um n1 ∈N tal que pnij1 >0e existe um n2 ∈N tal que

pn2

ji >0. Denotamos por i↔j.

Defini¸c˜ao 1.2.3. Quando todos os estados da cadeia se comunicam dizemos que a cadeia ´eirredut´ıvel.

Defini¸c˜ao 1.2.4. Definimos oper´ıodo de um estado i como sendo

d(i) =mdc{n≥1;pnii >0}.

Se d(i) = 1 dizemos que o estado i´e aperi´odico.

Proposi¸c˜ao 1.2.1. Se i↔ j, ent˜ao d(i) =d(j).

Pela Proposi¸c˜ao 1.2.1 podemos concluir que se uma cadeia ´e irredut´ıvel ent˜ao todos os estados tˆem o mesmo per´ıodo. Dessa forma, se um estado tem per´ıodo

d= 1, ou seja, ´e aperi´odico, ent˜ao todos os outros estados s˜ao aperi´odicos. Quando isso ocorre dizemos que a cadeia ´eaperi´odica.

1.2.2

Convergˆ

encia da Cadeia de Markov

Defini¸c˜ao 1.2.5. Seja P uma matriz de transi¸c˜ao de uma cadeia de Markov. Se para todo j ∈ S existe lim

n→∞p (n)

ij = πj e

X

j=1

πj = 1, ent˜ao dizemos que a cadeia ´e

erg´odica.

Defini¸c˜ao 1.2.6. Uma distribui¸c˜ao de probabilidade {πj, j∈S} ´e chamada

distri-bui¸c˜ao estacion´aria da cadeia de Markov com matriz de transi¸c˜aoP = (pij)i,jS, S =

{1,2,3, . . .}, se

πj =

X

l∈S

πlplj, ∀ j.

Em forma matricial

π =πP =πP2 =πP3=. . .

(17)

1.2 Cadeias de Markov 7

Teorema 1.2.2. Seja {Xn} uma cadeia de Markov com espa¸co de estados finito,

irredut´ıvel e aperi´odica com matriz de transi¸c˜aoP = (pij)i,jS. Ent˜ao lim n→∞p

(n)

ij = πj,

onde π= (πj)´e a distribui¸c˜ao estacion´aria.

Observe que o teorema acima garante a existˆencia do comportamento limite da cadeia e tamb´em mostra uma forma de encontrar esse limite, bastando para isso encontrar a distribui¸c˜ao estacion´aria.

Corol´ario 1.2.3. Toda cadeia de Markov homogˆenea irredut´ıvel, aperi´odica com espa¸co de estados finito possui uma ´unica distribui¸c˜ao estacion´aria e converge para

ela.

Defini¸c˜ao 1.2.7. Para quaisqueri, j ∈S, a probabilidade de que partindo do estado

i, a primeira visita do processo ao estado j se dˆe no passo n´e dada por,

fijn =P(Xn =j, Xn−1 =6 j, ..., X1 6=j|X0 =i).

Defini¸c˜ao 1.2.8. Para os estados i, j fixos, sejaf∗

ij =

X

n=1

fij(n). Onde f∗

ij representa

a probabilidade de visitar o estadoj dado que o processo partiu do estadoi. Sei=j,

f∗

ii =

X

n=1

fii(n) denota a probabilidade de retornar ao estadoi.

Defini¸c˜ao 1.2.9. O estado j ´e dito ser recorrente se f∗

jj = 1. Se fjj∗ < 1, ent˜ao o

estado j ´e dito transiente.

Defini¸c˜ao 1.2.10. Se f∗

jj= 1, definimos o tempo m´edio de recorrˆencia ao estado j

como µj =

X

n=1

nfjj(n).

Defini¸c˜ao 1.2.11. Seja j um estado recorrente,

(i) µj =∞ ⇒ j ´e recorrente nulo, (ii) µj <∞ ⇒ j ´e recorrente positivo.

Teorema 1.2.4. Seja P a matriz de transi¸c˜ao de uma cadeia de Markov irredut´ıvel e recorrente positiva. Ent˜ao 1

n

n

X

k=1

p(ijk) converge quandon→ ∞e o limite ´e 1

µj

(18)

1.2 Cadeias de Markov 8

µj ´e o tempo m´edio de recorrˆencia do estado j. O vetor π =

1 µ1 , 1 µ2 , . . . ´e uma

distribui¸c˜ao estacion´aria de P.

Teorema 1.2.5. Para cada cadeia de Markov irredut´ıvel com espa¸co de estados S

existe uma sequˆencia {πj, j ∈S} tal que para cadai e j ∈S lim n→∞ 1 n n X k=1

p(ijk)

=πj. (1.1)

Teorema 1.2.6. Seja S o espa¸co de estados de uma cadeia de Markov irredut´ıvel. Se S ´e finito, ent˜ao a cadeia de Markov possui uma ´unica distribui¸c˜ao estacion´aria.

A demonstra¸c˜ao do Teorema 1.2.4 pode ser encontrada em Isaacson [11] e as demonstra¸c˜oes dos Teoremas 1.2.5 e 1.2.6 s˜ao encontradas em Parzen [13].

1.2.3

Cadeias de Markov N˜

ao-Homogˆ

eneas

Uma Cadeia de Markov N˜ao-Homogˆenea ´e descrita por um vetor inicial f(0)

e uma sequˆencia de matrizes de transi¸c˜ao{Pk}∞k=1, onde f(0) ´e uma distribui¸c˜ao de

probabilidade sobre os estados, isto ´e:

fi(0)≥0, i= 1,2, ... e

X

i=1

fi(0) = 1.

Defini¸c˜ao 1.2.12. Sejam P1, P2, ...matrizes de transi¸c˜ao de uma cadeia de Markov

n˜ao-homogˆenea com vetor inicial f(0). Definimos:

f(k)=f(0)P1·P2·...·Pk e f(m,k)=f(0)Pm+1·...·Pk.

Definimos o j-´esimo elemento de f(k) por f(k)

j = P(Xk =j) e definimos o (i, j)-´esimo elemento deP(m,k)=P

m+1·Pm+2·...·Pk porPi,j(m,k)=P(Xk = j|Xm=i).

Analogamente para g(k), g(m,k) e g(m,k)

(19)

1.2 Cadeias de Markov 9

O objetivo principal da teoria de cadeia de Markov n˜ao-homogˆenea ´e o com-portamento de f(k) e f(m,k) quando k → ∞. Pode acontecer quef(k) convirja para

o mesmo vetor fixo q, independentemente do vetor inicial f(0) utilizado, isto ´e, um

vetor limite existe e ´e independente da escolha do vetor inicial. Neste caso, a in-forma¸c˜ao sobre f(k), para k grande, d´a-nos pouca ou nenhuma informa¸c˜ao sobre

f(0), ou seja, o efeito de f(0) ´e perdido ao longo do tempo. Quando f(m,k) q

quando k → ∞, ∀ m ∈ N, independe de f(0), este comportamento ´e conhecido

como convergˆencia com perda de mem´oria e ´e chamado deergodicidade forte. ´E poss´ıvel ter tamb´em convergˆencia sem perda de mem´oria e perda de mem´oria sem convergˆencia. No ´ultimo caso o efeito da distribui¸c˜ao inicial ´e perdido, ou seja, f(k)

e g(k) est˜ao em algum sentido pr´oximos, mas n˜ao necessariamente existe uma

con-vergˆencia def(k) nem deg(k). Esse comportamento ser´a chamado deergodicidade

fraca.

Para efeito de estudar a convergˆencia da cadeia de Markov ´e comum usar a seguinte norma.

Defini¸c˜ao 1.2.13. Se f = (f1, f2, f3, ...)´e um vetor, definimos a norma de f por

kfk=

X

i=1

|fi|.

E se A= (aij) ´e uma matriz quadrada, definimos a norma de Apor

kAk= sup i

X

i=1

|aij|.

Defini¸c˜ao 1.2.14. Uma cadeia de Markov n˜ao-homogˆenea ´e chamada fracamente erg´odica se para todo m

lim

k→∞f(0)sup,g(0)

f(m,k)−g(m,k)

= 0

onde f(0) e g(0) s˜ao vetores iniciais.

Quando o espa¸co de estados ´e finito o conceito de ergodicidade fraca ´e equiva-lente a: lim n→∞ P

(m,m+n)

ij −P

(m,m+n)

kj

(20)

1.2 Cadeias de Markov 10

Outra equivalˆencia para o conceito de ergodicidade fraca ´e:

lim k→∞δ P

(m,k)

= 0, ∀m≥0,

onde δ(Q) = 1−α(Q) e α(Q) ´e o coeficiente erg´odico de Dobrushin definido por

α(Q) = 1−max i,k∈S

X

j∈S

[qij −qkj]+, com [qij −qkj]+= max{0, qij −qkj}. Podemos reescrever o coeficiente erg´odico de Dobrushin como

α(P) = min i,k∈E

X

j∈E

min (Pij, Pkj). Outra desigualdade importante ´e a seguinte:

δ(P Q)≤δ(P)δ(Q).

Defini¸c˜ao 1.2.15. Uma cadeia de Markov n˜ao-homogˆenea ´e chamada fortemente erg´odica se existir um vetor q= (q1, q2, ...), comkqk= 1e qi ≥0, parai= 1,2,3, ...

tal que para todo m

lim k→∞supf(0)

f(m,k)−q

= 0,

onde f(0) ´e um vetor inicial.

Os dois teoremas a seguir s˜ao resultados fundamentais sobre a ergodicidade forte.

Denotamos por℘a classe das matrizes estoc´asticasP para as quais existe pelo menos um autovetor `a esquerda n˜ao negativoψ correspondendo ao autovalor 1 e tal que kψk= 1.

Teorema 1.2.7. Seja{Pn}uma sequˆencia de matrizes de transi¸c˜ao correspondentes

a uma cadeia de Markov n˜ao-homogˆenea fracamente erg´odica comPn ∈℘ para todo

n. Se existir uma sequˆencia correspondente de autovetores ψn satisfazendo

X

j

(21)

1.2 Cadeias de Markov 11

ent˜ao a cadeia ´e fortemente erg´odica.

Teorema 1.2.8. Seja{Pn}uma sequˆencia de matrizes de transi¸c˜ao correspondentes

a uma cadeia de Markov n˜ao-homogˆenea com Pn ∈ ℘. Se kPn−Pk → 0 quando

(22)

Cap´ıtulo 2

Estrat´

egia Aleat´

oria MOSES

2.1

Algoritmos Evolutivos

Os algoritmos evolutivos s˜ao processos de pesquisa global que procuram o

m´ınimo global de uma fun¸c˜ao f :E→R, ondeE ´e finito.

Em [5] ´e apresentado um quadro b´asico para algoritmos evolutivos que ´e o

seguinte:

1. Inicializa com uma popula¸c˜ao de solu¸c˜oes em E;

2. Avalia cada solu¸c˜ao na popula¸c˜ao;

3. Prop˜oe algumas mudan¸cas aleat´orias na popula¸c˜ao;

4. Usa um crit´erio de rejei¸c˜ao para validar cada altera¸c˜ao e avaliar as novas

solu¸c˜oes;

5. Se um crit´erio de parada ´e satisfeito, retorna a melhor solu¸c˜ao; caso contr´ario,

vai para etapa 3;

Exemplos desses algoritmos evolutivos s˜ao os algoritmos gen´etico, Simulated

(23)

2.1 Algoritmos Evolutivos 13

formadas por indiv´ıduos, onde cada indiv´ıduo possui representa¸c˜ao bin´aria. O

algo-ritmo pode ser descrito como segue:

Escolhe aleatoriamente uma popula¸c˜ao inicial

Repete:

• Execute sele¸c˜ao;

• Execute cruzamento;

• Execute muta¸c˜ao;

at´e que algum crit´erio de parada seja satisfeito.

Dada uma popula¸c˜ao (b1, b2, . . . , bn) a probabilidade que o indiv´ıduo bi fa¸ca parte da pr´oxima gera¸c˜ao ´e usualmente definida como:

P(bi´e selecionado) =

f(bi) n

X

j=1

f(bj)

.

A muta¸c˜ao da popula¸c˜ao (b1, b2, . . . , bn) para a popula¸c˜ao

´

b1,b´2, . . . ,b´n

acon-tece com a seguinte probabilidade:

Pbi→ b´i

=pHm(bi,bi)´ (1−pm)l−H(bi,

´

bi)

ondeHbi,b´i

´e distˆancia Hamming (n´umero de posi¸c˜oes em que os bits

correspon-dentes s˜ao diferentes) entre os caracteres bi e ´bi. Uma referˆencia elementar sobre os algoritmos gen´eticos pode ser, por exemplo, [14] e [4].

O Algoritmo Simulated Annealing ´e uma t´ecnica utilizada em problemas de otimiza¸c˜ao combinat´oria, isto ´e, min

x f(x), x ∈E, onde f :E →

R, E finito. O

termo Annealing ´e associado a um processo utilizado para fundir um metal, onde

este ´e aquecido a uma temperatura elevada e em seguida ´e resfriado lentamente de

(24)

2.1 Algoritmos Evolutivos 14

otimiza¸c˜ao ´e realizado por n´ıveis em que h´a a simula¸c˜ao dos n´ıveis de temperatura

no resfriamento. Em cada n´ıvel, dado um pontou∈E, v´arios pontos na vizinhan¸ca de u s˜ao gerados e o correspondente valor de f ´e calculado. Cada ponto gerado ´e aceito ou rejeitado de acordo com uma certa probabilidade. Esta probabilidade

de aceita¸c˜ao decresce de acordo com o n´ıvel do processo, ou equivalentemente, de

acordo com a temperatura (veja [9]).

Neste cap´ıtulo, abordamos uma estrat´egia aleat´oria chamada MOSES que pode

ser vista como uma simplifica¸c˜ao do algoritmo gen´etico cl´assico, uma vez que existe

muta¸c˜ao e sele¸c˜ao; por´em n˜ao acontece cruzamento, o que evita trabalhar com

representa¸c˜ao bin´aria e simplifica muito o tratamento matem´atico do mesmo. Esta

estrat´egia objetiva identificar o m´ınimo global de uma fun¸c˜aof, chamada de fun¸c˜ao objetivo,f :E→ R, ondeE ´e um conjunto finito, no qual ´e definida uma estrutura

de grafog = (E, A), sendoEo conjunto dos v´ertices do grafo eAdenota o conjunto das arestas. Essa estrutura define uma vizinhan¸ca para cada v´ertice emE.

A dinˆamica da estrat´egia MOSES emprega mecanismos de muta¸c˜ao e sele¸c˜ao.

A muta¸c˜ao atua como um passeio aleat´orio no grafo g e o processo de sele¸c˜ao atua identificando o indiv´ıduo com a menor imagem e tamb´em selecionando os indiv´ıduos

a serem mutados para o menor elemento da popula¸c˜ao atual. Os parˆametros

asso-ciados `a estrat´egia MOSES, tais como o tamanho da popula¸c˜ao, probabilidades

de muta¸c˜ao e a geometria do problema (do grafo g = (E, A)) determinam a con-vergˆencia para um m´ınimo global (veja os Teoremas 3.3.5 e 3.3.7). No Cap´ıtulo 4,

obtemos resultados sobre a convergˆencia da estrat´egia MOSES, estes resultados n˜ao

imp˜oe condi¸c˜oes sobre o tamanho da popula¸c˜ao.

No caso da estrat´egia MOSES o tamanho da popula¸c˜ao ´e fixo e ´e igual a um

inteiro n≥2. O parˆametro que controla o n´umero de indiv´ıduos a serem mutados em cada gera¸c˜ao ´e denotado por pT. Esse parˆametro pode depender da gera¸c˜ao, ´e tomado no intervalo (0,1) e ´e visto como probabilidade de muta¸c˜ao.

A estrat´egia MOSES pode ser resumida da seguinte maneira:

(25)

2.2 Cotas para as Probabilidades de Transi¸c˜ao 15

2. Repete

• DadoN um n´umero aleat´orio com distribui¸c˜ao binomial bin(n, pT).

• Seleciona o indiv´ıduo ´otimo ˆxda popula¸c˜ao.

• Substitui os N primeiros indiv´ıduos pela muta¸c˜ao e os n− N outros indiv´ıduos por ˆx.

• AtualizapT.

A grande caracter´ıstica de MOSES ´e que a busca ´e hier´arquica. Indiv´ıduos

realizam diferentes graus de pesquisa de acordo com sua posi¸c˜ao na popula¸c˜ao. Aos

indiv´ıduos das primeiras posi¸c˜oes ´e permitido fazer longas caminhadas. Essa

hierar-quia ´e obtida do n´umero aleat´orio de descendentes por muta¸c˜ao em cada gera¸c˜ao. A

probabilidade de quek indiv´ıduos sejam mutados ´e dada pela distribui¸c˜ao binomial

bin(n, pT). Dessa forma, para todo 0≤k≤n, temos:

P (N =k) =

n k

pkT (1−pT)n−k.

V´arios crit´erios podem ser utilizados para conter a evolu¸c˜ao. Um crit´erio

natu-ral ´e assumir que o parˆametro de muta¸c˜aopT diminua para zero. A grande vantagem da estrat´egia MOSES em rela¸c˜ao ao algoritmo gen´etico ´e que a an´alise matem´atica

do procedimento pode ser descrita em detalhes, devido ao fato que a estrat´egia

MOSES n˜ao utiliza cruzamento em sua dinˆamica. A constru¸c˜ao da estrat´egia, e

especificamente, a escolha da distribui¸c˜ao binomial, ´e motivada pela aplica¸c˜ao do

formalismo do princ´ıpio dos grandes desvios que ser´a abordado posteriormente.

2.2

Cotas para as Probabilidades de Transi¸

ao

Nesta se¸c˜ao descrevemos formalmente a estrat´egia MOSES e obtemos cotas

(26)

2.2 Cotas para as Probabilidades de Transi¸c˜ao 16

que f ´e uma fun¸c˜ao injetora arbitr´aria, definida num conjunto finito qualquer, de-notado por E, f : E → R. Al´em disso, existe um ´unico ponto m´ınimo global e

´e denotado por a∗. ´E importante destacar que a hip´otese da fun¸c˜ao ser injetora

n˜ao ´e t˜ao restritiva, pois caso contr´ario, podemos fazer uma perturba¸c˜ao tornando

a fun¸c˜ao injetora (ver anexo). Por outro lado, no Cap´ıtulo 4, apresentamos uma

nova abordagem para a an´alise da convergˆencia de MOSES que n˜ao precisa desta

hip´otese.

Nota¸c˜oes e defini¸c˜oes: Fixamos um n´umero inteiron≥2 e definimos o conjunto das popula¸c˜oes de tamanhonporX =En. Isto ´e, uma popula¸c˜aox´e simplesmente um vetor de tamanho n, com entradas em E. Dizemos que:

x∈X ⇔x= (x1, x2, . . . , xn), xi ∈E, ∀i= 1, . . . , n.

A popula¸c˜ao uniforme (a, . . . , a) com a∈E ´e identificada pela nota¸c˜ao (a) = (a, . . . , a).

Denotamos ˆx como o m´ınimo de uma popula¸c˜ao: ˆ

x∈ {x1, x2, . . . , xn}, f(ˆx)≤f(xi), ∀ i= 1, . . . , n.

Como foi comentado na introdu¸c˜ao, a vizinhan¸ca N(xi) de cada indiv´ıduo xi esta associada a um grafog = (E, A) conexo e tal que:

1. N(xi) ={yi ∈E/yi6=xi,(xi, yi)∈A}, |N(xi)| ≥2; 2. sim´etrico, isto ´e,

xi ∈N(xj), se e somente se, xj ∈N(xi);

2.2.1

Dinˆ

amica da estrat´

egia

(27)

2.2 Cotas para as Probabilidades de Transi¸c˜ao 17

i) identifica ˆx0

ii) Gera um n´umero aleat´orioNda distribui¸c˜ao binomialbin n, PT(1)

, ondePT(t) =

exp (−1/T(t)), com t= 1,2, ...e T(t)→0

iii) X1 = x1 = (y1, y2, . . . , yN,xˆ0,xˆ0, . . . ,xˆ0) onde os yi s˜ao escolhidos em N(xi)∩ (E\ {xˆ0}), i ∈ {1,2, . . . , n}, com probabilidade uniforme.

Etapa 2:

i) identifica ˆx1

ii) Gera um n´umero aleat´orio N da distribui¸c˜ao binomial bin n, PT(2)

iii) X2 = x2 = (z1, z2, . . . , zN,xˆ1,xˆ1, . . . ,xˆ1) onde zi s˜ao escolhidos em N(yi)∩ (E\ {xˆ1}), i ∈ {1,2, . . . , n}, com probabilidade uniforme.

...

Assim obtemos um conjunto de vetores aleat´orias X0, X1, X2, . . . com espa¸co

de estadosX, onde X ´e o conjunto de todas as popula¸c˜oes e a distribui¸c˜ao deXt ´e determinada somente pela distribui¸c˜ao deXt−1. Logo, X0, X1, X2, . . .´e uma cadeia

de Markov.

`

A dinˆamica da estrat´egia MOSES tem associada uma cadeia de Markov com

espa¸co de estadosX (o conjunto de todas as popula¸c˜oes). A seguir descrevemos de maneira expl´ıcita as probabilidades de transi¸c˜ao.

Seja qT(t) a matriz de transi¸c˜ao no tempot, isto ´e

qT(t)(x, y) =P

XtT+1(t) =y|XtT(t) =x.

Para efeito de simplificar a nota¸c˜ao escrevemos T =T (t), assim

qT (x, y) =P XtT+1 =y|XtT =x

.

(28)

2.2 Cotas para as Probabilidades de Transi¸c˜ao 18

n´umeros inteiros sucessivos i∈ {1, . . . , n}, definido como

I(x, y) ={1≤i≤n; yi 6= ˆx}. O n´umero de elementos neste subconjunto ´e denotado por

C(x, y) =|I(x, y)|.

A transi¸c˜ao entre xey ´e poss´ıvel se, e somente se, π(x, y)6= 0, onde

π(x, y) = Y i∈I(x,y)

1N(xi)∩(E\{ˆx})(yi)

|N(xi)∩(E\ {xˆ})|

Y

i /∈I(x,y)

1{ˆx}(yi).

Nesse caso, a probabilidade de transi¸c˜ao da popula¸c˜ao xpara y ´e dada por:

qT (x, y) =P(N =C(x, y))π(x, y).

A quantidade C(x, y) representa o n´umero de indiv´ıduos da popula¸c˜ao y que s˜ao diferentes de ˆx. Durante a an´alise, esta quantidade ´e vista como um custo de comunica¸c˜ao de uma etapa entre as popula¸c˜oes x e y. Ele expressa a dificuldade para a cadeia XT

t

se deslocar de xpara y em uma ´unica etapa. Observa¸c˜ao 2.2.1. Note que a matriz de transi¸c˜ao qT ´e irredut´ıvel.

De fato, sejam x, y∈X duas popula¸c˜oes quaisquer, onde

x= (a1, a2, . . . , an) e

y= (b1, b2, . . . , bn),

sendo ai, bi ∈ E, i = 1, . . . , n. Como o grafo g = (E, A) ´e conexo, para todo i ∈

{1, . . . , n}existe um caminho em g = (E, A), ligandoai com bi;

(29)

2.2 Cotas para as Probabilidades de Transi¸c˜ao 19

a2 →a22 →a23 →. . .→ar2 →b2

...

an →a2n →a3n →. . .→ arn →bn.

Dessa forma, podemos construir as seguintes popula¸c˜oes em X:

x= (a1, a2, . . . , an)

x1 = a21, a22, . . . , a2n

x2 = a31, a32, . . . , a3n

...

xr−1= (ar1, ar2, . . . , arn)

y = (b1, b2, . . . , bn)

x→x1→ x2 →. . .→xr−1→ y

Portanto, para duas popula¸c˜oes quaisquer x, y ∈ X existe r ∈ N tal que

qr

T (x, y)> 0.

Al´em disso, observe que a matriz de transi¸c˜ao qT ´e aperi´odica. De fato, pela Proposi¸c˜ao 1.2.1 ´e suficiente mostrar que existe um estado aperi´odico. Para isto,

considere uma popula¸c˜ao uniforme x = (a, a, . . . , a), note que q1

T(x, x) > 0, (se

N =bin(n, pT) = 0 ent˜ao todos os indiv´ıduos s˜ao mutados para o ponto m´ınimo da popula¸c˜ao) assim o estado x´e aperi´odico. Portanto, a cadeia ´e aperi´odica.

O fato de que a matriz de transi¸c˜ao qT seja irredut´ıvel e finita garante a existˆencia de uma ´unica distribui¸c˜ao estacion´aria (Teorema 1.2.6), que permite usar

teoria de Freidlin e Wentzell. Tamb´em temos que a matriz qT ´e erg´odica, pois ´e irredut´ıvel, aperi´odica e finita (Corol´ario 1.2.3).

(30)

2.2 Cotas para as Probabilidades de Transi¸c˜ao 20

qT, a qual ´e fundamental no estudo assint´otico da cadeia associada `a estrat´egia. Proposi¸c˜ao 2.2.1. Seja y uma popula¸c˜ao que ´e acess´ıvel a partir dexem um ´unico passo, ent˜ao a probabilidade de transi¸c˜ao satisfaz a seguinte desigualdade:

1

2nπ(x, y)e

−C(x,y)/T q

T (x, y)≤2nπ(x, y)e−C(x,y)/T.

Demonstra¸c˜ao. ConsidereC(x, y) =k, logo:

P (N =C(x, y)) =P (N =k) =

n k

(pT)k(1−pT)n−k,

onde pT =e(−1/T). Observemos:

i) (1−pT)n ≤

n k

(1−pT)n−k

De fato (1−pT)≤1 ent˜ao (1−pT)n ≤(1−pT)n−k. Sendo assim,

(1−pT)n ≤

n k

(1−pT)n−k.

ii)   n k 

(1−pT)n−k ≤max

k   n k  .

De fato, como (1−pT)≤1 ent˜ao (1−pT)n−k ≤1. Sendo assim,   n k 

(1−pT)n−k ≤

n k

 ≤max

k   n k  .

iii) max k   n k 

(31)

2.2 Cotas para as Probabilidades de Transi¸c˜ao 21 De fato, max k   n k  ≤ n X k=0   n k 

1k1n−k = (1 + 1)n = 2n.

De i), ii) e iii) conclu´ımos que: (1−pT)n ≤

n k

(1−pT)n−k ≤max

k   n k 

≤2n.

Multiplicando (pT)kπ(x, y) por toda a desigualdade abaixo (1−pT)n ≤

n k

(1−pT)n−k ≤2n.

Obtemos:

(1−pT)n(pT)kπ(x, y)≤

n k

(1−pT)n−k(pT)kπ(x, y)≤2n(pT)kπ(x, y).

Isto ´e,

(1−pT)n(pT)kπ(x, y)≤P(N =k)π(x, y)≤2n(pT)kπ(x, y). Como k=C(x, y) e pT =e−1/T, ent˜ao

(1−pT)n e−1/T

k

π(x, y)≤qT (x, y)≤2n e−1/T

k

π(x, y).

Como pT ↓0 podemos considerar pT ≤1/2 logo (1−pT)≥ 1/2, (1−pT)n ≥ (1/2)n. Portanto,

1

2nπ(x, y)e

−C(x,y)/T q

(32)

2.2 Cotas para as Probabilidades de Transi¸c˜ao 22

Corol´ario 2.2.2. lim

T→0−T lnqT (x, y) =C(x, y).

Demonstra¸c˜ao. Aplicando logaritmo na desigualdade da proposi¸c˜ao anterior:

ln

1 2n

+lne−C(Tx,y)

+ln (π(x, y))≤lnqT (x, y)≤ln (2n)+

lne−CT(x,y)

+ln (π(x, y)).

Isto ´e, ln 1 2n

−C(x, y)

T + ln (π(x, y))≤lnqT (x, y)≤ln (2

n)C(x, y)

T + ln (π(x, y)).

Multiplicando−T pela desigualdade anterior, obtemos:

−T ln (2n)−T

−C(x, y)

T

−T ln (π(x, y))

≤ −T lnqT (x, y)

≤ −T ln

1 2n −T

−C(x, y)

T

−T ln (π(x, y)).

Portanto,

−Tln (2n) +C(x, y)−T ln (π(x, y))

≤ −TlnqT(x, y)

≤ −Tln

1

2n

+C(x, y)−Tln (π(x, y)).

Sendo assim, quando T →0, obtemos:

C(x, y)≤ lim

T→0−TlnqT(x, y)≤C(x, y).

Logo,

lim

(33)

2.2 Cotas para as Probabilidades de Transi¸c˜ao 23

Essas estimativas s˜ao o ponto de partida para desenvolver a an´alise da

es-trat´egia e aplicar o formalismo dos grandes desvios.

(34)

Cap´ıtulo 3

Comportamento Assint´

otico da

estrat´

egia MOSES

Neste cap´ıtulo apresentamos resultados assint´oticos sobre o comportamento

da distribui¸c˜ao estacion´aria da cadeia de Markov associada `a estrat´egia MOSES.

Esses resultados s˜ao derivados da teoria dos grandes desvios de Freidlin e Wentzell

[8]. Iniciamos o cap´ıtulo apresentando o conceito de x-grafo que ´e necess´ario para descrever a teoria dos grandes desvios.

3.1

x

-grafo

Defini¸c˜ao 3.1.1. Um x-grafo g ´e um grafo orientado que n˜ao cont´em nenhuma aresta partindo de x e, tal que, para qualquer y 6=x existe um ´unico caminho em g

ligando y a x.

(35)

3.1 x-grafo 25

~~

!!

// x oo

//

OO

oo

^^

>> ``

Figura 3.1: x-grafo

Denotamos por G(x) o conjunto de todos osx-grafos.

Mostramos a seguir uma defini¸c˜ao mais geral de x-grafo que pode ser encon-trada em Freidlin e Wentzell [8]:

Defini¸c˜ao 3.1.2. Seja L um conjunto finito, cujos elementos s˜ao denotados pe-las letras i, j, k, m, n, e etc, e seja W um subconjunto em L. Um grafo orientado constitu´ıdo por arestas m → n(m∈L\W, n ∈L, n 6=m) ´e chamado W-grafo caso satisfa¸ca as seguintes condi¸c˜oes:

1. Cada ponto m∈L\W ´e um ponto inicial de exatamente uma aresta; 2. N˜ao existem ciclos no grafo.

A condi¸c˜ao 2 pode ser substitu´ıda pela seguinte condi¸c˜ao:

2′. Para qualquer pontomL\W existe uma sequˆencia de arestas que levam ele

para algum ponton∈W.

Denotamos por G(W) o conjunto dos W-grafos. Dado um grafo g e um conjunto de n´umeros pmn associados a cada aresta (m → n) do grafo, definimos

π(g) = Y

(m→n)∈g

pmn.

A seguir apresentamos uma maneira alternativa de descrever a distribui¸c˜ao

(36)

3.1 x-grafo 26 ´

E importante destacar que esta representa¸c˜ao da distribui¸c˜ao estacion´aria atrav´es

de x-grafo ´e fundamental para estabelecer a teoria dos grandes desvios de Freidlin e Wentzel. Uma referˆencia que trata com detalhes ´e Catoni [1].

Lema 3.1.1. Considere uma cadeia de Markov com espa¸co de estados L e proba-bilidades de transi¸c˜ao pij. Suponha que cada estado pode ser alcan¸cado a partir de

qualquer outro estado em um n´umero finito de passos.

Ent˜ao a distribui¸c˜ao estacion´aria da cadeia ´e

 

 !

X

i∈L

Qi

"−1

Qi, i∈L

 

, onde

Qi =

X

g∈G{i}

π(g). (3.1)

Demonstra¸c˜ao. Como os n´umeros Qi s˜ao positivos ent˜ao ´e suficiente verificar:

Qi=

X

j∈L

Qjpji, (i∈L). Ou seja,

Qi

X

k6=i

pik=

X

j6=i

Qjpji. (3.2)

Substituindo os n´umeros definidos pela F´ormula (3.1) em (3.2), ent˜ao em ambos

os lados obtemos a soma π(g) sobre todos os grafos g satisfazendo as seguintes condi¸c˜oes:

1. Cada ponto m ∈ L ´e o ponto de partida de exatamente uma aresta m →

n(n6=m, n∈L);

2. No grafo existe exatamente um ciclo fechado e esse ciclo cont´em o pontoi. Exemplo 3.1.1. Considere uma cadeia de Markov com espa¸co de estados{A, B, C}

(37)

3.1 x-grafo 27

P =

   

1 2 0

1 2

1 0 0

0 1 0

   

.

Encontraremos a distribui¸c˜ao estacion´aria usando o lema acima. Primeiro

analisamos todos osA-grafos. Note:

π(gA1) = 1·0, π(gA2) = 1·1, π(gA3) = 0·0.

Logo,

QA= π(gA1) +π(gA2) +π(gA3) = 0 + 1 + 0 = 1.

Analisando todos os B-grafos:

π(gB1) = 0·0, π(gB2) =

1

2·1, π(gB3) = 0·1.

(38)

3.1 x-grafo 28

QB =π(gB1) +π(gB2) +π(gB3) = 0 +

1 2+ 0 =

1 2. Analisando todos os C-grafos:

π(gC1) = 1·

1

2, π(gC2) = 0·0, π(gC3) = 0·

1 2. Logo,

QC =π(gC1) +π(gC2) +π(gC3) =

1

2 + 0 + 0 = 1 2. Pelo lema anterior, a distribui¸c˜ao estacion´aria da cadeia ´e

 

 !

X

i∈L

Qi

"−1

Qi, i∈L

 

. Assim,

µ(A) = QA

QA+QB +QC

= 1

1 +1 2 +

1 2

= 1 2,

µ(B) = QB

QA+QB+QC =

1 2

1 +1 2 + 12

= 1 4, e µ(C) = QC

QA+QB +QC =

1 2

(39)

3.2 Princ´ıpio dos Grandes Desvios 29

3.2

Princ´ıpio dos Grandes Desvios

Uma teoria desenvolvida por Freidlin e Wentzell [8] chamada princ´ıpio dos

grandes desvios diz que se as matrizes de transi¸c˜ao (qT)T≥0 associada a uma cadeia

de Markov irredut´ıvel com espa¸co de estados finito X satisfaz: 1

2nπ(x, y)e

−C(x,y)/T q

T (x, y)≤2nπ(x, y)e−C(x,y)/T, (3.3) ent˜ao

∀ x∈X, lim

T→0−T lnµT (x) =W(x)−Wmin,

onde

W(x) = min g∈G(x)

X

(y→z)∈g

V1(y, z), ∀ x∈X e

V1(x, y) = inf

(r−1

X

k=0

C(xk, xk+1), x0 =x, xk ∈X, xr =y, r≥2

)

.

W(x) ´e chamado de energia virtual eV1(x, y) custo de comunica¸c˜ao em v´arios

pas-sos. Al´em disso, valor m´ınimo deW ´e denotado porWmineW∗={x, W (x) =Wmin}. Uma consequˆencia do princ´ıpio dos grandes desvios que ´e ´util no estudo da

estrat´egia MOSES (que pode ser encontrado em Suzuki [14]) ´e o lema a seguir.

Lema 3.2.1. Se um subconjunto X− de X satisfaz:

1. Para cada x∈X+ :=X\X−, existe y ∈X− tal que C(x, y) = 0, e

2. Para cada par de x∈X+ e y ∈X−, C(y, x)> 0,

ent˜ao a distribui¸c˜ao estacion´aria limite limT→0µT(x) =µ∞(x)> 0, se x∈X−.

3.3

Convergˆ

encia da Estrat´

egia MOSES

Nesta se¸c˜ao descrevemos resultados sobre o comportamento assint´otico da

(40)

3.3 Convergˆencia da Estrat´egia MOSES 30

para o ´otimo global.

Trabalhamos com caminhos em E e tamb´em em X, a diferen¸ca entre eles ´e que os caminhos emE s˜ao caminhos no grafog= (E, A) e os caminhos em X =En s˜ao as trajet´orias da cadeia de Markov.

De acordo com Cerf [2], se um subconjunto U ⊂X satisfaz a condi¸c˜ao

∀x∈X ∃(ˆx)∈U tal que V1(x,(ˆx)) = 0,

ent˜ao a energia virtualW pode ser calculada emU com

V (x, y) = inf

(r−1

X

k=0

C(xk, xk+1), x0 =x, xk ∈/U(1≤k < r), xr =y, r≥2

)

.

Note que o subconjuntoUformado pelas popula¸c˜oes uniformes satisfaz essa condi¸c˜ao. Os resultados a seguir fazem uso desse resultado. Al´em disso, para as popula¸c˜oes

uniformes (a) e (b) utilizamos a nota¸c˜ao V (a, b) e W (a) em vez de V ((a),(b)) e

W((a)).

Lema 3.3.1. Seja a6=a∗ onde a´e o ponto m´ınimo de f. Ent˜ao temos

V (a, a∗) =d(a, a).

Onde d(a, a∗)´e a distˆancia no grafo g.

Demonstra¸c˜ao. i) Mostrar que V (a, a∗)d(a, a).

De fato, considerex1, x2, ..., xr ∈/U tais que:

a→x1→ x2 →x3 →...→xr →a∗. Definimos:

br =

 

a∗, se ax

r

(41)

3.3 Convergˆencia da Estrat´egia MOSES 31

br−1=

 

br, se br ∈xr−1

ar−1, onde ar−1 ∈xr−1 e (ar−1, br)∈A.

br−k =

 

br−k+1, se br−k+1∈xr−k

ar−k, ondear−k ∈xr−k e (ar−k, br−k+1)∈A.

b0 =a.

Sea∗x

rent˜aoC(xr, a∗) = 0. Neste caso, da sequˆencia (b0, b1, ..., br) obtemos um caminho (c0, c1, ..., cm) onde ci ∈E e m≤r, da´ı, d(a, a∗)≤m. Como as popula¸c˜oesxi, i= 1, ..., r n˜ao s˜ao uniformes ent˜ao C(xk, xk+1)≥1. Portanto,

C(a, x1) +C(x1, x2) +...+C(xr, a∗)≥1 + 1 +....+ 1 =r≥d(a, a∗). Se a∗ / x

r ent˜ao C(xr, a∗) ≥ 1 e V (a, a∗) ≥ r+ 1. Formamos o caminho (c0, c1, ..., cm) em g a partir da sequˆencia (b0, b1, ..., br), sendo m ≤ r + 1. Portanto,

d(a, a∗)≤m≤r+ 1≤V (a, a∗). ii) Mostrar que V (a, a∗)d(a, a).

Considere um caminho em g = (E, A) que realiza d(a, a∗) : a

0 = a → a1 →

· · · →ar= a∗ e o caminho emX

x0 = (a, a, a,· · · , a)

x1= (a1, a, a,· · · , a)

(42)

3.3 Convergˆencia da Estrat´egia MOSES 32

xk =

ak,˜bk,˜bk,· · · ,˜bk

· · ·

xr=

a∗,˜br,˜br,· · · ,˜br

xr+1= (a∗, a∗, a∗,· · · , a∗).

Denotamos ˜b1 =ae

∀k = 2,· · · , r, ˜bk =

 

ak−1, se f (ak−1)< f

˜bk−1 ˜

bk−1, caso contr´ario.

Sendo assim, temos que∀ k= 0,· · · , r−1, C(xk, xk+1) = 1. Logo,

r−1

X

k=0

C(xk, xk+1) +C(xr, xr+1) =r+ 0 =d(a, a∗),

ou seja,

r−1

X

k=0

C(xk, xk+1) =d(a, a∗).

Por defini¸c˜ao de ´ınfimo, temos que:

inf

(r−1

X

k=0

C(xk, xk+1), x0 = (a), xk ∈/U(1≤k < r), xr = (a∗), r ≥2

)

≤d(a, a∗),

isto ´e,

V (a, a∗)≤d(a, a∗).

Portanto, de i) e ii), obtemos:

(43)

3.3 Convergˆencia da Estrat´egia MOSES 33

Lema 3.3.2. A distribui¸c˜ao estacion´aria limiteµ∞(x)se concentra nas popula¸c˜oes

uniformes.

Demonstra¸c˜ao. Segue-se diretamente do Lema 3.2.1 onde X− s˜ao popula¸c˜oes

uni-formes. De fato, se x = (x1, x2, . . . , xn) e tomando y = (ˆx,x, ...,ˆ xˆ), onde ˆx = arg min

xi f(xi), ent˜ao oC(x, y) = 0.

Lema 3.3.3. Suponha que existe um a∗ E tal que:

∀a, b∈E, a, b6=a∗, V (a, a∗)< V (a∗, b).

Ent˜ao, para todo a6=a∗, W(a)< W (a).

Demonstra¸c˜ao.

Figura 3.2: a-grafo Figura 3.3: a∗-grafo

Seja a∈E, tal quea6=a∗ eg uma-grafo emU, tal que:

W (a) = X

(u→v)∈g

(44)

3.3 Convergˆencia da Estrat´egia MOSES 34

Como a6=a∗ eg ´e um a-grafo em U ent˜ao existe bU tal que abg.

A partir dessea-grafo podemos construir uma∗-grafo, retirando a arestaa

b emg e introduzindo a aresta (a→a∗). Denotamos essea-grafo por g.

Sendo assim, temos:

W(a∗)≤W (a)−V (a∗, b) +V (a, a∗).

Como V (a, a∗)< V (a, b), isto ´e,V (a, a)V (a, b)<0, ent˜ao

W (a∗)< W(a).

Teorema 3.3.4.Sejan > n∗. A distribui¸c˜ao estacion´aria da cadeia XtT

concentra-se na popula¸c˜ao uniforme (a∗) quando T vai para zero, onde a´e o ponto m´ınimo

de f e n∗ = max

a6=a∗d(a, a

).

Demonstra¸c˜ao. Sejam (a) e (b) popula¸c˜oes uniformes, a, b6=a∗. Temos

n > n∗ = max

a6=a∗d(a, a

)d(a, a).

Comoa6=a∗ ent˜ao pelo Lema 3.3.1, temos que

V (a, a∗) =d(a, a∗).

Logo,

n > d(a, a∗) =V (a, a∗). (3.4) Comoa∗´e o m´ınimo global, ent˜ao o caminho do menor custo que existe de (a)

(45)

3.3 Convergˆencia da Estrat´egia MOSES 35

∀b6=a∗, V (a, b)n. (3.5)

De (3.4) e (3.5), obtemos:

V (a∗, b)> V (a, a∗).

Sendo assim, pelo Lema 3.3.3

W (a∗)< W(a).

Para estabelecer a convergˆencia em probabilidade da estrat´egia para o ponto

de ´otimo global fazemos uso do resultado de Trouv´e [15]. Antes disso, ´e necess´ario

introduzir um ´ındice geom´etrico que ´e utilizado para obter a convergˆencia da

es-trat´egia MOSES para a solu¸c˜ao m´ınima. Esse ´ındice geom´etrico ´e definido como

d∗ = max

a6=a∗b:f(minb)<f(a)d(a, b). (3.6) Note que esse ´ındice geom´etrico s´o depende da fun¸c˜ao f e do grafo muta¸c˜ao, da´ı o nome de ´ındice geom´etrico.

(46)

3.3 Convergˆencia da Estrat´egia MOSES 36

O Teorema a seguir foi estabelecido por Trouv´e [15] para cadeias nas quais as

probabilidades de transi¸c˜ao qT satisfa¸cam

kTe−C(x,y)/T ≤qT (x, y)≤KTe−C(x,y)/T e lim

T→0−TlnkT = limT→0−TlnKT = 0

Teorema 3.3.5 (Trouv´e [15]). Existe uma constanteH1 n˜ao negativa, tal que para

toda sequˆencia decrescente T(t)t≥1 convergindo para zero, temos

sup x∈X

P(Xt ∈/W∗|X0=x)→0

quando t→ ∞. Se, e somente se,

X

t=1

e−H1/T(t)=.

Em Trouv´e, uma descri¸c˜ao expl´ıcita deH1´e dada em termos da decomposi¸c˜ao

de X em ciclos. Dessa forma, a defini¸c˜ao de H1 ´e bastante complicada. Mas,

Catoni [1] apresenta uma descri¸c˜ao alternativa de H1 que n´os utilizaremos. Catoni

caracterizaH1 em termos de caminhos de (Xt). Assim, para cada caminho,

(47)

3.3 Convergˆencia da Estrat´egia MOSES 37

entre xe y em X, defina

H(γxy) = max

0≤k<r{W(xk) +C(xk, xk+1)}

onde o m´aximo ´e tomado sobre todos os v´ertices emγxy. SejaH(x, y) o menor valor poss´ıvel deH(γxy) sobre todos os caminhosγxy dexpara y. A quantidadeH(x, y) ´e chamada altitude de comunica¸c˜ao entre x e y. Ent˜ao, seguindo os resultados de Catoni, H1 ´e dado por

H1 = max

x6=(a∗)H(x,(a

))W(x).

Para MOSES, um limite superior de H1 pode ser obtido. Esse limite ´e

H1≤d∗.

A seguir apresentamos esse lema que pode ser encontrado em Fran¸cois [7].

Lema 3.3.6. Temos que H1≤d∗.

A demonstra¸c˜ao pode ser encontrada em Fran¸cois [7]. O resultado a seguir

es-tabelece condi¸c˜oes suficientes para convergˆencia em distribui¸c˜ao da estrat´egia

MO-SES.

Teorema 3.3.7. Seja n > n∗. Suponha que:

X

t=1

e−d∗/T(t)=∞.

Ent˜ao temos

P(Xt = (a∗)|X0 =x)→1

quando t tende para infinito.

Demonstra¸c˜ao. Pelo Lema 3.3.6 temos

(48)

3.3 Convergˆencia da Estrat´egia MOSES 38

onde H1 ´e uma constante n˜ao negativa. Sendo assim,

−d∗ ≤ −H1.

Da´ı,

−d∗/T(t)≤ −H1/T(t)⇒e−d∗/T(t)≤e−H1/T(t).

Portanto,

X

t=1

e−d∗/T(t)≤

X

t=1

e−H1/T(t). (3.7)

Por hip´otese,

X

t=1

e−d∗/T(t)=∞. (3.8) Portanto, de (3.7) e (3.8), obtemos

X

t=1

e−H1/T(t)=.

Sendo assim, pelo Teorema 3.3.5:

sup x∈X

P(Xt ∈/ W∗|X0 =x)→0,

quandot→ ∞.Portanto, o complementar

P(Xt ∈W∗|X0=x)→1,

quandot→ ∞. Pelo Teorema 3.3.4 temos W∗ ={(a)}. Logo,

P(Xt ∈ {(a∗)} |X0=x)→1,

quandot→ ∞. Isto ´e,

P (Xt = (a∗)|X0= x)→1,

(49)

Cap´ıtulo 4

Convergˆ

encia Quase Certa da

Estrat´

egia MOSES

Neste cap´ıtulo apresentamos uma abordagem alternativa da convergˆencia da

estrat´egia MOSES sem fazer uso da teoria de Freidlin e Wentzell. Para isto,

faze-mos uso de um resultado geral em cadeia de Markov n˜ao-homogˆenea, que pode ser

encontrado em [4] ´e o seguinte:

Teorema 4.0.8. Seja {Xn}n∈N uma cadeia de Markov com espa¸co de estados S.

Suponha que existe um subconjunto n˜ao vazio S∗ S, um n´umero natural n

0∈Ne

uma sequˆencia {δk}k∈N tal que:

min i∈S,j∈S∗P

((k−1)n0,kn0)(i, j)δ

k (4.1)

e

X

k≥1

δk =∞. (4.2)

Ent˜ao S∗ ´e visitado infinitas vezes com probabilidade um e a cadeia de Markov ´e

fracamente erg´odica.

Demonstra¸c˜ao. Seja N = X n≥0

(50)

40

S∗. Observe que temos a seguinte rela¸c˜ao:

(N <∞)⊂ ∪n≥1An,

onde An = (Xm ∈/S∗, m≥n). Assim, para provar que P (N <∞) = 0 ´e sufi-ciente mostrar que P(An) = 0, ∀ n. Considerando B1 = (Xnn0 ∈/ S

), B 2 =

X(n+1)n0 ∈/S∗

, . . . , Bk+1= X(n+k)n0 ∈/S∗

, da´ı segue queAn ⊂(B1, B2, . . . , Bk+1),

∀k ∈N. Da propriedade da cadeia de Markov, obtemos

P (B1, B2, . . . , Bk+1)≤P(Bk+1|Bk). . . P(B2|B1).

Vamos provar que

P(B2|B1)≤1−δn+1.

Seja ¯Bk o complementar do conjunto Bk. Assim,

P B¯2|B1

= X i∈S∗

P X(n+1)n0 =i|B1

e

P X(n+1)n0 =i|B1

= 1

P(B1)

X

j /∈S∗

P X(n+1)n0 =i|Xnn0 =j

P(Xnn0 =j).

De (4.1) temosP X(n+1)n0 =i|Xnn0 =j

≥δn+1. Sendo assim

P B¯2|B1

≥δn+1

ou

P(B2|B1)≤1−δn+1.

Por um argumento similar, obtemos:

(51)

41

Segue da inequa¸c˜ao anterior que

P(B1, B2, . . . , Bk+1)≤(1−δn+1) (1−δn+2). . .(1−δn+k).

Note que a desigualdade acima mant´em para todo k ∈ N. De (4.2) segue que

P(An) = 0, portanto P(N <∞) = 0, ou ´e equivalente, P (N =∞) = 1.

Agora, precisamos verificar se a cadeia de Markov ´e fracamente erg´odica.

Ob-serve a seguinte inequa¸c˜ao

α(P) = min i,k∈E

X

j∈E

min (Pij, Pkj)≥min i∈S Pij0 onde j0 ´e qualquer elemento deS. Da hip´otese, segue que:

α P(k−1)n0,kn0δ

k

assim

δ P(k−1)n0,kn0(1δ

k). Da inequa¸c˜aoδ(P Q)≤δ(P)δ(Q) e de (4.2) segue que

lim k→∞δ P

(m,k)

= 0,∀m≥0.

A seguir mostramos que a estrat´egia MOSES visita a popula¸c˜ao uniforme (a∗)

com probabilidade igual a um, onde a∗ ´e o ponto de m´ınimo global da fun¸c˜ao.

´

E necess´ario lembrar que a estrat´egia MOSES objetiva encontrar o m´ınimo

global de uma fun¸c˜ao f : E → R, onde E ´e um conjunto finito e ´e assumido que

existe uma estrutura de grafog = (E, A) emE, a qual determina vizinhan¸casN(e), para cada e ∈ E, e este grafo g ´e conexo. Inicialmente, ´e dada uma sequˆencia

pT(t) t≥1 que determina as muta¸c˜oes. Em cada etapa da estrat´egia s˜ao formadas

(52)

42

fixo.

Dada a popula¸c˜ao Xt = (et1, et2, . . . , etn) a nova popula¸c˜ao Xt+1´e dada por

(bt1, bt2, . . . , btm, x∗, . . . , x∗) onde x∗ = arg min{f(et1), f(et2), . . . , f(etn)} e m ´e

amostrado de uma vari´avel aleat´oria binomial com parˆametros n e pT, sendo bti ∈

N(eti) com P(bti =x) = |N(1eti)| onde N(eti) ´e a vizinhan¸ca de eti determinada pelo grafo g.

Teorema 4.0.9. A estrat´egia MOSES visita infinitas vezes com probabilidade 1 a popula¸c˜ao uniforme (a∗), se

X

t=1

(pT)D = ∞ e D o diˆametro de g (Diˆametro ´e a

maior distˆancia entre dois v´ertices quaisquer no grafo g).

Demonstra¸c˜ao. Pelo Teorema 4.0.8 ´e suficiente mostrar que existe uma constantek

tal que

P (Xt+D = (a∗)|Xt =x)> pDT ·k, , ∀t∈N, ∀x∈X.

Seja x = (a1, a2, ..., an) uma popula¸c˜ao qualquer, pela conectividade de g existem

e1, e2, . . . , em ∈Etais quee1 ∈N(a1), ei+1∈N(ei) eem =a∗(a∗´e o ponto m´ınimo global de f em≤D).

Consideremos as sequˆencias de popula¸c˜oes:

x1 = (e1, ax1, . . . , ax1), onde ax1 = arg min{f(a1), f(a2), . . . , f(an)}

x2 = (e2, ax2, . . . , ax2), onde ax2 = arg min{f(e1), f(ax1)}

x3 = (e3, ax3, . . . , ax3), onde ax3 = arg min{f(e2), f(ax2)}

...

xm= (a∗, axm, . . . , axm), onde axm = arg min

f(em−1), f axm−1

xm+1= (a∗, a∗, . . . , a∗)

Dessa forma,

P(Xt+1= x1|Xt =x) =n·PT ·(1−PT)(n−1)· 1

(53)

43

P(Xt+2 =x2|Xt+1=x1) =n·PT ·(1−PT)(n−1)· 1

|N(e1)|

...

P (Xt+m+1 =xm+1|Xt+m =xm) = (1−PT)n. Assim,

P (Xt+D = (a∗, a∗, . . . , a∗)|Xt =x)≥(PT)m·(1−PT)(n−1)·(m)·C onde C n˜ao depende de t. Logo,

P(Xt+D = (a∗, a∗, . . . , a∗)|Xt =x)≥(PT)D ·(1−PT)(n−1)·(D)·C, comopT ↓0,(1−pT)≥ 12 ent˜ao

P (Xt+D = (a∗, a∗, . . . , a∗)|Xt =x)≥(PT)D(1/2)(n−1)(D)·C = (PT)D ·k.

Observa¸c˜oes importantes: Com esta abordagem n˜ao ´e necess´ario supor que a

fun¸c˜ao seja injetora, al´em disso, as escolhas dos sucessores nas vizinhan¸cas podem

ser feitas em toda a vizinhan¸caN(xi) e sem a restri¸c˜aoN(xi)− {x∗}, como tamb´em

(54)

Cap´ıtulo 5

Estrat´

egia MOSES no Matlab:

Algumas Simula¸

oes

Neste cap´ıtulo apresentamos resultados observados a partir da implementa¸c˜ao

da estrat´egia MOSES no software Matlab. Nele, realizamos alguns testes com o

intuito de estudar o tempo m´edio em que a estrat´egia atinge o ponto de ´otimo pela

primeira vez (m´ınimo global). Tamb´em comparamos a eficiˆencia do MOSES em

rela¸c˜ao ao Simulated Annealing. As fun¸c˜oes usadas para realizar esses testes foram

as seguintes:

f(x, y) = 0,2 (x−5)2+ (y−5)2

+ 2 sin (10 (x+y−10)) + 2, (5.1)

g(x, y) = 6 +x2−3 cos (2πx) +y2−3 cos (2πy). (5.2) definidas nos intervalos [0,10]2 e [−2,5]2, respectivamente. A primeira fun¸c˜ao teste

f foi utilizada por Fran¸cois [7] e a segunda fun¸c˜ao ´e referenciada a Neto [6].

Gr´aficos, tabelas e figuras s˜ao usados para ilustrar o comportamento da

(55)

5.1 Testes Sobre Tempo M´edio da Primeira Visita da estrat´egia MOSES

ao M´ınimo 45

5.1

Testes Sobre Tempo M´

edio da Primeira

Vi-sita da estrat´

egia MOSES ao M´ınimo

Para verificarmos a eficiˆencia da estrat´egia MOSES foram realizadas simula¸c˜oes

com as fun¸c˜oes citadas acima. Vale ressaltar que essas fun¸c˜oes apresentam v´arias

oscila¸c˜oes, o que implica a existˆencia de diversos m´ınimos locais, dificultando a

determina¸c˜ao do m´ınimo global da fun¸c˜ao. Veja as figuras abaixo:

Figura 5.1: Gr´afico da fun¸c˜ao (5.1)

Figura 5.2: Gr´afico da fun¸c˜ao (5.2)

A tabela 5.1 mostra o comportamento do tempo m´edio da primeira visita da

estrat´egia ao m´ınimo da fun¸c˜ao f quando o tamanho da popula¸c˜ao ´e n = 500 e

pt = t −1

(56)

5.1 Testes Sobre Tempo M´edio da Primeira Visita da estrat´egia MOSES

ao M´ınimo 46

Ambas as tabelas foram obtidas mediante 50 repeti¸c˜oes da estrat´egia e a popula¸c˜ao

inicial foi gerada aleatoriamente. As vizinhan¸cas utilizadas na estrat´egia MOSES

s˜ao compostas de 8 v´ertices como ilustra a figura abaixo:

x

__ OO ??

oo //



Figura 5.3: Vizinhan¸ca dex

Tempo m´edio da primeira visita de MOSES ao m´ınimo, com pt =t(−1/D), n= 500, popula¸c˜ao inicial aleat´oria

Diˆametro D 5 10 30 35 40 45 55 60 70 80 700 800 1000 Tempo M´edio 1 1 11 44 3 51 29 30 60 13 327 429 491

Tabela 5.1:

Tempo m´edio da primeira visita de MOSES ao m´ınimo, com pt = exp(1)1 , n= 500, popula¸c˜ao inicial aleat´oria

Diˆametro D 5 10 30 35 40 45 55 60 70 80 700 800 1000 Tempo M´edio 1 1 14 44 4 52 30 25 45 10 456 544 760

Tabela 5.2:

Note que o tempo m´edio associado `a primeira tabela ´e menor do que na segunda

o que talvez pode ser explicado pelo fato da probabilidade utilizada na primeira

tabela ser bem maior do que a utilizada na segunda tabela. De fato, pt = t(−1/D) tende a zero quando t tende ao infinito.

Tamb´em estimamos o tempo m´edio de retorno ap´os fazer pequenas altera¸c˜oes

na dinˆamica da estrat´egia, mais especificamente, n˜ao colocamos a restri¸c˜ao de o

indiv´ıduo n˜ao poder mutar para o m´ınimo da gera¸c˜ao anterior (essa restri¸c˜ao, como

comenta Fran¸cois, ´e de car´ater t´ecnico que facilita o tratamento matem´atico da

convergˆencia da estrat´egia). Com essa altera¸c˜ao da estrat´egia, n˜ao identificamos

diferen¸ca em rela¸c˜ao ao tempo m´edio.

As figuras 5.4 e 5.5 s˜ao obtidas da seguinte maneira: Gera-se 2000 popula¸c˜oes

(57)

5.1 Testes Sobre Tempo M´edio da Primeira Visita da estrat´egia MOSES

ao M´ınimo 47

Figura 5.4:

Figura 5.5:

Nos gr´aficos anteriores, a estrat´egia foi processado com o mesmo diˆametro

D= 252, mesma probabilidadept = 1/exp (1) (do n´umero de muta¸c˜oes) e a evolu¸c˜ao foi iniciada em (0,0), por´em diferem no tamanho das popula¸c˜oes, sendon= 500 no primeiro gr´afico en= 100 no segundo. Observe que, no primeiro caso, o m´ınimo da fun¸c˜ao ´e encontrado mais r´apido do que no segundo caso.

Conclu´ımos esta se¸c˜ao enumerando algumas considera¸c˜oes a respeito das an´alises

dos testes realizados:

• Notamos que o diˆametro tem efeito direto no tempo m´edio de alcance do

m´ınimo da fun¸c˜ao, por´em em qualquer caso o tempo m´edio ´e finito que n˜ao ´e

´obvio, dado que a cadeia ´e homogˆenea.

(58)

5.2 MOSES Versus Simulated Annealing em Paralelo 48

diˆametro) n˜ao foi necess´aria para a determina¸c˜ao do m´ınimo da fun¸c˜ao, o

que ´e coerente com os resultados obtidos no Cap´ıtulo 4 (Teorema 4.0.9).

Mesmo assim, n˜ao conseguimos estabelecer rela¸c˜oes entre todos os parˆametros:

ta-manho da popula¸c˜ao, diˆametro, probabilidade de muta¸c˜ao e o tempo m´edio. E as

simula¸c˜oes n˜ao deram ind´ıcios para essa rela¸c˜ao, pelo menos n˜ao percebemos.

5.2

MOSES Versus Simulated Annealing em

Pa-ralelo

Com o intuito de observarmos a eficiˆencia da estrat´egia aleat´oria MOSES,

rea-lizamos a implementa¸c˜ao do algoritmo Simulated Annealing em Paralelo no Software

Matlab, para compararmos o desempenho desses dois algoritmos.

Como j´a foi dito no Cap´ıtulo 2, o Simulated Annealing ´e um t´ecnica utilizada

para encontrar o m´ınimo global da fun¸c˜aof :S →R, sendoSfinito. Neste contexto,

o processo de otimiza¸c˜ao ´e realizado por n´ıveis. Em cada n´ıvel ´e dado um ponto

u ∈ S, v´arios pontos na vizinhan¸ca de u s˜ao gerados e o correspondente valor de

f ´e calculado. Cada ponto gerado ´e aceito ou rejeitado de acordo com uma certa probabilidade. Esta probabilidade de aceita¸c˜ao decresce de acordo com o n´ıvel do

processo.

Resultados te´oricos sobre a convergˆencia desse algoritmo podem ser

encontra-dos, por exemplo, no artigo de Cruz e Dorea [3].

Para efeito de compara¸c˜ao da estrat´egia MOSES e o Simulated Annealing

fixamos um tamanho da popula¸c˜ao n para MOSES e realizamosn simula¸c˜oes inde-pendentes no Simulated Annealing, o que n´os chamamos de Simulated Annealing em

(59)

5.2 MOSES Versus Simulated Annealing em Paralelo 49

∀i= 1,· · · , n, bi =

 

aim, com a1(aim/ai)

ai, caso contr´ario. onde

at(aim/ai) = min

1,exp

−1

ct

(f(aim)−f(ai))

e ct = [D(f (j)−f(i))]/log (t+ 1) como sugeriram Cruz e Dorea [3]. A vizinhan¸ca utilizada na implementa¸c˜ao dos algoritmos Simulated Annealing em Paralelo e o

MOSES nesta se¸c˜ao, foi a seguinte:

x

OO

oo //

Os testes foram realizados com as fun¸c˜oes f eg apresentadas no in´ıcio deste cap´ıtulo, com probabilidade pt = t(

−1

D) e n = 500. Variamos a popula¸c˜ao inicial para cada teste, com o objetivo de verificar o grau de dificuldade para os algoritmos

encontrarem o m´ınimo. A seguir apresentamos tabelas informando esses resultados.

• Nas tabelas abaixo a popula¸c˜ao inicial ´e centrada em (0,0) e a fun¸c˜ao teste ´e

f,pt =t( −1

D) en= 500.

Tempo m´edio da primeira visita de MOSES ao m´ınimo Diˆametro D 5 10 30 35 40 45 55 60 70 80 Tempo M´edio 5 9 61 67 123 155 169 179 244 250

Tempo m´edio da primeira visita

Imagem

Figura 3.2: a-grafo Figura 3.3: a ∗ -grafo
Figura 5.2: Gr´afico da fun¸c˜ao (5.2)
Figura 5.3: Vizinhan¸ca de x

Referências

Documentos relacionados

Diante das informações trazidas por Antunes (2013) percebemos que este é um recurso de muitas potencialidades. É uma ferramenta que possibilita ao usuário o acesso diversas

Em “Dialética da malandragem”, Antônio Candido (1978), conflitando com as ob- servações de Sílvio Romero, Mário de Andrade e Josué Montello, afirma categoricamente que

Segundo Boziki; Silva; Printes (2011), a utilização de agrotóxicos, além de causar impactos ao meio ambiente, vem acometendo a saúde humana através da

Esta realidade social, enquanto unidade da totalidade concreta só pode ser adequadamente tomada quando a investigação histórica estabelece, “na totalidade concreta,

Esta disciplina será utilizada pelos professores que atuam nesta linha de pesquisa para inserir novos tópicos de interesse ao Curso de Pós Graduação em Engenharia

Foram realizadas entrevistas semiestruturadas com um roteiro de perguntas para os voluntários e contratados do Observatório Social de Foz do Iguaçu (OSFI), assim como

O estudo teve como objetivo identificar os níveis de ansiedade-estado de tenistas durante as competições, caracterizando os atletas quanto suas características pessoais e prática

In here, Mycropygomyia peresi (Mangabeira) is reported for the fi rst time in Argentina, extending the known dstribution of Migonemyia migonei (França), Evandromyia sallesi