Markov chain e MCMC. Renato Assunção DCC, UFMG

(1)

Markov chain e MCMC

(2)

Objetivo da aula

• Fornecer um introdução INFORMAL a

processos estocásticos e cadeias de Markov • Fornecer os elementos para entender porque

os algoritmos de MCMC funcionam

• Apenas o mínimo necessário de cadeias de

(3)

Processos estocásticos

• Set of random variables X₀ X₁ X₂ ...

(4)

Muitos tipos diferentes de processos

• O conjunto de tempos de X_t e’ o espaço-índice

• X_t pode se desenvolver:

– de forma contínua no tempo – Tempos discretos: t = 0, 1, 2, ...

• Só nos interessa o segundo caso.

• Os valores que X_t pode assumir:

– Forma o espaço de estados do processo – Pode ser discreto ou contínuo

(5)

Os dois tipos de espaços de estado

• Discreto Contínuo

Espaço de estados: {0, 1, 2, 3}

(6)

Espaço de estados S

• A cadeia de Markov tem tempos equi-espaçados: t=1, 2, 3, ....

• X_t e’ o valor do processo no tempo t

• X_t e’ variável aleatória

• Os valores que X_t pode assumir são chamados

de estados da cadeia

• Espaço de estados: conjunto de todos os

(7)

Processo estocástico e instancia

• Um processo estocástico e’ um mecanismo aleatório de geração de curvas no tempo. Diferenciar:

– uma única instancia do processo – Varias instancias independentes

(8)

Processo estocástico

• E’ uma COLECAO de variáveis aleatórias indexadas no tempo.

• X₀ X₁ X₂ X₃ ...  cada uma delas e’ uma

variável aleatória

• Assim, para cada X_t existe:

– E(X_t) = g(t) = o valor em torno do qual, NO TEMPO t, as instancias oscilam

– No tempo t, o valor E(X_t)=g(t) e’ o valor em torno do qual oscilam as diferentes curvas aleatórias que podem ser geradas pelo processo

(9)

E(X

_t

)=g(t) = curva vermelha

(10)

Processo estocástico

• X₀ X₁ X₂ X₃ ...  cada uma delas e’ uma

variável aleatória

• E(X_t) = g(t)

• Cada X_t tem uma distribuição de probabilidade

• Por exemplo, para cada X_t temos também:

(11)

Processo estocástico

• Figura descreve um processo (mecanismo de geração de curvas aleatórias)

• Densidade de X_t mostra que:

– Linha vermelha = g(t) = E(X_t)  tendência de crescer X_t no tempo

(12)

(13)

Processos Estacionários

• Não existe teoria possível (ou bons resultados) se o processo puder ser “qualquer coisa”.

• Precisamos sempre impor algumas condições

ou restrições e verificar as consequências.

• Uma restrição: Processos que fiquem “estáveis” ao longo do tempo.

• Varias definições possíveis de “estabilidade” • A mais conhecida e’ a de processos

(14)

Processos estacionários

• Processos estáveis em torno de um valor fixo:

– E(X_t) = g(t) =  = constante, não varia no tempo

• Assim, eliminamos processos com instancias

(15)

(16)

Não basta olhar E(X

_t

) = g(t)

• Queremos também Var(X_t) constante em t

(17)

(18)

Processos estacionários

• Definição vai alem de pedir que E(X_t) e Var(X_t)

sejam constantes.

• Queremos que a DISTRIBUICAO CONJUNTA de qualquer coleção finita X_t1, X_t2, ..., X_tk seja a mesma se deslocarmos os tempos por

constante s

• Isto e’, seja a mesma distribuição que a

(19)

Por exemplo,

(20)

Isto e’,

• Qualquer que seja a posição temporal

“janela” pela qual vemos um subconjunto de variáveis,

• o comportamento estatístico das instancias será o mesmo

• Ele esta’ “estacionário”

(21)

Processo estacionário

• A stationary process is a stochastic process whose joint probability

distribution does not change when shifted in

time.

• Consequently, parameters such as

the mean and variance also do not change over time and do not follow any trends.

• Also called strict(ly) or strong(ly) stationary

(22)

Em termos matemáticos

• X₀ X₁ X₂ ... processo estocástico

• Considere subconjunto finito e arbitrário das v.a.’s X_t1, X_t2, .., X_tk

• Sua distribuição conjunta e’ dada pela densidade f(x_t1, x_t2, ..., x_tk)

• Para todo  > 0, a densidade das X_t1+_, X_t2+ _, .., X_tk+ _ e’ igual ‘a das v.a.’s X_t1, X_t2, .., X_tk

(23)

Sempre estacionário

• Observe que, por esta definição, um processo não “vai ficando estacionário”

• Ser estacionário e’ uma propriedade do processo para todo tempo

• Propriedade e’ válida ao longo de todo o processo.

(24)

Na prática...

• Na prática, vários processos possuem um período inicial transiente.

• Depois deste período (de burn-in), os

processos estabilizam-se

• Isto não se encaixa na definição de processo (estritamente) estacionário

• Precisamos de uma definição mais flexível de “estabilidade” para incorporar estes processos

(25)

Cadeias de Markov

• ANTES de dar esta definição alternativa de “estabilidade”, vamos estudar as cadeias de Markov.

• Este e’ o tipo particular de processo estocástico mais importante, com o maior numero de

aplicacoes, 2.5 milhões de webpages pelo google. • Cadeias de Markov podem ser:

– processos (estritamente) estacionários

– Ou não-estacionários mas convergindo pra

(26)

Cadeias de Markov

• Como X_t evolui?

• Se as variáveis são independentes, então X_t

não depende de nenhuma outra variável.

• Não precisamos conhecer nada da sequencia

para predizer X_t

• Mas o caso interessante e’ quando elas são DEPENDENTES.

(27)

Caso independente e dependente

Variáveis tem a mesma esperança (0) e variância (1) nos dois gráficos. O que muda e’ que, no gráfico da direita, os valores são dependentes.

(28)

Caso dependente

Positivamente dependentes.

Quando X_t > > 0 , o valor seguinte X_t+1 >> 0

(29)

Caso INdependente

Variáveis sucessivas Independentes.

Quando X_t > > 0 , o valor seguinte X_t+1 pode ser > 0 ou < 0 com igual chance

(30)

Dependência negativa

• Podemos ter media = 0 e variância constante

• Mas valores sucessivos oscilando alternadamente em torno da media.

(31)

Como modelar a dependência?

• Como descrever a dependência? • A dependência e’ ESTOCASTICA:

– Dependendo do passado da serie, a variável X_t terá uma TENDENCIA de assumir certos valores.

• Temos de dizer qual a distribuição de

probabilidade de X_t sabendo-se o passado da

serie ate t-1

(32)

X

₁₁

= ??

• Considere 3 instancias em que X₁₀ tem o mesmo

valor.

• Qual a melhor predição para o próximo valor X₁₁?

(33)

Modelo (ou algoritmo)

• Precisamos de um modelo que diga como gerar

X₁₁ tendo em vista TODO o passado da serie.

• Se cada variável tem apenas 2 valores possíveis,

0 ou 1, temos 210 possíveis trajetórias

• Precisamos especificar

– P(X₁₁ = 1 | uma trajetória)

• para cada uma das 210 _{trajetórias possíveis.}

(34)

Hipótese

• Passado longínquo não afeta a distribuição de X_t dado o passado mais recente.

• Se soubermos os valores mais recentes da serie podemos ignorar o passado mais distante.

• Qualquer efeito que o passado mais distante

possa ter em X_t, este efeito está condensado no passado mais recente.

• Isto e’ uma HIPOTESE que pode ou não ser válida em cada aplicação particular.

(35)

Markov

• Caso extremo: “apenas a ULTIMA variável afeta as próximas”

• Menos informal:

f(x_t+1 | x_t , x_t-1 , x_t-2 , ...) = f(x_t+1 | x_t)

• DADO O PRESENTE X_t, o passado (X_t-1, X_t-2, ..)

e’ irrelevante para prever o futuro (X_t+1)

• Outra maneira equiv: X_t+1 e’ indep de X_t-1, X_t-2,

(36)

Exemplos

• Cinco posições possíveis para uma partícula (eixo vertical).

• X_t = posição da partícula no instante de tempo t

• Partícula movimenta-se ao acaso.

(37)

O labirinto

• Camundongo vive na caixa abaixo.

• Monitora-se o cômodo em que ele esta em intervalos regulares.

• Ele escolhe uma porta ao acaso quando decide sair de um cômodo.

(38)

Um modelo populacional simples

• População dividida em dois grupos A e B de

tamanhos n_A e n_B

• Em cada instante, selecione um individuo da população ao acaso e adicione um do mesmo tipo.

• Selecione um individuo ao acaso e elimine-o.

• Seja X_t a proporção de indivíduos do tipo A no

(39)

Um modelo epidêmico simples

• Uma grade regular quadrada: pontos (i,j) • Apenas origem (0,0) infectada em t=0.

• Em cada instante, cada um dos sites

infectados podem infectar os seus vizinhos sadios independentemente e com

probabilidade 

• Seja X_t o diâmetro do grafo conectando os

(40)

Web como um grafo

Web e’ um grande grafo direcionado: nós são as páginas e arestas são os links. (inlinks e outlinks)

(41)

Google e page rank

• Passeio aleatório num grafo. • Por exemplo, grafo da Web

• X_t e’ a pagina no instante de tempo t. • Em t=0, escolha um página ao acaso.

• Usuário escolhe um dos outlinks da pagina em que esta’ no instante t

• Escolhe outlink com igual probabilidade e independentemente de sua historia anterior.

• Em t+1, salta para a nova pagina apontada pelo outlink. • Repete indefinidamente.

(42)

Texto como uma sequencia

• Um texto pode ser visto como um processo estocástico.

• Acrescente espaço e símbolos especiais de

pontuação (?!., etc)

• Cada caracter e’ classificado como vogal, consoante ou símbolo especial.

• X_t e’ a classe do caracter t

• Podemos tambem classificar PALAVRAS:

(43)

Modelo AR1

• AR1: AutoRegressivo de ordem 1 • Variáveis Y₁, Y₂, ... são gaussianas • São também markovianas

• (Y_t | passado) = (Y_t | Y_t-1, Y_t-2, ...) = = (Y_t | Y_t-1)

(44)

Modelo AR1

• Y₀ ~ ₀(y) (distribuição inicial arbitraria) • (Y₁ | Y₀ = y) = y + (ruído ₁ ) • (Y₂ | Y₁ = y) = y + (ruído ₂ ) • Etc. • Em geral, (Y_t | Y_t-1 = y) = y + _t • Os ₁, ₂, ... são iid N(0, 2_e) • Implica que (Y_t | Y_t-1 = y) ~ N(y , 2_e)

(45)

Modelo AR1

• Y₀ ~ ₀(y) • (Y_t | Y_t-1 = y) = y + _t com ₁, ₂, ...iid N(0, 2 e) •  (Y_t | Y_t-1 = y) ~ N(y , 2 e)

• E qual a distribuição não-condicional de Y_t?

• Temos (Y_t | Y_t-1 = y) ~ ...

(46)

Modelo AR1

• Repetindo: Y₀ ~ ₀(y) • (Y_t | Y_t-1 = y) = y + _t com ₁, ₂, ...iid N(0, 2 e) •  (Y_t | Y_t-1 = y) ~ N(y , 2 e)

• Para t grande temos Y_t gaussiano

• Com || < 1 e t grande, temos

– Y_t ~ N(0, 2

e / (1 - 2))

(47)

Modelo AR1

• Repetindo: Y₀ ~ ₀(y) • (Y_t | Y_t-1 = y) = y + _t com ₁, ₂, ...iid N(0, 2 e) •  (Y_t | Y_t-1 = y) ~ N(y , 2 e) • Y_t e‘ gaussiano • Com || < 1  Y_t ~ N(0, 2_e/ (1 - 2))

(48)

Modelo AR1

• (Y_t | Y_t-1 = y) ~ N(y , 2 e) • Y_t ~ N(0, 2 e / (1 - 2)) • Estrutura de dependência: – Cor(Y_t , Y_t-1) =  – Cor(Y_t , Y_t-2) = 2 – ... – Cor(Y_t , Y_t-k) = k

(49)

=0.0

=0.9

=0.8

(50)

=0.0 =0.5

=0.8 __=0.9

(51)

Outras instancias

=0.0 =0.5

(52)

=0.0 =0.5

=0.8 =0.9

(53)

Mais instancias

=0.0 __=0.5

(54)

=0.0 __=0.5

=0.8 =0.9

(55)

Especificando Cadeia de Markov

• Para especificar uma cadeia de Markov e ser

capaz de gerar instancias, precisamos de 2 coisas:

1. A distribuição do estado inicial: Y₀ ~ ₀(y). Esta

distribuição diz como o estado inicial e’ selecionado. Exemplos

• P(Y₀= 5) = 1 (com certeza, inicia no estado 5)

• P(Y₀= 0) = ½ = P(Y₀= 1) (joga moeda honesta para escolher entre 0 e 1)

• Y₀ ~ N(0,1) (escolhe uma gaussiana padrão para comecar)

2. A maneira como se faz a transição de um instante

para o outro. Dado que X_t-1 = x, qual o algoritmo

(56)

(57)

(58)

(59)

(60)

(61)

(62)

(63)

(64)

(65)

(66)

(67)

Espaço de estados finito

• Se o espaço de estados e’ finito com N

elementos, usamos a matriz de transição NxN • Neste caso, ***TODOS*** os cálculos de

probabilidade se reduzem apenas a manipulações de matrizes.

(68)

(69)

(70)

(71)

(72)

(73)

(74)

Resumo

• _n _{e’ a distribuição de X}_n _{(X no tempo n)}

• Se a cadeia for estacionaria, _n não deveria

depender de n

• _n _{deveria ter uma media, variancia etc que}

não variasse com o tempo n

• Mas a cadeia deve ser estacionaria desde o tempo n=0?

(75)

Resumo

• Veremos daqui a pouco que, se existir uma distribuição estacionaria, ela e’ determinada

apenas pela matriz de transição (e não por ₀(y)) • O valor inicial e’ escolhido pela distribuição ₀(y),

que não tem relação com a matriz de transição • Se X₀ for selecionado de uma distribuição muito

estranha, vai levar um certo tempo (burn-in) para alcançar a distribuição estacionaria.

(76)

Exemplo

• X₀ ~ Unif(-50, 50)

• X_t = 0.8 * X_t-1 + N(0, 1)

• Estacionaria e’ X_t ~ N(0, 1/(1-0.64)) = N(0, 2.8)

(77)

Efeito do valor inicial

• Eventualmente, a cadeia converge e passa a gerar valores de N(0, 2.8)  em geral, entre +- 3.33

• Existem valores iniciais muito discrepantes com respeito ‘a distribuição N(0, 2.8)

• Por exemplo, X₀> 20 ou X₀< -20

• Por algum tempo, esses valores iniciais influenciam o inicio da serie.

(78)

Nova def de Estabilidade

• Precisamos de uma nova definição de estabilidade

• Uma propriedade assintótica (quando n  )

• Esta nova propriedade e’ obtida com a

definição de uma distribuição invariante ou distribuição estacionaria

(79)

The fundamental limit theorem for MC

• Migration example • 4 places

• Matrix with the probability of residents from i

who move to j at each year

• Start on initial configuration • What happens in the future?

• The system is random and each path is unique

(80)

Notação

• Seja ₀(i) = P( X₀ = i )

• Defina o vetor-linha 1 x N • ₀ = (₀(1), ₀(2), ..., ₀(N))

• Defina também _n(i) = P( X_n = i ) e o vetor 1xN

• _n _{= (}_n_(1),_n_{(2), ...,}_n_(N))

(81)

An example: population migration

• Migration example: 4 places • Transition Matrix P

• P_ij gives the probability of residents from i

moving to j in one year interval.

A B C D

A 0.83 0.05 0.02 0.10

B 0.01 0.94 0.02 0.03

C 0.01 0.30 0.65 0.04

(82)

Always on the move

• Start on initial configuration

• What will happen in the future? • For example:

– A  A  B  A  C  C  C  D  D  ...

• Or may be this path

– B  B  B  B  C  D  D  A  A  ...

• The system is random and the realizations can be very different from each other

(83)

P(X

_t

= ?? | X

₀

= A)

• Como calcular – P(X_t = A | X₀ = A) – P(X_t = B | X₀ = A) – P(X_t = C | X₀ = A) – P(X_t = D | X₀ = A)

(84)

P(X

_t

= ?? | X

₀

= A)

• Seja P a matriz de transição 4x4

• Tome P*P*P*...*P = Pt

– Por exemplo, P(X₂ = ?? | X₀ = A). – Calcule P*P = P2 – A B C D – A 0.69 0.10 0.04 0.18 – B 0.02 0.89 0.03 0.06 – C 0.02 0.48 0.43 0.07 – D 0.04 0.07 0.08 0.81

(85)

P(X

_t

= ?? | X

₀

= A)

• A linha A fornece P(X₂ = ?? | X₀ = A).

– A B C D – A 0.69 0.10 0.04 0.18 – B 0.02 0.89 0.03 0.06 – C 0.02 0.48 0.43 0.07 – D 0.04 0.07 0.08 0.81 • A linha B fornece P(X₂ = ?? | X₀ = B) • Veja que P(X₂ = A | X₀ = B) = 0.02

• E que P(X₂ = A | X₀ = A) = 0.69, bem diferente • Isto e’ bem razoável, certo?

(86)

P(X

_t

= ?? | X

₀

= A) quando t

 

• O que acontece quando fazemos t  ?

• Vamos tomar t=10. Temos

• 0.20 0.37 0.08 0.35

• _{0.05 0.69 0.07 0.19}

• 0.05 0.67 0.08 0.20

• 0.08 0.38 0.10 0.45

• Veja que P(X₁₀=A|X₀=A)=0.20 e que

P(X₁₀=A|X₀=B)=0.05.

(87)

P(X

_t

= ?? | X

₀

= A) quando t

 

• Quando t=20, temos A B C D • A 0.09 0.51 0.08 0.31 • B 0.07 0.61 0.07 0.25 • C 0.07 0.61 0.07 0.25 • D 0.08 0.52 0.08 0.32

• Matriz bem diferente da anterior e ... convergindo para que??

(88)

P(X

_t

= ?? | X

₀

= A) quando t

 

• Se t = 30 temos • 0.07 0.56 0.08 0.29 • 0.07 0.59 0.08 0.27 • 0.07 0.59 0.08 0.27 • 0.07 0.56 0.08 0.29

(89)

P(X

_t

= ?? | X

₀

= A) quando t

 

• Se t=100 temos • 0.07 0.58 0.08 0.27 • 0.07 0.58 0.08 0.27 • 0.07 0.58 0.08 0.27 • 0.07 0.58 0.08 0.27

• As linhas da matriz P100 _{são idênticas (ate’ 2}

casas decimais)

(90)

P(X

_t

= ?? | X

₀

= A) quando t

 

• Suponha que as linhas da matriz Mt _sejam

praticamente idênticas • O que isto significa?

• Significa que

• P(X_t = A | X₀ = A) = P(X_t = A | X₀ = B) = P(X_t = A | X₀ = C) = P(X_t = A | X₀ = D)

• Isto e’, a chance de estar em A no tempo t e’ a

mesma, NAO IMPORTA DE ONDE PARTIU.

• Do mesmo modo,

(91)

P

t

quando t

 

• Sob certas condições, temos que Pt _converge

para uma matriz em que as linhas são

idênticas (e são  0 e somam 1).

• E daí?

(92)

Notação

• Seja ₀(i) = P( X₀ = i )

• Defina o vetor-linha 1 x N • ₀ _{= (}₀_(1),₀_{(2), ...,}₀_(N))

• Defina também _n(i) = P( X_n = i ) e o vetor 1xN

• _n = (_n(1), _n(2), ..., _n(N))

(93)

Mas P

n

converge

• Se Pn _{convergir para matriz com todas as}

linhas idênticas...

• Idênticas e iguais ao vetor linha 

• Três usos para o símbolo :

– ₀ _n e 

• Teremos _n = ₀ . Pn  

(94)

Mais uma vez...

• Temos _n = ₀ . Pn Ou seja                   x P x x x P x x x P x x N N i Ni i i n n n        2 1 0 0(1), , ( ) ) ( , ), ( ), 1 (      ) ( ) ( ) ( ) , ( ) ( ) ( 1 1 0 1 ) ( constante 0 j P j i i j i i N j N j i n n             _ _



     

(95)

The fundamental limit theorem for MC

Irredutível: para qualquer par de estados e’ possível sair de i e chegar a j. Isto e’, P(X_n = j para algum n| X₀ = i) e’ MAIOR que zero para todo (i,j)

Periódica: Espaço de estados particionado em 2 conjuntos A e B.

Nos tempos pares esta no conjunto A e nos tempos impares esta no conjunto B. Exemplo: passeio aleatório num grafo regular.

(96)

•  is called a stationary distribution for the Markov chain

• Veja a diferenca entre:

– Processo (ou cadeia) estacionario

• Estacionário desde sempre

• Muito mais restritivo: exige propriedades de invariância das distribuições conjuntas entre subconjuntos de v.a.’s sendo deslocados no eixo do tempo.

– Distribuição estacionaria (ou invariante) da cadeia

• Estacionário no limite

• Diz respeito a distribuição apenas da v.a. X_n para n grande (e não sobre subconjuntos de v.a.’s vistas simultaneamente)

(97)

Outra maneira de ver as coisas

• Para n grande, esperamos que

• _n  _n+1  _n+2  _n+3 etc.. Todas convergindo

para CERTA distribuição 

• Isto e’, a partir de certo n, a distribuição de X_n

fica como que “estacionada” numa certa

distribuição de probabilidade fixa e denotada

(98)

Se existir



...

• Se existir uma distribuição limite  para _n,

qual propriedade ela deve satisfazer?

• Se existir um limite, teremos _n  _n+1   a

partir de certo n,

• SEMPRE temos _n+1 = _n . P numa cadeia de

(99)

Se existir



...

• Se _n  _n+1   e como _n+1 = _n . P

• Então devemos ter   _n+1 = _n . P   . P

• Isto vai aparecer na DEFINICAO de uma distribuição estacionaria (a seguir)

(100)

•  is called a stationary distribution for the Markov chain

(101)

• Uma distribuição  com esta propriedade is called a stationary distribution for the Markov chain

(102)

(103)

(104)

Dist estacionária e’ única?

• Uma cadeia de Markov pode ter:

– Nenhuma distribuição estacionária – Uma única distribuição estacionária – Infinitas distribuições estacionárias

• Exemplos?

• Queremos entender quando existe uma única distribuição estacionária.

(105)

(106)

Cadeia reversível

• Realização parcial de uma cadeia:

– X₀ = i_o X₁=i₁ X₂=i₂ X₃=i₃

• Esta trajetória arbitraria tem certa probabilidade de ocorrer

• Considere a chance do caminho reverso:

• X₀ = i₃ X₁=i₂ X₂=i₁ X₃=i₀

• Se a chance de ocorrência de todo caminho

reverso e’ igual ao caminho original, a cadeia e’

(107)

Mais formalmente

• Vamos olhar 3 primeiros momentos da cadeia. • Tome uma trajetória arbitraria i₀, i₁, i₂, i₃

• Temos um valor para P(X₀ = i_o ,X₁=i₁, X₂=i₂ ,X₃=i₃) • Temos outro valor para P(X₀ = i₃, X₁=i₂, X₂=i₁, X₃=i₀)

• Queremos P(X₀ = i_o ,X₁=i₁, X₂=i₂ ,X₃=i₃) = P(X₀ = i₃, X₁=i₂, X₂=i₁, X₃=i₀)

(108)

Mais formalmente

• P(X₀ = i_o ,X₁=i₁, X₂=i₂ ,X₃=i₃) =P(X₀ = i₃, X₁=i₂, X₂=i₁, X₃=i₀) para TODA trajetória especifica i₀, i₁, i₂, i₃

• Generalizamos isto para qualquer numero de variáveis.

(109)

(110)

Balanço detalhado

Simule a cadeia MUITAS vezes.

O lado direito mostra a proporção dessas trajetórias que tiveram X₀ = i e X₁=j Isto e’ chamado o FLUXO de i para j

(111)

(112)

(113)

Reversível  ...

(114)

Balanço global

• Dada uma matriz de transição P, uma

distribuição  e’ estacionaria para P se  = P

• Isto e’, (j) = _i(i) * P(i, j) • Balanço global:

– Como (j) = (j) * _i P(j, i) = _i (j) *P(j, i) então – _i (j) *P(j, i) = _i(i) * P(i, j)

(115)

Balanço global

• Balanço global: _i (j) *P(j, i) = _i(i) * P(i, j) • Lado direito: fluxo total saindo de j

• Lado esquerdo: fluxo total entrando em j • j i=1 i=2 i=N ... j i=1 i=2

(116)

Estacionaria



reversível

• Dada uma matriz de transição P, uma

distribuição  e’ estacionaria para P se  = P

• Se cadeia começa com , ela fica em :

processo estacionario.

• Toda cadeia estacionaria satisfaz balanço global

• Reversível pede algo mais:

– (j) *P(j, i) = (i) * P(i, j) para todo PAR (i,j)

(117)

Balanço detalhado

• (j) *P(j, i) = (i) * P(i, j) para todo PAR (i,j)

j

i

j

Simule a cadeia MUITAS vezes.

O lado direito mostra a proporção dessas trajetórias que tiveram X₀ = j e X₁=i Isto e’ chamado o FLUXO de j para i

(118)

(119)

(120)

MCMC

• Ideia geral:

e’ dada (a distribuicao a posteriori). Inventamos P. Como verificar se P=?

Isto e’, como verificar se P tem  como distribuição estacionaria?

(121)

(122)

(123)

(124)

(125)

Simulação Monte Carlo multivariada

• Problema difícil: simular de uma distribuição MULTIVARIADA.

• Quero simular um VETOR de n v.a.’s que não são independentes.

• Os valores das v.a.’s estao “amarrados” probabilisticamente.

• Não posso simular CADA componente do

(126)

Exemplo

• Por exemplo, algumas vezes, preciso simular da seguinte densidade de probabilidade

• Onde c₁, c₂, ..., c₁₀₀₀ são constantes conhecidas.

• Simulamos um vetor 2000-dim.





_          



   1000 1 ( ) 2 1000 1 1000 1 2 1 ) ( exp * ) , , , , , ( i j N i j i i i i i i e c cte p            

(127)

Passeio aleatório num grafo

• Imagine um grafo sobre os estados da cadeia • Coloque arestas “arbitrariamente”

• Se i e j estão ligados, i e’ vizinho de j • i não e’ vizinho de si mesmo

• Considere INICIALMENTE a matriz de transição do passeio aleatório no grafo

(128)

Dist. estacionaria do passeio aleatório

• Seja d(i) o grau do no ou vértice i.

• Para esta matriz P, podemos mostrar que

• _ou

• e’ distribuição estacionaria. • PROVA: no quadro...

(129)

(130)

(131)

(132)

(133)

(134)

Metropolis: prova

(135)

(136)

Detalhes sobre irredutibilidade e

periodicidade

(137)

(138)

(139)

(140)

(141)

Irredutível

• Notação: P_i significa que a cadeia começou

(142)

Irredutível e classes

• O espaço de estados S pode ser particionado em classes comunicantes.

• Cadeia e’ irredutível se existir apenas uma classe comunicante.

• A intenção e’ eliminar de S a possibilidade de haver estados absorventes

• Se existirem estados absorventes, qual seria a

(143)

Ruína do jogador

• Jogo de “moeda” com probab sucesso = p • Fracasso com probab 1-p

• Se sucesso ganha 1 real. Se fracasso, perde 1 real

• Jogador 1 começa com M₁ reais e jogador 2

com M₂ reais

• Seja X_t o GANHO realizado no jogo por 1

(144)

Ruína do jogador

• Seja X_t o GANHO realizado no jogo por 1

• Se X_t = -M₁ entao X_t+k= -M₁ para todo k > 0 • Se X_t = M₂ entao X_t+k= M₂ para todo k > 0

• Suponha que i  -M₁ e que i  M₂

• P(X_t+1 = i+1 | X_t = i) = p • P(X_t+1 = i-1 | X_t = i) = 1-p

• Em algum momento, cadeia bate em –M₁ ou

(145)

(146)

Definition

• Exemplo:

• P(i,i) =0 P2_{(i,i) = 0 ... P}7_{(i,i) = 0}

• MAS P8_{(i,i) > 0 P}9_{(i,i) = 0 P}10_{(i,i) = 0 P}11_{(i,i) > 0 ....}

• Então d_i = gcd{ 8, 11, ....(o que quer que apareça aqui) } = 1 • Se P(i,i) > 0 então d_i = 1

(147)

Definition

• Exemplo de quando d_i > 1

• P(i,i) =0 P2_{(i,i) > 0 P}3_{(i,i) = 0 P}4_{(i,i) > 0 P}5_{(i,i) = 0 P}6_{(i,i) > 0 ....}

• Isto e’, se n e’ par Pn_{(i,i) > 0 mas se n e’ impar esta probab = 0}

• Então d_i = gcd{ 2, 4, 6, ... } = 2

(148)

(149)

(150)

(151)