Markov chain e MCMC. Renato Assunção DCC, UFMG

(1)

Markov chain e MCMC

(2)

Objetivo da aula

• Fornecer um introdução INFORMAL a

processos estocásticos e cadeias de Markov • Fornecer os elementos para entender porque

os algoritmos de MCMC funcionam

• Apenas o mínimo necessário de cadeias de Markov

(3)

Processos estocásticos

• Set of random variables X₀ X₁ X₂ ... • X_t is the random element at time t

(4)

Muitos tipos diferentes de processos

• O conjunto de tempos de X_t e’ o espaço-índice • X_t pode se desenvolver:

– de forma contínua no tempo – Tempos discretos: t = 0, 1, 2, ...

• Só nos interessa o segundo caso. • Os valores que X_t pode assumir:

– Forma o espaço de estados do processo – Pode ser discreto ou contínuo

(5)

Os dois tipos de espaços de estado

• Discreto Contínuo

Espaço de estados: {0, 1, 2, 3}

(6)

Espaço de estados S

• A cadeia de Markov tem tempos equi-espaçados: t=1, 2, 3, ....

• X_t e’ o valor do processo no tempo t • X_t e’ variável aleatória

• Os valores que X_t pode assumir são chamados de estados da cadeia

• Espaço de estados: conjunto de todos os estados possíveis da cadeia.

(7)

Processo estocástico e instancia

• Um processo estocástico e’ um mecanismo aleatório de geração de curvas no tempo. Diferenciar:

– uma única instancia do processo – Varias instancias independentes

(8)

Processo estocástico

• E’ uma COLECAO de variáveis aleatórias indexadas no tempo.

• X₀ X₁ X₂ X₃ ...  cada uma delas e’ uma variável aleatória

• Assim, para cada X_t existe:

– E(X_t) = g(t) = o valor em torno do qual, NO TEMPO t, as instancias oscilam

– No tempo t, o valor E(X_t)=g(t) e’ o valor em torno do qual oscilam as diferentes curvas aleatórias que podem ser geradas pelo processo

(9)

E(X

_t

)=g(t) = curva vermelha

(10)

Processo estocástico

• X₀ X₁ X₂ X₃ ...  cada uma delas e’ uma variável aleatória

• E(X_t) = g(t)

• Cada X_t tem uma distribuição de probabilidade

• Por exemplo, para cada X_t temos também:

(11)

Processo estocástico

• Figura descreve um processo (mecanismo de geração de curvas aleatórias)

• Densidade de X_t mostra que:

– Linha vermelha = g(t) = E(X_t)  tendência de crescer X_t no tempo

(12)

(13)

Processos Estacionários

• Não existe teoria possível (ou bons resultados) se o processo puder ser “qualquer coisa”.

• Precisamos sempre impor algumas condições ou restrições e verificar as consequências.

• Uma restrição: Processos que fiquem “estáveis” ao longo do tempo.

• Varias definições possíveis de “estabilidade” • A mais conhecida e’ a de processos

(14)

Processos estacionários

• Processos estáveis em torno de um valor fixo:

– E(X_t) = g(t) =  = constante, não varia no tempo

• Assim, eliminamos processos com instancias assim:

(15)

(16)

Não basta olhar E(X

_t

) = g(t)

• Queremos também Var(X_t) constante em t • Não queremos instancias assim:

(17)

(18)

Processos estacionários

• Definição vai alem de pedir que E(X_t) e Var(X_t) sejam constantes.

• Queremos que a DISTRIBUICAO CONJUNTA de qualquer coleção finita X_t1, X_t2, ..., X_tk seja a mesma se deslocarmos os tempos por

constante s

• Isto e’, seja a mesma distribuição que a coleção X_t1+s, X_t2+s, ..., X_tk+s

(19)

Por exemplo,

(20)

Isto e’,

• Qualquer que seja a posição temporal

“janela” pela qual vemos um subconjunto de variáveis,

• o comportamento estatístico das instancias será o mesmo

• Ele esta’ “estacionário”

(21)

Processo estacionário

• A stationary process is a stochastic process whose joint probability

distribution does not change when shifted in time.

• Consequently, parameters such as

the mean and variance also do not change over time and do not follow any trends.

• Also called strict(ly) or strong(ly) stationary

(22)

Em termos matemáticos

• X₀ X₁ X₂ ... processo estocástico

• Considere subconjunto finito e arbitrário das v.a.’s X_t1, X_t2, .., X_tk

• Sua distribuição conjunta e’ dada pela densidade f(x_t1, x_t2, ..., x_tk)

• Para todo  > 0, a densidade das X_t1+, X_{t2+ }, .., X_{tk+ } e’ igual ‘a das v.a.’s X_t1, X_t2, .., X_tk

(23)

Sempre estacionário

• Observe que, por esta definição, um processo não “vai ficando estacionário”

• Ser estacionário e’ uma propriedade do processo para todo tempo

• Propriedade e’ válida ao longo de todo o processo. _{Não estacionário}

(24)

Na prática...

• Na prática, vários processos possuem um período inicial transiente.

• Depois deste período (de burn-in), os processos estabilizam-se

• Isto não se encaixa na definição de processo estacionário

• Precisamos de uma definição mais flexível de “estabilidade” para incorporar estes processos com períodos iniciais transitórios.

(25)

Cadeias de Markov

• ANTES de dar esta definição alternativa de “estabilidade”, vamos estudar as cadeias de Markov.

• Este e’ o tipo particular de processo estocástico mais importante, com o maior numero de

aplicacoes, 2.5 milhões de webpages pelo google. • Cadeias de Markov podem ser:

– processos (estritamente) estacionários

– Ou não-estacionários mas convergindo pra “estabilidade”.

(26)

Cadeias de Markov

• Como X_t evolui?

• Se as variáveis são independentes, então X_t não depende de nenhuma outra variável.

• Não precisamos conhecer nada da sequencia para predizer X_t

• Mas o caso interessante e’ quando elas são DEPENDENTES.

(27)

Caso independente e dependente

Variáveis tem a mesma esperança (0) e variância (1) nos dois gráficos. O que muda e’ que, no gráfico da direita, os valores são dependentes.

(28)

Caso dependente

Positivamente dependentes.

Quando X_t > > 0 , o valor seguinte X_t+1 >> 0

(29)

Caso INdependente

Variáveis sucessivas Independentes.

Quando X_t > > 0 , o valor seguinte X_t+1 pode ser > 0 ou < 0 com igual chance

(30)

Dependência negativa

• Podemos ter media = 0 e variância constante

• Mas valores sucessivos oscilando alternadamente em torno da media.

(31)

Como modelar a dependência?

• Como descrever a dependência? • A dependência e’ ESTOCASTICA:

– Dependendo do passado da serie, a variável X_t terá uma TENDENCIA de assumir certos valores.

• Temos de dizer qual a distribuição de

probabilidade de X_t sabendo-se o passado da serie ate t-1

(32)

X

₁₁

= ??

• Considere 3 instancias em que X₁₀ tem o mesmo valor.

• Qual a melhor predição para o próximo valor X₁₁?

(33)

Modelo (ou algoritmo)

• Precisamos de um modelo que diga como gerar X₁₁ tendo em vista TODO o passado da serie.

• Se cada variável tem apenas 2 valores possíveis, 0 ou 1, temos 210 possíveis trajetórias

• Precisamos especificar

– P(X₁₁ = 1 | uma trajetória)

• para cada uma das 210 _{trajetórias possíveis.}

(34)

Hipótese

• Passado longínquo não afeta a distribuição de X_t dado o passado mais recente.

• Se soubermos os valores mais recentes da serie podemos ignorar o passado mais distante.

• Qualquer efeito que o passado mais distante

possa ter em X_t, este efeito está condensado no passado mais recente.

• Isto e’ uma HIPOTESE que pode ou não ser válida em cada aplicação particular.

(35)

Markov

• Caso extremo: “apenas a ULTIMA variável afeta as próximas”

• Menos informal:

f(x_t+1 | x_t , x_t-1 , x_t-2 , ...) = f(x_t+1 | x_t)

• DADO O PRESENTE X_t, o passado (X_t-1, X_t-2, ..) e’ irrelevante para prever o futuro (X_t+1)

• Outra maneira equiv: X_t+1 e’ indep de X_t-1, X_t-2, .. condicionalmente em X_t

(36)

Exemplos

• Cinco posições possíveis para uma partícula (eixo vertical).

• X_t = posição da partícula no instante de tempo t • Partícula movimenta-se ao acaso.

(37)

O labirinto

• Camundongo vive na caixa abaixo.

• Monitora-se o cômodo em que ele esta em intervalos regulares.

• Ele escolhe uma porta ao acaso quando decide sair de um cômodo.

(38)

Um modelo populacional simples

• População dividida em dois grupos A e B de tamanhos n_A e n_B

• Em cada instante, selecione um individuo da população ao acaso e adicione um do mesmo tipo.

• Selecione um individuo ao acaso e elimine-o. • Seja X_t a proporção de indivíduos do tipo A no

(39)

Um modelo epidêmico simples

• Uma grade regular quadrada: pontos (i,j) • Apenas origem (0,0) infectada em t=0.

• Em cada instante, cada um dos sites

infectados podem infectar os seus vizinhos sadios independentemente e com

probabilidade 

• Seja X_t o diâmetro do grafo conectando os infectados no instante t.

(40)

Web como um grafo

Web e’ um grande grafo direcionado: nós são as páginas e arestas são os links. (inlinks e outlinks)

(41)

Google e page rank

• Passeio aleatório num grafo. • Por exemplo, grafo da Web

• X_t e’ a pagina no instante de tempo t. • Em t=0, escolha um página ao acaso.

• Usuário escolhe um dos outlinks da pagina em que esta’ no instante t

• Escolhe outlink com igual probabilidade e independentemente de sua historia anterior.

• Em t+1, salta para a nova pagina apontada pelo outlink. • Repete indefinidamente.

(42)

Texto como uma sequencia

• Um texto pode ser visto como um processo estocástico.

• Acrescente espaço e símbolos especiais de pontuação (?!., etc)

• Cada caracter e’ classificado como vogal, consoante ou símbolo especial.

• X_t e’ a classe do caracter t

• Podemos tambem classificar PALAVRAS: named entity recognition problem.

(43)

Modelo AR1

• AR1: AutoRegressivo de ordem 1 • Variáveis Y₁, Y₂, ... são gaussianas • São também markovianas

• (Y_t | passado) = (Y_t | Y_t-1, Y_t-2, ...) = = (Y_t | Y_t-1) • Como e’ esta dependência?

(44)

Modelo AR1

• Y₀ ~ ₀(y) (distribuição inicial arbitraria) • (Y₁ | Y₀ = y) = y + (ruído ₁ ) • (Y₂ | Y₁ = y) = y + (ruído ₂ ) • Etc. • Em geral, (Y_t | Y_t-1 = y) = y + _t • Os ₁, ₂, ... são iid N(0, 2 e)

(45)

Modelo AR1

• Y₀ ~ ₀(y)

• (Y_t | Y_t-1 = y) = y + _t com ₁, ₂, ...iid N(0, 2 e)

•  (Y_t | Y_t-1 = y) ~ N(y , 2 e)

• E qual a distribuição não-condicional de Y_t? • Temos (Y_t | Y_t-1 = y) ~ ...

(46)

Modelo AR1

• Repetindo: Y₀ ~ ₀(y)

•  (Y_t | Y_t-1 = y) ~ N(y , 2 e)

• Para t grande temos Y_t gaussiano • Com || < 1 e t grande, temos

– Y_t ~ N(0, 2

e / (1 - 2))

(47)

Modelo AR1

• Repetindo: Y₀ ~ ₀(y)

•  (Y_t | Y_t-1 = y) ~ N(y , 2 e)

• Y_t e‘ gaussiano

• Com || < 1  Y_t ~ N(0, 2_e/ (1 - 2)) • Note: distribuição de Y_t não depende de t.

(48)

Modelo AR1

• (Y_t | Y_t-1 = y) ~ N(y , 2 e) • Y_t ~ N(0, 2 e / (1 - 2)) • Estrutura de dependência: – Cor(Y_t, Y_t-1) =  – Cor(Y_t, Y_t-2) = 2 – ... – Cor(Y_t, Y_t-k) = k

(49)

=0.0

=0.9 =0.8

(50)

=0.0 =0.5

=0.8 _=0.9

(51)

Outras instancias

=0.0 =0.5

(52)

=0.0 =0.5

=0.8 =0.9

(53)

Mais instancias

=0.0 _=0.5

(54)

=0.0 _=0.5

=0.8 =0.9

(55)

Especificando Cadeia de Markov

• Para especificar uma cadeia de Markov e ser

capaz de gerar instancias, precisamos de 2 coisas:

1. A distribuição do estado inicial: Y₀ ~ ₀(y). Esta

distribuição diz como o estado inicial e’ selecionado. Exemplos

• P(Y₀= 5) = 1 (com certeza, inicia no estado 5)

• P(Y₀= 0) = ½ = P(Y₀= 1) (joga moeda honesta para escolher entre 0 e 1)

• Y₀ ~ N(0,1) (escolhe uma gaussiana padrão para comecar)

2. A maneira como se faz a transição de um instante para o outro. Dado que X_t-1 = x, qual o algoritmo para escolher X_t?

(56)

(57)

(58)

(59)

(60)

(61)

(62)

(63)

(64)

Exemplos de Cadeias de Markov

• Cinco posições possíveis para uma partícula (eixo vertical).

• X_t = posição da partícula no instante de tempo t • Partícula movimenta-se ao acaso.

(65)

Matriz de transição

• Insira as probabilidades

• Propriedade:

– soma nas linhas = 1 – Elementos são >= 0 1 2 3 4 5 1 2 3 4 5

(66)

O labirinto

• Camundongo vive na caixa abaixo.

• Monitora-se o cômodo em que ele esta em intervalos regulares.

• Ele escolhe uma porta ao acaso quando decide sair de um cômodo.

(67)

• Insira as probabilidades

A B C

(68)

Um modelo populacional simples

• População dividida em dois grupos A e B de tamanhos n_A e n_B

• Em cada instante, selecione um individuo da população ao acaso e adicione um do mesmo tipo.

• Selecione um individuo ao acaso e elimine-o. • Seja X_t o número de indivíduos do tipo A no

(69)

Urna de Pólya

• X_t = bolas azuis

• P(X_t+1 = ?? | X_t = k) • ?? é k-1, k ou k+1

• Evento [X_t+1 = k-1 ] ocorre, dado que [X_t = k], se e só se, escolher bola vermelha e a seguir escolher bola azul.

• P(X_t+1 = ?? | X_t = k) = (N-k)/N * (k/(N-k+1)) • Obtenha as outras

(70)

Matriz de Transição

• n_A + n_B = N fixo • X_t ε {0, 1, 2, ...., N} 0 1 2 ... K-1 k K+1 ... N 0 1 2 ... K-1 K 0 0 0 0 ?? ?? ?? 0 0 K+1 ... N

(71)

(72)

(73)

(74)

Espaço de estados finito

• Se o espaço de estados e’ finito com N

elementos, usamos a matriz de transição NxN • Neste caso, ***TODOS*** os cálculos de

probabilidade se reduzem apenas a manipulações de matrizes.

(75)

(76)

(77)

(78)

(79)

(80)

(81)

Resumo

• _n e’ a distribuição de X_n (X no tempo n)

• Se a cadeia for estacionaria, _n não deveria depender de n

• _n deveria ter uma media, variância etc que não variasse com o tempo n

• A cadeia deve ser estacionaria desde o tempo n=0 de acordo com nossa definição.

(82)

Conceito de distribuição estacionaria

• Cadeia de Markov (ou processo estocástico) não estacionária

• Mas cadeia converge para uma distribuição em torno da qual ela “estaciona”

(83)

Exemplo

• X₀ ~ Unif(-50, 50)

• X_t = 0.8 * X_t-1 + N(0, 1)

• Dist estacionaria: X_t ≈ N(0, 1/(1-0.64)) = N(0, 2.8)

(84)

Efeito do valor inicial

• Eventualmente, a cadeia converge e passa a gerar valores de N(0, 2.8)  em geral, entre +- 3.33

• Existem valores iniciais muito discrepantes com respeito ‘a distribuição N(0, 2.8)

• Por exemplo, X₀> 20 ou X₀< -20

• Por algum tempo, esses valores iniciais influenciam o inicio da serie.

(85)

Nova def de Estabilidade

• Queremos uma nova definição de “estabilidade”

• Uma propriedade assintótica (quando n  ) • Queremos que _n = P(X_n= i)  valor que não

dependa do tempo n

• Queremos _n = P(X_n= i)  (i)

• Como encontrar esta distribuição limite? • Antes dessa teoria, um exemplo.

(86)

Exemplo de migração

• 4 lugares • Matriz 4x4

• P(i,j) = Probabilidade de um residente em lugar i em 01/Jan mudar-se para lugar j durante o ano. • O que ocorre no futuro?

• O sistema é aleatório e cada indivíduo terá sua trajetória pessoal.

(87)

Notação

• Seja ₀(i) = P( X₀ = i )

• Defina o vetor-linha 1 x N • ₀ = (₀(1), ₀(2), ..., ₀(N))

• Defina também _n(i) = P( X_n = i ) e o vetor 1xN • _n = (_n(1), _n(2), ..., _n(N))

(88)

An example: population migration

• Migration example: 4 places • Transition Matrix P

• P_ij gives the probability of residents from i moving to j in one year interval.

A B C D

A 0.83 0.05 0.02 0.10

B 0.01 0.94 0.02 0.03

C 0.01 0.30 0.65 0.04

(89)

Uma visão: individual

• Imagine um grande número de indivíduos

movendo-se de lugar para lugar a cada ano de acordo com a matriz P.

• Podemos acompanhar um deles em particular. • What will happen in the future?

• For example:

– A  A  B  A  C  C  C  D  D  ...

• Or may be this path

(90)

Probabilidades individuais

• Assim, as probabilidades dizem respeito a um indivíduo particular.

• P(X₀ = A) = Probab de um indivíduo escolhido ao acaso começar no lugar A

• P(X_t = A) = Probab de um indivíduo escolhido ao acaso estar em A no tempo t.

• P(X_t = A | X₀ = A) = Probab de um indiv. casual estar em A no tempo t DADO QUE começou em A

(91)

Outra visão: populacional

• População espalhada pelos quatro lugares.

• Alocação inicial foi feita de acordo com ₀(i) = P( X₀ = i ) • Escolhe-se o lugar de cada indivíduo de acordo com ₀ • P(X₀ = A) ≈ proporção de indivíduos em A no tempo 0 • Movimentações de cada um de acordo com matriz P

• No tempo t, a proporção de indivíduos em A será aprox. igual a _t(A)

• P(X_t = A | X₀ = A) ≈ proporção de indivíduos em A no tempo t DENTRE AQUELES que começaram em A

(92)

Always on the move

• Start on initial configuration

• What will happen in the future? • For example, for two individuals:

– A  A  B  A  C  C  C  D  D  ...

• Or may be this path

– B  B  B  B  C  D  D  A  A  ...

• The system is random and the realizations can be very different from each other

(93)

P(X

_t

= ?? | X

₀

= A)

• Como calcular – P(X_t = A | X₀ = A) – P(X_t = B | X₀ = A) – P(X_t = C | X₀ = A) – P(X_t = D | X₀ = A)

(94)

P(X

_t

= ?? | X

₀

= A)

• Seja P a matriz de transição 4x4 • Tome P*P*P*...*P = Pt

– Por exemplo, P(X₂ = ?? | X₀ = A). – Calcule P*P = P2 – A B C D – A 0.69 0.10 0.04 0.18 – B 0.02 0.89 0.03 0.06 – C 0.02 0.48 0.43 0.07 – D 0.04 0.07 0.08 0.81

(95)

P(X

_t

= ?? | X

₀

= A)

• A linha A fornece P(X₂ = ?? | X₀ = A).

– A B C D – A 0.69 0.10 0.04 0.18 – B 0.02 0.89 0.03 0.06 – C 0.02 0.48 0.43 0.07 – D 0.04 0.07 0.08 0.81 • A linha B fornece P(X₂ = ?? | X₀ = B) • Veja que P(X₂ = A | X₀ = B) = 0.02

• E que P(X₂ = A | X₀ = A) = 0.69, bem diferente • Isto e’ bem razoável, certo?

(96)

P(X

_t

= ?? | X

₀

= A) quando t  

• O que acontece quando fazemos t  ? • Vamos tomar t=10. Temos

• 0.20 0.37 0.08 0.35 • 0.05 0.69 0.07 0.19 • 0.05 0.67 0.08 0.20 • 0.08 0.38 0.10 0.45

• Veja que P(X₁₀=A|X₀=A)=0.20 e que P(X₁₀=A|X₀=B)=0.05.

(97)

P(X

_t

= ?? | X

₀

= A) quando t  

• Quando t=20, temos A B C D • A 0.09 0.51 0.08 0.31 • B 0.07 0.61 0.07 0.25 • C 0.07 0.61 0.07 0.25 • D 0.08 0.52 0.08 0.32

• Matriz bem diferente da anterior e ... convergindo para que??

(98)

P(X

_t

= ?? | X

₀

= A) quando t  

• Se t = 30 temos • 0.07 0.56 0.08 0.29 • 0.07 0.59 0.08 0.27 • 0.07 0.59 0.08 0.27 • 0.07 0.56 0.08 0.29

(99)

P(X

_t

= ?? | X

₀

= A) quando t  

• Se t=100 temos • 0.07 0.58 0.08 0.27 • 0.07 0.58 0.08 0.27 • 0.07 0.58 0.08 0.27 • 0.07 0.58 0.08 0.27

• As linhas da matriz P100 _{são idênticas (ate’ 2}

casas decimais)

(100)

P(X

_t

= ?? | X

₀

= A) quando t  

• Suponha que as linhas da matriz Pt _sejam

praticamente idênticas • O que isto significa?

• Significa que

• P(X_t = A | X₀ = A) = P(X_t = A | X₀ = B) = P(X_t = A | X₀ = C) = P(X_t = A | X₀ = D) • Isto e’, a chance de estar em A no tempo t e’ a

mesma, NAO IMPORTA DE ONDE PARTIU. • Do mesmo modo,

(101)

P

t

quando t  

• Sob certas condições, temos que Pt _converge

para uma matriz em que as linhas são idênticas (e são  0 e somam 1).

• E daí?

(102)

Notação

• Seja ₀(i) = P( X₀ = i )

• Defina o vetor-linha 1 x N • ₀ = (₀(1), ₀(2), ..., ₀(N))

• Defina também _n(i) = P( X_n = i ) e o vetor 1xN • _n = (_n(1), _n(2), ..., _n(N))

(103)

Se P

n

convergir...

• Se Pn _{convergir para matriz com todas as}

linhas idênticas...

• Idênticas e iguais ao vetor linha  • Três usos para o símbolo :

– ₀ _n e 

• Teremos _n = ₀ . Pn  

(104)

Mais uma vez...

• Temos _n = ₀ . Pn Ou seja                   x P x x x P x x x P x x N N i Ni i i n n n        2 1 0 0(1), , ( ) ) ( , ), ( ), 1 (      ) ( ) ( ) ( ) , ( ) ( ) ( 1 1 0 1 ) ( constante 0 j P j i i j i i N j N j i n n             _ _



     

(105)

Outra maneira de ver as coisas

• Para n grande, esperamos que

• _n  _n+1  _n+2  _n+3 etc.. Todas convergindo para CERTA distribuição 

• Isto e’, a partir de certo n, a distribuição de X_n fica como que “estacionada” numa certa

distribuição de probabilidade fixa .

(106)

Se existir ...

• Se existir uma distribuição limite  para _n, qual propriedade ela deve satisfazer?

• Se existir um limite, teremos _n  _n+1   a partir de certo n,

• SEMPRE temos _n+1 = _n . P numa cadeia de Markov

(107)

Se existir ...

• Se _n  _n+1   e como _n+1 = _n . P

• Então devemos ter   _n+1 = _n . P   . P • Isto vai aparecer na DEFINICAO de uma

(108)

Distribuição estacionaria

•  e’ chamada distribuição estacionaria (ou invariante) de uma cadeia de Markov com matriz de transição P se  =  . P

• Note que a distribuição inicial ₀ não tem nenhum papel nesta definição.

(109)

Distribuição estacionaria

• Dist estacionaria (ou invariante), def:  =  . P • A cadeia fica estacionada em  se ela começar

com 

• Suponha que ₀ =  estacionaria

– Como _n+1 = _n . P – então

– ₁= ₀ . P =  . P = 

– Do mesmo modo, ₂= ₁ . P =  . P =  , etc... – e portanto _n =  para todo n

(110)

Vamos juntar as partes

• matriz de transição P

• Se Pn  matriz com todas linhas iguais a 

então _n = ₀ . Pn  

•  e’ a distribuição limite de P

• Como achar  ? Podemos usar Pn

aproximadamente

(111)

(112)

(113)

Exemplo

• Espaço de estados = {1, 2, ..., 10} • Checar:  = (0, ...., 0, ½, ½ ) [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 0.5 0.5 [2,] 0.5 0.5 [3,] 0.5 0.5 [4,] 0.5 0.5 [5,] 0.5 0.5 [6,] 0.5 0.5 [7,] 0.5 0.5 [8,] 0.5 0.5 [9,] 0.5 0.5 [10,] 0.5 0.5

(114)

Trajetórias

Não importa de onde partimos no espaço de estados.

Seja X₀=1 ou X₀=5, quando o tempo passa, X_t vai estar seguindo aprox. a dist invariante em que apenas os estados 9 e 10 tem probabs iguais a ½

(115)

Distribuição limite e estacionária

• Nem toda solução de •  =  . P

• vai ser a distribuição limite da cadeia P

• A limiting distribution, when it exists, is always a stationary distribution.

• But the converse is not true. There may exist a stationary distribution but no limiting

(116)

Exemplos de dist estacionarias

• P = identidade  qualquer  e’ estacionaria (e portanto não podem ser todas elas a distrib

limite)

• P = identidade “invertida” = [0 1; 1 0]  =(½,½) distr estac e’única mas não e’ distrib limite

(117)

The fundamental limit theorem for MC

Irredutível: para qualquer par de estados e’ possível sair de i e chegar a j. Isto e’, P(X_n = j para algum n| X₀ = i) e’ MAIOR que zero para todo (i,j) Periódica: Espaço de estados particionado em 2 conjuntos A e B.

Nos tempos pares está no conjunto A e nos tempos impares esta no conjunto B. Exemplo: passeio aleatório num grafo regular.

(118)

From stackexchange

• Putting notation aside, the word "stationary" means "once you get there, you will stay

there"; while the word "limiting" implies "you will eventually get there if you go far enough". Just thought this might be helpful.

(119)

Mais uma definição

• Suponha que temos um candidato  para a distribuição limite de uma cadeia irredutível e aperiódica.

• Como checar? Verificando se  =  . P

• Outra maneira, mais simples: checando a condição de balanço detalhado (DB)

• Não precisa fazer a conta .P

• Em espaços de estados contínuos, esta conta é uma integral complicada ( e não uma simples multiplicação de matrizes).

(120)

A ideia de usar DB

• Uma cadeia irredutível e aperiódica com matriz de transição P.

• Temos uma distribuição 

• Verifique se a condição DB é satisfeita. • Se sim, então  é a única distribuição

estacionária de P e é também a única distribuição limite da cadeia

(121)

DB no MCMC

• Em MCMC, o uso do DB é mais importante ainda. • Temos uma distribuição  = posteriori

• Queremos que esta distribuição seja a distribuição limite de uma cadeia de Markov.

• Temos de propor uma matriz de transição P tal que isto oorra.

• Como fazer isto?

– Criamos uma P que seja aperiódica e irredutível

– Checamos se a condição DB é válida com esta P e a  desejada: isto não é muito complicado.

– Se sim, então  será a única distribuição estacionária e distribuição limite dessa cadeia.

• Vamos provar que as transições do Gibbs sampler e do Metropolis-Hastings satisfazem DB.

(122)

Balanço global

• Dada uma matriz de transição P, uma

distribuição  e’ estacionaria para P se  = P • Isto e’, (j) = _i(i) * P(i, j) (**)

• Balanço global:

– Como (j) = (j) * _i P(j, i) = _i (j) *P(j, i) então a equação (**) acima implica em

– _i (j) *P(j, i) = _i(i) * P(i, j)

•  = P e’ o mesmo que balanço global.

(123)

Global balance (GB)

• Balanço global: _i (j) *P(j, i) = _i(i) * P(i, j) • Lado esquerdo: fluxo total saindo de j

• Lado direito: fluxo total entrando em j • j i=1 i=2 i=N ... j i=1 i=2

(124)

GB e DB

• GB é equivalente à condição  =  . P

• Checar GB implica fazer somas (ou integrais) • A condição DB é mais simples: é baseada em

(125)

Balanço detalhado

Simule MUITAS vezes a cadeia desde o instante inicial até o tempo t=1.

O lado direito mostra a proporção dessas trajetórias que tiveram X₀ = i e X₁=j Isto e’ chamado o FLUXO de i para j

(126)

Balanço detalhado

• (j) *P(j, i) = (i) * P(i, j) para TODO PAR (i,j)

j

i

j

Simule a cadeia MUITAS vezes.

O lado direito mostra a proporção dessas trajetórias que tiveram X₀ = j e X₁=i Isto e’ chamado o FLUXO de j para i

(127)

Intuição from Quora (William Chen)

• DB = There is a perfect balance of trade

• Think of the nodes of the Markov Chain being countries.

• Think of a link from country A to B as country A exporting goods and services to country B.

• (i) is the amount of wealth that country i owns

• P(i, j) is the percentage of that wealth that the country i exports to country j. • (i) * P(i, j) is hence the amount of wealth exported from country i to country j. • Thus if (i) * P(i, j) = (j) *P(j, i) for all i,j then exports equals imports between all

countries.

• There is neither trade deficit nor trade surplus - there is a perfect balance of trade.

(128)

Intuição from Quora (William Chen)

• If there's a perfect balance of trade, you can reverse the direction of trade and and nothing has changed in terms of the value of things traded. We say that this Markov Chain is reversible.

• This also leads nicely to an intuitive explanation of why if a Markov

transition P satisfies DB under a distribution , then  is stationary for P. • Definition of stationarity:  =  . P

• If a Markov chain starts in a stationary distribution, then it stays in a stationary distribution in the next step. ₁ = ₀ . P = ₀

• If there's a perfect balance of trade for a certain wealth distribution  and matrix P, then after a round of trades each country will still have the same amount of wealth. Thus  is stationary.

• (I'd like to credit Professor Sam Kou of the Harvard Stats department for inspiring this explanation!)

(129)

DB

• A condição DB exige dois elementos:

– Uma distribuição 

– Uma matriz de transição P

• Ela checa uma condição que envolve os dois elementos:

• Cadeia irredutível e aperiódica. Se DB for válida então  é a ÚNICA distribuição

(130)

(131)

(132)

Importância de DB

• Nos modelos de análise bayesiana, temos posteriori 

• Queremos cadeia que convirga para 

• Como construir uma cadeia? Vimos duas respostas:

– Gibbs sampler

– Metropolis-Hastings

(133)

MCMC

• Ideia geral:

 e’ dada (a distribuicao a posteriori). Inventamos a matriz de transição P. Como verificar se P=?

Isto e’, como verificar se P tem  como distribuição estacionaria?

Basta checar se balanço detalhado e’ valido. Se for  P= e’ verdade

(134)

(135)

(136)

(137)

(138)

(139)

Simulação Monte Carlo multivariada

• Problema difícil: simular de uma distribuição MULTIVARIADA.

• Quero simular um VETOR de n v.a.’s que não são independentes.

• Os valores das v.a.’s estao “amarrados” probabilisticamente.

• Não posso simular CADA componente do vetor ignorando as demais componentes.

(140)

Exemplo

• Por exemplo, algumas vezes, preciso simular da seguinte densidade de probabilidade

• Onde c₁, c₂, ..., c₁₀₀₀ são constantes conhecidas.

• Simulamos um vetor 2000-dim.





_          



   1000 1 ( ) 2 1000 1 1000 1 2 1 ) ( exp * ) , , , , , ( i j N i j i i i i i i e c cte p            

(141)

Passeio aleatório num grafo

• Imagine um grafo sobre os estados da cadeia • Coloque arestas “arbitrariamente”

• Se i e j estão ligados, i e’ vizinho de j • i não e’ vizinho de si mesmo

• Considere INICIALMENTE a matriz de transição do passeio aleatório no grafo

(142)

Dist. estacionaria do passeio aleatório

• Seja d(i) o grau do no ou vértice i.

• Para esta matriz P, podemos mostrar que

• ou

• e’ distribuição estacionaria. • PROVA: no quadro...

(143)

(144)

(145)

(146)

(147)

(148)

Metropolis: prova

(149)

(150)

Detalhes sobre irredutibilidade e

periodicidade

(151)

(152)

(153)

(154)

(155)

Irredutível

• Notação: P_i significa que a cadeia começou com X₀=i

(156)

Irredutível e classes

• O espaço de estados S pode ser particionado em classes comunicantes.

• Cadeia e’ irredutível se existir apenas uma classe comunicante.

• A intenção e’ eliminar de S a possibilidade de haver estados absorventes

• Se existirem estados absorventes, qual seria a distribuição estacionaria da cadeia?

(157)

Ruína do jogador

• Jogo de “moeda” com probab sucesso = p • Fracasso com probab 1-p

• Se sucesso ganha 1 real. Se fracasso, perde 1 real

• Jogador 1 começa com M₁ reais e jogador 2 com M₂ reais

• Seja X_t o GANHO realizado no jogo por 1 • X₀ = 0.

(158)

Ruína do jogador

• Seja X_t o GANHO realizado no jogo por 1 • Se X_t = -M₁ entao X_t+k= -M₁ para todo k > 0 • Se X_t = M₂ entao X_t+k= M₂ para todo k > 0 • Suponha que i  -M₁ e que i  M₂

• P(X_t+1 = i+1 | X_t = i) = p • P(X_t+1 = i-1 | X_t = i) = 1-p

• Em algum momento, cadeia bate em –M₁ ou em M₂ e e’ “absorvida” para sempre

(159)

(160)

Definition

• Exemplo:

• P(i,i) =0 P2_{(i,i) = 0 ... P}7_{(i,i) = 0}

• MAS P8_{(i,i) > 0 P}9_{(i,i) = 0 P}10_{(i,i) = 0 P}11_{(i,i) > 0 ....}

• Então d_i = gcd{ 8, 11, ....(o que quer que apareça aqui) } = 1 • Se P(i,i) > 0 então d_i = 1

(161)

Definition

• Exemplo de quando d_i > 1

• P(i,i) =0 P2_{(i,i) > 0 P}3_{(i,i) = 0 P}4_{(i,i) > 0 P}5_{(i,i) = 0 P}6_{(i,i) > 0 ....}

• Isto e’, se n e’ par Pn_{(i,i) > 0 mas se n e’ impar esta probab = 0}

• Então d_i = gcd{ 2, 4, 6, ... } = 2

(162)

(163)

(164)

(165)

(166)

Cadeia reversível

• Realização parcial de uma cadeia:

– X₀ = i_o X₁=i₁ X₂=i₂ X₃=i₃

• Esta trajetória arbitraria tem certa probabilidade de ocorrer

• Considere a chance do caminho reverso:

• X₀ = i₃ X₁=i₂ X₂=i₁ X₃=i₀

• Se a chance de ocorrência de todo caminho

reverso e’ igual ao caminho original, a cadeia e’ reversível

(167)

Mais formalmente

• Vamos olhar 3 primeiros momentos da cadeia. • Tome uma trajetória arbitraria i₀, i₁, i₂, i₃

• Temos um valor para P(X₀ = i_o ,X₁=i₁, X₂=i₂ ,X₃=i₃) • Temos outro valor para P(X₀ = i₃, X₁=i₂, X₂=i₁, X₃=i₀)

• Queremos P(X₀ = i_o ,X₁=i₁, X₂=i₂ ,X₃=i₃) = P(X₀ = i₃, X₁=i₂, X₂=i₁, X₃=i₀)

(168)

Mais formalmente

• P(X₀ = i_o ,X₁=i₁, X₂=i₂ ,X₃=i₃) =P(X₀ = i₃, X₁=i₂, X₂=i₁, X₃=i₀) para TODA trajetória especifica i₀, i₁, i₂, i₃

• Generalizamos isto para qualquer numero de variáveis.

(169)

Reversível  estacionaria

• Veja que reversível depende da distribuição inicial ₀ • Definição de dist estacionária não depende da dist

inicial

• Mas existe amarração:

• Se {X_n} é reversível  ₁ = ₀

• Prova: Seja ₀(i) = P(X₀=i). Vamos obter

• ₁(i) = P(X₁=i) = ∑_jP(X₀=j, X₁=i)= ∑_jP(X₀=i, X₁=j)= =P(X₀=i) = ₀(i)

(170)

Reversível  estacionaria

• Como

• _n+1 = _n . P

• Obtemos ₀ = ₀ . P

• E ₀ é distribuição estacionária.

• Assim, uma cadeia reversível é também uma CADEIA estacionária (e desde o início está

(171)

(172)

Reversível  ...

(173)

Estacionaria  reversível

• Dada uma matriz de transição P, uma distribuição  e’ estacionaria para P se  = P

• Se cadeia começa com , ela fica em : processo estacionário.

• Toda cadeia estacionária satisfaz balanço global • Reversível pede algo mais:

– (j) *P(j, i) = (i) * P(i, j) para todo PAR (i,j)