• Nenhum resultado encontrado

Markov chain e MCMC. Renato Assunção DCC, UFMG

N/A
N/A
Protected

Academic year: 2021

Share "Markov chain e MCMC. Renato Assunção DCC, UFMG"

Copied!
151
0
0

Texto

(1)

Markov chain e MCMC

(2)

Objetivo da aula

• Fornecer um introdução INFORMAL a

processos estocásticos e cadeias de Markov • Fornecer os elementos para entender porque

os algoritmos de MCMC funcionam

• Apenas o mínimo necessário de cadeias de

(3)

Processos estocásticos

• Set of random variables X0 X1 X2 ...

(4)

Muitos tipos diferentes de processos

• O conjunto de tempos de Xt e’ o espaço-índice

• Xt pode se desenvolver:

– de forma contínua no tempo – Tempos discretos: t = 0, 1, 2, ...

• Só nos interessa o segundo caso.

• Os valores que Xt pode assumir:

– Forma o espaço de estados do processo – Pode ser discreto ou contínuo

(5)

Os dois tipos de espaços de estado

• Discreto Contínuo

Espaço de estados: {0, 1, 2, 3}

(6)

Espaço de estados S

• A cadeia de Markov tem tempos equi-espaçados: t=1, 2, 3, ....

• Xt e’ o valor do processo no tempo t

• Xt e’ variável aleatória

• Os valores que Xt pode assumir são chamados

de estados da cadeia

• Espaço de estados: conjunto de todos os

(7)

Processo estocástico e instancia

• Um processo estocástico e’ um mecanismo aleatório de geração de curvas no tempo. Diferenciar:

– uma única instancia do processo – Varias instancias independentes

(8)

Processo estocástico

• E’ uma COLECAO de variáveis aleatórias indexadas no tempo.

• X0 X1 X2 X3 ...  cada uma delas e’ uma

variável aleatória

• Assim, para cada Xt existe:

– E(Xt) = g(t) = o valor em torno do qual, NO TEMPO t, as instancias oscilam

– No tempo t, o valor E(Xt)=g(t) e’ o valor em torno do qual oscilam as diferentes curvas aleatórias que podem ser geradas pelo processo

(9)

E(X

t

)=g(t) = curva vermelha

(10)

Processo estocástico

• X0 X1 X2 X3 ...  cada uma delas e’ uma

variável aleatória

• E(Xt) = g(t)

• Cada Xt tem uma distribuição de probabilidade

• Por exemplo, para cada Xt temos também:

(11)

Processo estocástico

• Figura descreve um processo (mecanismo de geração de curvas aleatórias)

• Densidade de Xt mostra que:

– Linha vermelha = g(t) = E(Xt)  tendência de crescer Xt no tempo

(12)
(13)

Processos Estacionários

• Não existe teoria possível (ou bons resultados) se o processo puder ser “qualquer coisa”.

• Precisamos sempre impor algumas condições

ou restrições e verificar as consequências.

• Uma restrição: Processos que fiquem “estáveis” ao longo do tempo.

• Varias definições possíveis de “estabilidade” • A mais conhecida e’ a de processos

(14)

Processos estacionários

• Processos estáveis em torno de um valor fixo:

– E(Xt) = g(t) =  = constante, não varia no tempo

• Assim, eliminamos processos com instancias

(15)
(16)

Não basta olhar E(X

t

) = g(t)

• Queremos também Var(Xt) constante em t

(17)
(18)

Processos estacionários

• Definição vai alem de pedir que E(Xt) e Var(Xt)

sejam constantes.

• Queremos que a DISTRIBUICAO CONJUNTA de qualquer coleção finita Xt1 , Xt2, ..., Xtk seja a mesma se deslocarmos os tempos por

constante s

• Isto e’, seja a mesma distribuição que a

(19)

Por exemplo,

(20)

Isto e’,

• Qualquer que seja a posição temporal

“janela” pela qual vemos um subconjunto de variáveis,

• o comportamento estatístico das instancias será o mesmo

• Ele esta’ “estacionário”

(21)

Processo estacionário

• A stationary process is a stochastic process whose joint probability

distribution does not change when shifted in

time.

• Consequently, parameters such as

the mean and variance also do not change over time and do not follow any trends.

• Also called strict(ly) or strong(ly) stationary

(22)

Em termos matemáticos

• X0 X1 X2 ... processo estocástico

• Considere subconjunto finito e arbitrário das v.a.’s Xt1, Xt2, .., Xtk

• Sua distribuição conjunta e’ dada pela densidade f(xt1, xt2, ..., xtk)

• Para todo  > 0, a densidade das Xt1+, Xt2+ , .., Xtk+ e’ igual ‘a das v.a.’s Xt1, Xt2, .., Xtk

(23)

Sempre estacionário

• Observe que, por esta definição, um processo não “vai ficando estacionário”

• Ser estacionário e’ uma propriedade do processo para todo tempo

• Propriedade e’ válida ao longo de todo o processo.

(24)

Na prática...

• Na prática, vários processos possuem um período inicial transiente.

• Depois deste período (de burn-in), os

processos estabilizam-se

• Isto não se encaixa na definição de processo (estritamente) estacionário

• Precisamos de uma definição mais flexível de “estabilidade” para incorporar estes processos

(25)

Cadeias de Markov

• ANTES de dar esta definição alternativa de “estabilidade”, vamos estudar as cadeias de Markov.

• Este e’ o tipo particular de processo estocástico mais importante, com o maior numero de

aplicacoes, 2.5 milhões de webpages pelo google. • Cadeias de Markov podem ser:

– processos (estritamente) estacionários

– Ou não-estacionários mas convergindo pra

(26)

Cadeias de Markov

• Como Xt evolui?

• Se as variáveis são independentes, então Xt

não depende de nenhuma outra variável.

• Não precisamos conhecer nada da sequencia

para predizer Xt

• Mas o caso interessante e’ quando elas são DEPENDENTES.

(27)

Caso independente e dependente

Variáveis tem a mesma esperança (0) e variância (1) nos dois gráficos. O que muda e’ que, no gráfico da direita, os valores são dependentes.

(28)

Caso dependente

Positivamente dependentes.

Quando Xt > > 0 , o valor seguinte Xt+1 >> 0

(29)

Caso INdependente

Variáveis sucessivas Independentes.

Quando Xt > > 0 , o valor seguinte Xt+1 pode ser > 0 ou < 0 com igual chance

(30)

Dependência negativa

• Podemos ter media = 0 e variância constante

• Mas valores sucessivos oscilando alternadamente em torno da media.

(31)

Como modelar a dependência?

• Como descrever a dependência? • A dependência e’ ESTOCASTICA:

– Dependendo do passado da serie, a variável Xt terá uma TENDENCIA de assumir certos valores.

• Temos de dizer qual a distribuição de

probabilidade de Xt sabendo-se o passado da

serie ate t-1

(32)

X

11

= ??

• Considere 3 instancias em que X10 tem o mesmo

valor.

• Qual a melhor predição para o próximo valor X11?

(33)

Modelo (ou algoritmo)

• Precisamos de um modelo que diga como gerar

X11 tendo em vista TODO o passado da serie.

• Se cada variável tem apenas 2 valores possíveis,

0 ou 1, temos 210 possíveis trajetórias

• Precisamos especificar

– P(X11 = 1 | uma trajetória)

• para cada uma das 210 trajetórias possíveis.

(34)

Hipótese

• Passado longínquo não afeta a distribuição de Xt dado o passado mais recente.

• Se soubermos os valores mais recentes da serie podemos ignorar o passado mais distante.

• Qualquer efeito que o passado mais distante

possa ter em Xt, este efeito está condensado no passado mais recente.

• Isto e’ uma HIPOTESE que pode ou não ser válida em cada aplicação particular.

(35)

Markov

• Caso extremo: “apenas a ULTIMA variável afeta as próximas”

• Menos informal:

f(xt+1 | xt , xt-1 , xt-2 , ...) = f(xt+1 | xt)

• DADO O PRESENTE Xt, o passado (Xt-1, Xt-2, ..)

e’ irrelevante para prever o futuro (Xt+1)

• Outra maneira equiv: Xt+1 e’ indep de Xt-1, Xt-2,

(36)

Exemplos

• Cinco posições possíveis para uma partícula (eixo vertical).

• Xt = posição da partícula no instante de tempo t

• Partícula movimenta-se ao acaso.

(37)

O labirinto

• Camundongo vive na caixa abaixo.

• Monitora-se o cômodo em que ele esta em intervalos regulares.

• Ele escolhe uma porta ao acaso quando decide sair de um cômodo.

(38)

Um modelo populacional simples

• População dividida em dois grupos A e B de

tamanhos nA e nB

• Em cada instante, selecione um individuo da população ao acaso e adicione um do mesmo tipo.

• Selecione um individuo ao acaso e elimine-o.

• Seja Xt a proporção de indivíduos do tipo A no

(39)

Um modelo epidêmico simples

• Uma grade regular quadrada: pontos (i,j) • Apenas origem (0,0) infectada em t=0.

• Em cada instante, cada um dos sites

infectados podem infectar os seus vizinhos sadios independentemente e com

probabilidade 

• Seja Xt o diâmetro do grafo conectando os

(40)

Web como um grafo

Web e’ um grande grafo direcionado: nós são as páginas e arestas são os links. (inlinks e outlinks)

(41)

Google e page rank

• Passeio aleatório num grafo. • Por exemplo, grafo da Web

• Xt e’ a pagina no instante de tempo t. • Em t=0, escolha um página ao acaso.

• Usuário escolhe um dos outlinks da pagina em que esta’ no instante t

• Escolhe outlink com igual probabilidade e independentemente de sua historia anterior.

• Em t+1, salta para a nova pagina apontada pelo outlink. • Repete indefinidamente.

(42)

Texto como uma sequencia

• Um texto pode ser visto como um processo estocástico.

• Acrescente espaço e símbolos especiais de

pontuação (?!., etc)

• Cada caracter e’ classificado como vogal, consoante ou símbolo especial.

• Xt e’ a classe do caracter t

• Podemos tambem classificar PALAVRAS:

(43)

Modelo AR1

• AR1: AutoRegressivo de ordem 1 • Variáveis Y1, Y2, ... são gaussianas • São também markovianas

• (Yt | passado) = (Yt | Yt-1, Yt-2, ...) = = (Yt | Yt-1)

(44)

Modelo AR1

• Y0 ~ 0(y) (distribuição inicial arbitraria) • (Y1 | Y0 = y) = y + (ruído 1 ) • (Y2 | Y1 = y) = y + (ruído 2 ) • Etc. • Em geral, (Yt | Yt-1 = y) = y + t • Os 1, 2, ... são iid N(0, 2e) • Implica que (Yt | Yt-1 = y) ~ N(y , 2e)

(45)

Modelo AR1

• Y0 ~ 0(y) • (Yt | Yt-1 = y) = y + t com 1, 2, ...iid N(0, 2 e) •  (Yt | Yt-1 = y) ~ N(y , 2 e)

• E qual a distribuição não-condicional de Yt?

• Temos (Yt | Yt-1 = y) ~ ...

(46)

Modelo AR1

• Repetindo: Y0 ~ 0(y) • (Yt | Yt-1 = y) = y + t com 1, 2, ...iid N(0, 2 e) •  (Yt | Yt-1 = y) ~ N(y , 2 e)

• Para t grande temos Yt gaussiano

• Com || < 1 e t grande, temos

– Yt ~ N(0, 2

e / (1 - 2))

(47)

Modelo AR1

• Repetindo: Y0 ~ 0(y) • (Yt | Yt-1 = y) = y + t com 1, 2, ...iid N(0, 2 e) •  (Yt | Yt-1 = y) ~ N(y , 2 e) • Yt e‘ gaussiano • Com || < 1  Yt ~ N(0, 2e / (1 - 2))

(48)

Modelo AR1

• (Yt | Yt-1 = y) ~ N(y , 2 e) • Yt ~ N(0, 2 e / (1 - 2)) • Estrutura de dependência: – Cor(Yt , Yt-1) =  – Cor(Yt , Yt-2) = 2 – ... – Cor(Yt , Yt-k) = k

(49)

=0.0

=0.9

=0.8

(50)

=0.0 =0.5

=0.8 =0.9

(51)

Outras instancias

=0.0 =0.5

(52)

=0.0 =0.5

=0.8 =0.9

(53)

Mais instancias

=0.0 =0.5

(54)

=0.0 =0.5

=0.8 =0.9

(55)

Especificando Cadeia de Markov

• Para especificar uma cadeia de Markov e ser

capaz de gerar instancias, precisamos de 2 coisas:

1. A distribuição do estado inicial: Y0 ~ 0(y). Esta

distribuição diz como o estado inicial e’ selecionado. Exemplos

• P(Y0 = 5) = 1 (com certeza, inicia no estado 5)

• P(Y0 = 0) = ½ = P(Y0 = 1) (joga moeda honesta para escolher entre 0 e 1)

• Y0 ~ N(0,1) (escolhe uma gaussiana padrão para comecar)

2. A maneira como se faz a transição de um instante

para o outro. Dado que Xt-1 = x, qual o algoritmo

(56)
(57)
(58)
(59)
(60)
(61)
(62)
(63)
(64)
(65)
(66)
(67)

Espaço de estados finito

• Se o espaço de estados e’ finito com N

elementos, usamos a matriz de transição NxN • Neste caso, ***TODOS*** os cálculos de

probabilidade se reduzem apenas a manipulações de matrizes.

(68)
(69)
(70)
(71)
(72)
(73)
(74)

Resumo

• n e’ a distribuição de Xn (X no tempo n)

• Se a cadeia for estacionaria, n não deveria

depender de n

• n deveria ter uma media, variancia etc que

não variasse com o tempo n

• Mas a cadeia deve ser estacionaria desde o tempo n=0?

(75)

Resumo

• Veremos daqui a pouco que, se existir uma distribuição estacionaria, ela e’ determinada

apenas pela matriz de transição (e não por 0(y)) • O valor inicial e’ escolhido pela distribuição 0(y),

que não tem relação com a matriz de transição • Se X0 for selecionado de uma distribuição muito

estranha, vai levar um certo tempo (burn-in) para alcançar a distribuição estacionaria.

(76)

Exemplo

• X0 ~ Unif(-50, 50)

• Xt = 0.8 * Xt-1 + N(0, 1)

• Estacionaria e’ Xt ~ N(0, 1/(1-0.64)) = N(0, 2.8)

(77)

Efeito do valor inicial

• Eventualmente, a cadeia converge e passa a gerar valores de N(0, 2.8)  em geral, entre +- 3.33

• Existem valores iniciais muito discrepantes com respeito ‘a distribuição N(0, 2.8)

• Por exemplo, X0 > 20 ou X0 < -20

• Por algum tempo, esses valores iniciais influenciam o inicio da serie.

(78)

Nova def de Estabilidade

• Precisamos de uma nova definição de estabilidade

• Uma propriedade assintótica (quando n  )

• Esta nova propriedade e’ obtida com a

definição de uma distribuição invariante ou distribuição estacionaria

(79)

The fundamental limit theorem for MC

• Migration example • 4 places

• Matrix with the probability of residents from i

who move to j at each year

• Start on initial configuration • What happens in the future?

• The system is random and each path is unique

(80)

Notação

• Seja 0(i) = P( X0 = i )

• Defina o vetor-linha 1 x N • 0 = (0(1), 0(2), ..., 0(N))

• Defina também n(i) = P( Xn = i ) e o vetor 1xN

• n = (n(1), n(2), ..., n(N))

(81)

An example: population migration

• Migration example: 4 places • Transition Matrix P

• Pij gives the probability of residents from i

moving to j in one year interval.

A B C D

A 0.83 0.05 0.02 0.10

B 0.01 0.94 0.02 0.03

C 0.01 0.30 0.65 0.04

(82)

Always on the move

• Start on initial configuration

• What will happen in the future? • For example:

– A  A  B  A  C  C  C  D  D  ...

• Or may be this path

– B  B  B  B  C  D  D  A  A  ...

• The system is random and the realizations can be very different from each other

(83)

P(X

t

= ?? | X

0

= A)

• Como calcular – P(Xt = A | X0 = A) – P(Xt = B | X0 = A) – P(Xt = C | X0 = A) – P(Xt = D | X0 = A)

(84)

P(X

t

= ?? | X

0

= A)

• Seja P a matriz de transição 4x4

• Tome P*P*P*...*P = Pt

– Por exemplo, P(X2 = ?? | X0 = A). – Calcule P*P = P2 – A B C D – A 0.69 0.10 0.04 0.18 – B 0.02 0.89 0.03 0.06 – C 0.02 0.48 0.43 0.07 – D 0.04 0.07 0.08 0.81

(85)

P(X

t

= ?? | X

0

= A)

• A linha A fornece P(X2 = ?? | X0 = A).

– A B C D – A 0.69 0.10 0.04 0.18 – B 0.02 0.89 0.03 0.06 – C 0.02 0.48 0.43 0.07 – D 0.04 0.07 0.08 0.81 • A linha B fornece P(X2 = ?? | X0 = B) • Veja que P(X2 = A | X0 = B) = 0.02

• E que P(X2 = A | X0 = A) = 0.69, bem diferente • Isto e’ bem razoável, certo?

(86)

P(X

t

= ?? | X

0

= A) quando t

 

• O que acontece quando fazemos t  ?

• Vamos tomar t=10. Temos

• 0.20 0.37 0.08 0.35

0.05 0.69 0.07 0.19

• 0.05 0.67 0.08 0.20

• 0.08 0.38 0.10 0.45

• Veja que P(X10=A|X0=A)=0.20 e que

P(X10=A|X0=B)=0.05.

(87)

P(X

t

= ?? | X

0

= A) quando t

 

• Quando t=20, temos A B C D • A 0.09 0.51 0.08 0.31 • B 0.07 0.61 0.07 0.25 • C 0.07 0.61 0.07 0.25 • D 0.08 0.52 0.08 0.32

• Matriz bem diferente da anterior e ... convergindo para que??

(88)

P(X

t

= ?? | X

0

= A) quando t

 

• Se t = 30 temos • 0.07 0.56 0.08 0.29 • 0.07 0.59 0.08 0.27 • 0.07 0.59 0.08 0.27 • 0.07 0.56 0.08 0.29

(89)

P(X

t

= ?? | X

0

= A) quando t

 

• Se t=100 temos • 0.07 0.58 0.08 0.27 • 0.07 0.58 0.08 0.27 • 0.07 0.58 0.08 0.27 • 0.07 0.58 0.08 0.27

• As linhas da matriz P100 são idênticas (ate’ 2

casas decimais)

(90)

P(X

t

= ?? | X

0

= A) quando t

 

• Suponha que as linhas da matriz Mt sejam

praticamente idênticas • O que isto significa?

• Significa que

• P(Xt = A | X0 = A) = P(Xt = A | X0 = B) = P(Xt = A | X0 = C) = P(Xt = A | X0 = D)

• Isto e’, a chance de estar em A no tempo t e’ a

mesma, NAO IMPORTA DE ONDE PARTIU.

• Do mesmo modo,

(91)

P

t

quando t

 

• Sob certas condições, temos que Pt converge

para uma matriz em que as linhas são

idênticas (e são  0 e somam 1).

• E daí?

(92)

Notação

• Seja 0(i) = P( X0 = i )

• Defina o vetor-linha 1 x N • 0 = (0(1), 0(2), ..., 0(N))

• Defina também n(i) = P( Xn = i ) e o vetor 1xN

• n = (n(1), n(2), ..., n(N))

(93)

Mas P

n

converge

• Se Pn convergir para matriz com todas as

linhas idênticas...

• Idênticas e iguais ao vetor linha 

• Três usos para o símbolo :

– 0n e 

• Teremos n = 0 . Pn  

(94)

Mais uma vez...

• Temos n = 0 . Pn Ou seja                   x P x x x P x x x P x x N N i Ni i i n n n        2 1 0 0(1), , ( ) ) ( , ), ( ), 1 (      ) ( ) ( ) ( ) , ( ) ( ) ( 1 1 0 1 ) ( constante 0 j P j i i j i i N j N j i n n            

     

(95)

The fundamental limit theorem for MC

Irredutível: para qualquer par de estados e’ possível sair de i e chegar a j. Isto e’, P(Xn = j para algum n| X0 = i) e’ MAIOR que zero para todo (i,j)

Periódica: Espaço de estados particionado em 2 conjuntos A e B.

Nos tempos pares esta no conjunto A e nos tempos impares esta no conjunto B. Exemplo: passeio aleatório num grafo regular.

(96)

•  is called a stationary distribution for the Markov chain

• Veja a diferenca entre:

– Processo (ou cadeia) estacionario

• Estacionário desde sempre

• Muito mais restritivo: exige propriedades de invariância das distribuições conjuntas entre subconjuntos de v.a.’s sendo deslocados no eixo do tempo.

– Distribuição estacionaria (ou invariante) da cadeia

• Estacionário no limite

• Diz respeito a distribuição apenas da v.a. Xn para n grande (e não sobre subconjuntos de v.a.’s vistas simultaneamente)

(97)

Outra maneira de ver as coisas

• Para n grande, esperamos que

• n  n+1  n+2  n+3 etc.. Todas convergindo

para CERTA distribuição 

• Isto e’, a partir de certo n, a distribuição de Xn

fica como que “estacionada” numa certa

distribuição de probabilidade fixa e denotada

(98)

Se existir

...

• Se existir uma distribuição limite  para n,

qual propriedade ela deve satisfazer?

• Se existir um limite, teremos n  n+1   a

partir de certo n,

• SEMPRE temos n+1 = n . P numa cadeia de

(99)

Se existir

...

• Se n  n+1   e como n+1 = n . P

• Então devemos ter   n+1 = n . P   . P

• Isto vai aparecer na DEFINICAO de uma distribuição estacionaria (a seguir)

(100)

•  is called a stationary distribution for the Markov chain

(101)

• Uma distribuição  com esta propriedade is called a stationary distribution for the Markov chain

(102)
(103)
(104)

Dist estacionária e’ única?

• Uma cadeia de Markov pode ter:

– Nenhuma distribuição estacionária – Uma única distribuição estacionária – Infinitas distribuições estacionárias

• Exemplos?

• Queremos entender quando existe uma única distribuição estacionária.

(105)
(106)

Cadeia reversível

• Realização parcial de uma cadeia:

– X0 = io X1=i1 X2=i2 X3=i3

• Esta trajetória arbitraria tem certa probabilidade de ocorrer

• Considere a chance do caminho reverso:

• X0 = i3 X1=i2 X2=i1 X3=i0

• Se a chance de ocorrência de todo caminho

reverso e’ igual ao caminho original, a cadeia e’

(107)

Mais formalmente

• Vamos olhar 3 primeiros momentos da cadeia. • Tome uma trajetória arbitraria i0, i1, i2, i3

• Temos um valor para P(X0 = io ,X1=i1, X2=i2 ,X3=i3) • Temos outro valor para P(X0 = i3, X1=i2, X2=i1, X3=i0)

• Queremos P(X0 = io ,X1=i1, X2=i2 ,X3=i3) = P(X0 = i3, X1=i2, X2=i1, X3=i0)

(108)

Mais formalmente

• P(X0 = io ,X1=i1, X2=i2 ,X3=i3) =P(X0 = i3, X1=i2, X2=i1, X3=i0) para TODA trajetória especifica i0, i1, i2, i3

• Generalizamos isto para qualquer numero de variáveis.

(109)
(110)

Balanço detalhado

Simule a cadeia MUITAS vezes.

O lado direito mostra a proporção dessas trajetórias que tiveram X0 = i e X1=j Isto e’ chamado o FLUXO de i para j

(111)
(112)
(113)

Reversível  ...

(114)

Balanço global

• Dada uma matriz de transição P, uma

distribuição  e’ estacionaria para P se  = P

• Isto e’, (j) = i (i) * P(i, j) • Balanço global:

– Como (j) = (j) * i P(j, i) = i (j) *P(j, i) então – i (j) *P(j, i) = i (i) * P(i, j)

(115)

Balanço global

• Balanço global: i (j) *P(j, i) = i (i) * P(i, j) • Lado direito: fluxo total saindo de j

• Lado esquerdo: fluxo total entrando em j • j i=1 i=2 i=N ... j i=1 i=2

(116)

Estacionaria

reversível

• Dada uma matriz de transição P, uma

distribuição  e’ estacionaria para P se  = P

• Se cadeia começa com , ela fica em :

processo estacionario.

• Toda cadeia estacionaria satisfaz balanço global

• Reversível pede algo mais:

– (j) *P(j, i) = (i) * P(i, j) para todo PAR (i,j)

(117)

Balanço detalhado

• (j) *P(j, i) = (i) * P(i, j) para todo PAR (i,j)

j

i

i

j

Simule a cadeia MUITAS vezes.

O lado direito mostra a proporção dessas trajetórias que tiveram X0 = j e X1=i Isto e’ chamado o FLUXO de j para i

(118)
(119)
(120)

MCMC

• Ideia geral:

e’ dada (a distribuicao a posteriori). Inventamos P. Como verificar se P=?

Isto e’, como verificar se P tem  como distribuição estacionaria?

(121)
(122)
(123)
(124)
(125)

Simulação Monte Carlo multivariada

• Problema difícil: simular de uma distribuição MULTIVARIADA.

• Quero simular um VETOR de n v.a.’s que não são independentes.

• Os valores das v.a.’s estao “amarrados” probabilisticamente.

• Não posso simular CADA componente do

(126)

Exemplo

• Por exemplo, algumas vezes, preciso simular da seguinte densidade de probabilidade

• Onde c1, c2, ..., c1000 são constantes conhecidas.

• Simulamos um vetor 2000-dim.

          

   1000 1 ( ) 2 1000 1 1000 1 2 1 ) ( exp * ) , , , , , ( i j N i j i i i i i i e c cte p            

(127)

Passeio aleatório num grafo

• Imagine um grafo sobre os estados da cadeia • Coloque arestas “arbitrariamente”

• Se i e j estão ligados, i e’ vizinho de j • i não e’ vizinho de si mesmo

• Considere INICIALMENTE a matriz de transição do passeio aleatório no grafo

(128)

Dist. estacionaria do passeio aleatório

• Seja d(i) o grau do no ou vértice i.

• Para esta matriz P, podemos mostrar que

ou

• e’ distribuição estacionaria. • PROVA: no quadro...

(129)
(130)
(131)
(132)
(133)
(134)

Metropolis: prova

(135)
(136)

Detalhes sobre irredutibilidade e

periodicidade

(137)
(138)
(139)
(140)
(141)

Irredutível

• Notação: Pi significa que a cadeia começou

(142)

Irredutível e classes

• O espaço de estados S pode ser particionado em classes comunicantes.

• Cadeia e’ irredutível se existir apenas uma classe comunicante.

• A intenção e’ eliminar de S a possibilidade de haver estados absorventes

• Se existirem estados absorventes, qual seria a

(143)

Ruína do jogador

• Jogo de “moeda” com probab sucesso = p • Fracasso com probab 1-p

• Se sucesso ganha 1 real. Se fracasso, perde 1 real

• Jogador 1 começa com M1 reais e jogador 2

com M2 reais

• Seja Xt o GANHO realizado no jogo por 1

(144)

Ruína do jogador

• Seja Xt o GANHO realizado no jogo por 1

• Se Xt = -M1 entao Xt+k = -M1 para todo k > 0 • Se Xt = M2 entao Xt+k = M2 para todo k > 0

• Suponha que i  -M1 e que i  M2

• P(Xt+1 = i+1 | Xt = i) = p • P(Xt+1 = i-1 | Xt = i) = 1-p

• Em algum momento, cadeia bate em –M1 ou

(145)
(146)

Definition

• Exemplo:

• P(i,i) =0 P2(i,i) = 0 ... P7(i,i) = 0

• MAS P8(i,i) > 0 P9(i,i) = 0 P10(i,i) = 0 P11(i,i) > 0 ....

• Então di = gcd{ 8, 11, ....(o que quer que apareça aqui) } = 1 • Se P(i,i) > 0 então di = 1

(147)

Definition

• Exemplo de quando di > 1

• P(i,i) =0 P2(i,i) > 0 P3(i,i) = 0 P4(i,i) > 0 P5(i,i) = 0 P6(i,i) > 0 ....

• Isto e’, se n e’ par Pn(i,i) > 0 mas se n e’ impar esta probab = 0

• Então di = gcd{ 2, 4, 6, ... } = 2

(148)
(149)
(150)
(151)

Referências

Documentos relacionados

Procomex – Programa de incentivo ao comércio exterior, com a finalidade de estimular as exportações de produtos fabricados no Estado da Bahia e o financiamento

Testes com os inseticidas pirimifós metílico e cipermetrina aplicados em combinação com os sinergistas na população de São José do Rio Preto-SP, mostraram que no tratamento

A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se baseia no fato de que uma

1 — Os apoios são concedidos pela Câmara Municipal da Guarda às IPSS legalmente cons- tituídas de acordo com o estipulado no n.º 3, do artigo 2.º do presente Regulamento... 2 —

Os resultados indicaram sentimentos de embaraço e desconforto dos enfermeiros ao trabalhar com pessoas que têm problemas com a bebida, em que 70% dos sujeitos indicaram que

• Taxa de sobrevivência de 97,2% após cinco anos, seguindo um protocolo de carga final em duas semanas 12.. • Taxa de sobrevivência de 100% após quatro anos, seguindo um

Este medicamento é contra-indicado para uso por crianças com história de evento adverso grave, como paralisia flácida aguda, associada à vacina, após dose anterior de vacina

Em Loriga pode desfrutar de inúmeras paisagens e organizar passeios e visitas a vários locais que têm um forte interesse turístico, como, avista dos Mirantes, que contempla