T´ ecnicas computacionais em probabilidade e estat´ıstica II
M´arcia D’Elia Branco
Universidade de S˜ao Paulo Instituto de Matem´atica e Estat´ıstica
http:www.ime.usp.br/ mbranco
AULA 8: M´etodos de Monte Carlo baseados em Cadeias de Markov: Diagn´ostico.
Melhorando o desempenho dos algoritmos MCCM
1. Constru¸c˜ao e uso da amostra MCCM
Construir ncadeia paralelas e ap´os m itera¸c˜oes, supondo obtido o equil´ıbrio, compor uma amostra independente de tamanhon. Processo pouco eficiente, pois n×mvalores s˜ao descartados.
Considerar uma ´unica cadeia e ap´os mitera¸c˜oes, compor a amostra com os pr´oximosn valores. A amostra n˜ao ´e
independente. Se as autocorrela¸c˜oes s˜ao muito altas pode ser necess´ario uma amostra muito grande para percorrer todo espa¸co param´etrico.
Uma alternativa ´e considerar saltos de comprimentok, ap´os m itera¸c˜oes, para compor uma amostra aproximadamente independente. Neste caso, precisamos simular m+knvalores.
Uso de um pequeno numero de cadeias paralelas como um estudo inicial para verificar a convergˆencia da m´edia erg´odica.
A amostra final ser´a composta usando os nvalores seguintes
A amostra simulada ´e um conjunto de vetores de dimens˜ao d, θ(1), . . . , θ(n) da distribui¸c˜ao multivariada limiteπ.
No entanto, ´e garantido que as componentes marginais do vetor formam uma amostra da distribui¸c˜ao marginal correspondente.
Al´em disso, para qualquer fun¸c˜aot(θ)podemos construir tamb´em uma amostra MCCM usando os valores simulados da cadeia original.
¯t=P
t(j)/n ser´a um estimador consistente paraE[t(θ)].
Intervalos de credibilidade aproximados podem ser obtidos considerando-se os percentis da amostra simulada.
A densidade marginal da i-´esima componente do vetor pode ser estimada pelo alisamento do histograma. Uma maneira mais eficiˆente ´e considerar a seguinte estimativa
Melhorando o desempenho dos algoritmos MCCM
2. Reparametriza¸c˜ao
A escolha de uma parametriza¸c˜ao adequado pode ser muito
´
util para aumentar a eficiˆencia do algoritmo.
Se o vetor de parˆametros for altamente correlacionado o algoritmo deve demorar para percorrer todo espa¸co param´etrico.
Exemplo 1: Normal bivariada (θ1, θ2)∼N2(µ,Σ).
Utilizando-se a propriedade de que as distribui¸c˜oes condicionais s˜ao tamb´em normal, podemos implementar um algoritmo GS
simulando de tais distribui¸c˜oes.
O pr´oximo gr´afico ilustra a trajet´oria dos primeiros 5 pontos de cadeia, considerando uma correla¸c˜ao de−0.97 entre θ1 e θ2.
Trajet´ orias do GS de uma normal bivariada
Melhorando o desempenho dos algoritmos MCCM
Exemplo 2: Modelo simples de efeito aleat´orio.
yij =µ+αi+ǫij, ǫij ∼N(0, σ2) ind.
µm´edia geral, ni ´e o tamanho da amostra do i-´esimo grupo, αi efeito aleat´orio associado aoi-´esimo grupo, αi ∼N(0, τ2), comj = 1, . . . , ni e i= 1, . . . , m.
Usando uma distribui¸c˜ao a priori impr´opriaπ(µ)∝C e supondo conhecidasσ2 e τ2 obtemos os seguintes valores para as
correla¸c˜oes a posteriori entre os parˆametros
Cor(µ, αi) =−
1 +σ2/ni τ2/m
−1/2
e Cor(αi, αj) =
1 +σ2/ni τ2/m
−1
Melhorando o desempenho dos algoritmos MCCM
Reparametriza¸c˜ao proposta: βi =µ+αi. Os novos valores de correla¸c˜ao a posteriori s˜ao
Cor(µ, βi) =−
1 + mτ2 σ2/ni
−1/2
e Cor(βi, βj) =
1 + mτ2 σ2/ni
−1
Seσ2/ni ´e muito menor queτ2/messas correla¸c˜oes ser˜ao menores que as obtidas anteriormente e portanto, a reparametriza¸c˜ao ´e indicada (ver Gelfand, Sahu e Carlin, 1995).
Melhorando o desempenho dos algoritmos MCCM
3. Uso de blocos
No algoritmoGS usualmente simulamos de distribui¸c˜oes condicionais completas unidimensionais
π(θi |θ−i), i= 1, . . . , d.
Alternativamente, podemos considerar grupos de parˆametros e particionar o vetor param´etrico em θ= (α1, . . . , αk) em que αj s˜ao vetores com alguns componentes θ, denominados blocos.
O proposito deste procedimento ´e obter uma correla¸c˜ao menor entre os blocos do que entre os parˆametros originais θi´s.
Diagn´ osticos de Convergˆ encia
1. An´alise gr´afica
Usualmente s˜ao analisados os gr´aficos das m´edias erg´odicas, da(s) trajet´oria(s) da(s) cadeia(s) e das autocorrela¸c˜oes.
Exemplo de gr´aficos das m´edias erg´odicas:
Diagn´ osticos de Convergˆ encia
Exemplo de gr´aficos de trajet´orias das cadeias:
Diagn´ osticos de Convergˆ encia
Exemplo de trajet´oria de cadeia M-H com baixa taxa de aceita¸c˜ao:
Diagn´ osticos de Convergˆ encia
Exemplo comparativo de diversas proposta no M-H:
Diagn´ osticos de Convergˆ encia
Exemplo de gr´aficos de autocorrela¸c˜oes:
Diagn´ osticos de Convergˆ encia
2. A estat´ısticaZ de Geweke.
Geweke(1992) prop˜oe uma an´alise baseado em s´eries temporais, considerando que t(1), . . . , t(n+m) definem uma s´erie temporal.
Ap´os um per´ıodo de aquecimento (m), a s´erie ´e dividida em duas amostras. Uma no inicio de tamanho nb e outra no final de tamanho na. Para cada uma dessas amostras ´e obtida a m´edia amostral, ¯tb e ¯ta, respectivamente.
A estat´ıstica ´e dada por
ZG= ¯ta−¯tb
qV ar(¯ˆ ta) + ˆV ar(¯tb)
ZG converge para uma distribui¸c˜ao Normal padr˜ao.
Diagn´ osticos de Convergˆ encia
Valores grandes de ZG indicam discordˆancia entre as amostras iniciais e finais da cadeia, indicando a falta de convergˆencia.
Os valores de variˆancia s˜ao estimados usando densidade espectral.
Sugest˜ao para tamanho das amostras: nb = 0.1nena= 0.5n.
2. A estat´ısticaR de Gelman e Rubin.
Considera m cadeias paralelas e utiliza id´eias de an´alise de variˆancia.
Relaciona as variˆancias entre (B) e dentro (W) das cadeias, dadas por:
B= n Xn
(¯t −t)¯2 e 1 Xm
n
X(t(j)−¯t)2
Diagn´ osticos de Convergˆ encia
A variˆancia a posteriori pode ser consistentemente estimada por σˆ2 = (1−1/n)W + (1/n)B.
Ap´os a convergˆencia a variabilidade entre cadeias deve ser pequena, portanto a variˆancia W dever´a estar pr´oxima deσˆ2. A estat´ıstica ´e dada por
R= rσˆ2
W.
Valores pr´oximos de 1 indicam convergˆencia.
Software
BUGS (Bayesian Using Gibbs Sampling) : http://www.mrc-bsu.cam.ac.uk/bugs WinBUGS for the beginners: YouTube.
Package R2WinBUGS para R.
Package codapara R: Diagn´ostico de convergˆencia.
O pacote WinBUGS
Trabalha basicamente com trˆes arquivos: ”‘model”’, ”‘data”’ e
”‘initial”’.
Em ”‘model”’ est˜ao as especifica¸c˜oes das distribui¸c˜oes dos dados, das distribui¸c˜oes a priori e rela¸c˜oes entre os parˆametros.
Em ”‘data”’ est˜ao especificados os dados no formato de lista.
Em ”‘initial”’ os valores inciais utilizados pelo algoritmo MCMC, devem ser especificados para todos os parˆametros do modelo. Existe a alternativa de pedir para gerar valores iniciais.