Quando a distribui¸c˜ao a posteriori n˜ao possui forma fechada n˜ao ´e poss´ıvel gerar amostras dessa distribui¸c˜ao, diretamente, para fazer inferˆencia. Nestes casos, recorre- mos a m´etodos de simula¸c˜ao indireta, tais como os baseados em Markov Chain Monte Carlo (MCMC) que podem ser vistos em Gamerman (1997).
A amostra da distribui¸c˜ao a posteriori obtida a partir da simula¸c˜ao s´o ´e consi- derada para inferˆencia se os parˆametros da posteriori convergirem, no sentido de que foi poss´ıvel atingir uma distribui¸c˜ao estacion´aria a partir da t´ecnica de simula¸c˜ao escolhida. Para verificar a convergˆencia dos parˆametros, utilizou-se t´ecnicas informais baseadas na observa¸c˜ao do histograma, do tra¸co e da autocorrela¸c˜ao dos dados da amostra gerada. Al´em disso, utilizou-se tamb´em os crit´erios apresentados em Brooks e Gelman (1998) e Geweke (1992).
O histograma permite que seja analisada a forma da distribui¸c˜ao a posteriori. A observa¸c˜ao dos tra¸cos das m´ultiplas cadeias geradas em paralelo, com cada cadeia possuindo diferentes pontos iniciais, possibilita que seja verificado se as seq¨uˆencias misturam-se, indicando convergˆencia. O gr´afico da autocorrela¸c˜ao permite verificar se
as amostras geradas podem ser consideradas independentes dos valores iniciais.
Para entender o crit´erio de Geweke, considere θ o vetor de parˆametros de interesse para o qual obteve-se uma amostra da posteriori a partir de uma rodada de algum m´etodo MCMC e ψ = t(θ) uma fun¸c˜ao real, com trajet´oria dada por ψ(j) = t(θ(j)), j = 1, 2, . . .. Esta trajet´oria define uma s´erie temporal cujas m´edias erg´odicas podem ser calculadas. O crit´erio prop˜oe o uso de testes nas m´edias erg´odicas para verificar a convergˆencia da cadeia com base na s´erie ψ(j).
Para um total de m + n itera¸c˜oes onde m ´e o per´ıodo de burn-in forme m´edias ¯ ψb = 1 nb m+nb X j=m+1 ψ(j) e ψ¯a= 1 na m+n X j=m+n−na+1 ψ(j) (3.5)
onde nb+ na< n. Como m ´e o per´ıodo de burn-in, ¯ψa e ¯ψb s˜ao as m´edias erg´odicas no
in´ıcio e no final do per´ıodo de convergˆencia, sendo que deveriam apresentar, por este motivo, comportamento similar. Quando n torna-se grande e as raz˜oes na/n e nb/n
permanecem fixas, temos que zG = ¯ ψa− ¯ψb q V ar( ¯ψa) + V ar( ¯ψb) → N (0, 1) em distribui¸c˜ao. (3.6)
Dessa forma, a diferen¸ca padronizada zG entre as m´edias erg´odicas no in´ıcio e no
final do per´ıodo de convergˆencia n˜ao deveria ser grande se a convergˆencia foi atingida. Grandes diferen¸cas indicam falta de convergˆencia, por´em pequenas diferen¸cas n˜ao significam que houve convergˆencia. Geweke (1992) sugere os valores nb = 0.1n e
na = 0.5n. O crit´erio ´e univariado, podendo ser aplicado a densidade a posteriori
fazendo t(θ) = −2 log π(θ).
Brooks e Gelman (1998) introduziram uma an´alise gr´afica para avaliar a convergˆencia com base nas quantidades ˆV , a variˆancia a posteriori estimada calculada sob to- das as seq¨uˆencias geradas, ˆW , a variˆancia a posteriori estimada intra-cadeia e ˆRc =
(d + 3) ˆV /(d + 1) ˆW , o fator de redu¸c˜ao de variˆancia, com d igual ao n´umero de graus de liberdade. O gr´afico proposto permite verificar se as variˆancias ˆV e ˆW estabilizam-se como fun¸c˜ao de n, a metade do tamanho da cadeia, e se o fator de redu¸c˜ao ˆRcaproxima-
se de 1. O c´alculo de ˆRc foi introduzido por Gelman e Rubin (1992) e consistia em
obter m replica¸c˜oes independentes da cadeia de tamanho 2n, utilizando-se diferentes valores iniciais, para verificar se as observa¸c˜oes da segunda metade das itera¸c˜oes de cada amostra gerada poderiam ser consideradas como pertencentes `a distribui¸c˜ao esta- cion´aria. Acredita-se que descartando-se as n primeiras observa¸c˜oes ´e poss´ıvel evitar
o per´ıodo de burn-in. Ap´os a convergˆencia, todas as cadeias ter˜ao o mesmo compor- tamento, do ponto de vista quantitativo e qualitativo. O uso de m´ultiplas seq¨uˆencias pode ajudar a detectar convergˆencia lenta e se a simula¸c˜ao ficou restrita a regi˜oes em torno de modas locais. O crit´erio de Gelman e Rubin (1992) consistia em testar se a dispers˜ao dentro das cadeias (com uma amostra de tamanho mn) ´e maior que a dis- pers˜ao entre as cadeias. O n´umero de cadeias n˜ao precisa ser muito grande, evitando-se o desperd´ıcio do tempo computacional. A inferˆencia para uma quantidade de interesse ´
e feita calculando-se a m´edia e a variˆancia amostrais. Com m cadeias ´e poss´ıvel re- alizar m inferˆencias e para verificar se estas s˜ao similares o suficiente para indicar convergˆencia, Gelman e Rubin (1992) sugeriram comparar as inferˆencias individuais `
aquela obtida utilizando-se a amostra completa, dada pelas mn observa¸c˜oes. Ent˜ao considere uma vari´avel aleat´oria ψ com m´edia µ e variˆancia σ2 na distribui¸c˜ao alvo e suponha que temos um estimador ˆµ n˜ao viesado para µ. Considere ψij como sendo a
j-´esima observa¸c˜ao de ψ em n itera¸c˜oes da cadeia i. Tome ˆµ = ¯ψ... As variˆancias entre
seq¨uˆencias, B/n, e dentro da seq¨uˆencia, W s˜ao calculadas da seguinte forma: B/n = 1 m − 1 m X i=1 ( ¯ψi.− ¯ψ..)2 W = 1 m(n − 1) m X i=1 n X j=1 (ψij − ¯ψi.)2. ´
E poss´ıvel estimar σ2 fazendo uma m´edia ponderada de B e W , como segue
ˆ
σ2 = n − 1
n W +
B n.
que ´e um estimador n˜ao viesado da verdadeira variˆancia σ2, se os pontos iniciais das seq¨uˆencias foram retirados da distribui¸c˜ao alvo, mas sobreestima σ2 se a distribui¸c˜ao
inicial ´e apropriadamente dispersa. A variabilidade amostral do estimador ˆµ justifica a obten¸c˜ao de uma estimativa da variˆancia a posteriori compartilhada ˆV = ˆσ2+ B/(mn).
Uma compara¸c˜ao das inferˆencias intra-cadeia e compartilhada ´e expressa como uma raz˜ao de variˆancia,
R = ˆ V σ2,
que ´e chamado fator de redu¸c˜ao de variˆancia. Como o denominador de R ´e normalmente desconhecido, uma sobreestimativa de R ´e obtida se utilizamos W como estimativa para σ2. Ent˜ao uma estimativa de R ´e dada por
ˆ R = ˆ V W = (m + 1) ˆσ2 mW − n − 1 mn ,
que pode ser interpretado como uma medida de diagn´ostico. Se ˆR ´e grande, sugere que ou a estimativa da variˆancia ˆσ2 pode decrescer com mais simula¸c˜oes ou que simula¸c˜oes adicionais aumentar˜ao W , pois as seq¨uˆencias simuladas n˜ao ter˜ao feito ainda um passeio pela distribui¸c˜ao alvo. Por outro lado, se ˆR ´e bem pr´oximo de 1, pode-se concluir que cada um dos m conjuntos de n observa¸c˜oes visitou a distribui¸c˜ao alvo (Brooks e Gelman,1998).
Brooks e Gelman (1998) alertam que o teste proposto por Gelman e Rubin (1992), se aplica em situa¸c˜oes nas quais inferˆencias s˜ao resumidas pelas m´edias e variˆancias a posteriori, mesmo que n˜ao se acredite que as distribui¸c˜oes a posteriori sejam normal- mente distribu´ıdas. Dizem, ainda, que outras medidas de convergˆencia podem ser mais apropriadas se o pesquisador pensa em utilizar estat´ısticas resumidas que n˜ao sejam os dois primeiros momentos. Para corrigir os efeitos da variabilidade das amostras, Gelman e Rubin (1992) aplicaram o fator d/(d + 2), por´em Brooks e Gelman (1998) consideraram o fator incorreto e propuseram que fosse utilizado o fator (d + 3)/(d + 1), onde d ´e o n´umero de graus de liberdade para uma distribui¸c˜ao t-Student aproximada para a inferˆencia baseada nas simula¸c˜oes. Ent˜ao, tem-se
ˆ Rc = d + 3 d + 1 ˆ R. Ao atingir convergˆencia trˆes situa¸c˜oes devem ocorrer:
1. A variˆancia da mistura das seq¨uˆencias, V , deveria estabilizar-se como fun¸c˜ao de n;
2. A variˆancia intra- seq¨uˆencia, W , deveria estabilizar como uma fun¸c˜ao de n. (Antes de convergir, espera-se que W seja menor que V .);
3. ˆRc deveria ser pr´oximo de 1.
Assim, um m´etodo gr´afico proposto para monitorar convergˆencia ´e dividir as m seq¨uˆencias em grupos de tamanho b. Ent˜ao calcula-se as quantidades V (k), W (k) e
ˆ
Rc(k) com base na segunda metade das observa¸c˜oes da seq¨uˆencia de tamanho 2kb,
para k = 1, . . . , n/b. Detalhes do porquˆe de utilizar apenas metade das amostras para monitorar a convergˆencia e da escolha de b podem ser vistos em Brooks e Gelman (1998).
O gr´afico ´e constru´ıdo fazendo ˆRc contra k. E ´´ util tamb´em fazer o desenho de
quando as linhas se estabilizam e essa estabiliza¸c˜ao ocorre no mesmo valor, o que leva ˆ
Rc a ser pr´oximo de 1. Uma an´alise iterativa, como a apresentada, permite avaliar se
as cadeias est˜ao convergindo.
O caso de distribui¸c˜oes a posteriori n˜ao-normais e o caso multivariado tamb´em podem ser vistos em Brooks e Gelman (1998).
A hip´otese de normalidade ´e uma limita¸c˜ao no diagn´ostico de convergˆencia. A referida hip´otese pode ser considerada mais razo´avel se forem feitas tranforma¸c˜oes apro- priadas, tais como log ou logit. No entanto, como mencionam Brooks e Gelman (1998), ao considerarmos m´etodos MCMC, freq¨uentemente trabalhamos com distribui¸c˜oes n˜ao normais e em muitos casos, com densidades de m´ultiplas modas. Assim, os autores desenvolvem um fator de redu¸c˜ao de escala que evita a hip´otese de normalidade.
Neste caso, ˆR ´e uma raz˜ao de comprimentos de intervalos, constru´ıdo a partir das ´
ultimas n itera¸c˜oes de um total de 2n realizadas, como segue:
1. Para cada cadeia individual, tomar os pontos 100α2% e 100(1 − α2)% das n si- mula¸c˜oes, que s˜ao os extremos do intervalo 100(1 − α)%. Ao todo teremos m comprimentos de intervalo;
2. Para o conjunto completo de mn observa¸c˜oes, considerando todas as cadeias ge- radas, obter o comprimento do intervalo 100(1 − α)%.
3. Calcular ˆR definido como ˆ
Rintervalo =
comprimento do intervalo da seq¨uˆencia completa m´edia dos comprimentos dos intervalos das m seq¨uˆencias. Este m´etodo ´e mais f´acil de implementar n˜ao necessitando do c´alculo de variˆancias. A medida ˆRintervaltem a propriedade de se aproximar de 1 quando as cadeias convergem