• Nenhum resultado encontrado

O objetivo da inferência Bayesiana é obter a distribuição a posteriori de θ. Dado esta distribuição, estimativas pontuais e intervalares são fáceis de serem obtidas.

Como dito na seção anterior, o denominador da expressão (3.10) é denominado de distribuição preditiva, p(y). Esta integral, na maioria das vezes, não pode ser resolvida analiticamente, exigindo aproximação por métodos numéricos, seja por métodos analíticos ou por métodos baseados em amostragem.

Até o final da década de 80 utilizava-se para resolver este problema métodos numéricos analíticos, como por exemplo Quadratura Gaussiana e o método de Laplace. Apesar des-ses métodos serem mais precisos que métodos baseados em amostragem, só se mostram eficientes quando as distribuições de interesse são aproximadamente normais e a dimensão do vetor de parâmetros é pequena. Os métodos de Monte Carlo simples e Monte Carlos por Importância também apresentam problemas por dependerem da especificação da dis-tribuição a priori. Duas importantes referências neste caso são Kass e Raftery (1995) e Tierney e Kadane (1986).

No início da década de 90, surge os métodos de Monte Carlo via Cadeias de Markov (MCMC). Estes não são utilizados para aproximar p(y), mas para estimar as densidades

3. Métodos Aproximados em Inferência Bayesiana 33 marginais a posteriori associadas aos parâmetros do modelo. Aqui não existem mais restrições à dimensão do vetor de parâmetros e nem a exigência de normalidade. Um problema com esses métodos é serem baseados em cadeias de Markov e, portanto, exigirem em problemas complexos um grande número de iterações para a convergência do algoritmo, demandando alto custo computacional.

Em 2009 surge um novo procedimento para aproximação da integral (3.5) baseado em métodos numéricos analíticos, inicialmente no método de Laplace, denominado INLA.

A seguir são apresentados os métodos de Laplace, de Monte Carlo simples e por importância para a obtenção da distribuição preditiva e finalmente amostrador de Gibbs (da classe MCMC) e o INLA.

3.2.1 Aproximação da Distribuição Preditiva pelo Método de

La-place

A aproximação de Laplace para a densidade a posteriori é obtida assumindo que esta é concentrada em torno de sua moda ˆθ.

A posteriori de θ dado y pode ser escrita como p(θ|y) = R g(θ)dθg(θ) = e

log l(θ;y)+log p(θ) R elog l(θ;y)+log p(θ)=

enL(θ)

R enL(θ)dθ (3.11)

onde g(θ) = p(y|θ)p(θ), log l(θ; y) é o logaritmo da função de verossimilhança l(θ; y), nL(θ) = log l(θ; y) + log p(θ).

Se L tem um único máximo em ˆθ, então para n grande, o valor dessa integral depende apenas do comportamento da função L perto desse máximo. A expansão de Taylor até a 2a

ordem será da seguinte forma

L(θ) ≃ L(ˆθ) + (θ − ˆθ)tL(ˆθ) + (θ − ˆθ)t[L′′(ˆθ)](θ − ˆθ) 2 (3.12) onde L′′(ˆθ) =  ∂ 2L(θ) ∂θ∂θt  θ=ˆθ (3.13) Assim, Z g(θ)dθ = Z enL(θ)dθ ≃ Z enL(ˆθ)−n(θ−ˆθ)tH−1(θ−ˆ2 θ)dθ = = enL(ˆθ) Z e−n(θ−ˆθ)tH−1(θ−ˆ2 θ)dθ (3.14) = enL(ˆθ)(2π) k/2|H|1/2 √ n = g(ˆθ) (2π)k/2|H|1/2 √ n , onde H−1 = −L′′(ˆθ) (3.15)

3. Métodos Aproximados em Inferência Bayesiana 34 Portanto, p(θ|y) = R g(θ)dθ ≃g(θ) g(θ)n g(ˆθ)(2π)k/2|H|1/2 ⇒ p(θ|y) ≃ g(ˆθ)−1exp  −12(θ − ˆθ)tH−1(θ − ˆθ)  , (3.16)

onde ˆθ é a moda (isto é, o valor de θ que maximiza g(θ)) e H a matriz de dispersão modal (ou seja, H−1 a matriz de derivadas segunda de log g(θ)) avaliada em θ = ˆθ. Assim, a posteriori é aproximada por uma N(ˆθ, H) com a constante de normalização, distribuição preditiva, aproximada por

p(y) = Z

g(θ)dθ ≃ g(ˆθ)(2π)k/2|H|1/2= elog l(ˆθ)+log p(ˆθ)(2π)k/2|H|1/2, (3.17) onde k é a dimensão de θ.

3.2.2 Aproximação da Distribuição Preditiva por Métodos de

Monte Carlo

Aproximação por Monte Carlo Simples

A aproximação por Monte Carlo Simples consiste em aproximar a distribuição predi-tiva por ˆ p(y) = 1 m m X i=1 p(y|θ(i)), (3.18)

onde a amostra θ(i) : i = 1, · · · , m

é gerada da distribuição a priori p(θl). A expressão acima representa a média aritmética dos valores da função de verossimilhança avaliada nos pontos gerados. A precisão desta estimativa será prejudicada quando houver discrepância entre a distribuição a priori e a função de verossimilhança. Nestes casos a maioria dos va-lores θ(i)será gerada em região de baixa verossimilhança, tendo grande efeito no resultado final. A precisão por Monte Carlo simples pode ser melhorada quando a amostragem por importância é utilizada.

Aproximação de Monte Carlo através de Amostragem por Importância A aproximação através da amostragem por importância, sob condições gerais de regu-laridade, consiste em

ˆ p(y) =

Pm

i=1ωip(y|θ(i))

Pm

i=1ωi

(3.19) onde a amostra θ(i) : i = 1, · · · , m

é gerada de uma densidade π(θ), denominada função de importância, e ωi = π(θ(i))/π(i)), onde π(θ(i)) representa a priori avaliada em θ(i). Quando a amostra θ(i) : i = 1, · · · , m

é gerada de distribuições a posteriori, a função de importância π(θ) equivale a

π(θ) = p(θ|y) = p(y|θ)p(θ)

3. Métodos Aproximados em Inferência Bayesiana 35 Substituindo π(θ) em (3.19), obtém-se

ˆ

p(y|m) = Pm m

i=1p(y|θ(i))−1 = " 1 m m X i=1 p(y|θ(i))−1 #−1 (3.21) A expressão (3.21) representa a média harmônica dos valores da verossimilhança nos pontos gerados.

3.3 Métodos de Monte Carlo via Cadeias de Markov

(MCMC)

No início da década de 90, um artigo de Gelfand e Smith (1990) popularizou entre os estatísticos Bayesianos um método de amostragem via cadeias de Markov (MCMC), denominado amostrador de Gibbs. Este método consiste em um esquema markoviano de atualização, que permite a obtenção de amostras de uma distribuição conjunta através de amostragens iterativas das distribuições condicionais completas.

Migon, Souza e Schmidt (2008) descrevem o amostrador de Gibbs da seguinte maneira. Para amostragem de um vetor de parâmetro θ, associado a função p(θ|y):

• Inicialize o contador de iterações da cadeia j=1 e escolha valores iniciais; θ(0) = (θ1(0), θ(0)2 , · · · , θ(0)

p ) (3.22)

• Obtenha um novo vetor θ(1) = (θ(1)1 , θ2(1), · · · , θ(1)p ) gerando valores sucessivos através das distribuições condicionais completas

θ1(1) ∼ p(θ1(0)2 , θ3(0), · · · , θ(0) p , y) θ2(1) ∼ p(θ2(1)1 , θ3(0), · · · , θp(0), y)

... (3.23)

θp(1) ∼ p(θp(1)1 , θ2(1), · · · , θp−1(1) , y)

• Repita o passo anterior para j = 1, 2, · · · , m. Sob condições gerais de regularidade, (θ(m)

1 , θ(m)2 , · · · , θ(m)p ) → p(θ1, θ2, · · · , θp), então θ(m)i → p(θi), quando m → ∞. A cadeia gerada pelo amostrador de Gibbs na iteração m, converge para distribuição de equilíbrio, na norma da variação total.

O amostrador de Gibbs é um caso particular do algoritmo Metropolis-Hastings, onde as densidades propostas q(·; ·) são as próprias distribuições condicionais completas e os valores propostos são aceitos com probabilidade 1 (GAMERMAN; LOPES, 2006).

Assumindo que o interesse está em obter amostras da distribuição a posteriori de θ, é comum construir um amostrador de Gibbs e obter condicionais completas que, por

3. Métodos Aproximados em Inferência Bayesiana 36 sua vez, não possuem forma analítica fechada. Neste caso, pode-se utilizar o algoritmo de Metropolis-Hastings para gerar amostras destas distribuições. Neste caso, o algoritmo uti-lizado é um amostrador de Gibbs com passos de Metropolis-Hastings (MIGON; SOUZA; SCHMIDT, 2008).

O software OpenBUGS (LUNN et al., 2009) direcionado para análise Bayesiana de modelos complexos é dotado da capacidade de reconhecer formas conjugadas e decidir pelo algoritmo adequado para a geração da cadeia, partindo da forma mais simples (con-jugação) até a forma mais complexa utilizando Metropolis-Hastings. A utilização deste software facilita a análise uma vez que basta que se forneça a função de verossimilhança e a distribuição a priori conjunta para que a cadeia de interesse seja gerada. Além disso, tem implementado o diagnóstico de convergência de Gelman e Rubin, que consiste ba-sicamente em uma análise de variâncias entre as cadeias geradas (2 ou mais) e dentre elas.

Documentos relacionados