Aproxima¸c˜ ao Linear Bayes - M´ etodos de Aproxima¸c˜ ao da Posteriori em Modelos Dinˆ amicos

2.4 M´ etodos de Aproxima¸c˜ ao da Posteriori em Modelos Dinˆ amicos Lineares

2.4.2 Aproxima¸c˜ ao Linear Bayes

West et al. (1985) propuseram uma aproxima¸cão baseada em linear Bayes. Esta ideia foi também descita por Migon e Harrison (1985) dentro do contexto de modelos não-lineares

dinâmicos normais e é um dos métodos aplicados neste trabalho, portanto passamos a descrevê-lo mais detalhadamente.

Suponha-se que o modelo de amostragem no tempo ttem a forma (2.6) e admita-se que uma distribui¸cão a priori conjugada, denotada por (η_t|Dt−1)∼ CP[r_t, s_t] seja adotada para o parâmetro natural ou canônicoη_t

p(η_t|Dt−1) =C(r_t, s_t)exp[r_tη_t−s_ta(η_t)] (2.14) para algum par r_t e s_t. A extensão dinâmica natural de um modelo linear generalizado pressupõeg(η_t) =λ_t=F⁰_tx_t, mas tal especifica¸cão imporia severas restri¸cões à priori de η_t. Ao invés disso, West et al. (1985) utilizam a liga¸cão entre g(η_t) e λ_t apenas como um guia para formar a priori para η_t, passando a denotar tal rela¸cão guia por g(η_t)≈λ_t.

Ainda, suponha-se que as distribui¸c˜oes a priori e a posteriori do vetor de estados agora n˜ao sejam necessariamente normais, mas que, por analogia ao modelo Gaussiano, sejam especificadas apenas pelos momentos de primeira e segunda ordens do vetor de estados x_t, dadas por

(xt−1|Dt−1)∼[mt−1,Ct−1], (2.15) (x_t|Dt−1)∼[a_t, R_t], (2.16) em que:

at=Gtmt−1 and Rt =GtCt−1G⁰_t+Wt. (2.17) Nesse ponto, os autores sugerem o uso de fatores de desconto para contornar o problema de especifica¸cão ou estimativa de W_t. A ideia de fatores de desconto é especificar uma quantidade que descreva a perda do valor de observa¸cões passadas para a inferência a cada instante. Mais especificamente, segundo West e Harrison (1997), observando-se que

V[x_t−1|D_t−1] =C_t−1

V[x_t|D_t−1] =G_tC_t−1G⁰_t+W_t,

denotando-se a primeira parcela no lado direito da equa¸c˜ao acima por P_t, tem-se

R_t=P_t+W_t (2.18)

eW_t, portanto, representa a infla¸cão na incerteza ao se passar do instante t−1 ao instante t, condicionalmente ao mesmo conjunto de informa¸cão,Dt−1. Assim, tomando-se0< δ ≤1, tal infla¸cão poderia ser representada por

R_t= P_t

δ . (2.19)

Igualando-se (2.18) e (2.19), tem-se

W_t= 1−δ δ P_t.

Portanto, condicional a P_t e arbitrando-se δ, W_t fica completamente especificada. West e Harrison(1997)[pp. 196-8] estendem essa ideia, permitindo especifica¸cão de diferentes fatores de desconto δ_j para cada bloco estrutural em um preditor, permitindo trajetórias mais suaves (δ_j ≈ 1) ou mais voláteis, como em West et al. (1985), que definem uma matriz diagonal B_t, de dimensão p×p, cujos elementos são √¹

δj

,0< δ_j ≤1, j = 1, . . . , p.

Logo, reescrevendo (2.17), temos

a_t=G_tmt−1 and R_t =B_tG_tCt−1G⁰_tB_t, (2.20) com a matriz de transi¸cão G_t e matriz de descontos B_t conhecidos. Note-se que a representa¸cão (2.10) pode ser utilizada, mas evidentemente, ω_t não é necessariamente normal. Além disso,a distribui¸cão completa do vetor de estados não é especificada; apenas a média e matriz de covariância são assumidas. Finalmente, a distribui¸cão a priori para g(η_t) =λ_t=F⁰_tx_t é dada por

λ_t|Dt−1 ∼[f_t, q_t], (2.21)

em que

f_t=E[λ_t|D_t−1] =F⁰_ta_t, q_t=V [λ_t|D_t−1] =F⁰_tR_tF_t,

S_t=C[λ_t,x_t|D_t−1] =R_tF_t.

Neste ponto, a priori para o parâmetro natural η_t está apenas parcialmente especificada, tendo a forma (2.14), sem qualquer restri¸cão sobre os valores de r_t e s_t. Estes valores são

escolhidos com base na rela¸cão g(η_t) ≈ λ_t, que fixa os dois primeiros momentos de g(η_t) determinando r_t es_t. A rela¸cão guia sugere os valores de f_te q_t, para estes momentos eS_t, para a covariância entreg(η_t) e x_t.

Com base nessa especifica¸cão, é imediato que a distribui¸cão preditiva tem a forma:

p(y_t|Dt−1, φ) = c(rt, st)

c(r_t+φy_t, s_t+φ)b(y_t, φ), (2.22) podendo ser diretamente obtida, e a distribu¸cão a posteriori para (η_t|D_t) é a congujada atualizada da forma η_t|D_t ∼ CP(r_t+φy_t, s_t+φ). Uma análise bayesiana completa requer também a posteriori para(x_t|D_t), mas esta não está dispon´ıvel porque a priori para(x_t|Dt−1)

e apenas parcialmente especificada e o modelo não fornece verossimilhan¸ca parax_t. O modelo desenvolvido até agora, no entanto, não requer a especifica¸cão completa para prosseguir para o tempo (t+ 1), apenas a média e matriz de covariância de (x_t|D_t) são necessárias e estas satisfazem as identidades

m_t=E[E[x_t|η_t, D_t]] (2.23) e

C_t=V [E[x_t|η_t, D_t]] +E[V [x_t|η_t, D_t]] (2.24) Além disso, assim como no caso normal, (x_t|η_t, D_t) é condicionalmente independente de It={Yt,Ft}, e comoDt={It, Dt−1}, tem-se que os momentos condicionais nas esperan¸cas internas em (2.23) e (2.24) são(x_t|η_t, Dt−1). Em geral, estes momentos serão desconhecidos, fun¸cões não lineares de ηt, sendo a única informa¸cão dispon´ıvel aquela que diz respeito aos momentos conjuntos de (g(η_t),x⁰_t|Dt−1),

onde a matriz de covariância completa é singular. Na base desta informa¸cão por si, uma abordagem alternativa é necessária para que a informa¸cão em I_t possa ser filtrada de volta para x_t.

Atualiza¸c˜ao do campo latente

O método linear Bayes pode ser aplicado no modelo anterior para fornecer feedback das informa¸cões em I_t para x_t. A densidade de p(x_t|η_t, Dt−1) é a distribui¸cão desconhecida preditiva de x_t, dado η_t; a média é o preditor ótimo, no sentido de minimizar o tra¸co da fun¸cão de risco quadrática[A_t(d)] em rela¸cão a d, em que:

A_t(d) = E

(x_t−d) (x_t−d)⁰|η_t, Dt−1

. (2.26)

A matriz de covariância da distribui¸cão é o valor de A_t(d) na média.

Agora, uma vez que a média é desconhecida, um preditor alternativo é procurado através da abordagem linear Bayes. Tendo em vista a rela¸cão (2.9) e a constru¸cão de η_t, é natural que se adote uma fun¸cão linear de g(η_t)como preditor de x_t. Especificamente, suponha que d deva ser escolhido de tal modo que d =d₀+d₁g(η_t) para algum d₀ e d₁ e que, em vez de (2.26),d minimize o risco global quadrático (ou soma de variâncias) dado por

r_t(d) = tra¸coE[A_t(d)|Dt−1], onde a esperan¸ca ´e com rela¸c˜ao a p(η_t|D_t−1).

Neste modelo, os momentos conjuntos (2.25) são suficientes para determinar o preditor requerido. Diretamente minimizando r_t(d)em rela¸cão ad₀ ed₁, obtém-se um único m´ınimo em d= â_t, onde

a_t=a_t+S_t(g(η_t)−f_t)/q_t (2.27) o valor de E[A_t(d)|Dt−1]no m´ınimo ´e dado por

Rc_t=R_t−S_tS⁰_t/q_t (2.28)

Os valores aˆ_te R_t, fornecem um preditor linear ótimo dex_t|η_t, Dt−1 e a medida do risco associado é um problema não linear. A alimenta¸cão da informa¸cão de I_t, pode agora ser completada substituindo-se a média condicional e matriz de covariância em (2.23) e (2.24) por aˆ_t e Rb_t para se obter o preditor esperado e risco, dados por:

m_t =a_t+S_t(g_t−f_t)/q_t C_t =R_t−S_tS⁰_t(1−p_t/q_t)/q_t,

onde g_t =E[g(η_t)|D_t] e p_t =V [g(η_t)|D_t] s˜ao calculadas pela posteriori conjugada de (η_t, D_t).

Modelo Poisson Dinamico

No cap´ıtulo 3, o método proposto por West et al. (1985) será aplicado a contagens epidemiológicas. Suponha-se, em particular, que tais observa¸cões sigam uma distribui¸cão Poisson com média λ_t. O modelo é definido pelas seguintes quatro componentes: equa¸cão de observa¸cão, distribui¸cão a priori, fun¸cão de liga¸cão e a evolu¸cão de estados.

Considere os seguintes componentes essenciais do an´alise para o modelo dinˆamico Poisson:

• Modelo observacional

y_t ∼ P oisson(λ_t)

p(y_t|λ_t) = exp[y_tlog(λ_t)−λ_t] 1

y_t!, (2.29)

em que φ = 1, η_t = logλ_t com η_t parˆametro natural e a(η_t) = λ_t = e^η^t, sendo a m´edia e variancia E[y_t|η_t, φ] = µ_t = a⁰(η_t) = e^η^t =λ_t e V[y_t|η_t, φ] = a⁰⁰(η_t)/φ = e^η^t respectivamente.

• Priori para (η_t|Dt−1)∼CP[r_t, s_t].

No caso Poisson, especificamos uma priori log-Gama paraη_t, ou seja, uma priori Gama para λ_t:

λ_t|Dt−1 ∼ CP[r_t, s_t] =gama(r_t, s_t)

O par(α_t, β_t)´e deduzido usando propriedades da fam´ılia exponencial.

• A fun¸cão de liga¸cão e a equa¸cão do sitema:

η_t = log(λ_t) =F_t⁰x_t

x_t = G_txt−1+w_t∼[0,W_t],

A fim de iniciar o procedimento de estima¸cão seqüencial precisamos a informa¸cão inicial de x₀.

• Informa¸c˜ao inicial:

(x₀|D₀)∼(m₀,C₀),

A natureza sequencial de modelos dinâmicos é conseguida através da ciclagem de três passos: evolu¸cão, equaliza¸cão dos parâmetros e atualiza¸cão, a partir de t = 1,· · · , T. As distribui¸cões são apenas parcialmente especificadas em termos de seus momentos. Para um determinado tempo t, os passos (1)-(3) são descritos a seguir.

1. Evolu¸c˜ao:

• Prioris para o parˆametro de estado e do preditor linear:

x_t|D_t−1 ∼ [a_t, R_t] η_t|D_t−1 ∼ [f_t, q_t]

• Priori para λt: já que o parâmetro λt > 0 é real positivo, uma escolha natural para a priori é a fam´ılia gama: (λ_t|Dt−1) ∼ CP[r_t, s_t] = gama(r_t, s_t), em que rt, st>0. Os seus dois primeiros momentos são conhecidos e serão utilizados na solu¸cão de um sistema não linear simples, a fim de obter os valores dos parâmetros (rt, st) consistentes com(ft, qt), os momentos de (ηt|Dt−1). Os detalhes sobre a solu¸cão do sistema não-linear são descritos no próximo passo.

2. Equaliza¸c˜ao dos parˆametros:

Considerando-se que o preditor linear está relacionado com a média da distribui¸cão observacional por meio de uma fun¸cão de liga¸cão, alguma aproxima¸cão é necessária para determinar os hiperparâmetros r_t e s_t da distribui¸cão a priori de λ_t.

Da priori de(η_t|Dt−1)e a transforma¸cãoη_t=log(λ_t)obtemos a priori(λ_t|Dt−1)como uma distribui¸cão gama, isto é (λ_t|D_t−1) =gama(r_t, s_t) com densidade

p(λ_t|Dt−1) = s^r_t^t

Γ(rt)λ^r^t⁻¹exp(−s_tλ_t),

O par(r_t, s_t)´e deduzido usando propriedades da fam´ılia exponencial, isto ´e,

p(λt|Dt−1) = exp trigamma (Abramowitz e Stegun (1964)). Da teoria associada `a fam´ılia exponencial, temos

f_t = E[η_t|Dt−1] =E[log(λ_t)|Dt−1]

= E[T₁] =−log(s_t) +ψ(r_t) q_t = V[η_t|Dt−1] =V[log(λ_t)|Dt−1]

= V[T₁] =ψ⁰(r_t)

Com base na avalia¸cão da média e variância de log(λ_t) e uma aproxima¸cão numérica da fun¸cão digamma dada por ψ(z) ≈ log(z) e ψ⁰(z) ≈ z⁻¹ segundo Abramowitz e Resolvendo as equa¸cões (2.33) e (2.31) , temos

rt= 1 com isso temos a priori conjugada paraλ_t´e completamente especificada e(η_t|Dt−1)∼ h

3. Distribui¸c˜ao preditiva um passo `a frente:

A distribui¸cão incondicional da distribui¸cão preditiva um passo à frente é obtida através da integra¸cão de λ_t:

p(y_t|Dt−1) =

que ´e uma distribui¸c˜ao binomial negativa, denotada por y_t|Dt−1 ∼ Bin neg r_t,_s¹

t+1

. A média e a variância da distribui¸cão preditiva podem ser calculadas usando esperan¸cas condicionais, isto é,

• Posteriori para λ_t: A distribui¸cão posterior de λ_t é obtida usando o teorema de Bayes. Seja teoria associada à fam´ılia exponencial e por analogia, o cálculo deg_t ep_t que são a média e a variância a posteriori do preditor linear η_t, respectivamente, temos

g_t = E[η_t|D_t] =E[log(λ_t)|D_t] =−log(s_t+ 1) +ψ(y_t+r_t) p_t = V[η_t|D_t] =V[log(λ_t)|D_t] =ψ⁰(y_t+r_t),

que podem ser calculados recursivamente, pois:

ψ(z) = ψ(z+ 1)−z⁻¹ ψ⁰(z) =ψ⁰(z+ 1) +z⁻².

Utilizando a aproxima¸cão numérica da fun¸cão digamma dada porψ(z)≈log(z) + (2z)⁻¹ eψ⁰(z)≈ ¹_z −_2z¹2 segundo Abramowitz e Stegun (1964), temos

g_t = −log(s_t+ 1) +ψ(y_t+r_t)

≈ −log(s_t+ 1) +log(y_t+r_t) + 1 2(y_t+r_t)

= log

y_t+r_t s_t+ 1

+ 1

2(y_t+r_t) p_t = ψ⁰(y_t+r_t)≈ 1

(yt+rt) − 1 2(yt+rt)²

= 2(y_t+r_t)−1 2(y_t+r_t)²

• Atualiza¸cão dos estados: A distribui¸cão conjunta de xt e ηt é parcialmente especificada e obtida a partir dos resultados anteriores. O método de estima¸cão linear bayesianaWest e Harrison(1997) podem ser utilizados para obter xt|Dt∼ [m_t,C_t].

com mt =at+St(gt−ft)/qt e Ct=Rt−StS⁰_t(1−pt/qt)/qt.

• Transi¸c˜ao de estado: a_t=G_tmt−1 eR_t=B_tG_tCt−1G⁰_tB_t.

Outros métodos de aproxima¸cão de inferência bayesiana são os métodos de simula¸cão estocástica, em particular os métodos de Monte Carlo via Cadeias de Markov (MCMC) e o método determin´ısticoIntegrated Nested Laplace Approximation (INLA). Estos métodos são centrais nesta disserta¸cão e são desenvolvidos de forma mas detalhada no cap´ıtulo3.

Cap´ıtulo 3

M´ etodos de Aproxima¸ c˜ ao MCMC e INLA

Neste cap´ıtulo, descrevemos os métodos de aproxima¸cão MCMC e INLA para realizar inferência bayesiana completa em uma classe de modelos de espa¸co de estados. Em termos gerais os métodos de Monte Carlo via Cadeias de Markov (MCMC), baseados em simula¸caõ estocástica que estão relacionados ao processo de obten¸cão de amostras da distribui¸cão a posteriori para sumarizar informa¸cão e que são descritos de forma detalhada por Gamerman e Lopes (2006). Por outro lado o método de aproxima¸cão determin´ıstico, Integrated Nested Laplace Approximation (INLA), proposto por Rue et al. (2009), combinando aproxima¸cões Laplace e integra¸cão numérica tornando este método eficiente (ver Rue e Martino (2007), Rue et al. (2009), para um tratamento mais extenso).

O método de aproxima¸cão INLA, calcula diretamente aproxima¸cões muito precisas para as marginais a posteriori de interesse, não passando por atualiza¸cão recursiva, como métodos baseados em varia¸cões do filtro de Kalman ou por procedimento iterativo, como métodos MCMC. Em comum com esses últimos, o INLA fornece a posteriori dos estados e hiperparâmetros com respeito a toda a amostra observada, mas seu principal benef´ıcio é o tempo computacional reduzido, em compara¸cão a métodos MCMC. Os métodos MCMC, em contrapartida, aplicam-se a classes mais abrangentes, não sujeitas às imposi¸cões descritas a seguir sobre a forma dos modelos tratáveis via INLA.

Na se¸cão3.1 apresentamos o método MCMC e na se¸caõ3.2 apresentamos a metodologia

INLA, e para a ilustra¸cão dos métodos, exibimos uma aplica¸cão com dados artificias, em que a variável resposta não-gaussiana segue uma distribui¸cão Poisson. No dado artificial, apresentamos compara¸cão entre os métodos INLA, MCMC e Linear Bayes (LB) comentando restri¸cões do LB em rela¸cão aos demais, e ganho de eficiência computacional ao se usar o método INLA, ao invés de MCMC.

3.1 M´ etodo de Aproxima¸ c˜ ao MCMC

Em modelos dinâmicos, como vimos no cap´ıtulo anterior, no caso que F_t,G_t,W_t são totalmente conhecidas, sob normalidade dos erros e se uma forma conjugada é imposta a V_t = V, ∀t, então tem-se inferência bayesiana completa, de forma anal´ıtica. E natural´ assumir-se, entretanto, que W_t seja desconhecida. Uma alternativa é a especifica¸cão de W_t por meio de fatores de desconto, como descrito na se¸cão anterior, mas pode-se ter interesse na estima¸cão de W_t ou de quantidades desconhecidas em F_t e G_t. Ainda, a suposi¸cão de normalidade dos erros pode não ser válida. Nesse caso, não há forma anal´ıtica fechada para distribui¸cões a priori, preditiva e posteriori.

Em particular, no caso MDLG, devido à verossimilhan¸ca constru´ıda com base na fam´ılia exponencial, associada a prioris não conjugadas, não se obtém forma fechada para a densidade a posteriori de diversos parâmetros, ao contrário do que ocorre nos modelos dinâmicos normais Alves (2006).

Em inferência bayesiana, os problemas não solucionados analiticamente podem ser resolvidos usando métodos de simula¸cão que estão relacionados ao processo de obten¸cão de amostras de distribui¸cões a posteriori. Os métodos de Monte Carlo via Cadeias de Markov (MCMC) são métodos de simula¸cão estocástica, amplamente utilizados na inferência bayesiana nas duas últimas décadas, quando se tem interesse em simular amostras de uma determinada distribui¸cão a posteriori, a qual não possui forma anal´ıtica conhecida.

A idéia básica do método MCMC consiste em construir uma cadeia de Markov que, por meio de escolhas adequadas de núcleos de transi¸cão, tenha como distribui¸cão estacionária a distribui¸cão de interesse: no contexto bayesiano, a distribui¸cão a posteriori. Tais métodos requerem ainda que a cadeia de Markov seja homogênea (as probabilidades de transi¸cão de

um estado para outro são invariantes), irredut´ıvel (cada estado pode ser atingido a partir de qualquer outro em um número finito de itera¸cões) e aperiódica(não haja estados absorventes), cuja distribui¸cão estacionária seja igual à distribui¸cão de interesse.

Uma vez que a convergência da cadeia tenha sido atingida, as amostras estarão sendo geradas da distribui¸cão estacionária.

A principal vantagem desta abordagem é a possibilidade de se fazer a análise bayesiana completa, o que significa tratamento formal da incerteza devida ao fato de que os hiperparâmetro θ são desconhecidos, sendo poss´ıvel integrarθ a fim de apresentar inferência sobre(x₁,· · · ,x_T). Além disso, a estima¸cão pontual e a estima¸cão por intervalo deθ podem ser feitas com base na distribui¸cão a posteriori.

Quando a distribui¸cão condicional completa de um parâmetro de interesse está dispon´ıvel para amostragem, usualmente adota-se o amostrador de Gibbs, caso particular de algoritmo MCMC, descrito a seguir. Em MDLGs, entretanto, não se consegue amostrar a condicional completa dex_t. Existem algumas propostas de implementa¸cão do amostrador de Gibbs para casos particulares e o algoritmo Metropolis Hastings é indicado para as aplica¸cões em geral, tais algoritmos serão apresentados na subse¸cões seguintes. Detalhes sobre métodos MCMC podem ser vistos em Gamerman e Lopes (2006).

A difusão da aplica¸cão destes métodos foi iniciada com o trabalho de Gelfand e Smith (1990), no qual foi feita uma compara¸cão entre o amostrador de Gibbs, proposto inicialmente por Geman e Geman (1984), com outros esquemas de simula¸cão estocástica. Até então, os trabalhos desenvolvidos eram baseados principalmente em aproxima¸cões numéricas e anal´ıticas. O avan¸co computacional na década de 1990 facilitou a populariza¸cão de aplica¸cões dos métodos bayesianos.

No documento Universidade Federal do Rio de Janeiro (páginas 20-33)