• Nenhum resultado encontrado

Aproxima¸c˜ ao Linear Bayes

No documento Universidade Federal do Rio de Janeiro (páginas 20-33)

2.4 M´ etodos de Aproxima¸c˜ ao da Posteriori em Modelos Dinˆ amicos Lineares

2.4.2 Aproxima¸c˜ ao Linear Bayes

West et al. (1985) propuseram uma aproxima¸c˜ao baseada em linear Bayes. Esta ideia foi tamb´em descita por Migon e Harrison (1985) dentro do contexto de modelos n˜ao-lineares

dinˆamicos normais e ´e um dos m´etodos aplicados neste trabalho, portanto passamos a descrevˆe-lo mais detalhadamente.

Suponha-se que o modelo de amostragem no tempo ttem a forma (2.6) e admita-se que uma distribui¸c˜ao a priori conjugada, denotada por (ηt|Dt−1)∼ CP[rt, st] seja adotada para o parˆametro natural ou canˆonicoηt

p(ηt|Dt−1) =C(rt, st)exp[rtηt−sta(ηt)] (2.14) para algum par rt e st. A extens˜ao dinˆamica natural de um modelo linear generalizado pressup˜oeg(ηt) =λt=F0txt, mas tal especifica¸c˜ao imporia severas restri¸c˜oes `a priori de ηt. Ao inv´es disso, West et al. (1985) utilizam a liga¸c˜ao entre g(ηt) e λt apenas como um guia para formar a priori para ηt, passando a denotar tal rela¸c˜ao guia por g(ηt)≈λt.

Ainda, suponha-se que as distribui¸c˜oes a priori e a posteriori do vetor de estados agora n˜ao sejam necessariamente normais, mas que, por analogia ao modelo Gaussiano, sejam especificadas apenas pelos momentos de primeira e segunda ordens do vetor de estados xt, dadas por

(xt−1|Dt−1)∼[mt−1,Ct−1], (2.15) (xt|Dt−1)∼[at, Rt], (2.16) em que:

at=Gtmt−1 and Rt =GtCt−1G0t+Wt. (2.17) Nesse ponto, os autores sugerem o uso de fatores de desconto para contornar o problema de especifica¸c˜ao ou estimativa de Wt. A ideia de fatores de desconto ´e especificar uma quantidade que descreva a perda do valor de observa¸c˜oes passadas para a inferˆencia a cada instante. Mais especificamente, segundo West e Harrison (1997), observando-se que

V[xt−1|Dt−1] =Ct−1

e

V[xt|Dt−1] =GtCt−1G0t+Wt,

denotando-se a primeira parcela no lado direito da equa¸c˜ao acima por Pt, tem-se

Rt=Pt+Wt (2.18)

eWt, portanto, representa a infla¸c˜ao na incerteza ao se passar do instante t−1 ao instante t, condicionalmente ao mesmo conjunto de informa¸c˜ao,Dt−1. Assim, tomando-se0< δ ≤1, tal infla¸c˜ao poderia ser representada por

Rt= Pt

δ . (2.19)

Igualando-se (2.18) e (2.19), tem-se

Wt= 1−δ δ Pt.

Portanto, condicional a Pt e arbitrando-se δ, Wt fica completamente especificada. West e Harrison(1997)[pp. 196-8] estendem essa ideia, permitindo especifica¸c˜ao de diferentes fatores de desconto δj para cada bloco estrutural em um preditor, permitindo trajet´orias mais suaves (δj ≈ 1) ou mais vol´ateis, como em West et al. (1985), que definem uma matriz diagonal Bt, de dimens˜ao p×p, cujos elementos s˜ao √1

δj

,0< δj ≤1, j = 1, . . . , p.

Logo, reescrevendo (2.17), temos

at=Gtmt−1 and Rt =BtGtCt−1G0tBt, (2.20) com a matriz de transi¸c˜ao Gt e matriz de descontos Bt conhecidos. Note-se que a representa¸c˜ao (2.10) pode ser utilizada, mas evidentemente, ωt n˜ao ´e necessariamente normal. Al´em disso,a distribui¸c˜ao completa do vetor de estados n˜ao ´e especificada; apenas a m´edia e matriz de covariˆancia s˜ao assumidas. Finalmente, a distribui¸c˜ao a priori para g(ηt) =λt=F0txt ´e dada por

λt|Dt−1 ∼[ft, qt], (2.21)

em que

ft=E[λt|Dt−1] =F0tat, qt=V [λt|Dt−1] =F0tRtFt,

e

St=C[λt,xt|Dt−1] =RtFt.

Neste ponto, a priori para o parˆametro natural ηt est´a apenas parcialmente especificada, tendo a forma (2.14), sem qualquer restri¸c˜ao sobre os valores de rt e st. Estes valores s˜ao

escolhidos com base na rela¸c˜ao g(ηt) ≈ λt, que fixa os dois primeiros momentos de g(ηt) determinando rt est. A rela¸c˜ao guia sugere os valores de fte qt, para estes momentos eSt, para a covariˆancia entreg(ηt) e xt.

Com base nessa especifica¸c˜ao, ´e imediato que a distribui¸c˜ao preditiva tem a forma:

p(yt|Dt−1, φ) = c(rt, st)

c(rt+φyt, st+φ)b(yt, φ), (2.22) podendo ser diretamente obtida, e a distribu¸c˜ao a posteriori para (ηt|Dt) ´e a congujada atualizada da forma ηt|Dt ∼ CP(rt+φyt, st+φ). Uma an´alise bayesiana completa requer tamb´em a posteriori para(xt|Dt), mas esta n˜ao est´a dispon´ıvel porque a priori para(xt|Dt−1)

´

e apenas parcialmente especificada e o modelo n˜ao fornece verossimilhan¸ca paraxt. O modelo desenvolvido at´e agora, no entanto, n˜ao requer a especifica¸c˜ao completa para prosseguir para o tempo (t+ 1), apenas a m´edia e matriz de covariˆancia de (xt|Dt) s˜ao necess´arias e estas satisfazem as identidades

mt=E[E[xtt, Dt]] (2.23) e

Ct=V [E[xtt, Dt]] +E[V [xtt, Dt]] (2.24) Al´em disso, assim como no caso normal, (xtt, Dt) ´e condicionalmente independente de It={Yt,Ft}, e comoDt={It, Dt−1}, tem-se que os momentos condicionais nas esperan¸cas internas em (2.23) e (2.24) s˜ao(xtt, Dt−1). Em geral, estes momentos ser˜ao desconhecidos, fun¸c˜oes n˜ao lineares de ηt, sendo a ´unica informa¸c˜ao dispon´ıvel aquela que diz respeito aos momentos conjuntos de (g(ηt),x0t|Dt−1),

onde a matriz de covariˆancia completa ´e singular. Na base desta informa¸c˜ao por si, uma abordagem alternativa ´e necess´aria para que a informa¸c˜ao em It possa ser filtrada de volta para xt.

Atualiza¸c˜ao do campo latente

O m´etodo linear Bayes pode ser aplicado no modelo anterior para fornecer feedback das informa¸c˜oes em It para xt. A densidade de p(xtt, Dt−1) ´e a distribui¸c˜ao desconhecida preditiva de xt, dado ηt; a m´edia ´e o preditor ´otimo, no sentido de minimizar o tra¸co da fun¸c˜ao de risco quadr´atica[At(d)] em rela¸c˜ao a d, em que:

At(d) = E

(xt−d) (xt−d)0t, Dt−1

. (2.26)

A matriz de covariˆancia da distribui¸c˜ao ´e o valor de At(d) na m´edia.

Agora, uma vez que a m´edia ´e desconhecida, um preditor alternativo ´e procurado atrav´es da abordagem linear Bayes. Tendo em vista a rela¸c˜ao (2.9) e a constru¸c˜ao de ηt, ´e natural que se adote uma fun¸c˜ao linear de g(ηt)como preditor de xt. Especificamente, suponha que d deva ser escolhido de tal modo que d =d0+d1g(ηt) para algum d0 e d1 e que, em vez de (2.26),d minimize o risco global quadr´atico (ou soma de variˆancias) dado por

rt(d) = tra¸coE[At(d)|Dt−1], onde a esperan¸ca ´e com rela¸c˜ao a p(ηt|Dt−1).

Neste modelo, os momentos conjuntos (2.25) s˜ao suficientes para determinar o preditor requerido. Diretamente minimizando rt(d)em rela¸c˜ao ad0 ed1, obt´em-se um ´unico m´ınimo em d= ˆat, onde

ˆ

at=at+St(g(ηt)−ft)/qt (2.27) o valor de E[At(d)|Dt−1]no m´ınimo ´e dado por

Rct=Rt−StS0t/qt (2.28)

Os valores aˆte Rt, fornecem um preditor linear ´otimo dextt, Dt−1 e a medida do risco associado ´e um problema n˜ao linear. A alimenta¸c˜ao da informa¸c˜ao de It, pode agora ser completada substituindo-se a m´edia condicional e matriz de covariˆancia em (2.23) e (2.24) por aˆt e Rbt para se obter o preditor esperado e risco, dados por:

mt =at+St(gt−ft)/qt Ct =Rt−StS0t(1−pt/qt)/qt,

onde gt =E[g(ηt)|Dt] e pt =V [g(ηt)|Dt] s˜ao calculadas pela posteriori conjugada de (ηt, Dt).

Modelo Poisson Dinamico

No cap´ıtulo 3, o m´etodo proposto por West et al. (1985) ser´a aplicado a contagens epidemiol´ogicas. Suponha-se, em particular, que tais observa¸c˜oes sigam uma distribui¸c˜ao Poisson com m´edia λt. O modelo ´e definido pelas seguintes quatro componentes: equa¸c˜ao de observa¸c˜ao, distribui¸c˜ao a priori, fun¸c˜ao de liga¸c˜ao e a evolu¸c˜ao de estados.

Considere os seguintes componentes essenciais do an´alise para o modelo dinˆamico Poisson:

• Modelo observacional

yt ∼ P oisson(λt)

p(ytt) = exp[ytlog(λt)−λt] 1

yt!, (2.29)

em que φ = 1, ηt = logλt com ηt parˆametro natural e a(ηt) = λt = eηt, sendo a m´edia e variancia E[ytt, φ] = µt = a0t) = eηtt e V[ytt, φ] = a00t)/φ = eηt respectivamente.

• Priori para (ηt|Dt−1)∼CP[rt, st].

No caso Poisson, especificamos uma priori log-Gama paraηt, ou seja, uma priori Gama para λt:

λt|Dt−1 ∼ CP[rt, st] =gama(rt, st)

O par(αt, βt)´e deduzido usando propriedades da fam´ılia exponencial.

• A fun¸c˜ao de liga¸c˜ao e a equa¸c˜ao do sitema:

ηt = log(λt) =Ft0xt

xt = Gtxt−1+wt∼[0,Wt],

A fim de iniciar o procedimento de estima¸c˜ao seq¨uencial precisamos a informa¸c˜ao inicial de x0.

• Informa¸c˜ao inicial:

(x0|D0)∼(m0,C0),

A natureza sequencial de modelos dinˆamicos ´e conseguida atrav´es da ciclagem de trˆes passos: evolu¸c˜ao, equaliza¸c˜ao dos parˆametros e atualiza¸c˜ao, a partir de t = 1,· · · , T. As distribui¸c˜oes s˜ao apenas parcialmente especificadas em termos de seus momentos. Para um determinado tempo t, os passos (1)-(3) s˜ao descritos a seguir.

1. Evolu¸c˜ao:

• Prioris para o parˆametro de estado e do preditor linear:

xt|Dt−1 ∼ [at, Rt] ηt|Dt−1 ∼ [ft, qt]

• Priori para λt: j´a que o parˆametro λt > 0 ´e real positivo, uma escolha natural para a priori ´e a fam´ılia gama: (λt|Dt−1) ∼ CP[rt, st] = gama(rt, st), em que rt, st>0. Os seus dois primeiros momentos s˜ao conhecidos e ser˜ao utilizados na solu¸c˜ao de um sistema n˜ao linear simples, a fim de obter os valores dos parˆametros (rt, st) consistentes com(ft, qt), os momentos de (ηt|Dt−1). Os detalhes sobre a solu¸c˜ao do sistema n˜ao-linear s˜ao descritos no pr´oximo passo.

2. Equaliza¸c˜ao dos parˆametros:

Considerando-se que o preditor linear est´a relacionado com a m´edia da distribui¸c˜ao observacional por meio de uma fun¸c˜ao de liga¸c˜ao, alguma aproxima¸c˜ao ´e necess´aria para determinar os hiperparˆametros rt e st da distribui¸c˜ao a priori de λt.

Da priori de(ηt|Dt−1)e a transforma¸c˜aoηt=log(λt)obtemos a priori(λt|Dt−1)como uma distribui¸c˜ao gama, isto ´e (λt|Dt−1) =gama(rt, st) com densidade

p(λt|Dt−1) = srtt

Γ(rtrt−1exp(−stλt),

O par(rt, st)´e deduzido usando propriedades da fam´ılia exponencial, isto ´e,

p(λt|Dt−1) = exp trigamma (Abramowitz e Stegun (1964)). Da teoria associada `a fam´ılia exponencial, temos

ft = E[ηt|Dt−1] =E[log(λt)|Dt−1]

= E[T1] =−log(st) +ψ(rt) qt = V[ηt|Dt−1] =V[log(λt)|Dt−1]

= V[T1] =ψ0(rt)

Com base na avalia¸c˜ao da m´edia e variˆancia de log(λt) e uma aproxima¸c˜ao num´erica da fun¸c˜ao digamma dada por ψ(z) ≈ log(z) e ψ0(z) ≈ z−1 segundo Abramowitz e Resolvendo as equa¸c˜oes (2.33) e (2.31) , temos

rt= 1 com isso temos a priori conjugada paraλt´e completamente especificada e(ηt|Dt−1)∼ h

3. Distribui¸c˜ao preditiva um passo `a frente:

A distribui¸c˜ao incondicional da distribui¸c˜ao preditiva um passo `a frente ´e obtida atrav´es da integra¸c˜ao de λt:

p(yt|Dt−1) =

que ´e uma distribui¸c˜ao binomial negativa, denotada por yt|Dt−1 ∼ Bin neg rt,s1

t+1

. A m´edia e a variˆancia da distribui¸c˜ao preditiva podem ser calculadas usando esperan¸cas condicionais, isto ´e,

• Posteriori para λt: A distribui¸c˜ao posterior de λt ´e obtida usando o teorema de Bayes. Seja teoria associada `a fam´ılia exponencial e por analogia, o c´alculo degt ept que s˜ao a m´edia e a variˆancia a posteriori do preditor linear ηt, respectivamente, temos

gt = E[ηt|Dt] =E[log(λt)|Dt] =−log(st+ 1) +ψ(yt+rt) pt = V[ηt|Dt] =V[log(λt)|Dt] =ψ0(yt+rt),

que podem ser calculados recursivamente, pois:

ψ(z) = ψ(z+ 1)−z−1 ψ0(z) =ψ0(z+ 1) +z−2.

Utilizando a aproxima¸c˜ao num´erica da fun¸c˜ao digamma dada porψ(z)≈log(z) + (2z)−10(z)≈ 1z2z12 segundo Abramowitz e Stegun (1964), temos

gt = −log(st+ 1) +ψ(yt+rt)

≈ −log(st+ 1) +log(yt+rt) + 1 2(yt+rt)

= log

yt+rt st+ 1

+ 1

2(yt+rt) pt = ψ0(yt+rt)≈ 1

(yt+rt) − 1 2(yt+rt)2

= 2(yt+rt)−1 2(yt+rt)2

• Atualiza¸c˜ao dos estados: A distribui¸c˜ao conjunta de xt e ηt ´e parcialmente especificada e obtida a partir dos resultados anteriores. O m´etodo de estima¸c˜ao linear bayesianaWest e Harrison(1997) podem ser utilizados para obter xt|Dt∼ [mt,Ct].

com mt =at+St(gt−ft)/qt e Ct=Rt−StS0t(1−pt/qt)/qt.

• Transi¸c˜ao de estado: at=Gtmt−1 eRt=BtGtCt−1G0tBt.

Outros m´etodos de aproxima¸c˜ao de inferˆencia bayesiana s˜ao os m´etodos de simula¸c˜ao estoc´astica, em particular os m´etodos de Monte Carlo via Cadeias de Markov (MCMC) e o m´etodo determin´ısticoIntegrated Nested Laplace Approximation (INLA). Estos m´etodos s˜ao centrais nesta disserta¸c˜ao e s˜ao desenvolvidos de forma mas detalhada no cap´ıtulo3.

Cap´ıtulo 3

M´ etodos de Aproxima¸ c˜ ao MCMC e INLA

Neste cap´ıtulo, descrevemos os m´etodos de aproxima¸c˜ao MCMC e INLA para realizar inferˆencia bayesiana completa em uma classe de modelos de espa¸co de estados. Em termos gerais os m´etodos de Monte Carlo via Cadeias de Markov (MCMC), baseados em simula¸ca˜o estoc´astica que est˜ao relacionados ao processo de obten¸c˜ao de amostras da distribui¸c˜ao a posteriori para sumarizar informa¸c˜ao e que s˜ao descritos de forma detalhada por Gamerman e Lopes (2006). Por outro lado o m´etodo de aproxima¸c˜ao determin´ıstico, Integrated Nested Laplace Approximation (INLA), proposto por Rue et al. (2009), combinando aproxima¸c˜oes Laplace e integra¸c˜ao num´erica tornando este m´etodo eficiente (ver Rue e Martino (2007), Rue et al. (2009), para um tratamento mais extenso).

O m´etodo de aproxima¸c˜ao INLA, calcula diretamente aproxima¸c˜oes muito precisas para as marginais a posteriori de interesse, n˜ao passando por atualiza¸c˜ao recursiva, como m´etodos baseados em varia¸c˜oes do filtro de Kalman ou por procedimento iterativo, como m´etodos MCMC. Em comum com esses ´ultimos, o INLA fornece a posteriori dos estados e hiperparˆametros com respeito a toda a amostra observada, mas seu principal benef´ıcio ´e o tempo computacional reduzido, em compara¸c˜ao a m´etodos MCMC. Os m´etodos MCMC, em contrapartida, aplicam-se a classes mais abrangentes, n˜ao sujeitas `as imposi¸c˜oes descritas a seguir sobre a forma dos modelos trat´aveis via INLA.

Na se¸c˜ao3.1 apresentamos o m´etodo MCMC e na se¸ca˜o3.2 apresentamos a metodologia

INLA, e para a ilustra¸c˜ao dos m´etodos, exibimos uma aplica¸c˜ao com dados artificias, em que a vari´avel resposta n˜ao-gaussiana segue uma distribui¸c˜ao Poisson. No dado artificial, apresentamos compara¸c˜ao entre os m´etodos INLA, MCMC e Linear Bayes (LB) comentando restri¸c˜oes do LB em rela¸c˜ao aos demais, e ganho de eficiˆencia computacional ao se usar o m´etodo INLA, ao inv´es de MCMC.

3.1 M´ etodo de Aproxima¸ c˜ ao MCMC

Em modelos dinˆamicos, como vimos no cap´ıtulo anterior, no caso que Ft,Gt,Wt s˜ao totalmente conhecidas, sob normalidade dos erros e se uma forma conjugada ´e imposta a Vt = V, ∀t, ent˜ao tem-se inferˆencia bayesiana completa, de forma anal´ıtica. E natural´ assumir-se, entretanto, que Wt seja desconhecida. Uma alternativa ´e a especifica¸c˜ao de Wt por meio de fatores de desconto, como descrito na se¸c˜ao anterior, mas pode-se ter interesse na estima¸c˜ao de Wt ou de quantidades desconhecidas em Ft e Gt. Ainda, a suposi¸c˜ao de normalidade dos erros pode n˜ao ser v´alida. Nesse caso, n˜ao h´a forma anal´ıtica fechada para distribui¸c˜oes a priori, preditiva e posteriori.

Em particular, no caso MDLG, devido `a verossimilhan¸ca constru´ıda com base na fam´ılia exponencial, associada a prioris n˜ao conjugadas, n˜ao se obt´em forma fechada para a densidade a posteriori de diversos parˆametros, ao contr´ario do que ocorre nos modelos dinˆamicos normais Alves (2006).

Em inferˆencia bayesiana, os problemas n˜ao solucionados analiticamente podem ser resolvidos usando m´etodos de simula¸c˜ao que est˜ao relacionados ao processo de obten¸c˜ao de amostras de distribui¸c˜oes a posteriori. Os m´etodos de Monte Carlo via Cadeias de Markov (MCMC) s˜ao m´etodos de simula¸c˜ao estoc´astica, amplamente utilizados na inferˆencia bayesiana nas duas ´ultimas d´ecadas, quando se tem interesse em simular amostras de uma determinada distribui¸c˜ao a posteriori, a qual n˜ao possui forma anal´ıtica conhecida.

A id´eia b´asica do m´etodo MCMC consiste em construir uma cadeia de Markov que, por meio de escolhas adequadas de n´ucleos de transi¸c˜ao, tenha como distribui¸c˜ao estacion´aria a distribui¸c˜ao de interesse: no contexto bayesiano, a distribui¸c˜ao a posteriori. Tais m´etodos requerem ainda que a cadeia de Markov seja homogˆenea (as probabilidades de transi¸c˜ao de

um estado para outro s˜ao invariantes), irredut´ıvel (cada estado pode ser atingido a partir de qualquer outro em um n´umero finito de itera¸c˜oes) e aperi´odica(n˜ao haja estados absorventes), cuja distribui¸c˜ao estacion´aria seja igual `a distribui¸c˜ao de interesse.

Uma vez que a convergˆencia da cadeia tenha sido atingida, as amostras estar˜ao sendo geradas da distribui¸c˜ao estacion´aria.

A principal vantagem desta abordagem ´e a possibilidade de se fazer a an´alise bayesiana completa, o que significa tratamento formal da incerteza devida ao fato de que os hiperparˆametro θ s˜ao desconhecidos, sendo poss´ıvel integrarθ a fim de apresentar inferˆencia sobre(x1,· · · ,xT). Al´em disso, a estima¸c˜ao pontual e a estima¸c˜ao por intervalo deθ podem ser feitas com base na distribui¸c˜ao a posteriori.

Quando a distribui¸c˜ao condicional completa de um parˆametro de interesse est´a dispon´ıvel para amostragem, usualmente adota-se o amostrador de Gibbs, caso particular de algoritmo MCMC, descrito a seguir. Em MDLGs, entretanto, n˜ao se consegue amostrar a condicional completa dext. Existem algumas propostas de implementa¸c˜ao do amostrador de Gibbs para casos particulares e o algoritmo Metropolis Hastings ´e indicado para as aplica¸c˜oes em geral, tais algoritmos ser˜ao apresentados na subse¸c˜oes seguintes. Detalhes sobre m´etodos MCMC podem ser vistos em Gamerman e Lopes (2006).

A difus˜ao da aplica¸c˜ao destes m´etodos foi iniciada com o trabalho de Gelfand e Smith (1990), no qual foi feita uma compara¸c˜ao entre o amostrador de Gibbs, proposto inicialmente por Geman e Geman (1984), com outros esquemas de simula¸c˜ao estoc´astica. At´e ent˜ao, os trabalhos desenvolvidos eram baseados principalmente em aproxima¸c˜oes num´ericas e anal´ıticas. O avan¸co computacional na d´ecada de 1990 facilitou a populariza¸c˜ao de aplica¸c˜oes dos m´etodos bayesianos.

No documento Universidade Federal do Rio de Janeiro (páginas 20-33)

Documentos relacionados