Universidade Federal do Rio de Janeiro
Uma Comparac ¸˜ ao entre M´ etodos de Aproximac ¸ ˜ oes Determin´ısticas e
Estoc´ astica para Inferˆ encia Bayesiana em Modelos Dinˆ amicos Lineares
Generalizados
Teresa Villanueva Caballero
2013
Uma Comparac ¸˜ ao entre M´ etodos de Aproximac ¸ ˜ oes Determin´ısticas e
Estoc´ astica para Inferˆ encia Bayesiana em Modelos Dinˆ amicos Lineares
Generalizados
Teresa Villanueva Caballero
Disserta¸c˜ao de Mestrado submetida ao Programa de P´os-Gradua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do grau de Mestre em Estat´ıstica.
Orientadora: Mariane Branco Alves
Rio de Janeiro Novembro 2013
A minha fam´ılia, em especial ao meus pais,` Juan e Flora.
Agradecimentos
A minha orientadora Mariane Branco Alves, obrigada pelo tempo que disponibilizou para` nossas reuni˜oes, pela orienta¸c˜ao acadˆemica e paciˆencia ao longo deste trabalho.
A minha fam´ılia, que sempre acreditou em mim. Aos meus pais, Juan e Flora, pelo amor,` carinho. Aos meus irm˜aos(as), pelo apoio incondicional, apesar da distˆancia.
Ao Alex´ei, pelo amor, compreens˜ao e que sempre me deu for¸ca nos momentos de desˆanimo, estresse e cujo carinho e amor foi essencial ao dar um sentido na minha vida.
A Mariana Albi de Oliveira Souza, agrade¸co por me fornecer a programa¸c˜` ao utilizada no seu relatorio t´ecnico. Ao Thiago Guerrera Martins, pela ajuda dada, mesmo `a distancia.
A todos meus amigos, e companheiros do DME que compartilharam comigo experiˆencias, momentos de dificuldade e de alegria. Em especial, Mariana, Aniel, Cristian, Pamela, Renata, Larissa, Kelly, Carlos e Arthur.
Agrade¸co a todos meus professores do programa de P´os-Gradua¸c˜ao do DME-UFRJ, pelo valioso conhecimento transmitido, pelas maravilhosas aulas e toda a disponibilidade para ajudar. Em especial, aos professores Nei Rocha e Alexandra Schmidt, pelo compartilhamento de conhecimento das aulas did´aticas que eles apresentam e fazem vocˆe pˆor mais vontade de continuar estudando. Ao professor Dani Gamerman, pelo valioso conhecimento transmitido no est´agio docente e pela compress˜ao, ajuda nos momentos de dificuldade.
Agrade¸co `as professoras Alexandra Schmidt e Glaura da Conceicao Franco, por aceitarem participar da banca e `a professora Marina Silva Paez pela posi¸c˜ao de suplente na banca.
Por fim, agrade¸co `a CAPES por ter financiado e possibilitaram o prosseguimento dos meus estudos.
Resumo
Nesta disserta¸c˜ao, temos interesse em apresentar procedimentos de inferˆencia Bayesiana na classe de modelos dinˆamicos lineares generalizados. Muitas vezes, as distribui¸c˜oes de interesse n˜ao s˜ao poss´ıveis de serem obtidas analiticamente, sendo necess´ario utilizar m´etodos de aproxima¸c˜ao, tais como m´etodos determin´ısticos e estoc´asticos. Neste contexto, apresentamos os m´etodos INLA (Integrated Nested Laplace Aproximation), Linear Bayes (LB) e Monte Carlo via cadeia de Markov (MCMC). Particularmente, objetivamos comparar estes m´etodos para um modelo dinˆamico Poisson com dados artificiais. Os trˆes m´etodos capturam bem o comportamento da s´erie de dados artificiais, mas o m´etodo LB difere do modelo ajustado por MCMC e INLA, pois nestes dois ´ultimos m´etodos, pressup˜oe variˆancias fixas no tempo e enquanto o LB varia ao longo do tempo e especificadas por meio de fator de desconto. Outra diferen¸ca entre os m´etodos deve-se, a que o LB processa informa¸c˜ao em tempo real, j´a INLA e MCMC produzem inferˆencia condicional a toda informa¸c˜ao dispon´ıvel.
Al´em disso, estes ´ultimos produzem inferˆencia completa para os estados, diferentemente do LB, em que tal inferˆencia resume-se a primeiro e segundo momentos, do vetor de estados.
Finalmente analisamos dois conjuntos de dados reais. O primeiro, trata do efeito de poluentes atmosf´ericos sobre contagem de ´obitos de criancas menores de cinco anos por doen¸cas respirat´orias, na cidade de S˜ao Paulo, usando os modelos Poisson e Poisson inflacionado de zeros. O segundo conjunto de dados trata de efeito de volumes di´arios de chuva sobre n´ıveis de polui¸c˜ao. Para sua estima¸c˜ao usamos os modelos Gama e Bernoulli.
Palavras-Chaves: M´etodos Integrated Nested Laplace Approximation, m´etodos de Monte Carlo via cadeias de Markov, Linear Bayes, modelos de espa¸co de estados, inferˆencia Bayesiana.
Abstract
In this work, are interested in presenting procedures for Bayesian inference in the class of generalized linear dynamic models. Often, distributions of interest are not available analytically, approximated methods are needed, such as methods deterministic and stochastic.
We present methods Integrated Nested Laplace Aproximation (INLA), Linear Bayes (LB) and Monte Carlo Markov Chain (MCMC). Particularly, we aimed to compare these methods for a dynamic Poisson model with simulated data. The three methods capture the behavior the series of artificial data, but the LB method differs from the adjusted model by MCMC and INLA, since these last two methods, presupposes fixed variances in time and while the LB varies over time and specified by the discount factor. Another difference between the methods is due, LB processes information in real time, already INLA and MCMC processes conditional inference all available information, Moreover, the latter produces full inference to the states, unlike LB, in which such inference comes down to first and second moments of the state vector.
Finally we analyze two real data sets. The first deals with the effect of air pollutants on count of deaths of under five children with respiratory diseases in the city of S˜ao Paulo,using the Poisson model and inflated Poisson models of zeros. The second set of data deals with effect daily volumes of rain about levels of pollution. For its estimation we use the Gamma and Bernoulli models.
Keywords: Method Integrated Nested Laplace Approximation, methods of Monte Carlo Markov chain, Linear Bayes, state-space modeling, Bayesian inference.
Sum´ ario
1 Introdu¸c˜ao 1
2 Modelos Dinˆamicos 5
2.1 Modelos Lineares Dinˆamicos . . . 5
2.1.1 Inferˆencia Para Modelos Lineares Dinˆamicos . . . 6
2.2 Modelos Lineares Generalizados . . . 7
2.3 Modelos Dinˆamicos Lineares Generalizados . . . 8
2.4 M´etodos de Aproxima¸c˜ao da Posteriori em Modelos Dinˆamicos Lineares Generalizados . . . 9
2.4.1 Varia¸c˜oes do Filtro de Kalman . . . 9
2.4.2 Aproxima¸c˜ao Linear Bayes . . . 10
3 M´etodos de Aproxima¸c˜ao MCMC e INLA 21 3.1 M´etodo de Aproxima¸c˜ao MCMC. . . 22
3.1.1 Amostrador de Gibbs . . . 23
3.1.2 Algoritmo de Metropolis Hastings . . . 25
3.2 O M´etodo de Aproxima¸c˜ao INLA . . . 27
3.2.1 Parametriza¸c˜ao adequada do vetor param´etrico e explora¸c˜ao da grade 29 3.2.2 Aproxima¸c˜ao para p(θ|y) . . . 31
3.2.3 Aproxima¸c˜ao para p(xi|θ,y). . . 32
3.2.4 Algoritmo INLA . . . 33
3.3 Modelo Poisson Dinˆamico com dados artificiais, exemplo . . . 34
3.3.1 Prioris para os parˆametros fixos . . . 35
3.3.2 Prioris para variaveis gaussianas latentes . . . 36
3.3.3 Aproxima¸c˜ao Gaussiana para a distribui¸c˜ao Condicional Completaxt 38 3.3.4 Resultados . . . 40
4 Aplica¸c˜oes com Dados Reais 48 4.1 Efeito de Mon´oxido de Carbono sobre ´Obitos de Crian¸cas em S˜ao Paulo . . . 48
4.1.1 Formula¸c˜ao do Modelo Proposto . . . 51
4.1.2 Inferˆencia Bayesiana Utilizando INLA . . . 55
4.1.3 Escolha do melhor Modelo . . . 59
4.1.4 Resultados para o Modelo 1: Dinˆamica no N´ıvel . . . 61
4.2 Efeito de Chuva sobre N´ıveis de material Particulado no Rio de Janeiro . . . 68
4.2.1 Descri¸c˜ao dos Dados . . . 68
4.2.2 Modelo Gama . . . 71
4.2.3 Resultados do modelo . . . 71
4.2.4 Modelo Bernoulli . . . 77
4.2.5 Resultados do modelo . . . 77
5 Conclus˜oes 85 A C´odigos Usados para Dados Artificiais 87 A.1 C´odigo usado pelo m´etodo Linear Bayes . . . 87
A.2 C´odigo usado em WinBUGS . . . 90
A.3 C´odigo usando a Biblioteca INLA . . . 91
B C´odigo Usados aos Dados de Contagem de ´Obitos 96 B.1 C´odigo do modelo Poisson Tradicional . . . 97
B.2 C´odigo do modelo Poisson infla¸c˜ao-zeros do tipo 0 . . . 98
B.3 C´odigo do modelo Poisson infla¸c˜ao-zeros do tipo 1 . . . 98
C C´odigo Referentes aos Dados de Material Particulado 100 C.1 C´odigo do modelo Gama . . . 100
C.2 C´odigo do modelo Bernoulli . . . 102
Cap´ıtulo 1 Introdu¸ c˜ ao
Nos ´ultimos anos, v´arios estudos tˆem evidenciado associa¸c˜ao significativa entre a exposi¸c˜ao `a polui¸c˜ao do ar e eventos adversos `a sa´ude, com foco em exposi¸c˜ao de curto prazo. Numerosos estudos epidemiol´ogicos tˆem encontrado associa¸c˜oes positivas entre os poluentes, tais como material particulado (P M10) e mon´oxido de carbono (CO) e mortalidade ou morbidade, sendo muitas destas associa¸c˜oes relacionadas com n´ıveis de polui¸c˜ao que ultrapassam limiares de seguran¸ca, veja por exemplo, Vedal S e J. (2003), Dominici F e J. (2002) e Alves et al. (2010). Recentemente, a Agˆencia Internacional de Pesquisas sobre o Cˆancer (IARC), vinculada `a Organiza¸c˜ao Mundial da Sa´ude (OMS), classificou a polui¸c˜ao do ar exterior como uma causa de cˆancer. Estes estudos s˜ao tipicamente baseados em dados di´arios de uma regi˜ao espec´ıfica e per´ıodo de tempo e a an´alise ´e efetuada utilizando m´etodos de regress˜ao de s´eries temporais. Caso os dados de sa´ude estejam dispon´ıveis apenas como contagens di´arias, no contexto epidemiol´ogico, o modelo Poisson linear generalizado e modelos aditivos s˜ao o m´etodo padr˜ao de an´alise. Pode-se ter interesse, ainda, na modelagem do n´ıvel di´ario de certo poluente atmosf´erico, podendo-se utilizar para tal fim, por exemplo, um modelo Gama linear generalizado. Um outro interesse, no mesmo contexto, pode ser a explica¸c˜ao de uma resposta bin´aria, como por exemplo, a ultrapassagem de um limiar de seguran¸ca, por um certo poluente atmosf´erico.
Na literatura estat´ıstica, muitos modelos s˜ao constru´ıdos sob a suposi¸c˜ao de normalidade da vari´avel resposta. Alternativas s˜ao necess´arias para o tratamento de dados que n˜ao satisfa¸cam essa restri¸c˜ao. Como descrito por Alves (2006), Nelder e Wedderburn (1972)
propuseram uma classe, denominada modelos lineares generalizados (MLG), permitindo que a distribui¸c˜ao da vari´avel resposta perten¸ca `a fam´ılia exponencial. A fun¸c˜ao de reposta m´edia relaciona-se a um preditor linear por meio de uma transforma¸c˜ao mon´otona e diferenci´avel, conhecida como fun¸c˜ao de liga¸c˜ao. Apesar da grande flexibiliza¸c˜ao permitida pelos MLGs - se comparados aos tradicionais modelos lineares - estes ainda sup˜oem independˆencia da vari´avel resposta sobre diferentes unidades observacionais. Por outro lado, os modelos dinˆamicos lineares (MDL) West e Harrison (1997), que s˜ao um caso particular da classe de modelos de espa¸co de estados, Franco et al. (2009) pressup˜oem normalidade da vari´avel resposta, mas tratam formalmente a autocorrela¸c˜ao t´ıpica de dados de s´erie temporal, ao permitir evolu¸c˜ao aos parˆametros que controlam o preditor linear. A evolu¸c˜ao desses parˆametros ´e tipicamente descrita por rela¸c˜oes estoc´asticas markovianas. West et al. (1985) estendem tanto os MLGs quanto os MDLs, ao combinar uma estrutura observacional n˜ao necessariamente Gaussiana - mais especificamente, pertencente `a fam´ılia exponencial, como nos MLGs - a uma estrutura de evolu¸c˜ao dinˆamica para os parˆametros, como nos MDLs.
Do ponto de vista de realiza¸c˜ao de inferˆencia bayesiana, a classe de modelos dinˆamicos lineares generalizados apresenta dificuldades, pois n˜ao ´e poss´ıvel a obten¸c˜ao anal´ıtica de distribui¸c˜ao a posteriori de todas as quantidades latentes de interesse. H´a v´arias alternativas na literatura para aproxima¸c˜ao ou resumo da distribui¸c˜ao a posteriori nesse contexto. Na d´ecada de 80, eram primordialmente utilizadas aproxima¸c˜oes determin´ısticas, que se tornam mais complexas `a medida em que a dimens˜ao do vetor param´etrico aumenta. West et al.
(1985) prop˜oem a metodologia linear bayes para realiza¸c˜ao de inferˆencia em MDLGs. Sua abordagem baseia-se na ado¸c˜ao de uma distribui¸c˜ao a priori conjugada para a resposta m´edia e a avalia¸c˜ao incompleta das distribui¸c˜oes a priori e a posteriori do vetor de estados, apenas em termos de momentos de primeira e segunda ordens, evitando assim esfor¸co computacional para integra¸c˜ao ou otimiza¸c˜ao. Al´em do reduzido tempo computacional, permitindo realiza¸c˜ao de inferˆencia em tempo real, outra vantagem do m´etodo ´e a obten¸c˜ao de distribui¸c˜oes preditivas com forma anal´ıtica fechada, devido a propriedades de conjuga¸c˜ao da fam´ılia exponencial (Migon e Gamerman 1999, pp 62-70). A perda em rela¸c˜ao a m´etodos que exigem maior esfor¸co computacional, como MCMC, reside no fato de n˜ao se obter a distribui¸c˜ao a posteriori para o campo latente de forma completa, mas apenas sua m´edia e matriz de covariˆancia, o
que permite a obten¸c˜ao de estimativas intervalares. No m´etodo linear Bayes, todo o ciclo de inferˆencia ´e baseado no conhecimento de hiperparˆametros ou na sua especifica¸c˜ao por meio de alguma racionaliza¸c˜ao, como por exemplo o uso de fatores de desconto (West e Harrison 1997, pp 193-202), para especifica¸c˜ao de variˆancias/covariˆancias evolucionais. A especifica¸c˜ao desses fatores pode n˜ao ser trivial.
Fahrmeir (1992), por outro lado, apresenta uma generaliza¸c˜ao do filtro de Kalman estendido em modelos dinˆamicos lineares generalizados multivariadas, para estimar os parˆametros de estado atrav´es de modas a posteriori.
A partir da d´ecada de 90, com avan¸cos computacionais, m´etodos aproximados baseados em simula¸c˜ao - em particular os m´etodos de Monte Carlo via cadeias de Markov (MCMC), detalhados em Gamerman e Lopes (2006) - dominaram o cen´ario de aproxima¸c˜oes para distribui¸c˜oes a posteriori, nos casos em que estas s˜ao analiticamente intrat´aveis. Tais m´etodos buscam, a partir de n´ucleos de transi¸c˜ao convenientes, a constru¸c˜ao iterativa de uma cadeia de Markov homogˆenea, irredut´ıvel, erg´odica, que tenha como distribui¸c˜ao estacion´aria a posteriori de interesse. No caso dos modelos de espa¸co de estados, que pressup˜oem correla¸c˜ao temporal entre seus parˆametros, a convergˆencia de m´etodos MCMC para a distribui¸c˜ao estacion´aria pode ser bastante lenta.
Devido ao elevado custo computacional dos m´etodos MCMC no contexto abordado, busca- se alternativas a estes, de forma a tornar a realiza¸c˜ao de inferˆencia bayesiana aproximada mais r´apida e eficiente. Tem despertado grande interesse o trabalho deRue et al.(2009), propondo a realiza¸c˜ao de inferˆencia bayesiana por meio de aproxima¸c˜oes determin´ısticas para modelos de espa¸co de estados com campos latentes Gaussianos, ou seja, aqueles em que se sup˜oe que a evolu¸c˜ao estoc´astica dos parˆametros de estado ´e ditada por uma distribui¸c˜ao Gaussiana (mas a resposta, n˜ao necessariamente). Os autores relatam a obten¸c˜ao de estimativas acuradas de hiperparˆametros e do campo latente, com tempos computacionais bastante reduzidos, em compara¸c˜ao a longas cadeias obtidas via MCMC. Resende (2011) prop˜oe uma extens˜ao desse m´etodo para modelos de espa¸co de estados com campos latentes n˜ao Gaussianos, apresentando a base te´orica da proposta, entretanto relata problemas computacionais que impediram a exemplifica¸c˜ao do m´etodo ali proposto.
No presente trabalho, propomos uma compara¸c˜ao do m´etodo Linear Bayes, MCMC e
aproxima¸c˜ao determin´ıstica, como sugerem Rue et al. (2009), a duas aplica¸c˜oes de interesse no contexto de epidemiologia ambiental.
Este documento est´a organizado da seguinte forma: no cap´ıtulo 2, ´e apresentada a estrutura dos modelos dinˆamicos lineares generalizados e discute-se as dificuldades relacionadas `a sua estima¸c˜ao, sob abordagem bayesiana e os m´etodos de aproxima¸c˜ao da distribui¸c˜ao a posteriori em MDLG, como o Linear Bayes. J´a os m´etodos MCMC e INLA s˜ao descritos no cap´ıtulo 3, isto devido `a importˆancia neste trabalho, apresentando um exemplo de aplic˜ao a dados Poisson artificialmente gerados, com base em um preditor estruturado em termos de um n´ıvel e uma covari´avel (CO) com efeito dinˆamico. As estimativas obtidas via INLA s˜ao comparadas aquelas obtidas com os m´etodos LB e MCMC. No cap´ıtulo 4, apresentam-se dois conjuntos de dados reais com a metodologia descrita. Na se¸c˜ao 4.1 apresenta-se um modelo de regress˜ao dinˆamica Poisson, em que se busca descrever o impacto de poluentes atmosf´ericos e vari´aveis clim´aticas sobre desfechos epidemiol´ogicos, com diferentes estruturas preditivas. Na se¸c˜ao4.2´e apresentado um modelo Gama para quantificar o efeito cumulativo de volumes di´arios de chuva sobre o n´ıveis de material particulado e em seguida o modelo com resposta Bernoulli, para analisar fatores associados ´a ultrapassagem de um limiar de seguran¸ca no n´ıvel de material particulado. O cap´ıtulo 5 conclui este trabalho.
Cap´ıtulo 2
Modelos Dinˆ amicos
2.1 Modelos Lineares Dinˆ amicos
Na literatura bayesiana, os Modelos Lineares Dinˆamicos (MLD) s˜ao conhecidos tamb´em como modelos de espa¸co de estados. Tais modelos foram introduzidos por Harrison e Stevens (1976), est˜ao bem documentados em West e Harrison (1997) e constituem uma ampla classe param´etrica, com parˆametros variando no tempo, em que tanto a varia¸c˜ao dos parˆametros quanto a informa¸c˜ao a respeito de quantidades observ´aveis s˜ao descritas de uma forma probabil´ıstica. Os modelos lineares dinˆamicos possuem estrutura hier´arquica e s˜ao uma metodologia flex´ıvel para tratar problemas em an´alises de s´eries temporais, caracterizando-se atrav´es das seguintes equa¸c˜oes:
Yt = F0txt+vt, vt∼N(0,Vt) (2.1a) xt = Gtxt−1+ωt, ωt∼N(0,Wt), , (2.1b) em que para t = 1, . . ., Yt = (y1, y2, . . . , yn) ´e o vetor de observa¸c˜oes; xt ´e um vetor p−dimensional denominado vetor de estados;Ft´e uma matriz dep×nde vari´aveis regressoras ou vari´aveis explicativas, cujos elementos s˜ao conhecidos; Gt ´e uma matriz quadrada de ordem p que descreve a evolu¸c˜ao dos parˆametros de estado no tempo. As matrizes de covariˆancia Vt e Wt, de ordem n e p, est˜ao associadas ao erro observacional vt e ao erro de evolu¸c˜ao dos estados ωt, respectivamente. Assume-se que os erros vt eωt, sejam serial e mutuamente independentes. O modelo completa-se com uma densidade a priori (x1|D0) ∼
N(a,R), em queD0 denota a informa¸c˜ao inicial dispon´ıvel ao analista. O modelo descrito em (2.1) ´e completamente especificado pela qu´adrupla {Ft,Gt,Vt,Wt} e de uma distribu¸c˜ao a priori assumida para os parˆametros de estados. A equa¸c˜ao (2.1a) ´e denominada equa¸c˜ao da observa¸c˜ao e relaciona o vetor de observa¸c˜oes e componentes estruturais (como n´ıvel, tendˆencia, sazonalidade etc.), tendo a forma de uma regress˜ao multivariada e a equa¸c˜ao (2.1b) ´e denominada equa¸c˜ao de estados ou do sistema, respons´avel pela evolu¸c˜ao do vetor de coeficientes de regress˜ao (ou parˆametros de estado) ao longo do tempo.
De acordo com Migon et al. (2005), modelos dinˆamicos podem ser vistos como uma generaliza¸c˜ao de modelos de regress˜ao, permitindo altera¸c˜oes nos valores de parˆametros ao longo do tempo, por meio da introdu¸c˜ao de uma equa¸c˜ao que rege a evolu¸c˜ao temporal da coeffcientes regress˜ao.
2.1.1 Inferˆ encia Para Modelos Lineares Dinˆ amicos
Seja Y o vetor de obseva¸c˜oes e x o vetor de parˆametros. De acordo com o paradigma bayesiano, assume-se uma distribui¸c˜ao a priori p(x)1 , a qual representa a incerteza inicial acerca do vetor de parˆametros, antes de queY seja observado, e a fun¸c˜ao de verossimilhan¸ca do modelo, p(Y|x). A especifica¸c˜ao de p(x) e p(Y|x) fornece um modelo probabil´ıstico, p(Y,x) =p(Y|x)p(x).
Tendo observado os dados Y que contˆem informa¸c˜ao acerca de x, pode-se usar Y para atualizar a informa¸c˜ao acerca de x. Atrav´es do teorema de Bayes, encontra-se a distribu¸c˜ao a posteriori dex, que cont´em toda informa¸c˜ao probabil´ıstica de interesse sobre x, dada por
p(x|Y) = p(Y|x)p(x)
R p(Y|x)p(x)dx (2.2)
Em modelos lineares dinˆamicos, a inferˆencia segue os passos usuais em inferˆencia bayesiana e ´e realizada en forma sequencial, combinando duas opera¸c˜oes principais: evolu¸c˜ao para construir, a cada instante, a priori e atualiza¸c˜ao, para incorporar a nova observa¸c˜ao no tempo t. Seja Dt =Dt−1∪yt a informa¸c˜ao dispon´ıvel no instante t. Ent˜ao, para cada tempo t, a distribui¸c˜ao a priori, preditiva a um passo e posteriori s˜ao, respectivamente:
1De fato,p(x|D0), mas para simplicidade de nota¸c˜ao, omitimos o condicionamento no conjunto inicial de informa¸c˜ao,D0.
p(xt|Dt−1) = Z
p(xt|xt−1)p(xt−1|Dt−1)dxt−1 (2.3) p(yt|Dt−1) =
Z
p(yt|xt)p(xt|Dt−1)dxt (2.4) p(xt|Dt)∝p(yt|xt)p(xt|Dt−1), (2.5) sendo a equa¸c˜ao (2.5) obtida via teorema de Bayes. Essa forma simplificada do teorema de Bayes ser´a ´util em problemas que envolvam estima¸c˜ao de parˆametros, j´a que o denominador ´e apenas uma constante normalizadora, `as vezes facilmente obtida. Isso ocorre, em particular, no caso em que (F,G,V,W) s˜ao todos conhecidos e assumido-se normalidade dos erros.
O algoritmo resultante, neste caso, ´e conhecido como filtro de Kalman (Anderson e Moore, 1979).
Em geral, o medelo descrito em (2.1) ´e completamente especificado pela qu´adrupla {Ft, Gt, Vt, Wt}e de uma distribu¸c˜ao a priori assumida para os parˆametros de estados. Mas, geralmente,Vt, Wte em alguns casos elementos deFteGt n˜ao s˜ao conhecidos, o que implica que a inferˆencia n˜ao pode ser feita de forma anal´ıtica. Estas quantidades desconhecidas s˜ao chamadas de hiperparˆametros.
2.2 Modelos Lineares Generalizados
A classe dos modelos lineares tem por objetivo analisar a influˆencia de covari´aveis em uma determinada vari´avel resposta atrav´es de uma rela¸c˜ao linear nos parˆametros que governam os impactos de tais regressoras. Uma suposi¸c˜ao usual, por´em frequentemente inadequada, ´e a de que as vari´aveis resposta a serem modeladas seguem distribui¸c˜ao Normal.
Uma extens˜ao dos modelos lineares permite modelar observa¸c˜oes descritas por membros da fam´ılia exponencial. Esta classe de modelos ´e conhecida como Modelos Lineares Generalizados (MLG), introduzida por Nelder e Wedderburn (1972). A ideia b´asica consiste em ampliar a gama de op¸c˜oes para a distribui¸c˜ao da vari´avel resposta, sendo a mesma pertencente `a fam´ılia exponencial, por um conjunto de covari´aveis independentes, `as quais ´e aplicada uma estrutura linear e dar flexibilidade para a rela¸c˜ao funcional entre a m´edia da vari´avel resposta e o preditor
linear. A m´edia passa a ser relacionada a um preditor linear ap´os passar por uma transforma¸c˜ao mon´otona e diferenci´avel, denominada fun¸c˜ao de liga¸c˜ao g.
Considere-se Yt, para cada t = 1, . . . , T, a vari´avel resposta e Ft o vetor de covari´aveis no instante t. A estrutura para o modelo linear generalizado univariado ´e dada por:
p(yt|ηt, φ) = exp[φ{ytηt−a(ηt)}]b(yt, φ), (2.6) em que ηt ´e o parˆametro natural da distribu¸c˜ao de yt, satisfazendo
E[Yt|ηt, φ] = µt= ˙a(ηt) (2.7a) V[Yt|ηt, φ] = ¨a(ηt)/φ (2.7b) e φ ´e denominado parˆametro de escala. Um modelo linear generalizado ´e composto pela estrutura observacional (2.6), combinada a um preditor linear λt, determinado por um vetor (p×1)de regressoras conhecidas Ft:
g(ηt) = λt=F0tx, (2.8)
sendo xum vetor latente de parˆametros a estimar, de ordem (p×1), eg(.)uma fun¸c˜ao de liga¸c˜ao mon´otona e diferenci´avel. O modelo completa-se com a hip´otese de que os Yt0s, condicionalmente a ηt, t= 1, . . . , T e φ, sejam independentes e identicamente distribu´ıdos.
2.3 Modelos Dinˆ amicos Lineares Generalizados
West et al.(1985) formalizaram uma extens˜ao dos modelos lineares dinˆamicos (MLD) para observa¸c˜oes que perten¸cam `a fam´ılia exponencial, baseados no modelo linear generalizado de Nelder e Wedderburn(1972), fazendo poss´ıvel a utiliza¸c˜ao destes modelos para variados tipos de problemas.
Os modelo dinˆamicos lineares generalizados (MDLG) contornam a restri¸c˜ao gaussiana do modelo linear e atribuem tratamento formal `a autocorrela¸c˜ao serial, ao substutituir a especifica¸c˜ao do preditor linear em termos de quantidades latentes x est´aticas, como em (2.8), pela dinˆamica:
g(ηt) = λt =F0txt, (2.9)
adicionando ainda `a formula¸c˜ao do modelo uma equa¸c˜ao de evolu¸c˜ao ou sistema, descrevendo a forma de atualiza¸c˜ao do campo latente dinˆamico:
xt=Gtxt−1 +ωt, ωt∼N[0,Wt], (2.10) em que Gt´e uma matriz de transi¸c˜ao, suposta conhecida e de ordem(p×p)e Wt a matriz de covariˆancias de ordem(p×p), associada aos erros de evolu¸c˜ao, ωt, dos estados ou campo latente xt.
No caso de MLGD as integrais em (2.3),(2.4) e (2.5) n˜ao podem ser obtidas analiticamente, e assim a inferˆencia n˜ao pode ser feita de forma exata. Muitas propostas para resolver este problema tˆem sido apresentadas na literatura. Nas subse¸c˜oes seguintes apresentam-se algumas delas.
2.4 M´ etodos de Aproxima¸ c˜ ao da Posteriori em Modelos Dinˆ amicos Lineares Generalizados
Modelos dinˆamicos introduzidos na se¸c˜ao 2.1.1 permitem a inferˆencia completa apenas quando o Ft, Gt e Wt s˜ao totalmente conhecidas e, ainda, sob suposi¸c˜ao de normalidade dos erros. Em geral, quando estas quantidades ou outras quantidades s˜ao desconhecidas (hiperparˆametros) e a inferˆencia sobre eles devem basear-se na distribui¸c˜ao a posteriori, essa distribui¸c˜ao n˜ao tem solu¸c˜ao anal´ıtica.
No que segue apresentamos uma revis˜ao de alguns m´etodos adotados para aproxima¸c˜oes de distribui¸c˜oes a posteriori para os MLGD.
2.4.1 Varia¸ c˜ oes do Filtro de Kalman
Fahrmeir (1992) apresenta uma generaliza¸c˜ao do filtro de Kalman estendido em modelos dinˆamicos lineares generalizados multivariado, para estimar os parˆametros de estado atrav´es da moda a posteriori.
O algoritmo ´e aplicado sequencialmente e proporciona uma aproxima¸c˜ao da moda a posteriori. A utiliza¸c˜ao do estimador da moda a posteriori, ´e apenas para evitar a integra¸c˜ao
num´erica. Para estimar o hiperparˆametro ´e proposto um procedimento baseado em um algoritmo tipo-EM, Junger(2002).
Para estimar os parˆametros de espa¸co de estado, Singh e Roberts (1992) propuseram uma aplica¸c˜ao iterativa do filtro Kalman linear a modelos dinˆamicos lineares generalizados, modificando a equa¸c˜ao observacional (2.6) por:
eyt =F0txt+vet, evt ∼N(0,Vet), (2.11) em que yet s˜ao observa¸c˜oes modificadas, dadas por uma aproxima¸c˜ao linear das observa¸c˜oes, segundo:
eyt=ηt+ (yt−µt) ˙g(µt) (2.12) e com variˆancias associadas:
Vet=Vet(xt) = ¨a
φt(ηt)[g0(µt)]2 (2.13) com g˙ e ¨a indicando a primeira e a segunda derivada das fun¸c˜oes g e a, respectivamente.
Estas observa¸c˜oes e variˆancias modificadas s˜ao definidas a cada itera¸c˜ao usando os valores de xtestimados em itera¸c˜oes anteriores, pelo filtro de Kalman. Singh e Roberts(1992) estimam Wt =W utilizando uma abordagem baseada em momentos.
Fahrmeir (1997) tamb´em trabalhou na obten¸c˜ao da moda a posteriori dos parˆametros de estado para MLGD multivariado. Eles mostraram que o algoritmo proposto por Singh e Roberts (1992) leva `a moda a posteriori dos parˆametros de estado condicionado em um valor fixo W. Eles tamb´em mostraram que a generaliza¸c˜ao do filtro de Kalman estendido de Fahrmeir(1992) ´e um caso especial deste algoritmo com apenas uma itera¸c˜ao e uma escolha conveniente dos valores iniciais. Eles sugerem a utiliza¸c˜ao de um procedimento com base no crit´erio de valida¸c˜ao cruzada generalizada para estimar hiperparˆametros.
2.4.2 Aproxima¸ c˜ ao Linear Bayes
West et al. (1985) propuseram uma aproxima¸c˜ao baseada em linear Bayes. Esta ideia foi tamb´em descita por Migon e Harrison (1985) dentro do contexto de modelos n˜ao-lineares
dinˆamicos normais e ´e um dos m´etodos aplicados neste trabalho, portanto passamos a descrevˆe-lo mais detalhadamente.
Suponha-se que o modelo de amostragem no tempo ttem a forma (2.6) e admita-se que uma distribui¸c˜ao a priori conjugada, denotada por (ηt|Dt−1)∼ CP[rt, st] seja adotada para o parˆametro natural ou canˆonicoηt
p(ηt|Dt−1) =C(rt, st)exp[rtηt−sta(ηt)] (2.14) para algum par rt e st. A extens˜ao dinˆamica natural de um modelo linear generalizado pressup˜oeg(ηt) =λt=F0txt, mas tal especifica¸c˜ao imporia severas restri¸c˜oes `a priori de ηt. Ao inv´es disso, West et al. (1985) utilizam a liga¸c˜ao entre g(ηt) e λt apenas como um guia para formar a priori para ηt, passando a denotar tal rela¸c˜ao guia por g(ηt)≈λt.
Ainda, suponha-se que as distribui¸c˜oes a priori e a posteriori do vetor de estados agora n˜ao sejam necessariamente normais, mas que, por analogia ao modelo Gaussiano, sejam especificadas apenas pelos momentos de primeira e segunda ordens do vetor de estados xt, dadas por
(xt−1|Dt−1)∼[mt−1,Ct−1], (2.15) (xt|Dt−1)∼[at, Rt], (2.16) em que:
at=Gtmt−1 and Rt =GtCt−1G0t+Wt. (2.17) Nesse ponto, os autores sugerem o uso de fatores de desconto para contornar o problema de especifica¸c˜ao ou estimativa de Wt. A ideia de fatores de desconto ´e especificar uma quantidade que descreva a perda do valor de observa¸c˜oes passadas para a inferˆencia a cada instante. Mais especificamente, segundo West e Harrison (1997), observando-se que
V[xt−1|Dt−1] =Ct−1
e
V[xt|Dt−1] =GtCt−1G0t+Wt,
denotando-se a primeira parcela no lado direito da equa¸c˜ao acima por Pt, tem-se
Rt=Pt+Wt (2.18)
eWt, portanto, representa a infla¸c˜ao na incerteza ao se passar do instante t−1 ao instante t, condicionalmente ao mesmo conjunto de informa¸c˜ao,Dt−1. Assim, tomando-se0< δ ≤1, tal infla¸c˜ao poderia ser representada por
Rt= Pt
δ . (2.19)
Igualando-se (2.18) e (2.19), tem-se
Wt= 1−δ δ Pt.
Portanto, condicional a Pt e arbitrando-se δ, Wt fica completamente especificada. West e Harrison(1997)[pp. 196-8] estendem essa ideia, permitindo especifica¸c˜ao de diferentes fatores de desconto δj para cada bloco estrutural em um preditor, permitindo trajet´orias mais suaves (δj ≈ 1) ou mais vol´ateis, como em West et al. (1985), que definem uma matriz diagonal Bt, de dimens˜ao p×p, cujos elementos s˜ao √1
δj
,0< δj ≤1, j = 1, . . . , p.
Logo, reescrevendo (2.17), temos
at=Gtmt−1 and Rt =BtGtCt−1G0tBt, (2.20) com a matriz de transi¸c˜ao Gt e matriz de descontos Bt conhecidos. Note-se que a representa¸c˜ao (2.10) pode ser utilizada, mas evidentemente, ωt n˜ao ´e necessariamente normal. Al´em disso,a distribui¸c˜ao completa do vetor de estados n˜ao ´e especificada; apenas a m´edia e matriz de covariˆancia s˜ao assumidas. Finalmente, a distribui¸c˜ao a priori para g(ηt) =λt=F0txt ´e dada por
λt|Dt−1 ∼[ft, qt], (2.21)
em que
ft=E[λt|Dt−1] =F0tat, qt=V [λt|Dt−1] =F0tRtFt,
e
St=C[λt,xt|Dt−1] =RtFt.
Neste ponto, a priori para o parˆametro natural ηt est´a apenas parcialmente especificada, tendo a forma (2.14), sem qualquer restri¸c˜ao sobre os valores de rt e st. Estes valores s˜ao
escolhidos com base na rela¸c˜ao g(ηt) ≈ λt, que fixa os dois primeiros momentos de g(ηt) determinando rt est. A rela¸c˜ao guia sugere os valores de fte qt, para estes momentos eSt, para a covariˆancia entreg(ηt) e xt.
Com base nessa especifica¸c˜ao, ´e imediato que a distribui¸c˜ao preditiva tem a forma:
p(yt|Dt−1, φ) = c(rt, st)
c(rt+φyt, st+φ)b(yt, φ), (2.22) podendo ser diretamente obtida, e a distribu¸c˜ao a posteriori para (ηt|Dt) ´e a congujada atualizada da forma ηt|Dt ∼ CP(rt+φyt, st+φ). Uma an´alise bayesiana completa requer tamb´em a posteriori para(xt|Dt), mas esta n˜ao est´a dispon´ıvel porque a priori para(xt|Dt−1)
´
e apenas parcialmente especificada e o modelo n˜ao fornece verossimilhan¸ca paraxt. O modelo desenvolvido at´e agora, no entanto, n˜ao requer a especifica¸c˜ao completa para prosseguir para o tempo (t+ 1), apenas a m´edia e matriz de covariˆancia de (xt|Dt) s˜ao necess´arias e estas satisfazem as identidades
mt=E[E[xt|ηt, Dt]] (2.23) e
Ct=V [E[xt|ηt, Dt]] +E[V [xt|ηt, Dt]] (2.24) Al´em disso, assim como no caso normal, (xt|ηt, Dt) ´e condicionalmente independente de It={Yt,Ft}, e comoDt={It, Dt−1}, tem-se que os momentos condicionais nas esperan¸cas internas em (2.23) e (2.24) s˜ao(xt|ηt, Dt−1). Em geral, estes momentos ser˜ao desconhecidos, fun¸c˜oes n˜ao lineares de ηt, sendo a ´unica informa¸c˜ao dispon´ıvel aquela que diz respeito aos momentos conjuntos de (g(ηt),x0t|Dt−1),
g(ηt)
xt
|Dt−1
∼
ft at
,
qt S0t St Rt
, (2.25)
onde a matriz de covariˆancia completa ´e singular. Na base desta informa¸c˜ao por si, uma abordagem alternativa ´e necess´aria para que a informa¸c˜ao em It possa ser filtrada de volta para xt.
Atualiza¸c˜ao do campo latente
O m´etodo linear Bayes pode ser aplicado no modelo anterior para fornecer feedback das informa¸c˜oes em It para xt. A densidade de p(xt|ηt, Dt−1) ´e a distribui¸c˜ao desconhecida preditiva de xt, dado ηt; a m´edia ´e o preditor ´otimo, no sentido de minimizar o tra¸co da fun¸c˜ao de risco quadr´atica[At(d)] em rela¸c˜ao a d, em que:
At(d) = E
(xt−d) (xt−d)0|ηt, Dt−1
. (2.26)
A matriz de covariˆancia da distribui¸c˜ao ´e o valor de At(d) na m´edia.
Agora, uma vez que a m´edia ´e desconhecida, um preditor alternativo ´e procurado atrav´es da abordagem linear Bayes. Tendo em vista a rela¸c˜ao (2.9) e a constru¸c˜ao de ηt, ´e natural que se adote uma fun¸c˜ao linear de g(ηt)como preditor de xt. Especificamente, suponha que d deva ser escolhido de tal modo que d =d0+d1g(ηt) para algum d0 e d1 e que, em vez de (2.26),d minimize o risco global quadr´atico (ou soma de variˆancias) dado por
rt(d) = tra¸coE[At(d)|Dt−1], onde a esperan¸ca ´e com rela¸c˜ao a p(ηt|Dt−1).
Neste modelo, os momentos conjuntos (2.25) s˜ao suficientes para determinar o preditor requerido. Diretamente minimizando rt(d)em rela¸c˜ao ad0 ed1, obt´em-se um ´unico m´ınimo em d= ˆat, onde
ˆ
at=at+St(g(ηt)−ft)/qt (2.27) o valor de E[At(d)|Dt−1]no m´ınimo ´e dado por
Rct=Rt−StS0t/qt (2.28)
Os valores aˆte Rt, fornecem um preditor linear ´otimo dext|ηt, Dt−1 e a medida do risco associado ´e um problema n˜ao linear. A alimenta¸c˜ao da informa¸c˜ao de It, pode agora ser completada substituindo-se a m´edia condicional e matriz de covariˆancia em (2.23) e (2.24) por aˆt e Rbt para se obter o preditor esperado e risco, dados por:
mt =at+St(gt−ft)/qt Ct =Rt−StS0t(1−pt/qt)/qt,
onde gt =E[g(ηt)|Dt] e pt =V [g(ηt)|Dt] s˜ao calculadas pela posteriori conjugada de (ηt, Dt).
Modelo Poisson Dinamico
No cap´ıtulo 3, o m´etodo proposto por West et al. (1985) ser´a aplicado a contagens epidemiol´ogicas. Suponha-se, em particular, que tais observa¸c˜oes sigam uma distribui¸c˜ao Poisson com m´edia λt. O modelo ´e definido pelas seguintes quatro componentes: equa¸c˜ao de observa¸c˜ao, distribui¸c˜ao a priori, fun¸c˜ao de liga¸c˜ao e a evolu¸c˜ao de estados.
Considere os seguintes componentes essenciais do an´alise para o modelo dinˆamico Poisson:
• Modelo observacional
yt ∼ P oisson(λt)
p(yt|λt) = exp[ytlog(λt)−λt] 1
yt!, (2.29)
em que φ = 1, ηt = logλt com ηt parˆametro natural e a(ηt) = λt = eηt, sendo a m´edia e variancia E[yt|ηt, φ] = µt = a0(ηt) = eηt =λt e V[yt|ηt, φ] = a00(ηt)/φ = eηt respectivamente.
• Priori para (ηt|Dt−1)∼CP[rt, st].
No caso Poisson, especificamos uma priori log-Gama paraηt, ou seja, uma priori Gama para λt:
λt|Dt−1 ∼ CP[rt, st] =gama(rt, st)
O par(αt, βt)´e deduzido usando propriedades da fam´ılia exponencial.
• A fun¸c˜ao de liga¸c˜ao e a equa¸c˜ao do sitema:
ηt = log(λt) =Ft0xt
xt = Gtxt−1+wt∼[0,Wt],
A fim de iniciar o procedimento de estima¸c˜ao seq¨uencial precisamos a informa¸c˜ao inicial de x0.
• Informa¸c˜ao inicial:
(x0|D0)∼(m0,C0),
A natureza sequencial de modelos dinˆamicos ´e conseguida atrav´es da ciclagem de trˆes passos: evolu¸c˜ao, equaliza¸c˜ao dos parˆametros e atualiza¸c˜ao, a partir de t = 1,· · · , T. As distribui¸c˜oes s˜ao apenas parcialmente especificadas em termos de seus momentos. Para um determinado tempo t, os passos (1)-(3) s˜ao descritos a seguir.
1. Evolu¸c˜ao:
• Prioris para o parˆametro de estado e do preditor linear:
xt|Dt−1 ∼ [at, Rt] ηt|Dt−1 ∼ [ft, qt]
• Priori para λt: j´a que o parˆametro λt > 0 ´e real positivo, uma escolha natural para a priori ´e a fam´ılia gama: (λt|Dt−1) ∼ CP[rt, st] = gama(rt, st), em que rt, st>0. Os seus dois primeiros momentos s˜ao conhecidos e ser˜ao utilizados na solu¸c˜ao de um sistema n˜ao linear simples, a fim de obter os valores dos parˆametros (rt, st) consistentes com(ft, qt), os momentos de (ηt|Dt−1). Os detalhes sobre a solu¸c˜ao do sistema n˜ao-linear s˜ao descritos no pr´oximo passo.
2. Equaliza¸c˜ao dos parˆametros:
Considerando-se que o preditor linear est´a relacionado com a m´edia da distribui¸c˜ao observacional por meio de uma fun¸c˜ao de liga¸c˜ao, alguma aproxima¸c˜ao ´e necess´aria para determinar os hiperparˆametros rt e st da distribui¸c˜ao a priori de λt.
Da priori de(ηt|Dt−1)e a transforma¸c˜aoηt=log(λt)obtemos a priori(λt|Dt−1)como uma distribui¸c˜ao gama, isto ´e (λt|Dt−1) =gama(rt, st) com densidade
p(λt|Dt−1) = srtt
Γ(rt)λrt−1exp(−stλt),
O par(rt, st)´e deduzido usando propriedades da fam´ılia exponencial, isto ´e,
p(λt|Dt−1) = exp
(rt−1)log(λt)−stλt+log srtt
Γ(rt)
e ηt =log(λt), ent˜ao temos:
p(ηt|Dt−1) = exp
rtlog(λt)
| {z }
ηt
−st λt
|{z}
exp(ηt)
+log srtt
Γ(rt)
com
T = (T1(λt), T2(λt)) = (logλt,−λt) b(rt, st) = −rtlog(st) +logΓ(rt).
Ent˜ao,
E[T1] = ∂b
∂rt
=−log(st) +ψ(rt)
E[T2] = ∂b
∂st =−rt st V[T1] = ∂2b
∂r2t =ψ0(rt) V[T2] = ∂2b
∂s2t = rt s2t Cov[T2] = ∂2b
∂st∂rt =−1 st,
com ψ(z) a fun¸c˜ao digamma, definida por ψ(z) = dlog(Γ(z))dz e ψ0(z) = dψ(z)dz , a fun¸c˜ao trigamma (Abramowitz e Stegun (1964)). Da teoria associada `a fam´ılia exponencial, temos
ft = E[ηt|Dt−1] =E[log(λt)|Dt−1]
= E[T1] =−log(st) +ψ(rt) qt = V[ηt|Dt−1] =V[log(λt)|Dt−1]
= V[T1] =ψ0(rt)
Com base na avalia¸c˜ao da m´edia e variˆancia de log(λt) e uma aproxima¸c˜ao num´erica da fun¸c˜ao digamma dada por ψ(z) ≈ log(z) e ψ0(z) ≈ z−1 segundo Abramowitz e Stegun(1964), temos
ft ≈ −log(st) +log(rt) = log rt
st
(2.30) qt ≈ 1
rt
(2.31) Resolvendo as equa¸c˜oes (2.33) e (2.31) , temos
rt= 1
qt, st=exp −ft
qt
(2.32) com isso temos a priori conjugada paraλt´e completamente especificada e(ηt|Dt−1)∼ h
ft=log
rt
st
, qt= r1
t
i .
3. Distribui¸c˜ao preditiva um passo `a frente:
A distribui¸c˜ao incondicional da distribui¸c˜ao preditiva um passo `a frente ´e obtida atrav´es da integra¸c˜ao de λt:
p(yt|Dt−1) = Z
p(yt, λt|Dt−1)dλt = Z
p(yt|λt, Dt−1)p(λt|Dt−1)dλt
∝
Z 1
yt!exp(−λt)λyttsrttλrtt−1
Γ(rt) e−stλtdλt
∝ srtt Γ(rt)yt!
Z
λ(yt t+rt)−1e−(st+1)λtdλt
∝ srtt
Γ(rt)yt!× Γ(yt+rt)t
(1 +st)yt+rt, ent˜ao p(yt|Dt−1) = Γ(yt+rt)t
Γ(yt+ 1)Γ(rt) st
st+ 1 rt
1 st+ 1
yt
,
que ´e uma distribui¸c˜ao binomial negativa, denotada por yt|Dt−1 ∼ Bin neg rt,s1
t+1
. A m´edia e a variˆancia da distribui¸c˜ao preditiva podem ser calculadas usando esperan¸cas condicionais, isto ´e,
E(yt|Dt−1) = E(E(yt|λt)|Dt−1) = rt st
V(yt|Dt−1) = E(V(yt|λt)|Dt−1) +V (E(yt|λt)|Dt−1) = rt(st+ 1) s2t . 4. Atualiza¸c˜ao:
• Posteriori para λt: A distribui¸c˜ao posterior de λt ´e obtida usando o teorema de Bayes. Seja
p(λt|Dt) = p(yt|λt, Dt−1)p(λt|Dt−1) p(yt|Dt−1)
∝ p(yt|λt, Dt−1)p(λt|Dt−1)
∝ 1
yt!exp(−λt)λyttsrttλrtt−1
Γ(rt) e(−stλt)
∝ srtt
Γ(yt+ 1)Γ(rt)λytt+rt−1exp(−(st+ 1)λt)
que ´e a distribui¸c˜ao gama, denotada por λt|Dt ∼ gama(yt+rt, st+ 1). Da teoria associada `a fam´ılia exponencial e por analogia, o c´alculo degt ept que s˜ao a m´edia e a variˆancia a posteriori do preditor linear ηt, respectivamente, temos
gt = E[ηt|Dt] =E[log(λt)|Dt] =−log(st+ 1) +ψ(yt+rt) pt = V[ηt|Dt] =V[log(λt)|Dt] =ψ0(yt+rt),
que podem ser calculados recursivamente, pois:
ψ(z) = ψ(z+ 1)−z−1 ψ0(z) =ψ0(z+ 1) +z−2.
Utilizando a aproxima¸c˜ao num´erica da fun¸c˜ao digamma dada porψ(z)≈log(z) + (2z)−1 eψ0(z)≈ 1z −2z12 segundo Abramowitz e Stegun (1964), temos
gt = −log(st+ 1) +ψ(yt+rt)
≈ −log(st+ 1) +log(yt+rt) + 1 2(yt+rt)
= log
yt+rt st+ 1
+ 1
2(yt+rt) pt = ψ0(yt+rt)≈ 1
(yt+rt) − 1 2(yt+rt)2
= 2(yt+rt)−1 2(yt+rt)2
• Atualiza¸c˜ao dos estados: A distribui¸c˜ao conjunta de xt e ηt ´e parcialmente especificada e obtida a partir dos resultados anteriores. O m´etodo de estima¸c˜ao linear bayesianaWest e Harrison(1997) podem ser utilizados para obter xt|Dt∼ [mt,Ct].
com mt =at+St(gt−ft)/qt e Ct=Rt−StS0t(1−pt/qt)/qt.
• Transi¸c˜ao de estado: at=Gtmt−1 eRt=BtGtCt−1G0tBt.
Outros m´etodos de aproxima¸c˜ao de inferˆencia bayesiana s˜ao os m´etodos de simula¸c˜ao estoc´astica, em particular os m´etodos de Monte Carlo via Cadeias de Markov (MCMC) e o m´etodo determin´ısticoIntegrated Nested Laplace Approximation (INLA). Estos m´etodos s˜ao centrais nesta disserta¸c˜ao e s˜ao desenvolvidos de forma mas detalhada no cap´ıtulo3.
Cap´ıtulo 3
M´ etodos de Aproxima¸ c˜ ao MCMC e INLA
Neste cap´ıtulo, descrevemos os m´etodos de aproxima¸c˜ao MCMC e INLA para realizar inferˆencia bayesiana completa em uma classe de modelos de espa¸co de estados. Em termos gerais os m´etodos de Monte Carlo via Cadeias de Markov (MCMC), baseados em simula¸ca˜o estoc´astica que est˜ao relacionados ao processo de obten¸c˜ao de amostras da distribui¸c˜ao a posteriori para sumarizar informa¸c˜ao e que s˜ao descritos de forma detalhada por Gamerman e Lopes (2006). Por outro lado o m´etodo de aproxima¸c˜ao determin´ıstico, Integrated Nested Laplace Approximation (INLA), proposto por Rue et al. (2009), combinando aproxima¸c˜oes Laplace e integra¸c˜ao num´erica tornando este m´etodo eficiente (ver Rue e Martino (2007), Rue et al. (2009), para um tratamento mais extenso).
O m´etodo de aproxima¸c˜ao INLA, calcula diretamente aproxima¸c˜oes muito precisas para as marginais a posteriori de interesse, n˜ao passando por atualiza¸c˜ao recursiva, como m´etodos baseados em varia¸c˜oes do filtro de Kalman ou por procedimento iterativo, como m´etodos MCMC. Em comum com esses ´ultimos, o INLA fornece a posteriori dos estados e hiperparˆametros com respeito a toda a amostra observada, mas seu principal benef´ıcio ´e o tempo computacional reduzido, em compara¸c˜ao a m´etodos MCMC. Os m´etodos MCMC, em contrapartida, aplicam-se a classes mais abrangentes, n˜ao sujeitas `as imposi¸c˜oes descritas a seguir sobre a forma dos modelos trat´aveis via INLA.
Na se¸c˜ao3.1 apresentamos o m´etodo MCMC e na se¸ca˜o3.2 apresentamos a metodologia
INLA, e para a ilustra¸c˜ao dos m´etodos, exibimos uma aplica¸c˜ao com dados artificias, em que a vari´avel resposta n˜ao-gaussiana segue uma distribui¸c˜ao Poisson. No dado artificial, apresentamos compara¸c˜ao entre os m´etodos INLA, MCMC e Linear Bayes (LB) comentando restri¸c˜oes do LB em rela¸c˜ao aos demais, e ganho de eficiˆencia computacional ao se usar o m´etodo INLA, ao inv´es de MCMC.
3.1 M´ etodo de Aproxima¸ c˜ ao MCMC
Em modelos dinˆamicos, como vimos no cap´ıtulo anterior, no caso que Ft,Gt,Wt s˜ao totalmente conhecidas, sob normalidade dos erros e se uma forma conjugada ´e imposta a Vt = V, ∀t, ent˜ao tem-se inferˆencia bayesiana completa, de forma anal´ıtica. E natural´ assumir-se, entretanto, que Wt seja desconhecida. Uma alternativa ´e a especifica¸c˜ao de Wt por meio de fatores de desconto, como descrito na se¸c˜ao anterior, mas pode-se ter interesse na estima¸c˜ao de Wt ou de quantidades desconhecidas em Ft e Gt. Ainda, a suposi¸c˜ao de normalidade dos erros pode n˜ao ser v´alida. Nesse caso, n˜ao h´a forma anal´ıtica fechada para distribui¸c˜oes a priori, preditiva e posteriori.
Em particular, no caso MDLG, devido `a verossimilhan¸ca constru´ıda com base na fam´ılia exponencial, associada a prioris n˜ao conjugadas, n˜ao se obt´em forma fechada para a densidade a posteriori de diversos parˆametros, ao contr´ario do que ocorre nos modelos dinˆamicos normais Alves (2006).
Em inferˆencia bayesiana, os problemas n˜ao solucionados analiticamente podem ser resolvidos usando m´etodos de simula¸c˜ao que est˜ao relacionados ao processo de obten¸c˜ao de amostras de distribui¸c˜oes a posteriori. Os m´etodos de Monte Carlo via Cadeias de Markov (MCMC) s˜ao m´etodos de simula¸c˜ao estoc´astica, amplamente utilizados na inferˆencia bayesiana nas duas ´ultimas d´ecadas, quando se tem interesse em simular amostras de uma determinada distribui¸c˜ao a posteriori, a qual n˜ao possui forma anal´ıtica conhecida.
A id´eia b´asica do m´etodo MCMC consiste em construir uma cadeia de Markov que, por meio de escolhas adequadas de n´ucleos de transi¸c˜ao, tenha como distribui¸c˜ao estacion´aria a distribui¸c˜ao de interesse: no contexto bayesiano, a distribui¸c˜ao a posteriori. Tais m´etodos requerem ainda que a cadeia de Markov seja homogˆenea (as probabilidades de transi¸c˜ao de
um estado para outro s˜ao invariantes), irredut´ıvel (cada estado pode ser atingido a partir de qualquer outro em um n´umero finito de itera¸c˜oes) e aperi´odica(n˜ao haja estados absorventes), cuja distribui¸c˜ao estacion´aria seja igual `a distribui¸c˜ao de interesse.
Uma vez que a convergˆencia da cadeia tenha sido atingida, as amostras estar˜ao sendo geradas da distribui¸c˜ao estacion´aria.
A principal vantagem desta abordagem ´e a possibilidade de se fazer a an´alise bayesiana completa, o que significa tratamento formal da incerteza devida ao fato de que os hiperparˆametro θ s˜ao desconhecidos, sendo poss´ıvel integrarθ a fim de apresentar inferˆencia sobre(x1,· · · ,xT). Al´em disso, a estima¸c˜ao pontual e a estima¸c˜ao por intervalo deθ podem ser feitas com base na distribui¸c˜ao a posteriori.
Quando a distribui¸c˜ao condicional completa de um parˆametro de interesse est´a dispon´ıvel para amostragem, usualmente adota-se o amostrador de Gibbs, caso particular de algoritmo MCMC, descrito a seguir. Em MDLGs, entretanto, n˜ao se consegue amostrar a condicional completa dext. Existem algumas propostas de implementa¸c˜ao do amostrador de Gibbs para casos particulares e o algoritmo Metropolis Hastings ´e indicado para as aplica¸c˜oes em geral, tais algoritmos ser˜ao apresentados na subse¸c˜oes seguintes. Detalhes sobre m´etodos MCMC podem ser vistos em Gamerman e Lopes (2006).
A difus˜ao da aplica¸c˜ao destes m´etodos foi iniciada com o trabalho de Gelfand e Smith (1990), no qual foi feita uma compara¸c˜ao entre o amostrador de Gibbs, proposto inicialmente por Geman e Geman (1984), com outros esquemas de simula¸c˜ao estoc´astica. At´e ent˜ao, os trabalhos desenvolvidos eram baseados principalmente em aproxima¸c˜oes num´ericas e anal´ıticas. O avan¸co computacional na d´ecada de 1990 facilitou a populariza¸c˜ao de aplica¸c˜oes dos m´etodos bayesianos.
3.1.1 Amostrador de Gibbs
O amostrador de Gibbs foi proposto por Geman e Geman (1984), sendo popularizado por Gelfand e Smith (1990). O amostrador de Gibbs ´e um esquema iterativo de amostragem de uma cadeia de Markov, utilizando tal esquema para amostrar uma distribui¸c˜ao a posteriori p(x) do vetor parˆametrico x = (x1,x2,· · · ,xd)0, desde que as distribui¸c˜oes