Universidade Federal do Rio de Janeiro

(1)

Universidade Federal do Rio de Janeiro

Uma Comparac ¸˜ ao entre M´ etodos de Aproximac ¸ ˜ oes Determin´ısticas e

Estoc´ astica para Inferˆ encia Bayesiana em Modelos Dinˆ amicos Lineares

Generalizados

Teresa Villanueva Caballero

2013

(2)

Uma Comparac ¸˜ ao entre M´ etodos de Aproximac ¸ ˜ oes Determin´ısticas e

Estoc´ astica para Inferˆ encia Bayesiana em Modelos Dinˆ amicos Lineares

Generalizados

Teresa Villanueva Caballero

Disserta¸cão de Mestrado submetida ao Programa de Pós-Gradua¸cão em Estat´ıstica do Instituto de Matemática da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obten¸cão do grau de Mestre em Estat´ıstica.

Orientadora: Mariane Branco Alves

Rio de Janeiro Novembro 2013

(3)

(4)

(5)

A minha fam´ılia, em especial ao meus pais,` Juan e Flora.

(6)

Agradecimentos

A minha orientadora Mariane Branco Alves, obrigada pelo tempo que disponibilizou para` nossas reuniões, pela orienta¸cão acadêmica e paciência ao longo deste trabalho.

A minha fam´ılia, que sempre acreditou em mim. Aos meus pais, Juan e Flora, pelo amor,` carinho. Aos meus irm˜aos(as), pelo apoio incondicional, apesar da distˆancia.

Ao Alexéi, pelo amor, compreensão e que sempre me deu for¸ca nos momentos de desânimo, estresse e cujo carinho e amor foi essencial ao dar um sentido na minha vida.

A Mariana Albi de Oliveira Souza, agrade¸co por me fornecer a programa¸c˜` ao utilizada no seu relatorio t´ecnico. Ao Thiago Guerrera Martins, pela ajuda dada, mesmo `a distancia.

A todos meus amigos, e companheiros do DME que compartilharam comigo experiˆencias, momentos de dificuldade e de alegria. Em especial, Mariana, Aniel, Cristian, Pamela, Renata, Larissa, Kelly, Carlos e Arthur.

Agrade¸co a todos meus professores do programa de Pós-Gradua¸cão do DME-UFRJ, pelo valioso conhecimento transmitido, pelas maravilhosas aulas e toda a disponibilidade para ajudar. Em especial, aos professores Nei Rocha e Alexandra Schmidt, pelo compartilhamento de conhecimento das aulas didáticas que eles apresentam e fazem você pôr mais vontade de continuar estudando. Ao professor Dani Gamerman, pelo valioso conhecimento transmitido no estágio docente e pela compressão, ajuda nos momentos de dificuldade.

Agrade¸co às professoras Alexandra Schmidt e Glaura da Conceicao Franco, por aceitarem participar da banca e à professora Marina Silva Paez pela posi¸cão de suplente na banca.

Por fim, agrade¸co `a CAPES por ter financiado e possibilitaram o prosseguimento dos meus estudos.

(7)

Resumo

Nesta disserta¸cão, temos interesse em apresentar procedimentos de inferência Bayesiana na classe de modelos dinâmicos lineares generalizados. Muitas vezes, as distribui¸cões de interesse não são poss´ıveis de serem obtidas analiticamente, sendo necessário utilizar métodos de aproxima¸cão, tais como métodos determin´ısticos e estocásticos. Neste contexto, apresentamos os métodos INLA (Integrated Nested Laplace Aproximation), Linear Bayes (LB) e Monte Carlo via cadeia de Markov (MCMC). Particularmente, objetivamos comparar estes métodos para um modelo dinâmico Poisson com dados artificiais. Os três métodos capturam bem o comportamento da série de dados artificiais, mas o método LB difere do modelo ajustado por MCMC e INLA, pois nestes dois últimos métodos, pressupõe variâncias fixas no tempo e enquanto o LB varia ao longo do tempo e especificadas por meio de fator de desconto. Outra diferen¸ca entre os métodos deve-se, a que o LB processa informa¸cão em tempo real, já INLA e MCMC produzem inferência condicional a toda informa¸cão dispon´ıvel.

Além disso, estes últimos produzem inferência completa para os estados, diferentemente do LB, em que tal inferência resume-se a primeiro e segundo momentos, do vetor de estados.

Finalmente analisamos dois conjuntos de dados reais. O primeiro, trata do efeito de poluentes atmosféricos sobre contagem de óbitos de criancas menores de cinco anos por doen¸cas respiratórias, na cidade de São Paulo, usando os modelos Poisson e Poisson inflacionado de zeros. O segundo conjunto de dados trata de efeito de volumes diários de chuva sobre n´ıveis de polui¸cão. Para sua estima¸cão usamos os modelos Gama e Bernoulli.

Palavras-Chaves: Métodos Integrated Nested Laplace Approximation, métodos de Monte Carlo via cadeias de Markov, Linear Bayes, modelos de espa¸co de estados, inferência Bayesiana.

(8)

Abstract

In this work, are interested in presenting procedures for Bayesian inference in the class of generalized linear dynamic models. Often, distributions of interest are not available analytically, approximated methods are needed, such as methods deterministic and stochastic.

We present methods Integrated Nested Laplace Aproximation (INLA), Linear Bayes (LB) and Monte Carlo Markov Chain (MCMC). Particularly, we aimed to compare these methods for a dynamic Poisson model with simulated data. The three methods capture the behavior the series of artificial data, but the LB method differs from the adjusted model by MCMC and INLA, since these last two methods, presupposes fixed variances in time and while the LB varies over time and specified by the discount factor. Another difference between the methods is due, LB processes information in real time, already INLA and MCMC processes conditional inference all available information, Moreover, the latter produces full inference to the states, unlike LB, in which such inference comes down to first and second moments of the state vector.

Finally we analyze two real data sets. The first deals with the effect of air pollutants on count of deaths of under five children with respiratory diseases in the city of S˜ao Paulo,using the Poisson model and inflated Poisson models of zeros. The second set of data deals with effect daily volumes of rain about levels of pollution. For its estimation we use the Gamma and Bernoulli models.

Keywords: Method Integrated Nested Laplace Approximation, methods of Monte Carlo Markov chain, Linear Bayes, state-space modeling, Bayesian inference.

(9)

Sum´ ario

1 Introdu¸c˜ao 1

2 Modelos Dinˆamicos 5

2.1 Modelos Lineares Dinˆamicos . . . 5

2.1.1 Inferˆencia Para Modelos Lineares Dinˆamicos . . . 6

2.2 Modelos Lineares Generalizados . . . 7

2.3 Modelos Dinˆamicos Lineares Generalizados . . . 8

2.4 Métodos de Aproxima¸cão da Posteriori em Modelos Dinâmicos Lineares Generalizados . . . 9

2.4.1 Varia¸c˜oes do Filtro de Kalman . . . 9

2.4.2 Aproxima¸c˜ao Linear Bayes . . . 10

3 Métodos de Aproxima¸cão MCMC e INLA 21 3.1 Método de Aproxima¸cão MCMC. . . 22

3.1.1 Amostrador de Gibbs . . . 23

3.1.2 Algoritmo de Metropolis Hastings . . . 25

3.2 O M´etodo de Aproxima¸c˜ao INLA . . . 27

3.2.1 Parametriza¸cão adequada do vetor paramétrico e explora¸cão da grade 29 3.2.2 Aproxima¸cão para p(θ|y) . . . 31

3.2.3 Aproxima¸c˜ao para p(x_i|θ,y). . . 32

3.2.4 Algoritmo INLA . . . 33

3.3 Modelo Poisson Dinˆamico com dados artificiais, exemplo . . . 34

3.3.1 Prioris para os parˆametros fixos . . . 35

(10)

3.3.2 Prioris para variaveis gaussianas latentes . . . 36

3.3.3 Aproxima¸c˜ao Gaussiana para a distribui¸c˜ao Condicional Completax_t 38 3.3.4 Resultados . . . 40

4 Aplica¸cões com Dados Reais 48 4.1 Efeito de Monóxido de Carbono sobre Óbitos de Crian¸cas em São Paulo . . . 48

4.1.1 Formula¸c˜ao do Modelo Proposto . . . 51

4.1.2 Inferˆencia Bayesiana Utilizando INLA . . . 55

4.1.3 Escolha do melhor Modelo . . . 59

4.1.4 Resultados para o Modelo 1: Dinˆamica no N´ıvel . . . 61

4.2 Efeito de Chuva sobre N´ıveis de material Particulado no Rio de Janeiro . . . 68

4.2.1 Descri¸c˜ao dos Dados . . . 68

4.2.2 Modelo Gama . . . 71

4.2.3 Resultados do modelo . . . 71

4.2.4 Modelo Bernoulli . . . 77

4.2.5 Resultados do modelo . . . 77

5 Conclusões 85 A Códigos Usados para Dados Artificiais 87 A.1 Código usado pelo método Linear Bayes . . . 87

A.2 C´odigo usado em WinBUGS . . . 90

A.3 C´odigo usando a Biblioteca INLA . . . 91

B Código Usados aos Dados de Contagem de Óbitos 96 B.1 Código do modelo Poisson Tradicional . . . 97

B.2 C´odigo do modelo Poisson infla¸c˜ao-zeros do tipo 0 . . . 98

B.3 C´odigo do modelo Poisson infla¸c˜ao-zeros do tipo 1 . . . 98

C C´odigo Referentes aos Dados de Material Particulado 100 C.1 C´odigo do modelo Gama . . . 100

C.2 C´odigo do modelo Bernoulli . . . 102

(11)

Cap´ıtulo 1 Introdu¸ c˜ ao

Nos últimos anos, vários estudos têm evidenciado associa¸cão significativa entre a exposi¸cão à polui¸cão do ar e eventos adversos à saúde, com foco em exposi¸cão de curto prazo. Numerosos estudos epidemiológicos têm encontrado associa¸cões positivas entre os poluentes, tais como material particulado (P M₁₀) e monóxido de carbono (CO) e mortalidade ou morbidade, sendo muitas destas associa¸cões relacionadas com n´ıveis de polui¸cão que ultrapassam limiares de seguran¸ca, veja por exemplo, Vedal S e J. (2003), Dominici F e J. (2002) e Alves et al. (2010). Recentemente, a Agência Internacional de Pesquisas sobre o Câncer (IARC), vinculada à Organiza¸cão Mundial da Saúde (OMS), classificou a polui¸cão do ar exterior como uma causa de câncer. Estes estudos são tipicamente baseados em dados diários de uma região espec´ıfica e per´ıodo de tempo e a análise é efetuada utilizando métodos de regressão de séries temporais. Caso os dados de saúde estejam dispon´ıveis apenas como contagens diárias, no contexto epidemiológico, o modelo Poisson linear generalizado e modelos aditivos são o método padrão de análise. Pode-se ter interesse, ainda, na modelagem do n´ıvel diário de certo poluente atmosférico, podendo-se utilizar para tal fim, por exemplo, um modelo Gama linear generalizado. Um outro interesse, no mesmo contexto, pode ser a explica¸cão de uma resposta binária, como por exemplo, a ultrapassagem de um limiar de seguran¸ca, por um certo poluente atmosférico.

Na literatura estat´ıstica, muitos modelos são constru´ıdos sob a suposi¸cão de normalidade da variável resposta. Alternativas são necessárias para o tratamento de dados que não satisfa¸cam essa restri¸cão. Como descrito por Alves (2006), Nelder e Wedderburn (1972)

(12)

propuseram uma classe, denominada modelos lineares generalizados (MLG), permitindo que a distribui¸cão da variável resposta perten¸ca à fam´ılia exponencial. A fun¸cão de reposta média relaciona-se a um preditor linear por meio de uma transforma¸cão monótona e diferenciável, conhecida como fun¸cão de liga¸cão. Apesar da grande flexibiliza¸cão permitida pelos MLGs - se comparados aos tradicionais modelos lineares - estes ainda supõem independência da variável resposta sobre diferentes unidades observacionais. Por outro lado, os modelos dinâmicos lineares (MDL) West e Harrison (1997), que são um caso particular da classe de modelos de espa¸co de estados, Franco et al. (2009) pressupõem normalidade da variável resposta, mas tratam formalmente a autocorrela¸cão t´ıpica de dados de série temporal, ao permitir evolu¸cão aos parâmetros que controlam o preditor linear. A evolu¸cão desses parâmetros é tipicamente descrita por rela¸cões estocásticas markovianas. West et al. (1985) estendem tanto os MLGs quanto os MDLs, ao combinar uma estrutura observacional não necessariamente Gaussiana - mais especificamente, pertencente à fam´ılia exponencial, como nos MLGs - a uma estrutura de evolu¸cão dinâmica para os parâmetros, como nos MDLs.

Do ponto de vista de realiza¸cão de inferência bayesiana, a classe de modelos dinâmicos lineares generalizados apresenta dificuldades, pois não é poss´ıvel a obten¸cão anal´ıtica de distribui¸cão a posteriori de todas as quantidades latentes de interesse. Há várias alternativas na literatura para aproxima¸cão ou resumo da distribui¸cão a posteriori nesse contexto. Na década de 80, eram primordialmente utilizadas aproxima¸cões determin´ısticas, que se tornam mais complexas à medida em que a dimensão do vetor paramétrico aumenta. West et al.

(1985) propõem a metodologia linear bayes para realiza¸cão de inferência em MDLGs. Sua abordagem baseia-se na ado¸cão de uma distribui¸cão a priori conjugada para a resposta média e a avalia¸cão incompleta das distribui¸cões a priori e a posteriori do vetor de estados, apenas em termos de momentos de primeira e segunda ordens, evitando assim esfor¸co computacional para integra¸cão ou otimiza¸cão. Além do reduzido tempo computacional, permitindo realiza¸cão de inferência em tempo real, outra vantagem do método é a obten¸cão de distribui¸cões preditivas com forma anal´ıtica fechada, devido a propriedades de conjuga¸cão da fam´ılia exponencial (Migon e Gamerman 1999, pp 62-70). A perda em rela¸cão a métodos que exigem maior esfor¸co computacional, como MCMC, reside no fato de não se obter a distribui¸cão a posteriori para o campo latente de forma completa, mas apenas sua média e matriz de covariância, o

(13)

que permite a obten¸cão de estimativas intervalares. No método linear Bayes, todo o ciclo de inferência é baseado no conhecimento de hiperparâmetros ou na sua especifica¸cão por meio de alguma racionaliza¸cão, como por exemplo o uso de fatores de desconto (West e Harrison 1997, pp 193-202), para especifica¸cão de variâncias/covariâncias evolucionais. A especifica¸cão desses fatores pode não ser trivial.

Fahrmeir (1992), por outro lado, apresenta uma generaliza¸cão do filtro de Kalman estendido em modelos dinâmicos lineares generalizados multivariadas, para estimar os parâmetros de estado através de modas a posteriori.

A partir da década de 90, com avan¸cos computacionais, métodos aproximados baseados em simula¸cão - em particular os métodos de Monte Carlo via cadeias de Markov (MCMC), detalhados em Gamerman e Lopes (2006) - dominaram o cenário de aproxima¸cões para distribui¸cões a posteriori, nos casos em que estas são analiticamente intratáveis. Tais métodos buscam, a partir de núcleos de transi¸cão convenientes, a constru¸cão iterativa de uma cadeia de Markov homogênea, irredut´ıvel, ergódica, que tenha como distribui¸cão estacionária a posteriori de interesse. No caso dos modelos de espa¸co de estados, que pressupõem correla¸cão temporal entre seus parâmetros, a convergência de métodos MCMC para a distribui¸cão estacionária pode ser bastante lenta.

Devido ao elevado custo computacional dos métodos MCMC no contexto abordado, busca- se alternativas a estes, de forma a tornar a realiza¸cão de inferência bayesiana aproximada mais rápida e eficiente. Tem despertado grande interesse o trabalho deRue et al.(2009), propondo a realiza¸cão de inferência bayesiana por meio de aproxima¸cões determin´ısticas para modelos de espa¸co de estados com campos latentes Gaussianos, ou seja, aqueles em que se supõe que a evolu¸cão estocástica dos parâmetros de estado é ditada por uma distribui¸cão Gaussiana (mas a resposta, não necessariamente). Os autores relatam a obten¸cão de estimativas acuradas de hiperparâmetros e do campo latente, com tempos computacionais bastante reduzidos, em compara¸cão a longas cadeias obtidas via MCMC. Resende (2011) propõe uma extensão desse método para modelos de espa¸co de estados com campos latentes não Gaussianos, apresentando a base teórica da proposta, entretanto relata problemas computacionais que impediram a exemplifica¸cão do método ali proposto.

No presente trabalho, propomos uma compara¸c˜ao do m´etodo Linear Bayes, MCMC e

(14)

aproxima¸c˜ao determin´ıstica, como sugerem Rue et al. (2009), a duas aplica¸c˜oes de interesse no contexto de epidemiologia ambiental.

Este documento está organizado da seguinte forma: no cap´ıtulo 2, é apresentada a estrutura dos modelos dinâmicos lineares generalizados e discute-se as dificuldades relacionadas à sua estima¸cão, sob abordagem bayesiana e os métodos de aproxima¸cão da distribui¸cão a posteriori em MDLG, como o Linear Bayes. Já os métodos MCMC e INLA são descritos no cap´ıtulo 3, isto devido à importância neste trabalho, apresentando um exemplo de aplicão a dados Poisson artificialmente gerados, com base em um preditor estruturado em termos de um n´ıvel e uma covariável (CO) com efeito dinâmico. As estimativas obtidas via INLA são comparadas aquelas obtidas com os métodos LB e MCMC. No cap´ıtulo 4, apresentam-se dois conjuntos de dados reais com a metodologia descrita. Na se¸cão 4.1 apresenta-se um modelo de regressão dinâmica Poisson, em que se busca descrever o impacto de poluentes atmosféricos e variáveis climáticas sobre desfechos epidemiológicos, com diferentes estruturas preditivas. Na se¸cão4.2é apresentado um modelo Gama para quantificar o efeito cumulativo de volumes diários de chuva sobre o n´ıveis de material particulado e em seguida o modelo com resposta Bernoulli, para analisar fatores associados á ultrapassagem de um limiar de seguran¸ca no n´ıvel de material particulado. O cap´ıtulo 5 conclui este trabalho.

(15)

Cap´ıtulo 2

Modelos Dinˆ amicos

2.1 Modelos Lineares Dinˆ amicos

Na literatura bayesiana, os Modelos Lineares Dinâmicos (MLD) são conhecidos também como modelos de espa¸co de estados. Tais modelos foram introduzidos por Harrison e Stevens (1976), estão bem documentados em West e Harrison (1997) e constituem uma ampla classe paramétrica, com parâmetros variando no tempo, em que tanto a varia¸cão dos parâmetros quanto a informa¸cão a respeito de quantidades observáveis são descritas de uma forma probabil´ıstica. Os modelos lineares dinâmicos possuem estrutura hierárquica e são uma metodologia flex´ıvel para tratar problemas em análises de séries temporais, caracterizando-se através das seguintes equa¸cões:

Y_t = F⁰_tx_t+v_t, v_t∼N(0,V_t) (2.1a) x_t = G_txt−1+ω_t, ω_t∼N(0,W_t), , (2.1b) em que para t = 1, . . ., Y_t = (y₁, y₂, . . . , y_n) é o vetor de observa¸cões; x_t é um vetor p−dimensional denominado vetor de estados;F_té uma matriz dep×nde variáveis regressoras ou variáveis explicativas, cujos elementos são conhecidos; G_t é uma matriz quadrada de ordem p que descreve a evolu¸cão dos parâmetros de estado no tempo. As matrizes de covariância V_t e W_t, de ordem n e p, estão associadas ao erro observacional v_t e ao erro de evolu¸cão dos estados ω_t, respectivamente. Assume-se que os erros v_t eω_t, sejam serial e mutuamente independentes. O modelo completa-se com uma densidade a priori (x₁|D₀) ∼

(16)

N(a,R), em queD₀ denota a informa¸cão inicial dispon´ıvel ao analista. O modelo descrito em (2.1) é completamente especificado pela quádrupla {F_t,G_t,V_t,W_t} e de uma distribu¸cão a priori assumida para os parâmetros de estados. A equa¸cão (2.1a) é denominada equa¸cão da observa¸cão e relaciona o vetor de observa¸cões e componentes estruturais (como n´ıvel, tendência, sazonalidade etc.), tendo a forma de uma regressão multivariada e a equa¸cão (2.1b) é denominada equa¸cão de estados ou do sistema, responsável pela evolu¸cão do vetor de coeficientes de regressão (ou parâmetros de estado) ao longo do tempo.

De acordo com Migon et al. (2005), modelos dinâmicos podem ser vistos como uma generaliza¸cão de modelos de regressão, permitindo altera¸cões nos valores de parâmetros ao longo do tempo, por meio da introdu¸cão de uma equa¸cão que rege a evolu¸cão temporal da coeffcientes regressão.

2.1.1 Inferˆ encia Para Modelos Lineares Dinˆ amicos

Seja Y o vetor de obseva¸cões e x o vetor de parâmetros. De acordo com o paradigma bayesiano, assume-se uma distribui¸cão a priori p(x)¹ , a qual representa a incerteza inicial acerca do vetor de parâmetros, antes de queY seja observado, e a fun¸cão de verossimilhan¸ca do modelo, p(Y|x). A especifica¸cão de p(x) e p(Y|x) fornece um modelo probabil´ıstico, p(Y,x) =p(Y|x)p(x).

Tendo observado os dados Y que contêm informa¸cão acerca de x, pode-se usar Y para atualizar a informa¸cão acerca de x. Através do teorema de Bayes, encontra-se a distribu¸cão a posteriori dex, que contém toda informa¸cão probabil´ıstica de interesse sobre x, dada por

p(x|Y) = p(Y|x)p(x)

R p(Y|x)p(x)dx (2.2)

Em modelos lineares dinâmicos, a inferência segue os passos usuais em inferência bayesiana e é realizada en forma sequencial, combinando duas opera¸cões principais: evolu¸cão para construir, a cada instante, a priori e atualiza¸cão, para incorporar a nova observa¸cão no tempo t. Seja D_t =D_t−1∪y_t a informa¸cão dispon´ıvel no instante t. Então, para cada tempo t, a distribui¸cão a priori, preditiva a um passo e posteriori são, respectivamente:

1De fato,p(x|D₀), mas para simplicidade de nota¸c˜ao, omitimos o condicionamento no conjunto inicial de informa¸c˜ao,D0.

(17)

p(x_t|Dt−1) = Z

p(x_t|xt−1)p(xt−1|Dt−1)dxt−1 (2.3) p(y_t|Dt−1) =

Z

p(y_t|x_t)p(x_t|Dt−1)dx_t (2.4) p(x_t|D_t)∝p(y_t|x_t)p(x_t|Dt−1), (2.5) sendo a equa¸cão (2.5) obtida via teorema de Bayes. Essa forma simplificada do teorema de Bayes será útil em problemas que envolvam estima¸cão de parâmetros, já que o denominador é apenas uma constante normalizadora, às vezes facilmente obtida. Isso ocorre, em particular, no caso em que (F,G,V,W) são todos conhecidos e assumido-se normalidade dos erros.

O algoritmo resultante, neste caso, ´e conhecido como filtro de Kalman (Anderson e Moore, 1979).

Em geral, o medelo descrito em (2.1) é completamente especificado pela quádrupla {F_t, G_t, V_t, W_t}e de uma distribu¸cão a priori assumida para os parâmetros de estados. Mas, geralmente,V_t, W_te em alguns casos elementos deF_teG_t não são conhecidos, o que implica que a inferência não pode ser feita de forma anal´ıtica. Estas quantidades desconhecidas são chamadas de hiperparâmetros.

2.2 Modelos Lineares Generalizados

A classe dos modelos lineares tem por objetivo analisar a influência de covariáveis em uma determinada variável resposta através de uma rela¸cão linear nos parâmetros que governam os impactos de tais regressoras. Uma suposi¸cão usual, porém frequentemente inadequada, é a de que as variáveis resposta a serem modeladas seguem distribui¸cão Normal.

Uma extensão dos modelos lineares permite modelar observa¸cões descritas por membros da fam´ılia exponencial. Esta classe de modelos é conhecida como Modelos Lineares Generalizados (MLG), introduzida por Nelder e Wedderburn (1972). A ideia básica consiste em ampliar a gama de op¸cões para a distribui¸cão da variável resposta, sendo a mesma pertencente à fam´ılia exponencial, por um conjunto de covariáveis independentes, às quais é aplicada uma estrutura linear e dar flexibilidade para a rela¸cão funcional entre a média da variável resposta e o preditor

(18)

linear. A média passa a ser relacionada a um preditor linear após passar por uma transforma¸cão monótona e diferenciável, denominada fun¸cão de liga¸cão g.

Considere-se Y_t, para cada t = 1, . . . , T, a variável resposta e F_t o vetor de covariáveis no instante t. A estrutura para o modelo linear generalizado univariado é dada por:

p(y_t|η_t, φ) = exp[φ{y_tη_t−a(η_t)}]b(y_t, φ), (2.6) em que η_t é o parâmetro natural da distribu¸cão de y_t, satisfazendo

E[Y_t|η_t, φ] = µ_t= ˙a(η_t) (2.7a) V[Y_t|η_t, φ] = ä(η_t)/φ (2.7b) e φ é denominado parâmetro de escala. Um modelo linear generalizado é composto pela estrutura observacional (2.6), combinada a um preditor linear λ_t, determinado por um vetor (p×1)de regressoras conhecidas F_t:

g(η_t) = λ_t=F⁰_tx, (2.8)

sendo xum vetor latente de parâmetros a estimar, de ordem (p×1), eg(.)uma fun¸cão de liga¸cão monótona e diferenciável. O modelo completa-se com a hipótese de que os Y_t⁰s, condicionalmente a η_t, t= 1, . . . , T e φ, sejam independentes e identicamente distribu´ıdos.

2.3 Modelos Dinˆ amicos Lineares Generalizados

West et al.(1985) formalizaram uma extensão dos modelos lineares dinâmicos (MLD) para observa¸cões que perten¸cam à fam´ılia exponencial, baseados no modelo linear generalizado de Nelder e Wedderburn(1972), fazendo poss´ıvel a utiliza¸cão destes modelos para variados tipos de problemas.

Os modelo dinâmicos lineares generalizados (MDLG) contornam a restri¸cão gaussiana do modelo linear e atribuem tratamento formal à autocorrela¸cão serial, ao substutituir a especifica¸cão do preditor linear em termos de quantidades latentes x estáticas, como em (2.8), pela dinâmica:

g(η_t) = λ_t =F⁰_tx_t, (2.9)

(19)

adicionando ainda à formula¸cão do modelo uma equa¸cão de evolu¸cão ou sistema, descrevendo a forma de atualiza¸cão do campo latente dinâmico:

x_t=G_txt−1 +ω_t, ω_t∼N[0,W_t], (2.10) em que G_té uma matriz de transi¸cão, suposta conhecida e de ordem(p×p)e W_t a matriz de covariâncias de ordem(p×p), associada aos erros de evolu¸cão, ωt, dos estados ou campo latente x_t.

No caso de MLGD as integrais em (2.3),(2.4) e (2.5) não podem ser obtidas analiticamente, e assim a inferência não pode ser feita de forma exata. Muitas propostas para resolver este problema têm sido apresentadas na literatura. Nas subse¸cões seguintes apresentam-se algumas delas.

2.4 M´ etodos de Aproxima¸ c˜ ao da Posteriori em Modelos Dinˆ amicos Lineares Generalizados

Modelos dinâmicos introduzidos na se¸cão 2.1.1 permitem a inferência completa apenas quando o F_t, G_t e W_t são totalmente conhecidas e, ainda, sob suposi¸cão de normalidade dos erros. Em geral, quando estas quantidades ou outras quantidades são desconhecidas (hiperparâmetros) e a inferência sobre eles devem basear-se na distribui¸cão a posteriori, essa distribui¸cão não tem solu¸cão anal´ıtica.

No que segue apresentamos uma revisão de alguns métodos adotados para aproxima¸cões de distribui¸cões a posteriori para os MLGD.

2.4.1 Varia¸ c˜ oes do Filtro de Kalman

Fahrmeir (1992) apresenta uma generaliza¸cão do filtro de Kalman estendido em modelos dinâmicos lineares generalizados multivariado, para estimar os parâmetros de estado através da moda a posteriori.

O algoritmo é aplicado sequencialmente e proporciona uma aproxima¸cão da moda a posteriori. A utiliza¸cão do estimador da moda a posteriori, é apenas para evitar a integra¸cão

(20)

numérica. Para estimar o hiperparâmetro é proposto um procedimento baseado em um algoritmo tipo-EM, Junger(2002).

Para estimar os parâmetros de espa¸co de estado, Singh e Roberts (1992) propuseram uma aplica¸cão iterativa do filtro Kalman linear a modelos dinâmicos lineares generalizados, modificando a equa¸cão observacional (2.6) por:

ey_t =F⁰_tx_t+ve_t, ev_t ∼N(0,Ve_t), (2.11) em que ye_t são observa¸cões modificadas, dadas por uma aproxima¸cão linear das observa¸cões, segundo:

eyt=ηt+ (yt−µt) ˙g(µt) (2.12) e com variˆancias associadas:

Ve_t=Ve_t(x_t) = ¨a

φ_t(η_t)[g⁰(µ_t)]² (2.13) com g˙ e ¨a indicando a primeira e a segunda derivada das fun¸c˜oes g e a, respectivamente.

Estas observa¸cões e variâncias modificadas são definidas a cada itera¸cão usando os valores de x_testimados em itera¸cões anteriores, pelo filtro de Kalman. Singh e Roberts(1992) estimam W_t =W utilizando uma abordagem baseada em momentos.

Fahrmeir (1997) também trabalhou na obten¸cão da moda a posteriori dos parâmetros de estado para MLGD multivariado. Eles mostraram que o algoritmo proposto por Singh e Roberts (1992) leva à moda a posteriori dos parâmetros de estado condicionado em um valor fixo W. Eles também mostraram que a generaliza¸cão do filtro de Kalman estendido de Fahrmeir(1992) é um caso especial deste algoritmo com apenas uma itera¸cão e uma escolha conveniente dos valores iniciais. Eles sugerem a utiliza¸cão de um procedimento com base no critério de valida¸cão cruzada generalizada para estimar hiperparâmetros.

2.4.2 Aproxima¸ c˜ ao Linear Bayes

West et al. (1985) propuseram uma aproxima¸cão baseada em linear Bayes. Esta ideia foi também descita por Migon e Harrison (1985) dentro do contexto de modelos não-lineares

(21)

dinâmicos normais e é um dos métodos aplicados neste trabalho, portanto passamos a descrevê-lo mais detalhadamente.

Suponha-se que o modelo de amostragem no tempo ttem a forma (2.6) e admita-se que uma distribui¸cão a priori conjugada, denotada por (η_t|Dt−1)∼ CP[r_t, s_t] seja adotada para o parâmetro natural ou canônicoη_t

p(η_t|Dt−1) =C(r_t, s_t)exp[r_tη_t−s_ta(η_t)] (2.14) para algum par r_t e s_t. A extensão dinâmica natural de um modelo linear generalizado pressupõeg(η_t) =λ_t=F⁰_tx_t, mas tal especifica¸cão imporia severas restri¸cões à priori de η_t. Ao invés disso, West et al. (1985) utilizam a liga¸cão entre g(η_t) e λ_t apenas como um guia para formar a priori para η_t, passando a denotar tal rela¸cão guia por g(η_t)≈λ_t.

Ainda, suponha-se que as distribui¸c˜oes a priori e a posteriori do vetor de estados agora n˜ao sejam necessariamente normais, mas que, por analogia ao modelo Gaussiano, sejam especificadas apenas pelos momentos de primeira e segunda ordens do vetor de estados x_t, dadas por

(xt−1|Dt−1)∼[mt−1,Ct−1], (2.15) (x_t|Dt−1)∼[a_t, R_t], (2.16) em que:

at=Gtmt−1 and Rt =GtCt−1G⁰_t+Wt. (2.17) Nesse ponto, os autores sugerem o uso de fatores de desconto para contornar o problema de especifica¸cão ou estimativa de W_t. A ideia de fatores de desconto é especificar uma quantidade que descreva a perda do valor de observa¸cões passadas para a inferência a cada instante. Mais especificamente, segundo West e Harrison (1997), observando-se que

V[x_t−1|D_t−1] =C_t−1

e

V[x_t|D_t−1] =G_tC_t−1G⁰_t+W_t,

denotando-se a primeira parcela no lado direito da equa¸c˜ao acima por P_t, tem-se

R_t=P_t+W_t (2.18)

(22)

eW_t, portanto, representa a infla¸cão na incerteza ao se passar do instante t−1 ao instante t, condicionalmente ao mesmo conjunto de informa¸cão,Dt−1. Assim, tomando-se0< δ ≤1, tal infla¸cão poderia ser representada por

R_t= P_t

δ . (2.19)

Igualando-se (2.18) e (2.19), tem-se

W_t= 1−δ δ P_t.

Portanto, condicional a P_t e arbitrando-se δ, W_t fica completamente especificada. West e Harrison(1997)[pp. 196-8] estendem essa ideia, permitindo especifica¸cão de diferentes fatores de desconto δ_j para cada bloco estrutural em um preditor, permitindo trajetórias mais suaves (δ_j ≈ 1) ou mais voláteis, como em West et al. (1985), que definem uma matriz diagonal B_t, de dimensão p×p, cujos elementos são √¹

δj

,0< δ_j ≤1, j = 1, . . . , p.

Logo, reescrevendo (2.17), temos

a_t=G_tmt−1 and R_t =B_tG_tCt−1G⁰_tB_t, (2.20) com a matriz de transi¸cão G_t e matriz de descontos B_t conhecidos. Note-se que a representa¸cão (2.10) pode ser utilizada, mas evidentemente, ω_t não é necessariamente normal. Além disso,a distribui¸cão completa do vetor de estados não é especificada; apenas a média e matriz de covariância são assumidas. Finalmente, a distribui¸cão a priori para g(η_t) =λ_t=F⁰_tx_t é dada por

λ_t|Dt−1 ∼[f_t, q_t], (2.21)

em que

f_t=E[λ_t|D_t−1] =F⁰_ta_t, q_t=V [λ_t|D_t−1] =F⁰_tR_tF_t,

e

S_t=C[λ_t,x_t|D_t−1] =R_tF_t.

Neste ponto, a priori para o parâmetro natural η_t está apenas parcialmente especificada, tendo a forma (2.14), sem qualquer restri¸cão sobre os valores de r_t e s_t. Estes valores são

(23)

escolhidos com base na rela¸cão g(η_t) ≈ λ_t, que fixa os dois primeiros momentos de g(η_t) determinando r_t es_t. A rela¸cão guia sugere os valores de f_te q_t, para estes momentos eS_t, para a covariância entreg(η_t) e x_t.

Com base nessa especifica¸cão, é imediato que a distribui¸cão preditiva tem a forma:

p(y_t|Dt−1, φ) = c(rt, st)

c(r_t+φy_t, s_t+φ)b(y_t, φ), (2.22) podendo ser diretamente obtida, e a distribu¸cão a posteriori para (η_t|D_t) é a congujada atualizada da forma η_t|D_t ∼ CP(r_t+φy_t, s_t+φ). Uma análise bayesiana completa requer também a posteriori para(x_t|D_t), mas esta não está dispon´ıvel porque a priori para(x_t|Dt−1)

´

e apenas parcialmente especificada e o modelo não fornece verossimilhan¸ca parax_t. O modelo desenvolvido até agora, no entanto, não requer a especifica¸cão completa para prosseguir para o tempo (t+ 1), apenas a média e matriz de covariância de (x_t|D_t) são necessárias e estas satisfazem as identidades

m_t=E[E[x_t|η_t, D_t]] (2.23) e

C_t=V [E[x_t|η_t, D_t]] +E[V [x_t|η_t, D_t]] (2.24) Além disso, assim como no caso normal, (x_t|η_t, D_t) é condicionalmente independente de It={Yt,Ft}, e comoDt={It, Dt−1}, tem-se que os momentos condicionais nas esperan¸cas internas em (2.23) e (2.24) são(x_t|η_t, Dt−1). Em geral, estes momentos serão desconhecidos, fun¸cões não lineares de ηt, sendo a única informa¸cão dispon´ıvel aquela que diz respeito aos momentos conjuntos de (g(η_t),x⁰_t|Dt−1),



 g(η_t)

x_t

|Dt−1



∼







 f_t a_t



,





q_t S⁰_t S_t R_t







 , (2.25)

onde a matriz de covariância completa é singular. Na base desta informa¸cão por si, uma abordagem alternativa é necessária para que a informa¸cão em I_t possa ser filtrada de volta para x_t.

(24)

Atualiza¸c˜ao do campo latente

O método linear Bayes pode ser aplicado no modelo anterior para fornecer feedback das informa¸cões em I_t para x_t. A densidade de p(x_t|η_t, Dt−1) é a distribui¸cão desconhecida preditiva de x_t, dado η_t; a média é o preditor ótimo, no sentido de minimizar o tra¸co da fun¸cão de risco quadrática[A_t(d)] em rela¸cão a d, em que:

A_t(d) = E

(x_t−d) (x_t−d)⁰|η_t, Dt−1

. (2.26)

A matriz de covariância da distribui¸cão é o valor de A_t(d) na média.

Agora, uma vez que a média é desconhecida, um preditor alternativo é procurado através da abordagem linear Bayes. Tendo em vista a rela¸cão (2.9) e a constru¸cão de η_t, é natural que se adote uma fun¸cão linear de g(η_t)como preditor de x_t. Especificamente, suponha que d deva ser escolhido de tal modo que d =d₀+d₁g(η_t) para algum d₀ e d₁ e que, em vez de (2.26),d minimize o risco global quadrático (ou soma de variâncias) dado por

r_t(d) = tra¸coE[A_t(d)|Dt−1], onde a esperan¸ca ´e com rela¸c˜ao a p(η_t|D_t−1).

Neste modelo, os momentos conjuntos (2.25) são suficientes para determinar o preditor requerido. Diretamente minimizando r_t(d)em rela¸cão ad₀ ed₁, obtém-se um único m´ınimo em d= â_t, onde

ˆ

a_t=a_t+S_t(g(η_t)−f_t)/q_t (2.27) o valor de E[A_t(d)|Dt−1]no m´ınimo ´e dado por

Rc_t=R_t−S_tS⁰_t/q_t (2.28)

Os valores aˆ_te R_t, fornecem um preditor linear ótimo dex_t|η_t, Dt−1 e a medida do risco associado é um problema não linear. A alimenta¸cão da informa¸cão de I_t, pode agora ser completada substituindo-se a média condicional e matriz de covariância em (2.23) e (2.24) por aˆ_t e Rb_t para se obter o preditor esperado e risco, dados por:

(25)

m_t =a_t+S_t(g_t−f_t)/q_t C_t =R_t−S_tS⁰_t(1−p_t/q_t)/q_t,

onde g_t =E[g(η_t)|D_t] e p_t =V [g(η_t)|D_t] s˜ao calculadas pela posteriori conjugada de (η_t, D_t).

Modelo Poisson Dinamico

No cap´ıtulo 3, o método proposto por West et al. (1985) será aplicado a contagens epidemiológicas. Suponha-se, em particular, que tais observa¸cões sigam uma distribui¸cão Poisson com média λ_t. O modelo é definido pelas seguintes quatro componentes: equa¸cão de observa¸cão, distribui¸cão a priori, fun¸cão de liga¸cão e a evolu¸cão de estados.

Considere os seguintes componentes essenciais do an´alise para o modelo dinˆamico Poisson:

• Modelo observacional

y_t ∼ P oisson(λ_t)

p(y_t|λ_t) = exp[y_tlog(λ_t)−λ_t] 1

y_t!, (2.29)

em que φ = 1, η_t = logλ_t com η_t parˆametro natural e a(η_t) = λ_t = e^η^t, sendo a m´edia e variancia E[y_t|η_t, φ] = µ_t = a⁰(η_t) = e^η^t =λ_t e V[y_t|η_t, φ] = a⁰⁰(η_t)/φ = e^η^t respectivamente.

• Priori para (η_t|Dt−1)∼CP[r_t, s_t].

No caso Poisson, especificamos uma priori log-Gama paraη_t, ou seja, uma priori Gama para λ_t:

λ_t|Dt−1 ∼ CP[r_t, s_t] =gama(r_t, s_t)

O par(α_t, β_t)´e deduzido usando propriedades da fam´ılia exponencial.

• A fun¸cão de liga¸cão e a equa¸cão do sitema:

η_t = log(λ_t) =F_t⁰x_t

x_t = G_txt−1+w_t∼[0,W_t],

(26)

A fim de iniciar o procedimento de estima¸cão seqüencial precisamos a informa¸cão inicial de x₀.

• Informa¸c˜ao inicial:

(x₀|D₀)∼(m₀,C₀),

A natureza sequencial de modelos dinâmicos é conseguida através da ciclagem de três passos: evolu¸cão, equaliza¸cão dos parâmetros e atualiza¸cão, a partir de t = 1,· · · , T. As distribui¸cões são apenas parcialmente especificadas em termos de seus momentos. Para um determinado tempo t, os passos (1)-(3) são descritos a seguir.

1. Evolu¸c˜ao:

• Prioris para o parˆametro de estado e do preditor linear:

x_t|D_t−1 ∼ [a_t, R_t] η_t|D_t−1 ∼ [f_t, q_t]

• Priori para λt: já que o parâmetro λt > 0 é real positivo, uma escolha natural para a priori é a fam´ılia gama: (λ_t|Dt−1) ∼ CP[r_t, s_t] = gama(r_t, s_t), em que rt, st>0. Os seus dois primeiros momentos são conhecidos e serão utilizados na solu¸cão de um sistema não linear simples, a fim de obter os valores dos parâmetros (rt, st) consistentes com(ft, qt), os momentos de (ηt|Dt−1). Os detalhes sobre a solu¸cão do sistema não-linear são descritos no próximo passo.

2. Equaliza¸c˜ao dos parˆametros:

Considerando-se que o preditor linear está relacionado com a média da distribui¸cão observacional por meio de uma fun¸cão de liga¸cão, alguma aproxima¸cão é necessária para determinar os hiperparâmetros r_t e s_t da distribui¸cão a priori de λ_t.

Da priori de(η_t|Dt−1)e a transforma¸cãoη_t=log(λ_t)obtemos a priori(λ_t|Dt−1)como uma distribui¸cão gama, isto é (λ_t|D_t−1) =gama(r_t, s_t) com densidade

(27)

p(λ_t|Dt−1) = s^r_t^t

Γ(rt)λ^r^t⁻¹exp(−s_tλ_t),

O par(r_t, s_t)´e deduzido usando propriedades da fam´ılia exponencial, isto ´e,

p(λt|Dt−1) = exp

(rt−1)log(λt)−stλt+log s^r_t^t

Γ(r_t)

e η_t =log(λ_t), ent˜ao temos:

p(ηt|Dt−1) = exp



rtlog(λt)

| {z }

ηt

−st λt

|{z}

exp(ηt)

+log s^r_t^t

Γ(r_t)





com

T = (T₁(λ_t), T₂(λ_t)) = (logλ_t,−λ_t) b(r_t, s_t) = −r_tlog(s_t) +logΓ(r_t).

Ent˜ao,

E[T₁] = ∂b

∂rt

=−log(s_t) +ψ(r_t)

E[T₂] = ∂b

∂s_t =−r_t s_t V[T₁] = ∂²b

∂r²_t =ψ⁰(r_t) V[T₂] = ∂²b

∂s²_t = r_t s²_t Cov[T2] = ∂²b

∂s_t∂r_t =−1 s_t,

com ψ(z) a fun¸cão digamma, definida por ψ(z) = ^dlog(Γ(z))_dz e ψ⁰(z) = ^dψ(z)_dz , a fun¸cão trigamma (Abramowitz e Stegun (1964)). Da teoria associada à fam´ılia exponencial, temos

(28)

f_t = E[η_t|Dt−1] =E[log(λ_t)|Dt−1]

= E[T₁] =−log(s_t) +ψ(r_t) q_t = V[η_t|Dt−1] =V[log(λ_t)|Dt−1]

= V[T₁] =ψ⁰(r_t)

Com base na avalia¸cão da média e variância de log(λ_t) e uma aproxima¸cão numérica da fun¸cão digamma dada por ψ(z) ≈ log(z) e ψ⁰(z) ≈ z⁻¹ segundo Abramowitz e Stegun(1964), temos

f_t ≈ −log(s_t) +log(r_t) = log r_t

s_t

(2.30) q_t ≈ 1

rt

(2.31) Resolvendo as equa¸c˜oes (2.33) e (2.31) , temos

rt= 1

q_t, st=exp −f_t

q_t

(2.32) com isso temos a priori conjugada paraλ_t´e completamente especificada e(η_t|Dt−1)∼ h

f_t=log

rt

st

, q_t= _r¹

t

i .

3. Distribui¸c˜ao preditiva um passo `a frente:

A distribui¸cão incondicional da distribui¸cão preditiva um passo à frente é obtida através da integra¸cão de λ_t:

(29)

p(y_t|Dt−1) = Z

p(y_t, λ_t|Dt−1)dλ_t = Z

p(y_t|λ_t, Dt−1)p(λ_t|Dt−1)dλ_t

∝

Z 1

y_t!exp(−λt)λ^y_t^ts^r_t^tλ^r_t^t⁻¹

Γ(r_t) e^−s^t^λ^tdλt

∝ s^r_t^t Γ(r_t)y_t!

Z

λ^(y_t ^t^+r^t⁾⁻¹e^−(s^t^+1)λ^tdλ_t

∝ s^r_t^t

Γ(r_t)y_t!× Γ(yt+rt)t

(1 +s_t)^y^t^+r^t, ent˜ao p(y_t|Dt−1) = Γ(y_t+r_t)_t

Γ(y_t+ 1)Γ(r_t) s_t

s_t+ 1 rt

1 s_t+ 1

yt

,

que ´e uma distribui¸c˜ao binomial negativa, denotada por y_t|Dt−1 ∼ Bin neg r_t,_s¹

t+1

. A média e a variância da distribui¸cão preditiva podem ser calculadas usando esperan¸cas condicionais, isto é,

E(y_t|D_t−1) = E(E(y_t|λ_t)|D_t−1) = r_t s_t

V(y_t|Dt−1) = E(V(y_t|λ_t)|Dt−1) +V (E(y_t|λ_t)|Dt−1) = r_t(s_t+ 1) s²_t . 4. Atualiza¸c˜ao:

• Posteriori para λ_t: A distribui¸c˜ao posterior de λ_t ´e obtida usando o teorema de Bayes. Seja

p(λ_t|D_t) = p(yt|λt, Dt−1)p(λt|Dt−1) p(y_t|Dt−1)

∝ p(y_t|λ_t, Dt−1)p(λ_t|Dt−1)

∝ 1

y_t!exp(−λ_t)λ^y_t^ts^r_t^tλ^r_t^t⁻¹

Γ(r_t) e(−s_tλ_t)

∝ s^r_t^t

Γ(y_t+ 1)Γ(r_t)λ^y_t^t^+r^t⁻¹exp(−(s_t+ 1)λ_t)

que é a distribui¸cão gama, denotada por λ_t|D_t ∼ gama(y_t+r_t, s_t+ 1). Da teoria associada à fam´ılia exponencial e por analogia, o cálculo deg_t ep_t que são a média e a variância a posteriori do preditor linear η_t, respectivamente, temos

(30)

g_t = E[η_t|D_t] =E[log(λ_t)|D_t] =−log(s_t+ 1) +ψ(y_t+r_t) p_t = V[η_t|D_t] =V[log(λ_t)|D_t] =ψ⁰(y_t+r_t),

que podem ser calculados recursivamente, pois:

ψ(z) = ψ(z+ 1)−z⁻¹ ψ⁰(z) =ψ⁰(z+ 1) +z⁻².

Utilizando a aproxima¸cão numérica da fun¸cão digamma dada porψ(z)≈log(z) + (2z)⁻¹ eψ⁰(z)≈ ¹_z −_2z¹2 segundo Abramowitz e Stegun (1964), temos

g_t = −log(s_t+ 1) +ψ(y_t+r_t)

≈ −log(s_t+ 1) +log(y_t+r_t) + 1 2(y_t+r_t)

= log

y_t+r_t s_t+ 1

+ 1

2(y_t+r_t) p_t = ψ⁰(y_t+r_t)≈ 1

(yt+rt) − 1 2(yt+rt)²

= 2(y_t+r_t)−1 2(y_t+r_t)²

• Atualiza¸cão dos estados: A distribui¸cão conjunta de xt e ηt é parcialmente especificada e obtida a partir dos resultados anteriores. O método de estima¸cão linear bayesianaWest e Harrison(1997) podem ser utilizados para obter xt|Dt∼ [m_t,C_t].

com mt =at+St(gt−ft)/qt e Ct=Rt−StS⁰_t(1−pt/qt)/qt.

• Transi¸c˜ao de estado: a_t=G_tmt−1 eR_t=B_tG_tCt−1G⁰_tB_t.

Outros métodos de aproxima¸cão de inferência bayesiana são os métodos de simula¸cão estocástica, em particular os métodos de Monte Carlo via Cadeias de Markov (MCMC) e o método determin´ısticoIntegrated Nested Laplace Approximation (INLA). Estos métodos são centrais nesta disserta¸cão e são desenvolvidos de forma mas detalhada no cap´ıtulo3.

(31)

Cap´ıtulo 3

M´ etodos de Aproxima¸ c˜ ao MCMC e INLA

Neste cap´ıtulo, descrevemos os métodos de aproxima¸cão MCMC e INLA para realizar inferência bayesiana completa em uma classe de modelos de espa¸co de estados. Em termos gerais os métodos de Monte Carlo via Cadeias de Markov (MCMC), baseados em simula¸caõ estocástica que estão relacionados ao processo de obten¸cão de amostras da distribui¸cão a posteriori para sumarizar informa¸cão e que são descritos de forma detalhada por Gamerman e Lopes (2006). Por outro lado o método de aproxima¸cão determin´ıstico, Integrated Nested Laplace Approximation (INLA), proposto por Rue et al. (2009), combinando aproxima¸cões Laplace e integra¸cão numérica tornando este método eficiente (ver Rue e Martino (2007), Rue et al. (2009), para um tratamento mais extenso).

O método de aproxima¸cão INLA, calcula diretamente aproxima¸cões muito precisas para as marginais a posteriori de interesse, não passando por atualiza¸cão recursiva, como métodos baseados em varia¸cões do filtro de Kalman ou por procedimento iterativo, como métodos MCMC. Em comum com esses últimos, o INLA fornece a posteriori dos estados e hiperparâmetros com respeito a toda a amostra observada, mas seu principal benef´ıcio é o tempo computacional reduzido, em compara¸cão a métodos MCMC. Os métodos MCMC, em contrapartida, aplicam-se a classes mais abrangentes, não sujeitas às imposi¸cões descritas a seguir sobre a forma dos modelos tratáveis via INLA.

Na se¸cão3.1 apresentamos o método MCMC e na se¸caõ3.2 apresentamos a metodologia

(32)

INLA, e para a ilustra¸cão dos métodos, exibimos uma aplica¸cão com dados artificias, em que a variável resposta não-gaussiana segue uma distribui¸cão Poisson. No dado artificial, apresentamos compara¸cão entre os métodos INLA, MCMC e Linear Bayes (LB) comentando restri¸cões do LB em rela¸cão aos demais, e ganho de eficiência computacional ao se usar o método INLA, ao invés de MCMC.

3.1 M´ etodo de Aproxima¸ c˜ ao MCMC

Em modelos dinâmicos, como vimos no cap´ıtulo anterior, no caso que F_t,G_t,W_t são totalmente conhecidas, sob normalidade dos erros e se uma forma conjugada é imposta a V_t = V, ∀t, então tem-se inferência bayesiana completa, de forma anal´ıtica. E natural´ assumir-se, entretanto, que W_t seja desconhecida. Uma alternativa é a especifica¸cão de W_t por meio de fatores de desconto, como descrito na se¸cão anterior, mas pode-se ter interesse na estima¸cão de W_t ou de quantidades desconhecidas em F_t e G_t. Ainda, a suposi¸cão de normalidade dos erros pode não ser válida. Nesse caso, não há forma anal´ıtica fechada para distribui¸cões a priori, preditiva e posteriori.

Em particular, no caso MDLG, devido à verossimilhan¸ca constru´ıda com base na fam´ılia exponencial, associada a prioris não conjugadas, não se obtém forma fechada para a densidade a posteriori de diversos parâmetros, ao contrário do que ocorre nos modelos dinâmicos normais Alves (2006).

Em inferência bayesiana, os problemas não solucionados analiticamente podem ser resolvidos usando métodos de simula¸cão que estão relacionados ao processo de obten¸cão de amostras de distribui¸cões a posteriori. Os métodos de Monte Carlo via Cadeias de Markov (MCMC) são métodos de simula¸cão estocástica, amplamente utilizados na inferência bayesiana nas duas últimas décadas, quando se tem interesse em simular amostras de uma determinada distribui¸cão a posteriori, a qual não possui forma anal´ıtica conhecida.

A idéia básica do método MCMC consiste em construir uma cadeia de Markov que, por meio de escolhas adequadas de núcleos de transi¸cão, tenha como distribui¸cão estacionária a distribui¸cão de interesse: no contexto bayesiano, a distribui¸cão a posteriori. Tais métodos requerem ainda que a cadeia de Markov seja homogênea (as probabilidades de transi¸cão de

(33)

um estado para outro são invariantes), irredut´ıvel (cada estado pode ser atingido a partir de qualquer outro em um número finito de itera¸cões) e aperiódica(não haja estados absorventes), cuja distribui¸cão estacionária seja igual à distribui¸cão de interesse.

Uma vez que a convergência da cadeia tenha sido atingida, as amostras estarão sendo geradas da distribui¸cão estacionária.

A principal vantagem desta abordagem é a possibilidade de se fazer a análise bayesiana completa, o que significa tratamento formal da incerteza devida ao fato de que os hiperparâmetro θ são desconhecidos, sendo poss´ıvel integrarθ a fim de apresentar inferência sobre(x₁,· · · ,x_T). Além disso, a estima¸cão pontual e a estima¸cão por intervalo deθ podem ser feitas com base na distribui¸cão a posteriori.

Quando a distribui¸cão condicional completa de um parâmetro de interesse está dispon´ıvel para amostragem, usualmente adota-se o amostrador de Gibbs, caso particular de algoritmo MCMC, descrito a seguir. Em MDLGs, entretanto, não se consegue amostrar a condicional completa dex_t. Existem algumas propostas de implementa¸cão do amostrador de Gibbs para casos particulares e o algoritmo Metropolis Hastings é indicado para as aplica¸cões em geral, tais algoritmos serão apresentados na subse¸cões seguintes. Detalhes sobre métodos MCMC podem ser vistos em Gamerman e Lopes (2006).

A difusão da aplica¸cão destes métodos foi iniciada com o trabalho de Gelfand e Smith (1990), no qual foi feita uma compara¸cão entre o amostrador de Gibbs, proposto inicialmente por Geman e Geman (1984), com outros esquemas de simula¸cão estocástica. Até então, os trabalhos desenvolvidos eram baseados principalmente em aproxima¸cões numéricas e anal´ıticas. O avan¸co computacional na década de 1990 facilitou a populariza¸cão de aplica¸cões dos métodos bayesianos.

3.1.1 Amostrador de Gibbs

O amostrador de Gibbs foi proposto por Geman e Geman (1984), sendo popularizado por Gelfand e Smith (1990). O amostrador de Gibbs é um esquema iterativo de amostragem de uma cadeia de Markov, utilizando tal esquema para amostrar uma distribui¸cão a posteriori p(x) do vetor parâmetrico x = (x₁,x₂,· · · ,x_d)⁰, desde que as distribui¸cões