• Nenhum resultado encontrado

Modelos para Dados de Contagem com Estrutura Temporal

N/A
N/A
Protected

Academic year: 2021

Share "Modelos para Dados de Contagem com Estrutura Temporal"

Copied!
181
0
0

Texto

(1)

Modelos para Dados de Contagem com

Estrutura Temporal

Jo˜

ao Batista de Morais Pereira

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´etodos Estat´ısticos

2010

(2)
(3)

Pereira, João Batista de Morais

P436 Modelos para dados de contagem com estrutura

temporal / João Batista de Morais Pereira. -- Rio de

Janeiro : IM/UFRJ, 2010. xix,162f. : il. ;30 cm.

Orientador: Alexandra Mello Schmidt e Helio dos Santos Migon.

Dissertação (mestrado) – UFRJ/IM. Programa de pós-graduação em Estatística, 2010.

Referências: f.160- 162.

1.Teoria da decisão estatística bayesiana -Tese. 2.processos de markov - Tese. Schmidt, Alexandra Mello. II. Migon, Helio dos Santos. III.Universidade Federal do Rio de Janeiro. Instituto de Matemática.

CDD 20a: 519.5

(4)

Aos meus pais, pela educa¸c˜ao, exemplo e incentivo que sempre me deram.

(5)

“A estrada em frente vai seguindo

Deixando a porta onde come¸ca.

Agora longe j´a vai indo, Devo seguir, nada me impe¸ca; Por seus percal¸cos v˜ao meus p´es, At´e a jun¸c˜ao com a grande estrada, De muitas sendas atrav´es.

Que vem depois? N˜ao sei mais nada.”

(6)

Agradecimentos

Em primeiro lugar, agrade¸co a Deus pelo Seu amor, miseric´ordia e providˆencia (muitas vezes disfar¸cada de aleatoriedade) na minha vida. Por estar comigo em todos os

momen-tos, mesmo naqueles em que eu n˜ao soube reconhecer Sua presen¸ca, renovando minha

esperan¸ca e me motivando a continuar. Agrade¸co pelas oportunidades ´unicas que fez

sur-gir na minha vida e pelas pessoas maravilhosas que colocou no meu caminho. `A Nossa

Senhora, agrade¸co pela sua intercess˜ao constante e pelas gra¸cas que sempre derramou e continua derramando na minha vida.

Agrade¸co `a minha irm˜a Josiane e minha sobrinha Kassiane, a quem muitas vezes

deixei na m˜ao na hora das brincadeiras, por estar ocupado estudando. De forma muito

especial, agrade¸co aos meus pais, Laurinda e Frutuozo, que s˜ao os respons´aveis por eu ter chegado at´e aqui atrav´es do apoio e incentivo que sempre me deram, da educa¸c˜ao que sempre me proporcionaram, do amor que sempre me dispensaram e dos sacrif´ıcios que

sempre fizeram e ainda fazem por mim. Agrade¸co pelos momentos de preocupa¸c˜ao e por

compartilharem comigo minhas conquistas como se fossem deles pr´oprios. Obrigado por

todos os ensinamentos, exorta¸c˜oes e carinho!

Agrade¸co aos meus grandes amigos Felipe, Anderson, Diego, Adenilson, Carla, Cibele, Anderson “Rods”e Graziele, que fazem parte da minha vida h´a tantos anos e que Deus

es-colheu para serem minha companhia para o destino. Agrade¸co `as minhas amigas queridas

Kelly e Larissa, que me acompanharam durante estes dois anos de mestrado. Dividimos experiˆencias, preocupa¸c˜oes e noites em claro, mas tamb´em dividimos alegrias, risadas e

bons momentos. Vocˆes fazem parte da minha vida! `A querida Camila, que me

acom-panhou de maneira t˜ao especial durante este ´ultimo ano, agrade¸co pelo amor, carinho, companhia, exemplo, conselhos, apoio e incentivo, sempre! Aos meus amigos e com-panheiros de departamento, em especial Targino, Nassif, Thiago, Vin´ıcius, Alexandre,

(7)

Sheila, Josi, Patr´ıcia, Mari e Val. Obrigado pelas experiˆencias trocadas e momentos compartilhados! Enfim, agrade¸co a todos os amigos que Deus colocou no meu caminho. Amigos que, de maneira direta ou indireta, tamb´em s˜ao respons´aveis por eu ter chegado at´e aqui!

`

A minha orientadora Alexandra M. Schmidt, agrade¸co por todo apoio e incentivo

que sempre recebi, pela preocupa¸c˜ao que sempre demonstrou com o meu futuro e por

sempre acreditar no meu potencial. Agrade¸co pelas oportunidades que me mostrou, pelas experiˆencias que me transmitiu e pela dedica¸c˜ao que sempre me dispensou durante tantos anos em que trabalhamos juntos. Ao meu co-orientador Helio S. Migon, agrade¸co pela oportunidade de trabalhar com t˜ao excelente profissional que me transmitiu, e ainda me

transmite, tantas experiˆencias e conhecimento. Agrade¸co aos professores do programa

de p´os-gradua¸c˜ao em Estat´ıstica da UFRJ que, de uma forma ou de outra, contribu´ıram para a minha forma¸c˜ao.

Agrade¸co `a CAPES e `a FAPERJ pelo financiamento dos meus estudos, os quais seriam praticamente imposs´ıveis sem este apoio financeiro.

Por fim, agrade¸co aos professores Dani Gamerman e Cibele Q. da-Silva por aceitarem fazer parte da minha banca.

(8)

Resumo

Neste estudo, discutimos a aplica¸c˜ao de modelos da classe dos modelos lineares

dinˆamicos generalizados (MLDG) e o modelo Poisson autoregressivo (PAR) na

mode-lagem de s´eries temporais de contagens. Entre os modelos discutidos, consideramos

modelos de sobredispers˜ao, modelos com estrutura sazonal e modelos de mistura para

dados de contagem inflacionados de zeros. Nosso interesse ´e verificar as vantagens e

desvantagens entre as diferentes modelagens e que informa¸c˜oes cada uma destas pode

revelar a respeito do processo sob estudo. Todo o procedimento de inferˆencia ´e feito sob o enfoque bayesiano, isto ´e, atribu´ımos uma distribui¸c˜ao a priori para os parˆametros de interesse de cada modelo a fim de obter a distribui¸c˜ao a posteriori, que, em nosso caso,

n˜ao ´e conhecida. M´etodos de Monte Carlo via cadeias de Markov (MCMC na sigla em

inglˆes) s˜ao utilizados para obter amostras desta distribui¸c˜ao.

Em modelos dinˆamicos, obter amostras da distribui¸c˜ao a posteriori dos parˆametros de interesse exige certa cautela. H´a diferentes propostas na literatura sugerindo diferentes maneiras de se obter amostras destes parˆametros. Entre as mais recentes est´a o CUBS (do inglˆes Conjugate Updating Backward Sampling), proposto porRavines et al.(2007). Neste trabalho, tamb´em temos interesse em discutir esta metodologia aplicada na estima¸c˜ao de parˆametros de modelos dinˆamicos para s´eries temporais de contagens e investigar o seu desempenho.

Palavras-Chaves: dados de contagem, modelos dinˆamicos, modelo Poisson

autoregres-sivo, sobredispers˜ao, modelos de mistura, inferˆencia bayesiana, Monte Carlo via cadeias de Markov.

(9)

Abstract

In this study, we discuss the implementation of models in the class of dynamic ge-neralized linear models (MLDG) and the Poisson autoregressive model (PAR) in the modelling of time series count data. Among the discussed models, we consider overdis-persion models, models with seasonal patterns and zero-inflated count data models. Our interest is to verify the advantages and disadvantages among the different modelling ap-proaches and what information each of these apap-proaches may reveal about the process under study. All the inference procedure is made under the Bayesian approach, that is, we attribute a prior distribution for the parameters of interest of each model in order to obtain the posterior distribution, which in our case, is not known. Markov chain Monte Carlo methods (MCMC) are used to obtain samples of this distribution.

In dynamic models, to obtain samples from the posterior distribution of the param-eters of interest requires some caution. There are different proposals in the literature suggesting different ways to obtain samples of these parameters. Among the most

re-cent is the CUBS (Conjugate Updating Backward Sampling), proposed by Ravines et al.

(2007). In this work, we are also interested in discussing this methodology in the esti-mation of parameters of dynamic models for time series count data and to investigate its performance.

Keywords: count data, dynamic models, Poisson autoregressive model, overdispersion, mixture models, Bayesian inference, Markov chain Monte Carlo.

(10)

Sum´

ario

1 Introdu¸c˜ao 1

2 Modelos Dinˆamicos e M´etodos de Estima¸c˜ao 5

2.1 Inferˆencia Bayesiana . . . 5

2.1.1 Estima¸c˜ao Pontual . . . 6

2.1.2 Estima¸c˜ao por Intervalo . . . 7

2.1.3 Previs˜ao . . . 8

2.2 M´etodos de Monte Carlo via Cadeias de Markov . . . 9

2.2.1 Amostrador de Gibbs . . . 10

2.2.2 Algoritmo de Metropolis-Hastings . . . 11

2.3 Modelos Dinˆamicos . . . 12

2.3.1 Modelos Lineares Dinˆamicos (MLD) . . . 13

2.3.2 Modelos Lineares Dinˆamicos Generalizados (MLDG) . . . 15

2.4 Esquemas de Amostragem em Modelos Dinˆamicos . . . 17

2.4.1 Esquema de Amostragem proposto por Gamerman (1998) . . . . 17

2.4.2 CUBS . . . 20

3 Modelos de Sobredispers˜ao para Dados de Contagem 28 3.1 Modelos Dinˆamicos para Dados de Contagem . . . 29

3.1.1 Modelo Poisson Dinˆamico . . . 29

3.1.2 Modelo Binomial Negativo Dinˆamico . . . 30

3.1.3 Modelo Poisson-Lognormal Dinˆamico . . . 32

(11)

3.2 Modelo Poisson Autoregressivo (PAR) . . . 37

3.2.1 Modelo PAR com Estrutura Sazonal . . . 38

3.3 Crit´erios de Compara¸c˜ao e Diagn´ostico de Modelos . . . 39

3.3.1 Verossimilhan¸ca Preditiva . . . 39

3.3.2 Res´ıduos Recursivos . . . 40

3.4 Aplica¸c˜ao 1 . . . 45

3.4.1 Procedimento de Inferˆencia . . . 47

3.4.2 Resultados . . . 52

3.4.3 Compara¸c˜ao entre os Modelos Ajustados . . . 73

4 Modelos para Dados de Contagem Inflacionados de Zeros 81 4.1 Modelos para Dados Inflacionados de Zeros . . . 82

4.2 Aplica¸c˜ao 2 . . . 84

4.2.1 Procedimento de Inferˆencia . . . 87

4.2.2 Investigando o Desempenho do CUBS. . . 92

4.2.3 Resultados . . . 99

4.2.4 Compara¸c˜ao entre os Modelos Ajustados . . . 117

5 Conclus˜oes 125 A Distribui¸c˜oes Condicionais Completas dos Parˆametros dos Modelos Ajus-tados 129 A.1 Modelos Dinˆamicos . . . 129

A.1.1 Modelo Poisson Dinˆamico . . . 129

A.1.2 Modelo Binomial Negativo Dinˆamico . . . 130

A.1.3 Modelo Poisson-Lognormal Dinˆamico . . . 132

A.2 Modelos Dinˆamicos Sazonais . . . 133

A.2.1 Modelo Poisson Dinˆamico com Estrutura Sazonal . . . 133

A.2.2 Modelo Binomial Negativo Dinˆamico com Estrutura Sazonal . . . 135

A.2.3 Modelo Poisson-Lognormal Dinˆamico com Estrutura Sazonal . . . 137

(12)

A.3.1 Modelo PAR com Estrutura Sazonal . . . 139

A.3.2 Modelo PAR sem Estrutura Sazonal . . . 140

A.4 Modelos para Dados Inflacionados de Zeros . . . 141

A.4.1 Modelo ZIP Dinˆamico . . . 141

A.4.2 Modelo ZINB Dinˆamico . . . 142

A.4.3 Modelo ZIP-LN Dinˆamico . . . 144

B C´alculos das Distribui¸c˜oes Propostas para os Parˆametros de Estado dos Modelos Ajustados 146 B.1 Distribui¸c˜ao Proposta Calculada pelo CUBS . . . 146

B.2 Distribui¸c˜ao Proposta Calculada pelo Algoritmo Proposto por Gamerman (1998) . . . 149

C Tra¸cos das Cadeias dos Parˆametros de Estado dos Modelos Dinˆamicos Ajustados 152 C.1 Aplica¸c˜ao 1 . . . 152

(13)

Lista de Tabelas

3.1 Estat´ısticas descritivas da s´erie temporal do n´umero de requerentes do

benef´ıcio por perda salarial causada por acidentes de trabalho. . . 46

3.2 Taxas de aceita¸c˜ao dos valores propostos pelo CUBS para o vetor param´etrico

de estados para cada um dos modelos dinˆamicos ajustados. . . 51

3.3 Estimativas a posteriori dos parˆametros est´aticos dos modelos ajustados

com respectivos intervalos de 95% de credibilidade a posteriori.. . . 62

3.4 Estimativas a posteriori dos parˆametros est´aticos dos modelos ajustados

com respectivos intervalos de 95% de credibilidade a posteriori.. . . 63

3.5 Estimativas a posteriori dos parˆametros est´aticos dos modelos ajustados

com respectivos intervalos de 95% de credibilidade a posteriori.. . . 64

3.6 Estimativas a posteriori dos parˆametros do modelo Poisson autoregressivo

com respectivos intervalos de 95% de credibilidade a posteriori.. . . 69

3.7 Verossimilhan¸ca preditiva dos modelos ajustados. . . 73

4.1 Estat´ısticas descritivas da s´erie temporal do n´umero de casos de dengue

notificados no bairro da Mangueira no munic´ıpio do Rio de Janeiro. . . . 86

4.2 Taxas de aceita¸c˜ao m´edia dos valores propostos pelo algoritmo proposto

por Gamerman (1998) para os elementos do vetor param´etrico de estados

para cada um dos modelos dinˆamicos ajustados. . . 91

4.3 Estimativas a posteriori dos parˆametros est´aticos dos modelos ajustados

com respectivos intervalos de 95% de credibilidade a posteriori.. . . 106

4.4 Estimativas a posteriori dos parˆametros est´aticos dos modelos ajustados

(14)

4.5 Estimativas a posteriori dos parˆametros do modelo Poisson autoregressivo

com respectivos intervalos de 95% de credibilidade a posteriori.. . . 113

(15)

Lista de Figuras

3.1 S´erie de valores simulados λt, para t = 1, . . . , 100. . . 34

3.2 Sobredispers˜ao λ2t/ε = λ2t(exp(V ) − 1), para t = 1, . . . , 100, para alguns

valores de ε e V . . . 34

3.3 S´erie temporal do n´umero de requerentes do benef´ıcio por perda salarial

causada por acidentes de trabalho. . . 45

3.4 Autocorrela¸c˜ao entre os valores do n´umero de requerentes do benef´ıcio por

perda salarial causada por acidentes de trabalho. . . 46

3.5 M´edia a posteriori do n´ıvel µt, para t = 1, . . . , 120, com respectivos

inter-valos de 95% de credibilidade a posteriori. . . 53

3.6 M´edia a posteriori do n´ıvel θt1, para t = 1, . . . , 120, com respectivos

inter-valos de 95% de credibilidade a posteriori. . . 54

3.7 M´edia a posteriori do efeito sazonal θt2, para t = 1, . . . , 120, com

respecti-vos intervalos de 95% de credibilidade a posteriori. . . 55

3.8 M´edia a posteriori do efeito sazonal θt3, para t = 1, . . . , 120, com

respecti-vos intervalos de 95% de credibilidade a posteriori. . . 56

3.9 M´edia a posteriori do parˆametro λt, para t = 1, . . . , 120, com respectivos

intervalos de 95% de credibilidade a posteriori para os modelos dinˆamicos

sem estrutura sazonal. . . 57

3.10 M´edia a posteriori do parˆametro λt, para t = 1, . . . , 120, com respectivos

intervalos de 95% de credibilidade a posteriori para os modelos dinˆamicos

com estrutura sazonal. . . 59

3.11 M´edia a posteriori do parˆametro de sobredispers˜ao δt, para t = 1, . . . , 120,

(16)

3.12 M´edia a posteriori da sobredispers˜ao λ2t/ε (modelo binomial negativo e

binomial negativo sazonal) e λ2

texp(2ξ + V )(exp(V ) − 1) (modelo

Poisson-lognormal e Poisson-Poisson-lognormal sazonal), para t = 1, . . . , 120, com

respec-tivos intervalos de 95% de credibilidade a posteriori. . . 61

3.13 Histograma e m´edia a posteriori da variˆancia da evolu¸c˜ao do n´ıvel W . . . 65

3.14 Histograma e m´edia a posteriori da variˆancia da evolu¸c˜ao do n´ıvel W1. . 66

3.15 Histograma e m´edia a posteriori da variˆancia da evolu¸c˜ao dos efeitos

sazon-ais W2. . . 67

3.16 Histograma e m´edia a posteriori do parˆametro ε (modelo binomial negativo

e binomial negativo sazonal) e do parˆametro V (modelo Poisson-lognormal

e Poisson-lognormal sazonal). . . 68

3.17 M´edia a posteriori do parˆametro λt, para t = 1, . . . , 120, com

respec-tivos intervalos de 95% de credibilidade a posteriori e histogramas dos

parˆametros β0, β1, β2 e α com respectivas m´edias a posteriori. . . 70

3.18 Mediana a posteriori dos valores replicados Yrep,t, para t = 1, . . . , 120, com

respectivos intervalos de 95% de credibilidade a posteriori (´area

hachu-rada) para os modelos dinˆamicos sem estrutura sazonal. . . 71

3.19 Mediana a posteriori dos valores replicados Yrep,t, para t = 1, . . . , 120, com

respectivos intervalos de 95% de credibilidade a posteriori (´area

hachu-rada) para os modelos dinˆamicos com estrutura sazonal e modelo PAR

sazonal. . . 72

3.20 Gr´aficos da an´alise de res´ıduos do modelo Poisson dinˆamico e modelo

bi-nomial negativo dinˆamico. . . 75

3.21 Gr´aficos da an´alise de res´ıduos do modelo Poisson-lognormal dinˆamico com

ξ = −V /2 e com ξ = 0. . . 76

3.22 Gr´aficos da an´alise de res´ıduos do modelo Poisson dinˆamico sazonal e

modelo binomial negativo sazonal. . . 77

3.23 Gr´aficos da an´alise de res´ıduos do modelo Poisson-lognormal dinˆamico

sazonal com ξ = −V /2 e com ξ = 0. . . 78

(17)

4.1 S´erie temporal do n´umero de casos de dengue notificados no bairro da

Mangueira no munic´ıpio do Rio de Janeiro. . . 85

4.2 Gr´afico da propor¸c˜ao dos valores observados do n´umero de casos de dengue

notificados no bairro da Mangueira no munic´ıpio do Rio de Janeiro. . . . 85

4.3 Autocorrela¸c˜ao entre os valores do n´umero de casos de dengue notificados

no bairro da Mangueira no munic´ıpio do Rio de Janeiro. . . 86

4.4 Compara¸c˜ao entre as aproxima¸c˜oes de Taylor e valores aproximados por

Newton-Raphson dos momentos a priori αt e βt do preditor linear ϕt =

log(λt), para t = 1, . . . , 77. . . 94

4.5 Compara¸c˜ao entre os m´etodos de estima¸c˜ao para os parˆametros de estado

µt, para t = 1, . . . , 77, para a s´erie temporal do n´umero de casos de dengue

notificados no bairro da Mangueira no munic´ıpio do Rio de Janeiro. . . . 96

4.6 Compara¸c˜ao entre os m´etodos de estima¸c˜ao para os parˆametros de estado

µt, para t = 1, . . . , 77, para a s´erie temporal artificial gerada a partir da

s´erie temporal do n´umero de casos de dengue notificados no bairro da

Mangueira no munic´ıpio do Rio de Janeiro. . . 98

4.7 M´edia a posteriori do n´ıvel µt, para t = 1, . . . , 77, com respectivos

interva-los de 95% de credibilidade a posteriori para o modelo Poisson, binomial

negativo e Poisson-lognormal. . . 99

4.8 M´edia a posteriori do n´ıvel µt, para t = 1, . . . , 77, com respectivos

in-tervalos de 95% de credibilidade a posteriori para os modelos para dados

inflacionados de zeros. . . 100

4.9 M´edia a posteriori do parˆametro λt, para t = 1, . . . , 77, com respectivos

intervalos de 95% de credibilidade a posteriori para o modelo Poisson,

binomial negativo e Poisson-lognormal. . . 101

4.10 M´edia a posteriori do parˆametro λt, para t = 1, . . . , 77, com respectivos

intervalos de 95% de credibilidade a posteriori para os modelos para dados

inflacionados de zeros. . . 103

4.11 M´edia a posteriori do parˆametro de sobredispers˜ao δt, para t = 1, . . . , 77,

(18)

4.12 M´edia a posteriori da sobredispers˜ao λ2t/ε (modelo binomial negativo e

ZINB) e λ2

texp(2ξ +V )(exp(V )−1) (modelo Poisson-lognormal e ZIP-LN),

para t = 1, . . . , 77, com respectivos intervalos de 95% de credibilidade a

posteriori. . . 105

4.13 Histograma e m´edia a posteriori da variˆancia da evolu¸c˜ao do n´ıvel W para

o modelo Poisson, binomial negativo e Poisson-lognormal. . . 108

4.14 Histograma e m´edia a posteriori da variˆancia da evolu¸c˜ao do n´ıvel W para

os modelos para dados inflacionados de zeros. . . 109

4.15 Histograma e m´edia a posteriori do parˆametro ε (modelo binomial negativo

e ZINB) e do parˆametro V (modelo Poisson-lognormal e ZIP-lognormal). 111

4.16 Histograma e m´edia a posteriori da probabilidade ζ. . . 112

4.17 M´edia a posteriori da probabilidade pt = P (Xt = 1 | Yt = 0), para

t = 1, . . . , 77, com respectivos intervalos de 95% de credibilidade a posteriori.113

4.18 Histogramas dos parˆametros λ1, λ e α com respectivas m´edias a posteriori.114

4.19 Mediana a posteriori dos valores replicados Yrep,t, para t = 1, . . . , 77, com

respectivos intervalos de 95% de credibilidade a posteriori (´area

hachu-rada) para o modelo Poisson, binomial negativo e Poisson-lognormal. . . 115

4.20 Mediana a posteriori dos valores replicados Yrep,t, para t = 1, . . . , 77, com

respectivos intervalos de 95% de credibilidade a posteriori (´area

hachu-rada) para os modelos para dados inflacionados de zeros e modelo PAR

sazonal. . . 116

4.21 Gr´aficos da an´alise de res´ıduos do modelo Poisson dinˆamico e modelo

bi-nomial negativo dinˆamico. . . 119

4.22 Gr´aficos da an´alise de res´ıduos do modelo Poisson-lognormal dinˆamico com

ξ = −V /2 e com ξ = 0. . . 120

4.23 Gr´aficos da an´alise de res´ıduos do modelo ZIP dinˆamico e modelo ZINB

dinˆamico. . . 121

4.24 Gr´aficos da an´alise de res´ıduos do modelo ZIP-lognormal dinˆamico com

ξ = −V /2 e com ξ = 0. . . 122

(19)

C.1 Tra¸cos das cadeias dos parˆametros de estado µ10, µ40, µ70 e µ100 com

respectivas m´edias a posteriori. . . 153

C.2 Tra¸cos das cadeias dos parˆametros de estado θ10,1, θ40,1, θ70,1 e θ100,1 com

respectivas m´edias a posteriori. . . 154

C.3 Tra¸cos das cadeias dos parˆametros de estado θ10,2, θ40,2, θ70,2 e θ100,2 com

respectivas m´edias a posteriori. . . 155

C.4 Tra¸cos das cadeias dos parˆametros de estado θ10,3, θ40,3, θ70,3 e θ100,3 com

respectivas m´edias a posteriori. . . 156

C.5 Tra¸cos das cadeias dos parˆametros de estado µ10, µ30, µ50 e µ70 com

res-pectivas m´edias a posteriori. . . 158

C.6 Tra¸cos das cadeias dos parˆametros de estado µ10, µ30, µ50 e µ70 com

(20)

Cap´ıtulo 1

Introdu¸

ao

Modelos para dados de contagem s˜ao amplamente empregados nas mais diversas ´areas

de estudo para a modelagem de diversos fenˆomenos. Em Controle de Qualidade, por

exemplo, usualmente utiliza-se uma distribui¸c˜ao binomial na modelagem do n´umero de

pe¸cas defeituosas de uma linha de produ¸c˜ao. Em Epidemiologia, ´e comum utilizar-se

uma distribui¸c˜ao de Poisson para modelar o n´umero de ind´ıviduos que sofrem de uma

determinada doen¸ca. Fenˆomenos deste tipo s˜ao, geralmente, caracterizados por uma

evolu¸c˜ao temporal. Ainda no contexto de Epidemiologia, podemos, por exemplo, estar

interessados em modelar o n´umero de ind´ıviduos que sofrem de uma determinada doen¸ca

atrav´es do tempo. Para este tipo de dado, a estrutura temporal deve ser levada em conta na modelagem.

Uma classe de modelos que vem sendo cada vez mais explorada para a modelagem de dados n˜ao-normais com estrutura temporal ´e a classe dos modelos dinˆamicos bayesianos generalizados, que foram introduzidos porWest et al.(1985) e s˜ao amplamente discutidos em West e Harrison (1997). Particularmente, para a modelagem de dados de contagem

com estrutura temporal, um dos modelos dinˆamicos comumente utilizados ´e o modelo

Poisson dinˆamico em que assumimos que m´edia e variˆancia do processo sob observa¸c˜ao s˜ao iguais e evoluem no tempo atrav´es de uma estrutura dinˆamica. Entretanto, o que ocorre geralmente em dados de contagem ´e que a variˆancia do processo sob observa¸c˜ao ´e maior que a m´edia, fenˆomeno este que chamamos de sobredispers˜ao. De forma particu-lar, a estrutura dinˆamica imposta `a m´edia da distribui¸c˜ao de Poisson no modelo Poisson

(21)

dinˆamico ´e capaz de capturar algum efeito de sobredispers˜ao, por´em pode n˜ao ser sufi-ciente para explicar toda a varia¸c˜ao do processo sob observa¸c˜ao. Para capturar a varia¸c˜ao

extra, pode-se, ent˜ao, considerar modelos de mistura tais como o modelo Poisson-gama

dinˆamico ou Poisson-lognormal dinˆamico. Estas misturas s˜ao equivalentes `a inclus˜ao de efeitos aleat´orios na m´edia da distribui¸c˜ao de Poisson e j´a foram discutidas por Scollnik

(1995) e por Kim et al. (2002). Em muitas situa¸c˜oes, a varia¸c˜ao extra nos dados pode ser provocada por excesso de valores 0 (zero) nas observa¸c˜oes. Neste caso, modelos para

dados de contagem inflacionados de zeros como, por exemplo, o modelo ZIP (do inglˆes

Zero Inflated Poisson) podem ser considerados. Para dados de contagem com

estru-tura temporal, como ´e o caso, o modelo ZIP dinˆamico pode ser considerado. Trata-se

especificamente de uma mistura entre uma distribui¸c˜ao de Poisson e uma distribui¸c˜ao de Bernoulli com o objetivo de inflacionar a probabilidade da ocorrˆencia de um valor 0 (zero) atrav´es da inclus˜ao de uma vari´avel aleat´oria latente, que representa presen¸ca ou ausˆencia do processo sob observa¸c˜ao.

Uma segunda classe de modelos para dados de contagem com estrutura temporal ´e

a classe dos modelos Poisson autoregressivos, que foi introduzida por Al-Osh e Alzaid

(1987) e McKenzie (1988). O modelo Poisson autoregressivo n˜ao se trata de um mo-delo dinˆamico e tamb´em n˜ao ´e um modelo de sobredispers˜ao. Entretando, apesar de originalmente este modelo n˜ao possuir nenhuma destas duas caracter´ısticas, ´e

conside-rado apropriado para modelagem de s´eries temporais ao assumir uma dependˆencia de

curto alcance nas observa¸c˜oes. Esta dependˆencia ´e considerada no modelo atrav´es de uma estrutura formada por duas componentes latentes: um processo de nascimento e um processo de morte.

Neste estudo, nosso interesse ´e discutir a aplica¸c˜ao de modelos dinˆamicos e o modelo

Poisson autoregressivo na modelagem de s´eries temporais de contagens. Queremos

veri-ficar as vantagens e desvantagens entre as diferentes modelagens e que informa¸c˜oes cada uma destas pode revelar a respeito do processo sob estudo. Ser˜ao discutidos modelos de

sobredispers˜ao, modelos com estrutura sazonal e modelos de mistura para dados de

con-tagem inflacionados de zeros. Todo o procedimento de inferˆencia ser´a feito sob o enfoque bayesiano, isto ´e, atribuiremos uma distribui¸c˜ao a priori para os parˆametros de interesse

(22)

de cada modelo a fim de obter a distribui¸c˜ao a posteriori e a partir dela realizar todo o processo de estima¸c˜ao. Obteremos amostras desta distribui¸c˜ao a posteriori por meio de m´etodos de simula¸c˜ao estoc´astica, particularmente utilizaremos os m´etodos de Monte

Carlo via cadeias de Markov (MCMC na sigla em inglˆes).

A estima¸c˜ao dos parˆametros de um modelo dinˆamico ´e um grande desafio.

De-vido ao fato do pr´oprio modelo induzir uma correla¸c˜ao entre estes parˆametros, torna-se dif´ıcil a obten¸c˜ao de amostras independentes destes. H´a diferentes propostas na lite-ratura sugerindo diferentes maneiras de se obter amostras da distribui¸c˜ao a posteriori dos parˆametros de modelos dinˆamicos. Entre as mais recentes est´a o CUBS (do inglˆes

Conjugate Updating Backward Sampling), proposto por Ravines et al. (2007). Neste

es-tudo, ´e nosso interesse tamb´em discutir a metodologia desenvolvida por Ravines et al.

(2007) aplicada na estima¸c˜ao de parˆametros de modelos dinˆamicos para s´eries temporais

de contagens e investigar seu desempenho, em especial para os modelos dinˆamicos de

mistura.

Organiza¸c˜ao da Disserta¸c˜ao

No Cap´ıtulo 2, faremos uma breve revis˜ao sobre estima¸c˜ao e sobre procedimento

de inferˆencia sob o enfoque bayesiano. Discutiremos tamb´em m´etodos de simula¸c˜ao

estoc´astica, particularmente m´etodos MCMC. Em seguida faremos uma breve revis˜ao

sobre modelos dinˆamicos e detalharemos os esquemas de amostragem utilizados neste

estudo para estima¸c˜ao de parˆametros de modelos dinˆamicos, em especial o CUBS. J´a no Cap´ıtulo3, apresentaremos os modelos de interesse para dados de contagem com estrutura temporal, descreveremos algumas ferramentas de compara¸c˜ao e diagn´ostico de

modelos e faremos uma aplica¸c˜ao a dados reais. Freeland e McCabe (2002) ajustaram

para o conjunto de dados em quest˜ao um modelo Poisson autoregressivo com

estru-tura sazonal e consideraram o procedimento sob o enfoque cl´assico. Neste cap´ıtulo,

ajustaremos este mesmo modelo para este mesmo conjunto de dados reais considerando o procedimento de inferˆencia sob o enfoque bayesiano.

Em seguida, no Cap´ıtulo 4, come¸caremos discutindo modelos dinˆamicos para dados

(23)

com excesso de valores 0 (zero). Neste cap´ıtulo, discutiremos mais detalhadamente o desempenho do CUBS na estima¸c˜ao dos parˆametros dos modelos dinˆamicos considerados na modelagem do conjunto de dados reais.

(24)

Cap´ıtulo 2

Modelos Dinˆ

amicos e M´

etodos de

Estima¸

ao

Modelos dinˆamicos bayesianos s˜ao cada vez mais utilizados na literatura para descre-ver os mais variados fenˆomenos. A maior classe destes modelos ´e a classe dos modelos lineares dinˆamicos generalizados na fam´ılia exponencial. Neste cap´ıtulo, ser˜ao discutidos alguns m´etodos de estima¸c˜ao para os parˆametros dos modelos que pertencem a esta classe

especial de modelos. Come¸caremos com uma breve revis˜ao sobre os principais conceitos

envolvidos no procedimento de inferˆencia sob o enfoque bayesiano, apresentaremos alguns aspectos sobre m´etodos de simula¸c˜ao estoc´astica, em particular os m´etodos MCMC, e por fim, discutiremos com detalhes dois esquemas de amostragem existentes na litera-tura para estima¸c˜ao em modelos lineares dinˆamicos generalizados: o algoritmo proposto por Gamerman (1998) e o mais recente CUBS (do inglˆes Conjugate Updating Backward Sampling) proposto por Ravines et al. (2007).

2.1

Inferˆ

encia Bayesiana

Nesta se¸c˜ao, faremos uma breve revis˜ao sobre os principais conceitos do procedimento de inferˆencia sob o enfoque Bayesiano. Considere Y, uma vari´avel aleat´oria ou vetor aleat´orio com fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade p(Y | θ) em que θ ´e um parˆametro ou vetor param´etrico que caracteriza a distribui¸c˜ao de

(25)

probabilidade de Y. O valor de θ ´e desconhecido e queremos estim´a-lo. Sob o ponto de vista da inferˆencia bayesiana, podemos incorporar nossa pr´opria incerteza na estima¸c˜ao de θ, assumindo uma distribui¸c˜ao de probabilidade para este parˆametro, p(θ), a distribui¸c˜ao a priori. Esta distribui¸c˜ao ´e atribu´ıda antes da observa¸c˜ao dos dados e mede a nossa incerteza a priori a respeito de θ.

Uma vez que os dados s˜ao observados, os quais denotaremos por y, podemos encontrar

a distribui¸c˜ao a posteriori de θ, p(θ | y), obtida a partir da combina¸c˜ao da fun¸c˜ao de verossimilhan¸ca p(y | θ) com a distribui¸c˜ao a priori de θ, p(θ), via teorema de Bayes, da forma p(θ | y) = p(y | θ)p(θ) p(y) , (2.1) com p(y) = Z Θp(y, θ)dθ = Z Θp(y | θ)p(θ)dθ, (2.2)

em que Θ ´e o espa¸co param´etrico de θ.

Note que p(y) n˜ao depende de θ, logo o denominador da equa¸c˜ao acima pode ser

considerado constante com rela¸c˜ao a θ. Assim, podemos reescrever (2.1) como

p(θ | y) ∝ p(y | θ)p(θ). (2.3)

O procedimento de inferˆencia bayesiano ´e baseado fundamentalmente na distribui¸c˜ao a posteriori de θ. Esta distribui¸c˜ao cont´em toda informa¸c˜ao probabil´ıstica a respeito do parˆametro de interesse. No entanto, em algumas situa¸c˜oes torna-se necess´ario resumir a informa¸c˜ao contida na distribui¸c˜ao a posteriori. O caso mais simples ´e a estima¸c˜ao pontual, descrita na subse¸c˜ao a seguir.

2.1.1

Estima¸

ao Pontual

Na estima¸c˜ao pontual, nosso objetivo ´e a minimiza¸c˜ao de uma fun¸c˜ao perda L(δ(Y), θ) para algum estimador δ(Y) de θ. Note que o valor de θ ´e estimado a partir de elementos da amostra. Para cada valor de θ e cada poss´ıvel estimativa d pentencente ao espa¸co

(26)

param´etrico Θ, associamos uma perda L(d, θ). Neste caso, podemos calcular a perda esperada a posteriori ou risco a posteriori, da forma

r(d | y) = E[L(d, θ) | y] = Z

ΘL(d, θ)p(θ | y)dθ. (2.4)

A regra de Bayes consiste em escolher o valor de d ´otimo, ou seja, o valor de d que

minimiza a perda esperada E[L(d, θ) | y]. Os estimadores d(Y) obtidos minimizando

esta perda esperada s˜ao chamados estimadores de Bayes.

As fun¸c˜oes perda mais utilizadas s˜ao:

• fun¸c˜ao perda quadr´atica: L(d(Y), θ) = (θ − d(Y))0(θ − d(Y)); • fun¸c˜ao perda absoluta: L(d(Y), θ) =|| θ − d(Y) ||;

• fun¸c˜ao perda zero-um: L(d(Y), θ) =

   k, se || θ − d(Y) ||≥  0, se || θ − d(Y) ||<  , para  > 0 arbitr´ario e k constante, em geral unit´aria.

Os estimadores obtidos com a minimiza¸c˜ao destas fun¸c˜oes s˜ao, respectivamente: • m´edia a posteriori: bθ = E(θ | y);

• mediana a posteriori: bθ tal que R−∞θb p(θ | y)dθ = 0, 5; • moda a posteriori: bθ tal que p(bθ | y) = sup

θ∈Θ

p(θ | y).

2.1.2

Estima¸

ao por Intervalo

Quando estimamos um parˆametro pontualmente, estamos resumindo toda a informa¸c˜ao

presente na distribui¸c˜ao a posteriori em um ´unico valor, o que pode n˜ao ser apropriado. ´

E importante tamb´em obtermos informa¸c˜oes sobre o qu˜ao precisa ´e a especifica¸c˜ao deste valor. Podemos, ent˜ao, atrav´es da distribui¸c˜ao a posteriori, encontrar um intervalo para θ onde est´a concentrada a maior massa de probabilidade. Tal intervalo ´e chamado intervalo de credibilidade.

Considere novamente Θ, o espa¸co param´etrico onde est˜ao definidos os poss´ıveis valores

de θ. C ∈ Θ ´e um intervalo de credibilidade de 100(1 − α)% para θ, se

(27)

O tamanho do intervalo traz informa¸c˜oes sobre a dispers˜ao de θ. Assim, quanto menor o intervalo, mais concentrada est´a a distribui¸c˜ao deste parˆametro, quanto maior, menos concentrada est´a a distribui¸c˜ao. Podemos, por exemplo, querer obter um intervalo de 95% de credibilidade para θ, para isso basta calcularmos diretamente os quantis a = 2, 5% e b = 97, 5% da distribui¸c˜ao a posteriori p(θ | y), ou seja,

Z a −∞ p(θ | y)dθ = 0, 025 (2.6) e Z b −∞ p(θ | y)dθ = 0, 975. (2.7)

Uma caracter´ıstica importante dos intervalos de credibilidade ´e que s˜ao invariantes a transforma¸c˜oes biun´ıvocas. Seja C = [a, b] o intervalo de 100(1 − α)% de credibilidade para θ e φ(θ) uma transforma¸c˜ao biun´ıvoca de θ, ent˜ao, um intervalo de 100(1 − α)% de credibilidade para φ(θ) seria da forma C∗ = [φ(a), φ(b)].

2.1.3

Previs˜

ao

Previs˜oes de futuras observa¸c˜oes s˜ao poss´ıveis atrav´es da distribui¸c˜ao preditiva. Suponha que queremos prever Ypred cuja fun¸c˜ao de probabilidade ou densidade de probabilidade ´

e da forma p(Ypred | θ). A fun¸c˜ao de distribui¸c˜ao preditiva de Ypred ´e obtida da forma p(Ypred | y) =

Z

Θp(Ypred, θ | y)dθ (2.8a)

= Z

Θp(Ypred | θ, y)p(θ | y)dθ (2.8b)

= Z

Θp(Ypred | θ)p(θ | y)dθ. (2.8c)

= Eθ|y[p(Ypred| θ)]. (2.8d)

Uma vez que conhecemos θ, Yprede y s˜ao independentes e a passagem da equa¸c˜ao (2.8b) para a equa¸c˜ao (2.8c) fica explicada.

(28)

2.2

etodos de Monte Carlo via Cadeias de Markov

Como discutido na Se¸c˜ao2.1, todo o procedimento de inferˆencia bayesiana est´a fun-damentado na distribui¸c˜ao a posteriori de θ, por´em o que temos geralmente na pr´atica, ´

e que esta distribui¸c˜ao n˜ao ´e conhecida ou n˜ao possui forma anal´ıtica fechada. Podemos, entretanto, de forma aproximada, obter amostras da distribui¸c˜ao a posteriori atrav´es de m´etodos de simula¸c˜ao estoc´astica. Entre estes, est˜ao os m´etodos de MCMC. Estes m´etodos ser˜ao utilizados na estima¸c˜ao dos parˆametros dos modelos de interesse, que ser˜ao

discutidos nos Cap´ıtulos 3 e4. Particularmente, dentro dos m´etodos MCMC, estaremos

utilizando o amostrador de Gibbs e o algoritmo de Metropolis-Hastings que ser˜ao discu-tidos mais adiante nas Subse¸c˜ao 2.2.1 e2.2.2.

Considere que queremos simular de uma distribui¸c˜ao de probabilidade cuja fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade ´e dada por p(·). Como pode ser

visto em Gamerman e Lopes (2006), o m´etodo MCMC ´e qualquer m´etodo que produza

uma cadeia de Markov homogˆenea, erg´odica e irredut´ıvel cuja distribui¸c˜ao estacion´aria seja p(·).

Uma cadeia de Markov ´e:

• homogˆenea: quando a probabilidade de transi¸c˜ao de estados ´e constante; • erg´odica: se ´e aperi´odica e recorrente positiva;

• aperi´odica: se nenhum dos seus estados ´e visitado ap´os d passos com probabilidade 1, para qualquer d > 0 inteiro;

• recorrente positiva: quando o n´umero m´edio de passos para que uma cadeia retorne a qualquer estado ´e finito;

• irredut´ıvel: se com probabilidade positiva, ela se move de um ponto a outro, qual-quer, em um n´umero finito de itera¸c˜oes.

Se a cadeia de Markov segue todas estas caracter´ısticas, existe a distribui¸c˜ao esta-cion´aria e os estados da cadeia s˜ao aproximadamente realiza¸c˜oes desta distribui¸c˜ao. Entre

(29)

os algoritmos de MCMC mais utilizados est˜ao o amostrador de Gibbs e o algoritmo de Metropolis-Hastings, que ser˜ao descritos a seguir.

2.2.1

Amostrador de Gibbs

O amostrador de Gibbs ´e um esquema iterativo de amostragem de uma cadeia de

Markov cujo n´ucleo de transi¸c˜ao ´e formado pelas distribui¸c˜oes marginais condicionais das componentes θi de um vetor param´etrico θ, a partir da fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade conjunta p(θ1, . . . , θp). S˜ao as chamadas distribui¸c˜oes condicionais completas e s˜ao da forma p(θi | θ1, . . . , θi−1, θi+1, . . . , θp).

O amostrador de Gibbs foi originalmente introduzido por Geman e Geman (1984),

mas foram Gelfand e Smith (1990) que compararam este amostrador com esquemas de

simula¸c˜ao estoc´astica. Podemos descrever o algoritmo da seguinte maneira: (i) inicialize o contador j = 1 e arbitre valores iniciais

θ(0) = (θ(0)1 , . . . , θp(0));

(ii) obtenha θ(j) a partir de θ(j−1) sucessivamente da forma θ(j)1 ∼ p(θ1 | θ (j−1) 2 , . . . , θ (j−1) p ) θ(j)2 ∼ p(θ2 | θ (j) 1 , θ (j−1) 3 , . . . , θ (j−1) p ) θ(j)3 ∼ p(θ3 | θ (j) 1 , θ (j) 2 , θ (j−1) 4 , . . . , θ (j−1) p ) .. . θ(j)p ∼ p(θp | θ (j) 1 , θ (j) 2 , . . . , θ (j−1) p−1 ).

(iii) atualize o contador de j para j + 1 e retorne ao passo (ii) at´e a convergˆencia. A convergˆencia da cadeia de Markov ´e admitida quando a s´erie gerada pelos valores sorteados das distribui¸c˜oes condicionais completas alcan¸ca um estado de estacionarie-dade, significando que elas est˜ao suficientemente pr´oximas das distribui¸c˜oes marginais dos parˆametros. Na literatura, v´arios procedimentos de avalia¸c˜ao de convergˆencia s˜ao

(30)

propostos, alguns exemplos podem ser vistos em Cowles e Karlin (1990) e Gamerman e Lopes (2006). Em nosso caso, avaliaremos a convergˆencia dos parˆametros de interesse atrav´es da inspe¸c˜ao visual dos tra¸cos das cadeias destes parˆametros ap´os termos descar-tado quantidade suficiente de valores do in´ıcio da cadeia, o qual denominamos per´ıodo de aquecimento. Para diminuir a autocorrela¸c˜ao entre os valores sorteados dos parˆametros, podemos ainda considerar um espa¸camento k entre estes valores, isto ´e, iremos considerar em nossa amostra somente valores sorteados a cada k itera¸c˜oes. Pode ser mostrado, sob certas condi¸c˜oes de regularidade, que θ(j) = (θ1(j), . . . , θ(j)p ) converge em distribui¸c˜ao para uma amostra da distribui¸c˜ao a posteriori quando j tende a infinito.

Este algoritmo ´e extremamente ´util quando conhecemos a forma das distribui¸c˜oes

condicionais completas, por´em quando n˜ao conhecemos devemos lan¸car m˜ao de outros

m´etodos. Entre eles, est´a o algoritmo de Metropolis-Hastings descrito a seguir.

2.2.2

Algoritmo de Metropolis-Hastings

O algoritmo de Metropolis-Hastings foi inicialmente proposto por Metropolis et al.

(1953) e foi posteriormente estendido por Hastings (1970). Este m´etodo ´e geralmente utilizado quando as distribui¸c˜oes condicionais completas n˜ao s˜ao identific´aveis e, assim

como o amostrador de Gibbs, tem a finalidade de gerar amostras de uma distribui¸c˜ao

de probabilidade. Para isso, ele faz uso de uma distribui¸c˜ao auxiliar conhecida como

distribui¸c˜ao proposta. Um valor proposto para o parˆametro ´e gerado desta distribui¸c˜ao e este valor ´e preferido ou n˜ao com rela¸c˜ao ao valor corrente da cadeia de Markov de acordo com uma probabilidade α.

Considere p(·) como a fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabili-dade da distribui¸c˜ao a qual queremos simular e q(·) como a fun¸c˜ao de probabilidade ou

fun¸c˜ao de densidade de probabilidade proposta que, em geral, sabemos como simular.

Podemos descrever o algoritmo de Metropolis-Hastings da seguinte maneira: (i) inicialize o contador j = 1 e arbitre um valor inicial θ(0);

(31)

(iii) o novo valor θ(j) ser´a θ(j)=    θ∗ com probabilidade α θ(j−1) com probabilidade 1 − α, em que α = min ( 1, p(θ ∗ )q(θ(j−1) | θ∗) p(θ(j−1))q(θ∗ | θ(j−1)) ) ; (2.9)

(iv) atualize o contador de j para j + 1 e retorne ao passo (iii) at´e a convergˆencia. Geralmente, na pr´atica, p(·) ´e a fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade da distribui¸c˜ao condicional completa do parˆametro de interesse, a qual n˜ao sabemos simular, pois n˜ao ´e conhecida ou n˜ao possui solu¸c˜ao anal´ıtica fechada. Portanto, quando esta situa¸c˜ao ocorre, o passo de sorteio de um valor da distribui¸c˜ao condicional completa dentro do amostrador de Gibbs ´e substitu´ıdo pelo passo de sorteio de um valor

de uma distribui¸c˜ao proposta q(·). Este valor proposto ser´a aceito como novo valor

corrente da cadeia com probabilidade α calculada em (2.9). Para um estudo detalhado

sobre m´etodos MCMC, verGamerman e Lopes (2006).

2.3

Modelos Dinˆ

amicos

Freq¨uentemente, estamos interessados em modelar fenˆomenos caracterizados por uma

evolu¸c˜ao temporal. A grande motiva¸c˜ao da utiliza¸c˜ao de modelos dinˆamicos na modela-gem de tais processos ´e a vantagem de podermos medir a incerteza associada `a passagem

do tempo. Como exemplo, considere um modelo em que uma vari´avel resposta Y , em

um instante particular de tempo, est´a associada a uma vari´avel X da forma Y = Xθ + ,

em que θ ´e um parˆametro desconhecido e  ´e um erro aleat´orio. Do ponto de vista

bayesiano, podemos expressar nossa incerteza a priori a respeito de θ atrav´es de uma

distribui¸c˜ao de probabilidade p(θ). Este modelo ´e localmente apropriado para o particular instante de tempo, por´em a pr´opria natureza do processo requer que a incerteza devida a

(32)

evolu¸c˜ao temporal seja levada em considera¸c˜ao. Podemos incorporar esta caracter´ıstica

ao modelo se permitirmos que o parˆametro θ evolua suavemente no tempo atrav´es de

uma estrutura temporal imposta a ele. Quando nos referimos a modelo dinˆamico, o

termo “dinˆamico”est´a relacionado justamente `as mudan¸cas no processo sob observa¸c˜ao devido a passagem do tempo.

2.3.1

Modelos Lineares Dinˆ

amicos (MLD)

A classe de modelos dinˆamicos ´e bastante abrangente. Uma subclasse destes modelos bastante conhecida e utilizada na literatura ´e a subclasse dos modelos linerares dinˆamicos

normais (MLD), em que supomos normalidade da vari´avel resposta e normalidade na

evolu¸c˜ao dos parˆametros dinˆamicos atrav´es do tempo. Nesta subse¸c˜ao, faremos uma

breve revis˜ao sobre MLD. Para um estudo mais detalhado, verWest e Harrison(1997).

Considere uma s´erie temporal Y1, Y2, . . . em que Yt, para t = 1, 2, . . . , ´e um vetor

observacional de dimens˜ao (r × 1). Um MLD pode ser caracterizado atrav´es de duas

equa¸c˜oes da forma

Yt = F0tθt+ vt, vt ∼ N (0, Vt) (2.10a)

θt = Gtθt−1+ ωt, ωt∼ N (0, Wt), (2.10b)

em que, para t = 1, 2, . . . , temos que

• θt ´e um vetor p-dimensional denominado parˆametro de estado ou simplesmente

estado do modelo dinˆamico;

• Ft´e uma matriz de regress˜ao (p × r) cujos elementos s˜ao valores conhecidos; • Gt´e uma matriz p × p conhecida que descreve a evolu¸c˜ao temporal dos parˆametros

de estado;

• Vt´e uma matriz de covariˆancia r × r conhecida associada ao erro observacional vt; • Wt´e uma matriz de covariˆancia p × p conhecida associada ao erro de evolu¸c˜ao dos

(33)

A equa¸c˜ao (2.10a) ´e denominada equa¸c˜ao da observa¸c˜ao e relaciona o vetor de ob-serva¸c˜oes Yt ao parˆametro de estado θt, enquanto que a equa¸c˜ao (2.10b) ´e denominada equa¸c˜ao do sistema e ´e respons´avel pela evolu¸c˜ao dos parˆametros de estado atrav´es do tempo. Estas duas equa¸c˜oes podem ser reescritas, para t = 1, 2, . . . , da forma

Yt| θt ∼ N (F0tθt, Vt) (2.11a)

θt| θt−1 ∼ N (Gtθt−1, Wt). (2.11b)

O modelo descrito em (2.10) ´e completamente especificado atrav´es da qu´adrupla {F, G, V, W}t e de uma distribui¸c˜ao a priori assumida para os parˆametros de estado. Devido `a pr´opria estrutura markoviana do modelo, θt dado θt−1, para t = 1, 2, . . . , tem uma distribui¸c˜ao normal, conforme podemos ver nas equa¸c˜oes (2.10b) e (2.11b), por´em ainda precisamos especificar quem ´e θ0. Denotamos por Dt= (D0, y1, . . . , yt) o conjunto de informa¸c˜oes dispon´ıveis at´e o instante de tempo t, para t = 1, 2, . . . , em que D0 de-nota o conjunto de informa¸c˜oes no instante inicial t = 0, ou seja, D0 denota o conjunto de informa¸c˜oes a priori. Quantificamos esta informa¸c˜ao a priori em termos de m´edia e variˆancia de uma distribui¸c˜ao normal para θ0, isto ´e,

θ0 | D0 ∼ N (m0, C0), (2.12)

em que m0 e C0 s˜ao, respectivamente, a m´edia e a variˆancia da distribui¸c˜ao a priori normal para θ0 que reflete nossa incerteza a respeito do processo sob estudo no instante de origem t = 0. Assim, atribu´ıda a distribui¸c˜ao a priori para os parˆametros de estado, o modelo ´e completamente especificado.

Ainda, para o modelo descrito em (2.10), algumas suposi¸c˜oes s˜ao feitas: estamos assumindo que as observa¸c˜oes Yt s˜ao condicionalmente independentes dado θt, para t = 1, 2, . . . , assim como, para todo t 6= s, os erros observacionais vt e vs s˜ao independentes, os erros de evolu¸c˜ao ωt e ωs s˜ao independentes, e vt e ωs s˜ao independentes.

Quando os valores dos elementos que comp˜oem qu´adrupla {F, G, V, W}ts˜ao conheci-dos, o procedimento inferˆencia sobre os parˆametros de estado nesta subclasse de modelos pode ser feito atrav´es de algoritmos seq¨uenciais, como o Filtro de Kalman. Mais detalhes podem ser vistos em West e Harrison(1997).

(34)

2.3.2

Modelos Lineares Dinˆ

amicos Generalizados (MLDG)

A classe dos modelos lineares dinˆamicos generalizados (MLDG) foi introduzida por

West et al. (1985). Os modelos desta subclasse dos modelos dinˆamicos s˜ao extens˜oes dos modelos lineares dinˆamicos (MLD) apresentados na Subse¸c˜ao 2.3.1, mas agora sem a suposi¸c˜ao de normalidade da vari´avel resposta e sem a suposi¸c˜ao de normalidade na evolu¸c˜ao dos parˆametros de estado.

Considere uma s´erie temporal Y1, Y2, . . . de observa¸c˜oes univariadas. Assumimos agora que Yt, para t = 1, 2, . . . , segue uma distribui¸c˜ao na fam´ılia exponencial: uma classe muita ampla de distribui¸c˜oes que inclui, entre outras, a distribui¸c˜ao normal. Se uma vari´avel aleat´oria Yt cont´ınua ou discreta segue uma distribui¸c˜ao na fam´ılia expo-nencial, sua fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade pode ser escrita como

p(Yt | ηt, φt) = exp{φt[Ytηt− b(ηt)]}c(Yt, φt), (2.13) em que b(·) e c(·, ·) s˜ao fun¸c˜oes conhecidas, ηt ´e o parˆametro natural da distribui¸c˜ao, satisfazendo a

E(Yt | ηt, φt) = ϑt= ˙b(ηt), (2.14)

e φt ´e um parˆametro de escala conhecido, satisfazendo a V ar(Yt| ηt, φt) =

¨b(ηt) φt

, (2.15)

em que ˙b(·) e ¨b(·) s˜ao, respectivamente, a primeira e a segunda derivadas da fun¸c˜ao b(·).

Podemos, ent˜ao, caracterizar um MLDG de forma semelhante ao MLD como

Yt ∝ exp{φt[Ytηt− b(ηt)]} (2.16a)

g(ηt) = F0tθt (2.16b)

θt = Gtθt−1+ ωt, ωt∼ (0, Wt). (2.16c)

Note que a equa¸c˜ao da observa¸c˜ao, descrita anteriormente em (2.10a) para um MLD, foi agora substitu´ıda pelo par de equa¸c˜oes (2.16a) e (2.16b), em que g(·) ´e uma fun¸c˜ao de

(35)

liga¸c˜ao conhecida que relaciona o parˆametro natural da distribui¸c˜ao ηt ao parˆametro de estado θt e g(ηt) ´e denominado preditor linear, o qual denotaremos por ϕt. Note tamb´em que a equa¸c˜ao de evolu¸c˜ao dos estados (2.16c) permanece igual `a equa¸c˜ao de evolu¸c˜ao dos estados de um MLD, descrita em (2.10b), a n˜ao ser pelo fato de que agora os erros de evolu¸c˜ao ωt n˜ao seguem necessariamente uma distribui¸c˜ao normal.

Como em um MLD, o modelo ´e completado quando assumimos uma distribui¸c˜ao a

priori para os parˆametros de estado. De forma semelhante, a distribui¸c˜ao do parˆametro de estado θt dado θt−1, para t = 1, 2, . . . , tem distribui¸c˜ao imposta pela pr´opria estrutura

markoviana do modelo. Resta-nos, ent˜ao, atribuir uma distribui¸c˜ao a priori para o

parˆametro θ0. Novamente, quantificamos a informa¸c˜ao a priori a respeito do processo sob estudo no instante inicial t = 0, denotada por D0, atrav´es do primeiro e segundo momentos de uma distribui¸c˜ao, que agora n˜ao ´e necessariamente normal, para θ0, isto ´e,

θ0 | D0 ∼ (m0, C0), (2.17)

em que m0 e C0 s˜ao, respectivamente, o primeiro e segundo momentos conhecidos da

distribui¸c˜ao a priori para θ0. Em muitos casos, a forma desta distribui¸c˜ao n˜ao precisa

ser conhecida totalmente, basta apenas que conhe¸camos os momentos m0 e C0.

Para o MLDG descrito em (2.16), como em um MLD, algumas suposi¸c˜oes s˜ao feitas: as observa¸c˜oes Yts˜ao condicionalmente independentes dado ηt, e al´em disso, dado ηt, s˜ao tamb´em independentes dos erros de evolu¸c˜ao ωt, para t = 1, 2, . . . , e supomos tamb´em que, para todo t 6= s, os erros de evolu¸c˜ao ωt e ωs s˜ao independentes.

O procedimento de inferˆencia sobre os parˆametros de estado nesta classe de modelos, devido a complexidade, pode somente ser feito de forma aproximada. Se todas as quan-tidades envolvidas no modelo, com exce¸c˜ao dos parˆametros de estado, s˜ao conhecidas, algoritmos seq¨uenciais baseados em estimadores Linear Bayes (Hartigan (1969)) podem ser utilizados na estima¸c˜ao destes parˆametros. Algoritmos baseados nestes estimadores foram utilizados porWest et al.(1985). Outras abordagens e m´etodos de estima¸c˜ao para os parˆametros de estado, inclusive m´etodos baseados nas id´eias de West et al. (1985), ser˜ao discutidos na Se¸c˜ao2.4.

(36)

2.4

Esquemas de Amostragem em Modelos Dinˆ

amicos

O grande desafio da estima¸c˜ao em modelos dinˆamicos ´e a estima¸c˜ao do vetor de estados cujos elementos s˜ao altamente correlacionados, o que torna dif´ıcil a obten¸c˜ao de amostras independentes. H´a muitas propostas na literatura sugerindo diferentes maneiras de se obter amostras da distribui¸c˜ao a posteriori destes parˆametros. Shephard e Pitt

(1997),Gamerman (1998),Geweke e Tanizaki (2001) e Ravines et al. (2007) consideram

abordagens baseadas no algoritmo de Metropolis-Hastings descrito na Subse¸c˜ao 2.2.2

dentro do amostrador de Gibbs descrito na Subse¸c˜ao 2.2.1. Particularmente, sugerem

distribui¸c˜oes propostas eficientes dentro do algoritmo de Metropolis-Hastings para sortear

os parˆametros de estado de modelos dinˆamicos na fam´ılia exponencial. O algoritmo

proposto por Gamerman(1998) e o algoritmo CUBS, proposto por Ravines et al.(2007)

ser˜ao apresentados nas subse¸c˜oes a seguir.

2.4.1

Esquema de Amostragem proposto por Gamerman (1998)

Gamerman(1998) sugere a utiliza¸c˜ao de um modelo linear dinˆamico normal ajustado a fim de construir uma densidade proposta eficiente para amostrar os parˆametros de estado

no algoritmo de Metropolis-Hastings. A amostragem destes parˆametros pode ser feita

individualmente ou em blocos, ou individualmente atrav´es dos erros de evolu¸c˜ao. Neste ´

ultimo caso, o modelo dinˆamico ´e reparametrizado e os estados s˜ao representados em

termos dos erros de evolu¸c˜ao. Gamerman (1998) concluiu que a amostragem individual

´

e mais eficiente que a amostragem em blocos e que amostrar os erros de evolu¸c˜ao ´e

tamb´em mais eficiente, pois as cadeias geradas s˜ao menos autocorrelacionadas, o que pode acelerar a convergˆencia. Entretanto, o algoritmo para amostrar os parˆametros de estado atrav´es dos erros de evolu¸c˜ao ´e de dif´ıcil implementa¸c˜ao e gera um custo computacional bastante significativo. Por esta raz˜ao, utilizaremos o esquema de amostragem individual e sortearemos diretamente os parˆametros de estado.

Considere Y1, . . . , YT, uma s´erie temporal de observa¸c˜oes univariadas para as quais assumimos o MLDG descrito em (2.16) com a diferen¸ca de que a evolu¸c˜ao dos parˆametros

(37)

de estado, descrita pela equa¸c˜ao (2.16c), ´e assumida normal, ou seja,

θt= Gtθt−1+ ωt, ωt∼ N (0, Wt), (2.18)

em que Wt ´e assumido conhecido. Consideramos agora uma s´erie de observa¸c˜oes ajus-tadas ˜Yt, para t = 1, . . . , T , da forma

˜

Yt = ˜Yt(θt) = g(ϑt) + (Yt− ϑt) ˙g(ϑt) (2.19)

com variˆancias associadas Vt da forma

Vt= Vt(θt) = ¨b(ηt){ ˙g(ϑt)}2, (2.20)

em que ϑt´e a esperan¸ca de Yt da forma descrita em (2.14) e ηt ´e o parˆametro natural da fam´ılia exponencial descrita em (2.13). As observa¸c˜oes ajustadas ˜Yt = ˜Yt(θt) e variˆancias associadas Vt= Vt(θt) s˜ao fun¸c˜oes do valor corrente do parˆametro de estado θtatrav´es da dependˆencia funcional entre θt e a m´edia ϑt. Podemos agora criar um modelo dinˆamico normal ajustado cuja equa¸c˜ao da observa¸c˜ao, para t = 1, . . . , T , ´e da forma

˜

Yt(θt) = F0tθt+ vt, vt∼ N (0, Vt(θt)). (2.21)

A distribui¸c˜ao proposta para a amostragem do parˆametro de estado θt, para t =

1, . . . , T − 1, na itera¸c˜ao j do algoritmo de Metropolis-Hastings ´e dada pela distribui¸c˜ao condicional completa ajustada de θt cuja fun¸c˜ao de densidade de probabilidade ´e da forma

˜

p(θt) ∝ p( ˜Yt | θt)p(θt| θt−1)p(θt+1 | θt)

∝ exp{−1/2[Vt−1( ˜Yt− F0tθt)2+ (θt− Gtθt−1)0Wt−1(θt− Gtθt−1) (2.22) +(θt+1− Gt+1θt)0Wt+1−1(θt+1− Gt+1θt)]},

que ´e a fun¸c˜ao de densidade de probabilidade de uma distribui¸c˜ao normal com variˆancia Bt= (FtVt−1F 0 t+ W −1 t + G 0 t+1W −1 t+1Gt+1)−1 (2.23) e m´edia bt = Bt(FtVt−1Y˜t+ W−1t Gtθt−1+ G0t+1W −1 t+1θt+1), (2.24)

(38)

com ˜Yt = ˜Yt(θ (j−1) t ) e Vt = Vt(θ (j−1) t ), em que θ (j−1)

t ´e o valor corrente da cadeia. Para

θT, a distribui¸c˜ao proposta ´e uma distribui¸c˜ao normal com variˆancia BT = (FTVT−1F 0 T + W −1 T ) −1 (2.25) e m´edia bT = BT(FTVT−1Y˜T + WT−1GTθT −1), (2.26) com ˜YT = ˜YT(θ (j−1) T ) e VT = VT(θ (j−1) T ), em que θ (j−1)

T ´e o valor corrente da cadeia.

Assim, para obter uma amostra do vetor param´etrico de estados Θ = (θ1, . . . , θT)0na itera¸c˜ao j do algoritmo de Metropolis-Hastings, os seguintes passos devem ser seguidos:

1. calcule o valor da observa¸c˜ao ajustada ˜Yt(θ (j−1)

t ) e variˆancia associada Vt(θ (j−1)

t ),

para t = 1, . . . , T , conforme visto em (2.19) e (2.20);

2. calcule Bt e bt, para t = 1, . . . , T − 1, conforme visto em (2.23) e (2.24), e calcule BT e bT, conforme visto em (2.25) e (2.26);

3. sorteie θ∗t da distribui¸c˜ao proposta normal com m´edia bt e variˆancia Bt, para t = 1, . . . , T ;

4. para t = 1, . . . , T , o novo valor θ(j)t ser´a

θ(j)t =    θ∗t com probabilidade αt θ(j−1)t com probabilidade 1 − αt, com αt= min ( 1, p(θ ∗ t)˜p(θ (j−1) t | θ ∗ t) p(θ(j−1)t )˜p(θ∗t | θ(j−1)t ) ) , (2.27)

em que p(·) ´e a fun¸c˜ao de densidade da distribui¸c˜ao condicional completa de θt e ˜

p(·) ´e a fun¸c˜ao de densidade da distribui¸c˜ao proposta normal para θt (condicional completa ajustada de θt).

Os valores sorteados das distribui¸c˜oes propostas calculadas atrav´es desta algoritmo geralmente tem altas taxas de aceita¸c˜ao devido ao fato das aproxima¸c˜oes serem bastante

convenientes. Para mais detalhes sobre as varia¸c˜oes deste esquema de amostragem, ver

(39)

2.4.2

CUBS

O algoritmo CUBS (do inglˆes Conjugate Updating Backward Sampling) foi proposto

porRavines et al. (2007) e, assim como o algoritmo proposto porGamerman(1998), su-gere o uso de uma distribui¸c˜ao proposta eficiente para a amostragem dos parˆametros de estado dentro do algoritmo de Metropolis-Hastings. Para a obten¸c˜ao desta distribui¸c˜ao proposta, o CUBS combina duas abordagens existentes na literarura: o Conjugate

Up-dating, algoritmo baseado em aproxima¸c˜oes por Linear Bayes proposto por West et al.

(1985) para a estima¸c˜ao em MLDG, e o Backward Sampling deFr¨uhwirth-Schnater(1994) eCarter e Kohn (1994) para estima¸c˜ao em MLD. A amostragem ´e feita em bloco, isto ´e, os valores sorteados da distribui¸c˜ao proposta para o vetor de estados s˜ao aceitos ou re-jeitados em um movimento conjunto de todo o vetor de estados. Este esquema ´e an´alogo

ao FFBS (do inglˆes Forward Filtering Backward Sampling), algoritmo proposto,

inde-pendentemente por Fr¨uhwirth-Schnater (1994) e Carter e Kohn (1994), para estima¸c˜ao em modelos lineares dinˆamicos normais, cuja principal id´eia est´a na decomposi¸c˜ao da distribui¸c˜ao a posteriori do vetor de estados em um produt´orio de distribui¸c˜oes retros-pectivas. Detalhes sobre este algoritmo podem ser vistos em West e Harrison (1997). Estimador Linear Bayes

Considere um vetor de observa¸c˜oes Y n-dimensional e um vetor p-dimensional θ de

parˆametros a ser estimado. Para cada valor de θ e cada poss´ıvel estimativa d pentencente

ao espa¸co param´etrico Θ, associamos uma perda L(d, θ). Como dito na Se¸c˜ao 2.1.1,

uma estimativa ´otima para θ ´e o valor de d que minimiza a perda esperada a posteriori E[L(d, θ) | y], em que y representa os valores observados.

Considere agora que a distribui¸c˜ao conjunta de θ e Y ´e parcialmente conhecida atrav´es de seu vetor de m´edias e matriz de covariˆancia, ou seja,

  θ Y  ∼     a f  ,   R AQ QA0 Q    , (2.28)

e uma fun¸c˜ao perda quadr´atica

(40)

Para qualquer que seja a fun¸c˜ao perda a ser considerada, a especifica¸c˜ao da distribui¸c˜ao conjunta do vetor de observa¸c˜oes Y e do vetor de parˆametros θ em (2.28) n˜ao garante in-forma¸c˜ao suficiente para identifica¸c˜ao da estimativa ´otima a posteriori. M´edia e variˆancia a posteriori tamb´em s˜ao indefinidas. Uma alternativa a este problema ´e a utiliza¸c˜ao de

uma aproxima¸c˜ao da estimativa ´otima atrav´es de um estimador Linear Bayes. Como o

risco a posteriori n˜ao pode ser calculado, o risco global

r(d) = E[L(d, θ)] = E[(θ − d)0(θ − d)] = TrE[(θ − d)(θ − d)0], (2.30)

baseado na fun¸c˜ao perda quadr´atica em (2.29), ´e utilizado.

Um estimador Linear Bayes ´e um estimador linear da forma

d(Y) = h + HY, (2.31)

para algum vetor h de dimens˜ao p e alguma matriz H de dimens˜ao p × n, que

mini-miza o risco global em (2.30). Pode ser mostrado que o estimador Linear Bayes de θ

considerando a especifica¸c˜ao em (2.28) ´e da forma

m = a + A(Y − f ). (2.32)

O risco associado, por sua vez, ´e da forma

r(m) = Tr(C), (2.33)

em que

C = R − AQA0. (2.34)

Os valores de m e C podem ser interpretados como aproxima¸c˜oes do primeiro e segundo

momentos a posteriori de θ. Mais detalhes podem ser vistos emWest e Harrison(1997).

Conjugate Updating

O Conjugate Updating ´e um algoritmo de estima¸c˜ao seq¨uencial proposto por West

et al.(1985) para aproximar a distribui¸c˜ao a posteriori dos parˆametros de estado em um

(41)

aplicadas ao n´ıvel das distribui¸c˜oes a priori e em uma an´alise conjugada da distribui¸c˜ao do parˆametro natural da fam´ılia exponencial descrita em (2.13).

Considere Y1, . . . , YT, uma s´erie temporal de observa¸c˜oes univariadas para as quais assumimos o MLDG descrito em (2.16). Suponha que a distribui¸c˜ao posteriori de θt−1

no tempo t − 1 ´e conhecida parcialmente atrav´es de seu primeiro e segundo momentos

mt−1 e Ct−1, respectivamente, isto ´e,

θt−1 | Dt−1 ∼ (mt−1, Ct−1), (2.35)

em que, como dito na Subse¸c˜ao2.3.1, Dt−1representa o conjunto de informa¸c˜oes dispon´ıveis at´e o tempo t − 1. Atrav´es da equa¸c˜ao de evolu¸c˜ao em (2.16c), a distribui¸c˜ao a priori do parˆametro de estado θt no tempo t − 1 ´e parcialmente conhecida atrav´es de sua m´edia e variˆancia, isto ´e,

θt| Dt−1∼ (at, Rt), (2.36)

em que

at = Gtmt−1 (2.37)

e

Rt= GtCt−1G0t+ Wt, (2.38)

em que Wt ´e assumido conhecido. Finalmente, atrav´es da equa¸c˜ao (2.16b), temos que

g(ηt) | Dt−1 ∼ (ft, qt), (2.39)

em que

ft= F0tat (2.40)

e

qt= F0tRtFt (2.41)

(42)

Uma vez que observamos um valor yt, nossa informa¸c˜ao dispon´ıvel no tempo t torna-se Dt= {Dt−1, yt} e estamos agora interessados em encontrar a distribui¸c˜ao a posteriori de θt. Esta distribui¸c˜ao n˜ao ´e conhecida, mas pode ser aproximada atrav´es de seu primeiro e segundo momentos da forma

p(θt | Dt) ∝ p(θt | Dt−1)p(yt| θt, φt) (2.42a) = p(θt | Dt−1)p(yt| ηt, φt) (2.42b) = Z p(θt, ηt | Dt−1)p(yt| ηt, φt)dηt (2.42c) = Z p(θt | ηt, Dt−1) p(ηt| Dt−1)p(yt | ηt, φt) | {z }

An´alise Conjugada

dηt (2.42d) = Z p(θt | ηt, Dt−1) | {z } Linear Bayes p(ηt| Dt)dηt (2.42e) ∼ = (mt, Ct), (2.42f)

em que mt e Ct s˜ao o primeiro e segundo momentos aproximados da distribui¸c˜ao a

posteriori de θt. O parˆametro de escala φt da fam´ılia exponencial ´e assumido conhecido. Na an´alise conjugada, assumimos uma distribui¸c˜ao a priori conjugada para o parˆametro natural da fam´ılia exponencial ηt cuja fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade ´e da forma

p(ηt| Dt−1) ∝ exp{αtηt− βtb(ηt)}, (2.43)

em que αte βts˜ao os parˆametros da distribui¸c˜ao a priori conjugada `a fam´ılia exponencial. Assim, a distribui¸c˜ao a posteriori ´e conhecida e pode ser encontrada facilmente atrav´es do teorema de Bayes, isto ´e,

p(ηt| Dt) ∝ p(yt| ηt, φt)p(ηt| Dt−1) (2.44a)

∝ exp{(φtyt+ αt)ηt− (φt+ βt)b(ηt)}. (2.44b)

Os parˆametros αt e βt da distribui¸c˜ao a priori conjugada de ηt n˜ao s˜ao escolhidos

arbitrariamente. Os valores destes parˆametros devem ser condizentes com os valores da

m´edia e variˆancia de ηtobtidos, respectivamente, na equa¸c˜ao (2.40) e equa¸c˜ao (2.41), pois estes est˜ao relacionados. Uma vez que conhecemos a distribui¸c˜ao a priori de ηt, podemos

(43)

encontrar m´edia e variˆancia a priori do preditor linear ϕt = g(ηt), respectivamente, da forma

E(g(ηt) | Dt−1) = r(αt, βt) (2.45)

e

V ar(g(ηt) | Dt−1) = s(αt, βt), (2.46)

em que r(·, ·) e s(·, ·) s˜ao fun¸c˜oes conhecidas. Freq¨uentemente, n˜ao existe uma forma anal´ıtica para a esperan¸ca em (2.45) ou para a variˆancia em (2.46). Neste caso, m´etodos de aproxima¸c˜ao de fun¸c˜oes, como aproxima¸c˜oes de Taylor, podem ser utilizados. Os valores de αt e βt podem ser encontrados agora resolvendo-se o seguinte sistema:

   ft = r(αt, βt) qt = s(αt, βt). (2.47)

De posse dos valores de αt e βt que satisfazem o sistema em (2.47), podemos encontrar facilmente, atrav´es da conjuga¸c˜ao, os parˆametros da distribui¸c˜ao a posteriori de ηt da forma

α?t = φtyt+ αt (2.48)

e

βt? = φt+ βt, (2.49)

e por sua vez, podemos encontrar a m´edia e a variˆancia a posteriori do preditor linear ϕt= g(ηt) da forma

ft? = r(αt?, βt?) (2.50)

e

qt? = s(α?t, βt?). (2.51)

Na aproxima¸c˜ao por Linear Bayes, consideramos inicialmente a especifica¸c˜ao da dis-tribui¸c˜ao a priori conjunta do parˆametro de estado θt e do preditor linear ϕt= g(ηt) da

(44)

forma   θt g(ηt) Dt−1  ∼     at ft  ,   Rt RtFt F0tRt qt    , (2.52)

em que RtFt= Cov(θt, g(ηt)). Nosso interesse a princ´ıpio ´e aproximar por Linear Bayes a distribui¸c˜ao a priori do parˆametro de estado θtcondicional ao parˆametro natural ηt, ou seja, queremos aproximar p(θt | ηt, Dt−1) ou, equivalentemente, p(θt| ϕt, Dt−1) atrav´es de seu primeiro e segundo momentos utilizando Linear Bayes. Pode ser mostrado facilmente

que estes momentos s˜ao da forma

˜

mt= at+ RtFt(g(ηt) − ft)/qt (2.53)

e

˜

Ct = Rt− RtFtF0tRt/qt. (2.54)

A partir de (2.53) e (2.54), podemos, atrav´es das propriedades da esperan¸ca e da variˆancia

condicional, encontrar o primeiro e segundo momentos a posteriori do parˆametro de

estado θt da forma mt = E(θt | Dt) (2.55a) = E(E(θt| ηt, Dt−1) | Dt) (2.55b) = E( ˜mt | Dt) (2.55c) = at+ RtFt(ft?− ft)/qt (2.55d) e Ct = V ar(θt| Dt) (2.56a)

= V ar(E(θt| ηt, Dt−1) | Dt) + E(V ar(θt| ηt, Dt−1) | Dt) (2.56b)

= V ar( ˜mt| Dt) + E( ˜Ct| Dt) (2.56c)

(45)

Backward Sampling

Fr¨uhwirth-Schnater (1994) e Carter e Kohn (1994) propuseram o algoritmo FFBS (do inglˆes Forward Filtering Backward Sampling) para estima¸c˜ao dos parˆametros de es-tado em modelos lineares dinˆamicos normais. A id´eia do m´etodo ´e amostrar todos os

elementos do vetor de estados em um passo de amostragem m´ultipla. Em um MLD, o

passo Forward Filtering, similarmente ao Conjugate Updating em um MLDG, consiste em calcular seq¨uencialmente o primeiro e segundo momentos da distribui¸c˜ao a posteriori do parˆametro de estado θt, para t = 1, . . . , T . Estes momentos s˜ao encontrados atrav´es

do Filtro de Kalman. Neste caso, por´em, diferentemente do Conjugate Updating, a

dis-tribui¸c˜ao a posteriori de θt ´e exatamente conhecida, de modo mais espec´ıfico, θt segue

uma distribui¸c˜ao normal. O passo Backward Sampling do algoritmo FFBS ´e baseado na

decomposi¸c˜ao da distribui¸c˜ao a posteriori conjunta dos parˆametros de estado da forma p(θ1, . . . , θT | DT) = p(θT | DT)

T −1 Y

t=1

p(θt | θt+1, Dt). (2.57)

Pelo teorema de Bayes, para t = T − 1, . . . , 1, pode ser mostrado que

p(θt| θt+1, Dt) ∝ p(θt+1 | θt, Dt)p(θt| Dt) (2.58)

segue uma distribui¸c˜ao normal com m´edia

mst = mt+ CtG0t+1(Gt+1CtG0t+1+ Wt+1)−1(θt+1− Gt+1mt) (2.59) e variˆancia

Cst = Ct− CtG0t+1(Gt+1CtG0t+1+ Wt+1)−1Gt+1Ct, (2.60) em que mte Cts˜ao o primeiro e segundo momentos obtidos atrav´es do Filtro de Kalman.

O primeiro momento ms

t e o segundo momento Cst s˜ao denominados momentos

suaviza-dos. Para o tempo T , temos que mst = mt e Cst = Ct.

No algoritmo CUBS, substitu´ımos o passo Forward Filtering pelo Conjugate

Updat-ing. Uma vez que encontramos seq¨uencialmente o primeiro e o segundo momentos da

distribui¸c˜ao a posteriori do parˆametro de estado θt, para t = 1, . . . , T , supomos nor-malidade desta distribui¸c˜ao e baseando-nos na decomposi¸c˜ao da distribui¸c˜ao condicional

(46)

completa do vetor de estados em (2.57), encontramos os momentos suavizados da dis-tribui¸c˜ao normal que, neste caso, ´e a distribui¸c˜ao proposta. Assim, podemos sortear desta distribui¸c˜ao um vetor de valores propostos para os parˆametros de estado, que ser´a aceito

ou rejeitado em um movimento m´ultiplo dentro do algoritmo de Metropolis-Hastings.

Desta forma, para obter uma amostra do vetor param´etrico de estados Θ = (θ1, . . . , θT)0 na itera¸c˜ao j do algoritmo de Metropolis-Hastings, os seguintes passos devem ser segui-dos:

1. calcule mt e Ct, para t = 1, . . . , T , utilizando os passos do Conjugate Updating; 2. sorteie θ∗T da distribui¸c˜ao normal com m´edia mT e variˆancia CT;

3. para t = T − 1, . . . , 1, sorteie θ∗t da distribui¸c˜ao normal com m´edia suavizada mst e variˆancia suavizada Cs

t, calculadas conforme visto em (2.59) e (2.60); 4. o novo valor Θ(j) = (θ(j)1 , . . . , θ(j)T )0 ser´a

Θ(j)=    Θ∗ = (θ∗1, . . . , θ∗T)0 com probabilidade α Θ(j−1) = (θ(j−1)1 , . . . , θ(j−1)T )0 com probabilidade 1 − α, com α = min ( 1,p(Θ ∗ )q(Θ(j−1)) p(Θ(j−1))q(Θ∗) ) , (2.61)

em que p(·) ´e a fun¸c˜ao de densidade da distribui¸c˜ao condicional completa conjunta dos parˆametros de estado θte q(·) ´e a fun¸c˜ao de densidade da distribui¸c˜ao proposta

normal para Θ, que ´e calculada da mesma maneira que a fun¸c˜ao de densidade em

(2.57).

No cap´ıtulo seguinte, apresentaremos os modelos dinˆamicos de interesse para s´eries

temporais de contagem e faremos uma aplica¸c˜ao em que utilizamos o CUBS como

es-quema de amostragem proposto para os parˆametros destes modelos. Veremos que a

defini¸c˜ao dos modelos considerados foge ligeiramente da defini¸c˜ao de um MLDG vista (2.16) com respeito `a fun¸c˜ao de liga¸c˜ao, que, neste caso, n˜ao estar´a necessariamente

apli-cada no parˆametro natural da fam´ılia exponencial. Iremos mostrar que o CUBS pode

ser utilizado com bons resultados ainda que a defini¸c˜ao do modelo considerado n˜ao seja exatamente aquela a qual o algoritmo se prop˜oe originalmente ser aplic´avel.

Referências

Documentos relacionados

A baixa taxa de desconto ao longo dos anos de produção do campo, para o cálculo da função objetivo, aliada a baixa produção de água que a locação de

Até onde sabemos, não existe nenhum estudo que demonstrou o efeito da administração do hormônio DHEA sobre a função autonômica cardíaca de ratos, bem como

o movime nto de minha mãe é muito artístico pra mim, e também minha própria vida né, com arte também, então ECOART era esse momento de juntar ecologia, arte

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

Através da apresentação e análise dos dados verifica-se que, à parte do nível escolar, é muito difícil poder desenvolver as competências de planificação ou

● Caracterizar, por meio de análises físico-químicas, os subprodutos,milhocina, soro de leite e efluente da produção de ração animal; ● Definir, por meio do planejamento