Inferˆ
encia Sequencial em Modelos
Dinˆ
amicos Generalizados
Carlos Tadeu Pagani Zanini
Universidade Federal do Rio de Janeiro
Instituto de Matem´
atica
Departamento de M´etodos Estat´ısticos
2015
Inferˆ
encia Sequencial em Modelos
Dinˆ
amicos Generalizados
Carlos Tadeu Pagani Zanini
Disserta¸c˜ao de Mestrado submetida ao Programa de P´os-Gradua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do t´ıtulo de Mestre em Estat´ıstica.
Aprovada por:
Prof. Helio dos Santos Migon PhD - IM - UFRJ - Orientador.
Profa Mariane Branco Alves D.Sc - IM - UFRJ - Co-orientadora.
Dani Gamerman PhD - IM - UFRJ.
Glaura Concei¸c˜ao Franco D.Sc - ICE - UFMG.
Rio de Janeiro, RJ - Brasil 2015
`
“Do you remember standing on the shore, Head in the clouds, your pockets filled with dreams Bound for glory on the seven seas of life, But the ocean is deeper than it seems
Sail your ship across the water, Spread your wings across the sky Take the time to see You’re the one who holds the key, Or sailing ships will pass you by (...) Spread your wings and you will see You control your destiny, So sailing ships don’t pass you by
Sailing ships - Whitesnake COVERDALE, DAVID & VANDENBERG, ADRIAN ”
Agradecimentos
Os ´ultimos dois anos foram, sem d´uvida alguma, os mais desafiadores da minha vida e, se consegui completar mais essa etapa, n˜ao foi sem ajuda das pessoas mais maravilhosas e compreensivas deste mundo. Sendo assim, dedico esta pequena se¸c˜ao do meu trabalho a agradacer a estas pessoas por estarem ao meu lado nas mais diversas e adversas situa¸c˜oes. Primeiramente, agrade¸co `a minha fam´ılia. Meus pais, que souberam estimular em mim o amor incondicional pelo conhecimento desde de crian¸ca, pelos valores e princ´ıpios que me ensinaram e pelo amor e carinho que sempre tiveram comigo. Ao meu irm˜ao, agrade¸co por absolutamente tudo, por ser o melhor amigo que algu´em pode ter, por estar sempre do meu lado pra me alegrar com as suas piadas, me inspirar com seus conselhos ou mesmo rir dos meus acessos de raiva quando meus programas n˜ao rodavam. Talvez vocˆe nem saiba disso, Gabriel, mas vocˆe me ensinou que a melhor maneira de resolver os problemas ´e com um largo sorriso na cara e n˜ao com um murro na mesa.
Aos meus amigos da p´os-gradua¸c˜ao, agrade¸co por dividirem comigo todos esses mo-mentos memor´aveis que passamos juntos estudando, programando, reclamando, rindo e outros ger´undios. Vocˆes foram as pessoas com quem passei mais tempo nesses dois anos em que praticamente vivi no fund˜ao. Aqui incluo todos os meu amigos da p´os-gradua¸c˜ao em estat´ıstica, ao pessoal da matem´atica e da matem´atica aplicada. Sem todos vocˆes, essa etapa seria muito mais dif´ıcil e menos divertida. Em especial, Marianas, Rafael e Ingrid, muit´ıssimo obrigado pelo conv´ıvio e companheirismo em absolutamente todos os momentos, desde as caronas, ˆonibus lotados, confraterniza¸c˜oes, aulas, congressos e at´e os almo¸cos no bandej˜ao (porque ´e claro que eu tenho que lembrar de comida sempre). Como vou sentir falta de tudo isso nos pr´oximos anos...
Aos meus amigos de mais longa data, agrade¸co por continuarem ao meu lado mesmo nos v´arios momentos em que me ausentei por conta dos compromissos com o mestrado.
Gustavo, Fred, Raphael, Lucas, Vicente, Daniel, Bianca, Alexandre, Luciana, Para´ıba e Mirna dedicar a vocˆes este trabalho ´e uma singela forma de agradecer a tudo o que vocˆes significam pra mim; afinal crescemos juntos como uma grande (na verdade, imensa) fam´ılia. Vou sempre levar na minha mem´oria os seus conselhos, conversas, piadas e as jogatinas de videogame nos fins de semana.
Agrade¸co a todo o corpo docente da p´os gradua¸c˜ao por atuar com tanta dedica¸c˜ao para nos transmitir da melhor forma poss´ıvel o conhecimento acadˆemico necess´ario para o nosso futuro profissional. Agrade¸co `a Mariane e ao Migon por me orientarem pelos in-trincados caminhos dessa jornada de pesquisa que chamamos de disserta¸c˜ao de mestrado. Tem sido uma grande honra e um grande prazer trabalhar com vocˆes dois. Fa¸co um agra-decimento especial `a Mariane, que al´em de excelente coorientadora ´e uma grande amiga. Obrigado por confiar em meu potencial desde quando entrei na UFRJ ao me oferecer um projeto de inicia¸c˜ao cient´ıfica (o que foi a fagulha inicial que iluminou minha decis˜ao pela carreira acadˆemica) e cujos conselhos me levaram onde estou hoje. Agrade¸co tamb´em `a Alexandra e ao Migon pelo constante incentivo que me d˜ao a participar de congressos. A participa¸c˜ao nesses eventos contribuiu muito para o meu aprendizado e foi, certamente, o fator que mais ajudou a nortear meu caminho para o doutorado. Vejo nesta nova etapa que se inicia, uma excelente oportunidade de retribuir a todo conhecimento que vocˆes, professores, transmitiram a mim e aos meus colegas nestes ´ultimos anos.
Aos professores Carlos Abanto Valle, Dani Gamerman e Glaura Franco, agrade¸co por aceitarem fazer parte da banca.
Finalmente, Agrade¸co ao CNPQ e `a Faperj pelo apoio financeiro no primeiro e segundo ano de mestrado, respectivamente.
Resumo
Na pr´atica, an´alises estat´ısticas de s´eries temporais requerem atualiza¸c˜ao constante da inferˆencia `a medida que novas observa¸c˜oes tornam-se dispon´ıveis. Nesse sentido, o ideal ´e utilizar procedimentos sequenciais de inferˆencia, sobretudo quando os intervalos de tempo em que se recebe novas informa¸c˜oes s˜ao curtos.
Tendo como base esta motiva¸c˜ao de car´ater pr´atico, este trabalho prop˜oe uma meto-dologia sequencial bayesiana aplicada a modelos dinˆamicos n˜ao-lineares com resposta na fam´ılia exponencial. Utiliza-se de expans˜ao do vetor de estados e lineariza¸c˜ao da equa¸c˜ao de evolu¸c˜ao resultante para estimar hiperparˆametros originalmente pertencentes `a matriz de evolu¸c˜ao, permitindo estima¸c˜ao dos estados e hiperparˆametros conjuntamente. Para estima¸c˜ao da variˆancia de evolu¸c˜ao de componentes dinˆamicas, utiliza-se quadratura de Gauss Hermite.
A aplica¸c˜ao da metodologia sequencial proposta aqui ´e exemplificada em contextos de modelos na fam´ılia exponencial com estrutura latente autorregressiva e tamb´em em modelos com efeito de fun¸c˜ao de transferˆencia para descrever o impacto de regressoras sobre a vari´avel resposta.
Palavras-Chaves: modelos dinˆamicos, linear bayes, processos autoregressivos, com-puta¸c˜ao sequencial bayesiana, quadratura de Gauss-Hermite.
Abstract
From a practical point of view, statistical time series analysis often require the infe-rence procedure to be constantly updated as new observations become available. In this sense, the use of sequential inference procedures is desirable, specially when new data arrive in short time intervals.
Focusing on this practical motivation, this work proposes a sequential Bayesian metho-dology that applies to non-linear dynamic models with response variable belonging to the exponential family of distributions. Expansion of the state vector and linearization of the resulting evolution equation are used to estimate hyperparameters originally belonging to the evolution matrix, which allows the estimation of the states and hyperparameters jointly. In order to estimate the evolution variances related to dynamic components in the model, Gauss-Hermite quadrature is used.
The aplication of the sequential methodology proposed here is shown in examples that concern dynamic models in the exponential family with latent autorregressive struc-ture and in models with transfer function effects describing how covariates impact the response variable.
Keywords: dynamic models,linear bayes, autorregressive processes, sequential baye-sian computation, Gauss-Hermite quadrature.
Sum´
ario
1 Introdu¸c˜ao 1
2 Estima¸c˜ao bayesiana e modelos dinˆamicos 4
2.1 Inferˆencia bayesiana. . . 4
2.1.1 Estima¸c˜ao pontual . . . 6
2.1.2 Estima¸c˜ao por intervalo . . . 7
2.1.3 Aspecto sequencial do Teorema de Bayes . . . 7
2.1.4 Previs˜oes . . . 8
2.1.5 Estimador linear de Bayes . . . 9
2.2 Modelos dinˆamicos . . . 11
2.2.1 Modelos lineares dinˆamicos. . . 11
2.2.2 Modelos lineares generalizados dinˆamicos . . . 17
2.2.3 Procedimento sequencial de inferˆencia em MLGD . . . 19
2.3 Especifica¸c˜ao dos erros de evolu¸c˜ao via fatores de desconto . . . 24
3 Inferˆencia sequencial em modelos dinˆamicos n˜ao lineares 26 3.1 Modelos dinˆamicos n˜ao lineares . . . 26
3.2 Processos autorregressivos . . . 27
3.3 Fun¸c˜oes de transferˆencia . . . 30
3.4 Inferˆencia em modelos dinˆamicos n˜ao-lineares . . . 34
3.4.1 Expans˜ao do vetor de estados . . . 35
3.4.2 Lineariza¸c˜ao da equa¸c˜ao de evolu¸c˜ao . . . 36
3.5 Quadratura de Gauss-Hermite em modelos
dinˆamicos n˜ao-lineares . . . 39
3.6 Fatores de desconto para componentes autorregressivas . . . 45
4 Estudo de simula¸c˜ao 48 4.1 Descri¸c˜ao e objetivos do estudo simulado . . . 48
4.2 Modelo Normal . . . 50
4.2.1 Modelo normal com estrutura latente AR(1) . . . 51
4.2.2 Modelo normal com estrutura latente AR(2) . . . 58
4.2.3 Modelo normal com estrutura latente AR(3) . . . 63
4.3 Modelo Poisson . . . 69
4.3.1 Modelo poisson com estrutura latente AR(1) . . . 69
4.3.2 modelo Poisson com estrutura latente AR(2) . . . 76
4.3.3 modelo Poisson com estrutura latente AR(3) . . . 80
4.4 Modelo Binomial . . . 84
4.4.1 Modelo binomial com estrutura latente AR(1) . . . 85
4.4.2 Modelo binomial com estrutura latente AR(2) . . . 90
4.4.3 Modelo binomial com estrutura latente AR(3) . . . 94
4.5 Conclus˜oes do estudo simulado . . . 98
5 Aplica¸c˜ao a dados reais 101 5.1 Introdu¸c˜ao . . . 101
5.2 Descri¸c˜ao do conjunto de dados . . . 102
5.3 Descri¸c˜ao dos modelos propostos . . . 103
5.3.1 Simula¸c˜ao . . . 107
5.3.2 Aplica¸c˜ao aos dados . . . 111
5.4 Conclus˜oes da aplica¸c˜ao aos dados reais. . . 115
6 Conclus˜oes e trabalhos futuros 117
Lista de Tabelas
4.1 Tempo computacional m´edio em segundos para implementa¸c˜ao da
me-todologia sequencial baseada na expans˜ao do vetor de estados e uso da
quadratura de Gauss-Hermite aos modelos dinˆamicos normais, poisson e
binomial com estrutura latente AR(1), AR(2) e AR(3). Foram utilizados
15 pontos na quadratura de Gauss-Hermite. . . 100
5.1 Logaritmo da verossimilhan¸ca preditiva para cada um dos modelos ajustados.112
5.2 Resumo a posteriori para os parˆametros est´aticos considerando toda a s´erie de dados. LI e LS (limites inferior e superior, respectivamente) referem-se
Lista de Figuras
2.1 Estima¸c˜ao de θt ∼ AR(1) em MLD{1, φ, V, W } com φ, W e V conhecidos.
mt = E(θt | Dt), Ct = V ar(θt | Dt). `A esquerda, exibe-se a sequˆencia
Ct juntamente com o valor limite C dado pela Proposi¸c˜ao 2.2. `A direita,
exibe-se a sequˆencia de estimativas e intervalos de credibilidade a posteriori
para os estados. . . 17
3.1 Estima¸c˜ao de θt ∼ AR(1) em MLD{1, φ, V, Wt} com φ conhecido e Wt
especificado pelo fator de desconto δ. Priori: θ1 ∼ N (0, 100). mt= E(θt|
Dt), Ct= V ar(θt | Dt). . . 47
4.1 Resultados para uma r´eplica simulada do modelo normal AR(1) com φ =
0.5, 0.7, 0.95 (1a, 2ae 3alinhas, respectivamente) considerando a variˆancia
de evolu¸c˜ao fixa em seu valor real no processo de estima¸c˜ao. . . 53
4.2 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ
condicio-nais a W no tempo N com base nas 100 s´eries simuladas do modelo normal
AR(1). Os pontos representam a m´edia amostral do respectivo conjunto
de estimativas pontuais E(φ | W, DN). A linha tracejada representa o
valor verdadeiro de φ.. . . 54
4.3 Histogramas suavizados para a distribui¸c˜ao das estimativas de V
condici-onais a W no tempo N com base nas 100 s´eries simuladas para o modelo
normal AR(1). Os pontos representam a m´edia amostral do respectivo
conjunto de estimativas pontuais E(V | W, DN). A linha tracejada
4.4 Resultados para uma r´eplica simulada do modelo normal AR(1) com φ = 0.5, 0.7, 0.95 (1a, 2a e 3a linhas, respectivamente) estimando a variˆancia
de evolu¸c˜ao via quadratura de Gauss-Hermite. . . 56
4.5 Estima¸c˜ao da variˆancia de evolu¸c˜ao W para a primeira r´eplica simulada
do modelo normal AR(1) com φ ∈ {0.5, 0.7, 0.95} (1a, 2a e 3a coluna,
respectivamente). . . 57
4.6 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ, W e
V (1a, 2a e 3a linhas, respectivamente) no tempo N , incondicionalente a
W, com base nas 100 s´eries simuladas com φ ∈ {0.5, 0.7, 0.95}. Os
pon-tos representam a m´edia amostral do respectivo conjunto de estimativas
pontuais E(φ | DN). A linha tracejada representa o valor verdadeiro de φ. 58
4.7 Resultados para a 1a r´eplica simulada do modelo normal AR(2) com φ =
(φ1, φ2) = (0.1, 0.8) considerando a variˆancia de evolu¸c˜ao fixa em seu valor
real no processo de estima¸c˜ao. . . 59
4.8 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ1 e φ2
condicionais a W no tempo N com base nas 100 s´eries simuladas do modelo
normal AR(2). Os pontos representam a m´edia amostral do respectivo
conjunto de estimativas pontuais E(φ1 | W, DN) (1alinha) e E(φ1 | W, DN)
(2a linha). A linha tracejada representa o valor verdadeiro de φ1 ou φ2. . 60
4.9 Resultados para a primeira r´eplica simulada do modelo normal AR(2) com
φ1 = 0.1, φ2 = 0.8 estimando a variˆancia de evolu¸c˜ao via quadratura de
Gauss-Hermite. . . 62
4.10 Estima¸c˜ao da variˆancia de evolu¸c˜ao W para a primeira r´eplica simulada
do modelo normal AR(2) com φ1 = 0.1 e φ2 = 0.8 . . . 62
4.11 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ1 e φ2 no
tempo N com base nas 100 s´eries simuladas do modelos normal AR(2). Os
pontos representam a m´edia amostral do respectivo conjunto de
estimati-vas pontuais E(φ | DN). A linha tracejada representa o valor verdadeiro
4.12 Resultados para a primeira r´eplica simulada do modelo normal AR(3) com φ = (φ1, φ2, φ3) = (0.81, 0.77, −0.86) considerando a variˆancia de evolu¸c˜ao
fixa em seu valor real no processo de estima¸c˜ao. . . 65
4.13 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ
condici-onalmente a W no tempo N com base nas 100 s´eries simuladas do modelo
normal AR(3). Os pontos representam a m´edia amostral do respectivo
conjunto de estimativas pontuais E(φ | W, DN), i ∈ {1, . . . , 5}. A linha
tracejada representa o valor verdadeiro de φi. . . 66
4.14 Histogramas suavizados para a distribui¸c˜ao das estimativas de V no tempo
N com base nas 100 s´eries simuladas do modelo normal AR(3)
condici-onalmente a W. Os pontos representam a m´edia amostral do respectivo
conjunto de estimativas pontuais E(V | W, DN). A linha tracejada
repre-senta o valor verdadeiro de V . . . 66
4.15 Resultados para a 1a r´eplica simulada do modelo normal AR(3) com φ =
(φ1, φ2, φ3) = (0.81, 0.77, −0.86) estimando a variˆancia de evolu¸c˜ao W via
quadratura de Gauss-Hermite. . . 68
4.16 Resultados referentes `a estima¸c˜ao da variˆancia de evolu¸c˜ao W e de
ob-serva¸c˜ao V para uma r´eplica simulada do modelo normal AR(3) com
φ = (φ1, φ2, φ3) = (0.81, 0.77, −0.86). . . 68
4.17 Histogramas suavizados para a distribui¸c˜ao das estimativas de φi, i ∈
{1, . . . , 5}, W e V no tempo N com base nas 100 s´eries simuladas do
mo-delo normal AR(3). Os pontos representam a m´edia amostral do respectivo
conjunto de estimativas pontuais E(φi | DN), E(W | DN) e E(V | DN).
A linha tracejada representa o valor verdadeiro de φi, W e V . . . 69
4.18 Resultados para a 1a r´eplica simulada do modelo Poisson AR(1) com
φ1 ∈ {0.5, 0.7, 0.95} (1a, 2a e 3a linhas respectivamente) considerando a
variˆancia de evolu¸c˜ao fixa em seu valor real no processo de estima¸c˜ao. . . 71 4.19 Estimativas a posteriori para a soma do n´ıvel do preditor com o processo
4.20 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ
condicio-nalmente a W, no tempo N com base nas 100 s´eries simuladas do modelo
Poisson AR(1). Os pontos representam a m´edia amostral do respectivo
conjunto de estimativas E(φ | W, DN). A linha tracejada representa o
valor verdadeiro de φ.. . . 72
4.21 Resultados para a 1a r´eplica simulada do modelo Poisson AR(1) com φ
1 ∈
{0.5, 0.7, 0.95} (1a, 2a e 3a colunas respectivamente) estimando a variˆancia
de evolu¸c˜ao. . . 74 4.22 Resultados referentes `a estima¸c˜ao da variˆancia de evolu¸c˜ao W para uma
r´eplica simulada do modelo Poisson AR(1) com φ1 ∈ {0.5, 0.7, 0.95} (1a,
2a e 3a linhas respectivamente). . . 75
4.23 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ no tempo
N com base nas 100 s´eries simuladas com φ ∈ {0.5, 0.7, 0.95}. Os
pon-tos representam a m´edia amostral do respectivo conjunto de estimativas
pontuais E(φ | DN). A linha tracejada representa o valor verdadeiro de φ. 76
4.24 Resultados para uma r´eplica simulada do modelo Poisson AR(2) com φ =
(φ1, φ2) = (0.1, 0.8) considerando a variˆancia de evolu¸c˜ao fixa em seu valor
real no processo de estima¸c˜ao. . . 77
4.25 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ
condi-cionais a W no tempo N com base nas 100 s´eries simuladas com φ =
(φ1, φ2) = (0.1, 0.8). Os pontos representam a m´edia amostral do
respec-tivo conjunto de estimativas pontuais E(φ1 | W, DN) ou E(φ2 | W, DN).
A linha tracejada representa o valor verdadeiro de φ1 e φ2. . . 78
4.26 Resultados para uma r´eplica simulada do modelo Poisson AR(2) com
φ = (φ1, φ2) = (0.1, 0.8) estimando a variˆancia de evolu¸c˜ao atrav´es de
4.27 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ no tempo
N com base nas 100 s´eries simuladas do modelo Poisson AR(2) com
φ = (φ1, φ2) = (0.1, 0.8). Os pontos representam a m´edia amostral do
respectivo conjunto de estimativas pontuais E(φ1 | DN), E(φ2 | DN) e
E(W | DN). A linha tracejada representa o valor verdadeiro de φ1, φ2 e W. 79
4.28 Resultados para uma r´eplica simulada do modelo Poisson AR(3) com φ =
(φ1, φ2, φ3) = (0.81, 0.77, −0.86) considerando a variˆancia de evolu¸c˜ao fixa
em seu valor real no processo de estima¸c˜ao. . . 81
4.29 Histogramas suavizados para a distribui¸c˜ao das estimativas de φi, i{1, . . . , 5}
condicionais a W no tempo N com base nas 100 s´eries simuladas do
mo-delo Poisson AR(3). Os pontos representam a m´edia amostral do
respec-tivo conjunto de estimativas pontuais E(φi | W, DN). A linha tracejada
representa o valor verdadeiro de φi. . . 82
4.30 Resultados para uma r´eplica simulada do modelo Poisson AR(3) com φ =
(φ1, φ2, φ3) = (0.81, 0.77, −0.86) estimando a variˆancia de evolu¸c˜ao. . . . 83
4.31 Resultados referentes `a estima¸c˜ao da variˆancia de evolu¸c˜ao W para a
pri-meira r´eplica simulada do modelo Poisson AR(3) com φ = (φ1, φ2, φ3) =
(0.81, 0.77, −0.86). . . 84
4.32 Histogramas suavizados para a distribui¸c˜ao das estimativas de φi, i ∈
{1, . . . , 5} e W no tempo N com base nas 100 s´eries simuladas do modelo
Poisson AR(3). Os pontos representam a m´edia amostral do respectivo
conjunto de estimativas pontuais E(φi | DN) ou E(W | DN). . . 84
4.33 Resultados para uma r´eplica simulada do modelo binomial AR(1) com
φ1 ∈ {0.5, 0.7, 0.95} (1a, 2a e 3a linhas respectivamente) considerando a
variˆancia de evolu¸c˜ao fixa em seu valor real no processo de estima¸c˜ao. . 86
4.34 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ no tempo
N condicionalmente a W com base nas 100 s´eries simuladas do modelo
binomial AR(1). Os pontos representam a m´edia amostral do respectivo
4.35 Resultados para a primeira r´eplica simulada do modelo binomial AR(1) com φ1 ∈ {0.5, 0.7, 0.95} (1a, 2a e 3a colunas, respectivamente) estimando
a variˆancia de evolu¸c˜ao. . . 88 4.36 Resultados referentes `a estima¸c˜ao da variˆancia de evolu¸c˜ao W para uma
r´eplica simulada do modelo binomial AR(1) com φ1 ∈ {0.5, 0.7, 0.95}. . . 89
4.37 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ e W no
tempo N com base nas 100 s´eries simuladas com do modelo binomial
AR(1). Os pontos representam a m´edia amostral do respectivo conjunto
de estimativas pontuais E(φ | DN) e E(W | DN). . . 90
4.38 Resultados para a primeira r´eplica simulada do modelo binomial AR(2)
considerando a variˆancia de evolu¸c˜ao fixa em seu valor real no processo de
estima¸c˜ao. . . 91
4.39 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ1 e φ2
con-dicionalmente a W no tempo N com base nas 100 s´eries simuladas do
modelo binomial AR(2). Os pontos representam a m´edia amostral do
res-pectivo conjunto de estimativas pontuais E(φi | W, DN), i ∈ {1, 2}. . . . 91
4.40 Resultados para a primeira r´eplica simulada do modelo binomial AR(2)
estimando a variˆancia de evolu¸c˜ao. . . 92
4.41 Resultados referentes `a estima¸c˜ao da variˆancia de evolu¸c˜ao W para a
pri-meira r´eplica simulada do modelo binomial AR(2). . . 93
4.42 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ1 e φ2 no
tempo N com base nas 100 s´eries simuladas com φ = (φ1, φ2) = (0.1, 0.8).
Os pontos representam a m´edia amostral do respectivo conjunto de
esti-mativas pontuais E(φi | DN), i ∈ {1, 2} e E(W | DN). . . 93
4.43 Resultados para a primeira r´eplica simulada do modelo binomial AR(3)
considerando a variˆancia de evolu¸c˜ao fixa em seu valor real no processo de estima¸c˜ao. . . 95
4.44 Histogramas suavizados para a distribui¸c˜ao das estimativas de φi
condi-cionais a W no tempo N com base nas 100 s´eries simuladas do modelo
binomial AR(3) com φ = (φ1, φ2, φ3) = (0.81, 0.77, −0.86). Os pontos
representam a m´edia amostral do respectivo conjunto de estimativas
pon-tuais E(φi | W, DN), i ∈ {1, . . . , 5}. . . 96
4.45 Resultados para a primeira r´eplica simulada do modelo binomial AR(3)
estimando a variˆancia de evolu¸c˜ao. . . 97
4.46 Resultados referentes `a estima¸c˜ao da variˆancia de evolu¸c˜ao W para a
pri-eira r´eplica simulada do modelo nbinomial AR(3). . . 97
4.47 Histogramas suavizados para a distribui¸c˜ao das estimativas de φ no tempo
N com base nas 100 s´eries simuladas do modelo binomial AR(3) com φ =
(φ1, φ2, φ3) = (0.81, 0.77, −0.86). Os pontos representam a m´edia amostral
do respectivo conjunto de estimativas pontuais E(φi | DN), i ∈ {1, . . . , 5}
e E(W | DN). . . 98
5.1 S´eries temporais da vari´avel resposta e das regressoras. . . 102
5.2 Intervalos de credibilidade a posteriori (m´edia ± 2 desvios) para os parˆametros
est´aticos do modelo 7, condicionalmente a toda a s´erie de dados, obtidos
via metodologia sequencial e via MCMC. . . 109
5.3 Fun¸c˜ao de resposta imediata ao impulso (γt) estimada sequencialmente e
via MCMC no modelo 7. Exibe-se a s´erie real e intervalos de credibilidade
a posteriori (m´edia ± 2 desvios) condicionalmente a toda a s´erie de dados. 110
5.4 Histograma (MCMC) e curva de densidade aproximada (metodologia
se-quencial) para a variˆancia de evolu¸c˜ao a posteriori no modelo 7. Curva
obtida com 15 pontos na quadratura de Gauss-Hermite. . . 111
5.5 Intervalos de credibilidade a posteriori (m´edia ± 2 desvios-padr˜oes) para
os parˆametros est´aticos considerando-se toda a s´erie de dados. . . 114
5.6 Fun¸c˜ao de resposta ao impulso estimada para o modelo 4.. . . 114
5.7 Previs˜oes um passo `a frente para o n´umero de ´obitos de crian¸cas por doen¸ca respirat´oria em S˜ao Paulo . . . 115
Cap´ıtulo 1
Introdu¸
c˜
ao
Em muitas situa¸c˜oes de car´ater pr´atico, existe o interesse, ou a necessidade, em com-preender o comportamento de alguma vari´avel no decorrer do tempo ou mesmo em prever a trajet´oria de tal vari´avel em tempos futuros. Nesses contextos, ´e comum que se receba novas informa¸c˜oes com o passar do tempo, o que requer m´ultiplas aplica¸c˜oes do procedi-mento inferencial adotado, visando incorporar novas observa¸c˜oes de vari´aveis ao modelo conforme elas se tornam dispon´ıveis. Assim, ´e natural recorrer a procedimentos sequen-ciais de inferˆencia para modelagem de s´eries temporais.
Os modelos de espa¸co de estados, tamb´em conhecidos como modelos dinˆamicos, tˆem sido amplamente utilizados nos ´ultimos anos para tratar de dados com dependˆencia tem-poral sob enfoque bayesiano. Essa classe de modelos ´e bastante flex´ıvel, permitindo efeitos latentes est´aticos e dinˆamicos sobre a resposta. A dinˆamica de tais efeitos ´e determinada por uma matriz de evolu¸c˜ao que pode depender de hiperparˆametros, em geral, desco-nhecidos. Nessas circunstˆancias, ´e fundamental a inferˆencia sobre tais parˆametros, uma vez que eles determinam a dinˆamica de processos latentes que por sua vez descrever˜ao o comportamento da vari´avel resposta ao longo do tempo.
Nos modelos dinˆamicos em que a vari´avel resposta ´e um membro da fam´ılia exponen-cial e n˜ao h´a parˆametros desconhecidos na matriz de evolu¸c˜ao, West et al. (1985) des-crevem metodologia sequencial de inferˆencia para os estados (feita em termos de m´edia e matriz de covariˆancias), propondo especifica¸c˜ao da sequˆencia de variˆancias de evolu¸c˜ao via fatores de desconto. Em contextos onde existem parˆametros a serem estimados na
ma-triz de evolu¸c˜ao,Pole(1988) ePole e West(1990) prop˜oem a estima¸c˜ao sequencial de tais parˆametros utilizando quadratura de Gauss-Hermite, tamb´em especificando a sequˆencia de variˆancias de evolu¸c˜ao atrav´es de fatores de desconto, por´em somente abordam casos em que se tem normalidade para a vari´avel resposta.
Nesta disserta¸c˜ao, prop˜oe-se um esquema sequencial de inferˆencia bayesiana em mo-delos dinˆamicos na fam´ılia exponencial com hiperparˆametros na matriz de evolu¸c˜ao. Para inferir sobre os hiperparˆametros utilizamos a expans˜ao do vetor de estados e lineariza¸c˜ao da equa¸c˜ao de evolu¸c˜ao. A variˆancia de evolu¸c˜ao de componentes dinˆamicas ´e suposta constante e estimada via quadratura de Gauss-Hermite.
A implementa¸c˜ao da metodologia sequencial proposta foi feita em linguagem R (R Development Core Team, 2008), com utiliza¸c˜ao do pacote fastGHQuad (Blocker, 2014) para obter os pontos da quadratura de Gauss-Hermite e pesos associados.
A seguir, descreve-se brevemente a estrutura da disserta¸c˜ao.
No cap´ıtulo 2, apresenta-se conceitos gerais sobre inferˆencia bayesiana e modelos dinˆamicos que servir˜ao como base para o restante da disserta¸c˜ao. Neste cap´ıtulo, considera-se modelos dinˆamicos com resposta pertencente `a fam´ılia exponencial e descreve-se em linhas gerais o procedimento sequencial proposto porWest et al.(1985) em tais modelos. O cap´ıtulo 3 aborda modelos dinˆamicos n˜ao lineares, apresentando a metodologia sequencial proposta para estima¸c˜ao dos estados, dos parˆametros de n˜ao-linearidade (ou hiperparˆametros) que caracterizam a dinˆamica dos estados e das variˆancias de evolu¸c˜ao. As variˆancias de evolu¸c˜ao s˜ao estimadas via quadratura de Gauss Hermite ou especi-ficadas via fatores de desconto. A estima¸c˜ao dos hiperparˆametros ´e feita incluindo-os como componentes do vetor de estados aplicando-se, em seguida, t´ecnicas de lineariza¸c˜ao que possibilitam aplicar do esquema sequencial para estima¸c˜ao dos estados, descrito em
West et al. (1985). Al´em disso, descreve-se brevemente dois tipos de processos latentes (processos autorregressivos e de fun¸c˜ao de transferˆencia), que ser˜ao abordados no estudo simulado e na aplica¸c˜ao a dados reais.
O cap´ıtulo 4 consiste num estudo simulado de modelos dinˆamicos normal, poisson e binomial com estrutura latente autorregressiva de ordem 1, 2 e 3 aplicando-se a metodolo-gia sequencial descrita no cap´ıtulo 3. O objetivo ´e identificar a eficiˆencia do procedimento
sequencial em estimar tais processos, bem como os parˆametros que os definem.
O cap´ıtulo 5 descreve uma aplica¸c˜ao a dados reais no contexto de desfechos epide-miol´ogicos, onde estuda-se a modelagem de efeitos cumulativos de regressoras sobre a resposta atrav´es de fun¸c˜oes de transferˆencia. Neste cap´ıtulo, faz-se uma compara¸c˜ao entre as estimativas obtidas sequencialmente atrav´es da metodologia proposta neste tra-balho e obtidas por m´etodo de Monte Carlo via Cadeias de Markov (MCMC), utilizando o esquema proposto por Gamerman (1998) e aplicado a esse contexto de fun¸c˜oes de transferˆencia por Alves et al. (2010).
Em seguida, o cap´ıtulo 6 apresenta as conclus˜oes gerais sobre a metodologia proposta na disserta¸c˜ao, descrevendo poss´ıveis extens˜oes do m´etodo e aplica¸c˜oes para trablhos futuros.
Por fim, o apˆendice apresenta a parametriza¸c˜ao adotada para algumas das distri-bui¸c˜oes que aparecem ao longo do texto. S˜ao elas: beta binomial, binomial negativa, gama, gama inversa, log normal, t-student com parˆametros de posi¸c˜ao e escala e t-student multivariada com posi¸c˜ao e escala.
Cap´ıtulo 2
Estima¸
c˜
ao bayesiana e modelos
dinˆ
amicos
Este cap´ıtulo faz uma breve introdu¸c˜ao `a inferˆencia param´etrica sob enfoque baye-siano, apresentando os conceitos b´asicos referentes a estima¸c˜ao de parˆametros e a rea-liza¸c˜ao de previs˜oes. Apresenta-se, em seguida, a classe dos modelos dinˆamicos (tamb´em conhecidos na literatura como modelos de espa¸co de estados), os quais permitem que um conjunto de parˆametros respons´aveis pela descri¸c˜ao probabil´ıstica das observa¸c˜oes varie com o decorrer do tempo. Considera-se primeiramente o caso em que a vari´avel resposta tem distribui¸c˜ao normal para, em seguida, tratar do caso mais geral em que a resposta ´e um membro da fam´ılia exponencial. O caso em que a evolu¸c˜ao dos parˆametros do modelo ocorre de forma n˜ao linear ´e tratado no cap´ıtulo 3.
2.1
Inferˆ
encia bayesiana
Considere Y uma vari´avel de interesse com distribui¸c˜ao de probabilidade caracteri-zada por um vetor de parˆametros θ. Em geral, visando compreender o comportamento probabil´ıstico de Y , obt´em-se uma amostra aleat´oria y1, . . . , yn dessa vari´avel, a partir
da qual obt´em-se estimativas para θ. A plausibilidade desse procedimento reside no fato de que os dados observados carregam consigo informa¸c˜ao sobre os parˆametros θ, sendo essa informa¸c˜ao traduzida formalmente em termos matem´aticos pela fun¸c˜ao de
verossi-milhan¸ca l(· ; y1, . . . , yn) : Θ → R+, dada por l(θ ; y1, . . . , yn) = p(y1, . . . , yn| θ), onde
Θ ´e o espa¸co param´etrico e p(y1, . . . , yn | θ) ´e a fun¸c˜ao de densidade de (y1, . . . , yn) no
caso em que o vetor ´e cont´ınuo, ou a fun¸c˜ao de probabilidades quando o vetor ´e discreto. A verossimilhan¸ca pode ser vista, portanto, como medida de plausibilidade para o valor θ ∈ Θ `a luz das observa¸c˜oes (y1, . . . , yn).
Sob o paradigma bayesiano considera-se tamb´em a informa¸c˜ao subjetiva sobre o ve-tor param´etrico θ. Essa informa¸c˜ao ´e traduzida matematicamente pela distribui¸c˜ao de probabilidades a priori p : Θ → R+, a qual ´e especificada previamente `a observa¸c˜ao dos
dados, de modo que toda informa¸c˜ao proveniente dos dados esteja contida apenas na fun¸c˜ao de verossimilhan¸ca.
O Teorema de Bayes, enunciado a seguir, estabelece a rela¸c˜ao entre priori e verossi-milhan¸ca na composi¸c˜ao da incerteza acerca dos parˆametros.
Teorema 2.1. (Teorema de Bayes) Sejam θ ∈ Θ o vetor de parˆametros, p(θ) a densidade (ou fun¸c˜ao de probabilidade) a priori, e y o vetor de observa¸c˜oes com verossimilhan¸ca l(θ; y) = p(y | θ). Ent˜ao, a distribui¸c˜ao a posteriori ´e dada por
p(θ | y) = p(y | θ)p(θ)
R p(y | θ)p(θ)dθ ∝ p(y | θ)p(θ),
em que o produto p(y | θ)π(θ), bem como qualquer de seus m´ultiplos por fun¸c˜oes que n˜ao dependam de θ, ´e chamado n´ucleo da distribui¸c˜ao a posteriori.
A incerteza sobre θ ap´os a observa¸c˜ao dos dados ´e representada em termos proba-bil´ısticos atrav´es da distribui¸c˜ao a posteriori, cuja densidade (ou fun¸c˜ao de probabilidade) ´
e denotada por p(· | y1, . . . , yn) : Θ → R+. A partir da distribui¸c˜ao a posteriori s˜ao
cal-culadas as estimativas pontuais dos parˆametros e medidas de incerteza referentes ao processo de estima¸c˜ao, dentre outras quantidades de interesse poss´ıveis.
2.1.1
Estima¸
c˜
ao pontual
O processo de estima¸c˜ao pontual do vetor param´etrico θ com dimens˜ao, digamos, p×1 pode ser visto sob o paradigma da teoria da decis˜ao (Migon et al., 2014). O objetivo ´
e sintetizar a informa¸c˜ao sobre θ em um ´unico ponto ˆθ do suporte da distribui¸c˜ao a posteriori.
Considere Ω o conjunto de todos os valores poss´ıveis para um vetor de observa¸c˜oes y = (y1, . . . , yn). Define-se a regra de decis˜ao δ : Ω → A como a fun¸c˜ao que associa a cada
vetor de observa¸c˜oes y a decis˜ao δ(y) no espa¸co das a¸c˜oes A. Em seguida, especifica-se a fun¸c˜ao de perda L : A × Θ → R+ que associa `a decis˜ao δ(y) ∈ A uma perda que depende
do verdadeiro valor de θ ∈ Θ. Por fim, define-se a fun¸c˜ao de risco R(δ) = E[L(δ, θ) | y], que representa a perda esperada quando se adota a decis˜ao δ = δ(y).
O objetivo ´e, dadas a fun¸c˜ao de perdas L e as observa¸c˜oes y, tomar a decis˜ao ´otima δ = δ(y) que minimiza o risco R(δ) = E[L(δ, θ) | y]. A regra de decis˜ao ´otima ´e conhecida em pelo menos 3 importantes casos:
• Perda quadr´atica: L(δ, θ) = (δ − θ)0(δ − θ). A decis˜ao ´otima ´e a m´edia a pos-teriori δ = ˆθ = E(θ | y).
• Perda absoluta: L(δ, θ) = kδ − θk.A decis˜ao ´otima ´e a mediana a posteriori: δ = ˆθ = med, onde P (θ < med | y) = 0, 5. Aqui, quando θ ´e multidimensional, a desigualdade θ < med significa que cada entrada de θ ´e menor que a respectiva entrada do vetor med.
• Perda 0 − 1: L(δ, θ) = I(δ = θ) = 1 se δ = θ, 0 se δ 6= θ.
A decis˜ao ´otima nesse caso ´e a moda a posteriori δ = ˆθ = arg max θ∈Θ
2.1.2
Estima¸
c˜
ao por intervalo
Em muitos problemas pr´aticos, existe interesse n˜ao apenas em estimativas pontuais dos parˆametros, mas tamb´em na incerteza associada a essas medidas. Dessa forma, tem-se o interestem-se em considerar alguma medida resumo da posteriori que tem-seja capaz de refletir a incerteza associada ao procedimento de estima¸c˜ao pontual. No caso, uma possibilidade ´
e realizar estima¸c˜ao atrav´es de intervalos de credibilidade a posteriori.
Uma regi˜ao C ⊂ Rp ´e dita regi˜ao de credibilidade com probabilidade γ a posteriori
para θ se P (θ ∈ C | y) = γ, onde p ´e a dimens˜ao de θ. No caso θ unidimensional, refere-se a C como intervalo de credibilidade. Al´em disso, no caso em que p > 1, costuma-se reportar intervalos de credibilidade marginais unidimensionais para cada componente do vetor de estados θ.
2.1.3
Aspecto sequencial do Teorema de Bayes
O Teorema de Bayes pode tamb´em ser visto sob o aspecto sequencial, segundo o qual cada observa¸c˜ao ´e incorporada em sequˆencia `a informa¸c˜ao a priori para compor a distribui¸c˜ao a posteriori. Mais especificamente, denotando o vetor de observa¸c˜oes por y = (y1, y2, ..., yn), temos no instante zero a distribui¸c˜ao a priori p(θ). Incorporada a
primeira observa¸c˜ao y1 `a informa¸c˜ao a priori, atualiza-se a incerteza a respeito de θ
atrav´es do Teorema de Bayes, obtendo assim a distribui¸c˜ao a posteriori no tempo 1:
p(θ | y1) ∝ p(y1 | θ)p(θ)
Agora, no instante 2, toda a informa¸c˜ao pr´evia a respeito de θ (representada pela posteriori no instante 1: p(θ | y1)) ´e considerada informa¸c˜ao a priori e, ao ser combinada
com a observa¸c˜ao no tempo corrente, resulta na posteriori no instante 2:
p(θ | y1, y2) ∝ p(y2 | θ, y1)p(θ | y1) = p(y2 | θ)p(θ | y1),
onde a igualdade ocorre quando se sup˜oe independˆencia entre as observa¸c˜oes dado o conhecimento do vetor param´etrico, o que significa assumir que o vetor param´etrico sin-tetiza toda a informa¸c˜ao necess´aria para determina¸c˜ao do comportamento probabil´ıstico
de yi. Em outras palavras, o conhecimento de yj , para qualquer j 6= i, n˜ao altera em
nada a distribui¸c˜ao probabil´ıstica de yi se os parˆametros s˜ao conhecidos.
Prosseguindo com o mesmo racioc´ınio, tem-se no tempo n a rela¸c˜ao de recorrˆencia
p(θ | y1, ..., yn) ∝ p(yn | θ)p(θ | yn−1, ..., y1),
que permite chegar `a f´ormula enunciada no Teorema de Bayes:
p(θ | y1, ..., yn) ∝ p(yn | θ)p(yn−1 | θ)...p(y1 | θ)p(θ)
= p(y | θ)p(θ),
onde a igualdade novamente ocorre quando se sup˜oe independˆencia entre as observa¸c˜oes condicionalmente ao vetor param´etrico. Portanto, a distribui¸c˜ao a posteriori obtida se-quencialmente ´e a mesma que se obt´em com uma ´unica aplica¸c˜ao do Teorema de Bayes considerando o vetor completo y = (y1, ..., yn).
Nesse ponto, cabe uma breve considera¸c˜ao sobre a nota¸c˜ao que por vezes ser´a usada ao longo deste trabalho no que se refere `a atualiza¸c˜ao sequencial de informa¸c˜ao segundo a ´otica bayesiana. Considera-se D0 o conjunto contendo a informa¸c˜ao necess´aria para
compor a distribui¸c˜ao a priori p(θ). Recursivamente, tem-se no instante t o conjunto Dt−1 representando toda informa¸c˜ao dispon´ıvel a priori, ou seja, at´e o instante t − 1.
Com a chegada de uma nova observa¸c˜ao yt, tem-se Dt = {yt} ∪ Dt−1 no caso em que
n˜ao se deseja incorporar nenhuma informa¸c˜ao externa aos dados do instante t − 1 para o instante t. Portanto, em problemas onde se utiliza de informa¸c˜ao subjetiva apenas no instante pr´evio `a observa¸c˜ao do primeiro dado y1, tem-se Dt = {y1, . . . , yt} ∪ D0.
2.1.4
Previs˜
oes
A distribui¸c˜ao preditiva ´e um objeto probabil´ıstico que permite n˜ao s´o fazer previs˜oes como tamb´em avaliar a adequa¸c˜ao do modelo te´orico formulado pelo estat´ıstico, pois permite verificar se o modelo obtido ´e capaz de reproduzir dados pr´oximos dos que foram observados sob o ponto de vista preditivo.
A distribui¸c˜ao preditiva para um vetor de dados n˜ao observados z a partir do con-junto de observa¸c˜oes y ´e a fun¸c˜ao densidade (ou fun¸c˜ao de probabilidade) dada por
p(z | y) = Z
Θp(z | θ)p(θ | y)dθ = Eθ|y [p(z | θ)] .
A distribui¸c˜ao preditiva para z pode ser interpretada como uma m´edia dos valores de l(θ; z) = p(z | θ) ponderados pela posteriori p(θ | y). Neste ponto, ´e importante obser-var que a predi¸c˜ao feita desta forma est´a condicionada apenas ao vetor de observa¸c˜oes, sem nenhuma dependˆencia anal´ıtica com respeito ao vetor param´etrico.
2.1.5
Estimador linear de Bayes
Conforme visto na subse¸c˜ao 2.1.1, fixada uma fun¸c˜ao de perda, a teoria da decis˜ao fornece o estimador ´otimo para o vetor param´etrico θ procurando dentre todas as fun¸c˜oes dos dados, que aqui representamos por δ = δ(y), aquela que minimiza o risco a posteriori R(δ) = E[L(δ, θ) | y].
Existem casos em que n˜ao se conhece a forma anal´ıtica do estimador ´otimo de θ segundo o crit´erio de minimiza¸c˜ao do risco a posteriori, mesmo quando se utiliza uma das fun¸c˜oes de perda apresentadas na subse¸c˜ao 2.1.1. Isso pode ocorrer, por exemplo, quando n˜ao se tem forma anal´ıtica dispon´ıvel para a densidade posteriori p(θ | y) e, por consequˆencia, n˜ao se consegue obter a m´edia, moda ou mediana para θ | y.
Nessas circunstˆancias, o processo de estima¸c˜ao linear de Bayes fornece uma apro-xima¸c˜ao para a solu¸c˜ao ´otima dada pela teoria da decis˜ao quando se considera a fun¸c˜ao de perda quadr´atica. O procedimento, ao inv´es de minimizar o risco a posteriori sob todas as poss´ıveis fun¸c˜oes dos dados, minimiza o risco a priori E[L(δ, θ)], restringindo-se as decis˜oes a fun¸c˜oes lineares d(y) do vetor de observa¸c˜oes. O estimador obtido dessa forma recebe o nome de estimador linear de Bayes, e sua perda quadr´atica ´e usada como aproxima¸c˜ao para a variˆancia a posteriori de θ.
Proposi¸c˜ao 2.1. (Estimador Linear de Bayes) O estimador linear de Bayes para θ ´e a fun¸c˜ao linear das observa¸c˜oes d = d(y) que minimiza a perda quadr´atica esperada a priori E[(θ − d)0(θ − d)].
Em suma, o estimador linear de Bayes pode ser visto como uma aproxima¸c˜ao linear para a fun¸c˜ao δ(y) = E(θ | y) e o risco associado ao estimador linear de Bayes constitui uma aproxima¸c˜ao para V ar(θ | y).
A obten¸c˜ao de estimadores lineares de Bayes ´e parte essencial do procedimento de in-ferˆencia sequencial em modelos dinˆamicos descrito na se¸c˜ao2.2. Em particular, utiliza-se a proposi¸c˜ao a seguir, cuja demonstra¸c˜ao pode ser vista emWest e Harrison (1997).
Proposi¸c˜ao 2.1. Suponha um vetor aleat´orio (θ, y) com vetor de m´edias e matriz de covariˆancias dados por
y θ ∼ f a , Q S0 S R .
Nesse caso, o estimador linear de Bayes para θ ´e d = d(y) = a + SQ−1(y − f ) e a perda quadr´atica esperada para esse estimador ´e R − SQ−1S0. Naturalmente, o valor R − SQ−1S corresponde `a menor perda esperada a priori sob fun¸c˜oes lineares das ob-serva¸c˜oes y.
Note-se que, sob normalidade da distribui¸c˜ao conjunta (y, θ), o estimador linear de Bayes para θ coincide com a esperan¸ca a posteriori E(θ | y) e o risco associado coincide com a variˆancia a posteriori V ar(θ | y).
2.2
Modelos dinˆ
amicos
Os modelos dinˆamicos, tamb´em conhecidos como modelos de espa¸co de estados, assu-mem que a cada tempo t ∈ N a observa¸c˜ao yt´e caracterizada probabilisticamente por um
vetor de parˆametros θt (denominado vetor de estados) cujas componentes podem variar
ao longo do tempo.
2.2.1
Modelos lineares dinˆ
amicos
Um modelo linear dinˆamico (MLD) em sua forma geral ´e descrito por duas equa¸c˜oes: a equa¸c˜ao de observa¸c˜ao, que descreve a rela¸c˜ao entre covari´aveis e a vari´avel resposta, e a equa¸c˜ao de evolu¸c˜ao, que descreve a forma com que os parˆametros do modelo evoluem com o tempo:
yt = F0tθt+ vt, vt∼ N (0, Vt)
θt = Gtθt−1+ wt, wt∼ N (0, Wt), (2.1)
sendo (vt)t∈Ne (wt)t∈N sequˆencias de vari´aveis aleat´orias tais que vt⊥vs, e wt⊥ws, ∀t 6=
s. Al´em disso, vt⊥ws, ∀s, t. O erro vt ´e chamado erro de observa¸c˜ao e wt ´e chamado
erro de evolu¸c˜ao.
Um MLD ´e, portanto, caracterizado pela qu´adrupla (Ft, Gt, Vt, Wt), onde:
• Ft´e o vetor de planejamento no tempo t, com valores conhecidos que podem conter
vari´aveis explicativas: Ft = (x1t, . . . , xpt)0;
• yt ´e a resposta observada no tempo t;
• θt´e o vetor param´etrico no tempo t: θt= (θ1t, . . . , θpt)0;
As variˆancias Vt e Wt controlam a magnitude dos erros de observa¸c˜ao e de evolu¸c˜ao,
respectivamente. Quanto maiores os valores na posi¸c˜ao i, i ∈ {1, . . . , p} da diagonal das matrizes de covariˆancias Wt, t ∈ {1, . . . , p}, mais vol´atil ´e a trajet´oria da componente
θi,t do vetor de estados θt ao longo do tempo, e quanto maiores os valores de Vt, maior
´
e a variabilidade das observa¸c˜oes em torno do preditor linear ηt = F0tθt que, no caso
normal, coincide com a m´edia da vari´avel resposta: E(yt) = µt= ηt.
A classe MLD abrange v´arios tipos de modelos importantes, como os Modelos de Re-gress˜ao Linear Normais (Ft, Gt= I, Vt = σ2, Wt = 0) e os Modelos de S´eries Temporais
(Ft= F , Gt= G, Vt, Wt).
Sob o enfoque Bayesiano necessita-se ainda especificar as distribui¸c˜oes a priori para os parˆametros de interesse de modo a completar a descri¸c˜ao do modelo. Adotando priori normal para θ1 e conhecidos Vt e Wt, tem-se forma anal´ıtica fechada para as posterioris
θt | Dt, t = 1, 2, . . . , conforme an´alise bayesiana sequencial do modelo (2.1) dada pelas
equa¸c˜oes a seguir, em que θt−1| Dt−1∼ N (mt−1, Ct−1).
Priori no tempo t: θt | Dt−1 ∼ N (at, Rt), at = Gtmt−1 Rt = GtCt−1G0t+ Wt, Preditiva no tempo t: yt| Dt−1 ∼ N (ft, Qt), ft = F0tat Qt = F0tRtFt+ Vt,
Vetor de coeficientes adaptativos At e erro de previs˜ao et:
At = RtFtQ−1t et = yt− ft, Posteriori no tempo t: θt | Dt∼ N (mt, Ct), mt = at+ Atet Ct = Rt− AtA0tQt.
Note-se, a partir das equa¸c˜oes, que yt n˜ao consta na express˜ao anal´ıtica de nenhuma
das variˆancias Rt, Qt, Ct, portanto, as variˆancias a posteriori diag(Ct) decrescem em
fun¸c˜ao apenas da quantidade de observa¸c˜oes contida no vetor de dados, independente-mente dos particulares valores observados para yt.
Nessas circunstˆancias tem-se conjuga¸c˜ao para o vetor de estados, portanto θt | Dt e
θt | Dt−1 tˆem distribui¸c˜ao normal ∀t ∈ N e as preditivas yt | Dt−1 tamb´em s˜ao obtidas
analiticamente e possuem distribui¸c˜ao normal.
Tamb´em ´e poss´ıvel obter forma anal´ıtica fechada para as posterioris via conjuga¸c˜ao no caso em que Vt = V, ∀t ∈ N com V desconhecido. Nessas circunstˆancias, obt´em-se
con-juga¸c˜ao adotando priori Normal-Gama (West e Harrison,1997) para o vetor (θt, τ ) | Dt,
onde τ = 1/V . Marginalmente, o vetor de estados θt tem distribui¸c˜ao T-Student
multi-variada (tanto a priori quanto a posteriori) e a precis˜ao dos erros de observa¸c˜ao τ | Dt
tem distribui¸c˜ao Gama. As equa¸c˜oes do procedimento sequencial bayesiano para o caso em que V ´e desconhecido est˜ao descritas a seguir, onde V | Dt−1∼ GamaInv(nt−12 ,dt−12 )
e θt−1 | Dt−1 ∼ N (mt−1, Ct−1). Esse conjunto de equa¸c˜oes consta em West e Harrison
(1997) pp. 119 a 122. Priori no tempo t: θt | Dt−1 ∼ Tnt−1(at, Rt), at = Gtmt−1 Rt = GtCt−1G0t+ Wt, (2.2) Preditiva no tempo t: yt| Dt−1 ∼ Tnt−1(ft, Qt), (St−1= dt−1/nt−1) ft = F0tat Qt = F0tRtFt+ St−1, (2.3)
Vetor de coeficientes adaptativos At e erro de previs˜ao et:
At = RtFtQ−1t et = yt− ft, (2.4)
nt = nt−1+ 1 dt = dt−1+ St−1e2t/Qt, (2.5) Posteriori no tempo t: θt | Dt∼ Tnt(mt, Ct), (St = dt/nt) mt = at+ Atet Ct = (Rt− AtA0tQt)St/St−1. (2.6)
No caso em que se desconhece as variˆancias de evolu¸c˜ao, as posterioris marginais (tanto para os estados quanto para a variˆancia observacional) n˜ao s˜ao mais conhecidas analiticamente. Existem diversas propostas na literatura para tratar deste caso, dentre as quais cita-se aqui apenas algumas delas a t´ıtulo de exeplifica¸c˜ao. Fr¨uhwirth-Schnater
(1994) eCarter e Kohn(1994) descrevem um esquema MCMC para o caso em que V e W s˜ao constantes no tempo onde as condicionais completas de V , W e θt s˜ao conhecidas,
permitindo assim a simula¸c˜ao de cadeias atrav´es do amostrador de Gibbs. Posterior-mente, Gamerman (1998) descreve outro amostrador de Gibbs obtido reparametrizando o modelo em termos dos erros de evolu¸c˜ao wt, reconstruindo-se o vetor de estados θt ao
final da gera¸c˜ao das cadeias. No que tange aplica¸c˜ao de metodologia sequencial, diversos esquemas para implementa¸c˜ao de filtros de part´ıculas podem ser considerados, dentre os quais cita-se aquiLiu e West(2001),Storvik(2002) eCarvalho et al.(2010) por tratarem do caso geral em que θt cont´em, possivelmente, componentes est´aticas e as variˆancias
V e W s˜ao desconhecidas. Cada um dos trˆes trabalhos prop˜oe uma forma diferente de tratar o problema de degenera¸c˜ao das part´ıculas conforme o tempo progride.
´
E poss´ıvel incorporar aos modelos dinˆamicos diversos tipos de estruturas latentes para descrever a evolu¸c˜ao do processo observado yt. Essa classe de modelos permite tratar,
por exemplo, de s´eries que apresentem simultaneamente uma tendˆencia polinomial linear, sazonalidade, influˆencia de covari´aveis e assim por diante. Mais precisamente, cada uma das p estruturas latentes corresponde a um bloco θi,tde componentes do vetor de estados,
a uma matriz de evolu¸c˜ao Gi,t, a uma matriz de planejamento Fi,t e uma matriz de
covariˆancias Wi,t, de modo que o modelo dinˆamico constitu´ıdo por Ft = (F1, ..., Fp)t,
(θi, ..., θp)tincorpora simultaneamente todas as p estruturas latentes. Para uma descri¸c˜ao
mais detalhada quanto `a especifica¸c˜ao de Gi,t, Fi,te Wi,tpara diversos tipos de estruturas
latentes, referencia-se West e Harrison(1997) cap´ıtulos 6 a 9.
O exemplo a seguir considera um MLD com um ´unico componente no vetor de estados com dinˆamica dada por um processo autorregressivo.
Exemplo 2.1. Considere o MLD dado pela qu´adrupla {1, φ, Vt, Wt}, onde Vt, Wt e φ
s˜ao conhecidos:
yt= θt+ vt, vt∼ N (0, Vt)
θt= φθt−1+ wt, wt∼ N (0, Wt).
As equa¸c˜oes de atualiza¸c˜ao aplicadas ao MLD {1, φ, Vt, Wt} resultam em
at= φmt−1 Rt= φ2Ct−1+ Wt, ft= at = φmt−1, Qt= Rt+ Vt, At= Rt Rt+ Vt , et= yt− φmt−1, mt= φmt−1+ Rt Rt+ Vt (yt− φmt−1) Ct= AtVt.
No caso espec´ıfico do modelo tratado no exemplo 2.1, ´e poss´ıvel obter facilmente express˜oes anal´ıticas para o limite da sequˆencia de variˆancias a posteriori (Ct)t∈N, se
(Vt)t∈N e (Wt)t∈N s˜ao sequˆencias convergentes, como aponta a Proposi¸c˜ao2.2 a seguir.
Proposi¸c˜ao 2.2. Considere o MLD dado pela qu´adrupla {1, φ, Vt, Wt}, onde Vt e Wt
sequˆencia Ct converge, ent˜ao seu valor limite ´e
C = −(W + V − φ
2V ) +p(V + W + φ2V )2+ 4φW V
2φ2 .
Demonstra¸c˜ao. No MLD {1, φ, Vt, Wt}, tem-se
Ct= AtVt = RtVt Rt+ Vt = (φ 2C t−1+ Wt)Vt φ2C t−1+ Wt+ Vt . Supondo lim Wt= W e lim Vt= V e que ∃C = lim Ct, tem-se
C = (φ
2C + W )V
φ2C + W + V ,
donde φ2C2+ (W + V )C − φ2CV − W V = 0. Resolvendo para C, obt´em-se
C = −(W + V − φ
2V ) ±p(W + V − φ2V )2+ 4φ2W V
2φ2 .
Como C ≥ 0, segue que o ´unico limite poss´ıvel para Ct´e
C = −(W + V − φ
2V ) +p(W + V − φ2V )2 + 4φ2W V
2φ2 .
Cabe citar aqui o Teorema 2.3 emWest e Harrison(1997), que garante que a sequˆencia Ctde variˆancias a posteriori converge em qualquer MLD com vetor de estados
unidimen-sional, desde que as variˆancias (observacionais e de evolu¸c˜ao) sejam constantes e conhe-cidas. Sendo esse o caso, a Proposi¸c˜ao 2.2 fornece explicitamente o limite de Ct no caso
particular em que Gt= φ, ∀t ∈ N.
O comportamento assint´otico explicitado na Proposi¸c˜ao 2.2 pode ser verificado em-piricamente, como ilustrado pela figura 2.1 para uma s´erie simulada com φ = 1 e outra com φ = 0, 8. Verifica-se que o comportamento limite para as variˆancias a posteriori ´e alcan¸cado rapidamente. A partir de 20 observa¸c˜oes, praticamente n˜ao se observa dimi-nui¸c˜ao na incerteza a respeito do processo autorregressivo latente. A partir de tal ponto,
as observa¸c˜oes acrescentam informa¸c˜ao apenas na m´edia das estimativas pontuais de θt,
permitindo-as acompanhar as varia¸c˜oes na trajet´oria efetiva do processo latente θt. A
distribui¸c˜ao a priori adotada ´e θ1 | D0 ∼ N (0, 100).
0 20 40 60 80 100 0 2 4 6 8 10 t Ct C (a) φ = 1 ● ● ● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 0 20 40 60 80 100 −10 −5 0 5 10 t ● ● ● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● mt mt±2× Ct (b) φ = 1 0 20 40 60 80 100 0 1 2 3 4 5 6 t Ct C (c) φ = 0.8 ● ● ● ●● ● ● ● ●●●●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● 0 20 40 60 80 100 −5 0 5 10 t ● ● ● ●● ● ● ● ●●●●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● mt mt±2× Ct (d) φ = 0.8
Figura 2.1: Estima¸c˜ao de θt ∼ AR(1) em MLD{1, φ, V, W } com φ, W e V conhecidos.
mt = E(θt | Dt), Ct = V ar(θt| Dt). `A esquerda, exibe-se a sequˆencia Ctjuntamente com
o valor limite C dado pela Proposi¸c˜ao2.2. `A direita, exibe-se a sequˆencia de estimativas e intervalos de credibilidade a posteriori para os estados.
2.2.2
Modelos lineares generalizados dinˆ
amicos
Os Modelos Lineares Generalizados Dinˆamicos permitem descrever o comportamento probabil´ıstico de observa¸c˜oes yt, cujo ind´ıce t geralmente se refere a uma determinada
parˆametros variando com o passar do tempo. A classe MLGD ´e uma extens˜ao dos chamados Modelos Lineares Generalizados (MLG) (Nelder e Wedderburn, 1972) devido a evolu¸c˜ao temporal dos parˆametros de estado θtque descrevem o preditor linear ηt. Em
termos pr´aticos, considerar um MLGD para observa¸c˜oes yt permite que os efeitos latetes
sobre a vari´avel resposta se diferenciem ao longo do tempo. Mais precisamente, um MLGD ´e descrito por 3 equa¸c˜oes:
p(yt| ψt) = exp Vt−1[ft(yt)ψt− a(ψt)] bt(yt, Vt) (2.7)
ηt = g(ψt) = F0tθt (2.8)
θt = Gtθt−1+ ωt, ωt ∼ [0, Wt] (2.9)
onde a equa¸c˜ao (2.7) representa a densidade ou fun¸c˜ao de probabilidade das observa¸c˜oes ytcomo membro da fam´ılia exponencial, a equa¸c˜ao (2.8) relaciona o parˆametro natural ψt
e o preditor linear ηt atrav´es da fun¸c˜ao de liga¸c˜ao g, descrevendo o preditor linear como
fun¸c˜ao linear dos estados θt e, por fim, a equa¸c˜ao (2.9), chamada equa¸c˜ao de evolu¸c˜ao,
descreve a dinˆamica do vetor de estados de maneira linear determinada pela matriz de evolu¸c˜ao Gt.
Em geral, ao longo do texto, usaremos a nota¸c˜ao x ∼ [a, b] para indicar que a vari´avel aleat´oria (vetor aleat´orio) x tem m´edia (vetor de m´edias) a e variˆancia (ma-triz de variˆancia) b, como no caso da equa¸c˜ao (2.9). Usaremos tamb´em os termos matriz de variˆancia e matriz de covariˆancias de forma indistinta, uma vez que tal matriz pode ser vista como uma generaliza¸c˜ao do conceito de variˆancia para vetores aleat´orios (por isso matriz de variˆancia), bem como suas entradas representam as covariˆancias dois a dois entre as respectivas componentes do vetor aleat´orio (por isso matriz de covariˆancias).
Com respeito `a estima¸c˜ao bayesiana de parˆametros em MLGD, as equa¸c˜oes (2.2), (2.3), (2.4), (2.5) e (2.6) fornecem solu¸c˜ao anal´ıtica no caso particular em que a resposta ´
e normal (e portanto, tem-se em particular um Modelo Linear Dinˆamico), a variˆancia de observa¸c˜ao ´e conhecida e as variˆancias dos erros de evolu¸c˜ao s˜ao desconhecidas. No caso geral em que a resposta pertence a qualquer membro da fam´ılia exponencial, West et al.
(1985) descrevem uma metodologia sequencial para inferˆencia em MLGD, que se d´a em termos de primeiro e segundo momentos para os estados fazendo uso do procedimento
de estima¸c˜ao linear de Bayes. Ainda nesse contexto de modelos dinˆamicos parcialmente especificados, distribui¸c˜oes preditivas podem ser obtidas analiticamente, bem como dis-tribui¸c˜oes a posteriori para os parˆametros naturais, desde que utilizadas distribui¸c˜oes a priori conjugadas. A necessidade de m´etodos alternativos para inferˆencia se d´a em fun¸c˜ao da estima¸c˜ao dos estados e demais parˆametros, tais como variˆancias de evolu¸c˜ao e quantidades desconhecidas na matriz Gt.
2.2.3
Procedimento sequencial de inferˆ
encia em MLGD
Um procedimento para realizar inferˆencia na classe dos MLGD com variˆancias Wt
co-nhecidas de forma sequencial ´e apresentado em West et al.(1985). Tal metodologia n˜ao especifica de forma completa (isto ´e, fixando-se uma classe de distribui¸c˜oes espec´ıfica) os vetores dos erros de evolu¸c˜ao, mas apenas por meio de um vetor de m´edias e das matrizes de variˆancia Wt.
A especifica¸c˜ao parcial via 1o e 2o momentos para o vetor de erros de evolu¸c˜ao se
estende para o vetor de estados, cujas posterioris a cada tempo s˜ao obtidas apenas via m´edia e matriz de covariˆancias.
O esquema iterativo a seguir resume o procedimento inferencial que permite obter vetor de m´edias e matriz de variˆancia da distribui¸c˜ao a posteriori e os parˆametros da distribui¸c˜ao preditiva no tempo corrente como fun¸c˜ao do vetor de m´edias e matriz de variˆancia no tempo imediatamente anterior.
Inicialmente, suponha que a posteriori no tempo t−1 esteja parcialmente especificada por θt−1 | Dt−1 ∼ [mt−1, Ct−1]. Ent˜ao, temos para o tempo t,
1. Priori dos estados: θt | Dt−1 ∼ [at, Rt]
at= Gtmt−1,
Rt= GtCt−1G0t+ Wt,
2. Priori para o parˆametro canˆonico: g−1(ηt) = ψt| Dt−1 ∼ Priori Conj.(rt, st)
3. Preditor a priori: ηt | Dt−1 ∼ [ft, qt] ηt=F0tθt z}|{⇒ ft = F0tat = f1(rt, st), qt= F0tRtFt = f2(rt, st),
4. Posteriori para o parˆametro canˆonico: ψt| Dt∼ Posteriori Conj.(r∗t, s∗t) 5. Preditor a posteriori: ηt= g(ψt) | Dt∼ [ft∗, q∗t] ft∗ = f1(rt∗, s ∗ t), qt∗ = f2(r∗t, s ∗ t),
6. Posteriori dos estados (tempo t): θt| Dt∼ [mt, Ct]
mt= at+ RtFt(ft∗− ft)/qt, Ct= Rt− RtFtF0t(1 − q ∗ t/qt)/qt.
Primeiramente, no item 1, obtˆem-se m´edia e matriz de variˆancia a priori para θt a
partir das mesmas quantidades referentes `a posteriori de θt−1.
O item 2 consiste em especificar priori conjugada para o parˆametro canˆonico ψt
(para-metrizada por quantidades rt e st) segundo a teoria de conjuga¸c˜ao na fam´ılia exponencial
(Migon et al., 2014).
A passagem entre os itens 2 e 3 consiste em calcular os momentos a priori (ft, qt)
para o preditor linear ηt a partir dos momentos a priori (at, Rt) para o vetor de estados
θt utilizando-se da rela¸c˜ao linear ηt= F0tθt.
Como preditor e parˆametro canˆonico est˜ao relacionados (n˜ao-linearmente) de forma determin´ıstica pela fun¸c˜ao de liga¸c˜ao g, os parˆametros rte stdevem ser escolhidos de tal
modo que a m´edia e a variˆancia a priori de ηt sejam iguais aos valores ft e qt obtidos no
passo 3, de modo a compatibilizar a forma anal´ıtica de p(ηt | Dt−1) com os momentos
obtidos no passo 3. Isso ´e feito resolvendo o sistema n˜ao-linear em 3, o que, em geral, n˜ao pode ser feito analiticamente. O que se recomenda em West et al. (1985) e West e Harrison (1997) ´e tomar alguma aproxima¸c˜ao para as fun¸c˜oes f1 e f2 de tal modo que o
novo sistema seja poss´ıvel de ser resolvido analiticamente. Nesse trabalho, para obten¸c˜ao de f1 e f2, utilizaremos a aproxima¸c˜ao de Taylor de 1a ordem para a fun¸c˜ao g(ψt) para
escrever o preditor linear ηt como fun¸c˜ao linear do parˆametro canˆonico ψt, de modo que
m´edia e variˆancia a priori para ηts˜ao trivialmente obtidos em fun¸c˜ao da m´edia e variˆancia
ft= E(ηt | Dt−1) = E(g(ψt) | Dt−1) ≈ E [g(xt) + g0(xt)(ψt− xt)]
= g(xt). (2.10)
qt= V ar(ηt| Dt−1) ≈ V ar [g(xt) + g0(xt)(ψt− xt)]
= g0(xt)2vt (2.11)
Por fim, a conjuga¸c˜ao especificada desta forma ´e respons´avel por garantir, a cada tempo t, que a posteriori para o parˆametro canˆonico ψttenha forma anal´ıtica conhecida,
bem como a distribui¸c˜ao preditiva p(yt| Dt−1).
Note-se pelos passos 3, 4 e 5 que o parˆametro canˆonico poderia ser substitu´ıdo nesse esquema sequencial por qualquer outro parˆametro que caracterizasse a distribui¸c˜ao dos dados na fam´ılia exponencial, desde que se consiga encontrar conjuga¸c˜ao da priori com a fun¸c˜ao de verossimilhan¸ca. Dessa forma, pode-se utilizar, por exemplo, a m´edia µt =
E(yt | ψt) no lugar do parˆametro canˆonico ψt nos casos em que essa escolha for mais
conveniente do ponto de vista anal´ıtico.
O passo 6 conclui o procedimento sequencial obtendo m´edia e matriz de covariˆancias a posteriori para os estados. Essa passagem faz uso da proposi¸c˜ao 2.1 para obter o estimador linear de Bayes para θt como fun¸c˜ao de Dt−1 e ηt a partir do vetor de m´edias
e matriz de covariˆancias da distribui¸c˜ao a priori conjunta ηt θt Dt−1 ∼ ft at , qt F0tRt FtR0t Rt ,
que se obt´em facilmente a partir da rela¸c˜ao ηt = Ftθt. Conforme enunciado na
Pro-posi¸c˜ao2.1, o estimador linear de Bayes at+ RtFt(ηt− ft)/qtpode ser visto como uma
aproxima¸c˜ao para E[θt | ηt, Dt−1] e o risco associado Rt− RtFtF0tRt/qt constitui uma
aproxima¸c˜ao para V ar[θt| ηt, Dt−1].
A m´edia e matriz de covariˆancias incondicionais de θta posteriori s˜ao obtidas fazendo
V ar(θt| Dt) = V ar[E(θt | ηt, Dt−1) | Dt] + E[V ar(θt| ηt, Dt−1) | Dt],
donde obt´em-se
mt = E(θt| Dt) = at+ RtFt(ft∗− ft)/qt,
Ct = V ar(θt | Dt) = Rt− RtFtF0t(1 − q ∗
/qt)/qt.
A seguir, explicita-se as contas necess´arias para realiza¸c˜ao dos passos 2 a 5 descri-tos nessa se¸c˜ao aos modelos com resposta Binomial e Poisson que ser˜ao utilizados nas aplica¸c˜oes nos cap´ıtulos 4 e 5.
Modelo Poisson
Escrevendo a distribui¸c˜ao Poisson como membro da fam´ılia exponencial, tem-se
p(yt| µt) = exp{ytlogµt− µt}(yt!)−1
, onde µt= E(ytµt) e portanto ψt = log µt = ηt, onde ηt representa o preditor linear e ψt
representa o parˆametro canˆonico da fam´ılia exponencial.
Especificamos priori conjugada para λtao inv´es do parˆametro canˆonico ψt. Ent˜ao λt|
Dt−1∼ Gama(rt, st) e a fun¸c˜ao g que aparece em (2.10) e (2.11) ´e a fun¸c˜ao logar´ıtmica.
Assim, escrevendo xt= E(λt | Dt−1) e vt = V ar(λt | Dt−1) temos o sistema
ft= g(xt) = logrtst, qt = g0(xt)2vt= rt1, cuja solu¸c˜ao ´e st= e −ft qt e rt= 1 qt.
Pela conjuga¸c˜ao na fam´ılia exponencial, temos λt | Dt ∼ Gama(rt∗, s∗t), onde rt∗ =
rt+ yt e s∗t = st+ 1. Assim, ft∗ = logr∗t s∗ t, qt∗ = r1∗ t,
Por fim, resolvendo a integral Z ∞
0
p(yt| λt, Dt−1)p(λt| Dt−1)dλt,
temos a distribui¸c˜ao preditiva: yt| Dt−1 ∼ BinNeg(rt, 1/(st+ 1)).
Modelo Binomial
Escrevendo yt∼ Bin(nt, pt) como membro da fam´ılia exponencial, tem-se
p(yt| ηt) = exp yt nt log pt 1 − pt − log 1 1 − pt nt yt
portanto ψt = log1−ptpt = ηt, onde ηt representa o preditor linear e ψt representa o
parˆametro canˆonico da fam´ılia exponencial.
Aqui, o parˆametro canˆonico ψt coincide com o preditor linear no caso em que se
utiliza a fun¸c˜ao logito como fun¸c˜ao de liga¸c˜ao. Nesse caso, podemos especificar priori conjugada para a probabilidade de sucesso pt | Dt−1 ∼ Beta(rt, st) e a fun¸c˜ao g que
aparece em (2.10) e (2.11) ´e a fun¸c˜ao logito. Assim, escrevendo xt = E(pt | Dt−1) e
vt = V ar(pt| Dt−1) temos o sistema
ft= g(xt) = logrtst, qt= g0(xt)2vt = (rt+st) 2 rtst(rt+st+1), cuja solu¸c˜ao ´e st= e ft+e−ft+2−qt qt(eft+1) e rt = e fts t.
Pela conjuga¸c˜ao na fam´ılia exponencial, temos pt| Dt∼ Beta(r∗t, s ∗ t), onde r ∗ t = rt+ntyt e s∗t = st+ 1 − ntyt. Assim, ft∗ = logrt∗ s∗t, q∗t = (r∗t+s∗t)2 r∗ ts∗t(rt∗+s∗t+1),
Resolvendo a integral
Z ∞
0
p(yt | pt, Dt−1)p(pt| Dt−1)dpt,
temos a distribui¸c˜ao preditiva: yt| Dt−1 ∼ BetaBinomial(nt, rt, st).
2.3
Especifica¸
c˜
ao dos erros de evolu¸
c˜
ao via fatores
de desconto
De acordo com as equa¸c˜oes de atualiza¸c˜ao no contexto dos modelos dinˆamicos com res-posta na fam´ılia exponencial exibidas na subse¸c˜ao2.2.3, os erros de evolu¸c˜ao wtinfluem
na estima¸c˜ao de θt unicamente atrav´es do aumento da incerteza sobre θt ao passar do
tempo t−1 (priori) para t (posteriori) com o acesso a uma nova observa¸c˜ao yt. De fato, se
n˜ao existisse a sequˆencia de erros wt, ou equivalentemente se tiv´essemos Wt= 0, ∀t ∈ N,
a ´unica altera¸c˜ao a ser feita seria na equa¸c˜ao Rt = GtCt−1G0t+ Wt, que daria lugar a
Rt= GtCt−1G0t.
Tratando primeiramente o caso Wtescalar (denotando portanto Wt ao inv´es de Wt),
esse acr´escimo de incerteza devido a adi¸c˜ao de Wtpode ser alternativamente representado
pelo produto Rt= 1 δ × GtCt−1G 0 t,
onde δ ∈ (0, 1]. Assim, a quantidade δ denominada fator de desconto, garante equi-valˆencia entre as duas formas alternativas de infla¸c˜ao de incerteza, se fizermos
Rt= GtCt−1G0t+ Wt= 1 δ × GtCt−1G 0 t, donde
Wt= 1 δ − 1 × GtCt−1G0t = 1 − δ δ × GtCt−1G0t.
Portando, o uso de fatores de desconto faz com que o papel da variˆancia Wtseja gerar
um acr´escimo multiplicativo de 1−δδ sobre GtCt−1G0t = Var(Gtθt−1| Dt−1) para compor a
variˆancia a priori Rt.
Usualmente, os valores especificados para o fator de desconto δ variam entre 0.9 e 1 (nesse ´ultimo caso, temos uma evolu¸c˜ao determin´ıstica para θt onde, no caso particular
em que Gt = 1, temos θt constante), representando um acr´escimo percentual de 0 a
11% sobre Var(Gtθt−1 | Dt−1) para compor Var(θt | Dt−1). Valores muito menores do
que 0.9 para δ s˜ao usados no contexto de an´alise de interven¸c˜ao nos instantes em que se antevˆe alguma mudan¸ca estrutural na s´erie observada. Tal medida aumenta a incerteza a priori para θt+1 | Dt, fazendo com que a observa¸c˜ao yt+1 tenha peso muito maior sobre as
estimativas para θt+1| Dt+1e, com isso, as estimativas conseguem acompanhar mudan¸cas
bruscas no n´ıvel da s´erie. Para maiores detalhes, verWest e Harrison (1997) cap´ıtulo 11. No caso mais geral em que θt ´e um vetor p-dimensional, existe mais de um modo de
especificar diferentes valores para os fatores de desconto associados `as componentes do vetor de estados. Pode-se considerar um fator de desconto diferente para cada entrada de θ, calculando Pt = GtCt−1G0t e multiplicando o i-´esimo valor da sua diagonal por
1/δi, com δi ∈ (0, 1]. Uma segunda abordagem consiste em definir uma matriz ∆ =
diag(1/√δi, ..., 1/pδp) e fazer Rt = ∆GtCt−1G0t∆. Por fim, no caso em que Gt =
BlocoDiag(G1, ..., Gk)t, pode-se ainda considerar um fator de desconto para cada bloco
estrutural multiplicando cada bloco da matriz Pt= GtCt−1G0t por 1/δi, i ∈ {1, ..., k}.
No cap´ıtulo seguinte, apresenta-se os modelos dinˆamicos n˜ao lineares, que permitem a existˆencia de hiperparˆametros que caracterizam a matriz de evolu¸c˜ao Gt. Al´em disso,
descreve-se uma metodologia capaz de estimar esses hiperparˆametros juntamente com os parˆametros de estado de modo sequencial. Prop˜oe-se duas formas de tratar das variˆancias de evolu¸c˜ao: primeiramente, especificando-as atrav´es de fatores de desconto e a segunda, estimando uma variˆancia fixa via quadratura de Gauss-Hermite.