Análise de séries temporais Gaussianas univariadas por
meio de modelos dinâmicos lineares
Vanessa Ferreira Sehaber
PPGMNE, Universidade Federal do ParanáCuritiba, Brasil vsehaber@gmail.com
Paulo Justiniano Ribeiro Junior
PPGMNE, Departamento de EstatísticaUniversidade Federal do Paraná Curitiba, Brasil
paulojus@ufpr.br
Resumo—Este trabalho procura deixar mais evidente as ideias relacionadas a estruturação de um modelo dinâmico linear univariado na análise de séries temporais. Nessa perspectiva, o uso de indepen-dência condicional e de propriedades Markovianas de primeira ordem possibilitam a recursividade em algoritmos utilizados para fazer a inferência desses modelos, principalmente quando se pretende expandir o problema para a análise de séries temporais multivaridas. Embora a recursividade traga facilidades computacionais, o entendimento por trás dessas passagens recursivas envolvem um conhecimento de probabili-dade não trivial, especialmente ao que tange o filtro de Kalman, o qual é fundamentado na atualização de informação condicional proporcionada pelo uso do teorema de Bayes.
Palavras-chave—Série temporal; Modelo espaço de estados; Modelo dinâmico linear; Filtro de Kalman.
I. INTRODUÇÃO
A modelagem matemática e estatística de processos de séries temporais é baseado nas classes de modelos dinâmicos. O termo dinâmico, relativo à mudanças em tais processos, deve-se à passagem do tempo como uma fundamental força motriz [8].
É possível verificar aplicações de modelos espaço de estados na modelagem tanto de séries univariadas como de séries multivariadas, além de possibilitar a modelagem de processos que apresentem não estacionariedade, mudanças estruturais, e padrões irregulares.
Bolsista pela Capes e CNPq.
O fato de os modelos espaço de estados possibilitarem grande flexibilidade na modelagem se torna uma das razões para sua extensiva aplicação em diversos problemas aplicados, como na biologia molecular e genética [2], na teoria de sistemas, ciências físicas, e engenharia [3].
Na teoria de processos estocásticos e séries temporais, a previsão sempre teve um significado importante e foi no início da década de 60 que os modelos espaço de estados se originaram na engenharia. Dentre os vários pesquisadores que estudaram esse problema, o matemático e engenheiro húngaro Rudolph Emil Kalman conseguiu formalizar o método conhecido como filtro de Kalman para auxiliar na análise de modelos dinâmicos [13]. Porém, essa abordagem passou a se tornar mais conhecida entre o meio estatístico anos mais tarde, pois a maior parte do trabalho referente ao filtro de Kalman foi publicado na literatura de engenharia. Anos depois, vários pesquisadores tiveram os modelos espaço de estados como foco de pesquisa e conseguiram acrescer mais informações e propriedades [1], [2], [4], [5], [8], [9]. De um modo geral, pode-se entender que os modelos espaço de estados consideram uma série temporal como o resultado de um sistema dinâmico perturbado por distúrbios aleatórios Além disso, eles permitem uma interpretação natural de uma série temporal como a combinação de diversos componentes (tendência, sazonalidade ou componentes regressivos). Ao mesmo tempo, eles têm uma estrutura probabilística elegante e poderosa, oferecendo uma estrutura flexível para várias aplicações. Os cálculos podem ser implementados por algoritmos recursivos. Os problemas de estimação e previsão são resolvidos recursivamente por meio da distribuição condicional das quantidades de interesse, dado uma informação acessível. Neste
sentido, eles são tratados naturalmente dentre de uma estrutura Bayesiana [2].
O modelo linear dinâmico é apresentado como um caso de um modelo espaço de estados geral, sendo linear e Gaussiano. Para os modelos dinâmicos lineares, a estimação e a previsão podem ser obtidos recursivamente pelo bem conhecido filtro de Kalman.
II. NOTAÇÃO
Uma série temporal univariada (ou multivariada) é uma sequência de variáveis aleatórias (ou vetores aleatórios) e serão denotados por (Yt : t = 1, 2, ...), (Yt)t≥1 ou abrevadamente por (Yt). Por
simplicidade, pensaremos em pontos de tempo igualmente espaçados. Ao considerar uma sequência finita de observações consecutivas, usaremos a notação Yr:s para as observações entre r-ésima e
s-ésima posições. A densidades de probabilidade serão genéricamente denotadas por f (·), e f (θ) pode denotar a distribuição a priori de um parâmetro desconhecido θ e f (y) a distribuição marginal de Y .
III. ESTRUTURA DE DEPENDÊNCIA SIMPLES
Em análise de séries temporais, um problema básico é fazer previsões sobre o valor da próxima observação, digamos Yn+1, tendo
observado dados até o tempo n, ou seja, Y1 = y1, ..., Yn = yn.
Inicialmente, faz-se necessário a formulação de suposições razoáveis sobre a estrutura de dependência das séries temporais, pois, por meio da especificação da lei de probabilidade das séries temporais (Yt), será possível conhecer a densidade conjunta f (y1, ..., yn) para
qualquer n ≥ 1. Dessa forma, previsão Bayesiana seria resolvida pelo cálculo da densidade preditiva
f (yn+1|y1:n) =
f (y1:n+1)
f (y1:n)
A especificação da densidade f (y1, ..., yn) é algo não trivial,
e considera-se conveniente expressar a lei de probabilidade de (Y1, ..., Yn) condicionalmente a alguma característica θ de um
processo de geração de dados. A característica relevante θ pode ser de dimensão finita ou infinita, isto é, θ pode ser um vetor aleatório ou, como no caso dos modelos espaço de estados, um processo estocástico por si próprio. Geralmente, considera-se mais simples especificar a densidade condicional f (y1:n|θ) de Y1:n dado θ, e uma densidade
f (θ) para θ, para então obter f (y1:n) =R f (y1:n|θ)f (θ) dθ.
IV. INDEPENDÊNCIA CONDICIONAL
A independência condicional pode ser vista como uma estrutura de depência simples. Em muitas aplicações é razoável assumir que a sequência de variáveis aleatórias Y1, ..., Yn são condicionalmente
independentes e identicamente distribuídas (i.i.d.) à θ: f (y1:n|θ) =
n
Y
i=1
f (yi|θ).
Note que Y1, Y2, ... são apenas condicionalmente independentes, pois
as observações y1, y2, ..., yn fornecem informação sobre o valor
desconhecido de θ e, através de θ, sobre os valores da observação seguinte Yt+1. Assim, Yn+1 depende, em um senso probabilístico,
das observações passadas Y1, ..., Yn. A densidade preditiva neste caso
pode ser calculada como f (yn+1|y1:n) = Z f (yn+1, θ|y1:n) dθ = Z f (yn+1|θ, y1:n)f (θ|y1:n) dθ = Z f (yn+1|θ)f (θ|y1:n) dθ
a última igualdade seguindo da suposição de independência condicio-nal, onde f (θ|y1:n) é a densidade a posteriori de θ, o qual é definido
condicionalmente aos dados (y1, ..., yn). Por meio do teorema de
Bayes, a densidade a posteriori f (θ|y1:n) pode ser calculada da
seguinte maneira: f (θ|y1:n) = f (y1:n|θ)f (θ) f (y1:n) ∝ n Y t=1 f (yt|θ)f (θ). (1)
Observa-se que a densidade marginal f (y1:n) não depende de θ, tendo
um papel de constante normalizadora. Por causa disso, a posteriori f (θ|y1:n) é proporcional ao produto da função de verossimilhança e
da densidade a priori.
Um fato interessante é que a suposição de independência condicional permite o cálculo recursivo da densidade a posteriori. Isto significa que não é necessário manter na memória todos os dados anteriores e reprocessá-los novamente quando uma nova medida é obtida. De fato, no tempo t = n − 1, a informação disponível sobre θ é descrita pela densidade condicional
f (θ|y1:n−1) ∝ n−1
Y
t=1
f (yt|θ)f (θ),
e, por causa disso, que esta densidade desempenha o papel de priori no tempo n. Uma vez que a nova observação yn torna-se disponível,
calcula-se a verossimilhança, a qual é f (yn|θ, y1:n−1) = f (yn|θ)
pela suposição de indenpendência condicional, e atualiza-se “a priori” f (θ|y1:n−1) pelo teorema de Bayes, obtendo
f (θ|y1:n−1, yn) ∝ f (θ|y1:n−1)f (yn|θ) ∝ n−1
Y
t=1
f (yt|θ)f (θ)f (yn|θ),
a qual é (1). A estrutura recursiva da posteriori será um papel crucial para o estudo dos modelos dinâmicos lineares e do filtro de Kalman. Maiores detalhes sobre independência condicional, ver a Sessão 4.11 da referência [8].
V. MODELOS ESPAÇO DE ESTADOS
Ao considerar (Yt)t≥1 uma série temporal, é uma tarefa
desa-fiadora especificar a sua distribuição conjunta, pois, a não ser que o tempo seja irrelevante, as suposições de independência e permu-tabilidade são raramente justificadas. Diante disso, a dependência Markoviana é a forma mais simples de argumentar a dependência
entre os Yt, dado que o tempo tem um papel importante. Diz-se que
(Yt)t≥1é uma cadeia de Markov se, para qualquer t > 1,
f (yt|y1:t−1) = f (yt|yt−1).
Isto significa que a informação sobre Yt carregada por todas as
observações até o tempo t − 1 é exatamente a mesma conforme a observação carregada por yt−1 sozinha. Dito de outra forma, diz-se
que Yte Y1:t−2 são condicionalmente independentes dado Yt−1. Para
uma cadeia de Markov, as distribuições conjuntas de dimensão finita podem ser escritas de forma bastante simples por
f (y1:t) = f (y1) · t
Y
j=2
f (yj|yj−1). (2)
Quando essa abordagem é cabível, os modelos espaço de estados constroem uma estrutura de dependência relativamente simples de uma cadeia de Markov ao definir modelos mais complexos para as observações.
Em um modelo de espaço de estados, assume-se que existe uma cadeia Markoviana não observável (θt), chamada de espaço de
estados, e que Yté uma medida imprecisa de θt. Pode-se pensar (θt)
como uma série temporal auxiliar que facilita a tarefa de especificar a distribuição de probabilidade da série temporal observável Yt. Em
aplicações em engenharia, θt usualmente descreve o estado de um
sistema de observações físicas que produzem o resultado Yt[2].
Definição 5.1 (Modelo Espaço de Estados):Um modelo espaço de estados consiste de duas séries temporais, θte Yt, t = 0, 1, 2, ...,
as quais satisfazem as seguintes suposições: A1) (θt) é uma cadeia de Markov;
A2) condicionalmente em (θt), os Ytsão independentes e Ytdepende
somente de θt.
A consequência dessas suposições é que um modelo espaço de estados é completamente especificado pela distribuição inicial f (θ0)
e pelas densidades condicionais f (θt|θt−1) e f (yt|θt), t ≥ 1. De
fato, para qualquer t > 0, f (θ0:t, y1:t) = f (θ0) ·
t
Y
j=1
f (θj|θj−1)f (yj|θj). (3)
Por meio de (3), por condicionamento ou marginalização, alguém pode derivar qualquer outra distribuição de interesse. Por exemplo, a densidade conjunta das observações Y1:t podem ser obtidas por
integrar (3) em relação a θj; contudo, observa-se que neste caso a
forma do produto simples é perdida.
A suposição de que a informação flui por meio de um modelo espaço de estatos é representado pelo seguinte esquema:
θ0 // θ1 // ... // θt−1 // θt // θt+1 // ... Y1 Yt−1 Yt Yt+1
pelo qual pode ser usado para deduzir propriedades de independência
condicional das variáveis aleatórias ocorrendo em um modelo espaço de estados.
Pode-se mostrar que Yte (θ0:t−1, Y1:t−1) são condicionalmente
independentes dado θt. A prova simplesmente consiste em observar
que qualquer caminho conectando Ytcom algum dos Ysanteriores,
(s < t), tem que ir através de θt;
... // θt−1 // θt // jj θt+1 // ... Yt−1 ci // Yt Yt+1
consequentemente, {θt} separa {θ0:t−1, Y1:t−1} e Yt. Isto segue que
f (yt|θ0:t−1, y1:t−1) = f (yt|θt).
De modo similar, alguém pode mostrar que θte (θ0:t−2, Y1:t−1) são
condicionalmente independentes dado θt−1,
... // θt−1 // θt // ci }} θt+1 // ... Yt−1 Yt Yt+1
o qual pode ser expresso em termos de distribuições condicionais como
f (θt|θ0:t−1, y1:t−1) = f (θt|θt−1).
Os modelos espaço de estados nos quais os estados são variá-veis aleatórias discretas são frequentemente chamados de modelos Markovianos escondidos (hidden Markov models) [2].
VI. MODELOSDINÂMICOSLINEARES
A primeira importante classe dos modelos espaço de estados é dada pelos modelos espaço de estados lineares Gaussianos, também chamados de modelos dinâmicos lineares [8].
Definição 6.1 (Modelo Dinâmico Linear):O modelo dinâmico linear (MDL) é caracterizado pelo conjunto de quádruplas
{F, G, V, W }t= {Ft, Gt, Vt, Wt} (4)
para cada tempo t, onde
a) Fté uma matriz conhecida de ordem (n × r);
b) Gté uma matriz conhecida de ordem (n × n);
c) Vté uma matriz de variância conhecida de ordem (n × n);
d) Wt é uma matriz de variância conhecida de ordem (n × n).
Esta quadrupla define o modelo que relaciona Yt com o vetor de
parâmetro θt de ordem (n × 1) no tempo t, e a sequência θt no
tempo, via distribuições especificadas sequencialmente
e
θt|θt−1∼ N (Gtθt−1, Wt) . (6)
As Equações (5) e (6) são também implicitamente condicional a Dt−1, o conjunto de informação disponível anterior ao tempo t. Em
particular, isto inclui os valores definidos das variâncias Vt e Wte
as observações passadas Yt−1, Yt−2, ..., assim como o conjunto de
informação inicial D0 1. Por simplicidade notacional, Dt−1 não é
explicitamente reconhecida na condicional de (7) e (8), mas deve ser lembrado que está sempre condicionado.
Um representação alternativa de (5) e (6) é dada por
Yt = Ft>θt+ νt, νt∼ N (0, Vt) , (7)
θt = Gtθt−1+ ωt, ωt∼ N (0, Wt) . (8)
Os erros sequenciais νt e ωt são internamente e mutuamente
independentes. A Equação (7) é a equação de observação do modelo, definindo a distribuição amostral para Ytcondicional a quantidade θt.
Logo, dado θt, Yté independente de outros valores de observações e
parâmetros; e no geral, dado o presente, o futuro é indenpendente do passado. Esta equação relaciona Ytà θtvia uma regressão dinâmica
linear com uma estrutura de erros normal multivariada conhecida, mesmo considerando a posibilidade de que a variância observacional Vtpossa variar com a passagem do tempo. Para o tempo t,
e) Fté a matriz de delineamento de valores conhecidos de variáveis
independentes;
f) θté o sistema ou vetor de estados;
g) µt= Ft>θté o nível ou a resposta média;
h) νt é o erro observacional.
A equação (8) é a equação do sistema (também chamada de equação de evolução ou de estados), definindo a evolução no tempo do vetor de estados. A propriedade de independência condicional mostra uma evolução Markoviana de um passo. Por isso, dado θt−1 e os valores
conhecidos de Gte Wt, θté independente de Dt−1. Isto é, dado θt−1,
a distribuição de θté completamente determinada independentemente
dos valores de Yt−1 e todos os vetores de estado e observações
anteriores ao tempo t − 1. O componente determinístico da evolução é a transição do estado θt−1 para Gtθt−1, uma transformação linear
simples de θt−1. A evolução é completada com a adição de um vetor
aleatório ωt. No tempo t,
i) Gté a matriz de evolução, do sistema ou de estados;
j) ωt é o erro do sistema ou de evolução com variância Wt.
j) νt é o erro do sistema ou de evolução com variância Vt.
De forma ilustrativa, o mais simples modelo dinâmico é conhecido por Yt= µ + t, com t∼ N(0, σ2), o qual também é chamado de
modelo estático. Na notação de DLM, θt = µ, Ft> = 1, Wt = 0,
Gt= 1 e Vt= σ2.
1Defina D
0como toda a informação inicial relevante disponível no tempo t = 0
que é usada para formar visões iniciais sobre o futuro. Por convenção, assume-se que os valores conhecidos das quadruplas definidas {F, G, B, W }t, para cada t, estão inclusas em D0. Ainda, defina Dt= {Yt, Dt−1}, com t ≥ 1, o conjunto de
informação disponível no tempo t.
Na Fig. 1, estão representados uma série temporal simulada (conhecida por passeio aleatório com ruído) com n = 100 tempos e Ft> = 1, Gt = 1, Vt = 0, 5, Wt = 0, 3 e semente = 92, e estão
representados de forma ilustrativa como se espera o comportamento de um modelo dinâmico linear onde a média não é tempo-dependente e outro onde a média é tempo-dependente.
Figura 1: Ajustes de um modelo onde a média não depende do tempo e de um modelo onde a média depende do tempo
Definição 6.2:Para cada t, um MDL univariado pode ser definido por
Eq. de observação: Yt= Ft>θt+ νt νt∼ N (0, Vt)
Eq. do sistema: θt= Gtθt−1+ ωt ωt∼ N (0, Wt)
Informação inicial: (θ0|D0) ∼ N (m0, C0) ,
para alguns momentos a priori m0e C0. Assume-se que as sequências
de erros observacional e de evolução são internamente e mutuamente independentes, e são indenpendentes de (θ0|D0).
A distribuição normal multivariada possui muitas propriedades convenientes e que simplificam muitos cálculos. Assim, em qualquer tempo, a informação existente sobre o sistema é representada e suficientemente resumida pela distribuição posteriori do corrente vetor de estados. Dessa forma, a inferência dos MDLs ocorre naturalmente ao fazer uso do Teorema de Bayes.
VII. INFERÊNCIA EM UMMODELODINÂMICOLINEAR
Em um modelo espaço de estados, a inferência sobre os estados não observados ou observações futuras preditas são baseadas sobre uma parte da sequência de observações. Assim, o cálculo de distribuições condicionais auxiliam na estimação e na previsão de quantidades de interesse.
Para estimação do vetor de estados, se calcula as densidades condicionais f (θs|Dt). Uma distinção pode ser feita entre problemas
de filtragem (quando s = t), estado de predição (s > t) e suavização (s < t).
No processo de filtragem, há a suposição de que os dados chegam sequencialmente no tempo. Em um DLM, o filtro de Kalman fornece as fórmulas para atualizar a inferência atual sobre o vetor de estados
conforme um dado novo se torna disponível, isto é, por passar da densidade de filtragem f (θt|Dt) para f (θt+1|Dt+1).
Já o processo de suavização, ou análise retrospectiva, consiste, em estimar a sequência de estados nos tempos 1, ..., t, dados y1, ..., yt. Em
muitas aplicações, uma vez que se tem as observações sobre uma série temporal para um certo período, pode-se analisar retrospectivamente o comportamento do sistema adjacente às observações. O problema de suavização é resolvido por calcular a distribuição condicional de θ1:t dado y1:t. Assim como na filtragem, a suavização pode ser
implementada como um algoritmo recursivo [2].
Frequentemente, a análise de previsão é a principal tarefa ao se modelar séries temporais. Ao se trabalhar com modelos espaço de estados, a estimação do estado é apenas um passo para predizer o valor de observações futuras. Em outras palavras, ao fazer a previsão um passo à frente, isto é, predizer a próxima observação Yt+1
baseada no dado y1:t, primeiro se estima o próximo valor de θt+1
do vetor de estados e, em seguida, baseado nesta estimativa, tem-se a previsão Yt+1. A densidade preditiva um passo à frente é definida
por f (θt+1|Dt) e é baseada na densidade preditiva f (yt+1|Dt).
No caso de previsões k passos à frente, k ≥ 1, estima-se o vetor de estado θt+k para se prever Yt+k. A predição do estado
é resolvida pelo cálculo da densidade preditiva k passos à frente f (yt+k|Dt) para as observações futuras no tempo t + k. Conforme o
horizonte temporal t+k se torna longo, é esperado que as previsões se tornem mais incertas e essa incerteza pode ser quantificada através de uma densidade de probabilidade, chamada de densidade preditiva de (Yt+1|Dt). Em particular, a média condicional E [Yt+1|Dt] fornece
um ótimo ponto de previsão um passo à frente do valor de Yt+1,
minimizando a condicional do erro de predição ao quadrado esperado. Como uma função de k, E [Yt+k|Dt] é usualmente chamada de função
de previsão.
A seguir, os processos de filtragem, suavização e previsão são apresentados formalmente com mais detalhes.
VIII. FILTRAGEM
Uma das vantagens dos modelos de espaço de estados é que, devido a estrutura Markoviana dos estados dinâmicos e as suposições de independência condicional para as observações, as densidade de filtragem e de previsão podem ser calculadas usando um algoritmo recursivo [2].
Proposição 8.1 (Filtragens recursivas):Para um modelo de espaço de estados definido pela Definição 5.1, seguem os itens seguintes:
i) A densidade preditiva um passo à frente para os estados pode ser calculada por meio da densidade preditiva f (θt−1|Dt−1),
de acordo com f (θt|Dt−1) =
Z
f (θt|θt−1)f (θt−1|Dt−1) dθt−1.
ii) A densidade preditiva um passo à frente para as observações podem ser calculada por meio da densidade preditiva dos estados,
conforme
f (yt|Dt−1) =
Z
f (yt|θt)f (θt|Dt−1) dθt.
iii) A densidade de filtragem pode ser calculada por meio das densidades anteriores, conforme
f (θt|Dt) =
f (yt|θt)f (θt|Dt−1)
f (yt|Dt−1)
.
Prova: Sessão 2.7.1, p. 52, da referência [2].
Os MDLs são um importante caso dos modelos espaço de estados onde as recursões gerais simplicam-se consideravelmente. Neste caso, usando resultados padrões sobre a distribuição Gaussiana multivariada, é facil provar que o vetor aleatório (θ0, θ1, ..., θt, Y1, ..., Yt) tem
distribuição normal para qualquer t ≥ 1. Segue que as distribuições marginais e condicionais também são Gaussianas. Desde que todas as distribuições relevantes são Gaussianas, elas são completamente determinadas pelas suas médias e variâncias [15].
O filtro de Kalman, foi proposto originalmente para correção e filtragem de sinais eletrônicos. Nesse contexto, considera-se que o estado latente é o verdadeiro sinal e o que se observa é o sinal mais um ruído [10]. A solução do problema de filtragem para os DLMs é dado pelo filtro de Kalman [13], o qual será apresentado a seguir.
Proposição 8.2 (Filtro de Kalman):Considere o MDL especificado pela Definição 6.2 juntamente com as suposições estabelecidas na Definição 5.1. Assim, as distribuições um passo à frente e a posteriori, para cada t, são dadas como segue:
a) Posteriori no tempo t − 1:
Para algum média mt−1 e matriz de variância Ct−1,
(θt−1|Dt−1) ∼ N (mt−1, Ct−1) .
b) Priori no tempo t:
Para algum média mt−1e matriz de variância Ct−1, a
distribui-ção preditiva um passo à frente (θt|Dt−1) será
(θt|Dt−1) ∼ N (at, Rt) ,
com parâmetros
at = E [θt|Dt−1] = Gtmt−1
Rt = V [θt|Dt−1] = GtCt−1G>t + Wt.
c) Previsão um passo à frente:
A distribuição preditiva um passo à frente (Yt|Dt−1) será
(Yt|Dt−1) ∼ N (ft, Qt) ,
com parâmetros
ft = E [Yt|Dt−1] = Ft>at
qt = V [Yt|Dt−1] = Ft>RtFt+ Vt.
d) Posteriori no tempo t:
A distribuição de filtragem (θt|Dt) será
com parâmetros
mt = E [θt|Dt] = at+ Atet
Ct = V [θt|Dt] = Rt− AtqtA>t.
onde At = RtFtq−1t é a matriz de ganho e et= Yt− ft é o
erro de previsão.
Prova: Sessão 4.3, p.104, da referência [8]. Outra prova utilizando diretamente as propriedades da normal multivariada em termos de distribuições condicionais encontra-se na referência [15].
O comportamento do processo (Yt) é fortemente influenciado
pela razão das duas variâncias de erro, r = Wt/Vt, chamada de
magnitude do signal, a qual é refletida na estrutura do mecanismo de estimação e previsão. Note que mt= Atyt+ (1 − At)mt−1 é uma
média ponderada de yte mt−1; e Até termo de correção da atual
observação ytque satisfaz 0 < At< 1. Para algum C0 dado, se a
magnitude do sinal r é pequena, Até pequeno e yt recebe um peso
pequeno. Em caso contrário, quando Vt= 0, At= 1 e mt= yt, isto
é, a previsão um passo a frente é dado pela observação mais recente. O filtro de Kalman pode ser utilizado para calcular as esti-mativas de máxima verossimilhança do conjunto de parâmetros ψt = {Vt, Wt, Gt}. Por simplicidades, considere que o valor dos
parâmetros são fixos no tempo, ou seja, ψt= ψ. Assim, considerando
(2), tem-se que a função de verossimilhança é obtida por `(ψ; y1:t) = log f (y1|D0) +
n
X
t=2
log f (yt|Dt−1). (9)
e a otimização dessa função trará as estimativas de máxima verossi-milhança de ψ. Outras formas de estimação são dadas por [8].
IX. SUAVIZAÇÃO
A reconstrução retrospectiva do comportamento do sistema é obtido pelo processo de suavização. O algoritmo de reconstrução calcula as distribuições condicionais de (θt|Dn), para qualquer t < n,
começando da distribuição de filtragem f (θn|Dn) e estimando no
sentido contrário a história dos estados.
Proposição 9.1 (Recursão de Suavização):Para um modelo espaço de estados que considera as suposições estabelecidas na Definição 5.1, valem as seguintes afirmações:
i) Condicional sobre Dn, a sequência de estados (θ0, ..., θn) tem
probabilidades de transição para trás dadas por f (θt|θt+1, Dn) =
f (θt+1|θt)f (θt|Dt)
f (θt+1|Dt)
ii) As distribuições de suavização (θt|Dn) pode ser calculadas de
acordo com a seguinte recursão para trás em t, começando de f (θn|Dn): f (θt|Dn) = f (θt|Dt) Z f (θ t+1|θt) f (θt+1|Dt) f (θt+1|DT) dθt+1.
Prova: Sessão 2.7.4, p.60, da referência [2].
Proposição 9.2 (Suavizador de Kalman):Considere um MDL apresentado conforme a Definição 6.2. Se θt+1|Dn∼ N (st+1, St+1),
logo θt|Dn∼ N(st, St), onde st = mt+ CtG>t+1R −1 t+1(st+1− at+1) St = Ct− CtG>t+1R −1 t+1(Rt+1− St+1)R−1t+1G > t+1Ct.
Prova: Sessão 2.7.4, p.61, da referência [2].
X. PREVISÃO
Um vez com os dados observados, pode-se ter o interesse em se obter valores de observações futuras Yt+k ou de estados
futuros θt+k. Serão fornecidas algumas fórmulas recursivas para as
médias e variâncias das distribuições condicionais dos estados e das observações em um tempo futuro t + k, condicional aos dados no tempo t. Salienta-se que, conforme k se torna maior, mais incerteza entra no sistema, as previsões terão menor precisão.
Proposição 10.1 (Recursão de previsão):Para um modelo espaço de estados que considera as suposições estabelecidas na Definição 5.1, valem as seguintes afirmações, para qualquer k > 0.
i) A distribuição de previsão k passos à frente dos estados é f (θt+k|Dt) =
Z
f (θt+k|θt+k−1)f (θt+k−1|Dt) dθt+k−1
ii) A distribuição de previsão k passos à frente das observações é f (yt+k|Dt) =
Z
f (yt+k|θt+k)f (θt+k|Dt) dθt+k
Prova: Ver Sessão 2.8, p.70, da referência [2].
Proposição 10.2 (Previsão):Para um DLM dado pela Definição 6.2, seja at(0) = mt e Rt(0) = Ct. Logo, para k ≥ 1, valem as
seguintes afirmações:
i) A distribuição de (θt+k|Dt) é Gaussiano, com
at(k) = E [θt+k|Dt] = Gt+kat,k−1
Rt(k) = V [θt+k|Dt] = Gt+kRt,k−1G>t+k+ Wt+k;
ii) A distribuição de Yt+k dado Dt é Gaussiana, com
ft(k) = E [Yt+k|Dt] = Ft+kat(k)
Qt(k) = V [Yt+k|Dt] = Ft+kRt(k)Ft+k> + Vt.
Prova: Ver Sessão 2.8, p.71, da referência [2] e Sessão 4.4, p. 107, da referência [8].
XI. OPROCESSO DE INOVAÇÃO E CHECAGEM DO MODELO
Para os MDLs, pode-se calcular as previsões um passo à frente ft= E [Yt|y1:t], e calcular o erro de previsão como
et= Yt− E [Yt|y1:t] = Yt− ft
O erro de previsão pode ser alternativamente escrito em termos da estimação dos erros um passo à frente como segue:
et = Yt− Ftat= Ftθt+ νt− Ftat
= Ft(θt− at) + νt.
A sequência (et)t≥1 de erros de previsão usufrui de algumas
propriedades interessantes, as mais importantes delas estão coletadas na seguinte proposição.
Proposição 11.1:Seja (et)t≥1ser a sequência de erros de previsão
de um DLM. Então valem as seguintes propriedades: i) O valor esperado de et é zero;
ii) O vetor aleatório et é não correlacionado com nenhuma função
de Y1, ..., Yt−1;
iii) Para qualquer s < t, et e Ys são não correlacionados;
iv) Para qualquer s < t, et e essão não correlacionados;
v) eté uma função linear de Y1, ..., Yt;
vi) (et)t≥1 é um processo Gaussiano.
Prova: Ver Sessão 2.9, p.73, da referência [2].
XII. ESTUDO DE CASOS
Nesta sessão serão apresentados alguns exemplos de ajustes de modelos dinâmicos lineares sob auxílio do software R [12], versão 3.4.0, e do pacote dlm [2].
A. Exemplo 1
O modelo dinâmico que será ajustado à série temporal apresentada na Fig. 1, é dado por
Yt = θt+ νt, νt∼ N (0, Vt) (10)
θt = θt−1+ ωt, ωt∼ N (0, Wt) (11)
(12) pelo qual assume-se que as variâncias são conhecidas.
Por meio da maximização da função de verossimilhança, obteve-se as obteve-seguintes estimativas ˆVt = 0, 521 e ˆWt = 0.264, com os
respectivos erros padrões ep( ˆVt) = 0, 143 e ep( ˆWt) = 0, 129.
Com base nessas estimativas, contruíu-se a suavização dos estados θt, com se pode ver no gráfico da Fig. 2, o seu invervalo de confiança
de 95%. Além disso, construí-se o intervalo de confiança de 95% para as observações. Utilizando o que foi apresentado sobre a previsão de observações futuras, fez-se a previsão 4 passos à frente além dos intervalos de confiança de 95% para avaliar a incerteza das previsões. Repare que o os valores previstos para Yt+k coincidem
com os valores dos estados, pois o valor de Ft>= 1 (Ver equações de previsão).
Figura 2: Modelo dinâmico linear ajustado para a série temporal simulada, com previsões e respectivos intervalos de confiança de 95%
O diagnóstico do ajuste pode ser feito por meio dos gráficos dos resídos, dados na Fig. 3, pelos quais observa-se atender as condições apresentadas pela Proposição 11.1.
Figura 3: a) gráfico quantil-quantil dos resíduos e b) gráfico de autocorrelação dos resíduos.
B. Exemplo 2
Considere o caso apresentado no Exemplo 1, porém assume-se que as variâncias dos erros não são mais conhecidas. Neste caso, a informação inicial terá outro elemento a ser condicionado, que é φ = 1/Vt. Conforme a Sessão 4.5 da referência [8] e a Sessão 6.12 da
referência [14], o MDL apresentado na Definição 6.2 sofre algumas alterações e o uso de metódos Markov chain Monte Carlo (MCMC) são utilizados. Os gráficos da Fig. 4 representam as marginais amostradas das médias a posteriori das variâncias dos erros dado Dt.
Observação que as estimativas de máxima verossimilhança para as variâncias dos erros encontradas anteriormente estão contidas nesses gráficos (linha em azul). Quando a estrutura do modelo dinâmico torna-se mais complexa, o uso de métodos MCMC é inerente ao processo de inferência dos modelos.
Figura 4: Marginais amostradas das médias a posteriori das variâncias dos erros
C. Exemplo 3
Os modelos ARMA(p, q) são casos especiais dos modelos dinâmicos lineares [2], [8]. A definição desses modelos pode ser dada por (considere µ = 0, por conveniência):
Yt= m X j=1 φjYt−j+ m−1 X j=1 ψjt−j+ t,
com m = máx {p, q + 1}, φj = 0 para j > p e ψj = 0 para j > q.
Definindo as matrizes F = [1 0 . . . 0] , U = [1 ψ1 . . . ψm−2 ψm−1]> G = φ1 1 0 ... 0 φ2 0 1 ... 0 .. . ... ... . .. ... φm−1 0 0 ... 1 φm 0 0 ... 0 .
Com a introdução de um vetor de dimensão m dado por θt =
(θ1,t, ..., θm,t)>, logo o modelo ARMA tem a seguinte representação
em termos de um MDL:
Yt = F θt
θt+1 = Gθt+ Rt
Este é um MDL com Vt= 0 e Wt= RR>σ2, onde σ2 é a variança
de sequência de erros (t).
XIII. CONSIDERAÇÕESFINAIS
Os modelos dinâmicos lineares possuem uma estrutura de modelagem muito ampla, das quais não seria uma tarefa difícil falar de forma breve neste trabalho. Observa-se que muito do algoritmo recursivo no processo de inferência é possível graças às propriedades de probabilidade, em especial do teorema de Bayes, ao fazer uso de prioris conjugadas, no caso Gaussianas.
Os modelos dinâmicos lineares generalizados e os não-lineares compartilham muito da visão dada por um MDL, porém aumenta-se a complexidade em meio a realização das inferências, principalmente em encontrar prioris conjugadas. Porém, há muitos recursos para se explorar ainda nessa área de estudo. Particularmente, os modelos dinâmicos vêm a ser uma ferramenta bastante útil para a modelagem de modelos espaço-temporais, os quais procuram explicar fenômenos que ocorrem de forma dinâmica no espaço ao longo do tempo (epidemiologia, fenômenos climáticos, pesca, entre outros).
AGRADECIMENTOS
Agradeço à CAPES e ao CNPq pelo auxílio financeiro dado-me enquanto bolsista.
REFERÊNCIAS
[1] A. C. Harvey. Forecasting structural time series models and the Kalman filter. Cambridge University Press, Cambridge, 1989.
[2] G. Petris, S. Petrone e P. Campagnoli. Dynamic Linear Models with R, New York, USA: Springer, 2009.
[3] H. Lütkepohl. New Introduction to Multiple Times Series Analysis. New York, USA: Springer, 2005.
[4] H. Akaike. Markovian Representation of Stochastic Processes and Its Application to the Analysis of Autoregressive Moving Average Processes, Annals of the Institute of Statistical Mathematics, 26, 363-387, 1974.
[5] J. Casals, A. Garcia-Hiernaux, M. Jerez, S. Sotoca, A. A. Trindade. State-Space Methods for Time Series Analysis (Theory, Applications and Software)CRC Press [6] J. A. Nelder e R. W. M. Wedderburn, Generalized Linear Models, Journal of the
Royal Statistical Society, Serie A, 135, 370-384, 1972.
[7] M. Aoki. State Space Modeling of Time Series, Springer-Verlag, Berlin, Germany: 1990.
[8] M.West e J.Harrison. Bayesian Forecasting and Dynamic Model, 2sd ed. New York, USA: Springer, 1997.
[9] P. J. Harrison e C. F. Stevens. Bayesian Forecasting (with discussion), Journal of the Royal Statistical Society. Serie B, 38, 205-247, 1976.
[10] P. J. Ribieiro Jr, W. H. Bonat, E. T. Krainski e W. M. Zeviani. Métodos Computacionais em Inferência Estatística, XX Sinape - Simpósio Nacional de Probabilidade e Estatística, João Pessoa, PB, 2012.
[11] P. McCullagh e J. A. Nelder. Generalized Linear Models, 2sd ed. London, England: Chapman and Hall, 1989.
[12] R Core Team. R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, 2017.
[13] R. E. Kalman. A New Approach to Linear Filtering and Prediction Problems. Transactions of the ASME, Journal of Basic Engineering, Series D, 82, 35-45, 1960.
[14] R. H. Shumway e D. S. Stoffer. Time Series Analysis and Its Applications: With R Examples, ed. 4, New York: Springer, 2016.
[15] R. J. Meinhold e N. D. Singpurwalla. Understanding the Kalman Filter. The American Statistician, ed. 2, 37, 123-127, 1983.