Uma Nova Classe de Modelos Espaço-Temporais para Dados de Áreas

(1)

UMA NOVA CLASSE

DE MODELOS ESPAC

¸ O-TEMPORAIS PARA DADOS

DE ´

AREA

por

Juan Carlos Vivar-Rojas

Disserta¸cão de Mestrado submetida ao pro-grama de Pós-gradua¸cão em Estat´ıstica. Insti-tuto de Matemática da Universidade Federal do Rio de Janeiro – UFRJ, como parte dos requi-sitos necessários à obten¸cão do t´ıtulo de Mestre em Estat´ıstica.

Orientador: Marco Antonio Rosa Ferreira

Rio de Janeiro Mar¸co, 2004

(2)

(3)

UMA NOVA CLASSE

DE MODELOS ESPAC

¸ O-TEMPORAIS PARA DADOS

DE ´

AREA

por

Juan Carlos Vivar-Rojas

Disserta¸cão de Mestrado submetida ao programa de Pós-gradua¸cão em Estat´ıstica. Instituto de Matemática da Universidade Federal do Rio de Janeiro – UFRJ, como parte dos requisitos necessários à obten¸cão do t´ıtulo de Mestre em Estat´ıstica.

Aprovada por:

Presidente, Prof. Marco A. Rosa Ferreira

Profa. Alexandra M. Schmidt

Prof. Juliano J. Assun¸c˜ao

(4)

RESUMO

UMA NOVA CLASSE DE MODELOS ESPAC¸ O-TEMPORAIS PARA DADOS DE ´AREA

Resumo da disserta¸cão de Mestrado submetida ao programa de Pós-gradua¸cão em Estat´ıstica. Instituto de Matemática da Universidade Federal do Rio de Janeiro – UFRJ, como parte dos requisitos necessários à obten¸cão do t´ıtulo de Mestre em Estat´ıstica.

Neste trabalho apresentamos uma nova classe de modelos espa¸co-temporais para dados de área elaborados a partir de modelos dinâmicos Bayesianos com erros seguindo processos de campos aleatórios Markovianos Gaussianos próprios. Uti-lizamos a estrutura dos modelos lineares dinâmicos para especificar os modelos pro-postos, assim, os erros nas equa¸cões de observa¸cão e de sistema têm dependência espacial. De acordo com as caracter´ısticas das matrizes de sistema e de desenho, podemos ter diferentes tipos de modelos: polinomiais de primeira ou de segunda ordem, de contamina¸cão; com a dimensão original do vetor de estados ou reduzida, etc. Desenvolvemos a estima¸cão dos parâmetros utilizando métodos Monte Carlo via cadeias de Markov (MCMC) e o algoritmo forward filtering backward sampling, me-lhorado com a técnica da decomposi¸cão espectral em alguns casos. Esta nova classe de modelos pode potencialmente ser aplicada a processos ambientais e também a pro-cessos epidemiológicos e sócio-econômicos. Ilustramos esta nova classe de modelos e a metodologia de estima¸cão desenvolvida com uma aplica¸cão a dados de velocidade do vento em uma região do Pac´ıfico tropical.

Palavras chave: Modelos espa¸co-temporais, dados de área, modelos dinâmicos, campos aleatórios Markovianos Gaussianos, inferência Bayesiana.

(5)

ABSTRACT

A NEW CLASS OF SPATIO-TEMPORAL MODELS FOR AREAL DATA

Abstract da disserta¸cão de Mestrado submetida ao programa de Pós-gradua¸cão em Estat´ıstica. Instituto de Matemática da Universidade Federal do Rio de Janeiro – UFRJ, como parte dos requisitos necessários à obten¸cão do t´ıtulo de Mestre em Estat´ıstica.

In this work, we present a new class of spatio-temporal models for areal data based on Bayesian dynamic models with errors following proper Gaussian Markov random fields processes. We use dynamic linear models framework to specify our proposed models, hence, errors in system and observation equations are spatially correlated. Depending on characteristics of the system and design matrices, we may have different kinds of models, like first order polynomial models, second order poly-nomial models, contamination models; original or reduced state vector dimension, etc. We develop parameter estimation using Markov Chain Monte Carlo (MCMC) methods and forward filtering backward sampling algorithm, improved in some cases with matrix spectral decompositions. This new class of models can be potentially applied to environmental processes and epidemiologic and socioeconomic processes. We illustrate this new class of models and the estimation methodology developed with an application to a dataset related to wind velocity over the tropical Pacific region.

Key words: Spatio-temporal models, areal data, dynamic models, proper Gaussian Markov random fields, Bayesian inference.

(6)

Aos meus pais Beto e Vivian e a minha irm˜a M´onica

(7)

Agradecimentos

Quero agradecer em primeiro lugar a Marco, meu orientador, pela confian¸ca de-positada em mim e me fazer sentir que trabalhei mais com um amigo que com um professor. Aos professores da Pós-gradua¸cão, obrigado pela chance que me deram de estudar aqui e porque aprendi muitas coisas novas com suas aulas e com suas ex-periências. Aos colegas que me ajudaram no in´ıcio e ajudam até hoje. Ao professor Chris Wikle por me fornecer os dados de vento e a CAPES pelo sustento financeiro. Agrade¸co muito especialmente a minha grande fam´ılia pela preocupa¸cão e inte-resse por mim à distância. A Esther, meu amor, por seu constante apoio e paciência comigo e porque sabemos que os momentos bons serão muitos mais que os ruins. Aos amigos que ficaram a só um pensamento de distância. Obrigado a todos, prin-cipalmente aos meus pais e irmã por serem minha eterna inspira¸cão para continuar na luta por um objetivo na vida.

(8)

Sum´

ario

Lista de Tabelas xi

Lista de Figuras xii

1 Introdu¸c˜ao 1

2 Modelos Lineares Dinˆamicos 5

2.1 Introdu¸c˜ao . . . 5

2.2 Estrutura geral . . . 6

2.3 Atualiza¸c˜ao do vetor de estados . . . 7

2.3.1 O Filtro de Kalman . . . 7

2.3.2 O Filtro de Kalman em Modelos Espa¸co-Temporais . . . 9

2.4 Estima¸c˜ao de parˆametros em MLDs . . . 9

2.4.1 Amostrador de Gibbs . . . 10

2.4.2 Algoritmo de Metropolis-Hastings . . . 11

2.5 Simula¸c˜ao do vetor de estados . . . 11

2.5.1 Amostragem posteriori estado por estado . . . 11

2.5.2 Forward Filtering Backward Sampling . . . 12

3 Campos Aleat´orios Markovianos Gaussianos 14 3.1 Introdu¸c˜ao . . . 14

(9)

3.3 Exemplo . . . 18

3.4 Simula¸c˜ao de CAMGs . . . 18

4 Modelos Espa¸co-Temporais para Dados de ´Area 21 4.1 Introdu¸c˜ao . . . 21

4.2 Abordagens anteriores . . . 22

4.3 Estrutura geral dos modelos propostos . . . 23

4.4 Modelo Polinomial de Primeira Ordem . . . 24

4.5 Modelo Polinomial de Segunda Ordem . . . 25

4.6 Modelo de Contamina¸c˜ao . . . 26

4.7 Modelo com Sazonalidade . . . 27

5 Inferˆencia Bayesiana nos Modelos Espa¸co-Temporais 38 5.1 Introdu¸c˜ao . . . 38

5.2 Estima¸c˜ao no modelo Polinomial de Primeira Ordem . . . 39

5.2.1 Especifica¸c˜ao das Prioris . . . 39

5.2.2 Inferˆencia a posteriori . . . 40

5.3 Estima¸c˜ao no modelo Polinomial de Segunda Ordem . . . 48

5.4 Estima¸c˜ao no modelo de Contamina¸c˜ao . . . 56

6 Aplica¸c˜oes 62 6.1 Introdu¸c˜ao . . . 62

6.2 Estudos Simulados . . . 62

6.2.1 Simula¸c˜ao do Modelo Polinomial de Primeira Ordem . . . 63

(10)

6.2.3 Simula¸c˜ao do Modelo de Contamina¸c˜ao . . . 65

6.3 Dados de Vento . . . 67

7 Conclusões e trabalhos futuros 91 A Tópicos Especiais 93 A.1 Decomposi¸cão Espectral . . . 93

A.1.1 Introdu¸c˜ao . . . 93

A.1.2 Algumas defini¸c˜oes . . . 93

A.1.3 C´alculo do determinante . . . 94

(11)

Lista de Tabelas

3.1 Estrutura de vizinhan¸ca de primeira ordem para o exemplo da grade regular (4 × 4). . . . 19

6.1 Médias a posteriori dos parâmetros do modelo polinomial de primeira ordem considerando as últimas 5000 itera¸cões. Os números entre parênteses são os desvios padrão. . . 64

6.2 Médias a posteriori dos parâmetros do modelo polinomial de segunda ordem considerando as últimas 5000 itera¸cões. Os números entre parênteses são os desvios padrão. . . 65

6.3 Médias a posteriori dos parâmetros do modelo de contamina¸cão con-siderando as últimas 5000 itera¸cões. Os números entre parênteses são os desvios padrão. . . 66

6.4 Estat´ısticas descritivas dos dados da componente leste-oeste do vetor de velocidade de vento (em m/s). . . 68

6.5 Médias a posteriori e desvios padrão dos parâmetros do modelo poli-nomial de primeira ordem para os dados de vento. . . 68

(12)

Lista de Figuras

3.1 Exemplo dos processos latente e observado em uma grade (48 × 48) com estrutura de vizinhan¸ca de primeira ordem. . . 20

4.1 Dados observados simulados (y_t) utilizando o modelo polinomial de primeira ordem para 100 tempos em campos de tamanho (6 × 6). Utilizamos σ2 _{= 1. . . .} ₂₈

4.2 Processo latente simulado (xt) utilizando o modelo polinomial de

primeira ordem para 100 tempos em campos de tamanho (6 × 6). Utilizamos α = 0.5, κ = 1 e ρ = 0.9. . . . 29

4.3 Dados observados simulados (yt) utilizando o modelo polinomial de

segunda ordem para 70 tempos em campos de tamanho (6 × 6). Uti-lizamos σ2 _{= 1. . . .} ₃₀

4.4 Processo latente simulado para o n´ıvel (x1t) utilizando o modelo

poli-nomial de segunda ordem para 70 tempos em campos de tamanho (6 × 6). Utilizamos α1 = 0.5, κ1 = 1 e ρ1 = 1. . . 31

4.5 Processo latente simulado para a velocidade da mudan¸ca (x2t)

uti-lizando o modelo polinomial de segunda ordem para 70 tempos em campos de tamanho (6 × 6). Utilizamos α2 = 1, κ2 = 9 e ρ2 = 1. . . 32

4.6 Dados observados simulados (yt) utilizando o modelo de

contami-na¸cão com perturba¸cão exógena para 100 tempos em campos de tamanho (6 × 6). Utilizamos σ2 _{= 1. . . .} ₃₃

(13)

4.7 Processo latente simulado (xt) utilizando o modelo de contamina¸c˜ao

com perturba¸c˜ao ex´ogena para 100 tempos em campos de tamanho (6 × 6). Utilizamos α = 0.5, κ = 1, ρ = 0.9 e β = 0.9. . . . 34

4.8 Dados observados simulados (yt) utilizando o modelo com

sazonali-dade para 100 tempos em campos de tamanho (6 × 6). Utilizamos

σ2 _{= 1.} _{. . . .} ₃₅

4.9 Processo latente simulado (xt) utilizando o modelo com sazonalidade

para 100 tempos em campos de tamanho (6×6). Utilizamos α1 = 0.5,

κ1 = 1 e ρ = 0.9. . . . 36

4.10 Processo sazonal simulado (st) utilizando uma periodicidade p = 4

para 100 tempos em campos de tamanho (6 × 6). Utilizamos α2 = 0.5

e κ2 = 1. . . 37

6.1 Dados observados simulados (yt) para o conjunto com 50 tempos em

campos de tamanho (6 × 6). Utilizamos σ2 _{= 1. . . .} ₇₀

6.2 Processo latente simulado (xt) para o conjunto com 50 tempos em

campos de tamanho (6 × 6). Utilizamos α = 0.5, κ = 1 e ρ = 0.9. . . 71

6.3 Valores estimados dos xt para o conjunto com 50 tempos em campos

de tamanho (6 × 6). . . . 72

6.4 Gráficos das itera¸cões e marginais a posteriori dos parâmetros do modelo polinomial de primeira ordem para o conjunto com 50 tempos. 73

6.5 Dados observados simulados (yt) para o conjunto com 70 tempos em

campos de tamanho (6 × 6). Utilizamos σ2 _{= 1. . . .} ₇₄

6.6 Processo latente simulado (xt) para o conjunto com 70 tempos em

campos de tamanho (6 × 6). Utilizamos α = 0.5, κ = 1 e ρ = 0.9. . . 75

6.7 Valores estimados dos xt para o conjunto com 70 tempos em campos

(14)

6.8 Gráficos das itera¸cões e marginais a posteriori dos parâmetros do modelo polinomial de primeira ordem para o conjunto com 70 tempos. 77

6.9 Valores estimados dos xtpara o conjunto com 100 tempos em campos

de tamanho (6 × 6). . . . 78

6.10 Gráficos das itera¸cões e marginais a posteriori dos parâmetros do modelo polinomial de primeira ordem para o conjunto com 100 tem-pos. . . 79

6.11 Valores estimados dos x1t para o conjunto com 70 tempos em campos

de tamanho (6 × 6). . . . 80

6.12 Valores estimados dos x2t para o conjunto com 70 tempos em campos

de tamanho (6 × 6). . . . 81

6.13 Gráficos das itera¸cões e marginais a posteriori dos parâmetros do modelo polinomial de segunda ordem para o conjunto com 70 tempos. 82

6.14 Valores estimados dos xt para o modelo de contamina¸c˜ao com

per-turba¸c˜ao ex´ogena em campos de tamanho (6 × 6). . . . 83

6.15 Marginais a posteriori dos parâmetros do modelo de contamina¸cão com perturba¸cão exógena. . . 84

6.16 Dados observados simulados (yt) para o modelo de contamina¸c˜ao sem

perturba¸c˜ao ex´ogena em campos de tamanho (6 × 6). Utilizamos

σ2 _{= 1.} _{. . . .} ₈₅

6.17 Processo latente simulado (xt) para o modelo de contamina¸c˜ao sem

perturba¸c˜ao ex´ogena em campos de tamanho (6 × 6). Utilizamos

α = 0.5, κ = 1, ρ = 0.9 e β = 0.9. . . . 86

6.18 Valores estimados dos xt para o modelo de contamina¸c˜ao sem

per-turba¸c˜ao ex´ogena em campos de tamanho (6 × 6). . . . 87

6.19 Marginais a posteriori dos parâmetros do modelo de contamina¸cão sem perturba¸cão exógena. . . 88

(15)

6.20 Gr´aficos da velocidade do vento para nove regi˜oes diferentes ao longo do tempo. . . 89

6.21 Gr´aficos das marginais a posteriori das estimativas dos parˆametros do modelo polinomial de primeira ordem para os dados de vento. . . 89

6.22 Valores estimados dos xt para os dados da componente leste-oeste do

(16)

Cap´ıtulo 1

Introdu¸c˜

ao

Resulta dif´ıcil imaginar um fenômeno ambiental sem um processo espa¸co-temporal latente. Existe um grande interesse em fenômenos que variam no espa¸co e no tempo simultaneamente. Na última década o número de pesquisas nesta área cresceu muito. Estudos em climatologia, hidrologia, meteorologia, ecologia e outras ciências afins, têm sido desenvolvidos considerando processos com efeitos espaciais, temporais e as intera¸cões entre eles. Dada a dificuldade de especificar estas intera¸cões, além da comumente grande quantidade de dados dispon´ıveis, a utiliza¸cão destes modelos é limitada.

Diversas abordagens que incluem modelos lineares dinâmicos têm sido propostas na literatura para modelar as intera¸cões entre o espa¸co e o tempo pelo menos desde Ghil et al. (1981). Mardia et al. (1998) apresentaram o método do filtro de Kalman com krigagem, no qual modelavam a evolu¸cão de campos espaciais através do tempo. A idéia deles é misturar dois procedimentos: o filtro de Kalman, para estima¸cão recursiva em modelos de espa¸co de estados aplicados a séries temporais, e a krigagem, usada para previsão de processos espaciais cont´ınuos. O conhecimento das caracter´ısticas f´ısicas dos processos em estudo pode ser incorporado no modelo como fizeram Wikle e Cressie (1999). Eles corrigiram a sobresuaviza¸cão do modelo de Mardia et al. (1998) e incorporaram a dinâmica temporal na modelagem

(17)

espa¸co-temporal fazendo previs˜ao do vetor de estados.

Neste trabalho introduzimos uma nova classe de modelos espa¸co-temporais para dados de área. Nesta nova classe, os campos observados são vetorizados e modelados com modelos lineares dinâmicos (West e Harrison, 1997), com os erros das equa¸cões de observa¸cão e sistema seguindo processos de campos aleatórios Markovianos Gaus-sianos (CAMG).

A generalidade das equa¸cões de observa¸cão e de sistema permite a aplica¸cão de modelos espa¸co-temporais dinâmicos em muitas situa¸cões práticas, como por exem-plo modelar os ventos superficiais no oceano tropical (Wikle et al., 2001), calibrar dados de chuva obtidos por radar (Brown et al., 2001), a dispersão das popula¸cões de algumas espécies de aves (Wikle, 2002) e a análise de n´ıveis de contaminantes (Huerta et al., 2004).

O presente trabalho difere das pesquisas anteriores porque modelamos explici-tamente dados de área e usamos campos aleatórios Markovianos Gaussianos para modelar a correla¸cão espacial dos erros.

Consideramos um conjunto de regiões indexadas pelos inteiros 1, 2, . . . , n, for-mando uma grade dentro de um dom´ınio geográfico de interesse. Assume-se que esta grade está dotada de um sistema de vizinhan¸ca {Nk; k = 1, . . . , n}, onde Nk

denota o conjunto de regiões que são vizinhas da região k. Para cada tempo t e região s observamos a variável de interesse, yst, s = 1, . . . , n, t = 1, . . . , T . Além

disso, denotando o campo vetorizado observado no tempo t como yt = (y1t, . . . , ynt)0,

nosso modelo espa¸co-temporal ´e

yt = FTtxt+ ²t, ²t∼ CAMG(0, V−1t ), (1.1)

xt = Gtxt−1+ ωt, ωt∼ CAM G(0, W−1t ), (1.2)

onde fazemos a suposi¸cão usual de independência entre as seqüências de erros

²1, . . . , ²T e ω1, . . . , ωT. A interpreta¸c˜ao dos diferentes elementos do modelo ´e

(18)

pro-cesso espa¸co-temporal latente vetorizado; Ft ´e a matriz que relaciona o processo

latente com as observa¸cões; ²t é o vetor de erros de observa¸cão no tempo t

espa-cialmente estruturado; Gt descreve a evolu¸c˜ao do processo espa¸co-temporal latente

através do tempo e ωt é um vetor de erros aleatórios com efeito não só no tempo t

mas tamb´em nos tempos subseq¨uentes. As matrizes Vt e Wt cumprem um papel

muito importante descrevendo a dependência espacial do processo nos n´ıveis de ob-serva¸cão e de espa¸co de estados (sistema), respectivamente. As equa¸cões (1.1) e (1.2) definem uma classe de modelos para processos espa¸co-temporais bem flex´ıvel. A ca-racter´ıstica chave para a aplica¸cão bem sucedida destes modelos é a especifica¸cão do processo latente xt e das matrizes Ft, Gt, Vt e Wt.

Em nossa nota¸cão, Z ∼ CAMG(µ, P) significa que a variável Z segue um pro-cesso de campo aleatório Markoviano Gaussiano com vetor de médias µ e matriz de precisão P, isto é, a fun¸cão de densidade de Z é proporcional a

p(z) ∝ exp µ −1 2(z − µ) 0_{P(z − µ)} ¶ ,

onde P = κ(αIn+ M), com In sendo a matriz identidade n × n e

(M)k,l =              mk, k = l −gkl, k ∈ Nl 0, caso contrario, (1.3)

onde gkl> 0 ´e uma medida de similaridade entre as regi˜oes k e l, e mk =

P

l∈Nkgkl. Os hiperparˆametros (parˆametros do CAMG) que definem as matrizes Vt e Wt

podem ser diferentes e variantes com o tempo.

O trabalho está organizado da seguinte forma. No cap´ıtulo 2 fazemos uma revisão da teoria dos modelos lineares dinâmicos sob o ponto de vista Bayesiano: defini¸cão, estrutura, previsão mediante o filtro de Kalman e técnicas Monte Carlo via cadeias de Markov (MCMC) aplicadas nos modelos lineares dinâmicos e como simular o vetor de estados usando o algoritmo forward filtering backward sampling (FFBS).

(19)

A teoria sobre campos aleatórios Markovianos e estratégias de simula¸cão dos mesmos são estudadas no cap´ıtulo 3.

No cap´ıtulo 4 apresentamos com detalhe os modelos propostos. Alguns destes modelos s˜ao: modelos polinomiais de primeira ordem com FT

t = In e Gt = ρIn; de

segunda ordem com FT

t = (In, 0n) e Gt =    ρ1In ρ1In 0n ρ2In   ; modelo de

contamina-¸c˜ao, que pode ser usado para modelar processos epidˆemicos, onde a matriz Gt tem

uma forma particular, que ser´a exposta com detalhe naquele cap´ıtulo.

No cap´ıtulo 5 desenvolvemos a inferência para estes modelos, usando técnicas eficientes MCMC que incorporam o FFBS e avan¸cos recentes em simula¸cão e análise Bayesiana objetiva de campos aleatórios Markovianos Gaussianos. Para alguns mo-delos aceleramos os cálculos com o uso da decomposi¸cão espectral de matrizes.

No cap´ıtulo 6 aplicamos nossa classe de modelos para dados simulados e ao conjunto de dados estudado por Wikle e Cressie (1999), que consiste na componente leste-oeste do vetor de velocidade do vento sobre uma regi˜ao do oceano Pac´ıfico tropical, para o per´ıodo de Novembro de 1992 `a Fevereiro de 1993.

(20)

Cap´ıtulo 2

Modelos Lineares Dinˆ

amicos

2.1 Introdu¸c˜

ao

Os modelos lineares dinˆamicos (MLDs) foram introduzidos por Harrison e Stevens (1976) dentro de uma estrutura Bayesiana. Um amplo estudo desta classe de mo-delos ´e encontrado em West e Harrison (1997). Neste cap´ıtulo revisamos os MLDs multivariados gerais.

Consideremos uma s´erie temporal yt, t = 1, 2, . . . cuja dependˆencia temporal se

dá através de um processo latente xt, t = 1, 2, . . . . Na classe dos MLDs, yt está

linearmente relacionado com xt, e a evolu¸c˜ao temporal de xt−1 para xt tamb´em

é linear. Os MLDs também são conhecidos como modelos de espa¸co de estados, nos quais o processo xt é de interesse mas yt é observado. O termo dinâmico está

relacionado com xt.

Suponha que no tempo inicial t = 0 o conjunto de informa¸cões iniciais dispon´ıvel é denotado por D0. Similarmente, no tempo t, o conjunto total é Dt. Assim,

enquanto o tempo evolui, o conjunto de informa¸cões também. Um sistema é conside-rado fechado a informa¸cões externas quando a atualiza¸cão do conjunto Dt depende

somente da informa¸cao no tempo t − 1 e a observa¸c˜ao yt, ou seja Dt = {yt, Dt−1}.

(21)

A representa¸cão probabil´ıstica da incerteza em rela¸cão ao vetor de estados (conside-rados parâmetros) é a essência da abordagem Bayesiana. No tempo t, a informa¸cão Dt−1 é resumida através de uma distribui¸cão a priori, que será a posteriori para o

tempo t − 1.

Na se¸cão seguinte apresentamos a estrutura geral do modelo. A atualiza¸cão do vetor de estados é vista na se¸cão 2.3. Por último, na se¸cão 2.4, mostramos algumas técnicas MCMC para estimar os parâmetros do modelo e dois métodos para fazer a estima¸cão do vetor de estados.

2.2 Estrutura geral

O MLD multivariado para um vetor de séries temporais de observa¸cões yté definido

como segue: suponha, para t = 1, . . . , T , que yt´e um vetor coluna de r observa¸c˜oes,

segundo o modelo definido pela qu´adrupla:

{F, G, V, W}t= {Ft, Gt, Vt, Wt}

para cada tempo t, onde Ft, Gt, Vt, Wt s˜ao matrizes conhecidas de ordem (n × r),

(n × n), (r × r) e (n × n), respectivamente. As correspondentes equa¸c˜oes do modelo s˜ao

yt = FTtxt+ ²t, ²t∼ N(0, Vt), (2.1)

xt = Gtxt−1+ ωt, ωt ∼ N(0, Wt), (2.2)

onde (2.1) é a equa¸cão de observa¸cão que define a distribui¸cão de yt condicional a

xt, e (2.2) é a equa¸cão de sistema ou de estado que define a evolu¸cão temporal do

vetor de estados. No tempo t, Ft ´e a matriz de desenho que relaciona os valores

observados ytcom o vetor de estados xt; o vetor ²trepresenta os erros de observa¸c˜ao;

Gte ωts˜ao a matriz e o vetor de erros de sistema, respectivamente. Para cada tempo

t = 1, . . . , T , o vetor de parˆametros ou vetor de estados xt tem dimens˜ao (n × 1).

(22)

2.3 Atualiza¸c˜

ao do vetor de estados

2.3.1 O Filtro de Kalman

O termo filtro de Kalman refere-se ao procedimento recursivo para fazer inferência em modelos de espa¸co de estados aplicados a séries temporais, quando as ma-trizes Ft, Gt, Vt e Wt são conhecidas. Neste caso, dados os valores de y1, . . . , yt−1,

podemos predizer yt e estimar os vetores de estado n˜ao observ´aveis x1, . . . , xt−1

atrav´es das distribui¸c˜oes preditiva (yt|Dt−1) e posteriori (xt−1|Dt−1),

respectiva-mente. Quando observamos yt podemos atualizar nossa estimativa de xt−1 usando

sua distribui¸c˜ao a posteriori atualizada.

Desde sua apari¸cão em Kalman (1960), da´ı a origem do nome, o filtro de Kalman foi empregado com sucesso por engenheiros e outros cientistas em diversas áreas como controle de qualidade e processamento de sinais. A maior parte dessas aplica-¸cões foram publicadas em jornais de engenharia, o que motivou que a comunidade estat´ıstica ficasse afastada dessa nova metodologia por algum tempo, não obstante sua simplicidade e aplicabilidade devido à semelhan¸ca com os modelos lineares.

Atualmente, o filtro de Kalman pode ser entendido pelo estat´ıstico como uma técnica Bayesiana emp´ırica, utilizando resultados bem conhecidos de estat´ıstica mul-tivariada. Este fato foi notado por Harrison e Stevens (1976), os primeiros a se inte-ressarem na previsão Bayesiana. Uma introdu¸cão à metodologia do filtro de Kalman encontra-se em Meinhold e Singpurwalla (1983).

O filtro de Kalman fornece a distribui¸c˜ao condicional de xt dada a informa¸c˜ao

dispon´ıvel Dt no tempo atual t de uma forma computacionalmente eficiente. A

deriva¸cão das equa¸cões do filtro de Kalman está baseada em indu¸cão no tempo t: supõe-se que o modelo é fechado, ou seja, Dt = {yt, Dt−1} e supõe-se também que

a priori inicial em t = 0 ´e normal multivariada

(23)

para algum vetor de m´edias m0 e matriz de covariˆancias C0 conhecidos.

Com estas suposi¸cões, as equa¸cões de atualiza¸cão, para cada t, são

• Posteriori em t − 1:

Para alguma m´edia mt−1 e matriz de covariˆancias Ct−1,

(xt−1|Dt−1) ∼ N(mt−1, Ct−1).

• Priori em t:

(xt|Dt−1) ∼ N(at, Rt),

onde

at= Gtmt−1 e Rt= GtCt−1GTt + Wt.

• Previs˜ao um passo a frente:

(yt|Dt−1) ∼ N(ft, Qt) onde ft= FTtat e Qt = FTtRtFt+ Vt. • Posteriori em t: (xt|Dt) ∼ N(mt, Ct) com mt= at+ Atet e Ct= Rt− AtQtATt, onde At= RtFtQ−1t e et= yt− ft

Na prova destas equa¸cões, o filtro de Kalman relaciona a teoria dos modelos dinâmicos com a abordagem Bayesiana mediante aplica¸cão direta do teorema de Bayes:

p(xt|Dt) ∝ p(yt|xt, Dt)p(xt|Dt−1)

(24)

2.3.2 O Filtro de Kalman em Modelos Espa¸co-Temporais

A generaliza¸cão do filtro de Kalman ao contexto espacial é dif´ıcil, pois o espa¸co não tem uma ordem natural e assim, perde-se a atualiza¸cão dinâmica tão importante no filtro de Kalman. Se a componente espacial é utilizada para indexar a componente temporal resulta um filtro de Kalman multivariado de alta dimensão, dependendo da extensão e resolu¸cão da componente no espa¸co.

As disciplinas geof´ısicas adotaram rapidamente o filtro de Kalman tanto na estru-tura puramente temporal como na forma espa¸co-temporal quase duas décadas antes que os estat´ısticos, que come¸caram recentemente a considerar estes processos espa¸co-temporais desde esta perspectiva. Comentando a modelagem espa¸co-temporal com uma abordagem Bayesiana de Handcock e Wallis (1994), Cressie sugeriu que o filtro de Kalman incorporando espa¸co e tempo seria uma forma poderosa de aplicar o paradigma Bayesiano a tais processos. Huang e Cressie (1996) demonstraram uma implementa¸cão completa de um modelo dinâmico espa¸co-temporal usando o filtro de Kalman para a parte temporal, embora utilizando uma simples estrutura separável. O filtro de Kalman espa¸co-temporal (Kriged Kalman Filter) com dimensão reduzida foi detalhado por Mardia et al. (1998). Um modelo dinâmico espa¸co-temporal com-pletamente Bayesiano foi proposto por Wikle et al. (1998). Wikle e Cressie (1999) incorporaram um termo não dinâmico que capta a variabilidade espacial em pequena escala.

2.4 Estima¸c˜

ao de parˆ

ametros em MLDs

Quando as matrizes Ft, Gt, Vt e Wt não são conhecidas não é poss´ıvel aplicar o

filtro de Kalman e em geral a análise estat´ıstica tem que ser feita por métodos numéricos aproximados. Destes vários métodos, tal vez os mais bem sucedidos são os métodos de Monte Carlo via cadeias de Markov (MCMC). Estes envolvem a simula¸cão iterativa das quantidades desconhecidas (parâmetros) do modelo através

(25)

de suas distribui¸c˜oes a posteriori.

Para uma revisão mais detalhada destas técnicas e algumas aplica¸cões sugerimos as seguintes referências: Geman e Geman (1984), Besag et al. (1995), Gelman et al. (1995), Tanner (1996) e Gamerman (1997).

Apresentamos a seguir duas t´ecnicas MCMC: o amostrador de Gibbs e o algo-ritmo de Metropolis-Hastings.

2.4.1 Amostrador de Gibbs

Sejam θF, θG, θV e θW os vetores de parˆametros das matrizes Ft, Gt, Vt e Wt,

res-pectivamente, os quais s˜ao espec´ıficos para cada problema. Podem ser univariados ou multivariados.

Definimos

θ = (θF, θG, θV, θW)

como o vetor de parâmetros do qual queremos obter uma amostra da distribui¸cão a posteriori. O algoritmo requer que as distribui¸cões condicionais completas tenham forma conhecida:

1. Escolha dos valores iniciais:

θ(0)= (θ(0)_F , θ(0)_G, θ(0)_V , θ(0)_W) 2. Amostre θ(1)_F de (θF|θ(0)G, θ (0) V , θ (0) W) 3. Amostre θ(1)_G de (θG|θ(1)F , θ(0)V , θ(0)W) 4. Amostre θ(1)_V de (θV|θ(1)F , θ(1)G, θ(0)W)

(26)

5. Amostre θ(1)_W de (θW|θ(1)F , θ (1) G, θ (1) V )

Repita os passos 2-5 de forma iterativa at´e alcan¸car a convergˆencia da cadeia

θ(0), θ(1), θ(2), . . . .

2.4.2 Algoritmo de Metropolis-Hastings

Se alguma das distribui¸cões condicionais completas não tem forma fechada, é poss´ıvel usar o algoritmo de Metropolis-Hastings (Metropolis et al., 1953), que generaliza o amostrador de Gibbs. Suponha que a condicional completa de θG não tem forma

conhecida. O algoritmo tem os seguintes passos:

1. Amostrar na itera¸cão i um valor candidato θp_G de uma distribui¸cão de proba-bilidade proposta q(θp_G → θi_G) onde θi_Gé o vetor de parâmetros atual.

2. Aceitar o salto a θp_G com probabilidade

A(θi_G, θp_G) = min ( 1,p(θ p G|θF, θV, θW)q(θpG→ θiG) p(θi_G|θF, θV, θW)q(θiG→ θpG) )

3. O passo anterior requer a gera¸cão de um número aleatório uniforme u. Se

u < A(θi_G, θp_G), aceitamos o salto. ´

E poss´ıvel usar este algoritmo como un passo dentro do amostrador de Gibbs.

2.5 Simula¸c˜

ao do vetor de estados

A gera¸c˜ao dos xt independe da forma do modelo, sempre que este seja linear. Seja

x1:T = (x1, . . . , xT) o vetor de estados completo at´e o tempo T . A estima¸c˜ao de x1:T

é realizada através da amostragem iterativa da distribui¸cão a posteriori (x1:T|DT).

(27)

2.5.1 Amostragem posteriori estado por estado

Aplicando o amostrador de Gibbs, a abordagem aparentemente natural é amostrar estado por estado. Uma versão do amostrador de Gibbs propõe o amostragem iterativo das distribui¸cões a posteriori condicionais

p(xt|x(−t), DT)

de maneira seqüencial (t = 1, . . . , T ) e atualizar as variáveis que condicionam com o valor mais recentemente amostrado em cada itera¸cão. Via o teorema de Bayes, obtemos a seguinte fun¸cão de xt

p(xt|x(−t), DT) ∝ p(xt|xt−1, Dt−1)p(xt+1|xt, Dt−1)p(yt|xt, Dt−1) (2.3)

Muitas vezes (2.3) tem forma desconhecida e n˜ao pode ser simulada diretamente, pelo que torna-se preciso o uso do algoritmo de Metropolis-Hastings inclu´ıdo no amostrador de Gibbs. Detalhes sobre o assunto est˜ao em Carlin et al. (1992).

O problema no uso deste método está em que os parâmetros estimados a pos-teriori resultam fortemente correlacionados e existe uma alta autocorrela¸cão entre as realiza¸cões de cada parâmetro. Conseqüentemente, a convergência é lenta, de-vido parcialmente a que cada xt é amostrado condicional aos seus vizinhos. Esta

lentidão constitui uma desvantagem considerável. Portanto, nós não utilizaremos este método.

2.5.2 Forward Filtering Backward Sampling

O algoritmo forward filtering backward sampling (FFBS) foi um dos primeiros mé-todos MCMC desenvolvidos para modelos dinâmicos. A idéia básica, proposta in-dependentemente por Früwirth-Schnatter (1994) e Carter e Kohn (1994) é descrita a seguir.

Dado o modelo dinˆamico {Ft, Gt, Vt, Wt}, desejamos amostrar o conjunto

(28)

Podemos amostrar o vetor x1:T simulando seq¨uencialmente os vetores de estado

seguindo estes passos:

1. Utilizar o filtro de Kalman para encontrar a média e variância das distribui¸cões

p(x1|D1), . . . , p(xT|DT).

2. Gerar um valor de p(xT|DT).

3. Calcular média e variância de p(xT −1|xT, DT). Gerar xT −1 desta distribui¸cão.

4. Calcular recursivamente

p(xT −j|xT −j+1, . . . , xT, DT) = p(xT −j|xT −j+1, DT)

Gerar xT −j desta distribui¸c˜ao.

Dessa forma, cada xtgerado est´a condicionado ao conjunto completo das observa¸c˜oes

DT. O FFBS ´e mais simples de implementar que o amostrador estado por estado.

A principal diferen¸ca é que os estados são gerados todos de uma vez só, tomando vantagem da ordena¸cão do tempo do modelo de espa¸co de estados.

A extensão do algoritmo FFBS a modelos de espa¸co de estados não lineares e não normais não é direta. Para esses modelos, o amostrador de Gibbs resulta muito mais útil. Mas, para modelos de espa¸co de estados lineares e normais o FFBS é superior, pois explora a estrutura condicionalmente linear do modelo. Esta maneira eficiente de gerar o vetor x1:T é a que usamos em nosso algoritmo de estima¸cão.

(29)

Cap´ıtulo 3

Campos Aleat´

orios Markovianos

Gaussianos

3.1 Introdu¸c˜

ao

Neste cap´ıtulo revisamos os modelos espaciais conhecidos como campos aleat´orios Markovianos, especificamente os Gaussianos. Tamb´em recebem o nome de modelos condicionais auto-regressivos (CAR).

Besag (1974), em seu artigo pioneiro de modelos para intera¸cões espaciais, intro-duziu o estudo dos campos aleatórios Markovianos Gaussianos (CAMGs) definidos em grades bidimensionais para dados espacialmente distribu´ıdos. Esta classe de modelos tem sido usada principalmente como modelos na estat´ıstica espacial, ver por exemplo Cressie (1993), Besag e Kooperberg (1995), Wikle et al. (1998) e Cressie e Huang (1999). Extensões do uso dos CAMGs podem ser encontrados em Rue e Tjelmeland (1999) e Dethlefsen (2003).

(30)

3.2 Modelo

Uma grade está definida como um conjunto de regiões espaciais. As grades podem ser regulares ou irregulares. O tipo de variável aleatória associada a cada região pode ser discreta ou cont´ınua. O valor observado pode ser pontual ou representar a área toda da região. Existem muitas situa¸cões em que os campos aleatórios Markovianos podem ser utilizados, nas combina¸cões destas caracter´ısticas. Nós trabalharemos com grades regulares e dados de área.

A informa¸c˜ao sobre o sistema de vizinhan¸ca ´e importante. Define-se

Nk = {l : l ´e vizinho de k}

como o conjunto de vizinhan¸ca Nk de uma regi˜ao k. Esta vizinhan¸ca pode estar

baseada em uma distância euclidiana máxima desta com respeito as outras regiões. Outra forma de definir a vizinhan¸ca Nké agrupar todas as regiões que compartilhem

uma fronteira comum com k. Esta estrutura recebe o nome de vizinhan¸ca de primeira ordem. Isto pode ser estendido para incluir toda a segunda gera¸cão de regiões que compartilhem fronteira com os vizinhos originais da primeira gera¸cão. Esta é chamada de vizinhan¸ca de segunda ordem.

Estaremos concentrados principalmente em campos aleatórios definidos em grades regulares bidimensionais de tamanho n = nl × nc, onde nl e nc são o número de

linhas e de colunas, respectivamente.

Sejam Λ uma grade bidimensional com regiões indexadas pelos inteiros 1, . . . , n e z um campo Gaussiano com média µ e matriz de covariâncias Σ definido na grade Λ. Então zk é o valor do campo Gaussiano na região k, k ∈ {1, . . . , n}.

Uma região k é definida como vizinha da região l se a distribui¸cão condicional de zl, dados todos os outro valores, depende de zk, para k 6= l. Qualquer medida de

probabilidade cujas distribui¸c˜oes condicionais definam uma estrutura de vizinhan¸ca

(31)

De forma reduzida, um campo aleat´orio Markoviano Gaussiano est´a definido como segue:

• Para cada região na posi¸cão k existe um conjunto Nk de regiões vizinhas

(sistema de vizinhan¸ca).

• Para toda região na posi¸cão k, a distribui¸cão condicional de zk dado z−k (o

conjunto de todos os z exceto o k-´esimo) depende s´o dos z’s em Nk, ou seja,

p(zk|z−k) = p(zk|zl, l ∈ Nk).

• O conjunto das distribui¸cões condicionais do ´ıtem anterior determina comple-tamente (sob condi¸cões gerais) a distribui¸cão conjunta de z = (z1, z2, . . . , zn).

A estrutura de correla¸c˜ao de um CAMG pode ser definida pela matriz de precis˜ao

κM = Σ−1 ao invés da matriz de covariâncias Σ, onde κ é um parâmetro de escala. Em particular, no caso dos modelos CAR de Besag a estrutura de M, que tem dimensão (n × n), é (M)k,l =              mk, k = l −gkl, k ∈ Nl 0, caso contrario, (3.1)

onde gkl> 0 ´e uma medida de similaridade entre as regi˜oes k e l, e mk =

P

l∈Nkgkl,

k, l ∈ {1, . . . , n}. Neste caso dos modelos CAR de Besag, M ´e singular e portanto Σ

não existe. Como conseqüência, a distribui¸cão conjunta de z não é própria. Isto não é um problema se estes modelos são utilizados como prioris para campos latentes, por exemplo, em processamento de imagens, porque as posterioris serão próprias (Besag et al., 1995). Mas em nosso caso, precisamos de densidades bem definidas para podermos utilizar CAMGs para construir modelos espa¸co-temporais. Assim, utilizamos CAMGs própios que são uma modifica¸cão dos modelos CAR de Besag.

Em nossa nota¸cão, Z ∼ CAMG(µ, P) significa que a variável Z segue um pro-cesso de campo aleatório Markoviano Gaussiano com vetor de médias µ e matriz

(32)

de precisão P, isto é, a fun¸cão de densidade de Z (ver Rue e Follestad (2003)) é proporcional a p(z) ∝ exp µ −1 2(z − µ) T_{P(z − µ)} ¶ . (3.2)

onde P = κ(αIn + M) difere ligeiramente de (3.1), com κ sendo o parˆametro de

escala; Iné a matriz identidade (n × n); e α > 0 é o parâmetro que controla o grau

de correla¸cão espacial corrigindo a singularidade da matriz M. Com a adi¸cão de α à diagonal de M, a matriz P passa a ser dominada pela diagonal e, por conseqüência, positiva definida (ver Harville (1997)). Se o valor de α é pequeno, a correla¸cão espacial entre regiões do CAMG é forte. Quando α aumenta, esta dependência espacial va diminuindo.

A distribui¸c˜ao condicional de zk dado z−k no modelo CAR tradicional ´e

p(zk|z−k) = N Ã zk | P l∈Nkzlgkl P l∈Nkgkl , κ −1 P l∈Nkgkl ! . (3.3)

A partir da distribui¸c˜ao conjunta em 3.2 podemos escrever

(z − µ)T_{P(z − µ) =} Xn k=1 κ(α + mk)(zk− µ)2− 2 n X k=1 X l∈Nk κgkl(zk− µ)(zl− µ). (3.4)

E para um particular zkencontramos a distribui¸c˜ao condicional da seguinte forma

p(zk|z−k) ∝ exp   −0.5  _{κ(α + m}_k_)(z_k_{− µ)}2 _{− 2} X l∈Nk κgkl(zk− µ)(zl− µ)      = exp   −0.5 [κ(α + mk)]  _(z_k_{− µ)}2_{− 2(z} k− µ) X l∈Nk gkl (α + mk) (zl− µ)      ∝ exp   −0.5 [κ(α + mk)]  _z2 k− 2zk  _{µ +} X l∈Nk gkl (α + mk) (zl− µ)        = exp   −0.5 [κ(α + mk)]  _z2 k− 2zk   αµ α + mk + 1 α + mk X l∈Nk gklzl        zk|z−k ∼ N Ã αµ +P_l∈N_kgklzl α + mk , κ−1_{(α + m} k)−1 ! . (3.5)

Podemos notar que quando α é 0, (3.5) se reduz a (3.4). A média condicional é assim, uma pondera¸cão de µ (média do processo CAMG) e dos valores dos vizinhos da região zk.

(33)

3.3 Exemplo

Supondo um CAMG definido em uma grade regular de tamanho n = nl× nc com a

estrutura de vizinhan¸ca de primeira ordem, ou seja,

Nk= {zk−1, zk+1, zk−nc, zk+nc}

Seja nl = nc = 4, cada regi˜ao identificada pelos n´umeros 1, . . . , n = 16. Neste

caso, considerando que todas as regiões são similares, fixamos gkl = 1. Então mk,

o valor da diagonal principal para cada k, é igual ao número total de vizinhos de cada região. A seguir apresentamos a grade original com suas regiões numeradas e a constru¸cão da matriz M a partir daquela.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 =⇒ M =                      2 −1 0 0 −1 · · · 0 −1 3 −1 0 0 · · · 0 0 −1 3 −1 0 · · · 0 0 0 −1 2 0 · · · 0 −1 0 0 0 3 · · · 0 ... ... ... ... ... ... ... 0 0 0 0 0 · · · 2                      (3.6)

A tabela 3.1 mostra quantos e quais são os vizinhos de cada região. É notório que nem todos têm quatro vizinhos. Estas exce¸cões ocorrem se a região dada k está localizada nos extremos da grade.

3.4 Simula¸c˜

ao de CAMGs

Amostrar de um CAMG é um procedimento direto em teoria pois um CAMG é normal multivariado e assim é poss´ıvel aplicar os bem conhecidos algoritmos gerais.

(34)

Região Número de Regiões Região Número de Regiões

vizinhos vizinhas vizinhos vizinhas

1 2 2,5 9 3 5,10,13 2 3 1,3,6 10 4 6,9,11,14 3 3 2,4,7 11 4 7,10,12,15 4 2 3,8 12 3 8,11,16 5 3 1,6,9 13 2 9,14 6 4 2,5,7,10 14 3 10,13,15 7 4 3,6,8,11 15 3 11,14,16 8 3 4,7,12 16 2 12,15

Tabela 3.1: Estrutura de vizinhan¸ca de primeira ordem para o exemplo da grade regular (4 × 4).

Nenhum destes algoritmos toma vantagem da propriedade Markoviana dos CAMG, então eles são lentos e computacionalmente inconvenientes para problemas de alta dimensão. Outras propostas mais recentes como a de Lavine (1998) usam a pro-priedade Markoviana, mais não são rápidos exceto para casos simples.

Rue (2001) propõe um algoritmo para amostrar de maneira rápida e exata de um CAMG. Supõe-se um CAMG z com média zero e matriz de precisão P. Os passos do algoritmo são os seguintes:

1. Permutar os nós (regiões) da matriz de precisão P para reduzir a amplitude de banda. Esta matriz permutada P∗ _{é a base do algoritmo.}

2. Calcular a fatoriza¸c˜ao de Cholesky desta matriz

P∗ _{= LL}T_,

(35)

Latente

-4 -2 0 2 4

Observado

-4 -2 0 2 4

Figura 3.1: Exemplo dos processos latente e observado em uma grade (48 × 48) com estrutura de vizinhan¸ca de primeira ordem.

3. Seja w um vetor de variáveis normais padrão independentes e note-se por cálculo direto que z definida pela solucão de

LT_{z = w}

tem média zero e matriz de precisão P. Novamente, resolver esta equa¸cão eficientemente é um problema padrão de álgebra linear numérica.

Para referências adicionais e detalhes sobre o algoritmo de simula¸cão ver também Rue (1999).

Na figura 3.1 mostramos um exemplo do campo aleatório Markoviano Gaussiano, gerado usando o algoritmo anterior. O primeiro campo representa uma realiza¸cão do verdadeiro processo (latente) e o segundo representa o mesmo campo com um ru´ıdo adicional (observado). Nós estamos interessados em modelar este tipo de processos e no seguinte cap´ıtulo estaremos apresentando nossos modelos propostos.

(36)

Cap´ıtulo 4

Modelos Espa¸co-Temporais para

Dados de ´

Area

4.1 Introdu¸c˜

ao

Os modelos espa¸co-temporais têm-se tornado cada vez mais relevantes devido aos inúmeros conjuntos de dados espa¸co-temporais dispon´ıveis. Nossa proposta vem contribuir a esta crescente literatura propondo modelos espa¸co-temporais para dados de área. Estes modelos espa¸co-temporais são da classe dos modelos de espa¸co de estados, especificamente, dos modelos lineares dinâmicos multivariados Bayesianos como em West e Harrison (1997), onde os erros são considerados correlacionados espacialmente seguindo processos CAMGs.

Neste cap´ıtulo introduzimos esta nova classe de modelos espa¸co-temporais para dados de área. Na se¸cão 4.2 revisamos algumas outras abordagens para modelar e fazer previsões de processos espa¸co-temporais utilizando modelos de espa¸co de estados, mas para dados espaciais cont´ınuos. Na se¸cão 4.3 estabelecemos a estrutura geral dos modelos que estamos propondo. Nas se¸cões seguintes apresentamos de forma mais detalhada algumas sub-classes desta classe de modelos.

(37)

4.2 Abordagens anteriores

Muitas pesquisas anteriores foram desenvolvidas durante as duas décadas passadas na área dos modelos espa¸co-temporais, algumas delas incluindo métodos geoes-tat´ısticos para dados cont´ınuos dentro de uma estrutura de modelos lineares dinâmicos. Estudamos a seguir, algumas destas propostas.

Filtro de Kalman com Krigagem

Mardia et al. (1998) descrevem o uso do filtro de Kalman com Krigagem que eles chamam de Kriged Kalman filter. A estratégia, baseada no modelo geral de espa¸co de estados espa¸co-temporal, está desenhada para modelar campos espaciais através do tempo. Eles combinam Krigagem para fazer previsão espacial com o filtro de Kalman. Reescrevendo o seu modelo utilizando a nossa nota¸cão, temos:

y(s,t) = FTsxt+ ²(s,t)

xt = Gxt−1+ Kωt

onde y(s,t)´e o campo espacial temporal, expressado como uma combina¸c˜ao linear de

Fs (campos espaciais comuns) e xt (vetor de estados). Os ²(s,t) s˜ao campos

espa¸co-temporais com média zero e matriz de covariâncias Σ². G é a matriz de transi¸cão (n × n). K é a matriz (n × d) de coeficientes do vetor de erros de sistema, ωt, que

tem dimens˜ao (d × 1).

Uma caracter´ıstica deste modelo é a forma separável em dois processos que tem a média FT

sxt, um espacial e outro temporal. A estima¸cão dos parâmetros é feita

pelo método de máxima verossimilhan¸ca e dos campos espaciais pela Krigagem. A atualiza¸cão do vetor de estados e previsão são realizadas utilizando o filtro de Kalman.

(38)

Redu¸c˜

ao da dimens˜

ao usando o filtro de Kalman

espa¸co-temporal

Wikle e Cressie (1999) corrigem a sobre-suaviza¸cão do modelo proposto por Mar-dia et al. (1998), incorporando mais uma equa¸cão e permitindo uma componente espacial não dinâmica. Usando nossa nota¸cão, o seu modelo é

y(s,t) = x(s,t)+ ²(s,t)

x(s,t) = z(s,t)+ ω(s,t)

z(s,t) =

Z

Dws(u)z(u;t−1)du + η(s,t)

onde z(s,t) é a componente dinâmica espa¸co-temporal; ω(s,t) é a componente de

variância (em pequena escala) sem estrutura temporal; η_(s,t) representa uma com-ponente espacialmente ”descritiva”, ou seja, um processo de erros com estrutura espacial; e ws(u) é a fun¸cão que representa a intera¸cão entre z(u,t−1) e z(s,t).

Eles incorporaram a dinâmica temporal na modelagem espa¸co-temporal fazendo previsão do vetor de estados. Para fazer estima¸cão usaram o método dos momentos e uma técnica semelhante à dos componentes principais para reduzir a dimensão do problema.

Existem outras propostas como a de Wikle et al. (2001) que desenvolve um modelo hier´arquico totalmente Bayesiano.

4.3 Estrutura geral dos modelos propostos

O presente trabalho difere das pesquisas anteriores porque modelamos explicita-mente dados de área e usamos campos aleatórios Markovianos Gaussianos para modelar a correla¸cão espacial dos erros.

Considere um conjunto de regiões indexadas pelos inteiros 1, 2, . . . , n, formando uma grade dentro de um dom´ınio geográfico de interesse. Assuma que esta grade está dotada de um sistema de vizinhan¸ca {Nk; k = 1, . . . , n}, onde Nk denota o conjunto

(39)

de regiões que são vizinhas da região k. Para cada tempo t e região s observamos a variável de interesse, yst, s = 1, . . . , n, t = 1, . . . , T . Além disso, denotando o

campo vetorizado observado no tempo t como yt = (y1t, . . . , ynt)0, nosso modelo

espa¸co-temporal ´e

yt = FTtxt+ ²t, ²t∼ CAMG(0, V−1t ), (4.1)

xt = Gtxt−1+ ωt, ωt∼ CAM G(0, W−1t ), (4.2)

onde fazemos a suposi¸cão usual de independência entre as seqüências de erros

²1, . . . , ²T e ω1, . . . , ωT. A interpreta¸c˜ao dos diferentes elementos do modelo ´e

análoga à interpreta¸cão dos modelos lineares dinâmicos tradicionais: xté o processo

espa¸co-temporal latente vetorizado; Ft ´e a matriz que relaciona o processo latente

com as observa¸c˜oes; ²t ´e um vetor de erros espacialmente estruturado no tempo t;

Gt descreve a evolu¸cão do processo espa¸co-temporal latente através do tempo e ωté

um vetor de erros aleatórios com efeitos não só no tempo t mas também nos tempos subseqüentes.

As matrizes Vt e Wt cumprem um papel muito importante descrevendo a

de-pendência espacial do processo nos n´ıveis de observa¸cão e de espa¸co de estados (sistema), respectivamente. Ambas matrizes não necessariamente têm os mesmos hiperparâmetros (parâmetros do CAMG), e estes podem variar no tempo.

O erro observacional ²t´e uma realiza¸c˜ao de um CAMG em uma grade de nllinhas

e nc colunas, com matriz de precis˜ao V−1t de dimens˜ao (n × n), onde n = nl× nc.

Analogamente o erro de sistema ωt´e uma realiza¸c˜ao de um CAMG, com matriz de

precis˜ao W−1t .

4.4 Modelo Polinomial de Primeira Ordem

O modelo polinomial de primeira ordem ´e o modelo espa¸co-temporal mais simples. Em nossa nota¸c˜ao este modelo pode ser escrito como segue:

(40)

yt = xt+ ²t, ²t ∼ CAM G(0, Vt−1) (4.3)

xt = ρxt−1+ ωt, ωt∼ CAMG(0, W−1t )

Aqui temos FT

t = Ine Gt = ρIn, para todo t, onde In´e a matriz identidade de ordem

(n×n). Se ρ está no intervalo (-1, 1), o modelo é estacionário, se ρ = ±1, o modelo é não estacionário. Neste modelo xté interpretado como o n´ıvel do processo no tempo

t. Modelos deste tipo podem ser utilizados para suavizar os dados espa¸co-temporais

observados, de forma análoga à redu¸cão de ru´ıdo no caso da utiliza¸cão de CAMGs na análise de imagens.

As figuras 4.1 e 4.2 são exemplos dos dados observados e do processo latente, gerados utilizando o modelo polinomial de primeira ordem para T = 100 tempos com campos de dimensão (6 × 6). Os parâmetros utilizados para simular este processo foram: α = 0.5, κ = 1, ρ = 0.9 e σ2 _{= 1 (A presen¸ca do parâmetro σ}2 _{será justificada}

no in´ıcio do cap´ıtulo 5).

4.5 Modelo Polinomial de Segunda Ordem

No modelo polinomial de segunda ordem existem dois campos de estados: um deles representando o n´ıvel e o outro representando a velocidade do processo de mudan¸ca do n´ıvel. Tem a seguinte forma

yt = x1t+ ²t, ²t ∼ CAMG(0, Vt−1) (4.4)

x1t = ρ1(x1,t−1+ x2,t−1) + ω1t, ω1t ∼ CAMG(0, W−11t )

x2t = ρ2x2,t−1+ ω2t, ω2t∼ CAMG(0, W−12t )

Reescrevendo o modelo de forma reduzida, temos

yt = FTtxt+ ²t, ²t ∼ CAM G(0, Vt−1)

(41)

onde as matrizes Ft, Gt e W−1t s˜ao FT t = (In, 0n), Gt=    ρ1In ρ1In 0n ρ2In    e W−1_t =    W −1 1t 0n 0n W−12t   .

Os parˆametros ρ1 e ρ2 nas equa¸c˜oes de n´ıvel e velocidade de mudan¸ca fazem, de

maneira análoga ao modelo polinomial de primeira ordem, que se algum ρ é igual a 1 temos que alguma das equa¸cões é não estacionária. Os xkt, (k = 1, 2) evoluem

segundo um CAMG com matrizes de precis˜ao W−1

1t e W2t−1, respectivamente.

Apresentamos dados simulados deste modelo na figura 4.3. O processo simula-do que representa o n´ıvel está na figura 4.4 e o processo latente simulasimula-do para a velocidade de mudan¸ca está representado em 4.5, para T = 70 tempos com campos de dimensão (6 × 6). Os parâmetros utilizados para gerar deste processo foram os seguintes: σ2 _{= 1, α}

1 = 0.5, κ1 = 1, ρ1 = 1, α2 = 1, κ2 = 9 e ρ2 = 1.

4.6 Modelo de Contamina¸c˜

ao

O modelo de contamina¸cão pode ser utilizado para modelar processos epidêmicos. Chamamos este modelo desta forma, porque esperamos que um incremento não usual no valor medido em uma determinada região (por exemplo, número de casos ou o risco de uma doen¸ca) se estenderá às regiões vizinhas, nos tempos seguintes. Este modelo tem a seguinte forma:

yt = xt+ ²t, ²t∼ CAM G(0, V−1t ) (4.5) xt = Gtxt−1+ ωt, ωt∼ CAMG(0, Wt−1) Aqui, Ft = In e Gt = ρ (1 + βh)H, onde (H)kl=              1, k = l, β, k ∈ Nl, 0, caso contr´ario,

(42)

onde β ∈ (0, 1) pode ser considerado como um ´ındice de contamina¸cão, h é o número máximo de vizinhos de todas as regiões na grade e ρ ∈ (0, 1) é um parâmetro que mede a persistência temporal. Podemos notar que a matriz H tem uma estrutura semelhante à matriz M em (3.1) para conservar as intera¸cões entre regiões vizinhas. Mostramos nas figuras 4.6 e 4.7 dados observados e o processo latente simula-dos utilizando o modelo de contamina¸cão, para T = 100 tempos com campos de dimensão (6 × 6). Os parâmetros utilizados para gerar deste processo foram os seguintes: α = 0.5, κ = 1, ρ = 0.9, σ2 _{= 1 e β = 0.9.}

4.7 Modelo com Sazonalidade

Neste modelo é inclu´ıdo um termo de sazonalidade na equa¸cão de observa¸cão e a sazonalidade é modelada como em Harvey (1989). O modelo fica da seguinte forma:

yt = xt+ st+ ²t, ²t ∼ CAMG(0, V−1t ) (4.6)

xt = ρxt−1+ ωt, ωt ∼ CAM G(0, W−1t )

st = −(st−1+ . . . + st−p+1) + νt, νt∼ CAMG(0, Z−1t )

onde p é a periodicidade dos dados. Por exemplo, p = 4 se os dados são trimestrais ou p = 12 se os dados são mensais. A sazonalidade evolui restrita à soma das componentes sazonais de p tempos passados mais um erro que segue um CAMG com matriz de precisão Z−1t = κ2(M + α2In).

Apresentamos um processo simulado utilizando este modelo com os seguintes parˆametros: σ2 _{= 1, α}

1 = 0.5, κ1 = 1, ρ = 0.9, α2 = 0.5 e κ2 = 1. Na figura

4.8 estão os dados observados simulados. O processo latente está na figura 4.9 e a sazonalidade está representada na figura 4.10. Utilizamos para esta simula¸cão uma periodicidade p = 4.

(43)

1 -6 -4-2 0 2 4 6 5 -6 -4-2 0 2 4 6 9 -6 -4-2 0 2 4 6 13 -6 -4-2 0 2 4 6 17 -6 -4-2 0 2 4 6 21 -6 -4-2 0 2 4 6 25 -6 -4-2 0 2 4 6 29 -6 -4-2 0 2 4 6 33 -6 -4-2 0 2 4 6 37 -6 -4-2 0 2 4 6 41 -6 -4-2 0 2 4 6 45 -6 -4-2 0 2 4 6 49 -6 -4-2 0 2 4 6 53 -6 -4-2 0 2 4 6 57 -6 -4-2 0 2 4 6 61 -6 -4-2 0 2 4 6 65 -6 -4-2 0 2 4 6 70 -6 -4-2 0 2 4 6 75 -6 -4-2 0 2 4 6 80 -6 -4-2 0 2 4 6 85 -6 -4-2 0 2 4 6 90 -6 -4-2 0 2 4 6 95 -6 -4-2 0 2 4 6 100 -6 -4-2 0 2 4 6

Figura 4.1: Dados observados simulados (y_t) utilizando o modelo polinomial de primeira ordem para 100 tempos em campos de tamanho (6×6). Utilizamos

(44)

1 -6 -4-2 0 2 4 6 5 -6 -4-2 0 2 4 6 9 -6 -4-2 0 2 4 6 13 -6 -4-2 0 2 4 6 17 -6 -4-2 0 2 4 6 21 -6 -4-2 0 2 4 6 25 -6 -4-2 0 2 4 6 29 -6 -4-2 0 2 4 6 33 -6 -4-2 0 2 4 6 37 -6 -4-2 0 2 4 6 41 -6 -4-2 0 2 4 6 45 -6 -4-2 0 2 4 6 49 -6 -4-2 0 2 4 6 53 -6 -4-2 0 2 4 6 57 -6 -4-2 0 2 4 6 61 -6 -4-2 0 2 4 6 65 -6 -4-2 0 2 4 6 70 -6 -4-2 0 2 4 6 75 -6 -4-2 0 2 4 6 80 -6 -4-2 0 2 4 6 85 -6 -4-2 0 2 4 6 90 -6 -4-2 0 2 4 6 95 -6 -4-2 0 2 4 6 100 -6 -4-2 0 2 4 6

Figura 4.2: Processo latente simulado (xt) utilizando o modelo polinomial de

primeira ordem para 100 tempos em campos de tamanho (6 × 6). Utilizamos

(45)

1 -150 -50 0 50 4 -150 -50 0 50 7 -150 -50 0 50 10 -150 -50 0 50 13 -150 -50 0 50 16 -150 -50 0 50 19 -150 -50 0 50 22 -150 -50 0 50 25 -150 -50 0 50 28 -150 -50 0 50 31 -150 -50 0 50 34 -150 -50 0 50 37 -150 -50 0 50 40 -150 -50 0 50 43 -150 -50 0 50 46 -150 -50 0 50 49 -150 -50 0 50 52 -150 -50 0 50 55 -150 -50 0 50 58 -150 -50 0 50 61 -150 -50 0 50 64 -150 -50 0 50 67 -150 -50 0 50 70 -150 -50 0 50

Figura 4.3: Dados observados simulados (y_t) utilizando o modelo polinomial de segunda ordem para 70 tempos em campos de tamanho (6 × 6). Utilizamos

(46)

1 -150 -50 0 50 4 -150 -50 0 50 7 -150 -50 0 50 10 -150 -50 0 50 13 -150 -50 0 50 16 -150 -50 0 50 19 -150 -50 0 50 22 -150 -50 0 50 25 -150 -50 0 50 28 -150 -50 0 50 31 -150 -50 0 50 34 -150 -50 0 50 37 -150 -50 0 50 40 -150 -50 0 50 43 -150 -50 0 50 46 -150 -50 0 50 49 -150 -50 0 50 52 -150 -50 0 50 55 -150 -50 0 50 58 -150 -50 0 50 61 -150 -50 0 50 64 -150 -50 0 50 67 -150 -50 0 50 70 -150 -50 0 50

Figura 4.4: Processo latente simulado para o n´ıvel (x1t) utilizando o modelo

polinomial de segunda ordem para 70 tempos em campos de tamanho (6 × 6). Utilizamos α1 = 0.5, κ1 = 1 e ρ1 = 1.

(47)

1 -4-3 -2 -1 0 1 2 4 -4 -3-2 -1 0 1 2 7 -4 -3 -2-1 0 1 2 10 -4-3 -2 -1 0 1 2 13 -4-3 -2 -1 0 1 2 16 -4 -3-2 -1 0 1 2 19 -4 -3 -2-1 0 1 2 22 -4-3 -2 -1 0 1 2 25 -4-3 -2 -1 0 1 2 28 -4 -3-2 -1 0 1 2 31 -4 -3 -2-1 0 1 2 34 -4-3 -2 -1 0 1 2 37 -4-3 -2 -1 0 1 2 40 -4 -3-2 -1 0 1 2 43 -4 -3 -2-1 0 1 2 46 -4-3 -2 -1 0 1 2 49 -4-3 -2 -1 0 1 2 52 -4 -3-2 -1 0 1 2 55 -4 -3 -2-1 0 1 2 58 -4-3 -2 -1 0 1 2 61 -4-3 -2 -1 0 1 2 64 -4 -3-2 -1 0 1 2 67 -4 -3 -2-1 0 1 2 70 -4-3 -2 -1 0 1 2

Figura 4.5: Processo latente simulado para a velocidade da mudan¸ca (x_2t) utilizando o modelo polinomial de segunda ordem para 70 tempos em campos de tamanho (6 × 6). Utilizamos α₂ = 1, κ₂ = 9 e ρ₂ = 1.

(48)

1 -4 -2 0 2 4 6 10 -4 -2 0 2 4 6 15 -4 -2 0 2 4 6 20 -4 -2 0 2 4 6 30 -4 -2 0 2 4 6 31 -4 -2 0 2 4 6 32 -4 -2 0 2 4 6 33 -4 -2 0 2 4 6 35 -4 -2 0 2 4 6 40 -4 -2 0 2 4 6 45 -4 -2 0 2 4 6 50 -4 -2 0 2 4 6 51 -4 -2 0 2 4 6 55 -4 -2 0 2 4 6 60 -4 -2 0 2 4 6 65 -4 -2 0 2 4 6 70 -4 -2 0 2 4 6 75 -4 -2 0 2 4 6 80 -4 -2 0 2 4 6 85 -4 -2 0 2 4 6 90 -4 -2 0 2 4 6 95 -4 -2 0 2 4 6 99 -4 -2 0 2 4 6 100 -4 -2 0 2 4 6

Figura 4.6: Dados observados simulados (y_t) utilizando o modelo de conta-mina¸cão com perturba¸cão exógena para 100 tempos em campos de tamanho (6 × 6). Utilizamos σ2 _{= 1.}

(49)

1 -4 -2 0 2 4 6 10 -4 -2 0 2 4 6 15 -4 -2 0 2 4 6 20 -4 -2 0 2 4 6 30 -4 -2 0 2 4 6 31 -4 -2 0 2 4 6 32 -4 -2 0 2 4 6 33 -4 -2 0 2 4 6 35 -4 -2 0 2 4 6 40 -4 -2 0 2 4 6 45 -4 -2 0 2 4 6 50 -4 -2 0 2 4 6 51 -4 -2 0 2 4 6 55 -4 -2 0 2 4 6 60 -4 -2 0 2 4 6 65 -4 -2 0 2 4 6 70 -4 -2 0 2 4 6 75 -4 -2 0 2 4 6 80 -4 -2 0 2 4 6 85 -4 -2 0 2 4 6 90 -4 -2 0 2 4 6 95 -4 -2 0 2 4 6 99 -4 -2 0 2 4 6 100 -4 -2 0 2 4 6

Figura 4.7: Processo latente simulado (x_t) utilizando o modelo de conta-mina¸cão com perturba¸cão exógena para 100 tempos em campos de tamanho (6 × 6). Utilizamos α = 0.5, κ = 1, ρ = 0.9 e β = 0.9.

(50)

1 -20 -10 0 10 20 2 -20 -10 0 10 20 3 -20 -10 0 10 20 4 -20 -10 0 10 20 21 -20 -10 0 10 20 22 -20 -10 0 10 20 23 -20 -10 0 10 20 24 -20 -10 0 10 20 41 -20 -10 0 10 20 42 -20 -10 0 10 20 43 -20 -10 0 10 20 44 -20 -10 0 10 20 61 -20 -10 0 10 20 62 -20 -10 0 10 20 63 -20 -10 0 10 20 64 -20 -10 0 10 20 81 -20 -10 0 10 20 82 -20 -10 0 10 20 83 -20 -10 0 10 20 84 -20 -10 0 10 20 97 -20 -10 0 10 20 98 -20 -10 0 10 20 99 -20 -10 0 10 20 100 -20 -10 0 10 20

Figura 4.8: Dados observados simulados (yt) utilizando o modelo com

(51)

1 -20 -10 0 10 20 2 -20 -10 0 10 20 3 -20 -10 0 10 20 4 -20 -10 0 10 20 21 -20 -10 0 10 20 22 -20 -10 0 10 20 23 -20 -10 0 10 20 24 -20 -10 0 10 20 41 -20 -10 0 10 20 42 -20 -10 0 10 20 43 -20 -10 0 10 20 44 -20 -10 0 10 20 61 -20 -10 0 10 20 62 -20 -10 0 10 20 63 -20 -10 0 10 20 64 -20 -10 0 10 20 81 -20 -10 0 10 20 82 -20 -10 0 10 20 83 -20 -10 0 10 20 84 -20 -10 0 10 20 97 -20 -10 0 10 20 98 -20 -10 0 10 20 99 -20 -10 0 10 20 100 -20 -10 0 10 20

Figura 4.9: Processo latente simulado (xt) utilizando o modelo com

sazona-lidade para 100 tempos em campos de tamanho (6 × 6). Utilizamos α1 = 0.5,

(52)

1 -20 -10 0 10 20 2 -20 -10 0 10 20 3 -20 -10 0 10 20 4 -20 -10 0 10 20 21 -20 -10 0 10 20 22 -20 -10 0 10 20 23 -20 -10 0 10 20 24 -20 -10 0 10 20 41 -20 -10 0 10 20 42 -20 -10 0 10 20 43 -20 -10 0 10 20 44 -20 -10 0 10 20 61 -20 -10 0 10 20 62 -20 -10 0 10 20 63 -20 -10 0 10 20 64 -20 -10 0 10 20 81 -20 -10 0 10 20 82 -20 -10 0 10 20 83 -20 -10 0 10 20 84 -20 -10 0 10 20 97 -20 -10 0 10 20 98 -20 -10 0 10 20 99 -20 -10 0 10 20 100 -20 -10 0 10 20

Figura 4.10: Processo sazonal simulado (st) utilizando uma periodicidade

p = 4 para 100 tempos em campos de tamanho (6 × 6). Utilizamos α2 = 0.5

(53)

Cap´ıtulo 5

Inferˆ

encia Bayesiana nos Modelos

Espa¸co-Temporais

5.1 Introdu¸c˜

ao

Neste cap´ıtulo apresentamos a inferência para os parâmetros da nova classe de mo-delos espa¸co-temporais utilizando técnicas eficientes de Monte Carlo via cadeias de Markov que incorporam recentes avan¸cos em simula¸cão e análise Bayesiana objetiva de campos aleatórios Markovianos Gaussianos. A gera¸cão do vetor de estados é rea-lizada pelo algoritmo forward filtering backward sampling sugerido simultaneamente por Früwirth-Schnatter (1994) e Carter e Kohn (1994).

Já vimos que os erros da equa¸cão de observa¸cão seguem um processo de campo aleatório Markoviano Gaussiano com vetor de médias 0 e matriz de precisão V−1

t ,

ou seja, tˆem distribui¸c˜ao ²t ∼ CAMG(0, Vt−1). Consideramos por simplicidade que

CAM G(0, V−1

t ) = N(0, σ2In)

onde agora os erros ²t tˆem uma distribui¸c˜ao normal multivariada com vetor de

médias 0 e matriz variância-covariância diagonal σ2_I

n, onde In´e a matriz identidade

(54)

Na se¸cão seguinte tratamos a estima¸cão para o modelo polinomial de primeira ordem. A estima¸cão para o modelo polinomial de segunda ordem é visto na se¸cão 5.3. Finalmente, a estima¸cão dos parâmetros do modelo de contamina¸cão é apresentada na se¸cão 5.4. Em cada uma das se¸cões determinamos as distribui¸cões a priori que usaremos e como fazer a inferência a posteriori, além dos passos a seguir para fazer a estima¸cão do processo latente vetorizado.

5.2 Estima¸c˜

ao no modelo Polinomial de Primeira

Ordem

Lembrando da forma do modelo polinomial de primeira ordem, onde agora os erros de observa¸c˜ao s˜ao independentes

yt = xt+ ²t, ²t ∼ N(0, σ2In)

xt = ρxt−1+ ωt, ωt∼ CAMG(0, W−1t )

A matriz de precis˜ao W−1t est´a definida como segue

W−1

t = κ(αIn+ M)

onde M é a matriz que possui a estrutura de vizinhan¸ca de primeira ordem, é simétrica e singular.

Os parˆametros a serem estimados s˜ao (σ2_{, ρ, α, κ), o processo latente e um vetor}

inicial x0.

5.2.1 Especifica¸c˜

ao das Prioris

Em geral, a estima¸cão dos parâmetros α e κ da matriz de precisão W−1t é

com-plicada, principalmente de α que mede o grau de dependência espacial. As dis-tribui¸cões a priori que consideramos são as seguintes: Uma gama inversa para σ2_,