• Nenhum resultado encontrado

Modelos com Coeficientes Dinâmicos variando no Espaço para Dados na Família Exponencial

N/A
N/A
Protected

Academic year: 2021

Share "Modelos com Coeficientes Dinâmicos variando no Espaço para Dados na Família Exponencial"

Copied!
99
0
0

Texto

(1)

Modelos com Coeficientes Dinˆ

amicos

Variando no Espa¸

co para Dados da Fam´ılia

Exponencial

por

N´ıcia Cust´

odio Hansen

DME - IM - UFRJ

2009

(2)

Modelos com Coeficientes Dinˆ

amicos

Variando no Espa¸

co para Dados da Fam´ılia

Exponencial

N´ıcia Cust´

odio Hansen

Disserta¸c˜ao submetida ao Corpo Docente do Instituto de Matem´atica - Departamento de M´etodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do grau de Mestre em Estat´ıstica.

Aprovada por:

Prof. Fl´avia M. P. F. Landim. PhD - IM - UFRJ - Orientadora.

Prof. Marina Silva Paez. PhD - IM - UFRJ - Orientadora.

Prof. Dani Gamerman. PhD - IM - UFRJ.

Prof. Mariane Branco Alves. PhD - DE - UERJ.

Rio de Janeiro, RJ - Brasil 2009

(3)

FICHA CATALOGR ´AFICA

Hansen, N´ıcia Cust´odio.

Modelos com Coeficientes Dinˆamicos Variando no Espa¸co para Dados da Fam´ılia Exponencial \

N´ıcia Cust´odio Hansen.

Rio de Janeiro: UFRJ, IM, DME, 2009.

Disserta¸c˜ao - Universidade Federal do Rio de Janeiro, IM, DME. 1. Introdu¸c˜ao. 2. Revis˜ao de Literatura.

3. Modelos com Coeficientes Dinˆamicos Variando no Espa¸co para Dados da Fam´ılia Exponencial. 4. Estudos Simulados. 5. Aplica¸c˜ao. 6. Conclus˜oes.

(Mestrado-UFRJ/IM/DME) I. Landim, Fl´avia

(4)
(5)

“Tu te tornas eternamente respons´avel por aquilo que cativas”. Antoine de Saint-Exup´ery.

(6)

Agradecimentos

A Deus, por me dar sa´ude e condi¸c˜oes de chegar at´e aqui.

Ao meu marido F´abio por ser uma pessoa fant´astica, pela compreens˜ao, apoio e paciˆencia t˜ao importantes para mim. Agrade¸co por estar sempre ao meu lado e por me ajudar em todos os momentos.

Aos meus pais Sueli e Idelanir e `a minha irm˜a Tainˆe por todo apoio e incentivo fun-damentais para mais esta etapa da minha vida.

`

As minha orientadoras Fl´avia e Marina pela orienta¸c˜ao, dedica¸c˜ao e competˆencia. Agrade¸co tamb´em aos demais professores do departamento que tenham contribu´ıdo de alguma forma para minha forma¸c˜ao e ao CNPQ por ter financiado meus estudos durante o per´ıodo do Mestrado.

`

As minhas amigas da turma de Mestrado de 2007: Denise, Josiane, Mariana, Patr´ıcia e Vera, e aos meus outros amigos do departamento: Alexandre, Jo˜ao, Targino, Valm´aria e Vin´ıcius. Nunca me esquecerei dos nossos caf´es. Muito obrigada pela amizade e pelos momentos divertidos.

(7)

Resumo

O objetivo principal deste trabalho ´e propor uma classe de modelos hier´arquicos para tratar dados da fam´ılia exponencial observados em tempo discreto e espa¸co cont´ınuo, em que os coeficientes de regress˜ao variam suavemente no tempo e no espa¸co. Este tipo de modelo pode ser utilizado em situa¸c˜oes em que o efeito de um ou mais processos explicativos na vari´avel resposta apresenta uma heterogeneidade substancial em ambas dimens˜oes. Uma motiva¸c˜ao para este estudo ´e o fato de que modelos espa¸co-temporais tˆem sido muito utilizados nas ´ultimas d´ecadas, principalmente com conjuntos de da-dos ambientais, pois esse tipo de dado tem, em geral, transi¸c˜oes suaves no tempo e no espa¸co. Em geral, entretanto, assume-se que esses dados tˆem distribui¸c˜ao normal, o que muitas vezes n˜ao ´e uma hip´otese realista. Descrevemos como fazer inferˆencia, previs˜ao e interpola¸c˜ao espacial para esta classe de modelos utilizando t´ecnicas de simula¸c˜ao. A per-formance do algoritmo para estimar os parˆametros do modelo e a previs˜ao para um tempo fixo ´e investigada atrav´es de conjuntos de dados simulados. A metodologia proposta ´e utilizada para modelar m´edias anuais de quantidade de chuva em v´arias localiza¸c˜oes da Austr´alia.

Palavras Chaves: Dados exponenciais; Modelos dinˆamicos; Modelos espa¸co-temporais; Estat´ıstica Bayesiana; M´etodos de Monte Carlo .

(8)

Abstract

The main objective of this work is to propose a class of hierarchical models to handle data from exponential family observed in discrete time and space continuum, where the regression coefficients vary smoothly in time and space. This kind of model is particu-larly appealing in situations where the effect of one or more explanatory processes on the response present substantial heterogeneity in both dimensions. One motivation for this study is the fact that space-time models have been used in recent decades, particularly with environmental data sets, because this type of data has in general smooth transitions in time and space. It is usual, however, to assume that the data has normal distribu-tion, which is often not a realistic assumption. We describe how to perform inference, forecasting in time and interpolation in space for this class of models using simulation techniques. The performance of the algorithm to estimate the parameters of the model and to perform prediction in time is investigated with simulated data sets. The proposed methodology is used to model average annual amount of rain in several locations in Aus-tralia.

Keywords: Exponential data; Dynamic models; Spatial-temporal models; Bayesian statis-tics; Monte Carlo methods.

(9)

Sum´

ario

1 Introdu¸c˜ao 1

2 Revis˜ao de Literatura 3

2.1 No¸c˜oes de Inferˆencia Bayesiana . . . 3

2.1.1 Teorema de Bayes . . . 4

2.1.2 Estima¸c˜ao de Parˆametros . . . 4

2.2 Modelos Dinˆamicos Lineares Normais . . . 6

2.2.1 Modelo Polinomial de Primeira Ordem . . . 7

2.2.2 Modelo Polinomial de Segunda Ordem . . . 7

2.2.3 Inferˆencia nos Modelos Dinˆamicos Lineares . . . 8

2.2.4 Previs˜ao no Tempo . . . 9

2.3 Modelos Dinˆamicos Generalizados . . . 10

2.3.1 Fam´ılia Exponencial . . . 10

2.3.2 Estrutura Geral do Modelo . . . 12

2.3.3 Inferˆencia nos Modelos Dinˆamicos Lineares Generalizados . . . 13

2.3.4 Previs˜ao no Tempo . . . 15

2.4 Modelagem de Estruturas Espaciais . . . 16

2.4.1 Tipos de Dados Espaciais . . . 16

2.4.2 Modelos Geoestat´ısticos: Modelos para Dados Cont´ınuos . . . 17

2.5 Monte Carlo via Cadeias de Markov (MCMC) . . . 20

2.5.1 Amostrador de Gibbs . . . 20

2.5.2 Algoritmo de Metropolis-Hastings . . . 21

(10)

3 Modelos com Coeficientes Dinˆamicos Variando no Espa¸co para Dados da Fam´ılia Exponencial 27 3.1 Modelo Geral . . . 28 3.2 Distribui¸c˜ao Poisson . . . 29 3.2.1 Modelo 1 . . . 29 3.2.2 Modelo 2 . . . 38 3.3 Distribui¸c˜ao Gama . . . 41 3.3.1 Modelo 1 . . . 41 3.3.2 Modelo 2 . . . 46 4 Estudos Simulados 49 4.1 Distribui¸c˜ao Poisson . . . 50 4.1.1 Modelo 1 . . . 50 4.1.2 Modelo 2 . . . 55 4.2 Dsitribui¸c˜ao Gama . . . 59 4.2.1 Modelo 1 . . . 59 4.2.2 Modelo 2 . . . 63 5 Aplica¸c˜ao 67 6 Conclus˜oes 78

(11)

Cap´ıtulo 1

Introdu¸

ao

A modelagem de conjuntos de dados ambientais tem sido o objetivo de v´arias pesquisas em estat´ıstica nas ´ultimas d´ecadas. Particularmente, modelos espa¸co-temporais tˆem sido utilizados para modelar esse tipo de dado, considerando o fato de que processos ambien-tais tem, em geral, transi¸c˜oes suaves no tempo e no espa¸co.

Este trabalho tem como objetivo principal propor uma classe de modelos hier´arquicos para tratar dados da fam´ılia exponencial observados em tempo discreto e espa¸co cont´ınuo, em que os coeficientes de regress˜ao variam suavemente no tempo e no espa¸co. Os mode-los s˜ao formulados com transi¸c˜oes dinˆamicas no tempo, ou seja, apresentamos aqui uma classe de modelos dinˆamicos para dados espa¸co-temporais.

Gamerman e Migon (1993) propuseram modelos dinˆamicos hier´arquicos para respos-tas univariadas restringindo as variˆancias do modelo a um fator de escala comum. Landim (1998) apresentou uma classe de modelos dinˆamicos hier´arquicos para observa¸c˜oes matriz-variadas. Paez et al. (2008) exploraram a mesma ideia de Landim (1998), por´em apresen-tando uma estrutura param´etrica que leva em considera¸c˜ao a correla¸c˜ao espacial entre as observa¸c˜oes feitas em diferentes locais do espa¸co e especificando uma matriz espa-cialmente estruturada com um n´umero pequeno de parˆametros. Com esta restri¸c˜ao, a correla¸c˜ao espacial pode ser capturada sem a necessidade de estimar matrizes de co-variˆancias completamente desconhecidas. Tamb´em em Paez et al., interceptos e

(12)

coefi-cientes de regress˜ao podem variar no espa¸co e no tempo. Todos os trabalhos citados acima trataram de dados normalmente distribu´ıdos. Estendendo a ideia de Paez et al. (2008) trataremos de dados univariados pertencentes `a fam´ılia exponencial.

Neste trabalho utilizamos uma abordagem Bayesiana para fazer inferˆencia param´etrica e assim previs˜oes podem ser feitas naturalmente baseadas na descri¸c˜ao probabil´ıstica do modelo. A inferˆencia ´e realizada atrav´es da estima¸c˜ao da distribui¸c˜ao a posteriori dos parˆametros do modelo utilizando m´etodos de MCMC (Gamerman e Lopes (2006)).

O trabalho est´a organizado da seguinte maneira: no cap´ıtulo 2 apresentamos uma revis˜ao de alguns conceitos que ser˜ao abordados. No cap´ıtulo 3 ´e feita a descri¸c˜ao do modelo aqui proposto, apresentamos resultados da inferˆencia para os parˆametros des-conhecidos assim como o algoritmo utilizado para gerar amostras das distribui¸c˜oes a posteriori. No cap´ıtulo 4 temos resultados de dois exemplos de aplica¸c˜ao do modelo com dados simulados. No primeiro caso geramos dados de contagem com distribui¸c˜ao Poisson, e no segundo caso o modelo foi aplicado a dados gerados da distribui¸c˜ao Gama. Na se¸c˜ao 5 apresentamos os resultados da aplica¸c˜ao do modelo a m´edias anuais de quantidade de chuva em algumas esta¸c˜oes de monitoramento da Austr´alia e, finalmente, algumas considera¸c˜oes com base nos resultados obtidos s˜ao feitas no cap´ıtulo 6.

(13)

Cap´ıtulo 2

Revis˜

ao de Literatura

No presente cap´ıtulo fazemos uma revis˜ao de alguns conceitos que ser˜ao abordados ao longo deste trabalho: apresentamos os principais fundamentos da inferˆencia sob o enfoque Bayesiano, definimos o modelo dinˆamico linear normal e o modelo dinˆamico li-near generalizado e discutimos suas principais propriedades. Apresentamos tamb´em uma introdu¸c˜ao `a modelagem espa¸co-temporal, assim como alguns modelos espa¸co-temporais comumente encontrados na literatura. Por fim, apresentamos os m´etodos MCMC mais utilizados e algumas t´ecnicas de diagn´osticos de convergˆencia.

2.1

No¸

oes de Inferˆ

encia Bayesiana

A inferˆencia estat´ıstica tem como objetivo tirar conclus˜oes, a partir de um conjunto de dados, a respeito de quantidades n˜ao observadas.

As conclus˜oes obtidas atrav´es da inferˆencia Bayesiana a respeito de um determinado parˆametro θ, ou dado n˜ao observado eY , s˜ao baseadas em especifica¸c˜oes probabil´ısticas. Tais especifica¸c˜oes geralmente s˜ao feitas condicionalmente a uma amostra de valores ob-servados, relacionados de alguma forma com as quantidades de interesse.

A distribui¸c˜ao a priori ´e a ´unica novidade introduzida pela an´alise Bayesiana em rela¸c˜ao `a frequentista, al´em da forma de interpretar probabilidades. Essa distribui¸c˜ao

(14)

representa o conhecimento a respeito do valor que o parˆametro θ assume antes de se obter o resultado do experimento.

2.1.1

Teorema de Bayes

Gamerman e Migon (1999) enunciam o teorema de Bayes da seguinte forma: seja H a informa¸c˜ao dispon´ıvel inicialmente para alguma quantidade de interesse. Seja θ o vetor de parˆametros desconhecidos, que pode assumir valores em Θ. Supondo que a informa¸c˜ao inicial pode ser expressa em termos probabil´ısticos p (θ|H), temos uma descri¸c˜ao com-pleta da incerteza a respeito de θ.

Se a informa¸c˜ao contida em H n˜ao for suficiente e for poss´ıvel observar uma amostra x de um vetor aleat´orio X relacionado com θ, pode-se atualizar a informa¸c˜ao dispon´ıvel para fazer inferˆencia a respeito de θ, que passar´a a ser H∗ = H ∪ {X = x}. Conhecendo a distribui¸c˜ao amostral de X, dada por p (X|θ, H), temos que:

p (θ|H∗) = p (θ|x, H) = p (θ, x|H) p (x|H) = p (x|θ, H) p (θ|H) p (x|H) em que p (x|H) = Z θ p (x, θ|H) dθ.

Esse resultado ´e conhecido como teorema de Bayes e gera uma regra para atualizar probabilidades a respeito de θ, come¸cando em p (θ|H) e levando a p (θ|x, H).

2.1.2

Estima¸

ao de Parˆ

ametros

Um dos principais problemas tratados pela inferˆencia estat´ıstica ´e a da estima¸c˜ao de parˆametros. V´arios estimadores j´a foram propostos satisfazendo propriedades desej´aveis.

(15)

Estima¸c˜ao Pontual

No contexto estat´ıstico, a escolha de uma estimativa para um determinado parˆametro θ, que chamaremos de ˆθ, ´e uma decis˜ao a ser tomada. Gamerman e Migon (1999) especificam um problema de decis˜ao atrav´es da descri¸c˜ao de trˆes espa¸cos:

• espa¸co de parˆametros Θ;

• espa¸co de resultados poss´ıveis de um experimento Ω; • espa¸co de poss´ıveis a¸c˜oes A.

Uma regra de decis˜ao δ ´e uma fun¸c˜ao definida em Ω com valores em A, tal que δ : Ω → A. A fun¸c˜ao de perda deve estar associada a cada decis˜ao δ(x) e cada poss´ıvel valor de θ ∈ Θ, e pode ser interpretada como a puni¸c˜ao por tomar a decis˜ao δ quando θ ´

e o verdadeiro valor do parˆametro. Essa fun¸c˜ao ser´a denotada por L(δ, θ).

O risco associado a uma regra de decis˜ao, denotado por R(δ), ´e a perda esperada a posteriori, dada por R(δ) = Eθ|x[(δ, θ)]. Um estimador ´e uma regra de decis˜ao

´

otima com respeito a uma dada fun¸c˜ao de perda. As principais fun¸c˜oes de perda s˜ao a perda quadr´atica, definida por L1(δ, θ) = (δ − θ)2, a perda absoluta, definida por

L2(δ, θ) = |δ − θ| e a perda zero-um, definida por L3(δ, θ) = lim→0I|θ−δ|([, ∞]), em que

Ix(A) ´e a fun¸c˜ao que assume o valor 1 se x ∈ A e 0, caso contr´ario.

Os estimadores associados `as perdas quadr´atica, absoluta e zero-um, s˜ao a m´edia, a mediana e a moda a posteriori, respectivamente.

Estima¸c˜ao por Intervalo

Um inconveniente da estima¸c˜ao pontual ´e que ela n˜ao nos informa sobre a precis˜ao da estimativa, e restringe toda informa¸c˜ao presente na distribui¸c˜ao a posteriori a um ´unico resultado. Uma forma de contornar este problema ´e atrav´es do c´alculo de intervalos de

(16)

credibilidade.

Os intervalos de credibilidade Bayesianos, ao contr´ario dos intervalos de confian¸ca frequentistas, s˜ao calculados de forma natural atrav´es da distribui¸c˜ao a posteriori do parˆametro em quest˜ao.

Suponha que θ seja um parˆametro desconhecido que pode assumir valores em Θ. Uma regi˜ao C ⊂ Θ ´e dita um intervalo de credibilidade Bayesiano 100(1 − α)% para θ se p (θ ∈ C|x) ≥ 1 − α. Nesse caso, 1 − α ´e chamado de n´ıvel de credibilidade.

2.2

Modelos Dinˆ

amicos Lineares Normais

Os modelos dinˆamicos lineares (MDL) foram introduzidos por Harrison e Stevens (1976) e est˜ao bem documentados em West e Harrison (1997). Esses modelos s˜ao carac-terizados por um par de equa¸c˜oes: equa¸c˜ao observacional e equa¸c˜ao de evolu¸c˜ao, que s˜ao dadas respectivamente por

Yt= Ft0θt+ t, t∼ N (0, Vt) e (2.1)

θt= Gtθt−1+ wt, wt ∼ N (0, Wt), (2.2)

em que Yt ´e uma sequˆencia de observa¸c˜oes feitas ao longo do tempo, condicionalmente

independentes dada a sequˆencia de parˆametros θt; Ft ´e um vetor p × 1 de vari´aveis

ex-plicativas; θt´e um vetor de parˆametros p × 1; Gt´e uma matriz de evolu¸c˜ao de dimens˜ao

p × p e Vt e Wt s˜ao as variˆancias dos erros t e wt. Resumindo, um modelo dinˆamico

linear ´e completamente especificado pela qu´adrupla {Ft, Gt, Vt, Wt}.

A escolha de Ft e Gt depende do modelo e da natureza dos dados que est˜ao sendo

analisados. Casos particulares dos modelos dinˆamicos lineares incluem o modelo de regress˜ao (fazendo Gt = Ip, a matriz identidade de ordem p, e Wt = 0), e modelos

(17)

lineares de s´eries temporais (fazendo Ft = F , Gt= G, Vt= V e Wt= W ). A seguir ser˜ao

apresentados dois exemplos desses modelos.

2.2.1

Modelo Polinomial de Primeira Ordem

O modelo mais simples em s´eries temporais ´e o modelo polinomial de primeira ordem. Esse modelo ´e completamente especificado pela qu´adrupla {1, ρ, Vt, Wt}, podendo ser

escrito como

Yt= θt+ t, t∼ N (0, Vt),

θt= ρθt−1+ wt, wt ∼ N (0, Wt).

(2.3)

Se ρ est´a no intervalo (−1, 1), o modelo ´e estacion´ario, se ρ = ±1, o modelo ´e n˜ao estacion´ario. Apesar de sua simplicidade, esse modelo pode ser aplicado a uma s´erie de problemas cujo objetivo ´e fazer previs˜ao a curto prazo.

2.2.2

Modelo Polinomial de Segunda Ordem

Esse modelo, um pouco mais elaborado que o anterior, ´e derivado ap´os a inclus˜ao de um parˆametro extra θ2,t para descrever um processo de crescimento da m´edia. Temos

agora uma modifica¸c˜ao do modelo (2.3), dada por Yt = θ1,t+ t, t∼ N (0, Vt),

θ1,t = ρ1θ2,t+ w1,t, w1,t ∼ N (0, W1,t),

θ2,t = ρ2θ2,t−1+ w2,t, w2,t ∼ N (0, W2,t).

(2.4)

De maneira an´aloga ao modelo polinomial de primeira ordem, temos que se um dos parˆametros ρ1 e ρ2 ´e igual a 1, alguma das equa¸c˜oes ´e n˜ao estacion´aria. O parˆametro θ1,t

(18)

2.2.3

Inferˆ

encia nos Modelos Dinˆ

amicos Lineares

Os aspectos de inferˆencia dos modelos dinˆamicos lineares seguem os passos usuais da estat´ıstica Bayesiana, explorando seu aspecto sequencial e combinando duas opera¸c˜oes principais: a evolu¸c˜ao para construir a priori, e a atualiza¸c˜ao para incorporar a nova observa¸c˜ao feita no tempo t. Vamos denotar toda informa¸c˜ao obtida at´e o per´ıodo de tempo t por Dt= Dt−1∪ {Yt}, incluindo θt e Gt, ∀t, que s˜ao quantidades supostamente

desconhecidas. A informa¸c˜ao a priori ´e denotada por D0. Para cada per´ıodo de tempo

t, as distribui¸c˜oes a priori, preditiva e posteriori s˜ao dadas respectivamente por:

p (θt|Dt−1) = Z p (θt|θt−1) p (θt−1|Dt−1) dθt−1, (2.5) p (Yt|Dt−1) = Z p (Yt|θt) p (θt|Dt−1) dθt, e (2.6) p (θt|Dt) ∝ p (θt|Dt−1) p (Yt|θt) , (2.7)

sendo a ´ultima equa¸c˜ao obtida atrav´es do teorema de Bayes. Quando (F, G, V, W )t ´e

conhecido, a constante de integra¸c˜ao na especifica¸c˜ao acima pode ser facilmente obtida atrav´es do Filtro de Kalman (Anderson e Moore (1979)). Neste caso, dados os valo-res de Y1, ..., Yt−1, ´e f´acil predizer Yt e estimar os parˆametros de estado n˜ao observ´aveis

θ1, ..., θt−1 atrav´es das distribui¸c˜oes preditiva p (Yt|Dt−1) e posteriori p (θt−1|Dt−1),

res-pectivamente. Quando Yt ´e observado, a estimativa de θt−1 pode ser atualizada usando

sua distribui¸c˜ao a posteriori dado Dt.

Abaixo apresentamos alguns resultados do modelo dinˆamico linear normal com Vt

des-conhecido. Por simplicidade fazemos Vt = V , ∀t. Vamos denotar a distribui¸c˜ao a

poste-riori de θ no tempo t − 1 por (θt−1|Dt−1, V ) ∼ N (mt−1, V Ct−1) em que N (mt−1, V Ct−1)

denota a distribui¸c˜ao Normal com m´edia mt−1e variˆancia V Ct−1, e a distribui¸c˜ao a

poste-riori marginal de φ = V−1por (φ|Dt−1) ∼ G (nt−1/2, nt−1st−1/2) em que G (nt−1/2, nt−1st−1/2)

denota a distribui¸c˜ao Gama com m´edia nt−1/2

nt−1st−1/2 e variˆancia

nt−1/2

(nt−1st−1/2)2. Al´em disso,

supomos que a priori inicial em t = 0 ´e normal: (θ0|D0, V ) ∼ N (m0, C0), para algum

(19)

1. Condicionalmente a V:

• Evolu¸c˜ao: A distribui¸c˜ao a priori no tempo t ser´a (θt|Dt−1, V ) ∼ N (at, V Rt),

sendo at= Gtmt−1 e Rt= GtCt−1G0t+ Wt.

• A distribui¸c˜ao preditiva um passo a frente ser´a (Yt|Dt−1, V ) ∼ N (ft, V Qt),

sendo ft= Ft0at e Qt= Ft0RtFt

V + 1.

• Atualiza¸c˜ao: A distribui¸c˜ao a posteriori no tempo t ser´a (θt|Dt, V ) ∼ N (mt, V Ct),

com mt= at+ Atet e Ct= Rt− AtA0tQt, onde At= RtFt0/Qt e et= Yt− ft.

2. A precis˜ao φ ´e atualizada atrav´es da rela¸c˜ao (φ|Dt) ∼ G (nt/2, ntst/2), com nt =

nt−1+ 1 e ntst= nt−1st−1+ et2/Qt. 3. Incondicionalmente a V: • (θt|Dt−1) ∼ tnt−1(at, st−1Rt); • (Yt|Dt−1) ∼ tnt−1(ft, Q ∗ t), com Q ∗ t = st−1Qt; e • (θt|Dt) ∼ tnt−1(mt, stCt).

Em que tν(µ, σ2) denota a distribui¸c˜ao t de Student com ν graus de liberdade,

m´edia µ e parˆametro de escala σ.

2.2.4

Previs˜

ao no Tempo

Muitas vezes em modelos temporais existe o interesse em fazer previs˜oes para tempos futuros. Suponha que estamos interessados na distribui¸c˜ao da vari´avel resposta h passos a frente, dadas as observa¸c˜oes passadas. Dessa forma, estamos interessados em obter

(20)

amostras da distribui¸c˜ao (YT +h|Y ), com Y = (Y1, Y2, ..., YT).

Considere o modelo geral descrito pelas equa¸c˜oes (2.1) e (2.2), seja Ft conhecido,

e por simplicidade fa¸ca Gt = G, Vt = V e Wt = W . Definindo θ = (θ1, θ2, ..., θT) e

Φ = {V, G, W, θ}, a distribui¸c˜ao conjunta a posteriori de YT +h, θT +h e Φ pode ser escrita

como

p (YT +h, θT +h, Φ|Y ) = p (YT +h, θT +h|Y, Φ, ) p (Φ|Y )

= p (YT +h|θT +h, Φ, Y ) p (θT +h|Φ, Y ) p (Φ|Y ) (2.8)

= p (YT +h|θT +h, V, Y ) p (θT +h|θT, W, G) p (Φ|Y ) .

A distribui¸c˜ao de (YT +h|θT +h, V, Y ) ´e conhecida e p (θT +h|θT, W, G) pode ser

facil-mente encontrada atrav´es de repetidos usos da equa¸c˜ao de evolu¸c˜ao de θt. A obten¸c˜ao da

distribui¸c˜ao a posteriori dos parˆametros Φ pode ser feita utilizando MCMC com passos de Metropolis.

2.3

Modelos Dinˆ

amicos Generalizados

Baseado nos modelos lineares generalizados de Nelder e Wedderburn (1972), os mo-delos dinˆamicos generalizados foram propostos por West et al. (1985) permitindo ob-serva¸c˜oes na fam´ılia exponencial como uma extens˜ao aos modelos lineares dinˆamicos. Antes de apresentar a estrutura geral do modelo, vamos definir a fam´ılia de distribui¸c˜oes exponencial.

2.3.1

Fam´ılia Exponencial

Considere uma s´erie temporal de observa¸c˜oes Yt, (t = 1, 2, ...), quantidades cont´ınuas

ou discretas tomando valores no espa¸co amostral Y. Se Yttem uma distribui¸c˜ao amostral

(21)

fun¸c˜ao de probabilidade) pode ser descrita como segue. Para algumas quantidades ηt e

Bt, e trˆes fun¸c˜oes conhecidas yt(Yt), a(ηt) e b(Yt, Vt), a densidade ´e

p (Yt|ηt, Bt) = expB−1t [yt(Yt)ηt− a(ηt)] b(Yt, Bt), (Yt∈ Y). (2.9)

Algumas propriedades desta distribui¸c˜ao s˜ao:

1. Se yt(Yt) = Yt, ηt´e o parˆametro natural da distribui¸c˜ao, uma quantidade cont´ınua.

2. Bt > 0 ´e um parˆametro de escala e o parˆametro de precis˜ao da distribui¸c˜ao ´e

definido como δt= Bt−1.

3. Como uma fun¸c˜ao do parˆametro natural para um Yt fixo, a equa¸c˜ao (2.9), vista

como uma fun¸c˜ao de verossimilhan¸ca de ηt, depende de Yt atrav´es do valor yt(Yt).

4. A fun¸c˜ao a(ηt) ´e duas vezes diferenci´avel em ηt. Segue que

µt = E [yt(Yt)|ηt, Bt] = da(ηt) dηt = ˙a(ηt). e V [yt(Yt)|ηt, Bt] = Bta(η¨ t).

5. Geralmente yt(.) ´e a fun¸c˜ao identidade. Em tais casos temos

p (Yt|ηt, Bt) = expBt−1[Ytηt− a(ηt)] b(Yt, Bt), (Yt∈ Y). (2.10)

Tamb´em:

E [Yt|ηt, Bt] = µt= ˙a(ηt), (2.11)

V [Yt|ηt, Bt] = Bt¨a(ηt). (2.12)

EXEMPLO 2.1: O modelo normal usual (Yt|µt, Bt) ∼ N (µt, Bt) ´e um caso especial de

(22)

µt= ηt e b(Yt, Bt) = (2πBt) −1/2

exp−0.5Bt−1Yt2 .

EXEMPLO 2.2: Considere o modelo binomial em que Yt ´e o n´umero de sucessos em

nt > 0 tentativas de Bernoulli com probabilidade de sucesso πt. Aqui Y ´e um conjunto

de inteiros positivos e a fun¸c˜ao de probabilidade ´e

p (Yt|µt, ηt) =            ηt Yt  µtYt(1 − µt) ηt−Yt , (Yt = 0, 1, ..., ηt),

0, caso contr´ario.

Este ´e um caso especial de (2.10) com yt(Yt) = Yt/ηt, ηt= log [µt/(1 − µt)], Bt−1 = δt=

ηt, a(ηt) = log [1 + exp (ηt)], e b (Yt, Bt) =

  ηt Yt  .

Muitas outras distribui¸c˜oes importantes, incluindo a Poisson e a Gama tamb´em s˜ao casos especiais.

2.3.2

Estrutura Geral do Modelo

Defina as seguintes quantidades no tempo t: • θt um vetor de estados de dimens˜ao n;

• Ft um vetor de regress˜ao conhecido de dimens˜ao n;

• Gt uma matriz de evolu¸c˜ao n × n conhecida;

• ωt um vetor de erros com m´edia zero e matriz de covariˆancias conhecida Wt, ou

seja, ωt ∼ [0, Wt];

• λt= Ft0θt uma fun¸c˜ao linear dos parˆametros do vetor de estados;

(23)

O modelo dinˆamico linear generalizado para a s´erie Yt, (t = 1, 2, ...) ´e definido, assim

como o modelo dinˆamico linear normal, pela equa¸c˜ao observacional e pela equa¸c˜ao de evolu¸c˜ao, que s˜ao dadas respectivamente por:

p (Yt|ηt) como em (2.10), g(ηt) = λt = Ft0θt, (2.13)

θt= Gtθt−1+ ωt, ωt∼ [0, Wt] . (2.14)

2.3.3

Inferˆ

encia nos Modelos Dinˆ

amicos Lineares Generalizados

Aqui o desenvolvimento ser´a feito em termos de (2.10). Em adi¸c˜ao, o parˆametro de escala Bt´e considerado conhecido para todo t. A ´unica quantidade desconhecida presente

na densidade (2.10) ´e o parˆametro natural ηt, ou equivalentemente, a m´edia condicional

de Yt, µt. Note que a densidade de Yt de alguma maneira depende de Dt−1 (em

particu-lar, atrav´es do valor de Bt), assim (2.10) fornece p (Yt|ηt, Bt, Dt−1). Por conveniˆencia, e

j´a que Bt ´e assumido conhecido, a dependˆencia explicita no condicionamento ser´a

omi-tida daqui para frente. Logo, a densidade (2.9) ou (2.10) ´e denotada simplesmente por p (Yt|ηt) , (Yt∈ Y).

Agora a ´unica incerteza sobre a distribui¸c˜ao de Yt dado todo conhecimento passado

Dt−1 se deve `a incerteza sobre ηt. Segue que a distribui¸c˜ao preditiva um passo a frente ´e

p (Yt|Dt−1) = R p (Yt|ηt) p (ηt|Dt−1) dηt. (2.15)

Similarmente, uma vez que Yt ´e observado, a priori ´e atualizada e a distribui¸c˜ao a

poste-riori de ηt, pelo teorema de Bayes, ´e

p (ηt|Dt) ∝ p (ηt|Dt−1) p (Yt|ηt) . (2.16)

Os c´alculos em (2.15) e (2.16) s˜ao analiticamente trat´aveis neste contexto de fam´ılia ex-ponencial quando a priori pertence a uma fam´ılia de distribui¸c˜oes conjugada.

(24)

Com referˆencia a (2.10), uma densidade a priori de uma fam´ılia conjugada tem a forma:

p (ηt|Dt−1) = c(rt, st)exp [rtηt− sta(ηt)] , (2.17)

com quantidades definidas rt e st (fun¸c˜oes conhecidas de Dt−1). Abaixo apresentamos

alguns coment´arios e propriedades:

1. Dadas as quantidades rt e st, a priori conjugada fica completamente especificada.

Aqui st> 0 e definindo xt = rt/st, (2.17) pode ser escrita como

p (ηt|Dt−1) ∝ exp {st[xtηt− a(ηt)]} .

2. st ´e o parˆametro de precis˜ao da priori; valores grandes de st implicam uma priori

muito concentrada em sua moda.

Assumindo que rt e st s˜ao especificados, ´e f´acil ver que que a densidade preditiva

(2.15) e a posteriori (2.16) s˜ao dadas por: p (Yt|Dt−1) = c(rt, st)b(Yt, Bt) c(rt+ δtYt, st+ δt) , (2.18) e p (ηt|Dt) = c(rt+ δtYt, st+ δt)exp [(rt+ δtYt)ηt− (st+ δt)a(ηt)] . (2.19)

A defini¸c˜ao (2.13) e (2.14) fornece as equa¸c˜oes observacional e de evolu¸c˜ao do modelo no tempo t. Para completar a especifica¸c˜ao deste modelo, precisamos definir mais dois componentes: (a) a distribui¸c˜ao do erro de evolu¸c˜ao ωt; e (b) p (θt−1|Dt−1) que sumariza

toda a informa¸c˜ao e an´alise a priori no tempo t. Nos modelos dinˆamicos lineares, estas duas distribui¸c˜oes eram normais. No contexto de modelos dinˆamicos generalizados, as distribui¸c˜oes a priori e a posteriori n˜ao ser˜ao normais.

Uma suposi¸c˜ao que se faz ´e considerar que a m´edia e variˆancia da distribui¸c˜ao a posteriori p (θt−1|Dt−1) sejam iguais `as do modelo dinˆamico linear normal, mas sem a

(25)

p (θt−1|Dt−1) ∼ [mt−1, Ct−1] , (2.20)

Segue de (2.14) que os momentos da priori de θt s˜ao

p (θt|Dt−1) ∼ [at, Rt] (2.21)

em que at = Gtmt−1 e Rt = GtCt−1G0t+ Wt e mt−1 e Ct−1 definidos como no caso dos

modelos dinˆamicos lineares normais.

A distribui¸c˜ao a posteriori no tempo t ser´a p (θt|Dt) = R p (θt|λt, Dt−1) p (λt|Dt) dλt.

Infelizmente, devido `a especifica¸c˜ao incompleta da priori conjunta, estes momentos condi-cionais s˜ao desconhecidos, n˜ao lineares e fun¸c˜oes indeterminadas de λt. Uma sugest˜ao

para estimar estes parˆametros ´e o estimador linear de Bayes (Hartigan (1969); Goldstein (1976)).

2.3.4

Previs˜

ao no Tempo

No tempo t, os momentos a posteriori de θt existem (θt|Dt) ∼ [mt, Ct] , com mt =

at + RtFt(ft∗− ft) /qt, Ct = Rt− RtFtFt0Rt(1 − q∗t/qt) /qt em que ft∗ = E [g(ηt)|Dt] e

q∗t = V [g(ηt)|Dt].

Da equa¸c˜ao de evolu¸c˜ao (2.14) aplicada nos tempos t+1, ..., t+h, segue que (θt+h|Dt) ∼

[at(h), Rt(h)], com momentos definidos sequencialmente at(h) = Gt+hat(h − 1) e Rt(h) =

Gt+hRt(h − 1)G0t+h+ Wt+h, em que at(0) = mt e Rt(0) = Ct.

λt+h= Ft+h0 θt+h tem momentos (λt+h|Dt) ∼ [ft(h), qt(h)], em que ft(h) = Ft+h0 at(h) e

qt(h) = Ft+h0 Rt(h)Ft+h.

(26)

p (Yt+h|Dt) =

c(rt(h), st(h))b(Yt+h, Bt+h)

c(rt(h) + δt+hYt+h, st(h) + δt+h)

.

2.4

Modelagem de Estruturas Espaciais

Nesta se¸c˜ao ser˜ao apresentadas estruturas b´asicas que servem de ponto de partida para a elabora¸c˜ao de modelos mais complexos, que levam em considera¸c˜ao a correla¸c˜ao espa¸co-temporal presente nos dados. Apresentamos tamb´em os tipos de dados espaciais.

2.4.1

Tipos de Dados Espaciais

De uma forma geral, h´a trˆes tipos de dados espaciais: • Dados Cont´ınuos

Suponha que observamos uma determinada caracter´ıstica de interesse em um con-junto de pontos no espa¸co que pode ser fixo ou aleat´orio, em T per´ıodos de tempo. O espa¸co de observa¸c˜ao da vari´avel aleat´oria de interesse ´e cont´ınuo no espa¸co e dis-creto no tempo. Vamos denotar as observa¸c˜oes por Yt(s), para s ∈ S ⊂ <2 locais de

observa¸c˜ao no tempo t e t = 1, ..., T per´ıodos de tempo, suponha que uma amostra dessa vari´avel ´e obtida pela medi¸c˜ao de Y em N locais amostrais {s1, s2, ..., sN}.

Podemos escrever Yt(si), i = 1, ..., N como Yt(si) = µt(si) + t(si), em que µt(si)

´e uma m´edia que pode depender de si ou n˜ao, e t = (t(s1), t(s2), ..., t(sN)) s˜ao

erros que n˜ao podem ser explicados por covari´aveis. Note que os locais de ob-serva¸c˜ao podem ou n˜ao ser igualmente espa¸cados. Se µt(.) for capaz de explicar

a dependˆencia espacial presente nos dados, um modelo de regress˜ao simples ou m´ultiplo ´e uma escolha provavelmente adequada. Em muitos problemas, entre-tanto, a correla¸c˜ao espacial ainda est´a presente em t, fazendo-se necess´ario

re-laxar a hip´otese de normalidade e independˆencia dos erros. Exemplos de dados cont´ınuos incluem ´ındices de polui¸c˜ao, temperatura, pluviosidade e caracter´ısticas atmosf´ericas em geral. Neste trabalho vamos trabalhar com este tipo de dado.

(27)

• Processos Pontuais

Os processos pontuais diferem dos dados cont´ınuos pelo fato de que tempo e local de observa¸c˜ao n˜ao vˆem associados `a realiza¸c˜ao de uma vari´avel aleat´oria. O interesse aqui ´e a informa¸c˜ao a respeito de quando e onde ocorreram determinados eventos. Um exemplo t´ıpico ´e o da ocorrˆencia de doen¸cas. Por exemplo, podemos estar interessados em estudar o padr˜ao espa¸co-temporal da incidˆencia de dengue em um determinado local, e para isso analisar o local e dia de registros de ocorrˆencia da doen¸ca.

• Dados de ´Area

Muitas vezes n˜ao ´e poss´ıvel observar o local e tempo exatos de ocorrˆencia da vari´avel de interesse, mas pode-se obter informa¸c˜ao a respeito dessa vari´avel de uma forma mais agregada. A vari´avel de interesse ´e ent˜ao observada sob a forma de contagens ou m´edias, e ´e associada a uma ´area no espa¸co e a um intervalo de tempo. Esse tipo de dado ´e chamado de dado de ´area. Como exemplo de dados de ´area obtido pela agrega¸c˜ao de processos pontuais podemos citar as contagens de casos de dengue em um munic´ıpio. Os dados de ´area tamb´em podem ser obtidos pela agrega¸c˜ao de dados cont´ınuos. A agrega¸c˜ao pode ser feita, por exemplo, retalhando o espa¸co de interesse, e supondo que as respostas s˜ao constantes dentro de cada ´area. Na teoria essa t´ecnica pode ser vantajosa sempre que as medi¸c˜oes feitas dentro das ´areas forem suficientemente homogˆeneas, simplificando a an´alise no caso de existirem grande n´umero de esta¸c˜oes monitoradoras. Outras vezes s´o existe informa¸c˜ao sobre os dados agregados.

2.4.2

Modelos Geoestat´ısticos: Modelos para Dados Cont´ınuos

Os modelos geoestat´ısticos, introduzidos por Cressie (1993), s˜ao modelos espaciais com estrutura bastante simples, mas que s˜ao flex´ıveis o suficiente para abranger uma classe bem grande de problemas. Eles abrangem modelos para dados cont´ınuos, obtidos atrav´es de agrega¸c˜oes no espa¸co ou n˜ao, podendo estar localizados de forma espacial-mente irregular.

(28)

Seja s ∈ <dum local no espa¸co euclidiano d-dimensional e seja Z(s) o valor da vari´avel

aleat´oria Z no local s. Agora fa¸ca s variar no conjunto S ⊂ <dde forma a gerar o espa¸co aleat´orio {Z(s) : s ∈ S}. Poder´ıamos assumir que S, assim como Z, varia de realiza¸c˜ao para realiza¸c˜ao, somando outra fonte de varia¸c˜ao ao problema. Vamos considerar, entre-tanto, que S ´e um subconjunto fixo de <d.

Modelo Gaussiano Estacion´ario

Um processo estoc´astico {Z(s), s ∈ S} ´e Gaussiano se a distribui¸c˜ao conjunta de (Z(s1), ..., Z(sN)) ´e normal multivariada, para qualquer inteiro N e qualquer conjunto de

localidades {s1, ..., sN}. Esse processo ´e dito estacion´ario se a esperan¸ca e a variˆancia de

Z(s) s˜ao as mesmas para todo s e a correla¸c˜ao entre Z(si) e Z(sj) depende somente de

(si− sj), para qualquer par de inteiros i, j = 1, ..., N . Se, adicionalmente, essa correla¸c˜ao

depender somente de di,j = ksi− sjk, a distˆancia euclidiana entre si e sj, dizemos que o

processo al´em de estacion´ario ´e isotr´opico.

Para especificar o modelo precisamos apenas de seus momentos de 1a e 2a ordem,

ou seja, a fun¸c˜ao da m´edia, µ(s) = E [Z(s)], e a fun¸c˜ao de covariˆancia γ(si, sj) =

cov {Z(si), Z(sj)}.

Sob as hip´oteses de estacionariedade e isotropia, E [Z(s)] = µ, ∀s, e cov {Z(si), Z(sj)} = γ(ksi− sjk).

Sendo o processo estacion´ario, a variˆancia de Z(s) ´e constante e podemos escrever a fun¸c˜ao de covariˆancia como

(29)

em que σ2 ´e a variˆancia de Z(s), s ∈ S e ρ(.) ´e a fun¸c˜ao de correla¸c˜ao dada por: ρ(si, sj) = cor {Z(si), Z(sj)} .

Vamos denotar o processo Gaussiano estacion´ario com m´edia µ, variˆancia σ2 e fun¸c˜ao

de correla¸c˜ao ρ(si, sj) = cor {Z(si), Z(sj)} por

Z(.) ∼ P G(µ, σ2ρ(.)).

Note que a matriz de correla¸c˜oes especificada atrav´es da fun¸c˜ao ρ(.) precisa ser posi-tiva definida para que, dados um inteiro m, um conjunto de localiza¸c˜oes si e constantes

reais ai, a combina¸c˜ao linear Pmi=1aiZ(si) tenha sempre variˆancia n˜ao-negativa.

Fam´ılias Param´etricas de Fun¸c˜oes de Covariˆancia

Geralmente a especifica¸c˜ao de ρ(.) ´e feita de forma a satisfazer certas propriedades desej´aveis. S˜ao elas:

1. ρ(.) ´e mon´otona n˜ao crescente em di,j = ksi− sjk, si, sj ∈ S, ou seja, a correla¸c˜ao

entre duas medi¸c˜oes decresce com aumento da distˆancia entre suas localiza¸c˜oes. 2. ρ → 0 quando di,j → ∞, ou seja, a correla¸c˜ao entre locais muito distantes no espa¸co

tende a zero.

3. Pelo menos um parˆametro do modelo controla a taxa com que ρ(di,j) decai para

zero, visto que essa taxa geralmente n˜ao ´e conhecida. O decaimento pode ser, portanto, mais ou menos lento, dependendo deste(s) parˆametro(s).

Como um exemplo de fam´ılia de fun¸c˜oes de correla¸c˜ao que satisfaz essas propriedades, temos a fam´ılia exponencial de potˆencia (Oliveira et al. (1997)), definida por

ρ(di,j; φ; α) = exp  − di,j φ α , com φ > 0 e 0 < α < 2.

Quando α = 1, ρ(di,j; φ, 1) corresponde `a chamada fun¸c˜ao de correla¸c˜ao exponencial, e

quando α = 2 temos a fun¸c˜ao de correla¸c˜ao Gaussiana. Outro exemplo de fam´ılia que satisfaz as propriedades acima ´e a fam´ılia Mat´ern (M´atern (1986)).

(30)

2.5

Monte Carlo via Cadeias de Markov (MCMC)

Os m´etodos computacionais de Monte Carlo via cadeias de Markov (MCMC) usando os algoritmos de amostrador de Gibbs e Metropolis-Hastings, entre outros, permitem a simula¸c˜ao de distribui¸c˜oes de forma indireta. A ideia ´e construir uma cadeia de Markov f´acil de ser simulada e, com distribui¸c˜ao de equil´ıbrio igual `a de interesse, onde cada estado pode ser atingido a partir de qualquer outro com um n´umero finito de itera¸c˜oes. Ap´os um n´umero suficientemente grande de itera¸c˜oes, a cadeia converge para a distribui¸c˜ao de interesse, dando origem a uma amostra que pode ser usada para fazer inferˆencia. Esses m´etodos s˜ao muito usados na estat´ıstica Bayesiana quando h´a interesse em simular amostras de uma determinada densidade a posteriori p(θ|Y ), cuja gera¸c˜ao direta ´e cus-tosa ou complicada.

Existem v´arios m´etodos propostos para a constru¸c˜ao de cadeia de Markov. Nesta se¸c˜ao ser˜ao apresentados os m´etodos MCMC mais utilizados, o amostrador de Gibbs e o algoritmo de Metropolis-Hastings. Neste trabalho o algoritmo Metropolis-Hastings ser´a aplicado como um passo dentro do amostrador de Gibbs permitindo a amostragem conjunta a posteriori dos parˆametros do modelo.

2.5.1

Amostrador de Gibbs

O amostrador de Gibbs (Geman e Geman (1984); Gelfand e Smith (1990)) ´e um m´etodo de amostragem iterativo de uma cadeia de Markov, cuja transi¸c˜ao de estado a outro ´e feito pela amostragem de cada parˆametro atrav´es de sua distribui¸c˜ao condicional aos demais parˆametros do modelo (conhecida como distribui¸c˜ao condicional completa).

Assuma que a distribui¸c˜ao de interesse seja p(θ) em que θ = (θ1, ..., θd)0. Cada um

dos componentes θi pode ser um escalar, um vetor ou uma matriz. Considere tamb´em

que as distribui¸c˜oes condicionais completas pi = p(θi|θ−i), i = 1, ..., d s˜ao conhecidas, em

(31)

O problema a ser resolvido ´e amostrar de p quando a gera¸c˜ao direta ´e custosa ou com-plicada, mas a gera¸c˜ao de pi´e poss´ıvel. O amostrador de Gibbs fornece uma amostragem

baseada em gera¸c˜oes sucessivas das distribui¸c˜oes condicionais completas. Pode ser des-crito da seguinte forma:

1. inicialize o contador das itera¸c˜oes da cadeia j = 1 e dˆe valores iniciais θ(0) =

(θ(0)1 , ..., θ(0)d )0;

2. obtenha um novo valor θ(j)= (θ(j) 1 , ..., θ

(j) d )

0 de θ(j−1) atrav´es de sucessivas gera¸c˜oes

de valores: θ(j)1 ∼ p(θ1|θ (j−1) 2 , ..., θ (j−1) d ), θ2(j)∼ p(θ2|θ (j) 1 , θ (j−1) 3 , ..., θ (j−1) d ), .. . θ(j)d ∼ p(θd|θ (j) 1 , ..., θ (j) d−1);

3. mude o contador j para j + 1 e retorne ao passo 2 at´e que a convergˆencia seja alcan¸cada.

`

A medida que o n´umero de itera¸c˜oes aumenta, a cadeia se aproxima de sua condi¸c˜ao de equil´ıbrio. Quando a convergˆencia ´e alcan¸cada, o valor resultante θ(j)´e uma amostra

de p. A forma canˆonica de se obter uma amostra de tamanho M de p ´e replicar a cadeia M vezes at´e a convergˆencia. Alternativamente, ap´os a convergˆencia, todas as gera¸c˜oes de uma mesma cadeia s˜ao gera¸c˜oes da distribui¸c˜ao de equil´ıbrio e sucessivos valores dessa cadeia tamb´em formam uma amostra de p. A amostra de pontos obtida antes da convergˆencia ´e chamada de amostra de aquecimento, sendo descartada das an´alises.

2.5.2

Algoritmo de Metropolis-Hastings

O algoritmo de Metropolis-Hastings (Metropolis et al. (1953); Hastings (1970)) tal como o amostrador de Gibbs tem como finalidade gerar amostras de uma distribui¸c˜ao de probabilidades. Para isso utiliza a ideia de uma distribui¸c˜ao auxiliar q(.), conhecida como densidade de transi¸c˜ao. Desta densidade de transi¸c˜ao ´e gerado um valor proposto

(32)

para o parˆametro e este ´e preferido em rela¸c˜ao ao valor corrente da cadeia, de acordo com uma determinada probabilidade α.

Considerando q(θ, .) a densidade de transi¸c˜ao proposta, p(.) uma distribui¸c˜ao de pro-babilidades (por exemplo, a distribui¸c˜ao condicional completa do parˆametro) e θ(j−1) o valor corrente da cadeia, podemos resumir o algoritmo de Metropolis-Hastings a seguir:

1. inicialize o contador das itera¸c˜oes da cadeia j = 1 e dˆe valor inicial θ(0);

2. fa¸ca j = 1 e sorteie um valor proposto θ∗ para θ(j), utilizando q(θ(j−1), .);

3. aceite mover a cadeia para o valor proposto com probabilidade α(θ∗, θ(j−1)) =

min {1, R} em que R = p(θp(θ(j−1)∗)q(θ)q(θ∗,θ(j−1)(j−1))∗) ´e chamado de raz˜ao de Hastings e fa¸ca

θ(j)= θou rejeite mover a cadeia com probabilidade 1 − α(θ, θ

(j−1)) e, portanto,

fa¸ca θ(j) = θ(j−1);

4. fa¸ca j = j + 1 e retorne ao passo 2.

Pontos da cadeia devem ser simulados at´e que haja convergˆencia. A partir da´ı os va-lores simulados podem ser considerados como amostras da densidade de interesse, sendo portanto usados para fazer inferˆencia.

2.5.3

Diagn´

osticos de Convergˆ

encia

Segundo Gamerman e Lopes (2006) existem duas formas de abordar o problema da convergˆencia. A primeira, mais te´orica, busca o estabelecimento de cotas para fun¸c˜oes de distribui¸c˜ao geradas em uma cadeia e distˆancias entre elas. A segunda forma de estudar a convergˆencia ´e mais emp´ırica e procura estudar as propriedades estat´ısticas da s´erie observada a partir de simula¸c˜oes da cadeia. Embora as duas formas de se estudar a convergˆencia sejam v´alidas, resultados te´oricos s˜ao mais dif´ıceis de serem obtidos e aplicados a problemas pr´aticos.

(33)

Monitora¸c˜ao Informal de Convergˆencia

Gelfand e Smith (1990) sugerem t´ecnicas gr´aficas para a verifica¸c˜ao de convergˆencia. Ap´os um n´umero suficientemente grande N de itera¸c˜oes em M cadeias paralelas, forma-se uma amostra de θ e pode-se construir um histograma de qualquer uma de suas compo-nentes (ou fun¸c˜oes). O mesmo procedimento pode ser repetido ap´os N + k itera¸c˜oes. Se n˜ao houver diferen¸ca vis´ıvel a olho nu ap´os N e ap´os N + k itera¸c˜oes, ent˜ao conclui-se que h´a convergˆencia. O valor de k n˜ao pode ser muito pequeno, pois a correla¸c˜ao ine-rente `a cadeia de Markov estar´a exercendo sua influˆencia e n˜ao se poder´a dizer se a n˜ao similaridade ´e em fun¸c˜ao da convergˆencia ou em fun¸c˜ao da correla¸c˜ao do processo. O valor de k tamb´em n˜ao precisa ser muito grande, pois se h´a suspeita de convergˆencia ap´os N itera¸c˜oes ent˜ao n˜ao h´a necessidade de simular a cadeia muito al´em disso apenas para uma verifica¸c˜ao. Tipicamente, valores entre 10 e 50 itera¸c˜oes s˜ao apropriados.

Uma outra forma gr´afica de verificar a convergˆencia ´e observar a trajet´oria de uma ´

unica cadeia ao longo das itera¸c˜oes. Se o gr´afico ap´os um per´ıodo inicial apresenta repeti-damente o mesmo comportamento qualitativo e quantitativo ent˜ao pode se concluir pela convergˆencia da cadeia.

Tais t´ecnicas devem ser usadas com cautela e sempre acompanhadas de alguma fun-damenta¸c˜ao te´orica. T´ecnicas gr´aficas podem ser ilus´orias indicando uma constˆancia que pode n˜ao ser t˜ao evidente sob outra escala. Al´em disso, muitas cadeias podem apresentar um comportamento similar ao da convergˆencia sem que esta tenha sido atingida.

Monitora¸c˜ao Formal de Convergˆencia 1. An´alise espectral

Considere uma fun¸c˜ao real Φ = t(θ) e sua trajet´oria Φ(1), Φ(2), ... constru´ıda a partir

(34)

podem ser usadas. Geweke (1992) sugere o uso de testes com m´edias erg´odicas para verificar a convergˆencia da cadeia baseados na s´erie Φ(j).

Considere m + n itera¸c˜oes da cadeia e calcule as seguintes m´edias: Φb =

1 nb m+nb X j=m+1 Φ(j) e Φa= 1 na m+n X j=m+n−na+1

Φ(j) em que nb+ na < n. Se m ´e a quantidade de itera¸c˜oes

descar-tadas, ent˜ao Φa e Φb, as m´edias erg´odicas do final e do in´ıcio do per´ıodo da convergˆencia,

devem ter um comportamento similar. A medida que n cresce e as raz˜oes na/n e nb/n

permanecem fixas ent˜ao zG = Φa− Φb q d V ar(Φa) + dV ar(Φb) → N (0, 1).

Ent˜ao, a diferen¸ca padronizada zG entre as m´edias erg´odicas do in´ıcio e do fim do

per´ıodo da convergˆencia n˜ao deve ser grande se a convergˆencia for atingida. Grandes diferen¸cas indicam falta de convergˆencia, mas diferen¸cas pequenas n˜ao implicam em con-vergˆencia. Geweke (1992) sugere o uso dos valores nb = 0.1n e na = 0.5n e o uso de

estimadores espectrais da densidade para as variˆancias. Esta ´e uma t´ecnica univariada, mas pode ser aplicada `a densidade a posteriori utilizando t(θ) = −2log[p(θ)].

(35)

2. Cadeias m´ultiplas

Outro m´etodo simples de verificar a convergˆencia ´e a utiliza¸c˜ao de cadeias parale-las come¸cando de pontos diferentes. Com isso, evita-se que as cadeias se concentrem em regi˜oes em torno de uma moda local, no caso de multimodalidade da posteriori. Al´em disso, em alguns casos, convergˆencia lenta pode levar `a percep¸c˜ao errˆonea de con-vergˆencia ao utilizarmos uma ´unica cadeia. Ap´os a convergˆencia todas as cadeias devem ter o mesmo comportamento qualitativo e quantitativo mas a verifica¸c˜ao de convergˆencia pode ser problem´atica se for analisada apenas uma cadeia.

A verifica¸c˜ao visual de similaridade entre as trajet´orias das cadeias ap´os algumas itera¸c˜oes certamente ´e um ind´ıcio forte de convergˆencia. Gelman e Rubin (1992) pro-puseram alguns m´etodos formais para a detec¸c˜ao de convergˆencia al´em dessa verifica¸c˜ao visual. Esses m´etodos s˜ao baseados em t´ecnicas de an´alise de variˆancia e preconizam a convergˆencia da cadeia apenas quando a variˆancia entre cadeias for bem menor que a variˆancia dentro da cadeia ou, equivalentemente, quando histogramas das cadeias mistu-radas s˜ao similares aos histogramas de cada uma das cadeias isoladas.

As cadeias s˜ao inicializadas em pontos que devem ser sobredispersos em rela¸c˜ao `a distribui¸c˜ao a posteriori. O n´umero de cadeias deve ser maior que 1 mas n˜ao necessaria-mente muito maior que 1.

Considerando m cadeias paralelas e uma fun¸c˜ao real Φ = t(θ), tem-se m trajet´orias n

Φ(1)i , Φ(2)i , ..., Φ(n)i o, i = 1, ..., m, para Φ. As variˆancias entre as cadeias B e dentro das cadeias W s˜ao dadas por:

B = n m − 1 m X i=1 (Φi− Φ)2 e W = 1 m(n − 1) m X i=1 n X j=1 (Φ(j)i − Φi)2

em que Φi ´e a m´edia das observa¸c˜oes da cadeia i, i = 1, ..., m, e Φ ´e a m´edia dessas

(36)

Φ, σΦ2, pode ser estimada de forma n˜ao-viciada por bσΦ2 = (1 − 1/n)W + (1/n)B.

Se as cadeias ainda n˜ao tiverem convergido ent˜ao essa estimativa ´e maior que σΦ2, pois os valores iniciais ainda estar˜ao influenciando e eles foram escolhidos com dispers˜ao maior que a da distribui¸c˜ao do equil´ıbrio. Por outro lado, W subestima a variˆancia σ2

Φ, pois uma cadeia s´o n˜ao ter´a coberto toda a variabilidade de t(θ). Um indicador de

convergˆencia ´e dado pela redu¸c˜ao potencial de escala estimada:

b R = r b σ2 Φ W

que ´e sempre maior que 1. A medida que n cresce ambos os estimadores acabar˜` ao convergindo para σ2Φ e bR convergir´a para 1. Logo, bR pode ser usado como indicador de convergˆencia pela avalia¸c˜ao de sua proximidade de 1. Gelman (1995) sugere aceitar a convergˆencia quando o valor de bR for da ordem de 1,1 a 1,2. Como anteriormente, pode-se tomar t(θ) = −2log[p(θ)] e assim monitorar tamb´em a convergˆencia da posteriori. Quando a convergˆencia est´a assegurada, utiliza-se a ´ultima metade dos valores gerados para inferˆencia.

(37)

Cap´ıtulo 3

Modelos com Coeficientes Dinˆ

amicos

Variando no Espa¸

co para Dados da

Fam´ılia Exponencial

Como j´a dito aqui, a pr´atica de modelagem de dados que possuem uma evolu¸c˜ao temporal e s˜ao espacialmente referenciados est´a bastante disseminada hoje em dia. Este trabalho tem como objetivo lidar com dados que apresentam estas caracter´ısticas e que, al´em disso, podem ser modelados por uma distribui¸c˜ao pertencente `a fam´ılia exponencial. Tais dados podem ser observados, por exemplo, em estudos epidemiol´ogicos nos quais temos a contagem da ocorrˆencia de uma doen¸ca em determinada regi˜ao, durante um per´ıodo espec´ıfico. Outros exemplos podem ser encontrados na observa¸c˜ao de estudos s´ocio-econˆomicos, na agronomia e em fenˆomenos meteorol´ogicos. Este ´ultimo exemplo ser´a abordado no cap´ıtulo 5 como aplica¸c˜ao do modelo aqui proposto.

Neste cap´ıtulo descrevemos uma classe geral de modelos espa¸co-temporais para mode-lar respostas univariadas cujas distribui¸c˜oes pertencem `a fam´ılia exponencial. Estes mo-delos podes ser descritos em nota¸c˜ao matricial que tem como vantagem uma forma mais compacta. A seguir, dois modelos ser˜ao apresentados considerando duas distribui¸c˜oes diferentes: a distribui¸c˜ao Poisson e a Gama.

(38)

3.1

Modelo Geral

Considere um conjunto de per´ıodos de tempo discretos, t = 1, ..., T , em que para cada t um processo aleat´orio yt(.) ´e observado em N locais amostrais {s1, ..., sN}. Seja xt(si),

um vetor de covari´aveis de dimens˜ao p observado no tempo t e local si, i = 1, ..., N .

Suponha que yt(.) tenha distribui¸c˜ao f (.) pertencente `a fam´ılia exponencial com m´edia

µt(s). Suponha tamb´em que essa m´edia possa ser modelada atrav´es de uma fun¸c˜ao de

uma equa¸c˜ao de regress˜ao em que os efeitos das covari´aveis variem suavemente ao longo do tempo e espa¸co. Esta fun¸c˜ao se chama fun¸c˜ao de liga¸c˜ao e liga o preditor linear `a m´edia da fun¸c˜ao da distribui¸c˜ao como no caso dos modelos lineares generalizados. Primeiramente consideramos o Modelo 1 em que a m´edia ´e modelada apenas como fun¸c˜ao de covari´aveis sem a inclus˜ao de efeitos aleat´orios, como especificado abaixo:

yt(si) ∼ f (µt(si)),

g(µt) = F1,tθ1,t,

θ1,t = F2,tθ2,t+ 2,t, 2,t(.) ∼ P G(0, Σλ),

θ2,t = Gtθ2,t−1+ wt, wt∼ N (0, W ),

(3.1)

para t = 1, ..., T e {s1, ..., sN}. g(µt) ´e um vetor de dimens˜ao N , θ1,t ´e um vetor de

dimens˜ao N.p, θ2,t ´e um vetor de dimens˜ao p, a matriz F1,t tem dimens˜ao N × N.p, F2,t ´e

matriz com dimens˜ao N.p×p e Gttem dimens˜ao p×p. Aqui o vetor θ2,t´e independente do

vetor de erros 2,t, assim como θ2,t−1 e wts˜ao independentes. Suponha que a distribui¸c˜ao

de 2,t(.) define uma estrutura de correla¸c˜ao espacial para estes erros, e

consequente-mente para θ1,t. Assim a correla¸c˜ao espacial ´e dada somente atrav´es dos parˆametros de

regress˜ao θ1,t. Muitas defini¸c˜oes s˜ao poss´ıveis para esta distribui¸c˜ao, incluindo os

exem-plos de fam´ılias param´etricas de fun¸c˜oes de covariˆancia citados no cap´ıtulo 2. As matrizes F1,t, F2,t e Gt s˜ao conhecidas, com F1,t e F2,t possivelmente incorporando covari´aveis.

Um modelo um pouco mais complexo ser´a descrito a seguir. Neste modelo, a fun¸c˜ao que modela a m´edia da distribui¸c˜ao pertencente `a fam´ılia exponencial contempla, al´em de uma fun¸c˜ao de covari´aveis, um efeito aleat´orio que traz mais incerteza para o modelo.

(39)

Chamamos este modelo de Modelo 2 e ele pode ser escrito como: yt(si) ∼ f (µt(si)), g(µt) = F1,tθ1,t+ 1,t, 1,t ∼ N (0, V ), θ1,t = F2,tθ2,t+ 2,t, 2,t(.) ∼ P G(0, Σλ), θ2,t = Gtθ2,t−1+ wt, wt∼ N (0, W ). (3.2)

Neste estudo trabalharemos com um caso particular em que F1,t = diag(x0t(s1), ..., x0t(sN)),

F2,t = 1N ⊗ Ip, Gt = Ip, V = σ2IN e Σ = Σλ,ρ sendo Σλ,ρ(i, j) = ρ exp{−λdi,j} (com Ip

denotando a matriz identidade de ordem p e 1N denotando o vetor coluna de tamanho

N com todos os elementos iguais a 1). Trabalhando sob a hip´otese de isotropia, a fun¸c˜ao de covariˆancia depende de di,j, a distˆancia entre as localiza¸c˜oes si e sj. Outras formas

mais gerais podem ser consideradas. Aqui consideramos g(µt) = log(µt), pois esta ´e a

fun¸c˜ao de liga¸c˜ao canˆonica para o modelo Poisson.

A seguir apresentaremos o Modelo 1 e o Modelo 2 nos casos em que Yt(si), i =

1, ..., N tem distribui¸c˜ao Poisson e Gama, assim como a inferˆencia, previs˜ao e interpola¸c˜ao espacial.

3.2

Distribui¸

ao Poisson

3.2.1

Modelo 1

Considere que Yt(si) tenha distribui¸c˜ao Poisson com m´edia µt(si), ou seja, sua fun¸c˜ao

de probabilidade ´e dada por:

p(Yt(si)) =

µt(si)yt(si)e−µt(si)

yt(si)!

(40)

yt(si) ∼ P oisson(µt(si)),

log(µt(si)) = x0t(si)θ1,t(si),

θ1,t(si) = θ2,t+ 2,t(si), 2,t(.) ∼ N (0, Σλ,ρ⊗ Ip),

θ2,t = θ2,t−1+ wt, wt ∼ N (0, W ).

(3.3)

Distribui¸c˜oes Condicionais Completas

Sob o modelo (3.3) e considerando o caso em que p > 1, as quantidades desconhecidas que devem ser estimadas s˜ao ρ, W , λ, θ1,t, para t = 1, ..., T e θ2,t para t = 0, ..., T . As

distribui¸c˜oes a priori dos parˆametros s˜ao dadas por:

θ2,0 ∼ N (µ0, C0), ρ ∼ GI(αρ, βρ), W ∼ W I(αW, βW) e λ ∼ Ga(αλ, βλ)

em que GI(αρ, βρ) denota a distribui¸c˜ao Gama inversa com m´edia βρ/(αρ− 1) e variˆancia

βρ2/[(αρ− 1)2(αρ− 2)] e W I(αW, βW) denota a distribui¸c˜ao Wishart invertida com m´edia

βW/(αW − 2).

Defina Y = {Y1, ..., YT}, {θ1} = {θ1,1, ..., θ1,T}, {θ2} = {θ2,1, ..., θ2,T}, Ψ = {λ, ρ, W } e

Φ como a cole¸c˜ao de todos os parˆametros, tal que Φ = {{θ1}, {θ2}, θ2,0, Ψ}. A distribui¸c˜ao

conjunta a posteriori dos parˆametros desconhecidos do modelo (3.3) ´e proporcional a:

p(Φ|Y ) ∝ p(θ2,0)p(ρ)p(W )p(λ) T Y t=1 N Y i=1 p(yt(si)|θ1,t(si)) T Y t=1 N Y i=1 p(θ1,t(si)|θ2,t, λ, ρ)× × T Y t=1 p(θ2,t|θ2,t−1, W ). (3.4)

Para obtermos a distribui¸c˜ao condicional completa a posteriori de um determinado parˆametro, basta observamos na equa¸c˜ao acima os termos que dependem do parˆametro em estudo. Assim as distribui¸c˜oes condicionais completas a posteriori dos parˆametros

(41)

desconhecidos do modelo (3.3) s˜ao dadas por: 1) Condicional completa para W

Da equa¸c˜ao (3.4) vemos que:

p(W |Y, {θ1}, {θ2}, θ2,0, Ψ(−W ), X) ∝ p(W )QTt=1p(θ2,t|θ2,t−1, W ) ∝ |W |−1/2αW−pexp {−1/2tr(W−1β W)} QT t=1|W | −1/2 exp {−1/2(θ2,t − θ2,t−1)0W−1(θ2,t− θ2,t−1)} ∝ |W |−1/2αW−p exp {−1/2tr(W−1βW)} |W | −T /2 exp n −1/2PT t=1(θ2,t− θ2,t−1) 0W−1 2,t− θ2,t−1) o ∝ |W |−1/2(αW+T )−p expn−1/2htr(W−1βW) + PT t=1(θ2,t− θ2,t−1)0W−1(θ2,t − θ2,t−1) io . Assim, temos o n´ucleo de uma distribui¸c˜ao Wishart invertida com αW + T graus de

liberdade e matriz parˆametro de escala dada por βW +PTt=1(θ2,t− θ2,t−1)(θ2,t − θ2,t−1)0.

2) Condicional completa para λ

De maneira an´aloga, podemos, da equa¸c˜ao (3.4) escrever: p(λ|Y, {θ1}, {θ2}, θ2,0, Ψ(−λ), X) ∝ p(λ) QT t=1p(θ1,t|θ2,t, λ, ρ) ∝ λαλ−1exp {−λβ λ}QTt=1|Ip⊗ Σλ,ρ|−1/2exp {−1/2(θ1,t − 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ)−1(θ1,t− 1N ⊗ Ipθ2,t)} ∝ λαλ−1|I p⊗ Σλ,ρ|−T /2exp n −λβλ− 1/2 PT t=1(θ1,t− 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ)−1(θ1,t− 1N ⊗ Ipθ2,t) o . Da rela¸c˜ao acima podemos concluir que a distribui¸c˜ao condicional completa para λ

n˜ao tem forma analiticamente fechada.

3) Condicional completa para ρ

De maneira an´aloga, podemos, da equa¸c˜ao (3.4) escrever: p(ρ|Y, {θ1}, {θ2}, θ2,0, Ψ(−ρ), X) ∝ p(ρ) QT t=1p(θ1,t|θ2,t, λ, ρ) ∝ (1 ρ) αρ+1 exp n −1 ρβρ o QT t=1|Ip⊗ Σλ,ρ|−1/2exp−12(θ1,t− 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ)−1(θ1,t− 1N ⊗ Ipθ2,t) ∝ (1 ρ) αρ+1 |Ip⊗ Σλ,ρ|−T /2exp n −1 ρβρ− 1 2 PT t=1(θ1,t− 1N ⊗ Ipθ2,t) 0(I p⊗ Σλ,ρ)−1(θ1,t− 1N ⊗ Ipθ2,t) o .

(42)

Da rela¸c˜ao acima podemos concluir que a distribui¸c˜ao condicional completa para ρ n˜ao tem forma analiticamente fechada.

4) Condicionais completas para θ1,t, t = 1, ..., T

De maneira an´aloga, podemos, da equa¸c˜ao (3.4) escrever: p(θ1,t|Y, {θ1}(−θ1,t), {θ2}, θ2,0, Ψ, X) ∝ p(θ1,t|θ2,t, λ, ρ) QN i=1p(yt(si)|θ1,t(si)) ∝ exp−1 2(θ1,t− 1N ⊗ Ipθ2,t) 0(I p⊗ Σλ,ρ)−1(θ1,t − 1N ⊗ Ipθ2,t) × QN i=1 h

exp {− exp {x0t(si)θ1,t(si)}} {exp {x0t(si)θ1,t(si)}} yt(si)i ∝ exp−1 2(θ1,t− 1N ⊗ Ipθ2,t) 0(I p⊗ Σλ,ρ)−1(θ1,t − 1N ⊗ Ipθ2,t) × expn−PN i=1[exp(x 0 t(si)θ1,t(si))] o QN i=1 n [exp(x0t(si)θ1,t(si))] yt(si)o .

Da rela¸c˜ao acima podemos concluir que as distribui¸c˜oes condicionais completas para θ1,t, t = 1, ..., T n˜ao tˆem forma analiticamente fechada.

5) Condicionais completas para θ2,t, t = 1, ..., T − 1

Neste caso, vemos da equa¸c˜ao (3.4) que:

p(θ2,t|Y, {θ1}, {θ2}(−θ2,t), θ2,0, Ψ, X) ∝ p(θ2,t|θ2,t−1, W )p(θ2,t+1|θ2,t, W )p(θ1,t|θ2,t, λ, ρ) ∝ exp−1 2(θ2,t− θ2,t−1) 0W−1 2,t− θ2,t−1) exp −12(θ2,t+1− θ2,t)0W−1(θ2,t+1− θ2,t) × exp−12(θ1,t− 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ) −1 (θ1,t− 1N ⊗ Ipθ2,t) .

Usando o fato de que as trˆes distribui¸c˜oes no lado direito da equa¸c˜ao acima s˜ao normais, ´e f´acil ver que as distribui¸c˜oes condicionais para θ2,t, t = 1, ..., T − 1 ser˜ao

tamb´em normais com parˆametros B2,tb2,t e B2,t, em que:

B2,t =(1N ⊗ Ip)0(Ip ⊗ Σλ,ρ) −1 (1N ⊗ Ip) + 2W−1 −1 , b2,t = (1N ⊗ Ip)0(Ip⊗ Σλ,ρ) −1 θ1,t+ W−1(θ2,t−1+ θ2,t+1).

(43)

p(θ2,t|Y, {θ1}, {θ2}(−θ2,t), θ2,0, Ψ, X) ∝ exp− 1 2[(θ2,t− θ2,t−1) 0W−1 2,t − θ2,t−1)+ +(θ2,t+1− θ2,t)0W−1(θ2,t+1− θ2,t) + (θ1,t − 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ) −1 (θ1,t− 1N ⊗ Ipθ2,t)]}, mas (θ2,t− θ2,t−1)0W−1(θ2,t− θ2,t−1) + (θ2,t+1− θ2,t)0W−1(θ2,t+1− θ2,t)+ +(θ1,t − 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ) −1 (θ1,t− 1N ⊗ Ipθ2,t)

pode ser reescrito apenas como fun¸c˜ao de θ2,t como (θ2,t− B2,tb2,t)0B2,t−1(θ2,t − B2,tb2,t)

mais um termo que n˜ao depende de θ2,t.

Assim temos o n´ucleo de uma distribui¸c˜ao normal com os parˆametros j´a especificados acima.

Para derivarmos as condicionais completas de θ2,0e θ2,T, basta observarmos da equa¸c˜ao

(3.4) que:

• p(θ2,0|Y, {θ1}, {θ2}, Ψ, X) ∝ p(θ2,0)p(θ2,1|θ2,0, W );

• p(θ2,T|Y, {θ1}, {θ2}(−θ2,T), θ2,0, Ψ, X) ∝ p(θ1,T|θ2,T, Σλ,ρ)p(θ2,T|θ2,T −1, W ).

E, assim, com um racioc´ınio an´alogo ao usado para obter as distribui¸c˜oes condicionais completas para θ2,t, t = 1, ..., T − 1 podemos concluir que:

• (θ2,0|Y, {θ1}, {θ2}, Ψ, X) ∼ N (B2,0b2,0, B2,0) em que B2,0 =C0−1+ W−1 −1 e b2,0 = C0−1µ0+ W−1θ2,1; • (θ2,T|Y, {θ1}, {θ2}(−θ2,T), θ2,0, Ψ, X) ∼ N (B2,Tb2,T, B2,T) em que B2,T =(1N ⊗ Ip)0(Ip⊗ Σλ,ρ) −1 (1N ⊗ Ip) + W−1 −1 e b2,T = (1N ⊗ Ip)0(Ip⊗ Σλ,ρ) −1 θ1,T + W−1θ2,T −1.

Algoritmo para a Estima¸c˜ao de Modelos Dinˆamicos Hier´arquicos

Como a distribui¸c˜ao a posteriori (3.4) n˜ao tem solu¸c˜ao anal´ıtica, os parˆametros em Φ s˜ao amostrados atrav´es de um algoritmo que utiliza amostrador de Gibbs (Gamerman e Lopes (2006)). O algoritmo ´e descrito abaixo:

(44)

1. Dˆe valores iniciais para todos os parˆametros e fa¸ca j = 1.

2. Amostre W da distribui¸c˜ao condicional completa a posteriori deste parˆametro. 3. Amostre (θ2,0, {θ2}) atrav´es do algoritmo FFBS (Carter e Kohn (1994) e Fr¨

uhwirth-Schnatter (1994)).

4. Amostre λ, ρ e {θ1} atrav´es de passos de Metropolis-Hastings (Gamerman e Lopes

(2006)), ap´os especificar distribui¸c˜oes propostas adequadas.

5. Fa¸ca j = j + 1 e retorne ao passo 2 at´e que a convergˆencia seja obtida.

Para realizar o passo 3, note que:

p({θ2}|{θ1}, W, Σλ,ρ) = p(θ2,T|{θ1}, W, Σλ,ρ)

QT

t=1p(θ2,T −t|θ2,T −t+1, {θ1}, W, Σλ,ρ)

(3.5) A equa¸c˜ao (3.5) mostra que para gerarmos uma observa¸c˜ao da distribui¸c˜ao conjunta de {θ2}, podemos seguir os seguintes passos:

1. gerar θ2,T de p(θ2,T|{θ1}, W, Σλ,ρ);

2. gerar θ2,T −1 de p(θ2,T −1|θ2,T, {θ1}, W, Σλ,ρ), em que θ2,T ´e substitu´ıdo pelo valor que

acabou de ser gerado;

3. gerar θ2,T −2 de p(θ2,T −2|θ2,T −1, {θ1}, W, Σλ,ρ);

4. para t variando de T −3 at´e 1 repetir este procedimento at´e gerar θ2,0de p(θ2,0|θ2,1, {θ1}, W, Σλ,ρ).

Portanto, tudo o que resta fazer ´e derivar a distribui¸c˜ao de (θ2,t|θ2,t+1, {θ1}, W, Σλ,ρ).

Pelo teorema de Bayes podemos escrever,

p(θ2,t|θ2,t+1, {θ1}, W, Σλ,ρ) ∝ p(θ2,t+1|θ2,t, {θ1}, W, Σλ,ρ)p(θ2,t|{θ1}, W, Σλ,ρ) (3.6)

(45)

1. (θ2,t|{θ1}, W, Σλ,ρ) ∼ N (Mt∗, Ct∗) com • M∗ t = M ∗ t−1+ R ∗ t(1N ⊗ Ip)0Q∗t −1 (θ1,t − 1N ⊗ IpMt−1∗ ); • C∗ t = R ∗ t − R ∗ t(1N ⊗ Ip)0Q∗t −1 (1N ⊗ Ip)Rt∗ onde Q∗t = (Ip⊗ Σλ,ρ) + (1N⊗ Ip)R∗t(1N⊗ Ip)0, R∗t = W + Ct−1∗ , M0∗ = µ0 e C0∗ = C0. 2. (θ2,t+1|θ2,t, {θ1}, W, Σλ,ρ) ∼ N (θ2,t, W ). Ent˜ao tem-se, p(θ2,t|θ2,t+1, {θ1}, W, Σλ,ρ) ∝ exp−21(θ2,t− Mt∗)0Ct∗ −1 (θ2,t− Mt∗)+ +(θ2,t+1− θ2,t)0W−1(θ2,t+1− θ2,t)]} ∝ exp−12(θ2,t− h∗t) 0H∗ t −1 (θ2,t− h∗t)  onde Ht∗ =Ct∗−1+ W−1−1 e h∗t = Ht∗(Ct∗−1Mt∗+ W−1θ2,t+1). Portanto, (θ2,t|θ2,t+1, {θ1}, W, Σλ,ρ) ∼ N (h∗t, H ∗ t).

Assim, para t variando de 1 at´e T , calculamos os valores de Mt∗e Ct∗e os armazenamos. Em seguida geramos θ2,T de N (MT∗, CT∗). E, depois, para t variando de T − 1 at´e zero,

geramos θ2,t da distribui¸c˜ao N (h∗t, H ∗ t).

Previs˜ao h Passos a Frente

Uma aplica¸c˜ao interessante aqui ´e a realiza¸c˜ao de previs˜oes a longo prazo usando os resultados obtidos na gera¸c˜ao da amostra da distribui¸c˜ao a posteriori. A ideia por tr´as desta aplica¸c˜ao ´e bastante simples e, na verdade, implica em gerar observa¸c˜oes da distribui¸c˜ao a posteriori conjunta de (YT +h, θ1,T +h, θ2,T +h, Φ|Y ). Podemos escrever:

p(YT +h, θ1,T +h, θ2,T +h, Φ|Y ) = p(YT +h, θ1,T +h, θ2,T +h|Y, Φ)p(Φ|Y )

= p(YT +h|θ1,T +h, θ2,T +h, Φ, Y )p(θ1,T +h|θ2,T +h, Φ, Y )p(θ2,T +h|Φ, Y )p(Φ|Y )

(46)

p(Φ|Y ) pode ser amostrado atrav´es do algoritmo descrito na se¸c˜ao anterior. As dis-tribui¸c˜oes de (YT +h|θ1,T +h) e (θ1,T +h|θ2,T +h, λ, ρ) s˜ao conhecidas, e p(θ2,T +h|θ2,T, W ) pode

ser facilmente encontrada atrav´es do uso repetido da equa¸c˜ao θ2,T = θ2,T −1 + wT, com

wT ∼ N (0, W ). Utilizando propriedades da distribui¸c˜ao normal, temos que:

(θ2,T +h|θ2,T, W ) ∼ N (θ2,T, hW ).

Assim, para gerar uma amostra da distribui¸c˜ao a posteriori de YT +h ´e necess´ario

adi-cionar um passo ao algoritmo apresentado anteriormente em que θ2,T +h ´e amostrado

de p(θ2,T +h|θ2,T, W ), θ1,T +h ´e amostrado de p(θ1,T +h|θ2,T +h, λ, ρ) e finalmente YT +h ´e

amostrado de p(YT +h|θ1,T +h).

Interpola¸c˜ao Espacial

Suponha que os dados s˜ao observados em um conjunto de regi˜oes {s1, ..., sN}, e agora

estamos interessados em interpolar vari´aveis respostas em outras r regi˜oes, coletadas no conjunto {sN +1, ..., sN +r}, para um dado per´ıodo de tempo t.

Seja Yt◦ o vetor N -dimensional de valores observados e µ◦t o vetor N -dimensional que cont´em suas respectivas m´edias, e seja Yn

t o vetor r-dimensional de valores a serem

inter-polados para um per´ıodo de tempo t fixo e µn

t o vetor contendo suas respectivas m´edias.

Do mesmo jeito defina F1t◦ como uma matriz de tamanho N ×N.p correspondendo `a matriz de covari´aveis relacionadas `as vari´aveis respostas observadas e θ◦1,t como seus coeficientes. Analogamente, defina Fn

1t como uma matriz de tamanho r × r.p correspondendo `a matriz

de covari´aveis relacionadas `as vari´aveis respostas n˜ao observadas e θn

1,t como seus

coefi-cientes Defina tamb´em ◦2,t = ◦2,t(s1), ..., ◦2,t(sN) )0 e n2,t = n2,t(sN +1), ..., n2,t(sN +r) )0, e

(47)

yt◦(si) ∼ P oisson(µ◦t(si)), i = {1, ..., N } e t = {1, ..., T } , yn t(sN +j) ∼ P oisson(µnt(sN +j)), j = {1, ..., r} e t = {1, ..., T } ,   log(µ◦t) log(µn t)  =   F1,t◦ Fn 1,t     θ◦1,t θn 1,t  ,   θ1,t◦ θn 1,t  =   F2,t◦ Fn 2,t  θ2,t+   ◦2,t n 2,t  ,   ◦2,t n 2,t  |λ, ρ ∼ N  0,   Σ◦λ,ρ Σ◦nλ,ρ Σn◦ λ,ρ Σnλ,ρ  ⊗ Ip  , θ2,t = θ2,t−1+ wt, wt ∼ N (0, W ),

sendo Σ◦λ,ρ, Σ◦nλ,ρ, Σn◦λ,ρ e Σnλ,ρ parti¸c˜oes de Σλ,ρ, obtidas atrav´es da fun¸c˜ao que define a

estrutura espacial de θ1,t.

Sob a hip´otese de F1,t◦ e Fn

1,t serem conhecidas, a distribui¸c˜ao conjunta a posteriori de

Ytn, θ1,tn , θ◦1,t, θ2,t e ψ ´e dada por:

p(Ytn, θn1,t, θ◦1,t, θ2,t, ψ|Yt◦) = p(Y n t , θ n 1,t|θ ◦ 1,t, θ2,t, ψ, Yt◦)p(θ ◦ 1,t, θ2,t, ψ|Yt◦) = p(Ytn|θ1,tn , ψ)p(θn1,t1,t◦ , θ2,t, ψ)p(θ1,t◦ , θ2,t, ψ|Yt◦)

esta distribui¸c˜ao ´e encontrada a partir do fato de que dados (θn

1,t, ψ), Ytnn˜ao depende de θ1,t◦ , θ2,t e Yt◦ e dados (θ ◦ 1,t, θ2,t, ψ), θn1,t n˜ao depende de Y ◦ t .

Para amostrar desta distribui¸c˜ao amostramos de cada distribui¸c˜ao da equa¸c˜ao acima separadamente. Primeiro, uma amostra de p(θ1,t◦ , θ2,t, ψ|Yt◦) ´e obtida atrav´es do algoritmo

descrito anteriormente. Ent˜ao uma amostra da distribui¸c˜ao de (θn 1,t|θ

1,t, θ2,t, ψ) ´e obtida

utilizando o resultado abaixo, que ´e encontrado utilizando propriedades da distribui¸c˜ao normal: (θn 1,t|θ ◦ 1,t, θ2,t, ψ) ∼ N (M, H) em que M = F2,tnθ2,t+ (Σnλ,ρ⊗ Ip)(Σλ,ρ⊗ Ip) −1 (θ◦1,t− F2,t◦ θ2,t) e H = (Σnλ,ρ − Σn◦λ,ρ(Σ ◦ λ,ρ) −1 Σ◦nλ,ρ) ⊗ Ip. Finalmente amostramos de (Yn

t |θ1,tn , ψ) sabendo que p(Y n t |θ n 1,t, ψ) = r Y j=1 p(Ytn(sN +j)|θn1,t(sN +j), ψ) e que (Ytn(sN +j)|θn1,t(sN +j), ψ) ∼ P oisson(µnt(sN +j)).

(48)

3.2.2

Modelo 2

Este modelo difere do Modelo 1, pois este apresenta, na fun¸c˜ao que modela a m´edia da observa¸c˜ao, um efeito aleat´orio que traz mais incerteza para o modelo. Vamos considerar aqui o modelo (3.2) descrito anteriormente. Ele pode ser reescrito da seguinte forma:

yt(si) ∼ P oisson(µt(si)),

log(µt(si)) = x0t(si)θ1,t(si) + 1,t(si), 1,t(si) ∼ N (0, σ2),

θ1,t(si) = θ2,t+ 2,t(si), 2,t(.) ∼ N (0, Σλ,ρ⊗ Ip),

θ2,t = θ2,t−1+ wt, wt∼ N (0, W ).

(3.7)

Distribui¸c˜oes Condicionais Completas

Sob o modelo (3.7) e considerando o caso em que p > 1, as quantidades desconhecidas que devem ser estimadas s˜ao σ2, ρ, W , λ, µt, θ1,t, para t = 1, ..., T e θ2,t para t = 0, ..., T .

As distribui¸c˜oes a priori dos parˆametros s˜ao dadas por:

θ2,0 ∼ N (µ0, C0), σ2 ∼ GI(ασ, βσ), ρ ∼ GI(αρ, βρ), W ∼ W I(αW, βW) e λ ∼ Ga(αλ, βλ).

Defina Y = {Y1, ..., YT}, {µ} = {µ1, ..., µT}, {θ1} = {θ1,1, ..., θ1,T}, {θ2} = {θ2,1, ..., θ2,T},

Ψ = {σ2, λ, ρ, W } e Φ como a cole¸c˜ao de todos os parˆametros, tal que Φ = {{µ}, {θ

1}, {θ2}, θ2,0, Ψ}.

A distribui¸c˜ao conjunta a posteriori dos parˆametros desconhecidos do modelo (3.7) ´e pro-porcional a: p(Φ|Y ) ∝ p(θ2,0)p(ρ)p(W )p(λ)p(σ2) T Y t=1 N Y i=1 p(yt(si)|µt(si))× ×QT t=1 QN i=1p(µt(si)|θ1,t(si), σ 2)QT t=1 QN i=1p(θ1,t(si)|θ2,t, λ, ρ) QT t=1p(θ2,t|θ2,t−1, W ). (3.8)

Assim as distribui¸c˜oes condicionais completas a posteriori de W , λ, ρ e θ2,t, t = 1, ..., T

Referências

Documentos relacionados