Modelos com Coeficientes Dinâmicos variando no Espaço para Dados na Família Exponencial

(1)

Modelos com Coeficientes Dinˆ

amicos

Variando no Espa¸

co para Dados da Fam´ılia

Exponencial

por

N´ıcia Cust´

odio Hansen

DME - IM - UFRJ

2009

(2)

Modelos com Coeficientes Dinˆ

amicos

Variando no Espa¸

co para Dados da Fam´ılia

Exponencial

N´ıcia Cust´

odio Hansen

Disserta¸cão submetida ao Corpo Docente do Instituto de Matemática - Departamento de Métodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obten¸cão do grau de Mestre em Estat´ıstica.

Aprovada por:

Prof. Fl´avia M. P. F. Landim. PhD - IM - UFRJ - Orientadora.

Prof. Marina Silva Paez. PhD - IM - UFRJ - Orientadora.

Prof. Dani Gamerman. PhD - IM - UFRJ.

Prof. Mariane Branco Alves. PhD - DE - UERJ.

Rio de Janeiro, RJ - Brasil 2009

(3)

FICHA CATALOGR ´AFICA

Hansen, N´ıcia Cust´odio.

Modelos com Coeficientes Dinˆamicos Variando no Espa¸co para Dados da Fam´ılia Exponencial \

N´ıcia Cust´odio Hansen.

Rio de Janeiro: UFRJ, IM, DME, 2009.

Disserta¸cão - Universidade Federal do Rio de Janeiro, IM, DME. 1. Introdu¸cão. 2. Revisão de Literatura.

3. Modelos com Coeficientes Dinâmicos Variando no Espa¸co para Dados da Fam´ılia Exponencial. 4. Estudos Simulados. 5. Aplica¸cão. 6. Conclusões.

(Mestrado-UFRJ/IM/DME) I. Landim, Fl´avia

(4)

(5)

“Tu te tornas eternamente respons´avel por aquilo que cativas”. Antoine de Saint-Exup´ery.

(6)

Agradecimentos

A Deus, por me dar saúde e condi¸cões de chegar até aqui.

Ao meu marido Fábio por ser uma pessoa fantástica, pela compreensão, apoio e paciência tão importantes para mim. Agrade¸co por estar sempre ao meu lado e por me ajudar em todos os momentos.

Aos meus pais Sueli e Idelanir e à minha irmã Tainê por todo apoio e incentivo fun-damentais para mais esta etapa da minha vida.

`

As minha orientadoras Flávia e Marina pela orienta¸cão, dedica¸cão e competência. Agrade¸co também aos demais professores do departamento que tenham contribu´ıdo de alguma forma para minha forma¸cão e ao CNPQ por ter financiado meus estudos durante o per´ıodo do Mestrado.

`

As minhas amigas da turma de Mestrado de 2007: Denise, Josiane, Mariana, Patr´ıcia e Vera, e aos meus outros amigos do departamento: Alexandre, João, Targino, Valmária e Vin´ıcius. Nunca me esquecerei dos nossos cafés. Muito obrigada pela amizade e pelos momentos divertidos.

(7)

Resumo

O objetivo principal deste trabalho é propor uma classe de modelos hierárquicos para tratar dados da fam´ılia exponencial observados em tempo discreto e espa¸co cont´ınuo, em que os coeficientes de regressão variam suavemente no tempo e no espa¸co. Este tipo de modelo pode ser utilizado em situa¸cões em que o efeito de um ou mais processos explicativos na variável resposta apresenta uma heterogeneidade substancial em ambas dimensões. Uma motiva¸cão para este estudo é o fato de que modelos espa¸co-temporais têm sido muito utilizados nas últimas décadas, principalmente com conjuntos de da-dos ambientais, pois esse tipo de dado tem, em geral, transi¸cões suaves no tempo e no espa¸co. Em geral, entretanto, assume-se que esses dados têm distribui¸cão normal, o que muitas vezes não é uma hipótese realista. Descrevemos como fazer inferência, previsão e interpola¸cão espacial para esta classe de modelos utilizando técnicas de simula¸cão. A per-formance do algoritmo para estimar os parâmetros do modelo e a previsão para um tempo fixo é investigada através de conjuntos de dados simulados. A metodologia proposta é utilizada para modelar médias anuais de quantidade de chuva em várias localiza¸cões da Austrália.

Palavras Chaves: Dados exponenciais; Modelos dinˆamicos; Modelos espa¸co-temporais; Estat´ıstica Bayesiana; M´etodos de Monte Carlo .

(8)

Abstract

The main objective of this work is to propose a class of hierarchical models to handle data from exponential family observed in discrete time and space continuum, where the regression coefficients vary smoothly in time and space. This kind of model is particu-larly appealing in situations where the effect of one or more explanatory processes on the response present substantial heterogeneity in both dimensions. One motivation for this study is the fact that space-time models have been used in recent decades, particularly with environmental data sets, because this type of data has in general smooth transitions in time and space. It is usual, however, to assume that the data has normal distribu-tion, which is often not a realistic assumption. We describe how to perform inference, forecasting in time and interpolation in space for this class of models using simulation techniques. The performance of the algorithm to estimate the parameters of the model and to perform prediction in time is investigated with simulated data sets. The proposed methodology is used to model average annual amount of rain in several locations in Aus-tralia.

Keywords: Exponential data; Dynamic models; Spatial-temporal models; Bayesian statis-tics; Monte Carlo methods.

(9)

Sum´

ario

1 Introdu¸c˜ao 1

2 Revis˜ao de Literatura 3

2.1 No¸c˜oes de Inferˆencia Bayesiana . . . 3

2.1.1 Teorema de Bayes . . . 4

2.1.2 Estima¸c˜ao de Parˆametros . . . 4

2.2 Modelos Dinˆamicos Lineares Normais . . . 6

2.2.1 Modelo Polinomial de Primeira Ordem . . . 7

2.2.2 Modelo Polinomial de Segunda Ordem . . . 7

2.2.3 Inferˆencia nos Modelos Dinˆamicos Lineares . . . 8

2.2.4 Previs˜ao no Tempo . . . 9

2.3 Modelos Dinˆamicos Generalizados . . . 10

2.3.1 Fam´ılia Exponencial . . . 10

2.3.2 Estrutura Geral do Modelo . . . 12

2.3.3 Inferˆencia nos Modelos Dinˆamicos Lineares Generalizados . . . 13

2.3.4 Previs˜ao no Tempo . . . 15

2.4 Modelagem de Estruturas Espaciais . . . 16

2.4.1 Tipos de Dados Espaciais . . . 16

2.4.2 Modelos Geoestat´ısticos: Modelos para Dados Cont´ınuos . . . 17

2.5 Monte Carlo via Cadeias de Markov (MCMC) . . . 20

2.5.1 Amostrador de Gibbs . . . 20

2.5.2 Algoritmo de Metropolis-Hastings . . . 21

(10)

3 Modelos com Coeficientes Dinâmicos Variando no Espa¸co para Dados da Fam´ılia Exponencial 27 3.1 Modelo Geral . . . 28 3.2 Distribui¸cão Poisson . . . 29 3.2.1 Modelo 1 . . . 29 3.2.2 Modelo 2 . . . 38 3.3 Distribui¸cão Gama . . . 41 3.3.1 Modelo 1 . . . 41 3.3.2 Modelo 2 . . . 46 4 Estudos Simulados 49 4.1 Distribui¸cão Poisson . . . 50 4.1.1 Modelo 1 . . . 50 4.1.2 Modelo 2 . . . 55 4.2 Dsitribui¸cão Gama . . . 59 4.2.1 Modelo 1 . . . 59 4.2.2 Modelo 2 . . . 63 5 Aplica¸cão 67 6 Conclusões 78

(11)

Cap´ıtulo 1

Introdu¸

c˜

ao

A modelagem de conjuntos de dados ambientais tem sido o objetivo de várias pesquisas em estat´ıstica nas últimas décadas. Particularmente, modelos espa¸co-temporais têm sido utilizados para modelar esse tipo de dado, considerando o fato de que processos ambien-tais tem, em geral, transi¸cões suaves no tempo e no espa¸co.

Este trabalho tem como objetivo principal propor uma classe de modelos hierárquicos para tratar dados da fam´ılia exponencial observados em tempo discreto e espa¸co cont´ınuo, em que os coeficientes de regressão variam suavemente no tempo e no espa¸co. Os mode-los são formulados com transi¸cões dinâmicas no tempo, ou seja, apresentamos aqui uma classe de modelos dinâmicos para dados espa¸co-temporais.

Gamerman e Migon (1993) propuseram modelos dinâmicos hierárquicos para respos-tas univariadas restringindo as variâncias do modelo a um fator de escala comum. Landim (1998) apresentou uma classe de modelos dinâmicos hierárquicos para observa¸cões matriz-variadas. Paez et al. (2008) exploraram a mesma ideia de Landim (1998), porém apresen-tando uma estrutura paramétrica que leva em considera¸cão a correla¸cão espacial entre as observa¸cões feitas em diferentes locais do espa¸co e especificando uma matriz espa-cialmente estruturada com um número pequeno de parâmetros. Com esta restri¸cão, a correla¸cão espacial pode ser capturada sem a necessidade de estimar matrizes de co-variâncias completamente desconhecidas. Também em Paez et al., interceptos e

(12)

coefi-cientes de regress˜ao podem variar no espa¸co e no tempo. Todos os trabalhos citados acima trataram de dados normalmente distribu´ıdos. Estendendo a ideia de Paez et al. (2008) trataremos de dados univariados pertencentes `a fam´ılia exponencial.

Neste trabalho utilizamos uma abordagem Bayesiana para fazer inferência paramétrica e assim previsões podem ser feitas naturalmente baseadas na descri¸cão probabil´ıstica do modelo. A inferência é realizada através da estima¸cão da distribui¸cão a posteriori dos parâmetros do modelo utilizando métodos de MCMC (Gamerman e Lopes (2006)).

O trabalho está organizado da seguinte maneira: no cap´ıtulo 2 apresentamos uma revisão de alguns conceitos que serão abordados. No cap´ıtulo 3 é feita a descri¸cão do modelo aqui proposto, apresentamos resultados da inferência para os parâmetros des-conhecidos assim como o algoritmo utilizado para gerar amostras das distribui¸cões a posteriori. No cap´ıtulo 4 temos resultados de dois exemplos de aplica¸cão do modelo com dados simulados. No primeiro caso geramos dados de contagem com distribui¸cão Poisson, e no segundo caso o modelo foi aplicado a dados gerados da distribui¸cão Gama. Na se¸cão 5 apresentamos os resultados da aplica¸cão do modelo a médias anuais de quantidade de chuva em algumas esta¸cões de monitoramento da Austrália e, finalmente, algumas considera¸cões com base nos resultados obtidos são feitas no cap´ıtulo 6.

(13)

Cap´ıtulo 2

Revis˜

ao de Literatura

No presente cap´ıtulo fazemos uma revisão de alguns conceitos que serão abordados ao longo deste trabalho: apresentamos os principais fundamentos da inferência sob o enfoque Bayesiano, definimos o modelo dinâmico linear normal e o modelo dinâmico li-near generalizado e discutimos suas principais propriedades. Apresentamos também uma introdu¸cão à modelagem espa¸co-temporal, assim como alguns modelos espa¸co-temporais comumente encontrados na literatura. Por fim, apresentamos os métodos MCMC mais utilizados e algumas técnicas de diagnósticos de convergência.

2.1 No¸

c˜

oes de Inferˆ

encia Bayesiana

A inferência estat´ıstica tem como objetivo tirar conclusões, a partir de um conjunto de dados, a respeito de quantidades não observadas.

As conclusões obtidas através da inferência Bayesiana a respeito de um determinado parâmetro θ, ou dado não observado eY , são baseadas em especifica¸cões probabil´ısticas. Tais especifica¸cões geralmente são feitas condicionalmente a uma amostra de valores ob-servados, relacionados de alguma forma com as quantidades de interesse.

A distribui¸cão a priori é a única novidade introduzida pela análise Bayesiana em rela¸cão à frequentista, além da forma de interpretar probabilidades. Essa distribui¸cão

(14)

representa o conhecimento a respeito do valor que o parˆametro θ assume antes de se obter o resultado do experimento.

2.1.1 Teorema de Bayes

Gamerman e Migon (1999) enunciam o teorema de Bayes da seguinte forma: seja H a informa¸cão dispon´ıvel inicialmente para alguma quantidade de interesse. Seja θ o vetor de parâmetros desconhecidos, que pode assumir valores em Θ. Supondo que a informa¸cão inicial pode ser expressa em termos probabil´ısticos p (θ|H), temos uma descri¸cão com-pleta da incerteza a respeito de θ.

Se a informa¸cão contida em H não for suficiente e for poss´ıvel observar uma amostra x de um vetor aleatório X relacionado com θ, pode-se atualizar a informa¸cão dispon´ıvel para fazer inferência a respeito de θ, que passará a ser H∗ = H ∪ {X = x}. Conhecendo a distribui¸cão amostral de X, dada por p (X|θ, H), temos que:

p (θ|H∗) = p (θ|x, H) = p (θ, x|H) p (x|H) = p (x|θ, H) p (θ|H) p (x|H) em que p (x|H) = Z θ p (x, θ|H) dθ.

Esse resultado ´e conhecido como teorema de Bayes e gera uma regra para atualizar probabilidades a respeito de θ, come¸cando em p (θ|H) e levando a p (θ|x, H).

2.1.2 Estima¸

c˜

ao de Parˆ

ametros

Um dos principais problemas tratados pela inferência estat´ıstica é a da estima¸cão de parâmetros. Vários estimadores já foram propostos satisfazendo propriedades desejáveis.

(15)

Estima¸c˜ao Pontual

No contexto estat´ıstico, a escolha de uma estimativa para um determinado parâmetro θ, que chamaremos de ˆθ, é uma decisão a ser tomada. Gamerman e Migon (1999) especificam um problema de decisão através da descri¸cão de três espa¸cos:

• espa¸co de parˆametros Θ;

• espa¸co de resultados poss´ıveis de um experimento Ω; • espa¸co de poss´ıveis a¸c˜oes A.

Uma regra de decisão δ é uma fun¸cão definida em Ω com valores em A, tal que δ : Ω → A. A fun¸cão de perda deve estar associada a cada decisão δ(x) e cada poss´ıvel valor de θ ∈ Θ, e pode ser interpretada como a puni¸cão por tomar a decisão δ quando θ ´

e o verdadeiro valor do parâmetro. Essa fun¸cão será denotada por L(δ, θ).

O risco associado a uma regra de decisão, denotado por R(δ), é a perda esperada a posteriori, dada por R(δ) = Eθ|x[(δ, θ)]. Um estimador é uma regra de decisão

´

otima com respeito a uma dada fun¸cão de perda. As principais fun¸cões de perda são a perda quadrática, definida por L1(δ, θ) = (δ − θ)2, a perda absoluta, definida por

L2(δ, θ) = |δ − θ| e a perda zero-um, definida por L3(δ, θ) = lim→0I|θ−δ|([, ∞]), em que

Ix(A) é a fun¸cão que assume o valor 1 se x ∈ A e 0, caso contrário.

Os estimadores associados às perdas quadrática, absoluta e zero-um, são a média, a mediana e a moda a posteriori, respectivamente.

Estima¸c˜ao por Intervalo

Um inconveniente da estima¸cão pontual é que ela não nos informa sobre a precisão da estimativa, e restringe toda informa¸cão presente na distribui¸cão a posteriori a um único resultado. Uma forma de contornar este problema é através do cálculo de intervalos de

(16)

credibilidade.

Os intervalos de credibilidade Bayesianos, ao contrário dos intervalos de confian¸ca frequentistas, são calculados de forma natural através da distribui¸cão a posteriori do parâmetro em questão.

Suponha que θ seja um parâmetro desconhecido que pode assumir valores em Θ. Uma região C ⊂ Θ é dita um intervalo de credibilidade Bayesiano 100(1 − α)% para θ se p (θ ∈ C|x) ≥ 1 − α. Nesse caso, 1 − α é chamado de n´ıvel de credibilidade.

2.2 Modelos Dinˆ

amicos Lineares Normais

Os modelos dinâmicos lineares (MDL) foram introduzidos por Harrison e Stevens (1976) e estão bem documentados em West e Harrison (1997). Esses modelos são carac-terizados por um par de equa¸cões: equa¸cão observacional e equa¸cão de evolu¸cão, que são dadas respectivamente por

Yt= Ft0θt+ t, t∼ N (0, Vt) e (2.1)

θt= Gtθt−1+ wt, wt ∼ N (0, Wt), (2.2)

em que Yt é uma sequência de observa¸cões feitas ao longo do tempo, condicionalmente

independentes dada a sequência de parâmetros θt; Ft é um vetor p × 1 de variáveis

ex-plicativas; θté um vetor de parâmetros p × 1; Gté uma matriz de evolu¸cão de dimensão

p × p e Vt e Wt são as variâncias dos erros t e wt. Resumindo, um modelo dinâmico

linear ´e completamente especificado pela qu´adrupla {Ft, Gt, Vt, Wt}.

A escolha de Ft e Gt depende do modelo e da natureza dos dados que est˜ao sendo

analisados. Casos particulares dos modelos dinˆamicos lineares incluem o modelo de regress˜ao (fazendo Gt = Ip, a matriz identidade de ordem p, e Wt = 0), e modelos

(17)

lineares de s´eries temporais (fazendo Ft = F , Gt= G, Vt= V e Wt= W ). A seguir ser˜ao

apresentados dois exemplos desses modelos.

2.2.1 Modelo Polinomial de Primeira Ordem

O modelo mais simples em séries temporais é o modelo polinomial de primeira ordem. Esse modelo é completamente especificado pela quádrupla {1, ρ, Vt, Wt}, podendo ser

escrito como

Yt= θt+ t, t∼ N (0, Vt),

θt= ρθt−1+ wt, wt ∼ N (0, Wt).

(2.3)

Se ρ está no intervalo (−1, 1), o modelo é estacionário, se ρ = ±1, o modelo é não estacionário. Apesar de sua simplicidade, esse modelo pode ser aplicado a uma série de problemas cujo objetivo é fazer previsão a curto prazo.

2.2.2 Modelo Polinomial de Segunda Ordem

Esse modelo, um pouco mais elaborado que o anterior, é derivado após a inclusão de um parâmetro extra θ2,t para descrever um processo de crescimento da média. Temos

agora uma modifica¸c˜ao do modelo (2.3), dada por Yt = θ1,t+ t, t∼ N (0, Vt),

θ1,t = ρ1θ2,t+ w1,t, w1,t ∼ N (0, W1,t),

θ2,t = ρ2θ2,t−1+ w2,t, w2,t ∼ N (0, W2,t).

(2.4)

De maneira análoga ao modelo polinomial de primeira ordem, temos que se um dos parâmetros ρ1 e ρ2 é igual a 1, alguma das equa¸cões é não estacionária. O parâmetro θ1,t

(18)

2.2.3 Inferˆ

encia nos Modelos Dinˆ

amicos Lineares

Os aspectos de inferência dos modelos dinâmicos lineares seguem os passos usuais da estat´ıstica Bayesiana, explorando seu aspecto sequencial e combinando duas opera¸cões principais: a evolu¸cão para construir a priori, e a atualiza¸cão para incorporar a nova observa¸cão feita no tempo t. Vamos denotar toda informa¸cão obtida até o per´ıodo de tempo t por Dt= Dt−1∪ {Yt}, incluindo θt e Gt, ∀t, que são quantidades supostamente

desconhecidas. A informa¸c˜ao a priori ´e denotada por D0. Para cada per´ıodo de tempo

t, as distribui¸c˜oes a priori, preditiva e posteriori s˜ao dadas respectivamente por:

sendo a última equa¸cão obtida através do teorema de Bayes. Quando (F, G, V, W )t é

conhecido, a constante de integra¸cão na especifica¸cão acima pode ser facilmente obtida através do Filtro de Kalman (Anderson e Moore (1979)). Neste caso, dados os valo-res de Y1, ..., Yt−1, é fácil predizer Yt e estimar os parâmetros de estado não observáveis

θ1, ..., θt−1 atrav´es das distribui¸c˜oes preditiva p (Yt|Dt−1) e posteriori p (θt−1|Dt−1),

res-pectivamente. Quando Yt ´e observado, a estimativa de θt−1 pode ser atualizada usando

sua distribui¸c˜ao a posteriori dado Dt.

Abaixo apresentamos alguns resultados do modelo dinˆamico linear normal com Vt

des-conhecido. Por simplicidade fazemos Vt = V , ∀t. Vamos denotar a distribui¸c˜ao a

poste-riori de θ no tempo t − 1 por (θt−1|Dt−1, V ) ∼ N (mt−1, V Ct−1) em que N (mt−1, V Ct−1)

denota a distribui¸cão Normal com média mt−1e variância V Ct−1, e a distribui¸cão a

poste-riori marginal de φ = V−1por (φ|Dt−1) ∼ G (nt−1/2, nt−1st−1/2) em que G (nt−1/2, nt−1st−1/2)

denota a distribui¸c˜ao Gama com m´edia nt−1/2

nt−1st−1/2 e variˆancia

nt−1/2

(nt−1st−1/2)2. Al´em disso,

supomos que a priori inicial em t = 0 ´e normal: (θ0|D0, V ) ∼ N (m0, C0), para algum

(19)

1. Condicionalmente a V:

• Evolu¸cão: A distribui¸cão a priori no tempo t será (θt|Dt−1, V ) ∼ N (at, V Rt),

sendo at= Gtmt−1 e Rt= GtCt−1G0t+ Wt.

• A distribui¸c˜ao preditiva um passo a frente ser´a (Yt|Dt−1, V ) ∼ N (ft, V Qt),

sendo ft= Ft0at e Qt= Ft0RtFt

V + 1.

• Atualiza¸cão: A distribui¸cão a posteriori no tempo t será (θt|Dt, V ) ∼ N (mt, V Ct),

com mt= at+ Atet e Ct= Rt− AtA0tQt, onde At= RtFt0/Qt e et= Yt− ft.

2. A precisão φ é atualizada através da rela¸cão (φ|Dt) ∼ G (nt/2, ntst/2), com nt =

nt−1+ 1 e ntst= nt−1st−1+ et2/Qt. 3. Incondicionalmente a V: • (θt|Dt−1) ∼ tnt−1(at, st−1Rt); • (Yt|Dt−1) ∼ tnt−1(ft, Q ∗ t), com Q ∗ t = st−1Qt; e • (θt|Dt) ∼ tnt−1(mt, stCt).

Em que tν(µ, σ2) denota a distribui¸c˜ao t de Student com ν graus de liberdade,

m´edia µ e parˆametro de escala σ.

2.2.4 Previs˜

ao no Tempo

Muitas vezes em modelos temporais existe o interesse em fazer previsões para tempos futuros. Suponha que estamos interessados na distribui¸cão da variável resposta h passos a frente, dadas as observa¸cões passadas. Dessa forma, estamos interessados em obter

(20)

amostras da distribui¸c˜ao (YT +h|Y ), com Y = (Y1, Y2, ..., YT).

Considere o modelo geral descrito pelas equa¸c˜oes (2.1) e (2.2), seja Ft conhecido,

e por simplicidade fa¸ca Gt = G, Vt = V e Wt = W . Definindo θ = (θ1, θ2, ..., θT) e

Φ = {V, G, W, θ}, a distribui¸c˜ao conjunta a posteriori de YT +h, θT +h e Φ pode ser escrita

como

p (YT +h, θT +h, Φ|Y ) = p (YT +h, θT +h|Y, Φ, ) p (Φ|Y )

= p (YT +h|θT +h, Φ, Y ) p (θT +h|Φ, Y ) p (Φ|Y ) (2.8)

= p (YT +h|θT +h, V, Y ) p (θT +h|θT, W, G) p (Φ|Y ) .

A distribui¸c˜ao de (YT +h|θT +h, V, Y ) ´e conhecida e p (θT +h|θT, W, G) pode ser

facil-mente encontrada através de repetidos usos da equa¸cão de evolu¸cão de θt. A obten¸cão da

distribui¸c˜ao a posteriori dos parˆametros Φ pode ser feita utilizando MCMC com passos de Metropolis.

2.3 Modelos Dinˆ

amicos Generalizados

Baseado nos modelos lineares generalizados de Nelder e Wedderburn (1972), os mo-delos dinâmicos generalizados foram propostos por West et al. (1985) permitindo ob-serva¸cões na fam´ılia exponencial como uma extensão aos modelos lineares dinâmicos. Antes de apresentar a estrutura geral do modelo, vamos definir a fam´ılia de distribui¸cões exponencial.

2.3.1 Fam´ılia Exponencial

Considere uma s´erie temporal de observa¸c˜oes Yt, (t = 1, 2, ...), quantidades cont´ınuas

ou discretas tomando valores no espa¸co amostral Y. Se Yttem uma distribui¸c˜ao amostral

(21)

fun¸c˜ao de probabilidade) pode ser descrita como segue. Para algumas quantidades ηt e

Bt, e três fun¸cões conhecidas yt(Yt), a(ηt) e b(Yt, Vt), a densidade é

p (Yt|ηt, Bt) = expB−1t [yt(Yt)ηt− a(ηt)] b(Yt, Bt), (Yt∈ Y). (2.9)

Algumas propriedades desta distribui¸c˜ao s˜ao:

1. Se yt(Yt) = Yt, ηté o parâmetro natural da distribui¸cão, uma quantidade cont´ınua.

2. Bt > 0 é um parâmetro de escala e o parâmetro de precisão da distribui¸cão é

definido como δt= Bt−1.

3. Como uma fun¸cão do parâmetro natural para um Yt fixo, a equa¸cão (2.9), vista

como uma fun¸c˜ao de verossimilhan¸ca de ηt, depende de Yt atrav´es do valor yt(Yt).

4. A fun¸cão a(ηt) é duas vezes diferenciável em ηt. Segue que

µt = E [yt(Yt)|ηt, Bt] = da(ηt) dηt = ˙a(ηt). e V [yt(Yt)|ηt, Bt] = Bta(η¨ t).

5. Geralmente yt(.) ´e a fun¸c˜ao identidade. Em tais casos temos

p (Yt|ηt, Bt) = expBt−1[Ytηt− a(ηt)] b(Yt, Bt), (Yt∈ Y). (2.10)

Tamb´em:

E [Yt|ηt, Bt] = µt= ˙a(ηt), (2.11)

V [Yt|ηt, Bt] = Bt¨a(ηt). (2.12)

EXEMPLO 2.1: O modelo normal usual (Yt|µt, Bt) ∼ N (µt, Bt) ´e um caso especial de

(22)

µt= ηt e b(Yt, Bt) = (2πBt) −1/2

exp−0.5Bt−1Yt2 .

EXEMPLO 2.2: Considere o modelo binomial em que Yt ´e o n´umero de sucessos em

nt > 0 tentativas de Bernoulli com probabilidade de sucesso πt. Aqui Y ´e um conjunto

de inteiros positivos e a fun¸c˜ao de probabilidade ´e

p (Yt|µt, ηt) =            ηt Yt  µtYt(1 − µt) ηt−Yt , (Yt = 0, 1, ..., ηt),

0, caso contr´ario.

Este ´e um caso especial de (2.10) com yt(Yt) = Yt/ηt, ηt= log [µt/(1 − µt)], Bt−1 = δt=

ηt, a(ηt) = log [1 + exp (ηt)], e b (Yt, Bt) =

  ηt Yt  .

Muitas outras distribui¸cões importantes, incluindo a Poisson e a Gama também são casos especiais.

2.3.2 Estrutura Geral do Modelo

Defina as seguintes quantidades no tempo t: • θt um vetor de estados de dimens˜ao n;

• Ft um vetor de regress˜ao conhecido de dimens˜ao n;

• Gt uma matriz de evolu¸c˜ao n × n conhecida;

• ωt um vetor de erros com m´edia zero e matriz de covariˆancias conhecida Wt, ou

seja, ωt ∼ [0, Wt];

• λt= Ft0θt uma fun¸c˜ao linear dos parˆametros do vetor de estados;

(23)

O modelo dinâmico linear generalizado para a série Yt, (t = 1, 2, ...) é definido, assim

como o modelo dinâmico linear normal, pela equa¸cão observacional e pela equa¸cão de evolu¸cão, que são dadas respectivamente por:

p (Yt|ηt) como em (2.10), g(ηt) = λt = Ft0θt, (2.13)

θt= Gtθt−1+ ωt, ωt∼ [0, Wt] . (2.14)

2.3.3 Inferˆ

encia nos Modelos Dinˆ

amicos Lineares Generalizados

Aqui o desenvolvimento será feito em termos de (2.10). Em adi¸cão, o parâmetro de escala Bté considerado conhecido para todo t. A única quantidade desconhecida presente

na densidade (2.10) é o parâmetro natural ηt, ou equivalentemente, a média condicional

de Yt, µt. Note que a densidade de Yt de alguma maneira depende de Dt−1 (em

particu-lar, atrav´es do valor de Bt), assim (2.10) fornece p (Yt|ηt, Bt, Dt−1). Por conveniˆencia, e

já que Bt é assumido conhecido, a dependência explicita no condicionamento será

omi-tida daqui para frente. Logo, a densidade (2.9) ou (2.10) ´e denotada simplesmente por p (Yt|ηt) , (Yt∈ Y).

Agora a ´unica incerteza sobre a distribui¸c˜ao de Yt dado todo conhecimento passado

Dt−1 se deve à incerteza sobre ηt. Segue que a distribui¸cão preditiva um passo a frente é

p (Yt|Dt−1) = R p (Yt|ηt) p (ηt|Dt−1) dηt. (2.15)

Similarmente, uma vez que Yt é observado, a priori é atualizada e a distribui¸cão a

poste-riori de ηt, pelo teorema de Bayes, ´e

p (ηt|Dt) ∝ p (ηt|Dt−1) p (Yt|ηt) . (2.16)

Os cálculos em (2.15) e (2.16) são analiticamente tratáveis neste contexto de fam´ılia ex-ponencial quando a priori pertence a uma fam´ılia de distribui¸cões conjugada.

(24)

Com referˆencia a (2.10), uma densidade a priori de uma fam´ılia conjugada tem a forma:

p (ηt|Dt−1) = c(rt, st)exp [rtηt− sta(ηt)] , (2.17)

com quantidades definidas rt e st (fun¸c˜oes conhecidas de Dt−1). Abaixo apresentamos

alguns coment´arios e propriedades:

1. Dadas as quantidades rt e st, a priori conjugada fica completamente especificada.

Aqui st> 0 e definindo xt = rt/st, (2.17) pode ser escrita como

p (ηt|Dt−1) ∝ exp {st[xtηt− a(ηt)]} .

2. st é o parâmetro de precisão da priori; valores grandes de st implicam uma priori

muito concentrada em sua moda.

Assumindo que rt e st são especificados, é fácil ver que que a densidade preditiva

(2.15) e a posteriori (2.16) s˜ao dadas por: p (Yt|Dt−1) = c(rt, st)b(Yt, Bt) c(rt+ δtYt, st+ δt) , (2.18) e p (ηt|Dt) = c(rt+ δtYt, st+ δt)exp [(rt+ δtYt)ηt− (st+ δt)a(ηt)] . (2.19)

A defini¸cão (2.13) e (2.14) fornece as equa¸cões observacional e de evolu¸cão do modelo no tempo t. Para completar a especifica¸cão deste modelo, precisamos definir mais dois componentes: (a) a distribui¸cão do erro de evolu¸cão ωt; e (b) p (θt−1|Dt−1) que sumariza

toda a informa¸cão e análise a priori no tempo t. Nos modelos dinâmicos lineares, estas duas distribui¸cões eram normais. No contexto de modelos dinâmicos generalizados, as distribui¸cões a priori e a posteriori não serão normais.

Uma suposi¸cão que se faz é considerar que a média e variância da distribui¸cão a posteriori p (θt−1|Dt−1) sejam iguais às do modelo dinâmico linear normal, mas sem a

(25)

p (θt−1|Dt−1) ∼ [mt−1, Ct−1] , (2.20)

Segue de (2.14) que os momentos da priori de θt s˜ao

p (θt|Dt−1) ∼ [at, Rt] (2.21)

em que at = Gtmt−1 e Rt = GtCt−1G0t+ Wt e mt−1 e Ct−1 definidos como no caso dos

modelos dinˆamicos lineares normais.

A distribui¸c˜ao a posteriori no tempo t ser´a p (θt|Dt) = R p (θt|λt, Dt−1) p (λt|Dt) dλt.

Infelizmente, devido à especifica¸cão incompleta da priori conjunta, estes momentos condi-cionais são desconhecidos, não lineares e fun¸cões indeterminadas de λt. Uma sugestão

para estimar estes parˆametros ´e o estimador linear de Bayes (Hartigan (1969); Goldstein (1976)).

2.3.4 Previs˜

ao no Tempo

No tempo t, os momentos a posteriori de θt existem (θt|Dt) ∼ [mt, Ct] , com mt =

at + RtFt(ft∗− ft) /qt, Ct = Rt− RtFtFt0Rt(1 − q∗t/qt) /qt em que ft∗ = E [g(ηt)|Dt] e

q∗_t = V [g(ηt)|Dt].

Da equa¸c˜ao de evolu¸c˜ao (2.14) aplicada nos tempos t+1, ..., t+h, segue que (θt+h|Dt) ∼

[at(h), Rt(h)], com momentos definidos sequencialmente at(h) = Gt+hat(h − 1) e Rt(h) =

Gt+hRt(h − 1)G0t+h+ Wt+h, em que at(0) = mt e Rt(0) = Ct.

λt+h= Ft+h0 θt+h tem momentos (λt+h|Dt) ∼ [ft(h), qt(h)], em que ft(h) = Ft+h0 at(h) e

qt(h) = Ft+h0 Rt(h)Ft+h.

(26)

p (Yt+h|Dt) =

c(rt(h), st(h))b(Yt+h, Bt+h)

c(rt(h) + δt+hYt+h, st(h) + δt+h)

.

2.4 Modelagem de Estruturas Espaciais

Nesta se¸cão serão apresentadas estruturas básicas que servem de ponto de partida para a elabora¸cão de modelos mais complexos, que levam em considera¸cão a correla¸cão espa¸co-temporal presente nos dados. Apresentamos também os tipos de dados espaciais.

2.4.1 Tipos de Dados Espaciais

De uma forma geral, h´a trˆes tipos de dados espaciais: • Dados Cont´ınuos

Suponha que observamos uma determinada caracter´ıstica de interesse em um con-junto de pontos no espa¸co que pode ser fixo ou aleatório, em T per´ıodos de tempo. O espa¸co de observa¸cão da variável aleatória de interesse é cont´ınuo no espa¸co e dis-creto no tempo. Vamos denotar as observa¸cões por Yt(s), para s ∈ S ⊂ <2 locais de

observa¸cão no tempo t e t = 1, ..., T per´ıodos de tempo, suponha que uma amostra dessa variável é obtida pela medi¸cão de Y em N locais amostrais {s1, s2, ..., sN}.

Podemos escrever Yt(si), i = 1, ..., N como Yt(si) = µt(si) + t(si), em que µt(si)

é uma média que pode depender de si ou não, e t = (t(s1), t(s2), ..., t(sN)) são

erros que não podem ser explicados por covariáveis. Note que os locais de ob-serva¸cão podem ou não ser igualmente espa¸cados. Se µt(.) for capaz de explicar

a dependência espacial presente nos dados, um modelo de regressão simples ou múltiplo é uma escolha provavelmente adequada. Em muitos problemas, entre-tanto, a correla¸cão espacial ainda está presente em t, fazendo-se necessário

re-laxar a hipótese de normalidade e independência dos erros. Exemplos de dados cont´ınuos incluem ´ındices de polui¸cão, temperatura, pluviosidade e caracter´ısticas atmosféricas em geral. Neste trabalho vamos trabalhar com este tipo de dado.

(27)

• Processos Pontuais

Os processos pontuais diferem dos dados cont´ınuos pelo fato de que tempo e local de observa¸cão não vêm associados à realiza¸cão de uma variável aleatória. O interesse aqui é a informa¸cão a respeito de quando e onde ocorreram determinados eventos. Um exemplo t´ıpico é o da ocorrência de doen¸cas. Por exemplo, podemos estar interessados em estudar o padrão espa¸co-temporal da incidência de dengue em um determinado local, e para isso analisar o local e dia de registros de ocorrência da doen¸ca.

• Dados de ´Area

Muitas vezes não é poss´ıvel observar o local e tempo exatos de ocorrência da variável de interesse, mas pode-se obter informa¸cão a respeito dessa variável de uma forma mais agregada. A variável de interesse é então observada sob a forma de contagens ou médias, e é associada a uma área no espa¸co e a um intervalo de tempo. Esse tipo de dado é chamado de dado de área. Como exemplo de dados de área obtido pela agrega¸cão de processos pontuais podemos citar as contagens de casos de dengue em um munic´ıpio. Os dados de área também podem ser obtidos pela agrega¸cão de dados cont´ınuos. A agrega¸cão pode ser feita, por exemplo, retalhando o espa¸co de interesse, e supondo que as respostas são constantes dentro de cada área. Na teoria essa técnica pode ser vantajosa sempre que as medi¸cões feitas dentro das áreas forem suficientemente homogêneas, simplificando a análise no caso de existirem grande número de esta¸cões monitoradoras. Outras vezes só existe informa¸cão sobre os dados agregados.

2.4.2 Modelos Geoestat´ısticos: Modelos para Dados Cont´ınuos

Os modelos geoestat´ısticos, introduzidos por Cressie (1993), são modelos espaciais com estrutura bastante simples, mas que são flex´ıveis o suficiente para abranger uma classe bem grande de problemas. Eles abrangem modelos para dados cont´ınuos, obtidos através de agrega¸cões no espa¸co ou não, podendo estar localizados de forma espacial-mente irregular.

(28)

Seja s ∈ <d_{um local no espa¸co euclidiano d-dimensional e seja Z(s) o valor da vari´}_avel

aleatória Z no local s. Agora fa¸ca s variar no conjunto S ⊂ <dde forma a gerar o espa¸co aleatório {Z(s) : s ∈ S}. Poder´ıamos assumir que S, assim como Z, varia de realiza¸cão para realiza¸cão, somando outra fonte de varia¸cão ao problema. Vamos considerar, entre-tanto, que S é um subconjunto fixo de <d_.

Modelo Gaussiano Estacion´ario

Um processo estocástico {Z(s), s ∈ S} é Gaussiano se a distribui¸cão conjunta de (Z(s1), ..., Z(sN)) é normal multivariada, para qualquer inteiro N e qualquer conjunto de

localidades {s1, ..., sN}. Esse processo é dito estacionário se a esperan¸ca e a variância de

Z(s) s˜ao as mesmas para todo s e a correla¸c˜ao entre Z(si) e Z(sj) depende somente de

(si− sj), para qualquer par de inteiros i, j = 1, ..., N . Se, adicionalmente, essa correla¸c˜ao

depender somente de di,j = ksi− sjk, a distˆancia euclidiana entre si e sj, dizemos que o

processo além de estacionário é isotrópico.

Para especificar o modelo precisamos apenas de seus momentos de 1a _{e 2}a _ordem,

ou seja, a fun¸cão da média, µ(s) = E [Z(s)], e a fun¸cão de covariância γ(si, sj) =

cov {Z(si), Z(sj)}.

Sob as hip´oteses de estacionariedade e isotropia, E [Z(s)] = µ, ∀s, e cov {Z(si), Z(sj)} = γ(ksi− sjk).

Sendo o processo estacionário, a variância de Z(s) é constante e podemos escrever a fun¸cão de covariância como

(29)

em que σ2 é a variância de Z(s), s ∈ S e ρ(.) é a fun¸cão de correla¸cão dada por: ρ(si, sj) = cor {Z(si), Z(sj)} .

Vamos denotar o processo Gaussiano estacionário com média µ, variância σ2 _{e fun¸c˜}_ao

de correla¸c˜ao ρ(si, sj) = cor {Z(si), Z(sj)} por

Z(.) ∼ P G(µ, σ2ρ(.)).

Note que a matriz de correla¸cões especificada através da fun¸cão ρ(.) precisa ser posi-tiva definida para que, dados um inteiro m, um conjunto de localiza¸cões si e constantes

reais ai, a combina¸cão linear Pm_i=1aiZ(si) tenha sempre variância não-negativa.

Fam´ılias Paramétricas de Fun¸cões de Covariância

Geralmente a especifica¸cão de ρ(.) é feita de forma a satisfazer certas propriedades desejáveis. São elas:

1. ρ(.) é monótona não crescente em di,j = ksi− sjk, si, sj ∈ S, ou seja, a correla¸cão

entre duas medi¸cões decresce com aumento da distância entre suas localiza¸cões. 2. ρ → 0 quando di,j → ∞, ou seja, a correla¸cão entre locais muito distantes no espa¸co

tende a zero.

3. Pelo menos um parˆametro do modelo controla a taxa com que ρ(di,j) decai para

zero, visto que essa taxa geralmente não é conhecida. O decaimento pode ser, portanto, mais ou menos lento, dependendo deste(s) parâmetro(s).

Como um exemplo de fam´ılia de fun¸cões de correla¸cão que satisfaz essas propriedades, temos a fam´ılia exponencial de potência (Oliveira et al. (1997)), definida por

ρ(di,j; φ; α) = exp − di,j φ α , com φ > 0 e 0 < α < 2.

Quando α = 1, ρ(di,j; φ, 1) corresponde à chamada fun¸cão de correla¸cão exponencial, e

quando α = 2 temos a fun¸cão de correla¸cão Gaussiana. Outro exemplo de fam´ılia que satisfaz as propriedades acima é a fam´ılia Matérn (Mátern (1986)).

(30)

2.5 Monte Carlo via Cadeias de Markov (MCMC)

Os métodos computacionais de Monte Carlo via cadeias de Markov (MCMC) usando os algoritmos de amostrador de Gibbs e Metropolis-Hastings, entre outros, permitem a simula¸cão de distribui¸cões de forma indireta. A ideia é construir uma cadeia de Markov fácil de ser simulada e, com distribui¸cão de equil´ıbrio igual à de interesse, onde cada estado pode ser atingido a partir de qualquer outro com um número finito de itera¸cões. Após um número suficientemente grande de itera¸cões, a cadeia converge para a distribui¸cão de interesse, dando origem a uma amostra que pode ser usada para fazer inferência. Esses métodos são muito usados na estat´ıstica Bayesiana quando há interesse em simular amostras de uma determinada densidade a posteriori p(θ|Y ), cuja gera¸cão direta é cus-tosa ou complicada.

Existem vários métodos propostos para a constru¸cão de cadeia de Markov. Nesta se¸cão serão apresentados os métodos MCMC mais utilizados, o amostrador de Gibbs e o algoritmo de Metropolis-Hastings. Neste trabalho o algoritmo Metropolis-Hastings será aplicado como um passo dentro do amostrador de Gibbs permitindo a amostragem conjunta a posteriori dos parâmetros do modelo.

2.5.1 Amostrador de Gibbs

O amostrador de Gibbs (Geman e Geman (1984); Gelfand e Smith (1990)) é um método de amostragem iterativo de uma cadeia de Markov, cuja transi¸cão de estado a outro é feito pela amostragem de cada parâmetro através de sua distribui¸cão condicional aos demais parâmetros do modelo (conhecida como distribui¸cão condicional completa).

Assuma que a distribui¸c˜ao de interesse seja p(θ) em que θ = (θ1, ..., θd)0. Cada um

dos componentes θi pode ser um escalar, um vetor ou uma matriz. Considere tamb´em

que as distribui¸c˜oes condicionais completas pi = p(θi|θ−i), i = 1, ..., d s˜ao conhecidas, em

(31)

O problema a ser resolvido é amostrar de p quando a gera¸cão direta é custosa ou com-plicada, mas a gera¸cão de pié poss´ıvel. O amostrador de Gibbs fornece uma amostragem

baseada em gera¸c˜oes sucessivas das distribui¸c˜oes condicionais completas. Pode ser des-crito da seguinte forma:

1. inicialize o contador das itera¸c˜oes da cadeia j = 1 e dˆe valores iniciais θ(0) ₌

(θ(0)₁ , ..., θ(0)_d )0;

2. obtenha um novo valor θ(j)_{= (θ}(j) 1 , ..., θ

(j) d )

0 _{de θ}(j−1) _atrav´_{es de sucessivas gera¸c˜}_oes

de valores: θ(j)₁ ∼ p(θ1|θ (j−1) 2 , ..., θ (j−1) d ), θ₂(j)∼ p(θ2|θ (j) 1 , θ (j−1) 3 , ..., θ (j−1) d ), .. . θ(j)_d ∼ p(θd|θ (j) 1 , ..., θ (j) d−1);

3. mude o contador j para j + 1 e retorne ao passo 2 at´e que a convergˆencia seja alcan¸cada.

`

A medida que o número de itera¸cões aumenta, a cadeia se aproxima de sua condi¸cão de equil´ıbrio. Quando a convergência é alcan¸cada, o valor resultante θ(j)_´_{e uma amostra}

de p. A forma canônica de se obter uma amostra de tamanho M de p é replicar a cadeia M vezes até a convergência. Alternativamente, após a convergência, todas as gera¸cões de uma mesma cadeia são gera¸cões da distribui¸cão de equil´ıbrio e sucessivos valores dessa cadeia também formam uma amostra de p. A amostra de pontos obtida antes da convergência é chamada de amostra de aquecimento, sendo descartada das análises.

2.5.2 Algoritmo de Metropolis-Hastings

O algoritmo de Metropolis-Hastings (Metropolis et al. (1953); Hastings (1970)) tal como o amostrador de Gibbs tem como finalidade gerar amostras de uma distribui¸cão de probabilidades. Para isso utiliza a ideia de uma distribui¸cão auxiliar q(.), conhecida como densidade de transi¸cão. Desta densidade de transi¸cão é gerado um valor proposto

(32)

para o parâmetro e este é preferido em rela¸cão ao valor corrente da cadeia, de acordo com uma determinada probabilidade α.

Considerando q(θ, .) a densidade de transi¸cão proposta, p(.) uma distribui¸cão de pro-babilidades (por exemplo, a distribui¸cão condicional completa do parâmetro) e θ(j−1) o valor corrente da cadeia, podemos resumir o algoritmo de Metropolis-Hastings a seguir:

1. inicialize o contador das itera¸c˜oes da cadeia j = 1 e dˆe valor inicial θ(0)_;

2. fa¸ca j = 1 e sorteie um valor proposto θ∗ para θ(j), utilizando q(θ(j−1), .);

3. aceite mover a cadeia para o valor proposto com probabilidade α(θ∗, θ(j−1)) =

min {1, R} em que R = _p(θp(θ(j−1)∗)q(θ_)q(θ∗,θ(j−1)(j−1)_,θ)∗₎ ´e chamado de raz˜ao de Hastings e fa¸ca

θ(j)_{= θ}∗ _{ou rejeite mover a cadeia com probabilidade 1 − α(θ}∗_{, θ}

(j−1)) e, portanto,

fa¸ca θ(j) = θ(j−1);

4. fa¸ca j = j + 1 e retorne ao passo 2.

Pontos da cadeia devem ser simulados até que haja convergência. A partir da´ı os va-lores simulados podem ser considerados como amostras da densidade de interesse, sendo portanto usados para fazer inferência.

2.5.3 Diagn´

osticos de Convergˆ

encia

Segundo Gamerman e Lopes (2006) existem duas formas de abordar o problema da convergência. A primeira, mais teórica, busca o estabelecimento de cotas para fun¸cões de distribui¸cão geradas em uma cadeia e distâncias entre elas. A segunda forma de estudar a convergência é mais emp´ırica e procura estudar as propriedades estat´ısticas da série observada a partir de simula¸cões da cadeia. Embora as duas formas de se estudar a convergência sejam válidas, resultados teóricos são mais dif´ıceis de serem obtidos e aplicados a problemas práticos.

(33)

Monitora¸c˜ao Informal de Convergˆencia

Gelfand e Smith (1990) sugerem técnicas gráficas para a verifica¸cão de convergência. Após um número suficientemente grande N de itera¸cões em M cadeias paralelas, forma-se uma amostra de θ e pode-se construir um histograma de qualquer uma de suas compo-nentes (ou fun¸cões). O mesmo procedimento pode ser repetido após N + k itera¸cões. Se não houver diferen¸ca vis´ıvel a olho nu após N e após N + k itera¸cões, então conclui-se que há convergência. O valor de k não pode ser muito pequeno, pois a correla¸cão ine-rente à cadeia de Markov estará exercendo sua influência e não se poderá dizer se a não similaridade é em fun¸cão da convergência ou em fun¸cão da correla¸cão do processo. O valor de k também não precisa ser muito grande, pois se há suspeita de convergência após N itera¸cões então não há necessidade de simular a cadeia muito além disso apenas para uma verifica¸cão. Tipicamente, valores entre 10 e 50 itera¸cões são apropriados.

Uma outra forma gráfica de verificar a convergência é observar a trajetória de uma ´

unica cadeia ao longo das itera¸cões. Se o gráfico após um per´ıodo inicial apresenta repeti-damente o mesmo comportamento qualitativo e quantitativo então pode se concluir pela convergência da cadeia.

Tais técnicas devem ser usadas com cautela e sempre acompanhadas de alguma fun-damenta¸cão teórica. Técnicas gráficas podem ser ilusórias indicando uma constância que pode não ser tão evidente sob outra escala. Além disso, muitas cadeias podem apresentar um comportamento similar ao da convergência sem que esta tenha sido atingida.

Monitora¸cão Formal de Convergência 1. Análise espectral

Considere uma fun¸c˜ao real Φ = t(θ) e sua trajet´oria Φ(1)_{, Φ}(2)_{, ... constru´ıda a partir}

(34)

podem ser usadas. Geweke (1992) sugere o uso de testes com médias ergódicas para verificar a convergência da cadeia baseados na série Φ(j)_.

Considere m + n itera¸c˜oes da cadeia e calcule as seguintes m´edias: Φb =

1 nb m+nb X j=m+1 Φ(j) e Φa= 1 na m+n X j=m+n−na+1

Φ(j) em que nb+ na < n. Se m ´e a quantidade de itera¸c˜oes

descar-tadas, então Φa e Φb, as médias ergódicas do final e do in´ıcio do per´ıodo da convergência,

devem ter um comportamento similar. A medida que n cresce e as raz˜oes na/n e nb/n

permanecem fixas ent˜ao zG = Φa− Φb q d V ar(Φa) + dV ar(Φb) → N (0, 1).

Então, a diferen¸ca padronizada zG entre as médias ergódicas do in´ıcio e do fim do

per´ıodo da convergência não deve ser grande se a convergência for atingida. Grandes diferen¸cas indicam falta de convergência, mas diferen¸cas pequenas não implicam em con-vergência. Geweke (1992) sugere o uso dos valores nb = 0.1n e na = 0.5n e o uso de

estimadores espectrais da densidade para as variâncias. Esta é uma técnica univariada, mas pode ser aplicada à densidade a posteriori utilizando t(θ) = −2log[p(θ)].

(35)

2. Cadeias m´ultiplas

Outro método simples de verificar a convergência é a utiliza¸cão de cadeias parale-las come¸cando de pontos diferentes. Com isso, evita-se que as cadeias se concentrem em regiões em torno de uma moda local, no caso de multimodalidade da posteriori. Além disso, em alguns casos, convergência lenta pode levar à percep¸cão errônea de con-vergência ao utilizarmos uma única cadeia. Após a convergência todas as cadeias devem ter o mesmo comportamento qualitativo e quantitativo mas a verifica¸cão de convergência pode ser problemática se for analisada apenas uma cadeia.

A verifica¸cão visual de similaridade entre as trajetórias das cadeias após algumas itera¸cões certamente é um ind´ıcio forte de convergência. Gelman e Rubin (1992) pro-puseram alguns métodos formais para a deteçcão de convergência além dessa verifica¸cão visual. Esses métodos são baseados em técnicas de análise de variância e preconizam a convergência da cadeia apenas quando a variância entre cadeias for bem menor que a variância dentro da cadeia ou, equivalentemente, quando histogramas das cadeias mistu-radas são similares aos histogramas de cada uma das cadeias isoladas.

As cadeias são inicializadas em pontos que devem ser sobredispersos em rela¸cão à distribui¸cão a posteriori. O número de cadeias deve ser maior que 1 mas não necessaria-mente muito maior que 1.

Considerando m cadeias paralelas e uma fun¸c˜ao real Φ = t(θ), tem-se m trajet´orias n

Φ(1)_i , Φ(2)_i , ..., Φ(n)_i o, i = 1, ..., m, para Φ. As variˆancias entre as cadeias B e dentro das cadeias W s˜ao dadas por:

B = n m − 1 m X i=1 (Φi− Φ)2 e W = 1 m(n − 1) m X i=1 n X j=1 (Φ(j)_i − Φi)2

em que Φi é a média das observa¸cões da cadeia i, i = 1, ..., m, e Φ é a média dessas

(36)

Φ, σ_Φ2, pode ser estimada de forma n˜ao-viciada por _bσ_Φ2 = (1 − 1/n)W + (1/n)B.

Se as cadeias ainda não tiverem convergido então essa estimativa é maior que σ_Φ2, pois os valores iniciais ainda estarão influenciando e eles foram escolhidos com dispersão maior que a da distribui¸cão do equil´ıbrio. Por outro lado, W subestima a variância σ2

Φ, pois uma cadeia só não terá coberto toda a variabilidade de t(θ). Um indicador de

convergência é dado pela redu¸cão potencial de escala estimada:

b R = r b σ2 Φ W

que é sempre maior que 1. A medida que n cresce ambos os estimadores acabar˜` ao convergindo para σ2_Φ e bR convergirá para 1. Logo, bR pode ser usado como indicador de convergência pela avalia¸cão de sua proximidade de 1. Gelman (1995) sugere aceitar a convergência quando o valor de bR for da ordem de 1,1 a 1,2. Como anteriormente, pode-se tomar t(θ) = −2log[p(θ)] e assim monitorar também a convergência da posteriori. Quando a convergência está assegurada, utiliza-se a última metade dos valores gerados para inferência.

(37)

Cap´ıtulo 3

Modelos com Coeficientes Dinˆ

amicos

Variando no Espa¸

co para Dados da

Fam´ılia Exponencial

Como já dito aqui, a prática de modelagem de dados que possuem uma evolu¸cão temporal e são espacialmente referenciados está bastante disseminada hoje em dia. Este trabalho tem como objetivo lidar com dados que apresentam estas caracter´ısticas e que, além disso, podem ser modelados por uma distribui¸cão pertencente à fam´ılia exponencial. Tais dados podem ser observados, por exemplo, em estudos epidemiológicos nos quais temos a contagem da ocorrência de uma doen¸ca em determinada região, durante um per´ıodo espec´ıfico. Outros exemplos podem ser encontrados na observa¸cão de estudos sócio-econômicos, na agronomia e em fenômenos meteorológicos. Este último exemplo será abordado no cap´ıtulo 5 como aplica¸cão do modelo aqui proposto.

Neste cap´ıtulo descrevemos uma classe geral de modelos espa¸co-temporais para mode-lar respostas univariadas cujas distribui¸cões pertencem à fam´ılia exponencial. Estes mo-delos podes ser descritos em nota¸cão matricial que tem como vantagem uma forma mais compacta. A seguir, dois modelos serão apresentados considerando duas distribui¸cões diferentes: a distribui¸cão Poisson e a Gama.

(38)

3.1 Modelo Geral

Considere um conjunto de per´ıodos de tempo discretos, t = 1, ..., T , em que para cada t um processo aleat´orio yt(.) ´e observado em N locais amostrais {s1, ..., sN}. Seja xt(si),

um vetor de covari´aveis de dimens˜ao p observado no tempo t e local si, i = 1, ..., N .

Suponha que yt(.) tenha distribui¸cão f (.) pertencente à fam´ılia exponencial com média

µt(s). Suponha também que essa média possa ser modelada através de uma fun¸cão de

uma equa¸cão de regressão em que os efeitos das covariáveis variem suavemente ao longo do tempo e espa¸co. Esta fun¸cão se chama fun¸cão de liga¸cão e liga o preditor linear à média da fun¸cão da distribui¸cão como no caso dos modelos lineares generalizados. Primeiramente consideramos o Modelo 1 em que a média é modelada apenas como fun¸cão de covariáveis sem a inclusão de efeitos aleatórios, como especificado abaixo:

yt(si) ∼ f (µt(si)),

g(µt) = F1,tθ1,t,

θ1,t = F2,tθ2,t+ 2,t, 2,t(.) ∼ P G(0, Σλ),

θ2,t = Gtθ2,t−1+ wt, wt∼ N (0, W ),

(3.1)

para t = 1, ..., T e {s1, ..., sN}. g(µt) é um vetor de dimensão N , θ1,t é um vetor de

dimensão N.p, θ2,t é um vetor de dimensão p, a matriz F1,t tem dimensão N × N.p, F2,t é

matriz com dimensão N.p×p e Gttem dimensão p×p. Aqui o vetor θ2,té independente do

vetor de erros 2,t, assim como θ2,t−1 e wts˜ao independentes. Suponha que a distribui¸c˜ao

de 2,t(.) define uma estrutura de correla¸c˜ao espacial para estes erros, e

consequente-mente para θ1,t. Assim a correla¸cão espacial é dada somente através dos parâmetros de

regressão θ1,t. Muitas defini¸cões são poss´ıveis para esta distribui¸cão, incluindo os

exem-plos de fam´ılias paramétricas de fun¸cões de covariância citados no cap´ıtulo 2. As matrizes F1,t, F2,t e Gt são conhecidas, com F1,t e F2,t possivelmente incorporando covariáveis.

Um modelo um pouco mais complexo será descrito a seguir. Neste modelo, a fun¸cão que modela a média da distribui¸cão pertencente à fam´ılia exponencial contempla, além de uma fun¸cão de covariáveis, um efeito aleatório que traz mais incerteza para o modelo.

(39)

Chamamos este modelo de Modelo 2 e ele pode ser escrito como: yt(si) ∼ f (µt(si)), g(µt) = F1,tθ1,t+ 1,t, 1,t ∼ N (0, V ), θ1,t = F2,tθ2,t+ 2,t, 2,t(.) ∼ P G(0, Σλ), θ2,t = Gtθ2,t−1+ wt, wt∼ N (0, W ). (3.2)

Neste estudo trabalharemos com um caso particular em que F1,t = diag(x0t(s1), ..., x0t(sN)),

F2,t = 1N ⊗ Ip, Gt = Ip, V = σ2IN e Σ = Σλ,ρ sendo Σλ,ρ(i, j) = ρ exp{−λdi,j} (com Ip

denotando a matriz identidade de ordem p e 1N denotando o vetor coluna de tamanho

N com todos os elementos iguais a 1). Trabalhando sob a hipótese de isotropia, a fun¸cão de covariância depende de di,j, a distância entre as localiza¸cões si e sj. Outras formas

mais gerais podem ser consideradas. Aqui consideramos g(µt) = log(µt), pois esta ´e a

fun¸cão de liga¸cão canônica para o modelo Poisson.

A seguir apresentaremos o Modelo 1 e o Modelo 2 nos casos em que Yt(si), i =

1, ..., N tem distribui¸cão Poisson e Gama, assim como a inferência, previsão e interpola¸cão espacial.

3.2 Distribui¸

c˜

ao Poisson

3.2.1 Modelo 1

Considere que Yt(si) tenha distribui¸cão Poisson com média µt(si), ou seja, sua fun¸cão

de probabilidade ´e dada por:

p(Yt(si)) =

µt(si)yt(si)e−µt(si)

yt(si)!

(40)

yt(si) ∼ P oisson(µt(si)),

log(µt(si)) = x0t(si)θ1,t(si),

θ1,t(si) = θ2,t+ 2,t(si), 2,t(.) ∼ N (0, Σλ,ρ⊗ Ip),

θ2,t = θ2,t−1+ wt, wt ∼ N (0, W ).

(3.3)

Distribui¸c˜oes Condicionais Completas

Sob o modelo (3.3) e considerando o caso em que p > 1, as quantidades desconhecidas que devem ser estimadas s˜ao ρ, W , λ, θ1,t, para t = 1, ..., T e θ2,t para t = 0, ..., T . As

distribui¸cões a priori dos parâmetros são dadas por:

θ2,0 ∼ N (µ0, C0), ρ ∼ GI(αρ, βρ), W ∼ W I(αW, βW) e λ ∼ Ga(αλ, βλ)

em que GI(αρ, βρ) denota a distribui¸cão Gama inversa com média βρ/(αρ− 1) e variância

β_ρ2/[(αρ− 1)2(αρ− 2)] e W I(αW, βW) denota a distribui¸c˜ao Wishart invertida com m´edia

βW/(αW − 2).

Defina Y = {Y1, ..., YT}, {θ1} = {θ1,1, ..., θ1,T}, {θ2} = {θ2,1, ..., θ2,T}, Ψ = {λ, ρ, W } e

Φ como a cole¸cão de todos os parâmetros, tal que Φ = {{θ1}, {θ2}, θ2,0, Ψ}. A distribui¸cão

conjunta a posteriori dos parˆametros desconhecidos do modelo (3.3) ´e proporcional a:

p(Φ|Y ) ∝ p(θ2,0)p(ρ)p(W )p(λ) T Y t=1 N Y i=1 p(yt(si)|θ1,t(si)) T Y t=1 N Y i=1 p(θ1,t(si)|θ2,t, λ, ρ)× × T Y t=1 p(θ2,t|θ2,t−1, W ). (3.4)

Para obtermos a distribui¸cão condicional completa a posteriori de um determinado parâmetro, basta observamos na equa¸cão acima os termos que dependem do parâmetro em estudo. Assim as distribui¸cões condicionais completas a posteriori dos parâmetros

(41)

desconhecidos do modelo (3.3) s˜ao dadas por: 1) Condicional completa para W

Da equa¸c˜ao (3.4) vemos que:

p(W |Y, {θ1}, {θ2}, θ2,0, Ψ(−W ), X) ∝ p(W )QT_t=1p(θ2,t|θ2,t−1, W ) ∝ |W |−1/2αW−p_{exp {−1/2tr(W}−1_β W)} QT t=1|W | −1/2 exp {−1/2(θ2,t − θ2,t−1)0W−1(θ2,t− θ2,t−1)} ∝ |W |−1/2αW−p exp {−1/2tr(W−1βW)} |W | −T /2 exp n −1/2PT t=1(θ2,t− θ2,t−1) 0_W−1_(θ 2,t− θ2,t−1) o ∝ |W |−1/2(αW+T )−p expn−1/2htr(W−1βW) + PT t=1(θ2,t− θ2,t−1)0W−1(θ2,t − θ2,t−1) io . Assim, temos o n´ucleo de uma distribui¸c˜ao Wishart invertida com αW + T graus de

liberdade e matriz parˆametro de escala dada por βW +PT_t=1(θ2,t− θ2,t−1)(θ2,t − θ2,t−1)0.

2) Condicional completa para λ

De maneira análoga, podemos, da equa¸cão (3.4) escrever: p(λ|Y, {θ1}, {θ2}, θ2,0, Ψ(−λ), X) ∝ p(λ) QT t=1p(θ1,t|θ2,t, λ, ρ) ∝ λαλ−1_{exp {−λβ} λ}QT_t=1|Ip⊗ Σλ,ρ|−1/2exp {−1/2(θ1,t − 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ)−1(θ1,t− 1N ⊗ Ipθ2,t)} ∝ λαλ−1|I p⊗ Σλ,ρ|−T /2exp n −λβλ− 1/2 PT t=1(θ1,t− 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ)−1(θ1,t− 1N ⊗ Ipθ2,t) o . Da rela¸cão acima podemos concluir que a distribui¸cão condicional completa para λ

n˜ao tem forma analiticamente fechada.

3) Condicional completa para ρ

De maneira an´aloga, podemos, da equa¸c˜ao (3.4) escrever: p(ρ|Y, {θ1}, {θ2}, θ2,0, Ψ(−ρ), X) ∝ p(ρ) QT t=1p(θ1,t|θ2,t, λ, ρ) ∝ (1 ρ) αρ+1 exp n −1 ρβρ o QT t=1|Ip⊗ Σλ,ρ|−1/2exp−1₂(θ1,t− 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ)−1(θ1,t− 1N ⊗ Ipθ2,t) ∝ (1 ρ) αρ+1 |Ip⊗ Σλ,ρ|−T /2exp n −1 ρβρ− 1 2 PT t=1(θ1,t− 1N ⊗ Ipθ2,t) 0_(I p⊗ Σλ,ρ)−1(θ1,t− 1N ⊗ Ipθ2,t) o .

(42)

Da rela¸cão acima podemos concluir que a distribui¸cão condicional completa para ρ não tem forma analiticamente fechada.

4) Condicionais completas para θ1,t, t = 1, ..., T

De maneira an´aloga, podemos, da equa¸c˜ao (3.4) escrever: p(θ1,t|Y, {θ1}(−θ1,t), {θ2}, θ2,0, Ψ, X) ∝ p(θ1,t|θ2,t, λ, ρ) QN i=1p(yt(si)|θ1,t(si)) ∝ exp−1 2(θ1,t− 1N ⊗ Ipθ2,t) 0_(I p⊗ Σλ,ρ)−1(θ1,t − 1N ⊗ Ipθ2,t) × QN i=1 h

exp {− exp {x0_t(si)θ1,t(si)}} {exp {x0t(si)θ1,t(si)}} yt(si)i ∝ exp−1 2(θ1,t− 1N ⊗ Ipθ2,t) 0_(I p⊗ Σλ,ρ)−1(θ1,t − 1N ⊗ Ipθ2,t) × expn−PN i=1[exp(x 0 t(si)θ1,t(si))] o QN i=1 n [exp(x0_t(si)θ1,t(si))] yt(si)o .

Da rela¸cão acima podemos concluir que as distribui¸cões condicionais completas para θ1,t, t = 1, ..., T não têm forma analiticamente fechada.

5) Condicionais completas para θ2,t, t = 1, ..., T − 1

Neste caso, vemos da equa¸c˜ao (3.4) que:

p(θ2,t|Y, {θ1}, {θ2}(−θ2,t), θ2,0, Ψ, X) ∝ p(θ2,t|θ2,t−1, W )p(θ2,t+1|θ2,t, W )p(θ1,t|θ2,t, λ, ρ) ∝ exp−1 2(θ2,t− θ2,t−1) 0_W−1_(θ 2,t− θ2,t−1) exp −1₂(θ2,t+1− θ2,t)0W−1(θ2,t+1− θ2,t) × exp−1₂(θ1,t− 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ) −1 (θ1,t− 1N ⊗ Ipθ2,t) .

Usando o fato de que as três distribui¸cões no lado direito da equa¸cão acima são normais, é fácil ver que as distribui¸cões condicionais para θ2,t, t = 1, ..., T − 1 serão

tamb´em normais com parˆametros B2,tb2,t e B2,t, em que:

B2,t =(1N ⊗ Ip)0(Ip ⊗ Σλ,ρ) −1 (1N ⊗ Ip) + 2W−1 −1 , b2,t = (1N ⊗ Ip)0(Ip⊗ Σλ,ρ) −1 θ1,t+ W−1(θ2,t−1+ θ2,t+1).

(43)

p(θ2,t|Y, {θ1}, {θ2}(−θ2,t), θ2,0, Ψ, X) ∝ exp− 1 2[(θ2,t− θ2,t−1) 0_W−1_(θ 2,t − θ2,t−1)+ +(θ2,t+1− θ2,t)0W−1(θ2,t+1− θ2,t) + (θ1,t − 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ) −1 (θ1,t− 1N ⊗ Ipθ2,t)]}, mas (θ2,t− θ2,t−1)0W−1(θ2,t− θ2,t−1) + (θ2,t+1− θ2,t)0W−1(θ2,t+1− θ2,t)+ +(θ1,t − 1N ⊗ Ipθ2,t)0(Ip⊗ Σλ,ρ) −1 (θ1,t− 1N ⊗ Ipθ2,t)

pode ser reescrito apenas como fun¸c˜ao de θ2,t como (θ2,t− B2,tb2,t)0B2,t−1(θ2,t − B2,tb2,t)

mais um termo que n˜ao depende de θ2,t.

Assim temos o núcleo de uma distribui¸cão normal com os parâmetros já especificados acima.

Para derivarmos as condicionais completas de θ2,0e θ2,T, basta observarmos da equa¸c˜ao

(3.4) que:

• p(θ2,0|Y, {θ1}, {θ2}, Ψ, X) ∝ p(θ2,0)p(θ2,1|θ2,0, W );

• p(θ2,T|Y, {θ1}, {θ2}(−θ2,T), θ2,0, Ψ, X) ∝ p(θ1,T|θ2,T, Σλ,ρ)p(θ2,T|θ2,T −1, W ).

E, assim, com um racioc´ınio an´alogo ao usado para obter as distribui¸c˜oes condicionais completas para θ2,t, t = 1, ..., T − 1 podemos concluir que:

• (θ2,0|Y, {θ1}, {θ2}, Ψ, X) ∼ N (B2,0b2,0, B2,0) em que B2,0 =C0−1+ W−1 −1 e b2,0 = C0−1µ0+ W−1θ2,1; • (θ2,T|Y, {θ1}, {θ2}(−θ2,T), θ2,0, Ψ, X) ∼ N (B2,Tb2,T, B2,T) em que B2,T =(1N ⊗ Ip)0(Ip⊗ Σλ,ρ) −1 (1N ⊗ Ip) + W−1 −1 e b2,T = (1N ⊗ Ip)0(Ip⊗ Σλ,ρ) −1 θ1,T + W−1θ2,T −1.

Algoritmo para a Estima¸cão de Modelos Dinâmicos Hierárquicos

Como a distribui¸cão a posteriori (3.4) não tem solu¸cão anal´ıtica, os parâmetros em Φ são amostrados através de um algoritmo que utiliza amostrador de Gibbs (Gamerman e Lopes (2006)). O algoritmo é descrito abaixo:

(44)

1. Dˆe valores iniciais para todos os parˆametros e fa¸ca j = 1.

2. Amostre W da distribui¸cão condicional completa a posteriori deste parâmetro. 3. Amostre (θ2,0, {θ2}) através do algoritmo FFBS (Carter e Kohn (1994) e Fr¨

uhwirth-Schnatter (1994)).

4. Amostre λ, ρ e {θ1} atrav´es de passos de Metropolis-Hastings (Gamerman e Lopes

(2006)), ap´os especificar distribui¸c˜oes propostas adequadas.

5. Fa¸ca j = j + 1 e retorne ao passo 2 at´e que a convergˆencia seja obtida.

Para realizar o passo 3, note que:

p({θ2}|{θ1}, W, Σλ,ρ) = p(θ2,T|{θ1}, W, Σλ,ρ)

QT

t=1p(θ2,T −t|θ2,T −t+1, {θ1}, W, Σλ,ρ)

(3.5) A equa¸cão (3.5) mostra que para gerarmos uma observa¸cão da distribui¸cão conjunta de {θ2}, podemos seguir os seguintes passos:

1. gerar θ2,T de p(θ2,T|{θ1}, W, Σλ,ρ);

2. gerar θ2,T −1 de p(θ2,T −1|θ2,T, {θ1}, W, Σλ,ρ), em que θ2,T ´e substitu´ıdo pelo valor que

acabou de ser gerado;

3. gerar θ2,T −2 de p(θ2,T −2|θ2,T −1, {θ1}, W, Σλ,ρ);

4. para t variando de T −3 at´e 1 repetir este procedimento at´e gerar θ2,0de p(θ2,0|θ2,1, {θ1}, W, Σλ,ρ).

Portanto, tudo o que resta fazer ´e derivar a distribui¸c˜ao de (θ2,t|θ2,t+1, {θ1}, W, Σλ,ρ).

Pelo teorema de Bayes podemos escrever,

p(θ2,t|θ2,t+1, {θ1}, W, Σλ,ρ) ∝ p(θ2,t+1|θ2,t, {θ1}, W, Σλ,ρ)p(θ2,t|{θ1}, W, Σλ,ρ) (3.6)

(45)

1. (θ2,t|{θ1}, W, Σλ,ρ) ∼ N (Mt∗, Ct∗) com • M∗ t = M ∗ t−1+ R ∗ t(1N ⊗ Ip)0Q∗t −1 (θ1,t − 1N ⊗ IpMt−1∗ ); • C∗ t = R ∗ t − R ∗ t(1N ⊗ Ip)0Q∗t −1 (1N ⊗ Ip)Rt∗ onde Q∗_t = (Ip⊗ Σλ,ρ) + (1N⊗ Ip)R∗t(1N⊗ Ip)0, R∗t = W + Ct−1∗ , M0∗ = µ0 e C0∗ = C0. 2. (θ2,t+1|θ2,t, {θ1}, W, Σλ,ρ) ∼ N (θ2,t, W ). Ent˜ao tem-se, p(θ2,t|θ2,t+1, {θ1}, W, Σλ,ρ) ∝ exp−₂1(θ2,t− Mt∗)0Ct∗ −1 (θ2,t− Mt∗)+ +(θ2,t+1− θ2,t)0W−1(θ2,t+1− θ2,t)]} ∝ exp−1₂(θ2,t− h∗t) 0_H∗ t −1 (θ2,t− h∗t) onde H_t∗ =C_t∗−1+ W−1−1 e h∗_t = H_t∗(C_t∗−1M_t∗+ W−1θ2,t+1). Portanto, (θ2,t|θ2,t+1, {θ1}, W, Σλ,ρ) ∼ N (h∗t, H ∗ t).

Assim, para t variando de 1 at´e T , calculamos os valores de M_t∗e C_t∗e os armazenamos. Em seguida geramos θ2,T de N (MT∗, CT∗). E, depois, para t variando de T − 1 at´e zero,

geramos θ2,t da distribui¸c˜ao N (h∗t, H ∗ t).

Previs˜ao h Passos a Frente

Uma aplica¸cão interessante aqui é a realiza¸cão de previsões a longo prazo usando os resultados obtidos na gera¸cão da amostra da distribui¸cão a posteriori. A ideia por trás desta aplica¸cão é bastante simples e, na verdade, implica em gerar observa¸cões da distribui¸cão a posteriori conjunta de (YT +h, θ1,T +h, θ2,T +h, Φ|Y ). Podemos escrever:

p(YT +h, θ1,T +h, θ2,T +h, Φ|Y ) = p(YT +h, θ1,T +h, θ2,T +h|Y, Φ)p(Φ|Y )

= p(YT +h|θ1,T +h, θ2,T +h, Φ, Y )p(θ1,T +h|θ2,T +h, Φ, Y )p(θ2,T +h|Φ, Y )p(Φ|Y )

(46)

p(Φ|Y ) pode ser amostrado através do algoritmo descrito na se¸cão anterior. As dis-tribui¸cões de (YT +h|θ1,T +h) e (θ1,T +h|θ2,T +h, λ, ρ) são conhecidas, e p(θ2,T +h|θ2,T, W ) pode

ser facilmente encontrada atrav´es do uso repetido da equa¸c˜ao θ2,T = θ2,T −1 + wT, com

wT ∼ N (0, W ). Utilizando propriedades da distribui¸c˜ao normal, temos que:

(θ2,T +h|θ2,T, W ) ∼ N (θ2,T, hW ).

Assim, para gerar uma amostra da distribui¸cão a posteriori de YT +h é necessário

adi-cionar um passo ao algoritmo apresentado anteriormente em que θ2,T +h ´e amostrado

de p(θ2,T +h|θ2,T, W ), θ1,T +h ´e amostrado de p(θ1,T +h|θ2,T +h, λ, ρ) e finalmente YT +h ´e

amostrado de p(YT +h|θ1,T +h).

Interpola¸c˜ao Espacial

Suponha que os dados s˜ao observados em um conjunto de regi˜oes {s1, ..., sN}, e agora

estamos interessados em interpolar vari´aveis respostas em outras r regi˜oes, coletadas no conjunto {sN +1, ..., sN +r}, para um dado per´ıodo de tempo t.

Seja Y_t◦ o vetor N -dimensional de valores observados e µ◦_t o vetor N -dimensional que cont´em suas respectivas m´edias, e seja Yn

t o vetor r-dimensional de valores a serem

inter-polados para um per´ıodo de tempo t fixo e µn

t o vetor contendo suas respectivas m´edias.

Do mesmo jeito defina F_1t◦ como uma matriz de tamanho N ×N.p correspondendo à matriz de covariáveis relacionadas às variáveis respostas observadas e θ◦_1,t como seus coeficientes. Analogamente, defina Fn

1t como uma matriz de tamanho r × r.p correspondendo `a matriz

de covariáveis relacionadas às variáveis respostas não observadas e θn

1,t como seus

coefi-cientes Defina tamb´em ◦_2,t = ◦_2,t(s1), ..., ◦2,t(sN) )0 e n2,t = n2,t(sN +1), ..., n2,t(sN +r) )0, e

(47)

y_t◦(si) ∼ P oisson(µ◦t(si)), i = {1, ..., N } e t = {1, ..., T } , yn t(sN +j) ∼ P oisson(µnt(sN +j)), j = {1, ..., r} e t = {1, ..., T } ,   log(µ◦_t) log(µn t)  =   F_1,t◦ Fn 1,t     θ◦_1,t θn 1,t  ,   θ_1,t◦ θn 1,t  =   F_2,t◦ Fn 2,t  θ2,t+   ◦_2,t n 2,t  ,   ◦_2,t n 2,t  |λ, ρ ∼ N  0,   Σ◦_λ,ρ Σ◦n_λ,ρ Σn◦ λ,ρ Σnλ,ρ  ⊗ Ip  , θ2,t = θ2,t−1+ wt, wt ∼ N (0, W ),

sendo Σ◦_λ,ρ, Σ◦n_λ,ρ, Σn◦_λ,ρ e Σn_λ,ρ parti¸cões de Σλ,ρ, obtidas através da fun¸cão que define a

estrutura espacial de θ1,t.

Sob a hip´otese de F_1,t◦ e Fn

1,t serem conhecidas, a distribui¸c˜ao conjunta a posteriori de

Y_tn, θ_1,tn , θ◦_1,t, θ2,t e ψ ´e dada por:

esta distribui¸c˜ao ´e encontrada a partir do fato de que dados (θn

1,t, ψ), Ytnn˜ao depende de θ_1,t◦ , θ2,t e Yt◦ e dados (θ ◦ 1,t, θ2,t, ψ), θn1,t n˜ao depende de Y ◦ t .

Para amostrar desta distribui¸cão amostramos de cada distribui¸cão da equa¸cão acima separadamente. Primeiro, uma amostra de p(θ_1,t◦ , θ2,t, ψ|Yt◦) é obtida através do algoritmo

descrito anteriormente. Ent˜ao uma amostra da distribui¸c˜ao de (θn 1,t|θ

◦

1,t, θ2,t, ψ) ´e obtida

utilizando o resultado abaixo, que ´e encontrado utilizando propriedades da distribui¸c˜ao normal: (θn 1,t|θ ◦ 1,t, θ2,t, ψ) ∼ N (M, H) em que M = F2,tnθ2,t+ (Σnλ,ρ⊗ Ip)(Σλ,ρ⊗ Ip) −1 (θ◦_1,t− F_2,t◦ θ2,t) e H = (Σnλ,ρ − Σn◦λ,ρ(Σ ◦ λ,ρ) −1 Σ◦n_λ,ρ) ⊗ Ip. Finalmente amostramos de (Yn

t |θ1,tn , ψ) sabendo que p(Y n t |θ n 1,t, ψ) = r Y j=1 p(Y_tn(sN +j)|θn1,t(sN +j), ψ) e que (Y_tn(sN +j)|θn1,t(sN +j), ψ) ∼ P oisson(µnt(sN +j)).

(48)

3.2.2 Modelo 2

Este modelo difere do Modelo 1, pois este apresenta, na fun¸cão que modela a média da observa¸cão, um efeito aleatório que traz mais incerteza para o modelo. Vamos considerar aqui o modelo (3.2) descrito anteriormente. Ele pode ser reescrito da seguinte forma:

yt(si) ∼ P oisson(µt(si)),

log(µt(si)) = x0t(si)θ1,t(si) + 1,t(si), 1,t(si) ∼ N (0, σ2),

θ1,t(si) = θ2,t+ 2,t(si), 2,t(.) ∼ N (0, Σλ,ρ⊗ Ip),

θ2,t = θ2,t−1+ wt, wt∼ N (0, W ).

(3.7)

Distribui¸c˜oes Condicionais Completas

Sob o modelo (3.7) e considerando o caso em que p > 1, as quantidades desconhecidas que devem ser estimadas s˜ao σ2, ρ, W , λ, µt, θ1,t, para t = 1, ..., T e θ2,t para t = 0, ..., T .

As distribui¸cões a priori dos parâmetros são dadas por:

θ2,0 ∼ N (µ0, C0), σ2 ∼ GI(ασ, βσ), ρ ∼ GI(αρ, βρ), W ∼ W I(αW, βW) e λ ∼ Ga(αλ, βλ).

Defina Y = {Y1, ..., YT}, {µ} = {µ1, ..., µT}, {θ1} = {θ1,1, ..., θ1,T}, {θ2} = {θ2,1, ..., θ2,T},

Ψ = {σ2_{, λ, ρ, W } e Φ como a cole¸c˜}_{ao de todos os parˆ}_{ametros, tal que Φ = {{µ}, {θ}

1}, {θ2}, θ2,0, Ψ}.

A distribui¸cão conjunta a posteriori dos parâmetros desconhecidos do modelo (3.7) é pro-porcional a: p(Φ|Y ) ∝ p(θ2,0)p(ρ)p(W )p(λ)p(σ2) T Y t=1 N Y i=1 p(yt(si)|µt(si))× ×QT t=1 QN i=1p(µt(si)|θ1,t(si), σ 2₎QT t=1 QN i=1p(θ1,t(si)|θ2,t, λ, ρ) QT t=1p(θ2,t|θ2,t−1, W ). (3.8)

Assim as distribui¸c˜oes condicionais completas a posteriori de W , λ, ρ e θ2,t, t = 1, ..., T