• Nenhum resultado encontrado

Modelos espaço-temporais com caudas pesadas e assimétricos

N/A
N/A
Protected

Academic year: 2021

Share "Modelos espaço-temporais com caudas pesadas e assimétricos"

Copied!
210
0
0

Texto

(1)

Modelos espa¸

co-temporais com caudas

pesadas e assim´

etricos

Renata Souza Bueno

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´

etodos Estat´ısticos

2016

(2)

Modelos espa¸

co-temporais com caudas

pesadas e assim´

etricos

Renata Souza Bueno

Tese de Doutorado submetida ao Programa de P´os-Gradua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universidade Federal do Rio de Janeiro, UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do grau de Doutor em Estat´ıstica.

Orientadoras: Alexandra M. Schmidt e Thais C. O. da Fonseca

Rio de Janeiro, RJ - Brasil 2016

(3)

Modelos espa¸

co-temporais com caudas

pesadas e assim´

etricos

Renata Souza Bueno

Tese de Doutorado submetida ao Programa de P´os-Gradua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universidade Federal do Rio de Janeiro, UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do grau de Doutor em Estat´ıstica.

Aprovada por:

Profa. Alexandra M. Schmidt, PhD, UFRJ (Presidente)

Profa. Thais C. O. Fonseca, PhD, UFRJ

Prof. Helio dos Santos Migon, PhD, UFRJ

Prof. Dani Gamerman, PhD, UFRJ

Profa. Rosangela H. Loschi, PhD, UFMG

Prof. Reinaldo B. Arellano-Vale, PhD, PUC-Chile

Rio de Janeiro, RJ - Brasil 2016

(4)

`

(5)

“Quanto mais eu estudo e tento chegar a algum lugar, mais o universo se dilata, mais consciente eu me torno de tudo que n˜ao sei e nem vou saber. ...”

(6)

Agradecimentos

Primeiramente, agrade¸co a Deus por ter me dado sa´ude, uma fam´ılia maravilhosa e for¸ca para seguir em frente.

Agrade¸co `a mulher mais importante da minha vida! Minha m˜ae, Dona Stella. Minha grande incentivadora em tudo e em especial nos estudos. Foi minha grande companheira em vida e sou muito grata pela oportunidade de ter convivido com ela. Ao meu pai, agrade¸co por todo o carinho e apoio durante minha trajet´oria. Agrade¸co tamb´em todas as conversas e idas oportunas ao cinema. `A minha v´o Edna por toda inspira¸c˜ao que ela me causa e por ser um exemplo de pessoa para mim. Por todo amor, dedica¸c˜ao e for¸ca que ela me d´a. Ao meu irm˜ao, agrade¸co pelo amor e carinho depositados em mim e por ter me dado meu maior presente, minha sobrinha Manuela. `A Manu agrade¸co o sorriso e a alegria sempre que me vˆe e todo amor que uma pessoinha t˜ao pequena pode proporcionar a essa tia mais que babona. Agrade¸co a todos da minha fam´ılia pelo carinho, incentivo e pela uni˜ao em todos os momentos. Ao Nuno agrade¸co por todo amor, carinho e apoio que ele me d´a, com ele tudo fica mais f´acil. Obrigada pela parceria, pela paciˆencia e por todo conforto que tem me dado.

Aos meus professores, da gradua¸c˜ao e da p´os-gradua¸c˜ao, agrade¸co pelos ensinamen-tos, pela dedica¸c˜ao e por toda ajuda na minha forma¸c˜ao. Em especial, agrade¸co `as minhas orientadoras Alexandra e Thais pelo privil´egio de poder trabalhar com elas. `A Thais, agrade¸co toda ajuda, incentivo durante o doutorado e pela oportunidade de com-partilhar seus conhecimentos comigo. `A Alexandra, que foi minha professora desde a gradua¸c˜ao, agrade¸co pelas conversas, ajuda, incentivo e por conviver com uma referˆencia de profissional para mim.

Aos meus amigos do DME agrade¸co pelas experiˆencias e conhecimentos comparti-lhados. Em especial, agrade¸co `a panela (Camilinha, Lari, Dance e Jonhh) por terem

(7)

me acolhido, por toda ajuda durante essa etapa e pela amizade constru´ıda. Agrade¸co `

a Patty, Mari, Josi e Jony por todo carinho e ajuda. Aos meus colegas de trabalho na ENCE, agrade¸co pela convivˆencia alegre de todos os dias, pelas conversas construti-vas, pelo incentivo e pelas discuss˜oes interessantes sobre o trabalho. Agrade¸co a todos que foram meus alunos pelas experiˆencias trocadas em sala de aula e pelo aprendizado adquirido com eles.

Agrade¸co a todos os meus amigos pela paciˆencia que tiveram durante esta etapa, por entenderem `a minha ausˆencia quando foi necess´ario. Em especial, agrade¸co `a minha best Luana pelo companheirismo em todos os nossos 18 anos de amizade e pela alegria de me dar mais uma afilhada, a t˜ao aguardada Lu´ısa. `A minha amiga Vanessa, agrade¸co pelo carinho e for¸ca de sempre. Ao bonde da estat´ıstica, Fabi, Carol e Ju pela amizade verdadeira e por todos os momentos divididos juntas. `A Jones pela amizade, por sempre me entender e pela companhia divertida.

Agrade¸co por todo mundo que torceu e acompanhou essa etapa t˜ao importante na minha vida. Obrigada pelo carinho e confian¸ca!

Agrade¸co aos professores Helio Migon, Dani Gamerman, Rosangela Loschi e Reinaldo Arellano-Vale por aceitarem participar desta banca.

(8)

Resumo

Diversos fenˆomenos referenciados no espa¸co e no tempo s˜ao frequentemente estudados em diferentes ´areas da ciˆencia. Com isso, o desenvolvimento de modelos que descrevem os processos espa¸co-temporais se tornam extremamente relevantes. Tais processos tem como objetivos, entender o comportamento do fenˆomeno sob estudo e realizar previs˜oes para tempos futuros ou para localiza¸c˜oes n˜ao observadas. Usualmente, os modelos utili-zados para descrever estes processos s˜ao baseados em processos Gaussianos. No entanto, distribui¸c˜oes de dados reais apresentam frequentemente desvios nas suposi¸c˜oes de norma-lidade, como a presen¸ca de assimetria ou caudas mais pesadas. O objetivo deste trabalho ´

e propor modelos que possam acomodar estes desvios. Duas abordagens s˜ao propostas. A primeira utiliza um processo n˜ao Gaussiano definido como uma mistura de escala para acomodar caudas mais pesadas. Nesta mistura ´e usada uma vari´avel latente para mode-lar a variˆancia do fenˆomeno de interesse. A ideia ´e incorporar nesta vari´avel, o uso de covari´aveis espacialmente referenciadas tornando o processo mais flex´ıvel, em que a cur-tose varia conforme a localiza¸c˜ao. Um estudo com dados contaminados e uma aplica¸c˜ao em dados de temperatura m´axima em uma regi˜ao da Espanha s˜ao realizados nesta abor-dagem. A segunda abordagem leva em considera¸c˜ao a assimetria da distribui¸c˜ao dos dados. Baseado em um processo espacial marginal assim´etrico, cuja distribui¸c˜ao em cada localiza¸c˜ao ´e uma normal assim´etrica, ´e proposto um processo que utiliza ao inv´es da dis-tribui¸c˜ao half normal, na defini¸c˜ao da normal assim´etrica, uma distribui¸c˜ao log-normal. Esta proposta define uma nova classe de processos espaciais e espa¸co-temporais que apre-senta maior flexibilidade quanto `a assimetria e curtose. S˜ao realizados um exerc´ıcio com dados artificiais e uma aplica¸c˜ao `a temperatura m´axima mensal na regi˜ao sul e sudeste do Brasil. O procedimento de inferˆencia ´e feito sob o enfoque bayesiano.

Palavras-Chave: Modelagem espa¸co-temporal; curtose; assimetria; inferˆencia bayesiana; processos n˜ao Gaussianos.

(9)

Abstract

Several phenomena referenced in space and time are often studied in different areas of science. Thus, the development of models that describe spatio-temporal processes become extremely relevant. Such processes aims to understand the behavior of phenomenon under study and make predictions for future times or unobserved locations. Usually, the models used to describe these processes are based on Gaussian processes. However, real data distributions often exhibit deviations from the assumptions of normality, as the presence of skewness or heavy tails. The objective of this work is to propose models that can accommodate these deviations. Two approaches are proposed. The first uses a non-Gaussian process defined as a scale mixture to accommodate heavier tails. In this mixture is used a latent variable to model the variance of the phenomenon of interest. The idea is incorporate in this variable, the use of spatial covariates making the process more flexible with the kurtosis varying by location. A study of contaminated data and an application in maximum temperature data in a region of Spain are made in this approach. The second approach takes into account the skewness of data distribution. Based on a skewed marginal spatial process, whose distribution in each location is a skew-normal, a process is proposed which uses log-normal distribution instead of the half-normal distribution, in definition of skew-normal. The proposal defines a new class of spatial and spatiotemporal processes which presents more flexibility to skewness and kurtosis. It is conducted an exercise with artificial data and an application to the monthly maximum temperature in the area south and southeast of Brazil. The inference procedure is done under the Bayesian approach.

Keywords: Spatio-temporal modelling; kurtosis; skewness; bayesian inference; non-gaussian processes.

(10)

Sum´

ario

1 Introdu¸c˜ao 1

2 Modelagem Espa¸co-Temporal 6

2.1 Modelagem Espacial . . . 7

2.1.1 Geoestat´ıstica . . . 8

2.1.2 Processos n˜ao Gaussianos . . . 13

2.2 Modelagem Temporal . . . 14

2.2.1 Modelos lineares dinˆamicos . . . 15

2.3 Modelagem Espa¸co-Temporal . . . 19

2.3.1 Tempo discreto . . . 20

2.3.2 Tempo cont´ınuo . . . 21

3 Modelagem da curtose em modelos espa¸co-temporais 24 3.1 Motiva¸c˜ao . . . 25

3.2 Modelo proposto . . . 27

3.3 Propriedades do modelo proposto . . . 29

3.3.1 Modelagem da curtose . . . 33

3.4 Procedimento de Inferˆencia . . . 39

3.4.1 Crit´erios de compara¸c˜ao de modelos . . . 43

3.5 Estudo com dados contaminados . . . 46

3.6 Aplica¸c˜ao a dados reais . . . 62

(11)

4 Modelagem da assimetria em processos espaciais 79

4.1 Revis˜ao de Literatura . . . 80

4.1.1 Distribui¸c˜ao normal assim´etrica . . . 82

4.1.2 Modelo espacial com distribui¸c˜ao marginal normal assim´etrica . . 83

4.2 Modelo proposto . . . 85

4.2.1 Caso univariado - Mistura normal-log-normal . . . 85

4.2.2 Caso multivariado - Processo normal-log-normal espacial . . . 91

4.3 Procedimento de Inferˆencia . . . 93

4.3.1 Distribui¸c˜oes a priori para os parˆametros do modelo proposto . . 95

4.4 An´alise de dados gerados artificialmente . . . 97

4.4.1 Exemplo com r´eplicas independentes . . . 101

4.5 Conclus˜oes . . . 105

5 Modelagem da assimetria em modelos espa¸co-temporais 106 5.1 Modelo normal-log-normal espa¸co-temporal . . . 107

5.2 Propriedades do modelo normal-log-normal espa¸co-temporal . . . 109

5.3 Procedimento de Inferˆencia . . . 113

5.3.1 Distribui¸c˜oes a priori . . . 114

5.3.2 Previs˜ao . . . 115

5.4 Estudo com dados gerados artificialmente . . . 119

5.5 Aplica¸c˜ao a dados de temperatura m´axima . . . 137

5.6 Conclus˜oes . . . 149

6 Conclus˜oes e Trabalhos Futuros 150

A Modelo espa¸co-temporal 153

B Modelo espacial assim´etrico 162

(12)

Lista de Tabelas

3.1 Curtose do processo para diferentes valores de β0 considerando β1 = 0. . 33

3.2 Calibragem do Fator de Bayes na escala logar´ıtmica segundo Kass e Raf-tery (1995). . . 45

3.3 Valores dos parˆametros fixados para a gera¸c˜ao dos dados artificiais. . . . 47

3.4 Soma das amplitudes dos intervalos de credibilidade a posteriori de 95% da variˆancia condicional do processo. . . 53

3.5 Crit´erios para compara¸c˜ao quanto ao ajuste dos modelos. . . 56

3.6 Crit´erios para compara¸c˜ao dos modelos quanto a previs˜ao. . . 61

3.7 Crit´erios para compara¸c˜ao quanto ao ajuste dos modelos. . . 73

3.8 Crit´erios para compara¸c˜ao dos modelos quanto a previs˜ao. . . 76

4.1 Coeficiente de assimetria das distribui¸c˜oes assim´etricas . . . 89

4.2 Curtose das distribui¸c˜oes assim´etricas . . . 89

4.3 Valores dos parˆametros fixados para a gera¸c˜ao dos dados artificiais . . . 98

5.1 Valores dos parˆametros fixados para a gera¸c˜ao dos dados artificiais usando o modelo espa¸co-temporal assim´etrico. . . 121

5.2 Valores dos parˆametros fixados relacionados a assimetria para a cria¸c˜ao de diferentes cen´arios. . . 122

5.3 Sum´ario a posteriori dos parˆametros para os modelos ajustados. . . 142

5.4 Crit´erios para compara¸c˜ao quanto ao ajuste dos modelos. . . 143

5.5 Crit´erios para compara¸c˜ao quanto `a previs˜ao para localiza¸c˜ao n˜ao medidas dos modelos. . . 146 5.6 Crit´erios para compara¸c˜ao quanto `a previs˜ao 3 passos a frente dos modelos.149

(13)

Lista de Figuras

3.1 Diagrama de dispers˜ao para os dados de temperatura m´axima em que o tamanho dos c´ırculos ´e proporcional ao valor da variˆancia amostral em cada localiza¸c˜ao. . . 25 3.2 Diagrama de dispers˜ao entre a altitude e a variˆancia emp´ırica da temperatura m´axima

em uma regi˜ao da Espanha em julho de 2006. . . 26 3.3 Grade de valores de uma covari´avel fict´ıcia representada pelos quadrados e os c´ırculos

representam as correla¸c˜oes de cada ponto com o ponto representado com asterisco em branco. . . 31 3.4 Grade de valores de uma covari´avel fict´ıcia representada pelos quadrados e os c´ırculos

representam as correla¸c˜oes de cada ponto com o ponto representado com asterisco em preto. . . 32 3.5 Grade de valores de uma covari´avel fict´ıcia representada pelas cores e os c´ırculos

repre-sentam as curtoses em cada localiza¸c˜ao. β1 foi considerado positivo (pain´eis (a) e (b)) e negativo (pain´eis (c) e (d)). . . 34 3.6 Tabela com medidas-resumo da distribui¸c˜ao a priori para β0e o gr´afico de sua fun¸c˜ao

de densidade. . . 35 3.7 Tabela com os quantis da distribui¸c˜ao a priori para a curtose e o gr´afico de seu

histo-grama, quando β1= 0. . . 36

3.8 Histogramas da distribui¸c˜ao a priori para a curtose assumindo diferentes distribui¸c˜oes a priori para o parˆametro β1e para a covari´avel x∗1 e β0∼ N T−(0, 3). . . 37

3.9 Distribui¸c˜oes a priori marginal para β1e para a curtose considerando diferentes valores para lkurt. Na segunda coluna os pain´eis enfatizam as caudas das respectivas distribui¸c˜oes. 39

(14)

3.10 Gr´afico de dispers˜ao no espa¸co dos pontos usados para a gera¸c˜ao das observa¸c˜oes. Os c´ırculos cheios representam os pontos usados para o ajuste do modelo. Os quadrados representam os pontos usados para a realiza¸c˜ao da previs˜ao. O ponto destacado com asterisco ´e o ponto referˆencia para a contamina¸c˜ao dos dados. Os n´umeros representam uma identifica¸c˜ao de cada localiza¸c˜ao. . . 47 3.11 Gr´afico de dispers˜ao no espa¸co dos pontos de cada localiza¸c˜ao em que o tamanho do

c´ırculo ´e inversamente proporcional a distˆancia com o ponto de referˆencia (em asterisco). 48 3.12 Gr´aficos do intervalo de credibilidade (95%) e da mediana a posteriori das fun¸c˜oes de

correla¸c˜ao (onde t = 1) dos quatro modelos e do processo gerador dos dados, antes da contamina¸c˜ao. A linha pontilhada ´e a fun¸c˜ao de correla¸c˜ao verdadeira. . . 51 3.13 Gr´aficos das densidades a priori e a posteriori referentes aos parˆametros β0 e β1 dos

modelos PNG.X (I) e PNG.X (D). . . 52 3.14 Gr´aficos dos intervalos de credibilidade a posteriori de 95%, em que os c´ırculos

repre-sentam a mediana a posteriori da variˆancia condicional do processo. . . 54 3.15 Gr´afico dos intervalos de credibilidade a posteriori de 95%, em que os c´ırculos

represen-tam a mediana a posteriori da curtose dos modelos PNG.X (I) e modelo PNG.X (D) [Pain´eis `a esquerda]. O primeiro intervalo representa o do modelo PNG. Nos pain´eis `a direita est˜ao os gr´aficos das medianas a posteriori da curtose distribu´ıdas ao longo da regi˜ao geogr´afica.. . . 55 3.16 Gr´afico dos intervalos de credibilidade de 95% para as previs˜oes dos locais 1 e 2 em

todos os trinta instantes de tempo. Os valores verdadeiros est˜ao simbolizados atrav´es dos asteriscos. . . 57 3.17 Gr´afico dos intervalos de credibilidade de 95% para as previs˜oes dos locais 3 e 4 em

todos os trinta instantes de tempo. Os valores verdadeiros est˜ao simbolizados atrav´es dos asteriscos. . . 58 3.18 Gr´afico dos intervalos de credibilidade de 95% para as previs˜oes dos locais 5 e 6 em

todos os trinta instantes de tempo. Os valores verdadeiros est˜ao simbolizados atrav´es dos asteriscos. . . 59 3.19 Crit´erio de compara¸c˜ao de modelos quanto a previs˜ao (CRPS) referentes aos locais de

(15)

3.20 Localiza¸c˜oes das esta¸c˜oes monitoradoras de temperatura. Os c´ırculos cheios represen-tam as localiza¸c˜oes usadas para previs˜ao. . . 62 3.21 Sum´arios dos dados referentes a temperatura m´axima do Pa´ıs Basco no per´ıodo de

julho de 2006. . . 63 3.22 (a) Variˆancia emp´ırica distribu´ıda no espa¸co (tamanho do c´ırculo proporcional `a variˆancia)

e (b) altitude padronizada interpolada no espa¸co. . . 64 3.23 Gr´aficos das densidades a priori e a posteriori do parˆametro σ2 sob os quatro modelos

ajustados. . . 66 3.24 Gr´aficos das densidades a priori e a posteriori dos parˆametros δ0, δ1, δ2, δ3, δ4 e δ5

para os quatro modelos ajustados. . . 67 3.25 Gr´aficos das densidades a priori e a posteriori dos parˆametros a1, a2, α1 e α2 para os

quatro modelos ajustados. . . 69 3.26 Gr´aficos das densidades a priori e a posteriori referentes aos parˆametros β0 e β1 dos

modelos PNG.X. . . 69 3.27 Gr´aficos dos intervalos de credibilidade a posteriori de 95% para a variˆancia condicional

dos modelos PNG, PNG.X (I) e PNG.X (D). Os c´ırculos representam a mediana a posteriori. . . 71 3.28 Gr´afico do intervalo de credibilidade a posteriori de 95%, em que os c´ırculos representam

a mediana a posteriori da curtose dos modelos PNG.X (I) e PNG.X (D). O primeiro intervalo representa o do modelo PNG. . . 72 3.29 Mapa das medianas a posteriori da curtose interpolada dos modelos PNG.X (I) e

PNG.X (D). . . 72 3.30 Gr´afico dos intervalos de credibilidade de 95% para as previs˜oes dos locais 1 e 2 em

todos os 31 tempos. Os valores verdadeiros est˜ao simbolizados atrav´es dos asteriscos. 74 3.31 Gr´afico dos intervalos de credibilidade de 95% para a previs˜ao do local 3 em todos os

31 tempos. Os valores verdadeiros est˜ao simbolizados atrav´es dos asteriscos. . . 75 3.32 Crit´erio de compara¸c˜ao de modelos quanto a previs˜ao (CRPS) referentes ao local 1, 2

(16)

4.1 Gr´aficos das fun¸c˜oes de densidade de probabilidade das vari´aveis que se-guem uma distribui¸c˜ao normal assim´etrica e normal-log-normal, variando o parˆametro de forma. A distribui¸c˜ao normal serviu como base de com-para¸c˜ao. Os parˆametros de posi¸c˜ao e escala foram fixados em µ = 0 e σ = 1. . . 90 4.2 Histogramas da distribui¸c˜ao a priori para o parˆametro τ , em que σ2

2 ∼

GI(2; 0, 8) e σ1 ∼ N (0, Cσ1). Foram considerados diferentes valores para Cσ1. . . 96 4.3 Gr´afico das localiza¸c˜oes no espa¸co dos dados gerados artificialmente. . . 97 4.4 Gr´aficos dos tra¸cos das cadeias e das densidades a priori e a posteriori dos parˆametros

β0 e β1. . . 99

4.5 Gr´aficos dos tra¸cos das cadeias e das densidades a priori e a posteriori dos parˆametros σ1 e σ22. . . 100

4.6 Gr´aficos dos tra¸cos das cadeias e das densidades a priori e a posteriori dos parˆametros a1e a2. . . 101

4.7 Gr´aficos dos tra¸cos das cadeias a posteriori dos parˆametros β0, β1 eσ1com 1 r´eplica e 30 r´eplicas. . . 103 4.8 Gr´aficos dos tra¸cos das cadeias a posteriori dos parˆametros σ2

2, a1 e a2com 1 r´eplica e 30 r´eplicas. . . 104

5.1 Gr´aficos dos comportamentos do coeficiente de assimetria do modelo normal-log-normal espa¸co-temporal para diferentes valores dos parˆametros σ1, σ02 e σ22. . . 112

5.2 Gr´aficos dos comportamentos da curtose do modelo normal-log-normal espa¸co-temporal para diferentes valores dos parˆametros σ1, σ02 e σ22. . . 112

5.3 Gr´afico das localiza¸c˜oes no espa¸co dos dados gerados artificialmente. . . 121 5.4 Gr´aficos dos intervalos de credibilidade a posteriori HPD de 95% a posteriori e a priori

do parˆametro a1 para os dois modelos ajustados, o modelo que estima os W ’s (M.W) e o que usa fator de desconto (M.FD). Os intervalos s˜ao para diferentes cen´arios. A linha horizontal tracejada representa o valor verdadeiro do parˆametro. . . 123

(17)

5.5 Gr´aficos dos intervalos de credibilidade a posteriori HPD de 95% a posteriori do parˆametro a2para os dois modelos ajustados, M.W e M.FD, e para os quatro cen´arios criados. A linha horizontal tracejada representa o valor verdadeiro do parˆametro. . . 124 5.6 Gr´aficos dos intervalos de credibilidade a posteriori HPD de 95% a posteriori dos

parˆametros σ2

0 e σ22 para os quatro cen´arios nos dois modelos ajustados, M.W e M.FD. A linha horizontal tracejada representa o valor verdadeiro do parˆametro. . . 125 5.7 Gr´aficos dos intervalos de credibilidade a posteriori HPD de 95% a posteriori dos

parˆametros W1 e W2 nos quatro cen´arios para o modelo ajustado M.W. A linha hori-zontal tracejada representa o valor verdadeiro do parˆametro. . . 125 5.8 Gr´aficos dos intervalos de credibilidade a posteriori HPD de 95% dos parˆametros µσ1

e Cσ1 para os diferentes cen´arios e para os dois modelos ajustados, M.W e M¿FD. O

asterisco representa o valor verdadeiro do parˆametro. . . 126 5.9 Gr´aficos dos intervalos de credibilidade a posteriori de 95% e a mediana a posteriori da

evolu¸c˜ao no tempo dos estados do modelo para os diferentes cen´arios de assimetria e para os dois modelos ajustados. . . 127 5.10 Gr´aficos dos intervalos de credibilidade a posteriori de 95% do parˆametro σ1que est´a

relacionado com a assimetria para os cen´arios 1 e 2. Os intervalos s˜ao referentes ao ajuste do modelo M.W e os asteriscos representam os valores verdadeiros. . . 129 5.11 Gr´aficos dos intervalos de credibilidade a posteriori de 95% do parˆametro σ1que est´a

relacionado com a assimetria para os cen´arios 3 e 4. Os intervalos s˜ao referentes ao ajuste do modelo M.W. Os asteriscos representam os valores verdadeiros no painel (a) e no painel (b) o valor verdadeiro ´e representado pela linha horizontal tracejada. . . 130 5.12 Gr´aficos dos intervalos a posteriori preditivos de 95% de credibilidade para 6 localiza¸c˜oes

ao longo dos 60 instantes de tempo para o cen´ario 1. Intervalos referentes ao modelo M.W. . . 131 5.13 Gr´aficos dos intervalos a posteriori preditivos de 95% de credibilidade para 2 localiza¸c˜oes

ao longo dos 60 instantes de tempo para os cen´arios 2, 3 e 4. Intervalos referentes ao modelo M.W. . . 132 5.14 Gr´afico dos intervalos de previs˜ao de 95% de credibilidade para 5 instantes futuros dos

(18)

5.15 Gr´aficos das interpola¸c˜oes espaciais do modelo M.W para o instante de tempo 60 no cen´ario 1. O painel (a) e (b) representam, respectivamente, a m´edia e o desvio padr˜ao da distribui¸c˜ao preditiva a posteriori. . . 134 5.16 Gr´aficos das interpola¸c˜oes espaciais do modelo M.W para o instante de tempo 60 no

cen´ario 2. O painel (a) e (b) representam, respectivamente, a m´edia e o desvio padr˜ao da distribui¸c˜ao preditiva a posteriori. . . 135 5.17 Gr´aficos das interpola¸c˜oes espaciais do modelo M.W para o instante de tempo 60 no

cen´ario 3. O painel (a) e (b) representam, respectivamente, a m´edia e o desvio padr˜ao da distribui¸c˜ao preditiva a posteriori. . . 135 5.18 Gr´aficos das interpola¸c˜oes espaciais do modelo M.W para o instante de tempo 60 no

cen´ario 4. O painel (a) e (b) representam, respectivamente, a m´edia e o desvio padr˜ao da distribui¸c˜ao preditiva a posteriori . . . 136 5.19 Mapa da regi˜ao em estudo onde os c´ırculos cheios s˜ao as esta¸c˜oes monitoradoras usadas

no ajuste do modelo e os asteriscos s˜ao as esta¸c˜oes que foram retiradas para a previs˜ao. 137 5.20 Gr´afico das s´eries temporais da temperatura m´axima mensal em cada esta¸c˜ao

monito-radora. . . 138 5.21 Box-plot da temperatura m´axima mensal para cada instante de tempo usado na an´alise. 138 5.22 Box-plot da temperatura m´axima mensal para cada esta¸c˜ao monitoradora. . . 139 5.23 Gr´afico das s´eries temporais da umidade m´edia mensal em cada esta¸c˜ao monitoradora. 139 5.24 Gr´aficos dos intervalos de credibilidade a posteriori de 95% dos valores ajustados pelo

modelo NLN em 4 esta¸c˜oes monitoradoras em que o c´ırculo cheio representa o valor verdadeiro e a linha cheia a mediana a posteriori. . . 143 5.25 Gr´aficos das distribui¸c˜oes a priori e a posteriori dos parˆametros µσ1 e Cσ1 referente ao

modelo NLN. . . 144 5.26 Gr´aficos dos intervalos de credibilidade a posteriori de 95% do parˆametro σ1do modelo

NLN. A linha tracejada no zero representa uma referˆencia de presen¸ca de simetria nos dados. . . 145 5.27 Gr´aficos dos intervalos de credibilidade a posteriori de 95% para os estados do modelo

(19)

5.28 Gr´afico dos intervalos a posteriori de 95% de credibilidade da distribui¸c˜ao preditiva para 2 esta¸c˜oes n˜ao medidas referentes aos trˆes modelos ajustados. . . 147 5.29 Gr´aficos do intervalos de credibilidade a posteriori de 95% da distribui¸c˜ao preditiva

para 3 meses a frente em 6 esta¸c˜oes. Os resultados s˜ao referentes aos trˆes modelos ajustados. . . 148

A.1 Gr´aficos das cadeias a posteriori dos parˆametros do modelo PNG.X (I) e das variˆancias de trˆes localiza¸c˜oes. Em parˆenteses s˜ao apresentados os valores da estat´ıstica ˆR. . . . 160 A.2 Gr´aficos das cadeias a posteriori dos parˆametros do modelo PNG.X (I) e das variˆancias

de trˆes localiza¸c˜oes. . . 161

C.1 Gr´aficos das cadeias a posteriori dos parˆametros do modelo normal-log-normal no cen´ario 1. Em parˆenteses s˜ao apresentados os valores da estat´ıstica ˆR.. . . 179 C.2 Gr´aficos das cadeias a posteriori dos parˆametros de forma de 9 localiza¸c˜oes do

mo-delo normal-log-normal no cen´ario 1. Em parˆenteses s˜ao apresentados os valores da estat´ıstica ˆR. . . 180 C.3 Gr´aficos das cadeias a posteriori dos parˆametros do modelo normal-log-normal no

cen´ario 2. Em parˆenteses s˜ao apresentados os valores da estat´ıstica ˆR.. . . 181 C.4 Gr´aficos das cadeias a posteriori dos parˆametros de forma de 9 localiza¸c˜oes do

mo-delo normal-log-normal no cen´ario 2. Em parˆenteses s˜ao apresentados os valores da estat´ıstica ˆR. . . 182 C.5 Gr´aficos das cadeias a posteriori dos parˆametros do modelo normal-log-normal no

cen´ario 3. Em parˆenteses s˜ao apresentados os valores da estat´ıstica ˆR.. . . 183 C.6 Gr´aficos das cadeias a posteriori dos parˆametros de forma de 9 localiza¸c˜oes do

mo-delo normal-log-normal no cen´ario 3. Em parˆenteses s˜ao apresentados os valores da estat´ıstica ˆR. . . 184 C.7 Gr´aficos das cadeias a posteriori dos parˆametros do modelo normal-log-normal no

cen´ario 4. Em parˆenteses s˜ao apresentados os valores da estat´ıstica ˆR.. . . 185 C.8 Gr´aficos das cadeias a posteriori dos parˆametros do modelo normal-log-normal para a

(20)

Cap´ıtulo 1

Introdu¸

ao

O foco deste trabalho est´a na modelagem de dados referenciados no espa¸co e no tempo. Em particular, assume-se que a estrutura espacial das observa¸c˜oes segue a estru-tura da geoestat´ıstica. A geoestat´ıstica ´e uma sub´area da estat´ıstica espacial, onde as observa¸c˜oes s˜ao consideradas uma realiza¸c˜ao parcial de um processo estoc´astico indexado pela localiza¸c˜ao que varia continuamente no espa¸co. Este processo ´e chamado de pro-cesso espacial. ´E natural pensar em uma extens˜ao deste processo para o tempo, em que s˜ao analisados distintos instantes de tempo em um dado intervalo. A varia¸c˜ao do tempo neste processo pode acontecer tanto de forma cont´ınua quanto discreta. Tais processos s˜ao chamados processos espa¸co-temporais.

O desenvolvimento de m´etodos para a an´alise de processos espa¸co-temporais vem aumentando consideravelmente devido aos avan¸cos computacionais. Os modelos que descrevem estes processos incorporam as dependˆencias espaciais e temporais entre as ob-serva¸c˜oes com o objetivo de entender o comportamento do processo sob estudo e realizar previs˜oes para tempos futuros ou para localiza¸c˜oes n˜ao observadas.

Existem in´umeras aplica¸c˜oes pr´aticas destes processos. Por exemplo, ´e interesse en-tender o comportamento de fenˆomenos clim´aticos, bem como prever a ocorrˆencia dos mesmos. Com isto, torna-se fundamental entender a dinˆamica espacial e temporal de tais fenˆomenos. O mesmo ocorre em estudos do efeito da polui¸c˜ao atmosf´erica, estudos ambientais, entre outros.

(21)

ba-seados em processos Gaussianos que apresentam a vantagem de estarem completamente especificados se a fun¸c˜ao de m´edia e a fun¸c˜ao de covariˆancia forem especificadas. No entanto, distribui¸c˜oes de dados reais apresentam frequentemente desvios nas suposi¸c˜oes de normalidade. Tais desvios podem ser a presen¸ca de caudas mais pesadas ou um comportamento assim´etrico.

Sob essa perspectiva, o objetivo principal deste trabalho ´e propor modelos que pos-sam acomodar estes desvios que as distribui¸c˜oes dos dados possam apresentar. Duas abordagens s˜ao propostas, uma para acomodar distribui¸c˜oes de dados com caudas mais pesadas e a outra para acomodar distribui¸c˜oes de dados com assimetria e com caudas mais pesadas ambas no contexto dos processos espa¸co-temporais.

A primeira abordagem que ´e usada para acomodar caudas mais pesadas inspira-se na ideia apresentada por Palacios e Steel (2006) e estendida por Fonseca e Steel (2011) em que ´e definido um processo n˜ao Gaussiano como uma mistura de escala. Nesta mistura ´e usada uma vari´avel latente que modela a variˆancia do processo de interesse. Tal vari´avel permite que exista uma heterocedasticidade espacial e que o processo tenha uma cauda mais pesada que a do processo Gaussiano. Podendo assim, acomodar poss´ıveis valores discrepantes.

A ideia a ser desenvolvida aqui ´e incorporar, na vari´avel latente que modela a variˆancia do processo, poss´ıveis covari´aveis espacialmente referenciadas. Espera-se que o uso destas covari´aveis ajude a trazer informa¸c˜ao sobre a variˆancia do processo e sobre o comporta-mento dos dados em estudo. A abordagem proposta permite que a curtose do processo, medida respons´avel pela cauda da distribui¸c˜ao resultante, possa variar conforme a loca-liza¸c˜ao. Este fato faz com que o modelo seja mais flex´ıvel, podendo assumir distribui¸c˜oes com diferentes comportamentos em cada localiza¸c˜ao. Acredita-se que com o uso destas covari´aveis a previs˜ao para localiza¸c˜oes n˜ao medidas possa ser melhorada, no sentido em que a incerteza associada a previs˜ao seja menor. Neste contexto, o processo espa¸co-temporal que ´e proposto considera o tempo cont´ınuo assim como ´e feito em Fonseca e Steel (2011).

Um estudo com dados contaminados ´e feito com a finalidade de avaliar o comporta-mento do modelo proposto em rela¸c˜ao `a ajuste e a previs˜ao. Tal estudo ´e relevante para

(22)

avaliar se o modelo proposto consegue recuperar o comportamento dos dados e realizar previs˜oes que incorporem o efeito da contamina¸c˜ao. Para realizar a contamina¸c˜ao do dados, a ideia usada ´e supor um ponto como fonte de contamina¸c˜ao, por exemplo uma fonte de polui¸c˜ao do ar, e a contamina¸c˜ao ´e feita considerando uma fun¸c˜ao da distˆancia entre cada ponto da amostra para a fonte contaminadora. De forma que quanto menor ´

e a distˆancia, maior ´e a contamina¸c˜ao. O exerc´ıcio ´e feito ajustando o modelo que ´e proposto neste trabalho e modelos que s˜ao casos particulares dele. Para o modelo pro-posto, a covari´avel usada para modelar a variˆancia do processo ´e a distˆancia euclidiana entre cada localiza¸c˜ao e a fonte de contamina¸c˜ao. Uma aplica¸c˜ao do modelo ´e feita em dados referentes a temperatura m´axima di´aria observada em 70 localiza¸c˜oes do Pa´ıs Basco, Espanha no per´ıodo do mˆes de julho do ano de 2006. Nesta aplica¸c˜ao tamb´em s˜ao ajustados casos particulares do modelo proposto e ´e feita uma compara¸c˜ao entre estes modelos considerando o ajuste e a previs˜ao.

A segunda abordagem proposta neste trabalho leva, principalmente, em considera¸c˜ao a assimetria da distribui¸c˜ao dos dados em processos espaciais e espa¸co-temporais. Zhang e El-Shaarawi (2010) definem um processo espacial marginal assim´etrico cuja distribui¸c˜ao marginal para cada localiza¸c˜ao segue uma distribui¸c˜ao normal assim´etrica definida por Azzalini (1985). Henze (1986) mostrou que a distribui¸c˜ao normal assim´etrica pode ser escrita em fun¸c˜ao da soma de duas vari´aveis aleat´orias, em que uma vari´avel segue uma distribui¸c˜ao normal e a outra uma distribui¸c˜ao normal truncada.

A proposta deste trabalho consiste em substituir a distribui¸c˜ao normal truncada para uma das componentes da soma, descrita por Henze (1986), por uma distribui¸c˜ao Log-normal. Esta proposta define uma nova classe de processos espaciais e espa¸co-temporais assim´etricos, em que os processos apresentam maior flexibilidade quanto ao comporta-mento da assimetria e, consequentemente, quanto ao comportacomporta-mento da curtose.

No contexto dos processos espaciais, ´e definido um parˆametro respons´avel pela forma da distribui¸c˜ao marginal em cada localiza¸c˜ao. Este parˆametro influencia tanto a assime-tria quanto a curtose do processo e ´e fixo ao longo do espa¸co. A ideia ´e estendida para a classe de modelos espa¸co-temporais incorporando o tempo como discreto. Sendo assim, considera-se que as observa¸c˜oes s˜ao dadas por intervalos regulares ao longo do tempo.

(23)

A modelagem do tempo ´e feita usando a ideia da classe dos modelo dinˆamicos proposta por Harrison e Stevens (1976) e muito discutida em West e Harrison (1997). Com o uso dos modelos dinˆamicos, estruturas como sazonalidade, tendˆencia e n´ıvel podem ser incorporadas na modelagem. No processo espa¸co-temporal, permite-se que o parˆametro respons´avel pela forma da distribui¸c˜ao varie ao longo do espa¸co, podendo assumir dife-rentes comportamentos assim´etricos e de caudas pesadas em cada localiza¸c˜ao.

Um exerc´ıcio com dados gerados artificialmente ´e realizado considerando 4 diferentes cen´arios de comportamento em rela¸c˜ao `a assimetria do processo. O intuito do exerc´ıcio ´

e avaliar tanto o ajuste quanto a previs˜ao que ´e realizada pelo modelo proposto. S˜ao discutidas previs˜oes com rela¸c˜ao a tempo futuro e interpola¸c˜oes espaciais. O modelo pro-posto tamb´em ´e aplicado a um conjunto de dados reais referente a temperatura m´axima mensal na regi˜ao sul e sudeste do Brasil. S˜ao usadas 58 localiza¸c˜oes ao longo de 5 anos, no per´ıodo de mar¸co de 2007 a abril de 2012. Para efeitos de compara¸c˜ao, ajusta-se tamb´em um modelo Gaussiano, para os dados na escala original e uma transforma¸c˜ao dos dados. As abordagens s˜ao comparadas em rela¸c˜ao ao ajuste e a previs˜ao.

O procedimento de inferˆencia em ambos os modelos ´e feito sob o enfoque bayesiano. ´

E desenvolvido e implementado um algoritmo de simula¸c˜ao de Monte Carlo via cadeias de Markov para obter amostras da distribui¸c˜ao a posteriori dos parˆametros e da distri-bui¸c˜ao preditiva. Em ambas abordagens ´e explorada a estrutura Gaussiana do processo condicional `as vari´aveis latentes para a aproxima¸c˜ao da distribui¸c˜ao preditiva.

A tese est´a dividida da seguinte maneira. No Cap´ıtulo 2 ´e feita uma revis˜ao dos conceitos da modelagem de processos espaciais, em particular, a ´area da geoestat´ıstica. Tamb´em ´e feita uma revis˜ao sobre os processos temporais em que discute-se o modelo linear dinˆamico e suas principais caracter´ısticas. A seguir, s˜ao introduzidos os principais conceitos sobre a modelagem dos processos espa¸co-temporais onde s˜ao revisadas duas abordagens em que uma considera o tempo como discreto e a outra como cont´ınuo.

No Cap´ıtulo 3 ´e proposto o modelo para acomodar as caudas mais pesadas em pro-cessos espa¸co-temporais. Neste cap´ıtulo, a formula¸c˜ao do modelo proposto ´e descrita em conjunto com suas propriedades. ´E detalhado o procedimento de inferˆencia bem como os crit´erios de compara¸c˜ao de modelos usados neste trabalho. Um estudo com dados

(24)

conta-minados ´e realizado a fim de verificar o comportamento do modelo proposto e tamb´em ´

e feita uma aplica¸c˜ao do modelo aos dados de temperatura em uma regi˜ao da Espanha. No final do cap´ıtulo s˜ao discutidas as principais conclus˜oes desta proposta.

O Cap´ıtulo 4 prop˜oe um modelo para processos espaciais que possuem comportamento assim´etrico. ´E feita uma revis˜ao de literatura da modelagem assim´etrica no contexto da geoestat´ıstica. Em seguida, descreve-se a formula¸c˜ao do modelo proposto e o proce-dimento de inferˆencia. Um estudo com dados gerados artificialmente ´e realizado para verificar o ajuste do modelo, sendo feito o mesmo exerc´ıcio com r´eplicas independentes. S˜ao apontadas, no fim do cap´ıtulo, as principais conclus˜oes.

No Cap´ıtulo 5 ´e feita uma extens˜ao do processo assim´etrico, apresentado anterior-mente, para o contexto espa¸co-temporal. S˜ao discutidas as propriedades deste modelo, o procedimento de inferˆencia e as diferentes abordagens para realizar previs˜oes no modelo proposto. Um exerc´ıcio com dados gerados artificialmente em diferentes cen´arios de as-simetria ´e realizado, bem como um ajuste do modelo a um conjunto de dados referente a temperatura m´axima mensal nas regi˜oes sul e sudeste do Brasil.

Por fim, no Cap´ıtulo 6 ´e realizada uma conclus˜ao geral sobre a tese e s˜ao discutidos poss´ıveis trabalhos futuros.

(25)

Cap´ıtulo 2

Modelagem Espa¸

co-Temporal

Diversas ´areas da ciˆencia apresentam fenˆomenos que s˜ao indexados no espa¸co e no tempo e tais ´ındices podem ser de extrema importˆancia para a an´alise destes dados. Com isso, surge a necessidade de entender e modelar estes fenˆomenos incorporando a informa¸c˜ao da localiza¸c˜ao e do tempo em sua an´alise. Por exemplo, em estudos de polui¸c˜ao do ar, h´a interesse n˜ao s´o na natureza espacial da superf´ıcie do poluente, mas tamb´em no comportamento desta superf´ıcie ao longo do tempo. ´E usual que medi¸c˜oes de vari´aveis de interesse sejam coletadas em diferente locais de monitoramento ao longo de diversos instantes de tempo. A modelagem espa¸co-temporal tem o intuito de modelar fenˆomenos em que tanto o espa¸co, quanto o tempo s˜ao informa¸c˜oes essenciais para o entendimento dos dados.

Neste cap´ıtulo ´e feita uma revis˜ao de conceitos da modelagem espa¸co-temporal. Na primeira se¸c˜ao ´e discutida a modelagem de processos espaciais, em particular, na ´area da geoestat´ıstica que trata de processos que variam continuamente no espa¸co. O processo Gaussiano ´e apresentado nesta se¸c˜ao e uma alternativa mais flex´ıvel a este processo tamb´em ´e apresentada, que s˜ao os processos n˜ao Gaussianos. Na segunda se¸c˜ao discute-se a modelagem de processos temporais onde ´e definido o modelo linear dinˆamico e suas principais caracter´ısticas. Na terceira se¸c˜ao ´e apresentada poss´ıveis generaliza¸c˜oes dos processos discutidos nas se¸c˜oes anteriores para o caso de um processo espa¸co-temporal. S˜ao discutidas duas abordagens em que uma considera o tempo como discreto e a outra como cont´ınuo.

(26)

2.1

Modelagem Espacial

Fˆenomenos em que a localiza¸c˜ao geogr´afica influi no seu comportamento s˜ao bastante frequentes em diversas ´areas de estudo como epidemiologia, demografia, meteorologia e estudos de violˆencia, entre outros. Quest˜oes como: a distribui¸c˜ao dos casos de doen¸ca formam algum padr˜ao no espa¸co? Como prever a precipita¸c˜ao de chuva numa dada localiza¸c˜ao? S˜ao recorrentes e de grande interesse para uma popula¸c˜ao. A estat´ıstica espacial ´e o conjunto de m´etodos de an´alise de fenˆomenos em que a localiza¸c˜ao geogr´afica ´e usada explicitamente na an´alise. A incorpora¸c˜ao da localiza¸c˜ao na modelagem tem como objetivo descrever ou explicar o comportamento destes fenˆomenos de forma mais realista. Os dados portanto, representam uma amostra do processo de interesse, a partir dos quais se busca fazer inferˆencia sobre o comportamento do processo.

Segundo Cressie (1993) e Banerjee et al. (2004), os conjuntos de dados espaciais podem ser classificados em trˆes grupos:

• Padr˜oes de pontos: Os pontos localizados no espa¸co em geral n˜ao est˜ao asso-ciados a valores, mas apenas `a ocorrˆencia dos eventos considerados. Exemplos: localiza¸c˜ao de crimes, ocorrˆencias de doen¸ca. Neste tipo de dado, a posi¸c˜ao dos pontos ´e dita aleat´oria e um dos principais interesses ´e determinar se os pontos observados exibem algum padr˜ao sistem´atico. Busca-se detectar a existˆencia de padr˜ao de conglomerados espaciais.

• Dados de ´area: Neste caso, a localiza¸c˜ao dos dados est´a associada a ´areas deli-mitadas decorrentes de uma parti¸c˜ao do espa¸co. Isto ocorre com muita frequˆencia quando s˜ao analisados eventos agregados por munic´ıpios, bairros ou setores cen-sit´arios, onde n˜ao se disp˜oe da localiza¸c˜ao exata dos eventos, mas de um valor por ´

area. Exemplo: n´umero de ´obitos por munic´ıpio.

• Geoestat´ıstica: Sup˜oe que existe uma superf´ıcie cont´ınua subjacente ao processo de interesse. Dados s˜ao observados nesta superf´ıcie em um n´umero finito de loca-liza¸c˜oes. Exemplos: medidas de chuva ou temperatura em postos meteorol´ogicos, concentra¸c˜ao de poluentes observada em esta¸c˜oes de monitoramento.

(27)

Este trabalho ir´a considerar a modelagem de dados de geoestat´ıstica. A seguir, ser˜ao discutidos mais detalhes desta ´area da estat´ıstica espacial. Caracter´ısticas e propriedades da modelagem na geoestat´ıstica ser˜ao apresentadas. Para maiores informa¸c˜oes e detalhes veja Cressie (1993) e Banerjee et al. (2004).

2.1.1

Geoestat´ıstica

A Geoestat´ıstica ´e uma ´area da estat´ıstica espacial em que os dados s˜ao constitu´ıdos de um n´umero finito de medi¸c˜oes relacionadas a um fenˆomeno subjacente espacialmente cont´ınuo. Por exemplo, considere um conjunto de medidas de um determinado poluente coletadas em uma hora em esta¸c˜oes meteorol´ogicas de uma certa cidade. O fenˆomeno subjacente ´e dado pelo conjunto de medidas do poluente em toda a ´area da cidade. Considera-se que o fˆenomeno subjacente ´e uma realiza¸c˜ao de um processo estoc´astico no espa¸co e a amostra ´e formada por medi¸c˜oes feitas em alguns pontos da superf´ıcie.

Na geoestat´ıstica, o processo estoc´astico no espa¸co ´e definido por {Z(s) : s ∈ D} em que D ´e um subconjunto do Rp com volume p-dimensional positivo (Cressie, 1993), ou seja, s varia continuamente ao longo da regi˜ao D e representa as localiza¸c˜oes espaciais. Especificada a regi˜ao D, o processo ser´a denotado somente por Z(·). Na pr´atica, o que se observa ´e uma realiza¸c˜ao parcial deste processo.

Um dos objetivos da an´alise de dados espaciais ´e a identifica¸c˜ao das varia¸c˜oes de pri-meira ordem ou de grande escala, e as varia¸c˜oes de segunda ordem ou pequena escala. A varia¸c˜ao de primeira ordem ´e definida pela m´edia do processo espacial, E[Z(s)], tamb´em chamada de tendˆencia do processo. A varia¸c˜ao de segunda ordem ´e representada pelas dependˆencias entre as diferentes localiza¸c˜oes, isto ´e, Cov[Z(s1), Z(s2)] para s1, s2 ∈ D.

Conceitos como estacionariedade e isotropia est˜ao diretamente ligados a especifica¸c˜ao destas varia¸c˜oes.

Assuma que a m´edia, E[Z(s)], e a variˆancia, V ar[Z(s)] = Cov[Z(s), Z(s)] , do pro-cesso existam para todo s. Existem trˆes diferentes tipos de estacionariedade, que s˜ao definidas a seguir.

(28)

es-tacion´ario se para todo n ∈ {1, 2, . . . }, todo conjunto finito de pontos {s1, s2, . . . , sn} ⊂

D e qualquer h ∈ Rp, a distribui¸c˜ao de (Z(s

1), . . . , Z(sn)) ´e a mesma de (Z(s1 +

h), . . . , Z(sn+ h)). A estacionariedade estrita significa que as respectivas distribui¸c˜oes

finito dimensionais s˜ao invariantes `a transla¸c˜ao.

Defini¸c˜ao 2 (Processo estacion´ario de segunda ordem (ou fracamente estaci´on´ario): Um processo Z(s) ´e estacion´ario de segunda ordem se E[Z(s)] = µ, ou seja, a m´edia ´e cons-tante, e Cov[Z(s), Z(s + h)] = C(h) para todo h ∈ Rp e s, s + h ∈ D. A fun¸c˜ao de covariˆancia, C(·), s´o depende do vetor de separa¸c˜ao h. Esta fun¸c˜ao tamb´em ´e chamada de covariograma. Estacionariedade estrita implica em estacionariedade de segunda or-dem, mas a rec´ıproca n˜ao ´e necessariamente verdadeira.

Defini¸c˜ao 3 (Processo intrinsecamente estacion´ario): Um processo Z(s) ´e intrinseca-mente estacion´ario se

E[Z(s + h) − Z(s)] = 0 e V ar[Z(s + h) − Z(s)] = 2γ(h),

para todo s, s + h ∈ D. A quantidade 2γ(h) ´e conhecida como variograma e possui um papel importante na geoestat´ıstica pois descreve a estrutura de covariˆancia, ou seja, a dependˆencia espacial. A quantidade γ(h) ´e conhecida como semivariograma. Algumas propriedades do semivariograma s˜ao:

• γ(−h) = γ(h); • γ(0) = 0;

• Se limh→0γ(h) = c0 6= 0, ent˜ao c0 ´e chamado de efeito pepita.

O efeito pepita representa uma varia¸c˜ao de microescala ou erro de medida. O variograma de um processo intrinsecamente estacion´ario pode ser escrito como:

2γ(h) = 2C(0) − 2C(h).

Se C(h) → 0 quando h → ∞, ent˜ao 2γ(h) → 2C(0) em que C(0) ´e conhecido como patamar do variograma. Existe tamb´em, outro parˆametro de dependˆencia espacial

(29)

conhecido como alcance. Ele representa a distˆancia a partir da qual a correla¸c˜ao espacial ´

e pr´oxima de zero.

Al´em da estacionariedade, uma importante propriedade dos processos espaciais ´e a isotropia. Um processo estacion´ario ´e isotr´opico se Cov[Z(s), Z(s + h)] = C(||h||), isto ´

e, a covariˆancia depende apenas da distˆancia entre as localiza¸c˜oes onde ||h|| representa a distˆancia euclidiana entre os vetores s e s + h. Com isso, a fun¸c˜ao de covariˆancia ´e invariante `a rota¸c˜oes. Caso contr´ario, o processo ´e chamado de anisotr´opico. Processos intrinsecamente estacion´arios e isotr´opicos s˜ao chamados de homogˆeneos (Smith, 1996). Se uma dessas condi¸c˜oes n˜ao se aplica, o processo ´e heterogˆeneo.

Atrav´es da fun¸c˜ao de covariˆancia pode ser definida a fun¸c˜ao de correla¸c˜ao, ou cor-relograma, do processo espacial. Se C(0) > 0, ent˜ao a fun¸c˜ao de correla¸c˜ao ´e definida por: ρ(h) = C(h)C(0) e C(0) = V ar[Z(s)] se Z(s) ´e um processo estacion´ario de segunda ordem.

Quando um processo ´e homogˆeneo, sua variˆancia ´e constante ao longo de D, isto ´e V ar[Z(s)] = σ2 para todo s ∈ D. Portanto, a fun¸c˜ao de covariˆancia de Z(s) pode ser escrita como

Cov[Z(s1), Z(s2)] = C(s1, s2) = σ2ρ(||s1− s2||; θ), s1, s2 ∈ D,

onde ρ(·; θ) ´e uma fun¸c˜ao de correla¸c˜ao positiva definida e depende de um vetor pa-ram´etrico θ. Seja ||s1− s2|| a distˆancia euclidiana entre s1 e s2. Este ´e um dos grandes

atrativos para os processos homogˆeneos, pois dada a fun¸c˜ao ρ(·; θ), a estrutura de co-variˆancia do processo pode ser modelada apenas atrav´es dos parˆametros σ2 e θ.

Em geral, na modelagem de dados geoestat´ısticos, assume-se que o processo espacial de interesse Z(·) segue um Processo Gaussiano, que ´e definido a seguir.

Defini¸c˜ao 4 (Processo Gaussiano): Um vetor aleat´orio Z(·) segue um Processo Gaussi-ano (PG) com m´edia µ(·) e fun¸c˜ao de covariˆancia C(·, ·) denotado por Z ∼ P G(µ, C), se para qualquer conjunto finito de pontos {s1, . . . , sn} ∈ D, e qualquer n = 1, 2, . . . , a

distribui¸c˜ao conjunta de (Z(s1), . . . , Z(sn)) ´e uma distribui¸c˜ao normal multivariada com

(30)

Em outras palavras, um processo ´e Gaussiano se qualquer distribui¸c˜ao finito dimensi-onal for normal multivariada. Como a distribui¸c˜ao normal multivariada ´e completamente determinada por seu vetor de m´edia e por sua matriz de covariˆancia, tudo o que ´e ne-cess´ario saber para especificar completamente um Processo Gaussiano ´e sua m´edia e sua fun¸c˜ao de covariˆancia.

A especifica¸c˜ao da fun¸c˜ao de covariˆancia ´e de extrema importˆancia pois, em processos Gaussianos, sua suavidade est´a diretamente relacionada `a diferenciabilidade da sua es-trutura de covariˆancia. Algumas das principais classes de fun¸c˜oes de covariˆancia usadas na literatura s˜ao:

1 - Fam´ılia exponencial potˆencia: A fun¸c˜ao de covariˆancia ´e dada por C(h) = σ2exp  − h a κ ,

em que h ´e a distˆancia euclidiana entre dois pontos quaisquer em D. σ2 > 0 ´e a variˆancia

do processo, a > 0 ´e o parˆametro de escala e κ ∈ (0, 2]. Quando κ = 1 obtem-se o caso particular da fun¸c˜ao de covariˆancia exponencial e κ = 2 corresponde `a fun¸c˜ao exponencial potˆencia quadr´atica. Esta fam´ılia de fun¸c˜oes tem uma express˜ao param´etrica simples e ´

e f´acil de ser interpretada. No entanto, note que quando h → ∞ a covariˆancia nunca alcan¸ca zero. Portanto, o alcance n˜ao pode ser obtido exatamente. Nesta situa¸c˜ao, a ideia do alcance efetivo ´e usada, isto ´e, o alcance ´e definido pelo h no qual a correla¸c˜ao ´e aproximadamente 0,05. No caso da fun¸c˜ao de correla¸c˜ao exponencial h ≈ 3a ´e o alcance efetivo.

Esta classe ´e frequentemente usada em aplica¸c˜oes, embora sua forma simples implique em propriedades te´oricas muito restritivas, que n˜ao s˜ao realistas na pr´atica. Na classe de fun¸c˜oes exponencial potˆencia quadr´atica, a fun¸c˜ao de covariˆancia ´e infinitamente dife-renci´avel tornando os processos muito suaves, que pode ser uma hip´otese pouco realista para problemas ambientais.

2 - Fam´ılia Mat´ern: A fun¸c˜ao de covariˆancia ´e dada por C(h) = σ2 1 2κ−1Γ(κ)  h λ κ Kκ  h λ  ,

(31)

em que h ´e a distˆancia euclidiana, σ2 > 0 ´e a variˆancia do processo, λ > 0 ´e o parˆametro de escala, que indica o qu˜ao r´apido a correla¸c˜ao decai com h, κ > 0 ´e o parˆametro de forma, controla a suavidade do processo espacial. Quanto maior o valor de κ mais suave ser´a o processo. A fun¸c˜ao Γ(·) ´e a fun¸c˜ao gama e Kκ(·) ´e a fun¸c˜ao modificada de Bessel

do terceiro tipo de ordem κ.

Esta classe ´e interessante por abranger diferentes comportamentos do processo e pela interpreta¸c˜ao dos parˆametros. A fun¸c˜ao de correla¸c˜ao exponencial ´e obtida quando κ = 1/2. E quando κ → ∞ obt´em-se a fun¸c˜ao de correla¸c˜ao exponencial potˆencia quadr´atica. O uso desta classe ´e de especial interesse nos casos em que o pesquisador acredita que os dados poder˜ao informar sobre o parˆametro κ, pois assim n˜ao ser´a necess´ario fixar a suavidade antes de observar os dados.

3 - Fam´ılia Cauchy A fun¸c˜ao de covariˆancia ´e dada por

C(h) = σ2 

1 + h λ

κ−α/κ

em que h ´e a distˆancia euclidiana, σ2 > 0 ´e a variˆancia do processo, λ > 0 ´e o parˆametro

de escala, respons´avel pelo decaimento da fun¸c˜ao, α > 0 ´e o parˆametro respons´avel pela dependˆencia de longo alcance, κ ∈ (0, 2] ´e o parˆametro de forma.

Esta classe ´e bastante flex´ıvel, pois permite a modelagem de dependˆencia de longo alcance e tamb´em correla¸c˜oes com defasagens curtas e intermedi´arias. Se α ∈ (0, 1), ent˜ao o processo ´e dito ter mem´oria longa. Mais informa¸c˜oes sobre esta classe pode ser vista em Gneiting (2000) e Gneiting e Schlather (2004).

Na geoestat´ıstica, os dados observados s˜ao considerados uma realiza¸c˜ao parcial de um processo estoc´astico que varia continuamente no espa¸co. Usualmente, assume-se que este processo ´e um processo Gaussiano e esta suposi¸c˜ao facilita a previs˜ao de dados para localiza¸c˜oes n˜ao medidas devido as propriedades de parti¸c˜ao da distribui¸c˜ao normal mul-tivariada. No entanto, frequentemente distribui¸c˜oes de dados reais apresentam desvios quanto a suposi¸c˜ao de normalidade tais como caudas mais pesadas ou comportamento as-sim´etrico. Neste cen´ario, processos Gaussianos podem n˜ao ser apropriados para explicar o comportamento do processo de interesse.

(32)

2.1.2

Processos n˜

ao Gaussianos

V´arias propostas foram feitas na literatura para solucionar este problema. Por exem-plo, De Oliveira et al. (1997) desenvolveram um modelo bayesiano em que a normalidade ´

e suposta para uma transforma¸c˜ao dos dados. Os autores se basearam na fam´ılia Box-Cox de transforma¸c˜oes. Diggle et al. (1998) propuseram um modelo espacial linear genera-lizado para aumentar a classe de distribui¸c˜oes de modelos espaciais. Higdon (2002) usa convolu¸c˜oes de processos com fun¸c˜oes suavizadoras. Gelfand et al. (2005) e Reich e Fu-entes (2007) usam abordagem n˜ao param´etrica para introduzir um comportamento mais flex´ıvel no modelo.

Outro exemplo de modelos n˜ao Gaussianos foi apresentado por Palacios e Steel (2006). Neste artigo, os autores prop˜oem um processo espacial que apresenta caudas mais pesadas que a da distribui¸c˜ao Gaussiana. Tal processo ´e obtido atrav´es de uma mistura de escala em que ´e introduzida uma vari´avel latente que permite que o processo seja mais flex´ıvel, acomodando uma poss´ıvel heterocedasticidade espacial.

O processo n˜ao Gaussiano proposto por Palacios e Steel (2006) foi denominado como processo Gaussiano-Log-Gaussiano (GLG) e ´e definido por:

Z(si) = x0iβ + σ

(si)

pλ(si)

+ τ v(si), (2.1)

em que si representa uma localiza¸c˜ao da regi˜ao espacial D ⊂ Rp e i = 1, . . . , n; x0i =

(x1i, . . . , xki) representa um vetor com k covari´aveis espaciais referentes a localiza¸c˜ao

si e β ´e o vetor dos respectivos coeficientes da regress˜ao; x0iβ ´e a superf´ıcie m´edia do

processo Z(si); v(si) ∼ N (0, 1) ´e um ru´ıdo branco, ou seja, ´e independente e

identica-mente distribu´ıdo para todo i e independente de  = ((s1), . . . , (sn))0 ∼ P G(0, Cθ);

Cθ ´e uma fun¸c˜ao de correla¸c˜ao parametrizada pelo vetor θ; τ2 ´e o efeito pepita, que representa um erro de medida. O vetor Z = (Z(s1), . . . , Z(sn))0 condicional a

compo-nente λ = (λ(s1), . . . , λ(sn))0 possui distribui¸c˜ao normal multivariada com m´edia Xβ

e matriz de covariˆancia dada por σ2−1/2

CθΛ−1/2) + τ2I

n, onde X = (x1, . . . , xk)0,

β = (β1, . . . , βk)0, Λ = Diag(λ(s1), . . . , λ(sn)) e In´e uma matriz identidade de dimens˜ao

n.

(33)

por inflacionar a variˆancia do processo Z(si). A componente λ(si) faz com que cada

localiza¸c˜ao possua uma variˆancia diferente, tornando o processo espacial heteroced´astico. Assume-se que λ(si) ´e independente de (si) e v(si). Para a modelagem do vetor ln(λ) =

[ln(λ(s1)), . . . , ln(λ(sn))]0, assume-se, ln(λ) ∼ Nn  −ν 21, νCθ  , (2.2)

em que 1 ´e um vetor de dimens˜ao n composto por um. Portanto, atribui-se a ln(λ) um processo Gaussiano com uma superf´ıcie de m´edia constante, −ν2, e uma fun¸c˜ao de covariˆancia νCθ. Note que ´e usada a mesma fun¸c˜ao de correla¸c˜ao da componente . O parˆametro ν > 0 ´e introduzido em (2.2) e pode-se observar que E[λ(si)] = 1 e a

V ar[λ(si)] = exp(ν) − 1. Assim, quando ν assume valores pequenos a distribui¸c˜ao

mar-ginal de λ(si) ser´a concentrada no valor 1 e quando ν aumenta, a distribui¸c˜ao se torna

menos concentrada e mais assim´etrica `a direita, enquanto que a moda se desloca para zero. Por exemplo, para ν = 3, a variˆancia ´e 19,1 e existe uma massa de densidade pr´oximo de zero. Valores de λ(si) pr´oximos de zero ir˜ao inflacionar a escala do modelo

definido em (2.1) e permitir que valores at´ıpicos sejam acomodados.

A seguir ser´a discutido a modelagem de dados com dependˆencia temporal.

2.2

Modelagem Temporal

Frequentemente existe um interesse em descrever fenˆomenos que variam ao longo do tempo. Tal descri¸c˜ao pode ser feita atrav´es de modelos que incorporam a estrutura tem-poral inerente ao fenˆomeno. Na literatura, o vetor que representa as observa¸c˜oes, neste contexto, ´e conhecido por s´erie temporal. Um dos principais objetivos de uma an´alise de s´eries temporais ´e o entendimento do mecanismo de gera¸c˜ao dessas vari´aveis e a previs˜ao para tempos futuros. Existem diversas formas de abordar a modelagem de observa¸c˜oes com essas caracter´ısticas. Harrison e Stevens (1976) propuseram o uso de uma ampla classe de modelos para tratar s´eries temporais, denominada modelos dinˆamicos.

Os modelos dinˆamicos tamb´em conhecidos como modelos de espa¸co de estados, s˜ao formulados para permitir altera¸c˜oes nos valores dos parˆametros com o passar do tempo.

(34)

Tal caracter´ıstica torna esta classe de modelos uma classe de grande versatilidade e utiliza¸c˜ao.

Os modelos dinˆamicos s˜ao constitu´ıdos por dois processos: o processo dos estados n˜ao observ´aveis e o processo observacional. Com a evolu¸c˜ao do tempo, toda a informa¸c˜ao relevante para prever o futuro ´e recebida e pode ser usada na revis˜ao do modelo. Suponha que o tempo inicial seja t = 0 e que D0 represente a informa¸c˜ao relevante e dispon´ıvel

sobre o modelo at´e o tempo t = 0. Esta informa¸c˜ao ser´a usada pelo pesquisador para fazer as previs˜oes iniciais do futuro. De forma similar, suponha que para qualquer tempo t > 0, a informa¸c˜ao dispon´ıvel e relevante seja denotada por Dt. Qualquer afirma¸c˜ao

sobre o futuro ser´a condicionada nesta informa¸c˜ao.

Uma subclasse dos modelos dinˆamicos bastante disseminada na literatura s˜ao os mo-delos linerares dinˆamicos (MLD), em que ´e suposto normalidade para a vari´avel resposta e para a evolu¸c˜ao dos estados atrav´es do tempo. A seguir ser´a apresentada de maneira resumida esta subclasse de modelos, para uma leitura mais detalhada sobre o assunto, veja West e Harrison (1997).

2.2.1

Modelos lineares dinˆ

amicos

Suponha Yt representando um vetor coluna de n observa¸c˜oes no instante de tempo

t, com t = 1, 2, . . . , T . O modelo ´e definido pela qu´adrupla {Ft, Gt, Vt, Wt} para cada

tempo t tal que

Yt = F0tθt+ vt, vt ∼ N (0, Vt) (2.3)

θt = Gtθt−1+ wt, wt∼ N (0, Wt). (2.4)

Este modelo ´e chamado de linear pela rela¸c˜ao entre o vetor das observa¸c˜oes e a matriz Ft. Tal matriz ´e a matriz de regress˜ao dinˆamica de dimens˜ao r × n que pode conter

vari´aveis explicativas, componentes de n´ıvel, tendˆencia, sazonalidade, entre outros. As componentes desta matriz podem variar ou n˜ao com o tempo. Gt´e a matriz de evolu¸c˜ao

do vetor de estados com dimens˜ao r × r, esta matriz controla a parte determin´ıstica da evolu¸c˜ao ao longo do tempo. A equa¸c˜ao (2.3) ´e chamada equa¸c˜ao de observa¸c˜ao e descreve a evolu¸c˜ao estoc´astica da vari´avel resposta. Nesta equa¸c˜ao, vtrepresenta uma sequˆencia

(35)

de erros independentes que segue uma estrutura Gaussiana com vetor de m´edias zero e matriz de covariˆancia Vt de dimens˜ao n × n. A equa¸c˜ao (2.4), denominada de equa¸c˜ao

do sistema ou de evolu¸c˜ao, descreve a evolu¸c˜ao dos estados ao longo do tempo onde wt

´

e uma sequˆencia de erros independentes tamb´em com estrutura Gaussiana com vetor de m´edias zero e matriz de covariˆancia Wt. As sequˆencias de erros vte wt s˜ao mutuamente

independentes. Para cada tempo t o vetor de estados, θt, tem dimens˜ao r × 1.

Quando as matrizes {Ft, Gt, Vt, Wt} s˜ao conhecidas, o procedimento de inferˆencia

sobre os estados nesta subclasse de modelos pode ser feito atrav´es de algoritmos sequen-ciais, como por exemplo, o Filtro de Kalman.

Filtro de Kalman

O filtro de Kalman, desenvolvido por Kalman (1960), fornece a distribui¸c˜ao condi-cional de θt, dada a informa¸c˜ao dispon´ıvel Dt, de uma maneira computacionalmente

eficiente. As equa¸c˜oes do filtro de Kalman s˜ao obtidas utilizando o aspecto sequencial da inferˆencia bayesiana. Inicialmente sup˜oe-se que a distribui¸c˜ao a priori inicial em t = 0 ´e uma distribui¸c˜ao normal multivariada, θ0|D0 ∼ N (m0, C0), para algum vetor de m´edias

m0 e matriz de covariˆancias C0, conhecidas. Assim, para cada tempo t, as distribui¸c˜oes

a priori, preditiva e a posteriori s˜ao atualizadas utilizando as seguintes equa¸c˜oes: 1. Distribui¸c˜ao a posteriori em t − 1:

(θt−1|Dt−1) ∼ N (mt−1, Ct−1).

2. Distribui¸c˜ao a priori em t:

(θt|Dt−1) ∼ N (at, Rt),

em que at = Gtmt−1 e Rt= GtCt−1G0t+ Wt.

3. Previs˜ao um passo a frente:

(Yt|Dt−1) ∼ N (ft, Qt),

em que ft= F0tat e Qt = F 0

(36)

4. Distribui¸c˜ao a posteriori em t:

(θt|Dt) ∼ N (mt, Ct),

onde mt = at+ Atet e Ct = Rt− AtQtA 0

t, sendo At = RtFtQ−1t e et= Yt− ft.

As provas destes resultados podem ser vistas em West e Harrison (1997). Quando as matrizes {Ft, Gt, Vt, Wt} n˜ao s˜ao conhecidas n˜ao ´e poss´ıvel utilizar somente o Filtro

de Kalman para realizar a inferˆencia sobre os parˆametros. Com isso, a inferˆencia pode ser feita atrav´es de m´etodos num´ericos como, por exemplo, os m´etodos de Monte Carlo via Cadeias de Markov (MCMC). Desta forma, para a amostragem de cada parˆametro, ´e necess´ario encontrar a sua distribui¸c˜ao condicional completa a posteriori. Para amostrar o vetor de estados pode-se obter esta distribui¸c˜ao pelo algoritmo FFBS (Forward Filtering Backward Sampler).

Algoritmo FFBS

O algoritmo FFBS foi um dos primeiros m´etodos de MCMC desenvolvidos para mo-delos dinˆamicos, proposto simultaneamente por Fr¨uhwirth-Schnatter (1994) e Carter e Kohn (1994). A ideia do m´etodo ´e amostrar todos os elementos do vetor de estados em um passo de amostragem m´ultipla. Em um modelo linear dinˆamico, o passo Forward Filtering consiste em calcular sequencialmente o primeiro e segundo momentos da dis-tribu¸c˜ao a posteriori do parˆametro de estado θt, para t = 1, 2, . . . , T . Estes momentos s˜ao

encontrados atrav´es do Filtro de Kalman. Neste caso, a distribui¸c˜ao condicional completa a posteriori de θt ´e exatamente conhecida. Especificamente, θt segue uma distribui¸c˜ao

Normal. O passo Backward Sampling do algoritmo FFBS ´e baseado na decomposi¸c˜ao da distribui¸c˜ao a posteriori conjunta dos parˆametros de estado na forma

p(θ1, . . . , θT|DT) = p(θT|DT) T −1

Y

t=1

p(θt|θt+1, Dt).

Pelo teorema de Bayes, para t = T − 1, . . . , 1, pode ser mostrado que p(θt|θt+1, Dt) ∝ p(θt+1|θt, Dt)p(θt|Dt),

(37)

em que θt|θt+1, Dt segue uma distribui¸c˜ao Normal com m´edia

m∗t = mt+ CtG0t+1(Gt+1CtG0t+1+ Wt+1)−1(θt+1− Gt+1mt)

e variˆancia

C∗t = Ct− CtG0t+1(Gt+1CtG0t+1+ Wt+1)−1Gt+1Ct,

em que mte Cts˜ao o primeiro e segundo momentos obtidos atrav´es do Filtro de Kalman.

Para o tempo T , tem-se que m∗t = mt e C∗t = Ct.

A matriz de covariˆancia dos erros da equa¸c˜ao de sistema Wt´e dif´ıcil de ser estimada

na pr´atica. Por isto, um m´etodo usual descrito na literatura ´e o uso de fator de desconto que ser´a definido a seguir.

Fator de desconto

Analisando as equa¸c˜oes do filtro de Kalman, nota-se que a componente Wt reflete

o aumento na incerteza quando se evolui de p(θt−1|Dt−1) para p(θt|Dt−1). No caso,

Wt pode ser vista como a perda de informa¸c˜ao ao se passar do tempo presente para o

instante futuro. Esta perda de informa¸c˜ao ´e expressa pelo aumento da variˆancia, pois quanto maior for esta, mais incerteza se ter´a sobre a quantidade que se quer inferir. Seja Pt= V ar(Gtθt−1|Dt−1), ent˜ao, tem-se que a variˆancia de θt−1|Dt−1´e dada por

V ar(θt−1|Dt−1) = Rt = Pt+ Wt.

Quando Wt = 0, n˜ao h´a evolu¸c˜ao do parˆametro e, consequentemente, n˜ao se perde

informa¸c˜ao de um instante para outro. ´E razo´avel pensar que Wt seja uma quantidade

que ocasione um aumento de Pt para Rt, ou seja, pode-se considerar que

Rt = Pt/δ = GtCt−1G0t/δ,

onde δ ∈ (0, 1] e ´e denominado fator de desconto.

O fator de desconto, δ, ´e uma corre¸c˜ao que inflaciona a variˆancia devido `a dinˆamica dos parˆametros. Ele representa a quantidade de informa¸c˜ao que se mant´em ao se evoluir de um instante do tempo para outro. Se, por exemplo, δ = 0, 9, ent˜ao haveria uma perda de 10% da informa¸c˜ao ao se avan¸car no tempo. Se δ = 1, ent˜ao o modelo considera que

(38)

n˜ao houve evolu¸c˜ao nos parˆametros. A considera¸c˜ao do fator de desconto simplifica o problema de estima¸c˜ao e vem-se mostrando uma alternativa bastante eficaz em problemas pr´aticos. Mais referˆencias sobre o fator de desconto podem ser encontradas em West e Harrison (1997).

At´e agora foi discutido separadamente os processos espaciais e os processos temporais. Na se¸c˜ao a seguir ser´a discutida a extens˜ao dos mesmos em uma modelagem espa¸co-temporal.

2.3

Modelagem Espa¸

co-Temporal

O aprendizado sobre a modelagem de fenˆomenos espa¸co-temporais se tornou extre-mamente importante, devido ao aumento dos conjuntos de dados que s˜ao indexados pelo espa¸co e pelo tempo e a grande necessidade de entendˆe-los. Os modelos para fenˆomenos desta natureza podem ser aplicados a conjuntos de dados coletados em diferentes loca-liza¸c˜oes associadas a um ponto ou regi˜ao do espa¸co e observados em diversos per´ıodos de tempo.

Do ponto de vista metodol´ogico, a considera¸c˜ao de uma estrutura temporal e espacial em um modelo levanta questionamentos sobre como deve ser incorporada a correla¸c˜ao espacial, a correla¸c˜ao temporal e como o espa¸co e o tempo devem interagir nos fenˆomenos estudados. Considerando que os dados estudados nesta tese apresentam as caracter´ısticas relacionadas `a ´area da Geoestat´ıstica, ou seja, dados que variam continuamente no espa¸co, haver´a uma discuss˜ao de como incorporar a estrutura temporal em processos espaciais.

Sendo assim, olhando para a componente do tempo pode ser feita uma distin¸c˜ao para a sua escala. O tempo pode ser visto como discreto (por exemplo, dados di´arios, trimes-trais) ou como cont´ınuo (por exemplo, sobre o conjunto dos reais ou algum subintervalo dele). Neste trabalho ser˜ao consideradas as duas abordagens. Portanto, a seguir ser˜ao descritos, de maneira breve, modelos que consideram estes dois enfoques.

(39)

2.3.1

Tempo discreto

Algumas propostas que classificam o tempo como discreto utilizam a classe de modelos dinˆamicos definida na Se¸c˜ao 2.2 para realizar a modelagem espa¸co-temporal. Um exemplo desta abordagem pode ser visto em Huerta et al. (2004) onde ´e feita uma an´alise dos n´ıveis de ozˆonio na cidade do M´exico e em trabalhos mais recentes como Mahmoudian e Mohammadzadeh (2014) que modelam valores extremos para dados de velocidade do vento e Bakar e Kovic (2015) que avaliam os riscos de geada na Austr´alia.

Seja um processo estoc´astico espa¸co-temporal definido por {Yt(s) : s ∈ D; t ∈ N}

onde t se refere ao instante de tempo e s ´e a localiza¸c˜ao no espa¸co. Banerjee et al. (2004) descrevem um modelo geral da seguinte maneira:

Yt(s) = µt(s) + t(s),

onde µt(s) denota a estrutura de m´edia e t(s) denota o res´ıduo do modelo. Suponha

que um conjunto de dados s˜ao observados em distintas localiza¸c˜oes si, i = 1, . . . , N e

em diferentes instantes de tempo t = 1, . . . , T . Estes dados podem ser alocados em uma matriz, Y , de dimens˜ao T × N , onde cada coluna da matriz representa uma s´erie temporal para a localiza¸c˜ao si e cada linha representa observa¸c˜oes de uma determinada

localiza¸c˜ao geogr´afica no tempo t. Reescrevendo o modelo para cada linha desta matriz obt´em-se:

Yt= µt+ t,

onde Yt representa um vetor de tamanho N referente as observa¸c˜oes das N localiza¸c˜oes

no instante de tempo t. Se uma matriz contendo covari´aveis Ft pode ser associada

ao vetor Yt, a estrutura de m´edia pode ser reescrita como µt = F 0

tθt. Note que esta

forma permite que os coeficientes da regress˜ao, θt, possam variar com o tempo. A

evolu¸c˜ao destes coeficientes pode seguir de acordo com um modelo linear dinˆamico visto na Subse¸c˜ao 2.2.1. O vetor t que representa os erros deste modelo, podem seguir uma

distribui¸c˜ao normal em que a matriz de covariˆancia apresente uma estrutura espacial como descrito na Subse¸c˜ao 2.1.1 que discute a modelagem na Geoestat´ıstica.

Portanto, este modelo pode ser visto como uma integra¸c˜ao da modelagem espa-cial na ´area da Geoestat´ıstica com a modelagem temporal atrav´es dos modelos lineares

(40)

dinˆamicos. Tal modelagem se torna muito vers´atil e incorpora tanto a estrutura espacial quanto a estrutura temporal dos dados.

A seguir ser´a discutido a modelagem de processos espa¸co-temporais quando o tempo ´

e considerado variando continuamente.

2.3.2

Tempo cont´ınuo

Neste contexto, a mesma ideia que ´e usada na geoestat´ıstica discutida na Subse¸c˜ao 2.1.1 se estende para o caso da modelagem de dados espa¸co-temporais. S´o que agora o processo estoc´astico subjacente ao fenˆomeno varia continuamente no espa¸co e no tempo. Seja um processo estoc´astico espa¸co-temporal definido por {Z(s, t) : s ∈ D; t ∈ T } onde (s, t) s˜ao coordenadas do espa¸co e do tempo que variam continuamente em D × T , D ⊆ Rd, T ⊆ R, tipicamente d = 1, 2, ou 3. O processo ´e Gaussiano quando assume-se

que a distribui¸c˜ao finito dimensional ´e Gaussiana. Sejam Z(s1, t1), Z(s2, t2), . . . , Z(sI, tJ)

observa¸c˜oes do processo nas localiza¸c˜oes si (i = 1, . . . , I) e nos tempos tj (j = 1, . . . , J ),

ent˜ao Z(s1, t1), Z(s2, t2), . . . , Z(sI, tJ) segue uma distribui¸c˜ao normal multivariada com

vetor de m´edias e matriz de covariˆancia, dadas respectivamente por

m = (m(s1, t1), . . . , m(sI, tJ))0 e Σij = Cov[Z(si, ti), Z(sj, tj)].

A fun¸c˜ao de covariˆancia ´e o principal elemento da modelagem espa¸co-temporal, pois ´e atrav´es de sua escolha que s˜ao definidas as propriedades do processo de interesse. Para a constru¸c˜ao de modelos adequados, ´e necess´ario a utiliza¸c˜ao de uma fun¸c˜ao de covariˆancia v´alida, ou seja, uma fun¸c˜ao positiva definida. Em geral, ´e bastante dif´ıcil verificar se uma fun¸c˜ao ´e positiva definida e esta ´e uma das principais dificuldades na constru¸c˜ao de novas fun¸c˜oes de covariˆancia.

Portanto, ´e comum que a modelagem de processos espa¸co-temporais utilize hip´oteses simplificadoras fazendo com que a dependˆencia entre as observa¸c˜oes, muitas vezes, n˜ao seja completamente explorada. Al´em disso, a inferˆencia ´e baseada em uma ´unica re-aliza¸c˜ao do processo subjacente, o que tamb´em requer hip´oteses simplificadoras. Uma possibilidade de garantir que a fun¸c˜ao de covariˆancia seja positiva definida ´e a suposi¸c˜ao

Referências

Documentos relacionados

Embora amplamente utilizado, esse método possui algumas limitações, como o fato de presumir que as distribuições de tamanho da alimentação e do produto são paralelas quando

A prova do ENADE/2011, aplicada aos estudantes da Área de Tecnologia em Redes de Computadores, com duração total de 4 horas, apresentou questões discursivas e de múltipla

Nesse sentido, o objetivo deste trabalho foi a implementação da RE por meio de encontros semanais entre tutores da Universidade Federal de Lavras (UFLA) e alunos do

1. Lemos para compreender, ou para começar a compreender. Não podemos deixar de ler. É através dela que entendemos o mundo e interagimos com o outro, seja nos estu- dos,

Quanto aos estratos B1 e B2, evidenciam-se que: Espanha e Colômbia são os países que se destacam em número de periódicos, possuindo, respectivamente, 5 e 4 revistas; a

A proposta da revisão da literatura apresentada na sequência objetivou analisar a EPS como ferramenta de qualificação profissional de profissionais da

Parágrafo 3º - As empresas que contratarem empregados na vigência da presente Convenção Coletiva (sem a emissão da CERTIDÃO DE ADESÃO) ficam obrigados ao pagamento de

Bacharel em Direito pela FIVJ, advogado na comarca de Juiz de Fora; [email protected].. 99 formação bem como ao aperfeiçoamento dos agentes de segurança pública, e por tanto