• Nenhum resultado encontrado

Modelagem Hierárquica para Redução de Dimensão para Modelos Espaciais Não Gaussianos

N/A
N/A
Protected

Academic year: 2021

Share "Modelagem Hierárquica para Redução de Dimensão para Modelos Espaciais Não Gaussianos"

Copied!
96
0
0

Texto

(1)

Redu¸

ao de Dimens˜

ao para Modelos

Espaciais n˜

ao Gaussianos

por

Mariana del Pilar Lizarazo Osorio

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´

etodos Estat´ısticos

(2)

Redu¸

ao de Dimens˜

ao para Modelos

Espaciais n˜

ao Gaussianos

Mariana del Pilar Lizarazo Osorio

Disserta¸c˜ao submetida ao Corpo Docente do Instituto de Matem´atica - Departamento de M´etodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do grau de Mestre em Estat´ıstica.

Aprovada por:

Prof. Tha´ıs C. Fonseca de Oliveira PhD - UFRJ - Orientadora.

Prof. Dani Gamerman PhD - IM - UFRJ.

Prof. Alexandre Loureiros Rodrigues PhD - UFES.

Rio de Janeiro, RJ - Brasil 2013

(3)

FICHA CATALOGR ´AFICA

Lizarazo Osorio, Mariana del Pilar.

Redu¸c˜ao de Dimens˜ao para Modelos Espaciais n˜ao Gaussianos \ Mariana del Pilar Lizarazo Osorio.

Rio de Janeiro: UFRJ, IM, DME, 2013.

Disserta¸c˜ao - Universidade Federal do Rio de Janeiro, IM, DME. 1. Introdu¸c˜ao. 2. Estat´ıstica Espacial.

3. Processos Gaussianos e n˜ao Gaussianos.

4. Processos Preditivos. 5. Design. 6. Implementa¸c˜ao. 7. Simula¸c˜ao. 8. Conclus˜oes e Extens˜oes.

(Mestrado-UFRJ/IM/DME) I. Fonseca, Tha´ıs C. O. II. Universidade Federal do Rio de Janeiro III. T´ıtulo.

(4)

`

A minha fam´ılia, base de tudo. Especialmente `a minha m˜ae pelo seu apoio incondicional.

(5)

“N˜ao deixe que a saudade sufoque, que a rotina acomode, que o medo impe¸ca de tentar. Desconfie do destino e acredite em vocˆe. Gaste mais horas realizando que sonhando,

fazendo que planejando, vivendo que esperando, porque, embora quem quase morre esteja vivo, quem quase vive j´a morreu.”

(6)

Agradecimentos

Eu gostaria de agradecer em primeiro lugar a Deus, pelo dom da vida, pela minha fam´ılia, pelos meus amigos e colegas, que foram meu apoio, refugio e consolo em muitos momentos dif´ıceis. Quero agradecer de maneira especial a minha m˜ae, ela me deu a coragem para sair adiante, me apoio durante todo este processo, mesmo na distancia. A meu tio Julio, pois sem ele nada de toda esta experiˆencia teria sido poss´ıvel. A todos meus colegas da Colˆombia que sempre me deram seu apoio e sua amizade.

Quero Agradecer a professora Thais, poies ela me ajudo muito, tra¸co o caminho da disserta¸c˜ao. Ensino-me que existem pessoas que mesmo sendo muito brilhantes s˜ao muito humildes. ´E um bom modelo a seguir.

Este ultimo ano foi complicado para mim, e por isso eu quero agradecer as pessoas que sempre estiveram de meu lado, que fizeram que eu me sentisse em casa, me ajudando, apoiando, brindando sua amizade, principalmente a meu namorado Renan Assimos, quem teve que me aturar durante tudo este ano, e a meus amigos Aniel Ojeda, Teresa Villanueva, Pamela Chiroque, Pedro Ortis, Angela arana, que me ajudaram, deram seus conselhos em momentos dif´ıceis, parceiros de rizadas, de estudos, de moradia, a todos muito obrigada.

Agrade¸co tamb´em aos meninos da inicia¸c˜ao cientifica especialmente a Arthur (crian¸ca), pois aprendi muito com todas suas perguntas, embora as vezes fosse chato, me ensino sobre o que ´e ser docente e da gr˜ao satisfa¸c˜ao que da, tamb´em me ensinou um pouquinho de portuguˆes, e foi meu grande parceiro de laborat´orio. Agrade¸co de maneira especial a Paloma Lima pela ajuda com o portuguˆes, a Cristiano Moura pela paciˆencia

(7)

e por toda sua ajuda.

Agrade¸co a UFRJ a CAPES e a FAPERJ, por me dar a oportunidade de ter uma grande experiˆencia como esta, sem eles n˜ao poderia ter feito este trabalho.

(8)

Resumo

No tratamento de dados espacialmente referenciados usualmente assume-se que os dados seguem a distribui¸c˜ao Normal. Mas este suposto muitas vezes n˜ao ´e adequado, pois a amostra pode apresentar dados at´ıpicos ou assimetria. Dessa forma, ´e preciso criar modelos que permitam descrever o comportamento de vari´aveis de forma mais realista e, ao mesmo tempo, que n˜ao gerem um custo computacional muito alto. Para isso, os modelos n˜ao Gaussianos oferecem uma flexibilidade maior, e fazem com que o modelo seja mais realista, mas o custo computacional deste tipo de modelos ´e muito grande.

Por outro lado, existem diferentes m´etodos para diminuir o custo computacional em modelos Gaussianos. Entre estes m´etodos, existem os modelos de processos preditivos, que projetam a amostra original num subconjunto de pontos, o que faz que o custo computacional seja reduzido. A escolha destes pontos ´e discutida neste trabalho.

Assim, o intuito deste trabalho ´e propor um modelo de processos preditivos n˜ao Gaussianos que permita modelar vari´aveis espaciais de forma realista com um baixo custo computacional.

(9)

Abstract

The usual treatment to spatial data analysis is to consider Gaussian distributions. But this assumption is often not appropriate because the sample may have outliers or asymmetry. Thus, it is necessary to create models that describe the behavior of variables in a more realistic way and, at the same time, don’t generate a very high computational cost. Bearing this in mind, it is known that non-Gaussian models offer more flexibility , and make the model more realistic, but the computational cost of this type of models is too large.

On the other hand there are several methods to reduce the computational cost in Gaussian models. Among these methods, there are the predictive process models, which project the original sample on a subset of points reducing the computational cost. The choice of these points is discussed in this text.

Thus, the aim of this work is to propose a non-Gaussian predictive process model that allows realist modeling of spatial variables with a low computational cost.

(10)

Sum´

ario

1 Introdu¸c˜ao 1

1.1 Principais objetivos . . . 4

2 Estat´ıstica Espacial 5 2.1 Introdu¸c˜ao . . . 5

2.2 Tratamento usual de dados espaciais . . . 6

2.3 Geoestat´ıstica . . . 7

2.3.1 Estrutura de Covariˆancia . . . 10

2.3.2 Previs˜ao . . . 13

3 Processos Gaussianos e n˜ao Gaussianos 16 3.1 Introdu¸c˜ao . . . 16 3.2 Processos Gaussianos . . . 17 3.3 Processos n˜ao Gaussianos . . . 18 3.3.1 Previs˜ao . . . 20 4 Processos Preditivos 22 4.1 Introdu¸c˜ao . . . 22

4.2 Processos Gaussianos Preditivos . . . 23

4.3 Processos n˜ao Gaussianos Preditivos . . . 26

5 Design 28 5.1 Introdu¸c˜ao . . . 28

(11)

5.2.1 Grade Aleat´oria . . . 30

5.2.2 Grade Regular . . . 30

5.2.3 Proposta de Finley et al. (2009) . . . 30

5.2.4 Proposta Diggle . . . 31

5.2.5 Processos n˜ao Gaussiano . . . 32

6 Implementa¸c˜ao 35 6.1 Algoritmos . . . 35

6.2 Crit´erios de Convergˆencia . . . 37

6.3 Amostragem por Blocos . . . 39

6.3.1 Modelo preditivo . . . 41

6.3.2 Crit´erio de identifica¸c˜ao de outliers . . . 42

7 Simula¸c˜ao 43 7.1 Processo Gaussiano . . . 43

7.1.1 Gera¸c˜ao dos dados . . . 43

7.1.2 Distribui¸c˜ao a priori . . . 44

7.1.3 Resultados . . . 45

7.2 Processos n˜ao Gaussianos . . . 53

7.2.1 Gera¸c˜ao dos dados . . . 53

7.2.2 Distribui¸c˜ao a priori: . . . 53

7.2.3 Compara¸c˜ao de modelos . . . 54

7.2.4 Resultados . . . 64

8 Conclus˜oes e Extens˜oes 70 8.1 Processos espa¸co-temporais . . . 71

8.1.1 Processos Gaussianos espa¸co-temporais . . . 71

8.1.2 Processos n˜ao Gaussianos Espa¸co-temporais . . . 73

8.1.3 Processos n˜ao Gaussianos Preditivos Espa¸co-temporais . . . 73

(12)
(13)

Lista de Tabelas

7.1 EQM dos parˆametros do modelo e m´edia do tempo computacional, para diferentes n´umeros de “knots”. (EQM relativo) . . . 46 7.2 EQM dos parˆametros do modelo e m´edia do tempo computacional, para

diferentes n´umeros de “knots”, para proposta Aleat´oria.(EQM relativo) 47 7.3 EQM dos parˆametros do modelo e m´edia do tempo computacional, para

diferentes n´umeros de “knots”. Usando a proposta do Diggle et al. (1998). (EQM relativo) . . . 48 7.4 Diagn´ostico de Raftery e Lewis e crit´erio de Geweke para compara¸c˜ao de

3 vers˜oes diferentes da modifica¸c˜ao de Finley et al. (2009). Per´ıodo de Burn-in de 56000. . . 49 7.5 Estimativa dos parˆametros nas 3 vers˜oes da modifica¸c˜ao de Finley et al.

(2009). . . 50 7.6 EQM dos parˆametros do modelo e m´edia do tempo computacional, para

diferentes n´umeros de “knots”. Para diferentes combina¸c˜oes das propostas do Finley et al. (2009). (EQM relativo) . . . 51 7.7 Taxa de aceita¸c˜ao para o alcance e alguns λ por regi˜ao, usando o algoritmo

proposto por Steel e o algoritmo de passeios aleat´orios . . . 55 7.8 Diagn´ostico de Raftery e Lewis e crit´erio de Geweke para a proposta

independente e a proposta de passeios aleat´orios com um per´ıodo de burn-in de 1000. . . 56 7.9 Diagn´ostico de Raftery e Lewis e crit´erio de Geweke para a proposta

(14)

Burn-7.10 Estimativas dos parˆametros para os dois modelos . . . 62 7.11 EQM dos parˆametros do modelo e m´edia do tempo computacional, para

diferentes n´umeros de “knots”. Para proposta Aleat´oria.(EQM relativo) 65 7.12 EQM dos parˆametros do modelo e m´edia do tempo computacional, para

diferentes n´umeros de “knots”. Para proposta Diggle et al. (1998). (EQM relativo) . . . 66 7.13 EQM dos parˆametros do modelo e m´edia do tempo computacional, para

diferentes n´umeros de “knots”. Para as propostas 1. (EQM relativo) . 67 7.14 EQM dos parˆametros do modelo e m´edia do tempo computacional, para

diferentes n´umeros de “knots”. Para as propostas 2. (EQM relativo) . 67 7.15 EQM dos parˆametros do modelo e m´edia do tempo computacional, para

(15)

Lista de Figuras

2.1 Fun¸c˜ao de covariˆancia exponencial, Gaussiana, esf´erica, com parˆametros a = 2, σ2 = 2 e h variando de 0 a 10. . . 12

5.1 Exemplos das grades usadas por Diggle . . . 33

7.1 A sub-figura (a) apresenta a regi˜ao na qual foram simulados os dados. Os pontos marcados com bolas cheias foram modificados para serem dados extremos e a divis˜ao em regi˜oes foi feita para estimar o parˆametro λ. A sub-figura (b) apresenta um Box plot da raz˜ao σ2/λ para cada s´ıtio usando o modelo (3.4). Os Box plot de cor verde correspondem aos locais onde as observa¸c˜oes foram modificadas. . . 55 7.2 Cadeia, histograma, auto-correlograma e tra¸ca da amostra da distribui¸c˜ao

a posterior para o parˆametro β1, usando a proposta independente (a) e passeios aleat´orios (b). . . 57 7.3 Cadeia, histograma, auto-correlograma e tra¸ca da amostra da distribui¸c˜ao

a posterior para o parˆametro β2, usando a proposta independente (a) e passeios aleat´orios (b). . . 58 7.4 Cadeia, histograma, auto-correlograma e tra¸ca da amostra da distribui¸c˜ao

a posterior para o parˆametro τ2, usando a proposta independente (a) e passeios aleat´orios (b). . . 59 7.5 Cadeia, histograma, auto-correlograma e tra¸ca da amostra da distribui¸c˜ao

a posterior para o parˆametro σ2, usando a proposta independente (a) e passeios aleat´orios (b). . . 60

(16)

7.6 Cadeia, histograma, auto-correlograma e tra¸ca da amostra da distribui¸c˜ao a posterior para o parˆametro do alcance, usando a proposta independente (a) e passeios aleat´orios (b). . . 61 7.7 Cadeia, histograma, auto-correlograma e tra¸ca da amostra da distribui¸c˜ao

a posterior para o parˆametro v usando a proposta independente (a) e passeios aleat´orios (b). . . 61 7.8 Os pontos representam a taxa de aceita¸c˜ao do modelo de passeio aleat´orio

(17)

Cap´ıtulo 1

Introdu¸

ao

O uso de modelos espaciais e espa¸co-temporais est´a aumentando devido `a crescente disponibilidade de dados referenciados no espa¸co e no tempo que s˜ao obtidos, por exemplo, por sat´elite ou esta¸c˜oes monitoradoras. Assim, esses modelos tˆem sido cada vez mais utilizados em ´areas tais como meio-ambiente, meteorologia, agricultura, devido `

a grande utilidade destes para o entendimento de fenˆomenos como tornados, chuva, temperatura, press˜ao, umidade, polui¸c˜ao, entre outros.

Geralmente assume-se que os dados s˜ao realiza¸c˜oes de um processo Gaussiano, onde s˜ao observadas I localiza¸c˜oes no espa¸co, o que implica invers˜ao de matrizes de tamanho I × I no procedimento de inferˆencia. Este tipo de modelagem permite estimativas de valores da vari´avel de interesse em locais onde dados n˜ao foram observados, fazendo uso de preditores lineares, o que gera um maior interesse neste tipo de modelos, como pode ser observado, por exemplo, no trabalho de Brown et al. (1994), entre outros. Mas, em grandes conjuntos de dados, a inferˆencia em modelos mais complexos e realistas pode requerer um custo computacional muito elevado.

No estudo de eventos naturais, muitas vezes, o interesse principal ´e o estudo de vari´aveis onde os dados fora do usual acontecem com muita frequˆencia. Por exemplo, os dados de temperatura no Rio de Janeiro, em algumas loaliza¸c˜oes parecem

(18)

pode n˜ao ser adequada. Portanto, ´e preciso abandonar essa suposi¸c˜ao e considerar distribui¸c˜oes com caudas mais pesadas, que permitam descrever o comportamento dos dados de forma mais realista. Na literatura existem diferentes formas de abordar n˜ao Gaussianidade dos dados espacialmente referenciados, alguns s˜ao baseados em transforma¸c˜oes n˜ao lineares dos dados observados (ver De Oliveira et al., 1997) ou fazendo uso de modelos lineares generalizados, como foi proposto por Diggle et al. (1998).

Neste trabalho, o modelo n˜ao Gaussiano proposto por Palacios e Steel (2006) ´

e considerado. Esse modelo usa uma vari´avel latente que afeta a variˆancia do processo para assim permitir que o modelo seja mais flex´ıvel, realista e acomode heterocedasticidade espacial. Num contexto espa¸co-temporal, Fonseca e Steel (2011) consideram uma extens˜ao do modelo de Palacios e Steel (2006) que tamb´em ´e capaz de tratar heterocedasticidade espacial e temporal, al´em de identificar outliers tradicionais. No entanto, estes tipos de modelos, assim como os Gaussianos, podem gerar um custo computacional muito grande, que cresce com o n´umero de locais observados. Estes modelos implicam invers˜ao de matrizes de dimens˜ao I por I com maior frequˆencia do que os modelos Gaussianos, pois ´e preciso fazer inferˆencia para o processo de variˆancia. No caso do modelo de Fonseca e Steel (2011), a dimens˜ao das matrizes a serem invertidas ´

e ainda maior, dependendo tamb´em do n´umero de pontos no tempo.

Assim, o objetivo principal deste trabalho ´e representar os processos espaciais n˜ao Gaussianos propostos por Palacios e Steel (2006) em dimens˜oes menores, de forma a facilitar a computa¸c˜ao, por´em mantendo boas propriedades de previs˜ao e estima¸c˜ao dos parˆametros.

Existem diferentes m´etodos para redu¸c˜ao da dimens˜ao neste tipo de problemas. O uso de t´ecnicas como o tapering permite diminuir a complexidade da matriz de covariˆancia, transformando-a em uma matriz esparsa, o que diminui o custo computacional (ver Kaufman et al., 2008). Alguns m´etodos envolvem aproxima¸c˜oes da verossimilhan¸ca (ver Vecchia, 1988; Whittle, 1954), enquanto outros m´etodos incluem o uso de processos

(19)

latentes, como ´e o caso dos modelos preditivos (ver Banerjee et al., 2010; Finley et al., 2011). Todos os m´etodos mencionados anteriormente s˜ao discutidos por Sun et al. (2012).

Usaremos modelos preditivos, como sugere Banerjee et al. (2008), que facilitam a computa¸c˜ao no caso de processos Gaussianos, onde o n´umero de locais onde tem-se observa¸c˜oes ´e muito grande. Esse m´etodo est´a baseado na ideia do processo espacial preditivo que, por sua vez, ´e motivado pelo krigagem. A ideia ´e projetar o processo original em um subespa¸co que ´e gerado por realiza¸c˜oes de dito processo em um conjunto de localiza¸c˜oes conhecidas como “knots”. Neste trabalho s˜ao estudados alguns m´etodos que s˜ao usados no contexto de design ´otimo para escolha desses knots. No entanto, n˜ao se tem uma regra clara para a escolha do n´umero e localiza¸c˜ao dos knots, o que faz com que o pesquisador tenha que decidir o quanto est´a disposto a sacrificar na estimativa dos parˆametros em troca de um menor tempo computacional. Iremos estender essa proposta na presen¸ca de dados extremos, isto ´e, no caso de modelos n˜ao Gaussianos.

A an´alise ser´a feita usando um enfoque Bayesiano e ser´a desenvolvido um procedimento eficiente de estima¸c˜ao baseado em cadeias de Markov (MCMC), para os modelos propostos. O Cap´ıtulo 2 apresenta uma breve introdu¸c˜ao `a estat´ıstica espacial com foco na geoestat´ıstica e na previs˜ao de dados n˜ao observados e o Cap´ıtulo 3 introduz os processos Gaussianos e os processos n˜ao Gaussianos. Os processos preditivos propostos por Banerjee et al. (2008) s˜ao abordados no Cap´ıtulo 4 e, baseados nesta ideia, apresenta-se a proposta deste trabalho que apresenta-ser´a chamada de processos n˜ao Gaussianos preditivos. No Cap´ıtulo 5 s˜ao discutidos alguns dos crit´erios existentes para escolha dos pontos que v˜ao formar o conjunto de knots. Conceitos necess´arios para implementa¸c˜ao destes m´etodos s˜ao apresentados no Capitulo 6. Um estudo simulado ´e apresentado no Cap´ıtulo 7 com o objetivo de entender o efeito da diminui¸c˜ao de dimens˜ao na estima¸c˜ao dos parˆametros dos modelos e na identifica¸c˜ao de outliers. As conclus˜oes s˜ao apresentadas no Capitulo 8.

(20)

1.1

Principais objetivos

Alguns dos objetivos deste trabalho s˜ao:

i) Comparar o comportamento da proposta de processos preditivos no caso Gaussiano, ao mudar a grade usada para projetar os pontos da amostra. As grades usadas na compara¸c˜ao s˜ao a aleat´oria, a proposta por Diggle e a proposta por Finley. Em Finley et al. (2009), apenas o efeito na estima¸c˜ao da variˆancia global (τ2) ´e analisada. Neste trabalho, busca-se entender como ´e afetada a estima¸c˜ao dos outros parˆametros do modelo.

ii) Propor um modelo n˜ao Gaussiano preditivo que use a ideia de Banerjee et al. (2008) para diminuir o custo computacional. E entender como a escolha do knots influencia na estima¸c˜ao dos parˆametros no caso de processos n˜ao Gaussianos preditivos. Pois a diferen¸ca dos processos Gaussianos preditivos, o novo modelo inclui dois processos diferentes, um processo de variˆancia e um processo espacial, e eles podem ou n˜ao usar o mesmo conjunto de knots na estima¸c˜ao dos parˆametros.

(21)

Cap´ıtulo 2

Estat´ıstica Espacial

2.1

Introdu¸

ao

Pesquisadores de diversas ´areas como sa´ude, climatologia, ecologia e meio ambiente, est˜ao cada vez mais interessados em analisar dados de eventos que est˜ao referenciados geograficamente e, `as vezes, s˜ao apresentados em forma de mapas. Neste tipo de dados ´

e natural pensar que existe uma rela¸c˜ao entre pontos pr´oximos, ou seja, dados que est˜ao pr´oximos uns dos outros tendem a ter um comportamento similar.

Para analisar este tipo de dados existem m´etodos estat´ısticos espaciais que permitem descrever o comportamento e a associa¸c˜ao espacial entre eles. Por muitos anos os m´etodos de variograma e correlograma como descritos em Cressie (1993) foram bastante usados. O desenvolvimento da computa¸c˜ao permitiu, no entanto, a gera¸c˜ao de an´alises sofisticadas totalmente Bayesianas, com uso de m´etodos como Monte Carlo via Cadeias de Markov (MCMC), que permitem ajustar modelos complexos para dados geograficamente referenciados (ver, por exemplo Diggle et al., 1998; Banerjee et al., 2004).

Neste cap´ıtulo ´e feita uma breve introdu¸c˜ao aos tipos de vari´aveis utilizadas na estat´ıstica espacial, para depois nos concentrarmos na geoestat´ıstica, que ´e a ´area da

(22)

estat´ıstica espacial que estuda dados que variam continuamente no espa¸co. O tratamento deste tipo de dados ser´a o foco deste trabalho.

2.2

Tratamento usual de dados espaciais

No estudo de muitas vari´aveis que s˜ao associadas com fenˆomenos da natureza, os dados podem ser referenciados espacialmente. Neste caso, n˜ao ´e correto estud´a-los fazendo uso da hip´otese de independˆencia entre eles, pois ´e poss´ıvel que esta componente espacial gere correla¸c˜ao nestes dados. Portanto, ´e preciso achar a estrutura de correla¸c˜ao, para assim poder fazer previs˜oes da vari´avel de interesse para locais n˜ao observados.

Um conceito fundamental subjacente `a teoria de processos estoc´asticos ´e a defini¸c˜ao de processo espacial. Seja Z a vari´avel de interesse, e seja s a localiza¸c˜ao onde Z existe. Um processo espacial ´e o conjunto {Z(s) : s ∈ D}, onde Z(s) ´e a vari´avel de interesse no local s, que tamb´em pode ser entendida como um processo estoc´astico indexado por s. D ´e conhecido como conjunto ´ındice e ´e o conjunto de todas as localiza¸c˜oes s onde a vari´avel Z existe. Este conjunto pode ser cont´ınuo, discreto ou aleat´orio. A localiza¸c˜ao espacial s geralmente ´e de dimens˜ao dois (por exemplo, latitude e longitude) ou trˆes (como latitude, longitude e altitude).

Geralmente os dados espaciais s˜ao divididos em 3 categorias diferentes (ver Cressie, 1993; Banerjee et al., 2004), dependendo das caracter´ısticas dos dados. Tais categorias s˜ao:

• Padr˜ao de pontos: Considere D uma regi˜ao no espa¸co. Cada s ∈ D fornece a localiza¸c˜ao de um evento aleat´orio (assim D ´e aleat´orio). Z(s) pode representar se h´a ou n˜ao ocorrˆencia de um evento numa determinada localiza¸c˜ao s. Assim, Z(s) toma valor 1 se o evento ocorre ou 0 caso contrario.

Por exemplo, localiza¸c˜ao de ´arvores de certa esp´ecie numa regi˜ao florestal, localiza¸c˜ao de ocorrˆencia de crimes, local de um terremoto, entre outros. O objetivo

(23)

deste tipo de estudo ´e saber se as ocorrˆencias da vari´avel parecem completamente aleat´orias ou se apresentam algum tipo de agrupamento.

• Dados de ´area: Considere uma regi˜ao D fixa no espa¸co, que pode ou n˜ao ter uma forma regular. D est´a particionado em um n´umero finito de sub-regi˜oes e o limite entre regi˜oes est´a bem definido. Neste caso, o s´ıtio s ∈ D ´e um bloco ou sub-regi˜ao da regi˜ao D (nesse caso D ´e do tipo discreto). Z(s) geralmente representa uma taxa que resume o comportamento da vari´avel no bloco s.

Por exemplo, taxa de ´obitos por pa´ıs no continente americano durante um ano determinado. O interesse neste tipo de estudos ´e a identifica¸c˜ao de determinado padr˜ao ou configura¸c˜ao espacial no que diz respeito `a vari´avel aleat´oria de interesse, assim como a existencia de poss´ıveis rela¸c˜oes no espa¸co.

• Geoestat´ıstica: Z(s) ´e uma vari´avel que assume valores reais para cada localiza¸c˜ao s ∈ D ⊂ Rr, e s varia de forma cont´ınua em D (um retˆangulo fixo r-dimensional de volume positivo). Geralmente se tem um n´umero finito de localiza¸c˜oes nas quais foi observada a vari´avel Z(si), com i = 1, . . . , l. Alguns exemplos desta categoria de dados espaciais s˜ao a temperatura, precipita¸c˜ao ou umidade observada em esta¸c˜oes meteorol´ogicas. Devido `a continuidade espacial do processo, um dos principais objetivos ´e a previs˜ao da vari´avel em localiza¸c˜oes n˜ao observadas, al´em de fazer inferˆencia para m´edia, variabilidade e a estrutura de associa¸c˜ao do processo.

Assim, os m´etodos na estat´ıstica espacial mudam dependendo do dom´ınio D em que o evento de interesse acontece. Como o objetivo principal deste trabalho ´e a modelagem de dados que variam de forma cont´ınua no espa¸co e que apresentam valores extremos, o foco ser´a na teoria que a geoestat´ıstica oferece para o tratamento deste tipo de dados.

2.3

Geoestat´ıstica

(24)

que refletir esta importante caracter´ıstica dos dados. Para capturar essa associa¸c˜ao, as vari´aveis devem ser dependentes para cada par poss´ıvel, e o n´ıvel de dependˆencia deve estar relacionado com a localiza¸c˜ao dos pontos. Assim, ´e preciso definir a distribui¸c˜ao de um n´umero infinito de vari´aveis aleat´orias. Isso pode ser feito definindo a distribui¸c˜ao finito dimensional para um n´umero arbitr´ario de localiza¸c˜oes.

Mas, ao construir este tipo de distribui¸c˜oes ´e dificil garantir que a distribui¸c˜ao conjunta que se est´a construindo seja ´unica. Uma solu¸c˜ao para este problema ´e dada pelo uso da distribui¸c˜ao Gaussiana (geralmente usada neste tipo de modelos), pois ao especificar a fun¸c˜ao de m´edia m(s) = E(Z(s)) e de covariˆancia cov(Z(si), Z(sj)) as distribui¸c˜oes conjunta, marginais e condicionais v˜ao estar bem definidas.

Geralmente, tem-se uma observa¸c˜ao para cada uma das n vari´aveis Z(si), i = 1, . . . n, o que torna imposs´ıvel a tarefa de criar uma fun¸c˜ao de covariˆancia (n˜ao ´e poss´ıvel calcular a covariˆancia com base em uma ´unica observa¸c˜ao). Para solucionar este problema, geralmente se sup˜oe que v´arias sub-regi˜oes possuem uma estrutura probabil´ıstica similar. Para isso podemos considerar as suposi¸c˜oes de estacionariedade e isotropia.

• Estacionariedade: um processo {Z(s) : s ∈ D} ´e dito estritamente estacion´ario se sua fun¸c˜ao de distribui¸c˜ao conjunta ´e invariante com respeito a qualquer transla¸c˜ao do vetor h, isto ´e, se a distribui¸c˜ao do vetor aleat´orio Z = [Z(s1), . . . , Z(sn)]T para s1, . . . , sn ∈ D ´e idˆentica a distribui¸c˜ao do vetor Z∗ = [Z(s1 + h), . . . , Z(sn + h)]T para s1 + h, . . . , sn + h ∈ D, para todo h e para todo n ≥ 1. A suposi¸c˜ao de estacionariedade introduz repeti¸c˜oes no espa¸co, isto ´e, dois pontos com configura¸c˜oes idˆenticas ap´os transla¸c˜ao ser˜ao ditos estatisticamente equivalentes, o que permitir´a o c´alculo das covariˆancias.

Um processo ´e dito fracamente estacion´ario (ou estacion´ario de segunda ordem) se µ(s) = E(Z(s)) = µ (quer dizer que o processo tem m´edia constante) e Cov(Z(s), Z(s + h)) = C(h) para todo h ∈ Rr tal que s e s + h pertencem ao

(25)

conjunto D. Assim, a estacionariedade estrita implica a estacionariedade fraca. No caso da distribui¸c˜ao normal estas duas defini¸c˜oes s˜ao equivalentes.

Para processos fracamente estacion´arios, ´e poss´ıvel definir a fun¸c˜ao de correla¸c˜ao como:

ρ(h) = cor(Z(s), Z(s + h)) = C(h) C(0) onde C(0) ´e a variˆancia do processo.

Em geoestat´ıstica, ´e comum utilizar a vari´avel incrementos Z(s + h) − Z(s), que faz um an´alogo com a diferencia¸c˜ao feita numa s´erie temporal quando n˜ao se tem estacionariedade em Z(s). Esta vari´avel representa a mudan¸ca da vari´avel de interesse ap´os um deslocamento h. A modelagem da estrutura de dependˆencia dos dados pode ser feita, de forma alternativa, usando a variˆancia dos incrementos. Este tipo de estacionariedade ´e muitas vezes chamada de estacionaridade intr´ınseca.

O processo Z(s) ´e dito intrinsecamente estacion´ario, se E(Z(s + h) − Z(s)) = 0, ∀s, h ∈ D e se 1

2V ar(Z(s + h) − Z(s)) = γ(h), para todo par Z(s) e Z(s + h). Ou seja, a fun¸c˜ao de variˆancia existe e ´e fun¸c˜ao ´unica do vetor de separa¸c˜ao h. Nesse caso, γ(h) ´e conhecida como fun¸c˜ao de semivariˆancia ou semivariograma do processo espacial (ver Banerjee et al., 2004).

Na presen¸ca de estacionariedade de segunda ordem as fun¸c˜oes de covariˆancia e semivariograma satisfazem as seguintes propriedades:

1. C(h) = C(0) − γ(h)

2. C(0) ≥ 0

3. C(h) = C(−h)

4. | C(h) |≤ C(0)

(26)

• Isotropia: Um processo ´e dito estritamente isotr´opico se, para toda matriz ortogonal H e todo conjunto de localiza¸c˜oes D e qualquer h ∈ Rr, a distribui¸c˜ao de Z = [Z(s1), . . . , Z(sn)]T ´e a mesma de Z∗ = [Z(Hs1+ h), . . . , Z(Hsn+ h)]T .Um processo ´e dito fracamente isotr´opico se µ(s) = E(Z(s)) = µ e Cov(Z(s), Z(s+h)) = C(|| h ||) onde || h || ´e a norma de h, s e s + h ∈ D. Nesse caso, note que a covariˆancia s´o depende da medida || h || e n˜ao da dire¸c˜ao do vetor h. Em outras palavras, um processo ´e dito isotr´opico, se a correla¸c˜ao dos dados independe da dire¸c˜ao em que ´e calculada.

Em termos geom´etricos, a estacionariedade e a isotropia s˜ao propriedades de invariˆancia. A estacionariedade faz referˆencia `a invariˆancia sob transla¸c˜oes, enquanto a isotropia faz referˆencia `a invariˆancia sob rota¸c˜oes e reflex˜oes. Estas duas propriedades facilitam o c´alculo da covariˆancia nos casos em que ´e correto fazer uma ou as duas hip´oteses.

2.3.1

Estrutura de Covariˆ

ancia

´

E preciso procurar uma estrutura de covariˆancia que seja v´alida. Para isso, a fun¸c˜ao de covariˆancia C(si, sj) = Cov(Z(si), Z(sj)) deve ser tal que para qualquer i, j = 1, . . . , n e qualquer a1, a2, . . . an: V arXaiZ(si)  =XaiajCov(Z(si), Z(sj)) = X aiajC(si, sj) ≥ 0

isto ´e, C(., .) tem que ser uma fun¸c˜ao positiva definida. Isso garante que toda as combina¸c˜oesP aiZ(si) de {Z(s1), . . . Z(sn)} ter˜ao uma variˆancia positiva.

Na pr´atica n˜ao ´e comum verificar se ´e satisfeita a condi¸c˜ao de ser uma fun¸c˜ao positiva definida. Por esse motivo, alguns modelos param´etricos conhecidos s˜ao comumente usados. Mas no caso que ´e preciso verificar esta condi¸c˜ao, pode-se usar o Teorema de Bochner que fornece uma condi¸c˜ao necess´aria e suficiente para que C(h) seja positiva definida (ver, por exemplo Banerjee et al., 2004; Stein, 1999).

(27)

Alguns dos modelos param´etricos para fun¸c˜ao de covariˆancia, que s˜ao geralmente usados na literatura (Banerjee et al., 2004; Fonseca e Steel, 2010), s˜ao:

• Fun¸c˜ao de covariˆancia exponencial

C(h) = σ2exp(− || h/a ||)

onde a ´e o parˆametro de alcance e σ2 ´e a variˆancia. Na pr´atica, o parˆametro de alcance tem uma rela¸c˜ao com a distˆancia a partir da qual duas observa¸c˜oes podem ser consideradas independentes. O alcance efetivo corresponde `a distancia h0 =k h k para a qual a correla¸c˜ao cai para 0.05. Que neste modelo, ´e dado por h0 = 3a.

Este tipo de modelo ´e muito usado na pr´atica, pois tem uma forma simples, mas tem propriedades te´oricas muito restritas, que fazem com que o modelo seja pouco realista.

• Fun¸c˜ao de covariˆancia Gaussiana

C(h) = σ2exp{− k h/a k2}

igual ao caso anterior a ´e o parˆametro de alcance e σ2 ´e a variˆancia do processo. Esta fun¸c˜ao representa processos muito suaves que s˜ao pouco realistas.

• Fun¸c˜ao de covariˆancia esf´erica

C(h) = σ2  1 −3 2 k h/a k + 1 3 k h/a k 3  , k h k≤ a

C(h) = 0 para h > a, isto ´e a covariˆancia desaparece para valores de h maiores do que a, o que facilita os c´alculos que dependem da matriz de covariˆancia. O comportamento desta fun¸c˜ao perto de zero ´e similar ao comportamento da exponencial.

(28)

A Figura 2.1 apresenta uma compara¸c˜ao do comportamento da covariˆancia dado pelos modelos anteriores.

2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0 1.2 Função de covariância Exponencial Gaussiano Esferico

Figura 2.1: Fun¸c˜ao de covariˆancia exponencial, Gaussiana, esf´erica, com parˆametros a = 2, σ2 = 2 e h variando de 0 a 10.

• Fun¸c˜ao de covariˆancia Mat´ern

C(h) = σ2(2ν

1/2 k h/a k)v 2ν−1Γ(ν) Kν(2ν

1/2 k h/a k)

onde, ν > 0 corresponde ao parˆametro de suavidade, a ´e o alcance, que indica qu˜ao r´apido decresce a correla¸c˜ao no modelo, e σ2 ´e a variˆancia. Γ ´e a fun¸c˜ao Gamma e Kν(.) ´e a fun¸c˜ao modificada de Bessel de terceiro tipo e ordem ν. No caso de v = 1/2 obtˆem-se C(h) = σ2exp{− k h/a k} que ´e a fun¸c˜ao de covariˆancia exponencial. Enquanto que se ν → ∞ tem-se a fun¸c˜ao de covariˆancia Gaussiana.

• Fun¸c˜ao de covariˆancia Cauchy

(29)

onde α ∈ (0, 2] ´e o parˆametro de forma e suavidade do modelo, λ > 0 corresponde `

a dependˆencia de mem´oria longa, a > 0 ´e o alcance e σ2 > 0 a variˆancia. Essa fun¸c˜ao de covariˆancia ´e v´alida em todas as dimens˜oes.

2.3.2

Previs˜

ao

Um dos principais objetivos da geoestat´ıstica ´e a previs˜ao da vari´avel de interesse em pontos onde esta vari´avel n˜ao foi observada. Suponha que se observa realiza¸c˜oes de um processo Z(s) nos locais s1, . . . , sn, si ∈ Rr, e tem-se como objetivo prever o valor de Z(s0). Se a lei de Z ´e conhecida, a inferˆencia de Z(s0) pode se basear na distribui¸c˜ao condicional de Z(s0) dado os valores observados Z(s1), . . . , Z(sn). Na pr´atica ´e dif´ıcil especificar a lei das vari´aveis aleat´orias, e mesmo que se acredite que Z tem uma distribui¸c˜ao espec´ıfica, o c´alculo desta condicional pode ser muito dif´ıcil. Devido a isso, nesses casos ´e comum trabalhar com preditores lineares (ver Stein, 1999).

Suponha que Z tem fun¸c˜ao de m´edia m(s) e fun¸c˜ao de covariˆancia C(si, sj). Se m e C s˜ao conhecidas ent˜ao pode-se obter a m´edia e a variˆancia de qualquer combina¸c˜ao linear das observa¸c˜oes de Z. Queremos, prever o valor da vari´avel no sitio no observado s0 a partir das observa¸c˜oes Z = [Z(s1), . . . , Z(sn)]T usando um preditor do tipo λ0+ λTZ. O objetivo ´e achar um λ0 e λT tal que o erro quadr´atico m´edio de λ0 + λTZ seja m´ınimo para este preditor, o erro quadr´atico m´edio corresponde a m´edia do erro de previs˜ao ao quadrado mais sua variˆancia, que ´e

E{Z(s0) − λ0− λTZ}2 = {m(s0) − λ0− λTm}2+ c0− 2λTC0+ λTCλ

onde, m = E(Z), c0 = Cov(s0, s0), C0 = Cov(Z, Z(s0)) e C = Cov(Z, ZT).

O preditor linear que minimiza o erro quadr´atico m´edio entre todos os preditores lineares ´e conhecido como o melhor preditor linear (BLP por sua sigla em Inglˆes). O termo quadr´atico pode ser minimizado fazendo λ0 = m(s0) − λTm. O termo restante

(30)

´

e minimizado quando λ = C−1C0, se C ´e invers´ıvel. E assim λ0 = m(s0) − C0TC−1m. Ent˜ao, o BP L ´e dado por

µ0 = m(s0) − CT0C −1 m + CT0C−1Z (2.1) = m(s0) − CT0C −1 (m − Z) (2.2)

Se Z ´e um processo Gaussiano, tem-se que a distribui¸c˜ao condicional de Z(s0) dado Z = z ´e normal com media µ0 dada pela equa¸c˜ao 2.1 e variˆancia c0− CT0C

−1C 0.

Mas, geralmente, assume-se que o valor da m´edia do processo n˜ao ´e conhecida, por´em a estrutura de covariˆancia ´e conhecida. Assim, ´e preciso que o estimador al´em de ser BLP seja n˜ao viciado. Suponha agora que se tem um processo Z que pode ser modelado como

Z(s) = m(s)Tβ + (s) (2.3)

onde,  ´e um campo aleat´orio com m´edia 0 e estrutura de covariˆancia conhecida, m ´e uma fun¸c˜ao conhecida com valores em Rp e β ´e um vetor de p coeficientes desconhecidos. A vari´avel de interesse ´e observada em n pontos, assim, Z = (Z(s1), . . . , Z(sn))T. O objetivo ´e prever o valor de Z(s0), onde s0 ´e um local n˜ao observado. Se a m´edia ´e conhecida ´e poss´ıvel usar o BLP

m(s0)Tβ + CT0C

−1(Z − Mβ) (2.4)

onde, M = (m(s1), . . . , m(sn))T, C0 = Cov(Z, Z(s0)) e C = Cov(Z, ZT).

Se β ´e desconhecido mas todas as covariˆancias s˜ao conhecidas, uma abordagem natural ´

e substituir β na equa¸c˜ao 2.4 pelo estimador de m´ınimos quadrados generalizados ˆβ = (MTC−1M)−1MTC−1Z, assumindo que C ´e n˜ao singular e M ´e de posto completo. O objetivo ´e minimizar E(Z(s0) − λTZ)2 sujeita a

(31)

Se λ resolve este problema de minimiza¸c˜ao restrita, ent˜ao λTZ ´e chamado de melhor preditor linear n˜ao viciado (BLUP por sua sigla em Inglˆes) para Z(s0). Neste caso o preditor resultante ´e

λTZ = CC−1(Z − M ˆβ) + m(s0)Tβˆ (2.6)

O melhor preditor linear n˜ao viciado (BLUP) ´e conhecido na literatura geoestat´ıstica como krigagem, chamado assim em honra ao ge´ologo Sul Africano D. G. Krige, cujos trabalhos em previs˜ao de reservas de ouro feitos nos anos cinquenta s˜ao considerados como pioneiros em m´etodos de interpola¸c˜ao espacial. Krigagem engloba um conjunto de m´etodos de previs˜ao espaciais cujo foco ´e minimizar o erro quadr´atico m´edio de previs˜ao. Em particular, quando m(s) ≡ 1,ou seja, quando assume-se que a media do processo ´e uma constante desconhecida ent˜ao o BLUP ´e chamado de krigagem ordin´aria.

No enfoque bayesiano o estimador BLUP tem interpreta¸c˜ao pois, para fazer uma previs˜ao de Z(s0) a solu¸c˜ao natural neste enfoque ´e usar a distribui¸c˜ao condicional de Z(s0) dado Z, que ´e calculada usando a distribui¸c˜ao a posteriori de β dado Z. Esta distribui¸c˜ao ´e conhecida como distribui¸c˜ao preditiva de Z(s0), e a esperan¸ca desta distribui¸c˜ao corresponde ao estimador BLUP.

(32)

Cap´ıtulo 3

Processos Gaussianos e n˜

ao

Gaussianos

3.1

Introdu¸

ao

Por muitos anos uma hip´otese fundamental na geoestat´ıstica foi a de que a vari´avel de interesse pode ser modelada como um processo Gaussiano Z(s), onde s s˜ao as coordenadas espaciais que variam de forma cont´ınua em D, D ⊆ R2. Este suposto facilita e justifica a previs˜ao da vari´avel em pontos n˜ao observados.

Na natureza existem vari´aveis que geralmente apresentam dados fora do usual. Mas o que ´e um dado fora do usual quando se estuda um processo cont´ınuo no espa¸co? Neste caso, os outliers podem ser definidos como observa¸c˜oes pertencentes a sub-regi˜oes com variˆancia observacional grande. Estes dados geralmente apresentam caudas pesadas e assimetria, fazendo com que a distribui¸c˜ao Gaussiana n˜ao seja muito apropriada.

Algumas propostas foram feitas para solucionar este problema. Por exemplo, De Oliveira et al. (1997) propˆos o uso do modelo bayesiano Gaussiano transformado, que ´e baseado na fam´ılia de transforma¸c˜oes Box-Cox. Esta ideia foi motivada pelo interesse em fazer previs˜ao de vari´aveis que claramente n˜ao seguem uma distribui¸c˜ao Gaussiana. Diggle et al. (1998) propˆos o uso de modelos espaciais lineares generalizados para dados

(33)

pertencentes `a fam´ılia exponencial.

Outro exemplo de modelos n˜ao Gaussianos ´e apresentado por Palacios e Steel (2006). O trabalho deles inclui o uso de um processo de variˆancia que permite que o modelo tenha uma maior flexibilidade, pois ele acomoda heterocedasticidade espacial. Al´em disso, uma vantagem deste modelo ´e que ao condicionar a vari´avel de interesse ao conhecimento do processo de variˆancia, tem-se uma distribui¸c˜ao normal, o que facilita a sua implementa¸c˜ao.

Este cap´ıtulo apresenta o modelo usual para o caso Gaussiano e tamb´em apresenta um modelo n˜ao Gaussiano proposto por Palacios e Steel (2006). O modelo n˜ao Gaussiano permite que os parˆametros de interesse sejam melhor estimados nos casos onde acontecem outliers, al´em de permitir a identifica¸c˜ao de ´areas com alta variabilidade, o que na pr´atica ´

e de grande utilidade.

3.2

Processos Gaussianos

Seja S = {s1, . . . , sI} ∈ D ⊆ R2 um conjunto de pontos espacialmente referenciados. Em cada ponto s se tem observa¸c˜oes de uma vari´avel resposta Z(s) que pode ser explicada por meio de um vetor de vari´aveis espacialmente referenciadas x(s), usando um modelo de regress˜ao como

Z(s) = xT(s)β + w(s) + (s), (3.1)

onde, w(s) captura a associa¸c˜ao espacial dos dados devida `as covari´aveis n˜ao observadas ou n˜ao med´ıveis, enquanto (s) ´e um ru´ıdo branco independente de w(s). O modelo na equa¸c˜ao 3.1 geralmente ´e conhecido como modelo de regress˜ao espacial.

A suposi¸c˜ao usual ´e de que w(s) segue um processo Gaussiano com m´edia 0 e fun¸c˜ao de covariˆancia cov(w(s), w(s0)) = C(s, s0). Para toda localiza¸c˜ao s assume-se

(34)

que  ∼ N (0, τ2), de forma independente. Ent˜ao, o modelo condicional a w para o vetor Z = (Z(s1), . . . , Z(sI))T, com n = I, ´e dado por

Z | w, β, τ2 ∼ Nn(Xβ + w, τ2In)

w | θ ∼ Nn(0, C(θ)) (3.2)

ou integrando w,

Z | β, θ, τ2 ∼ Nn(Xβ, Σ), (3.3)

com X = [xT(s

1), . . . , xT(sI)]T e Σ = C(θ) + τ2In, onde C(θ) ´e a matriz com entradas C(si, sj), i, j = 1, . . . , n, o vetor θ contem os parˆametros da estrutura de covariancia do modelo e In ´e a matriz identidade de ordem n. Mas note que na inferˆencia para θ, β e τ2 ´e preciso inverter matrizes n × n, o que pode levar a elevados custos computacionais.

3.3

Processos n˜

ao Gaussianos

O processo em (3.1) ´e usualmente considerado Gaussiano, onde as distribui¸c˜oes finito dimensionais s˜ao normais, n˜ao permitindo acomodar observa¸c˜oes extremas. Palacios e Steel (2006) propuseram modelos que permitem distribui¸c˜oes com caudas mais pesadas que as da distribui¸c˜ao normal, fazendo uso de misturas de escala, o que permite modelar observa¸c˜oes extremas de forma mais adequada. Considere o processo espacial

Z(s) = x(s)β + w(s)

λ(s)1/2 + (s), (3.4)

onde w(s) ´e um processo Gaussiano definido em s ∈ D, independente do efeito (s) ∼ N (0, τ2). O processo λ(s) ´e respons´avel pela infla¸c˜ao na variˆancia do processo Z(s). Integrando λ, a distribui¸c˜ao finito dimensional de Z tem caudas mais pesadas que as da Normal, permitindo acomodar observa¸c˜oes aberrantes.

(35)

Z = Xβ + Λ−1/2w + ε, ε ∼ N (0, τ2In)

com Λ = Diag(λ), λ = (λ1, . . . , λn). Pode ser mostrado que esse novo processo ´e um processo estoc´astico.

Mas, nos modelos espaciais, este tipo de misturas pode gerar problemas com a continuidade da vari´avel aleat´oria resultante Z. Assim, para que o novo processo seja cont´ınuo em m´edia quadr´atica, as vari´aveis de mistura λ introduzidas no modelo devem ser espacialmente correlacionadas, pois dessa forma localiza¸c˜oes muito pr´oximas v˜ao ter valores muito similares de λ (ver Palacios e Steel, 2006).

Pode-se assumir que λi = λ ∼ Pλ, i = 1, . . . , n, isto ´e, todas as localiza¸c˜oes compartilham uma vari´avel de mistura comum. Mas, permitir que λ varie para cada s´ıtio faz com que o modelo seja mais flex´ıvel e permite a identifica¸c˜ao de zonas de alta variabilidade. Assim, valores de λi pequenos estar˜ao relacionados com regi˜oes do espa¸co onde os valores das vari´aveis est˜ao afastados da superf´ıcie m´edia, o que em muitas aplica¸c˜oes ´e de grande interesse. A proposta de Palacios e Steel (2006) para as vari´aveis de mistura ´e dado pela equa¸c˜ao 3.7.

Desta forma, o modelo de processos n˜ao Gaussianos ´e dado por

Z | w, Λ, β, τ2 ∼ Nn(Xβ + Λ−1/2w, τ2In) (3.5) w | σ2, θ ∼ Nn(0, σ2R(θ)) (3.6) ln(λ) | ν, θ ∼ Nn  −ν 21n, νR(θ)  (3.7)

onde, C(θ) = [C(si, sj)]ni,j=1 = σ2R(θ), θ ´e o vetor de parˆametros da estrutura de correla¸c˜ao, Rij = Cor(si, sj), para i, j = 1, . . . , n e 1n ´e um vetor de uns de tamanho n e ν ∈ R+. Em princ´ıpio, a estrutura de correla¸c˜ao do processo λ pode n˜ao coincidir com a estrutura de correla¸c˜ao de w. Mas, ao usar estruturas de correla¸c˜ao diferentes para os dois processos pode-se dificultar a estimativa dos parˆametros do modelo, principalmente

(36)

se temos apenas dados espaciais e n˜ao espa¸co-temporais.

A covariˆancia entre dois pontos i e j vai ser dada por,

Cov(zi, zj) = Cov  x(si)β + w(si) λ(si)1/2 + (si), x(sj)β + w(sj) λ(sj)1/2 + (sj)  (3.8) = Cov  w(si) λ(si)1/2 , w(sj) λ(sj)1/2  (3.9)

= σ2Cor(si, sj)exp{ν(1 + (1/4)[Cor(si, sj) − 1])} (3.10)

3.3.1

Previs˜

ao

Os modelos geoestat´ısticos tem importantes aplica¸c˜oes a dados reais, pois eles permitem prever o valor da vari´avel de interesse em localiza¸c˜oes n˜ao observadas.

Seja Z = (zoT, zTp)T, onde zTo corresponde ao valor da vari´avel nas localiza¸c˜oes observadas e zT

p ´e o vetor de vari´aveis preditas em f localiza¸c˜oes n˜ao observadas. Neste caso, a distribui¸c˜ao posterior preditiva tem a forma

p(zp | zo) = Z

p(zp | zo, λ, ζ)p(λp | λo, ζ, zo)p(λo, θ | zo)dλdζ (3.11)

onde, λ = (λTo, λTp)T, similar `a parti¸c˜ao feita com Z, e ζ = (β, σ2, τ2, θ, ν). A integral em 3.11 pode ser aproximada usando m´etodos de Monte Carlo e, j´a que p(λp | λo, ζ, zo) = p(λp | λo, ν, zo) pode-se obter amostras de λp usando

ln(λp) | λo, ν, zo ∼ Nf  CpoC−1oo(lnλo+ ν 21n) − ν 21f, v[Cpo− CpoC −1 ooCop]  (3.12) onde C(θ) =   Coo Cop Cpo Cpp  

(37)

que foi particionado de forma similar a Z. Assim, para cada (λo, ζ) obtido, pode se obter um valor de p(zp | zo, λ, ζ), onde zp | zo, λ, ζ ∼ Nf  (Xp− AXo)β + Azo, σ2  Λ− 1 2 p CppΛ −1 2 p + τ2 σ2If − Λ −1 2 o CopΛ −1 2 p  (3.13) com A = Λ− 1 2 p CpoΛ −1 2 o h Λ− 1 2 o CooΛ −1 2 o +τ 2 σ2In i−1

(38)

Cap´ıtulo 4

Processos Preditivos

4.1

Introdu¸

ao

Geralmente os modelos espaciais geram um custo computacional grande, que aumenta com a quantidade de pontos observacionais inclu´ıdos nas an´alise. A facilidade atual para a obten¸c˜ao de dados georeferenciados faz com que a quantidade de dados dispon´ıveis para a an´alise estat´ıstica aumente consideravelmente, o que implica que o custo computacional para modelar estes dados seja muito grande. Dessa forma, ´e preciso criar t´ecnicas que permitam diminuir este custo e, al´em disso, que afetem os resultados da an´alise o m´ınimo poss´ıvel.

Na literatura pode-se encontrar v´arias poss´ıveis solu¸c˜oes para este problema. Por exemplo, Kammann e Wand (2003) usa o m´etodo de low rank spline para facilitar a computa¸c˜ao no caso de modelos geoaditivos. Stein (2008) usa fun¸c˜oes de covariˆancia com suporte compacto. Alguns autores usam estruturas de covariˆancia separ´aveis, aproxima¸c˜oes da fun¸c˜ao de m´axima verossimilhan¸ca, m´edia m´ovel, tapering (este m´etodo introduz zeros na matriz de covariˆancia), ou algumas fun¸c˜oes b´asicas que tentam aproximar o processo original w por um processo ˜w, que representa a realiza¸c˜ao do processo em subespa¸cos de menor dimens˜ao. Alguns dos m´etodos, mais frequentemente utilizados na literatura para trabalhar grandes conjuntos de dados geoestat´ısticos, s˜ao

(39)

discutidos por Sun et al. (2012).

Neste capitulo se estudam os processos preditivos propostos por Banerjee et al. (2008) para processos Gaussianos, para depois estender esta ideia no caso de processos n˜ao Gaussianos.

4.2

Processos Gaussianos Preditivos

Banerjee et al. (2008), sugerem usar os modelos preditivos para diminuir o custo computacional de modelos espaciais devido `a invers˜ao de matrizes de dimens˜ao grande. A ideia de usar processo preditivo ´e projetar realiza¸c˜oes do processo Z num subespa¸co de dimens˜ao menor, o que facilita a computa¸c˜ao. Nessa abordagem, ´e mais simples acomodar n˜ao estacionariedade, modelos multivariados, processos espa¸co-temporais, entre outros, para grandes conjuntos de dados. Isso ocorre, pois essa abordagem pode ser aplicada diretamente a qualquer estrutura de covariˆancia e para qualquer distribui¸c˜ao que seja usada para o processo Z. Al´em disso todo processo espacial (ou espa¸co-temporal) induz um processo preditivo o que facilita o uso deste m´etodo.

Lembre que no Cap´ıtulo anterior, como descrito na equa¸c˜ao (3.2), o processo espacial w ´e tal que

w ∼ N (0, C(θ))

Agora, considere um conjunto de “knots”, S∗ = {s∗1, . . . , s∗m}, m ≤ n, que pode ou n˜ao ser um subconjunto do conjunto das loca¸c˜oes observadas S. Seja

w∗ = [w1∗, . . . , w∗m]T ∼ Nm(0, C∗(θ)), (4.1)

onde C∗(θ) ´e a matriz m × m com entradas C(s∗i, s∗j), i, j = 1, . . . , m.

Usando o melhor preditor linear que vem da ideia do krigagem (ver se¸c˜ao 2.3.2), a interpola¸c˜ao espacial do modelo para o ponto s0 ´e dada por

(40)

˜

w(s0) = E(w(s0) | w∗)

= cT(s0; θ)C∗−1(θ)w∗, (4.2)

onde

cT(s0; θ) = [C(s0, s∗1; θ), . . . , C(s0, s∗m; θ)].

Essa interpola¸c˜ao define um processo espacial ˜w(s) ∼ P G(0, ˜C(.)), com fun¸c˜ao de covariˆancia ˜ C(s, s0; θ) = cT(s; θ)C∗−1(θ)c(s0; θ) onde cT(s; θ) = [C(s, s∗ 1; θ), . . . , C(s, s ∗ m; θ)]. O processo ˜w(s) definido em (4.2) ´e conhecido como processo preditivo derivado do processo w(s). Substituindo w(s) por

˜

w(s) no modelo (3.2), ´e obtido o processo preditivo

Z(s) = xT(s)β + ˜w(s) + (s), (4.3)

onde ˜w(s) = cT(s)C∗−1(θ)w, ˜w ´e uma transforma¸c˜ao linear de w, que varia no espa¸co. Esse interpolador define um processo espacial dado por ˜w(s) ∼ GP (0, ˜C) onde a fun¸c˜ao de covariˆancia ´e dada por

˜

C(s, s0) = cT(s; θ)C∗−1(θ)c(s0; θ) (4.4) onde, c(s; θ) = [C(s, s∗j; θ)]mj=1. Da equa¸c˜ao 4.4, esse novo processo n˜ao ´e estacion´ario independentemente de que o processo w(s) seja estacion´ario ou n˜ao. Note que ˜w(s0) ´e uma proje¸c˜ao ortogonal de w(s0) sobre um subespa¸co particular. O processo preditivo ´e a melhor aproxima¸c˜ao do processo original (ver Banerjee et al., 2008).

(41)

Z | ˜w, β, τ ∼ Nn(Xβ + ˜w, τ2In) ˜

w = cT(θ)C∗−1(θ)w∗ (4.5)

w∗ | θ ∼ Nm(0, C∗(θ)) (4.6)

Ao escrever o modelo dessa forma, a dimens˜ao das matrizes inversas diminui, e com ela o custo computacional. Note que o processo latente w∗ tem dimens˜ao m, que ´e o n´umero de “knots” escolhidos pelo pesquisador. Mas, note que o modelo (4.3) ´e um novo modelo para Z, diferente do modelo em (3.2), levando a inferˆencias diferentes para os parˆametros de interesse.

Banerjee et al. (2008) deixa em evidˆencia uma deficiˆencia da proposta original, i.e., o modelo preditivo induz um vi´es positivo no erro n˜ao espacial do modelo, devido `a subestima¸c˜ao do erro do processo preditivo espacial.

Isso ´e observado quando s˜ao comparados o processo preditivo e o processo original. Os dois processos s˜ao Gaussianos, com m´edia zero, mas a variˆancia dos processos ´e dada por

V ar(w(s)) = C(s, s; θ) (4.7)

V ar( ˜w(s)) = cT(s; θ)C∗−1(θ)c(s; θ) (4.8)

Finley et al. (2009) prop˜oem uma poss´ıvel solu¸c˜ao para este problema e, al´em disso, prop˜oem uma maneira de determinar a localiza¸c˜ao dos knots a serem escolhidos pelo pesquisador (Ver capitulo 5.2.3).

Para tirar o vi´es na estima¸c˜ao do τ2 induzida pelo processo preditivo, eles prop˜oem a seguinte transforma¸c˜ao do processo:

¨

(42)

˜

(s) ∼ N (0, C(s, s; θ) − cT(s; θ)C∗−1(θ)c(s; θ)),

Note que a variˆancia corrigida ´e igual a do processo original como em (4.7).

4.3

Processos n˜

ao Gaussianos Preditivos

Nossa proposta considera modelos preditivos n˜ao Gaussianos. Dessa forma podemos identificar outliers atrav´es do processo λ em (3.4), e tamb´em teremos inferˆencia r´apida usando processos preditivos.

Teorema 4.1 Considere um conjunto de knots S∗ = {s∗1, . . . , s∗m}, que pode ou n˜ao pertencer a amostra original S ∈ D, e o processo n˜ao Gaussiano definido em (3.3). Ent˜ao o processo preditivo n˜ao Gaussiano resultante ´e dado por,

Z(s) = xT(s)β + w(s)˜ ˜ λ1/2(s) + (s), (4.10) onde, ˜ w(s) = cT(s)C∗−1(θ)w∗ (4.11) ln(˜λ(s)) = ν 2R T(s)R∗−1 (θ)1m− 1n + RT(s)R∗−1(θ)ln(λ∗) (4.12) e w∗ | σ2, θ ∼ N m(0, σ2R∗(θ)) (4.13) ln(λ∗) | θ, ν ∼ Nm  −ν 21m, νR ∗ (θ) (4.14) com, R∗(θ) = [Cor(s∗i, s∗j; θ)]m i,j=1 = σ

−2C(θ), onde θ ´e o vetor de parˆametros da estrutura de corela¸c˜ao e RT(s) = [Cor(s, s

1; θ), . . . , Cor(s, s ∗ m; θ)].

Prova:

Considerando que w e λ s˜ao dois processos independentes e considerando o conjunto de knots S∗ = {s∗1, . . . , s∗m} tem-se, como no caso Gaussiano, que o processo espacial

(43)

w pode ser substitu´ıdo pelo processo ˜w da equa¸c˜ao 4.2, onde w∗ tem a distribui¸c˜ao da equa¸c˜ao 4.1.

Da equa¸c˜ao 3.7 segue-se que ln(λ∗) | θ ∼ Nm −ν21m, νR∗(θ). Assim, para a localiza¸c˜ao s, ln(˜λ(s)) = E(ln(λ(s)) | ln(λ∗)). Mas

ln   λ(s) λ∗  | ν, θ ∼ N  −v 2   1 1m  , ν   1 RT(s) R(s) R∗    

ent˜ao ln(˜λ(s)) tamb´em tem distribui¸c˜ao Normal e ´e dado por 4.12.

Temos que ˜w e ln(˜λ) s˜ao transforma¸c˜oes lineares de w∗ e ln(λ∗), respectivamente. Note que substitu´ımos o modelo para a variˆancia por um modelo preditivo. Note que por simplicidade, o conjunto de knots no processo espacial e no processo de variˆancia ´e o mesmo, mas ´e poss´ıvel escolher knots diferentes para estes processos (Ver 5.2.5).

Corol´ario: As express˜oes das variˆancias dos processos preditivos ˜w e ˜λ s˜ao dadas por:

• Cov( ˜w(s), ˜w(s0)) = cT(s; θ)C∗−1(θ)c(s0

; θ)

• Cov(˜λ(s), ˜λ(s0)) = νRT(s)R∗−1R(s0

)

O modelo 4.10 ´e um processo preditivo e, portanto, assim como no caso Gaussiano, ele induz um erro na estimativa do parˆametro τ2, que pode ser observado ao calcular:

V (wiλ −1/2 i ) = σ 2exp {ν} (4.15) V ( ˜wiλ˜ −1/2 i ) = σ 2RT(s i, s∗) R∗−1R(si, s∗) exp nν 2[1 + R T(s i, s∗)R∗−1R(si, s∗)] o (4.16)

Assim, a corre¸c˜ao proposta neste caso ´e, ao inv´es de usar o processo ˜w˜λ−1/2, usar

¨ wiλ¨ −1/2 i = ˜wiλ˜ −1/2 i + ζi, i = 1, . . . , n (4.17) onde ζi ∼ N (0, σζ2), com σ2 = σ2exp {ν} − RT(s, s∗)R∗−1R(s, s∗)expnν[1 + RT(s, s∗)R∗−1R(s, s∗)]o

(44)

Cap´ıtulo 5

Design

5.1

Introdu¸

ao

Nos processos preditivos ´e preciso definir o conjunto de knots a ser usado. A escolha destes pontos ´e importante, pois eles v˜ao ser a base para projetar os nossos dados e, portanto, os resultados obtidos v˜ao variar com a localiza¸c˜ao e quantidade destes pontos.

Este problema pode ser tratado equivalentemente ao problema de cria¸c˜ao, aumento ou diminui¸c˜ao de uma grade ambiental, onde os pontos sob os quais v˜ao se efetuar observa¸c˜oes s˜ao conhecidos como “design”. ´E conhecido que um design que seja eficiente para a estima¸c˜ao dos parˆametros n˜ao necessariamente ´e eficiente para a previs˜ao de dados n˜ao observados da vari´avel de interesse, dado os parˆametros estimados (ver, por exemplo Zimmerman, 2006).

Na literatura existem diferentes propostas para selecionar tais pontos. Algumas baseadas na minimiza¸c˜ao ou maximiza¸c˜ao de algum crit´erio, dependendo dos objetivos do estudo (estima¸c˜ao de um parˆametro ou previs˜ao de dados n˜ao observados), por exemplo, maximizando o determinante ou tra¸co da matriz de informa¸c˜ao de Fisher (Xia et al., 2006). Fuentes (2007) usa o crit´erio de maximiza¸c˜ao de entropia no contexto de m´etodos bayesianos, pois com eles espera-se obter uma maior quantidade de informa¸c˜ao da vari´avel de interesse. Cressie (1993) apresenta o m´etodo de minimiza¸c˜ao da variˆancia

(45)

de previs˜ao para ampliar e reduzir uma grade amostral no foco cl´assico, que tenta melhorar a previs˜ao de novo dados. Alguns m´etodos tentam melhorar a qualidade da estima¸c˜ao dos parˆametros do modelo, por exemplo, usam m´etodos que melhoram o ajuste do variograma, ou a estima¸c˜ao dos parˆametros da estrutura de correla¸c˜ao dos dados.

Como a vari´avel de interesse varia continuamente no espa¸co a escolha destes pontos ´

e dif´ıcil. Em geral, o procedimento a seguir neste caso ´e propor uma grade fina e usar algum dos crit´erios para escolher esses pontos. No entanto, quando a grade proposta ´e muito fina, alguns dos crit´erios anteriores s˜ao usados com ajuda de algoritmos de busca estoc´astica, como s˜ao o Simulated Annealing e redes neurais, entre outros (ver Cardenas, 2007).

Neste Cap´ıtulo o foco ´e apresentar algumas propostas de sele¸c˜ao dos knots j´a conhecidos, para depois apresentar uma proposta diferente no caso de processos n˜ao Gaussianos. Alguns destes m´etodos v˜ao ser aplicados posteriormente num estudo simulado.

5.2

Escolha dos Knots

Supondo que o n´umero de knots ´e fixo, existem diferentes alternativas para a escolha deste conjunto de pontos. Algumas levam em conta a informa¸c˜ao da estrutura espacial dos dados, o que pode ajudar a escolher tais pontos. A maioria destes m´etodos s˜ao trabalhados sob uma grade fina, e a partir dela s˜ao escolhidos os pontos que far˜ao parte do conjunto de knots, levando em considera¸c˜ao algum crit´erio para escolha dos mesmos. Alguns exemplos de metodologias para escolha destes pontos s˜ao, grade aleat´oria, grade regular, proposta de Finley, e proposta do Diggle.

(46)

5.2.1

Grade Aleat´

oria

Estes tipos de grade tˆem sido muito usados por sua simplicidade, embora do ponto de vista da estat´ıstica espacial, ela n˜ao inclua informa¸c˜ao relevante sob a associa¸c˜ao espacial dos dados, assim como que outros m´etodos de amostragem cl´assica. Neste caso, todos os pontos tem a mesma probabilidade de serem escolhidos para pertencer ao conjunto de knots.

5.2.2

Grade Regular

´

E uma das grades mais usadas, pois ´e f´acil de programar, mas ela n˜ao ´e eficiente na estima¸c˜ao de alguns parˆametros, pois n˜ao permite ter pontos muito pr´oximos. Isto gera, por exemplo, uma imprecis˜ao no ajuste do variograma e na estimativa dos parˆametros de interesse. Os diferentes tipos de grade regular tˆem sido estudados usando diferentes formas geom´etricas, como o retˆangulo, triˆangulo, hex´agono, etc. Uma grade regular que tem sido muito empregada e que tem apresentado maior eficiˆencia ´e a grade regular triangular (ver Cressie, 1993).

5.2.3

Proposta de Finley et al. (2009)

Finley et al. (2009), propˆos o uso do crit´erio de minimiza¸c˜ao da variˆancia preditiva no caso de modelos preditivos, pois o objetivo dos knots ´e a previs˜ao das observa¸c˜oes nos locais observados, portanto quer-se minimizar o erro de usar os knots ao inv´es de usar a amostra original.

A solu¸c˜ao que Finley et al. (2009) d˜ao para a escolha dos m “knots” considera que o valor m ´e conhecido. O objetivo ´e construir uma estrat´egia de sele¸c˜ao dos “knots” que melhor aproxime o processo original w(s). E dado o vetor de parˆametros θ a variˆancia preditiva de w(s), condicional ao processo preditivo w∗ nos pontos s∗, pode ser escrita como

Vθ(s, s∗) = V ar(w(s) | w∗(·), s∗, θ) = C(s, s) − cT(s; θ)C∗−1(θ)c(s

0

(47)

que mede qu˜ao bem ˜w(s) aproxima o processo w(s). Baseado nessa ideia, eles prop˜oem um algoritmo para minimizar a m´edia da variˆancia de previs˜ao espacial para os locais observados, isto ´e, minimizar

Vθ(s∗) = Pn

i=1V ar(w(si) | w

(·), s, θ)

n (5.2)

Assim, o algoritmo para escolha dos m knots, ´e dado por:

1. Especifique o conjunto total S de locais de amostragem permitidos S = s1, . . . sN, com N > m. As poss´ıveis escolhas dos locais S s˜ao, por exemplo, uma grade fina, os pontos observados, entre outras.

2. Seja t = 0, especifique um conjunto inicial S0∗ de loca¸c˜oes de tamanho n0, esse conjunto pode ser escolhido aleat´oria ou deterministicamente.

3. No passo t + 1, para cada ponto amostral si no conjunto S ´e calculada a Vθ(si, St∗), para t = 0, . . . , T = m − n0.

O ponto que apresente menor variˆancia V ´e tirado do conjunto de poss´ıveis amostras e inclu´ıdo no conjunto dos “knots” St+1∗ .

4. Repetir o procedimento at´e t = T , ´e disser, at´e obter m pontos no conjunto de “knots”. Assim, S∗ = ST∗.

Note que para usar este algoritmo ´e preciso conhecer o valor do vetor de parˆametros θ, mas geralmente este ´e desconhecido. Por tanto ´e preciso usar uma amostra piloto para estimar o vetor de parˆametros θ.

5.2.4

Proposta Diggle

O artigo de Diggle e Lophaven (2006) apresenta dois focos diferentes deste problema, um deles ´e denominado foco retrospectivo e o outro ´e o foco prospectivo. No caso retrosprospectivo, sup˜oe-se que j´a existem dados da vari´avel de interesse, com os quais s˜ao estimados os parˆametros de interesse, para depois disto escolher pontos que fazem

(48)

com que a variˆancia de previs˜ao seja m´ınima.

No caso prospectivo, eles sup˜oem que n˜ao existem dados que permitam a maximiza¸c˜ao ou minimiza¸c˜ao de um crit´erio para escolha dos pontos da grade, portanto prop˜oem o uso da esperan¸ca da variˆancia de previs˜ao. O objetivo neste caso ´e achar um design que seja ´otimo para previs˜ao, mas que tamb´em seja bom para estimar os parˆametros do modelo. Motivado pela ideia de que as grades regulares retangulares geralmente s˜ao boas para a previs˜ao de dados quando os parˆametros do modelo s˜ao conhecidos, e como o objetivo principal ´e a previs˜ao usa-se uma grade regular, e para melhorar a estimativa dos parˆametros, eles sugerem usar grades regulares modificadas da seguinte forma:

a) lattice plus close pairs (k×k, m, α): Esta grade ´e formada por uma grade regular de tamanho k × k e f pontos escolhidos aleatoriamente num c´ırculo de raio α centrado nos f pontos da grade que foram escolhidos aleatoriamente na grade regular.

b) lattice plus in-fill (K × k, m, k0× k0): Escolhe-se uma grade completamente regular k × k, depois s˜ao selecionados m c´elulas aleatoriamente dentro da grade, e nelas ´e criada uma nova grade de tamanho k0× k0 .

Eles estudam estes tipos de grades e concluem que a grade mais eficiente ´e a grade plus close pairs.

5.2.5

Processos n˜

ao Gaussiano

No caso de processos n˜ao Gaussianos preditivos (Se¸c˜ao 4.3), pode-se usar o mesmo conjunto de pontos tanto para o processo espacial quanto para o processo de variˆancia, isso facilita a computa¸c˜ao. Mas, este trabalho quer avaliar trˆes propostas para estes processos, que s˜ao:

i) Usar um conjunto de knots para w e um conjunto diferente para o processo λ. Isso permite incluir mais informa¸c˜ao ao modelo. Por exemplo, se a ideia ´e usar um conjunto de knots de tamanho 40, para os dois processos, poderia se usar 40 knots escolhidos para o processo espacial e 40 pontos diferentes para o processo de

(49)

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 2 4 6 8 10 0 2 4 6 8 10

(a) Lattice plus close pairs (6 × 6, 14, 0.9)

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 2 4 6 8 10 0 2 4 6 8 10

(b) Lattice plus in-fill (6 × 6, 3, 3 × 3)

Figura 5.1: Exemplos das grades usadas por Diggle

variˆancia, desta forma pode-se optar por fazer uso de diferentes designs para estes processos. Note que o custo computacional ´e quase o mesmo de usar os mesmos 40 pontos para os dois processos.

ii) Como o nosso interesse ´e modelar processos que tem regi˜oes com alta variabilidade, pode-se pensar que um bom design para o processo λ deveria incluir uma maior quantidade de pontos na ´area que apresenta uma variˆancia maior, isto ´e, valores da amostra que ap´os a estima¸c˜ao dos parˆametros usando uma prova piloto apresentem os maiores valores de σλ2

i, i ∈ {1, . . . , n}.

iii) A ideia no item (ii) pode ter algumas dificuldades na hora de ser implementado pois ao escolher s´o pontos com uma variabilidade alta pode ser que todos os pontos escolhidos constituam um cluster s´o, o que vai dificultar ou impossibilitar o uso de t´ecnicas como a amostragem por blocos (ver 6.3). Para tentar solucionar isso e permitir que os knots n˜ao estejam considerando somente os locais de maior variabilidade, ´e poss´ıvel usar valores com variˆancia maior, mas tamb´em usar pontos

(50)

com a menor variabilidade. Neste trabalho a quantidade de pontos de maior variˆancia vai ser igual `a quantidade de pontos de menor variˆancia.

(51)

Cap´ıtulo 6

Implementa¸

ao

O m´etodo de Monte Carlo via cadeias de Markov (MCMC) oferece t´ecnicas de grande utilidade para ajustar modelos complexos e que seriam intrat´aveis por outros m´etodos. Obter amostras de uma distribui¸c˜ao particular usando m´etodos como Monte Carlo, entre outros, frequentemente ´e uma tarefa dif´ıcil, `as vezes at´e imposs´ıvel. Isso ocorre, por exemplo, porque obter uma fun¸c˜ao de importˆancia que seja uma boa aproxima¸c˜ao da distribui¸c˜ao objetivo e que seja f´acil de amostrar, n˜ao ´e sempre poss´ıvel.

Este Cap´ıtulo tem como objetivo dar uma ideia de alguns dos m´etodos e fundamentos do M CM C, pois a inferˆencia feita neste trabalho usa estes m´etodos.

6.1

Algoritmos

O principal objetivo ´e obter uma amostra da distribui¸c˜ao a posteriori dos parˆametros de interesse, para isso existem diferentes algoritmos iterativos que permitem obter tais amostras, por exemplo, a amostrador de Gibbs, Metropolis Hastings entre outros. A ideia b´asica deles ´e:

• Amostrador de Gibbs: ´E usado nos casos que todas as distribui¸c˜oes condicionais completas apresentam uma forma fechada. A ideia deste m´etodo ´e obter uma amostra do vetor de parˆametros θ em cada itera¸c˜ao da seguinte forma: na itera¸c˜ao

(52)

t um valor do parˆametro θ1 ´e obtido usando sua distribui¸c˜ao condicional completa. Para depois obter um valor de θ2 baseado na condicional completa, mas neste caso usando o valor atualizado de θ1. Este processo ´e repetido at´e que a ´ultima componente do vetor θ seja atualizada. Ap´os isso uma nova itera¸c˜ao ´e realizada, at´e obter um n´umero de itera¸c˜oes M .

• Metropolis Hastings: No caso em que as distribui¸c˜oes condicionais completas n˜ao tenham uma forma fechada, ´e poss´ıvel construir um kernel de transi¸c˜ao q(φ, θ) ou usar um kernel tal que:

p(θ)q(θ, φ) = p(φ)q(φ, θ), ∀(θ, phi)

onde p ´e a distribui¸c˜ao de interesse.

Para cada itera¸c˜ao t da cadeia, um valor θ(prop) ´e gerado segundo a distribui¸c˜ao q(· | θ(t−1)), ou novo valor da cadeia θt vai corresponder com o valor proposto θ(prop) com probabilidade

α = min  1,p(θ (prop)) p(θ(t−1)) q(θ(prop) | θ(t−1)) q(θ(t−1)| θ(prop))  ou θ(t) = θ(t−1) com probabilidade 1 − α.

• H´ıbrido: Em alguns casos ´e poss´ıvel obter as distribui¸c˜oes condicionais completas de maneira fechada para a maioria dos parˆametros que v˜ao ser amostrados, ent˜ao uma op¸c˜ao neste caso ´e usar um algoritmo h´ıbrido que facilite o uso de MCMC. Assim, o algoritmo de Gibbs ´e usado para os parˆametros que o permitem e o algoritmo de Metropolis ´e usado no caso dos parˆametros que n˜ao tem uma condicional completa fechada.

Estes m´etodos est˜ao bem especificados em livros como Gamerman e Lopes (2006) ou Carlin e Louis (2000) entre outros.

(53)

6.2

Crit´

erios de Convergˆ

encia

Este trabalho usa o m´etodo de MCMC para gerar amostras das distribui¸c˜oes a posteri dos parˆametros para assim ter uma estimativa dos parˆametros do modelo. Para formar uma amostra da distribui¸c˜ao a posteriori do parˆametro de interesse ´e necess´ario que a cadeia tenha alcan¸cado estacionariedade, o que ocorre ap´os um n´umero de itera¸c˜oes conhecido como per´ıodo de aquecimento ou Burn-in (B). Ap´os o Burn-in uma amostra ´e obtida a cada k itera¸c˜oes com o prop´osito de que as amostras obtidas tenham autocorrela¸c˜ao muito baixa.

Mas, como saber se a cadeia gerada convergiu, ou se a amostra que se obtˆem pode ser considerada como independente? Para isso existem alguns crit´erios de convergˆencia, por exemplo, o m´etodo gr´afico pode ser ´util em um primeiro passo no diagn´ostico de convergˆencia da cadeia. Alguns crit´erios s˜ao gera¸c˜ao de m´ultiplas cadeias, convergˆencia das medias, convergˆencia a amostras independentes, o crit´erio de Raftery e Lewis, o crit´erio de Gewek. A ideia destes m´etodos ´e apresentada a seguir.

• M´ultiplas cadeias: Este m´etodo consiste em gerar de forma independente duas ou mais cadeias com pontos iniciais diferentes. Se as cadeias parecem estar oscilando em torno de um mesmo ponto, pode-se assumir que as cadeias est˜ao convergindo. Ent˜ao, uma amostra de tamanho n pode ser obtida das diferentes cadeias ou de uma delas. Se modas locais s˜ao visitadas em alguma(s) da(s) cadeia(s) significa que precisamos de longas cadeias e o uso de algumas cadeias em paralelo ´e recomendado. Ap´os a convergˆencia das cadeias, caracter´ısticas das amostras como m´edia, variˆancia, mediana, devem se manter para todas as cadeias. Se s˜ao geradas n cadeias o m´etodo ´e muito ineficiente computacionalmente, alguns autores recomendam o uso de 3 a 5 cadeias que comecem em pontos diferentes.

• Convergˆencia das m´edias: Este m´etodo gr´afico consiste em ver o comportamento da m´edia da cadeia at´e itera¸c˜ao atual, para cada itera¸c˜ao realizada. Quando o comportamento da m´edia ´e est´avel atrav´es das itera¸c˜oes ´e poss´ıvel que

Referências

Documentos relacionados

Miquéias explicou que Deus valorizava e procurava como características do seu povo a justiça, a misericórdia e um andar humilde diante dEle (conf.. Ao mesmo tempo, Deus

Cargas pontuais (F ou M): Matematicamente, a aplicação pontual de cargas não existe (é preciso uma área para aplicar, ainda que pequena) e sua ocorrência provocará uma

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

A assistência da equipe de enfermagem para a pessoa portadora de Diabetes Mellitus deve ser desenvolvida para um processo de educação em saúde que contribua para que a

Esse conhecimento superior, da consciência, é sabedoria pura e não pode ser patrimônio de nenhuma civilização ou doutrina específica, é de todos e de ninguém

servidores, software, equipamento de rede, etc, clientes da IaaS essencialmente alugam estes recursos como um serviço terceirizado completo...

Conclui-se que o teor de prolina varia entre as cultivares de mandioca, sendo maior nas cultivares Platina’ e ‘Caravela’, seguidas por ‘BRS Kiriris’, ‘BRS Verdinha’,

É ideal para os fabricantes e seus clientes, para escritórios e consultores especializados, para as oficinas de pintura e galvânicas, para as indústrias: química,