• Nenhum resultado encontrado

Bondade do Ajuste e Análise de Resíduos Bayesiana em Modelos Espaciais

N/A
N/A
Protected

Academic year: 2021

Share "Bondade do Ajuste e Análise de Resíduos Bayesiana em Modelos Espaciais"

Copied!
108
0
0

Texto

(1)

Universidade Federal do Rio de Janeiro Departamento de M´etodos Estat´ısticos Curso de P´os-gradua¸c˜ao em Estat´ıstica

Viviana das Gra¸cas Ribeiro Lobo

Bondade do ajuste, an´

alise de res´ıduos bayesiana em modelos espaciais

Rio de Janeiro 2014

(2)

Viviana das Gra¸cas Ribeiro Lobo

Bondade do ajuste, an´

alise de res´ıduos bayesiana em modelos espaciais

Disserta¸c˜ao apresentada ao Curso de Estat´ıstica da UFRJ, como requisito para a obten¸c˜ao do grau de MESTRE em Estat´ıstica.

Orientadora: Tha´ıs Cristina Oliveira da Fonseca

PhD em Estat´ıstica

Rio de Janeiro 2014

(3)

Lobo, Viviana

Bondade do ajuste, an´alise de res´ıduos bayesiana em modelos espaciais / Vivi-ana Lobo - 2014

xx.p

. I.T´ıtulo.

(4)

Viviana das Gra¸cas Ribeiro Lobo

Bondade do ajuste, an´

alise de res´ıduos bayesiana em modelos espaciais

Disserta¸c˜ao apresentada ao Curso de Estat´ıstica da UFRJ, como requisito para a obten¸c˜ao do grau de MESTRE em Estat´ıstica.

Aprovado em, 8 de Maio de 2014

BANCA EXAMINADORA

Tha´ıs Cristina Oliveira da Fonseca

PhD em Estat´ıstica

Fernando Antˆonio da Silva Moura

PhD em Estat´ıstica

M´arcia D’Elia Branco

(5)

`

(6)

Resumo

Dados georeferenciados frequentemente apresentam observa¸c˜oes at´ıpicas ou regi˜oes com heterocedastici-dade espacial. Modelos baseados na suposi¸c˜ao de gaussianidade n˜ao s˜ao os mais adequados para este problema. Uma alternativa ´e a utiliza¸c˜ao de modelos com caudas mais pesadas, permitindo uma maior flexibilidade no tratamento dessas observa¸c˜oes. Neste trabalho, s˜ao propostos m´etodos de diagn´ostico para an´alise e detec¸c˜ao de outliers, atrav´es de fun¸c˜oes de influˆencia espacial, an´alise de res´ıduos baye-sianos e p-valores bayebaye-sianos num contexto espacial. Outras ferramentas de diagn´ostico s˜ao abordadas para detec¸c˜ao de outliers baseados na distribui¸c˜ao preditiva, como a concordˆancia preditiva (PC) e a or-denada preditiva condicional (CPO) e teste de Savage-Dickey. Al´em desses, s˜ao propostos neste trabalho a probabilidade mais conservadora (McP) e o p-valor do CPO (CPOp). Num contexto de compara¸c˜ao de modelos, utilizou-se o fator de Bayes usual e fracion´ario, mostrando vantagens e desvantagens em sua aplicabilidade quando h´a presen¸ca de outliers. Foram utilizados dados simulados segundo v´arios cen´arios de contamina¸c˜ao por valores at´ıpicos. Trˆes modelos espaciais propostos na literatura s˜ao ajustados e comparados para os cen´arios e m´etodos propostos.

(7)

Abstract

Georeferenced data often present atypical observations or regions with spatial heterocedasticity. Models based on the assumption of gaussianity are not optimal for this problem. An alternative is to use models with heavier tails, allowing flexibility in the treatment of these observations. In this dissertation we propose methods for detection and analyze of outliers, through spatial influence functions, bayesian residual analysis and bayesian p-values in a spatial context. Other diagnostic tools are discuessed for outlier detection based on the predictive distribution, as predictive concordance (PC) and the conditional predictive ordinate (CPO) and Savage-Dickey test. In addition to these, are proposed in this work the most conservative p-value (McP) and p-value of CPO (CPOp). In the context of model comparison, are used the usual and fractional Bayes factor, showing advantages and disadvantages in its application when there are presence of outliers. Three spatial models proposed in the literature are adjusted and compared to the scenarios and proposed methods.

(8)

Agradecimentos

Agrade¸co `a minha fam´ılia, pelo apoio incondicional.

Aos meus amigos, em especial a Nat´alia S. Paiva companheira de guerra desde os tempos de gradua¸c˜ao, Aniel Ojeda pela grande ajuda e contribui¸c˜ao matem´atica ao longo do curso, Eduardo F. Gomes pelas discuss˜oes sobre a defini¸c˜ao da probabilidade mais conservadora e aos rapazes, Fernando G. Arag˜ao, Rafael Jorge Pereira e Rafael Barcellos.

Aos meus orientadores: de gradua¸c˜ao Dirley M. dos Santos, pelo incentivo, de mestrado Thais C. O. Fonseca, pela colabora¸c˜ao e conhecimentos repassados a mim, me dando a oportunidade de aprender novos conceitos e m´etodos ao longo do trabalho.

Aos membros da banca, por terem disponibilizado seu tempo para contribui¸c˜ao deste tra-balho, Fernando A. S. Moura e M´arcia D’ ´Elia Branco.

Universidade Federal do Rio de Janeiro e a CAPES pelo apoio financeiro, do qual possibili-taram a oportunidade de dar continuidade aos meus estudos.

(9)

“O sucesso ´e ir de fracasso em fracasso sem perder entusiasmo”.

(10)

Sum´

ario

Lista de Tabelas 9

Lista de Figuras 11

1 Introdu¸c˜ao 13

1.1 Estrutura e classifica¸c˜ao dos outliers . . . 14

1.2 Exemplo de motiva¸c˜ao . . . 15

1.3 Delineamento da disserta¸c˜ao . . . 17

2 Estat´ıstica espacial 18 2.1 Modelo Gaussiano . . . 18

2.2 Modelo de Mistura Espacial . . . 18

2.3 Classes de Covariˆancias . . . 20

2.3.1 Classe M`atern . . . 20

2.3.2 Classe Cauchy Generalizada . . . 22

2.4 Inferˆencia bayesiana . . . 23

2.4.1 Distribui¸c˜ao a Priori . . . 23

2.4.2 Distribui¸c˜ao a posteriori e distribui¸c˜ao preditiva . . . 25

3 Exemplo simulado e contamina¸c˜ao de dados 26 3.1 Estima¸c˜ao dos parˆametros . . . 27

3.1.1 Modelo Gaussiano - Classe M`atern . . . 28

3.1.2 Modelo T-Student multivariado . . . 30

3.1.3 Modelo GLG - Classe M`atern . . . 32

3.2 Comportamento dos λ’s no modelo GLG . . . 35

4 Fun¸c˜oes de influˆencia espaciais 37 4.1 Fun¸c˜ao de influˆencia . . . 37

(11)

4.2.1 Caso Gaussiano . . . 39

4.2.2 Caso T-Student Multivariado . . . 40

4.2.3 Caso GLG . . . 41

4.3 Exemplo Simulado I . . . 44

4.3.1 Caso Gaussiano . . . 44

4.4 Exemplo Simulado II . . . 47

5 An´alise de res´ıduos e detec¸c˜ao de outliers em modelos espaciais 52 5.1 An´alise bayesiana de res´ıduos para detec¸c˜ao de outliers . . . 53

5.1.1 Escolha do limiar t . . . 54

5.2 Detec¸c˜ao de outliers baseados na preditiva . . . 55

5.2.1 Concordˆancia Preditiva (PC) . . . 55

5.2.2 Ordenada preditiva condicional (CPO) . . . 55

5.2.3 Probabilidade mais conservadora . . . 56

5.2.4 Raz˜ao de densidades de Savage-Dickey . . . 57

5.3 Estudo Simulado . . . 58

6 P-valor bayesiano 72 6.1 Medidas de discrepˆancia . . . 73

6.2 Estudo Simulado . . . 76

7 Sele¸c˜ao de modelos 83 7.1 Fator de Bayes Usual . . . 83

7.2 Fator de Bayes fracion´ario . . . 85

7.3 Regra de Decis˜ao e Interpreta¸c˜ao . . . 87

7.4 Estudo Simulado . . . 88

8 Conclus˜oes e projetos futuros 93 A Condicionais Completas 95 A.1 Caso Gaussiano . . . 95

A.2 Caso T-Student Multivariado . . . 96

(12)

A.4 Amostrador para os λ’s . . . 98

(13)

Lista de Tabelas

3.1 Simula¸c˜ao dos dados (z) oriundos de uma distribui¸c˜ao normal multivariada com seus res-pectivos parˆametros (σ2, µ, φ, κ) . . . . 26

3.2 Contamina¸c˜ao dos dados para cada cen´ario . . . 27 3.3 Mediana a posteriori e quantis de 2,5% e 97,5% para os parˆametros do modelo gaussiano

no Cen´ario 1 . . . 28 3.4 Mediana a posteriori e quantis de 2,5% e 97,5% para os parˆametros do modelo t student

multivariado para o Cen´ario 1. . . 30 3.5 Mediana a posteriori e quantis de 2,5% e 97,5% para os parˆametros do modelo GLG para

o Cen´ario 1. . . 33

4.1 Parˆametros fixados para o c´alculo da curva de influˆencia para as duas fun¸c˜oes de covariˆancia 45 4.2 Valores da curtose como uma fun¸c˜ao do parˆametro respons´avel pelo comportamento da

cauda ν do modelo GLG e comparados com os graus de liberdade νts da T-student. . . . 47

5.1 Tabela dos res´ıduos padronizados com respectivas probabilidades a posteriori pi(|ri| >

t|z) no Cen´ario 1 para os trˆes modelos propostos. Probabilidades a posteriori grandes representam presen¸ca de outliers na amostra. . . 62 5.2 Tabela dos res´ıduos padronizados com respectivas probabilidades a posteriori pi(|ri| >

t|z) no Cen´ario 2 para os trˆes modelos propostos. Probabilidades a posteriori grandes representam presen¸ca de outliers na amostra. . . 63 5.3 Tabela dos res´ıduos padronizados com respectivas probabilidades a posteriori pi(|ri| >

t|z), no Cen´ario 3 para os trˆes modelos propostos. Probabilidades a posteriori grandes representam presen¸ca de outliers na amostra. . . 64 5.4 Variˆancia relativa a posteriori para algumas observa¸c˜oes suspeitas como outliers no modelo

GLG. Observa¸c˜oes classificadas como outliers, apresentam variˆancia relativa maiores que as demais. . . 64 5.5 Tabela das probabilidades m´ultiplas a posteriori pij = p(|ri| > t3 e |rj| > t3|z) e

cor-rela¸c˜ao a posteriori ρij entre ri e rj, para cada modelo no Cen´ario 2. Probabilidades

m´ultipla residuais a posteriori grandes, representam outliers na amostra. . . 65 5.6 Tabela das probabilidades m´ultiplas a posteriori pij = p(|ri| > t3 e |rj| > t3|z) e

cor-rela¸c˜ao a posteriori ρij entre ri e rj, para cada modelo no Cen´ario 3. Probabilidades

(14)

5.7 C´alculo do pci,cpoi, CP Opi e M cP para algumas observa¸c˜oes - observa¸c˜oes destacadas

em negrito representam observa¸c˜oes contaminadas. Probabilidades pr´oximas de zero s˜ao classificadas como outliers . . . 69 5.8 Densidade de Savage-Dickey para o modelo GLG no Cen´ario 2 e 3 em favor de λi para

algumas observa¸c˜oes selecionadas. Observa¸c˜oes em negrito representam observa¸c˜oes con-taminadas classificando-as como outliers. . . 70

6.1 P-valor preditivo a posteriori (ppp) para os trˆes modelos propostos em seus respectivos cen´arios de acordo com as discrepˆancias (A), (A∗), (B) e (F) propostas no estudo. Proba-bilidades pr´oximas de zero indicam a n˜ao adequa¸c˜ao do modelo aos dados. . . 77

7.1 Calibragem do fator de Bayes segundo Jeffreys [1961]. . . 87 7.2 Calibragem do fator de Bayes na escala logar´ıtmica segundo Kass and Raftery [1995]. . . 88 7.3 Conclus˜ao final para escolha do modelo. . . 88 7.4 Propor¸c˜ao do 2 log do fator de Bayes usual B(z) do modelo gaussiano versus modelo TS. 89 7.5 Propor¸c˜ao do 2 log do fator de Bayes Usual B(z) do modelo gaussiano versus modelo GLG. 89 7.6 Contamina¸c˜ao de uma ´unica observa¸c˜ao classificada como outlier para 2 Log do fator de

Bayes Usual - modelo gaussiano versus modelo GLG. . . 90 7.7 Contamina¸c˜ao de uma ´unica observa¸c˜ao classificada como outlier para 2 Log do fator de

Bayes fracion´ario - modelo gaussiano versus modelo GLG, utilizando as constantes b. . . . 91 7.8 Propo¸c˜ao do 2log do fator de Bayes fracion´ario Bb(z) do modelo G versus modelo GLG,

de acordo com a constante b utilizada. . . 92

(15)

Lista de Figuras

1.1 Densidade a posteriori de µ dado valores de z (i) Caso t-student com ν = 5 e (ii) Caso Normal . . . 16

2.1 Fun¸c˜oes de correla¸c˜ao M`atern com seus respectivos valores de κ e φ. . . 21 2.2 Realiza¸c˜ao de uma fun¸c˜ao aleat´oria gaussiana para a fun¸c˜ao de covariˆancia Mat`ern com

parˆametros θ = (φ, κ) . . . 22 2.3 Fun¸c˜ao de correla¸c˜ao da classe Cauchy . . . 22

3.1 Localiza¸c˜ao espacial de cada observa¸c˜ao de acordo com respectivo cen´ario. Os pontos fixados com ∗ na cor vermelha representam os dados contaminados. O gr´afico (i) representa o Cen´ario 1, (ii) Cen´ario 2 e (iii) Cen´ario 3. . . 27 3.2 Convergˆencia das cadeias, histograma, m´edia e autocorrela¸cao para os respectivos parˆ

a-metros do modelo gaussiano. A reta tracejada de cor vermelha no histograma representa o valor verdadeiro, e a reta completa de verde representa a m´edia a posteriori. . . 29 3.3 Convergˆencia das cadeias, histograma, m´edia e autocorrela¸cao para os respectivos parˆ

a-metros do modelo t-student multivariado. A reta tracejada na cor verde no histograma representa o valor verdadeiro, e a reta completa na cor vermelha representa a m´edia a posteriori. . . 32 3.4 Convergˆencia das cadeias, histograma, m´edia e autocorrela¸c˜ao para os respectivos parˆ

a-metros do modelo GLG. A reta tracejada na cor verde no histograma representa o valor verdadeiro, e a reta completa na cor vermelha representa a m´edia a posteriori. . . 35 3.5 Comportamento dos λ’s em cada cen´ario. Observa¸c˜oes contaminadas s˜ao destacadas em

verde e apresentam variˆancia relativa maior que as demais. . . 36

4.1 (i) Fun¸c˜oes de Densidade e (ii) Fun¸c˜oes de Influˆencia para ν = 1 . . . 38 4.2 Fun¸c˜ao de influˆencia da distribui¸c˜ao t-student para respectivos graus de liberdade. A linha

tracejada na cor vermelha representa a fun¸c˜ao de influˆencia para distribui¸c˜ao normal. . . 39 4.3 Fun¸cao de Influˆencia univariada para o modelo gaussiano com z1para fun¸c˜ao de covariˆancia

exponencial, para valores de φ. . . 45 4.4 Fun¸c˜oes de Influˆencia univariada para procesos gaussiano e respectivas fun¸c˜oes de covariˆancia 46

(16)

4.5 Mapa de influˆencia para os processos Gaussiano, T-Student Multivariado (com νT S =

203 graus de liberdade) e GLG (ν = 0, 01 respons´avel pelo comportamento da cauda), alternando o valor do alcance. . . 49 4.6 Mapa de influˆencia para os processos Gaussiano, T-Student Multivariado (com νT S = 5

graus de liberdade) e GLG (ν = 1 respons´avel pelo comportamento da cauda), alternando o valor do alcance. . . 50

5.1 Box-Plots das distribui¸c˜oes a posteriori dos res´ıduos para as 30 observa¸c˜oes nos modelos (i) Gaussiano, (ii) T-Student Multivariado e (iii)GLG. As linhas pontilhadas representam o intervalo (-2,2) para o caso gaussiano e as caixas de cor verde (pontos acima ou abaixo do intervalo) representam os pontos contaminados em cada cen´ario. . . 60 5.2 Densidades preditivas para cada observa¸c˜ao dos modelos propostos para o Cen´ario 2 onde

a linha tracejada representa o dado observado zobs

i , de acordo com os resultados obtidos

de pci. . . 66

5.3 Densidades preditivas para cada observa¸c˜ao dos modelos propostos para o Cen´ario 3 onde a linha tracejada representa o dado observado zobs

i , de acordo com os resultados obtidos

de pci. . . 67

6.1 Propor¸c˜ao dos pontos acima da reta para atrav´es do c´alculo do p-valor baseado na medida de discrepˆancia (A) na primeira linha e (A∗) segunda linha para o modelo gaussiano e respectivos cen´arios. . . 78 6.2 Histograma e gr´afico de dispers˜ao para a medida de discrepˆancia (A) para os modelos

propostos em seus respectivos cen´arios. A reta vermelha em cada histograma representa o valor observado. . . 79 6.3 Histograma e gr´afico de dispers˜ao para a medida de discrepˆancia (A∗) para os modelos

propostos em seus respectivos cen´arios. A reta vermelha em cada histograma representa o valor observado. . . 80 6.4 Histograma e gr´afico de dispers˜ao para a medida de discrepˆancia (B) para os modelos

propostos em seus respectivos cen´arios. A reta vermelha em cada histograma representa o valor observado. . . 81 6.5 Histograma e gr´afico de dispers˜ao para a medida de discrepˆancia (F ) para os modelos

propostos em seus respectivos cen´arios. A reta vermelha em cada histograma representa o valor observado. . . 82

7.1 Densidades para os modelos G, T-Student e GLG,para observa¸c˜oes n˜ao contaminadas, tal que `max− `t∼ Gamma(α, 1) . . . 89

7.2 Gr´aficos do 2log(F BU ) em favor do modelo gaussiano versus modelo GLG , utilizando o estimador Shifted Gamma, quando observa¸c˜ao 15 ´e n˜ao contaminada e contaminada. . . . 91

(17)

13

1 Introdu¸

ao

Dados utilizados na an´alise estat´ıstica comumente apresentam algum tipo de referˆencia espa¸co-temporal. Quando incorporado a dimens˜ao espa¸co-temporal, ´e frequente a presen¸ca de observa¸c˜oes at´ıpicas, o que pode causar algum tipo de vi´es na modelagem dos dados.

Considere interesse em modelar algum fenˆomeno no espa¸co como um processo estoc´astico

{Z(s) : s ∈ D} (1.1)

onde s varia continuamente em D e D representa o conjunto de todas as localiza¸c˜oes s permitindo previs˜ao para qualquer ponto no espa¸co, tal que D ⊆ <d. Para qualquer cole¸c˜ao de localiza¸c˜oes s1, . . . , sn com

cada si ∈ <2 ´e assumido que a distribui¸c˜ao de Z = {Z(s1), . . . , Z(sn)} ´e uma Normal Multivariada

com m´edia µ = (µ(s1), . . . , µ(sn)) e matriz de covariˆancia Σ com elementos Σij = Cov {Z(si); Z(sj)}.

Usualmente considera-se localiza¸c˜ao espacial s de dimens˜ao dois, ou seja, utiliza-se latitude e longitude. A estrutura de covariˆancia utilizada para os modelos propostos no presente estudo s˜ao v´alidas em <d e sua validade depende da escolha da fun¸ao de covariˆancia adotada. Adotaremos trˆes fun¸oes de

covariˆancia, da classe M`atern, a Exponencial (como um caso especial da M`atern) e a Cauchy Generalizada. Estas estruturas s˜ao v´alidas em qualquer n´umeros de dimens˜oes segundo Stein [1999].

Se estamos interessados em modelar algum fenˆonomeno espacial, como por exemplo, chuva de uma determinada regi˜ao, algumas localiza¸c˜oes podem apresentar maior variabilidade comparada as outras localiza¸c˜oes, vide que fenˆomenos naturais frequentemente apresentam dados fora do normal.

Modelos baseados na gaussianidade n˜ao possuem um bom desempenho se o conjunto de dados apresenta outliers, dados extremos ou regi˜oes com maior variabilidade observacional. Desta forma, modelos n˜ao gaussianos s˜ao prefer´ıveis para tratar e acomodar outliers, j´a que possuem caudas mais pesadas e s˜ao capazes de acomodar associa¸c˜ao espacial de forma a explicar melhor o comportamento dos dados de maneira mais realista.

Recentemente na literatura, foram desenvolvidos alguns tipos de modelos n˜ao-gaussianos para processos espaciais, como De Oliveira and Short [1997] que utiliza transforma¸c˜oes n˜ao lineares de campos amostrais, para acomoda¸c˜ao de outliers moderados. J´a Palacios and Steel [2006] propuseram um modelo geoestat´ıstico para acomodar a n˜ao gaussianidade, via misturas de escala, modelando somente no espa¸co. Fonseca and Steel [2011] abordaram o uso de misturas em fun¸c˜oes de covariˆancias no espa¸co e no tempo.

Palacios and Steel [2006] mostraram ainda que embora o processo T-student seja um modelo com caudas mais pesadas que o da Normal, ele n˜ao possui a flexibilidade necess´aria para modelar dados georeferenciados, pois n˜ao ´e capaz de capturar estrutura espacial. Outros autores sugerem ent˜ao o modelo de mistura GLG (no inglˆes Gaussian Log-Gaussian) o qual ´e baseado em um processo de mistura

(18)

log-gaussiano, permitindo a modelagem em regi˜oes com maior variˆancia. Este processo estoc´astico nos permite identificar e acomodar observa¸c˜oes consideradas outliers via mistura de escalas.

Com a finalidade de propor t´ecnicas de diagn´osticos em modelos espaciais, utilizaremos trˆes processos ao longo deste trabalho, o Gaussiano (G), o T-Student multivariado (TS) e o Gaussian Log Gaussian (GLG),

O objetivo deste trabalho ´e estudar medidas de bondade do ajuste, an´alise de res´ıduos e compara¸c˜ao de modelos em modelos n˜ao gaussianos para processos que variam de forma cont´ınua no espa¸co. O principal interesse ´e estudar a influˆencia do outlier na estima¸c˜ao do parˆametro de interesse e compara¸c˜ao de modelo. Por exemplo, O’Hagan [1995] diz que um ´unico outlier pode dominar o c´alculo e produzir um fator de Bayes totalmente enganoso. Em geral, algumas observa¸c˜oes podem ser altamente influentes para a estima¸c˜ao dos parˆametros de um modelo mas de outro modelo n˜ao.

Para isso iremos abordar os seguintes temas num contexto de modelos espaciais:

1. Utiliza¸c˜ao de fun¸c˜oes de influˆencia, com objetivo de ver o qu˜ao uma observa¸c˜ao classificada como outlier influˆencia na estima¸c˜ao do parˆametro de interesse. Essa t´ecnica baseia-se na abordagem de West [1984] e ´e generalizada para o contexto espacial.

2. Adota-se medidas de bondade de ajuste para sele¸c˜ao e compara¸c˜ao de modelos mais robustos, atrav´es de testes de hip´oteses bayesiano, como o fator de Bayes usual (Kass and Raftery [1995]) e fator de Bayes fracion´ario (O’Hagan [1995]), na cren¸ca de que o fator de Bayes fracional fornece uma forma de reduzir a sensiblidade do fator de Bayes usual perante os outliers. O p-valor bayesiano, baseado na distribui¸c˜ao preditiva tamb´em ´e utilizado para ver o qu˜ao adequado pode ser o modelo na presen¸ca de observa¸c˜oes discrepantes.

3. An´alises de res´ıduos bayesianos tamb´em s˜ao estudados, como descrito em Chaloner and Brant [1988] para detec¸c˜ao de outliers. Os res´ıduos usuais utilizados em an´alise de regress˜ao s˜ao aplicados no contexto espacial para detec¸c˜ao de outliers. Al´em disso, probabilidades a posteriori dos res´ıduos tamb´em s˜ao usadas para detectar outlier

4. M´etodos de detec¸c˜ao baseados na distribui¸c˜ao preditiva s˜ao estudados, como a concordˆancia pre-ditiva (pc) proposto por Gelfand [1996], o c´alculo da preditiva condicional ordinal Gelfand [1996] e uma medida de classifica¸c˜ao de outlier mais conservadora. O teste de Savage-Dickey, ´e utilizado para o modelo GLG como um outro tipo de diagn´ostico para detec¸c˜ao de outliers.

1.1

Estrutura e classifica¸

ao dos outliers

Define-se um outlier como uma observa¸c˜ao at´ıpica, ou seja, que apresenta um grande afastamento das demais observa¸c˜oes do conjunto amostral. Em estat´ıstica, a existˆencia dessas observa¸c˜oes podem levar a m´a interpreta¸c˜ao dos resultados aplicados em toda a amostra.

´

E de extrema importˆancia saber como lidar com tal tipo de observa¸c˜ao, visto ser um problema frequente em estat´ıstica. Diversos autores como A. and L.R [2011] mencionam alguns pontos relevantes

(19)

e citam alternativas j´a aplicadas na literatura para solucionar este tipo de problema.

Uma das t´ecnicas sugeridas na literatura ´e a decis˜ao da rejei¸c˜ao ou n˜ao dessa observa¸c˜ao, tratando com um peso igual as demais observa¸c˜oes presentes, com o uso de distribui¸c˜oes mais prop´ı-cias para o tratamento desse dado. Em nosso estudo, distribui¸c˜oes com caudas mais pesadas s˜ao mais favor´aveis para tratar observa¸c˜oes que apresentam comportamentos diferentes das demais na amostra.

O matem´atico deFinetti [1961] mostrou como a rejei¸c˜ao de outliers poderia ocorrer natu-ralmente no contexto bayesiano. De acordo com O’Hagan [1979], deFinetti [1961] descreveu como a distribui¸c˜ao a posteriori, dependendo sempre dos dados totais de forma que um modelo adequado seria menos influenciado por valores at´ıpicos. Em particular, Neyman and Scott [1971] designaram que h´a situa¸c˜oes em que os outliers n˜ao devem ser tratados apenas como observa¸c˜oes discrepantes, mas como uma caracter´ıstica natural do processo de gera¸c˜ao de dados.

Neyman and Scott [1971] introduziram a classifica¸c˜ao de dois termos: outlier-prone, distri-bui¸c˜oes inclinada a valores extremos e outlier resistant, distribui¸c˜oes que resistem a valores at´ıpicos. Tais termos s˜ao inseridos em tipos de distribui¸c˜oes diferentes, como por exemplo, distribui¸c˜oes normais s˜ao classificadas como outlier resistant e distribui¸c˜oes t-student s˜ao classificadas como outlier-prone .

A literatura sugere m´etodos bayesianos para resolver esse tipo de problema, atrav´es de um modo autom´atico, sendo uma das alternativas o uso de distribui¸c˜oes com caudas pesadas. Uma forma para gera¸c˜ao de tal tipo de distribui¸c˜ao ´e realizada via de misturas de escalas da distribui¸c˜ao Normal como descrito em West [1984], A. and L.R [2011],Choy and Smith [1997] e Johnson and Geisser [1983].

1.2

Exemplo de motiva¸

ao

O exemplo apresentado a seguir ´e exposto em A. and L.R [2011] sob o enfoque bayesiano atrav´es da modelagem de distribui¸c˜ao com caudas pesadas via mistura de escalas, com intuito de tratar observa¸c˜oes extremas presentes no conjunto de dados.

Seja uma amostra contendo 6 observa¸c˜oes, y = (1.5, 2.6, 0.3, 0.9, 2.2, 25.5), onde cada ob-serva¸c˜ao yi tem distribui¸c˜ao yi ∼ tν(µ, 1) independentes. Observe que a ´ultima observa¸c˜ao parece ser

um caso diferente das demais e nos questiona como trat´a-la quando comparada as demais observa¸c˜oes restantes. Considere a distribui¸c˜ao t-student com densidade:

f (yi| µ, ν) ∝  1 +(y − µ) 2 ν − (ν+1) 2

(20)

log f (y | µ, ν) = log n Y i=1 f (yi| µ, ν) = n X i=1 log Γ ν + 1 2  − n X i=1 log Γν 2  +1 2log  1 πν  −(ν + 1) 2 n X i=1 log  1 +(yi− µ) 2 ν 

Considera-se uma priori uniforme para µ. A sexta observa¸c˜ao pode ser denotada por z e uma distribui¸c˜ao a posteriori de µ|y e z → ∞.

A proposta ´e mostrar graficamente pelas curvas de densidade a posteriori de µ que se alte-rarmos o valor de z, sendo z uma observa¸c˜ao da amostra y, a curva ir´a se mover suavemente, esbo¸cando uma n˜ao influˆencia na estima¸c˜ao do parˆametro µ.

Podemos comparar o caso da distribui¸c˜ao t com a distribui¸c˜ao Normal(µ, 1), novamente considerando uma priori uniforme para µ. A fun¸c˜ao de log-verossimilhan¸ca da Normal ´e dada por

logf (y | µ) = n X i=1 log 1 2π  −1 2 n X i=1 (yi− µ)2 −1 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 T−Student(ν, µ, 1) µ f z=2 z=10 z=25.5 z=200 −1 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 Normal(µ, 1) µ f z=2 z=5 z=10 z=20 (i) (ii)

Figura 1.1: Densidade a posteriori de µ dado valores de z (i) Caso t-student com ν = 5 e (ii) Caso Normal

Em rela¸c˜ao a distribui¸c˜ao N ormal(µ, 1) Figura (1.1) (ii), podemos observar que a altera¸c˜ao e o aumento do valor da sexta observa¸c˜ao (z) faz com que a curva se mova para a direita de forma significativa indicando uma forte influˆencia na estima¸c˜ao de µ. Por outro lado, isso n˜ao ocorre com a distribui¸c˜ao t-student. Essa mudan¸ca suave nas curvas ´e uma caracter´ıstica natural da distribui¸c˜ao t, como mostrado em Figura (1.1) (i). Baseado neste resultado, podemos concluir que distribui¸c˜oes com caudas mais pesadas, relativamente se ajustam melhor a conjuntos de dados com observa¸c˜oes aberrantes, indicando menor influˆencia na estima¸c˜ao do parˆametro de interesse. Assim, de fato, uma melhor maneira de modelar um banco dados com tais conflitos ´e atrav´es do uso de distribui¸c˜oes com caudas pesadas, na cren¸ca de que isso ir´a fornecer um comportamento mais robusto na distribui¸c˜ao a posteriori em resposta aos outliers.

(21)

Acredita-se que essa influˆencia de observa¸c˜oes at´ıpicas seja tamb´em importante num contexto espacial, onde observa¸c˜oes tendem a ser correlacionadas espacialmente. Esse tema ser´a abordado nesta disserta¸c˜ao.

1.3

Delineamento da disserta¸

ao

A disserta¸c˜ao est´a organizada da seguinte forma. No Cap´ıtulo 2, s˜ao apresentados conceitos de modelagem espacial, como por exemplo estacionariedade. Tamb´em s˜ao apresentados os trˆes processos espaciais que ser˜ao comparados ao longo do estudo, gaussiano, T-student multivarido e GLG, acrescentando suas caracter´ısticas, vantagens e desvantagens. A escolha das fun¸c˜oes de covariˆancia utilizadas no contexto espacial tamb´em ´e exposta, bem como a utiliza¸c˜ao da inferˆencia bayesiana para estes modelos e para as m´etodos adotados nos cap´ıtulos seguintes.

No Cap´ıtulo 3, ´e realizado a simula¸c˜ao de um pequeno conjunto de dados, oriundos de uma normal multivariada. Os dados s˜ao contaminados em cen´arios - nenhum, pouco, moderados outliers. Em particular, estamos interessados em utilizar distribui¸c˜oes com caudas mais pesadas comparadas as da normal atrav´es de mistura de escalas para acomodar a n˜ao gaussianidade.

No Cap´ıtulo 4, a fun¸c˜ao de influˆencia ´e estendida para o caso espacial, com a finalidade de observar o qu˜ao influente pode ser uma observa¸c˜ao classificada ou n˜ao como discrepante na estima¸c˜ao de um parˆametro de interesse. Mapas para as fun¸c˜oes de influˆencia dos processo s˜ao expostos para os trˆes modelos.

No Cap´ıtulo 5, s˜ao estudados alguns m´etodos de diagn´osticos bem estabelecidos na literatura para detec¸c˜ao de outliers, sendo estendido para o contexto espacial. A an´alise de res´ıduo bayesiana de forma padronizada ´e descrito para os trˆes modelos espaciais considerados (Normal, T-Student e GLG). M´etodos de detec¸c˜ao de outliers baseados na preditiva e teste de Savage-Dickey tamb´em s˜ao estudados. Al´em disso, ´e proposto por mim dois m´etodos para detectar outliers baseados na preditiva: o p-valor para a condicional preditivia ordinal, que pode ser visto como um p-valor de valida¸c˜ao cruzada e um p-valor mais conservador na escolha de outliers.

No Cap´ıtulo 6, ´e apresentado o p-valor bayesiano para cada cen´ario proposto no Cap´ıtulo 3 com respectivos modelos, atrav´es de medidas de discrepˆancias que s˜ao utilizadas como teste estat´ıstico na inferˆencia cl´assica.

J´a no Cap´ıtulo 7, ´e estudado a compara¸c˜ao e sele¸c˜ao de modelos atrav´es do fator de Bayes usual e fator de Bayes fracional para a escolha de um melhor modelo que se adeque aos dados.

Por fim, no Cap´ıtulo 8, ´e feito um breve resumo sobre os resultados da disserta¸c˜ao e poss´ıveis trabalhos futuros.

(22)

18

2 Estat´ıstica espacial

2.1

Modelo Gaussiano

Os modelos para dados referenciados no espa¸co e no tempo s˜ao recorrentemente utilizados em v´arias ´areas tais como, meio ambiente, dados meterol´ogicos, geol´ogicos e sa´ude. Neste contexto, podemos definir o processo como descrito em (1.1) e

Z ∼ N ormaln(µ, σ2Σ(θ)) (2.1)

Segundo Diggle and Ribeiro [2007], processos estoc´asticos do tipo gaussianos s˜ao comumente utilizados na pr´atica em modelos para dados geoestat´ısticos, ou seja, dados que assumem valores reais para cada localiza¸c˜ao s ∈ D ⊆ <d podendo capturar um comportamento espacial de acordo com a

especifica¸c˜ao de sua estrutura de correla¸c˜ao. Tal classe ´e matematicamente conveniente, mas a suposi¸c˜ao ´

e muito restritiva e os dados podem apresentar muitas vezes caracter´ısticas n˜ao-gaussianas (Fonseca and Steel [2011]).

A fun¸c˜ao de covariˆancia para o processo Z(s) ´e escrita da forma

C(s, s + us) = Cov {Z(s); Z(s + us)} (2.2)

onde C ´e uma fun¸c˜ao de covariˆancia v´alida em <d. Por exemplo, a fun¸ao de covariˆancia para o modelo

M`atern ´e v´alida em qualquer n´umero de dimens˜oes (Stein [1999]) e ´e utilizada para processos puramente espaciais (ver em Banerjee et al. [2004], Palacios and Steel [2006]). A seguir, iremos tamb´em considerar alguns conceitos como estacionariedade e isotropia.

O processo {Z(s) : s ∈ D} ´e dito ser estacion´ario, se sua esperan¸ca n˜ao depende dos pontos de localiza¸c˜ao, ou seja, se µ(s) = µ, ´e uma constante para s e C(s, s + us) = K(us), onde us representa

o vetor de diferen¸ca.

O processo estacion´ario ´e isotr´opico se C(s, s + us) = K(||us||) onde || · || denota a distˆancia

euclidiana, ou seja, a covariˆancia entre os valores de Z(s) para qualquer duas localiza¸c˜oes depende somente da distˆancia entre eles.

2.2

Modelo de Mistura Espacial

Frequentemente dados apresentam algum tipo de observa¸c˜ao at´ıpica. ´E preciso saber lidar com esse tipo de dado quando consideramos um processo no espa¸co, pois usualmente este tipo de dado pertencem a

(23)

sub-regi˜oes que apresentam variˆancias observacionais grandes. Com isto, a distribui¸c˜ao gaussiana torna-se inadequada para este tipo de problema. ´E considerado processos n˜ao-gaussianos, constru´ıdo atrav´es de modelos de mistura espacial com a finalidade de explicar o comportamento de caudas mais pesadas.

´

E de nosso interesse enfatizar a importˆancia dos modelos n˜ao-gaussianos para processos que variam continuamente no espa¸co.

Seja Z um processo escot´astico definido para localiza¸c˜oes s em alguma regi˜ao espacial D ⊂ <d. Podemos escrever o modelo como:

Z(s) = xT(s)β + σ Z(s)e

λ1/2(s)+ τ ω(s) (2.3)

onde xT(s) representa as covari´aveis do modelo com vetor de coeficientes β ∈ <k desconhecidos; eZ(s)

´

e um processo gaussiano definido em s ∈ D, com um vetor de m´edias zero, e matriz de correla¸c˜ao que depende da distˆancia entre os pontos dada por Σ(θ), representando uma matriz de correla¸cao n × n, ou seja, ´e a fun¸c˜ao de correla¸c˜ao parametrizada pelo vetor θ = (φ, κ)T, tal que κ representa um parˆametro

de suaviza¸c˜ao e φ o parˆametro de decaimento. Um efeito pepita (do inglˆes nugget efect ) dado por ω(s) iid com m´edia zero e matriz de covariˆancia τ2In, ´e inserido no modelo afim de permitir erros de

medida e varia¸c˜ao de pequena escala. Note que se τ2= 0 haver´a a ausˆencia do efeito pepita no processo {Z(s) : s ∈ D}.

Se definimos λ(s) 6= 1, teremos um processo n˜ao gaussiano, onde a ´unica diferen¸ca ´e que neste caso temos um processo de mistura denotado por λ(s), tal que o processo {λ(s) : s ∈ D} ´e um processo de mistura positivo espacialmente correlacionado, isto ´e, uma fun¸c˜ao ´unica da distˆancia us,

entre si e sj, do qual independe de Z(s) e do efeito pepita. Abaixo, sao apresentados dois modelos n˜ao

gaussianos:

A) O caso em que a distribui¸cao de mistura λ(s) = λ e λ|ν ∼ Gama ν22 marginalizando z com respeito a λ temos um processo T-student multivariado dado por

z ∼ t − studentn(µ, ν, σ2Σ(θ) + τ2In) (2.4)

onde ν representa os graus de liberdade e o c´alculo da marginaliza¸c˜ao pode ser visto com maiores detalhes no Apˆendice B. Tamb´em podemos escrevˆe-lo como

z|β, σ2, θ, λ ∼ N ormaln(Xβ, σ2λ−1Σ(θ) + τ2In) (2.5)

B) Palacios and Steel [2006] prop˜oem a classe de modelos GLG, permitindo a modelagem em regi˜oes com maior variˆancia. A inser¸c˜ao da vari´avel λ afeta a variˆancia do processo permitindo que o mesmo se torne mais flex´ıvel, real´ıstico e acomode heterocedasticidade espacial.

Em particular, uma vari´avel de mistura λ(s) ∈ <+ ´e atribu´ıda para cada observa¸ao da amostra e

(24)

z|β, σ2, τ2, θ, Λ ∼ N ormaln



Xβ, σ2(Λ−1/2Σ(θ)Λ−1/2) + τ2In



(2.6) tal que Λ = diag(λ1, . . . , λn). Ao longo deste estudo n˜ao usaremos o incremento do efeito pepita,

considerando τ2= 0. Integrando em λ temos um processo com caudas mais pesadas que a normal.

Queremos estar na situa¸c˜ao em que poder´ıamos acomodar esses outliers, o que pode ser realizado via mistura de vari´aveis para cada localiza¸c˜ao. De forma geral podemos definir a distribui¸c˜ao de mistura adotado em Palacios and Steel [2006] como

ln(λ) = (ln(λ1), ln(λ2)), . . . , ln(λn)))T ∼ N ormaln  −ν 21, νΣ(θ)  (2.7)

onde 1 representa um vetor de un’s, correlacionamos os elementos de ln(λ) atrav´es da mesma matriz de correla¸c˜ao como em eZ(s) e ν ∈ <+ ´e um parˆametro escalas introduzido na distribui¸c˜ao de ln(λ) e tais

valores perto de zero levam infla¸c˜ao da variˆancia.

Cada elemento da distribui¸c˜ao de λ(s) seguir´a uma Log-Normal com m´edia E(λ) = 1 e variˆancia V ar(λ) = eν− 1.

O grande diferencial desde modelo apresentado por Palacios and Steel [2006], ´e permitir que os parˆametros do qual estamos interessados sejam estimados de maneira mais adequada quando deparados com observa¸c˜oes conflitantes, pois este ´e capaz de acomodar heterocedasticidade espacial, devido a mistura de escala atribuida para cada localiza¸c˜ao, o que n˜ao acontece com o modelo gaussiano e T-student multivariado, pois estes n˜ao s˜ao capazes de capturar heterocedasticidade espacial, visto que o modelo gaussiano n˜ao apresenta nenhum parˆametro respons´avel pelo comportamento da cauda e no caso T-student multivariado embora tenhamos este parˆametro, ´e utilizado uma ´unica mistura de escala para todas as localiza¸c˜oes, e esta mistura n˜ao se torna adequada para acomoda¸c˜ao de observa¸c˜oes at´ıpicas.

2.3

Classes de Covariˆ

ancias

Dados geoestat´ısticos s˜ao comumente baseados na teoria de processos aleat´orios gaussianos e o principal elemento ´e a fun¸c˜ao de correla¸c˜ao. Se o campo ´e tamb´em isotr´opico, a fun¸c˜ao de correla¸c˜ao s´o depender´a da distˆancia u. Assim, algumas fun¸c˜oes de correla¸c˜ao s˜ao inclu´ıdas neste estudo.

2.3.1

Classe M`

atern

Uma forma muito comum do comportamento emp´ırico para a estrutura de covariˆancia estacion´aria ´e que a correla¸c˜ao entre Z(si) e Z(sj) decresce como a distˆancia u = ||si− sj|| cresce. ´E natural, portanto,

olhar para modelos cuja estrutura de correla¸c˜ao te´orica se comporta desta maneira. ´E esperado tamb´em que diferentes aplica¸c˜oes possam exibir diferentes graus de suaviza¸c˜ao no processo espacial Z(s).

A fam´ılia Mat´ern de fun¸c˜oes de correla¸c˜ao satisfaz essas duas determinantes. ´E uma fam´ılia de dois parˆametros desconhecidos, dado por

(25)

ρ(u) =2k−1Γ (κ) −1 u φ κ Kκ  u φ  , u ≥ 0, φ ≥ 0 (2.8)

onde Kκ(·) ´e a fun¸c˜ao de Bessel modificada de ordem κ, sendo que κ > 0 determina a suaviza¸c˜ao anal´ıtica

do processo Z(s) e 1/φ > 0 representa o parˆametro de alcance com as dimens˜oes da distˆancia, ou seja, a distˆancia no qual as observa¸c˜oes est˜ao espacialmente correlacionadas.

Note que, para κ = 0, 5, a fun¸c˜ao de correla¸c˜ao M´atern reduz-se a fun¸c˜ao de correla¸c˜ao exponencial, ρ(u) = exp−uφ . Por outro lado, quando κ → ∞, ρ(u) → exp

 −u

φ

2

, tamb´em ´e chamado de fun¸c˜ao correla¸c˜ao Gaussiana. A fun¸c˜ao de covariˆancia ´e dada por

C(u) = σ22k−1Γ (κ) −1 u φ κ Kκ  u φ  , u ≥ 0, φ ≥ 0 (2.9)

A classe M`atern ´e v´alida para qualquer n´umero de dimens˜oes segundo Stein [1999]. Podemos observar graficamente na figura (2.1) o que acontece quando mudamos os valores de φ e κ.

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 u ρ ( u ) k=0.5φ=0.25 k=1.5φ=0.16 k=2.5φ=0.13

Figura 2.1: Fun¸c˜oes de correla¸c˜ao M`atern com seus respectivos valores de κ e φ.

A figura abaixo representa a realiza¸c˜ao de fun¸c˜ao aleat´oria gaussiana com θ = (φ, κ), com processo mais suaves.

(26)

κ = 0, 5 κ = 1, 0 κ = 2, 0

Figura 2.2: Realiza¸c˜ao de uma fun¸c˜ao aleat´oria gaussiana para a fun¸c˜ao de covariˆancia Mat`ern com parˆametros θ = (φ, κ)

2.3.2

Classe Cauchy Generalizada

A fun¸c˜ao de covariˆancia ´e dada por

C(u) = σ2  1 + u φ κψ/κ , (2.10)

onde u ´e a distˆancia euclidiana, φ > 0, κ ∈ (0, 2] e ψ > 0. Quando κ = 2, esta classe ´e conhecida como modelo Cauchy. O parˆametro φ representa o decaimento, κ a suavia¸c˜ao do processo e ψ ´e respons´avel pela dependˆencia de longo alcance. Como na fun¸c˜ao Mat`ern esta fun¸c˜ao tamb´em ´e valida em todas as dimens˜oes, ver Gelfand and MacEachern [2005].

Uma das vantagens da utiliza¸c˜ao desta classe de covariˆancia ´e a flexibilidade, pois permite a modelagem de dependˆencia de mem´oria longa e tamb´em correla¸c˜ao de lags curtos e intermedi´arios. Se ψ ∈ (0, 1) ent˜ao processo ´e dito ter mem´oria longa.

0.0 0.2 0.4 0.6 0.8 1.0 0.5 0.6 0.7 0.8 0.9 1.0 u ρ ( u ) k=0.5φ=0.25 k=1.5φ=0.16 k=2.5φ=0.13

Figura 2.3: Fun¸c˜ao de correla¸c˜ao da classe Cauchy

(27)

2.4

Inferˆ

encia bayesiana

Nesta se¸c˜ao um procedimento inferencial ´e proposto seguindo o ponto de vista bayesiano. Para maiores detalhes sobre o m´etodo bayesiano ver Migon and Gamerman [1999].

Suponha que observamos z = (z1, . . . , zn), onde zi = z(si) para cada localiza¸c˜ao si, i =

1, . . . , n. Temos uma m´edia µ = β0+ β1lati+ β2longi e a matriz de covariˆancia expressa por Σ(θ), onde

θ = (φ, κ). Podemos escrever a verossimilhan¸ca para os respectivos modelos como:

I. Modelo Gaussiano: LG(Φ; z) = fNn(z|µ, σ2Σ(θ)), onde Φ = (β, σ2, θ)

II. Modelo T-Student Multivariado: LT S(Φ; z) = fT Sn (z|µ, ν, σ

2Σ(θ)) , onde Φ = (β, σ2, θ, ν)

III. Modelo GLG: LGLG(Φ; z) = fNn(z|µ, σ2Λ−1/2Σ(θ)Λ−1/2), onde Φ = (β, σ2, θ, λ, ν)

e fn

N(·|µ, Σ) denota uma Normal multivariada e fT Sn(·|µ, ν, Σ) ´e segue uma distribui¸c˜ao T-Student

mul-tivariada

2.4.1

Distribui¸

ao a Priori

A distribui¸c˜ao a priori nos d´a o conhecimento pr´evio a respeito do parˆametro do qual estamos interessados em estudar antes de observar um conjunto de dados. Elicitar prioris n˜ao ´e f´acil, pois temos que juntar conhecimentos que o pesquisador acredita que seja vi´avel transformando este conhecimento em uma distribui¸c˜ao de probabilidade.

Se temos algum conhecimento pr´evio do parˆametro de interesse, podemos utiliz´a-lo para espeficicar a distribui¸c˜ao a priori, caso contr´ario, precisamos recorrer a outros m´etodos, como por exemplo utilizar prioris conjugadas ou n˜ao informativas, procedendo uma an´alise bayesiana mais simples.

As prioris apresentadas a seguir foram baseadas no artigo de Palacios and Steel [2006] e Fonseca et al. [2008] no qual tentam induzir propriedades razo´aveis para um processo de elicita¸c˜ao mais cuidadoso.

• Distribui¸c˜ao a priori para Modelo Gaussiano

Para o modelo gaussiano, n˜ao teremos o incremento do efeito pepita (τ2 = 0), ou seja, os

locais de amostragem foram suficientemente pr´oximos para detectar a variabilidade espacial da vari´avel de estudo e o parˆametro de suaviza¸c˜ao κ ´e fixado. A distribui¸c˜ao a priori ser´a cont´ınua com uma fun¸c˜ao de densidade da forma

π(β, σ2, θ) = π(β)π(σ2)π(θ) (2.11)

Em sequˆencia ´e descrito a escolha segundo Palacios and Steel [2006] para as distribui¸c˜oes a priori no modelo gaussiano.

(28)

Priori para σ2: σ2∼ GamaInversa(a, b)

Priori para φ: φ ∼ Gama (1, c/med(us)), tal que med representa a mediana da distˆancia us.

• Distribui¸c˜ao a priori para Modelo T-Student Multivariado

Para o modelo t-student multivariado, n˜ao teremos o incremento do efeito pepita, ou seja, os locais de amostragem foram suficientemente pr´oximos para detectar a variabilidade espacial da vari´avel de estudo e o parˆametro de suaviza¸c˜ao κ ´e fixado. A distribui¸c˜ao a priori ser´a cont´ınua com uma fun¸c˜ao de densidade da forma

π(β, σ2, θ, ν) = π(β)π(σ2)π(θ)π(ν) (2.12)

Em sequˆencia ´e descrito a escolha segundo Palacios and Steel [2006] e Fonseca et al. [2008] para as distribui¸c˜oes a priori no modelo T-Student multivariado.

Priori para β: β ∼ Nn(0, c1In)

Priori para σ2: σ2∼ GamaInversa(a, b)

Priori para φ: φ ∼ Gama (1, c/med(us))

Priori para ν : π(ν) ∝ν+3ν 

1/2n

ψ0 ν2 − ψ0 ν+12  −ν(ν+1)2(ν+3)2

o1/2

, priori independente (Fonseca et al. [2008])

em que ψ0(a) = d ψ(a)da representa a fun¸c˜ao Trigama.

• Distribui¸c˜ao a priori para Modelo GLG

Para o modelo GLG, n˜ao teremos o incremento do efeito pepita, ou seja, os locais de amos-tragem foram suficientemente pr´oximos para detectar a variabilidade espacial da vari´avel de estudo e o parˆametro de suaviza¸c˜ao κ ´e fixado. A distribui¸c˜ao a priori ser´a cont´ınua com uma fun¸c˜ao de densidade da forma

π(β, σ2, θ, ν) = π(β)π(σ2)π(θ)π(ν) (2.13)

Em sequˆencia ´e descrito a escolha segundo Palacios and Steel [2006] para as distribui¸c˜oes a priori no modelo GLG.

Priori para β: β ∼ Nn(0, c1In)

Priori para σ2: σ2∼ GamaInversa(a, b)

Priori para ν: ν ∼ GIG(ζ, δ, ι) ou ν ∼ Gama(c2, c3)

Priori para φ: φ ∼ Gama (1, c4/med(us))

(29)

2.4.2

Distribui¸

ao a posteriori e distribui¸

ao preditiva

Dado a fun¸c˜ao de verossimilhan¸ca e a distribui¸c˜ao a priori para o vetor de parˆametros Φ, para qualquer inferˆencia e decis˜ao a respeito de Φ temos que encontrar a densidade a posteriori utilizando o teorema de Bayes sendo definida por

Teorema 2.4.1 (Distribui¸c˜ao a Posteriori). A distribui¸c˜ao a posteriori do vetor Φ ´e calculada atr´aves do Teorema de Bayes, da forma

p(Φ|z) = L(Φ; z)π(Φ)

R L(Φ; z)π(Φ)dΦ (2.14)

Para obter o denominador, ou seja, a distribui¸c˜ao preditiva para o modelo de interesse calcula-se

p(zrep|z) = Z

p(zrep|Φ)p(Φ|z)dΦ (2.15)

A equa¸c˜ao (2.15) ser´a bastante utilizada ao longo do trabalho, para o c´alculo das observa¸c˜oes futuras comparadas com os valores observados, verificar se uma observa¸c˜ao pode ser classificada como outlier, c´alculo do p-valor bayesiano para o modelo e tamb´em na aplica¸c˜ao do fator de Bayes (usual e fracion´ario).

Como a posteriori do vetor param´etrico Φ dificilmente possuiu uma forma an´alitica co-nhecida, recorremos a utiliza¸c˜ao de m´etodos de simula¸c˜ao estoc´astica via MCMC para obtermos uma aproxima¸c˜ao da distribui¸c˜ao a posteriori dos parˆametros. De forma mais espec´ıfica adotamos o m´etodo de Gibbs Sampler com passos de Metr´opolis-Hastings, para amostrar das condicionais completas. Para maiores detalhes destes m´etodos ver Gamerman [1997], Robert and Casella [1999].

O c´alculo das condicionais completas para os modelos propostos acima s˜ao expostas no Apˆendice A, bem como a constru¸c˜ao do amostrador para λ.

(30)

26

3 Exemplo simulado e contamina¸

ao de dados

Considere o caso em que Z(s) ´e um processo definido para localiza¸c˜oes s em alguma regi˜ao espacial D ∈ <d. Podemos definir o modelo como

Z(s) = x(s)Tβ + σ Z(s)e λ1/2(s)

O objetivo ´e mostrar a influˆencia das observa¸c˜oes discrepantes em um processo gaussiano, comparado com um processo n˜ao-gaussiano como descrito anteriormente, pois outliers podem ser definidos como observa¸c˜oes pertencentes a uma determinada sub-regi˜ao com variˆancia observacional grande.

Neste exemplo, foram simulados n = 30 pontos para latitute e longitude

Tabela 3.1: Simula¸c˜ao dos dados (z) oriundos de uma distribui¸c˜ao normal multivariada com seus respec-tivos parˆametros (σ2, µ, φ, κ)

7,466 7,435 5,980 5,643 8,486 7,478 7,633 6,607 8,135 6,174 5,352 6,247 7,192 7,538 8,549 7,817 6,770 5,347 5,668 6,998 7,209 7,481 4,573 7,703 7,218 5,854 7,922 7,168 8,169 7,940

Definimos o modelo como em (2.3) para (λ(s) = 1 e ausˆencia de efeito pepita), simulando z sendo oriundos de uma distribui¸c˜ao fN(µ, σ2Σ(θ)), tal que µ(s) = β0+ β1lati+ β2longi e matriz de

covariˆancia σ2Σ(θ) = Σ, e latitude (lat) e longitude (long) representam as covari´aveis do modelo. Esta

simula¸c˜ao foi divida em 3 cen´arios e apresentado na tabela (3.2)

Para simula¸c˜ao desses dados, fixamos valores iniciais para β0= 6, 716, β1= 2, 7, β2= −1, 808

- para o c´alculo da m´edia µ, σ = 1, φ = 0, 61, κ = 0, 5 – para o c´alculo da matriz de covariˆancia Σ, sendo os dois ´ultimos parˆametros da fun¸c˜ao da matriz de correla¸c˜ao M`atern, do vetor θ. A partir do dado verdadeiro (Cen´ario 1), foram contaminados os demais cen´arios. Gostar´ıamos de analisar como os dados se comportam na presen¸ca de outliers.

Segundo West [1984] modelos normais contaminados s˜ao ´uteis para caracterizar observa¸c˜oes discrepantes e mudan¸cas na estrutura de s´eries temporais em modelos lineares dinˆamicos. Utilizaremos a mesma ideia para an´alise de dados contaminados em um contexto espacial.

(31)

Tabela 3.2: Contamina¸c˜ao dos dados para cada cen´ario Cen´ario 1 Sem presen¸ca de outliers nos dados

Cen´ario 2 Com presen¸ca de fracos outliers: foram contaminados 3 pontos (observa¸c˜oes 1,6,20)

Cen´ario 3 Com presen¸ca de moderados outliers: foram contaminados 8 pontos (observa¸c˜oes 1,6,20,15,30,16,13,29)

As contamina¸c˜oes foram realizadas com intuito de investigar o comportamento de v´arios m´etodos de diagn´ostico na identifica¸c˜ao de observa¸c˜oes que seriam outliers. Para o Cen´ario 2, seleci-onamos 3 observa¸c˜oes aleatoriamente de tal forma que as observa¸c˜oes 1 e 20 foram contaminadas por adi¸c˜ao de um incremento aleat´orio utilizando uma U nif orme(1; 3, 5) vezes um desvio padr˜ao para cada observa¸c˜ao e a observa¸c˜ao 6 foi contaminada por adi¸c˜ao de um incremento aleat´orio U nif orme(1; 2, 5) vezes um desvio padr˜ao para todas as loca¸c˜oes espaciais, classificados como fracos outliers.

Da mesma forma, o Cen´ario 3, classificado como moderado outliers, as 8 observa¸c˜oes foram selecionadas aleatoriamente de forma que as observa¸c˜oes 1, 13, 15, 16, 20, 30 foram contaminadas por adi¸c˜ao de um incremento aleat´orio atrav´es da U nif orme(1; 3, 5), a observa¸c˜ao 6 adicionada por U nif orme(1; 2, 5) e a observa¸c˜ao 29 adicionando uma U nif orme(1; 6, 5) vezes um desvio padr˜ao para todas as localiza¸c˜oes espaciais. A Figura (3.1) mostra o mapa das contamina¸c˜oes em cada cen´ario.

long lat 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 long lat 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 long lat 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

(i) (ii) (iii)

Figura 3.1: Localiza¸c˜ao espacial de cada observa¸c˜ao de acordo com respectivo cen´ario. Os pontos fixados com ∗ na cor vermelha representam os dados contaminados. O gr´afico (i) representa o Cen´ario 1, (ii) Cen´ario 2 e (iii) Cen´ario 3.

3.1

Estima¸

ao dos parˆ

ametros

Nesta se¸c˜ao apresentaremos a estima¸c˜ao dos parˆametros para os trˆes processos propostos somente para os dados originais, ou seja, com ausˆencia de contamina¸c˜ao, com o intuito de verificar a convergˆencia do

(32)

vetor de parˆametros de cada processo.

3.1.1

Modelo Gaussiano - Classe M`

atern

Inicialmente iremos avaliar o modelo proposto utilizando os respectivos cen´arios, atrav´es dos dados simu-lados oriundos de uma Normal Multivariada com m´edia µ = β0+ β1lati+ β2longi e com estrutura de

covariˆancia da classe M`atern com κ = 0, 5 fixo. Os dados consistem em 30 loca¸c˜oes espaciais, com o vetor de parˆametros Φ = (µ, σ2, φ) . Foram utilizadas as mesmas distribui¸oes a priori propostas no Cap´ıtulo

2, onde os valores dos parˆametros de cada priori foram selecionados de tal forma que as distribui¸c˜oes a priori fossem vagas, ou seja, pouco informativas.

As amostras a posteriori s˜ao obtidas utilizando M = 50000 itera¸c˜oes ,um burn-in de 1000 e lag de 50 itera¸c˜oes. A convergˆencia dos parˆametros e histogramas a posteriori s˜ao mostradas nas figuras (3.2), com valor verdadeiro e a curva da priori. A tabela (3.3) mostra o resumo dos parˆametros a posteriori, com mediana e intervalo de credibilidade para o Cen´ario 1.

Tabela 3.3: Mediana a posteriori e quantis de 2,5% e 97,5% para os parˆametros do modelo gaussiano no Cen´ario 1

Parˆametro Mediana (2, 5%; 97, 5%) β0= 6, 716 6,543 (4, 685; 8, 512)

β1=2,700 2,328 (0, 344; 4, 739)

β2=-1,808 -1,358 (−3, 340; 0, 659)

σ2= 1, 0 1,001 (0, 941; 1, 068)

φ = 0, 61 0,588 (0, 327; 0, 935)

1Taxa de aceita¸ao para φ igual a 0,239

(33)

0 200 600 1000 4 6 8 10 β0 β0 Density 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0 200 600 1000 6.0 6.2 6.4 6.6 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação beta0 0 200 600 1000 0 2 4 6 β1 β1 Density −2 0 2 4 6 0.00 0.10 0.20 0.30 0 200 600 1000 2.5 3.0 3.5 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação beta1 0 200 600 1000 −5 −3 −1 0 1 2 β2 β2 Density −4 −2 0 2 0.00 0.10 0.20 0.30 0 200 600 1000 −1.6 −1.2 −0.8 −0.4 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação beta2 0 200 600 1000 0.90 1.00 1.10 σ2 σ2 Density 0.90 1.00 1.10 0 2 4 6 8 10 0 200 600 1000 1.000 1.010 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação sigma2 0 200 600 1000 0.2 0.4 0.6 0.8 1.0 1.2 φ φ Density 0.2 0.6 1.0 0.0 0.5 1.0 1.5 2.0 2.5 0 200 600 1000 0.55 0.65 0.75 0 5 10 20 30 0.0 0.4 0.8 Lag A CF autocorrelação phi

Figura 3.2: Convergˆencia das cadeias, histograma, m´edia e autocorrela¸cao para os respectivos parˆametros do modelo gaussiano. A reta tracejada de cor vermelha no histograma representa o valor verdadeiro, e a reta completa de verde representa a m´edia a posteriori.

(34)

3.1.2

Modelo T-Student multivariado

Como no modelo gaussiano, iremos fixar o valor de κ = 0, 5 para fun¸c˜ao de covariˆancia da classe M`atern, como um caso particular. Os dados consistem em 30 localiza¸c˜oes espaciais, com o vetor de parˆametros Φ = (µ, σ2, φ, ν) . Foram utilizadas as mesmas distribui¸oes a priori propostas no Cap´ıtulo 2, onde os

valores dos parˆametros de cada priori foram selecionados de tal forma que as distribui¸c˜oes a priori fossem vagas, ou seja, pouco informativas.

Amostras a posteriori s˜ao obtidas utilizando M = 50000 itera¸c˜oes, com um burn-in de 1000 e lag de 50 itera¸c˜oes. A convergˆencia da cadeia dos parˆametros s˜ao mostradas nas figuras , para o cen´ario 1. A tabela (3.4) mostra o resumo a posteriori de cada parˆametro para o Cen´ario 1.

Tabela 3.4: Mediana a posteriori e quantis de 2,5% e 97,5% para os parˆametros do modelo t student multivariado para o Cen´ario 1.

Parˆametro Mediana Intervalo de Credibilidade β0= 6, 716 7,000 (4, 681; 8, 614) β1=2,700 2,000 0, 223; 4, 493) β2=-1,808 -1,475 (−3, 424; 0, 612) σ2= 1, 0 1,003 (0, 940; 1; 070) φ = 0, 61 0,579 (0, 241; 1, 495) ν 7,721 (0, 0121; 39, 797)

1Taxa de aceita¸ao para φ igual a 0,260 2Taxa de aceita¸ao para ν igual a 0,358

(35)

0 200 600 1000 4 6 8 10 β0 β0 Density 2 4 6 8 10 0.0 0.1 0.2 0.3 0 200 600 1000 6.0 6.2 6.4 6.6 6.8 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação beta0 0 200 600 1000 −2 0 2 4 6 β1 β1 Density −2 0 2 4 6 0.00 0.10 0.20 0.30 0 200 600 1000 1.2 1.6 2.0 2.4 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação beta1 0 200 600 1000 −6 −4 −2 0 2 β2 β2 Density −6 −4 −2 0 2 0.00 0.10 0.20 0.30 0 200 600 1000 −1.6 −1.2 −0.8 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação beta2 0 200 600 1000 0.95 1.00 1.05 1.10 σ2 σ2 Density 0.90 1.00 1.10 0 2 4 6 8 10 12 0 200 600 1000 0.980 0.990 1.000 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação sigma2

(36)

0 200 600 1000 0.2 0.4 0.6 0.8 1.0 φ φ Density 0.2 0.6 1.0 0.0 1.0 2.0 3.0 0 200 600 1000 0.52 0.56 0.60 0.64 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação phi 0 200 600 1000 0 20 40 60 80 Index n u.sample nu.sample Frequency 0 20 40 60 80 0 100 300 500 0 200 600 1000 5 10 15 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação nu

Figura 3.3: Convergˆencia das cadeias, histograma, m´edia e autocorrela¸cao para os respectivos parˆametros do modelo t-student multivariado. A reta tracejada na cor verde no histograma representa o valor verdadeiro, e a reta completa na cor vermelha representa a m´edia a posteriori.

3.1.3

Modelo GLG - Classe M`

atern

Fixa-se novamente o valor do parˆametro de suavia¸c˜ao κ = 0, 5 para fun¸c˜ao de covariˆancia da classe M`atern, como um caso particular. Os dados consistem em 30 loca¸c˜oes espaciais, com o vetor de parˆametros Φ = (µ, σ2, φ, ν, λ) . Foram utilizadas as mesmas distribui¸oes a priori propostas no Cap´ıtulo 2, onde os

valores dos parˆametros de cada priori foram selecionados de tal forma que as distribui¸c˜oes a priori fossem vagas, ou seja, pouco informativas.

Amostras a posteriori s˜ao obtidas utilizando M = 50000 itera¸c˜oes, com um burn-in de 1000 e lag de 50 itera¸c˜oes. A convergˆencia da cadeia dos parˆametros s˜ao mostradas nas figuras (3.4), para o Cen´ario 1. O histograma das distribui¸c˜oes a posteriori para os respectivos parˆametros s˜ao mostrados na figura (3.4). A tabela (3.5) mostra o resumo a posteriori de cada parˆametro para o Cen´ario 1.

(37)

Tabela 3.5: Mediana a posteriori e quantis de 2,5% e 97,5% para os parˆametros do modelo GLG para o Cen´ario 1.

Parˆametro Mediana Intervalo de Credibilidade β0= 6, 716 6,374 (4, 376; 8, 353) β1=2,700 2,365 (0, 167; 4, 881) β2=-1,808 -1,387 (−3, 775; 0, 948) σ2= 1, 0 1,006 (0, 943; 1, 068) φ = 0, 61 0,479 (0, 301; 0, 760) ν 0,053 (0, 003; 0, 281)

1Taxa de aceita¸ao para φ igual a 0.235 2Taxa de aceita¸ao para ν igual a 0.306

(38)

0 200 600 1000 3 4 5 6 7 8 9 β0 β0 Density 3 4 5 6 7 8 9 0.0 0.1 0.2 0.3 0.4 0 200 600 1000 6.2 6.6 7.0 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação beta0 0 200 600 1000 0 2 4 6 β1 β1 Density 0 2 4 6 0.00 0.10 0.20 0.30 0 200 600 1000 1.5 2.0 2.5 3.0 0 5 10 20 30 0.0 0.4 0.8 Lag A CF autocorrelação beta1 0 200 600 1000 −6 −4 −2 0 2 β2 β2 Density −6 −4 −2 0 2 0.00 0.10 0.20 0.30 0 200 600 1000 −1.8 −1.4 −1.0 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação beta2 0 200 600 1000 0.90 0.95 1.00 1.05 1.10 σ2 σ2 Density 0.90 1.00 1.10 0 2 4 6 8 10 0 200 600 1000 0.96 0.98 1.00 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação sigma2 34

(39)

0 200 600 1000 0.4 0.6 0.8 1.0 φ φ Density 0.4 0.6 0.8 1.0 0 1 2 3 0 200 600 1000 0.40 0.45 0.50 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação phi 0 200 600 1000 0.0 0.1 0.2 0.3 0.4 Index n u.sample nu.sample Frequency 0.0 0.2 0.4 0 100 200 300 400 0 200 600 1000 0.06 0.10 0.14 0 5 10 20 30 0.0 0.2 0.4 0.6 0.8 1.0 Lag A CF autocorrelação nu

Figura 3.4: Convergˆencia das cadeias, histograma, m´edia e autocorrela¸c˜ao para os respectivos parˆametros do modelo GLG. A reta tracejada na cor verde no histograma representa o valor verdadeiro, e a reta completa na cor vermelha representa a m´edia a posteriori.

3.2

Comportamento dos λ’s no modelo GLG

´

E apresentado pelas figuras (3.5) para cada cen´ario o comportamento do parˆametro λ no modelo GLG em rela¸c˜ao as observa¸c˜oes. Este parˆametro consegue capturar outliers por meio da variˆancia de cada observa¸c˜ao. Os outliers podem ser classificados como tais se possuem variˆancias maiores em rela¸c˜ao as outras observa¸c˜oes.

A proposta para os λi, i = 1, . . . , n no MCMC ´e constru´ıda dividindo as observa¸c˜oes em 4

blocos (regi˜oes), definidos pela posi¸c˜ao no dom´ınio espacial. As regi˜oes foram divididas e contaminadas de acordo com a figura (3.5), que apresenta o box-plot das variˆancias relativas σ2

λ para cada localiza¸c˜ao.

Observa-se que loca¸c˜oes que foram contaminadas apresentam uma variˆancia relativa maior que as demais loca¸c˜oes n˜ao contaminadas. Com isso, podemos afirmar que o processo de mistura consegue identificar observa¸c˜oes discrepantes na amostra.

(40)

Cen´ario 1 long lat 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 4 7 11 15 19 23 27 0.6 0.8 1.0 1.2 1.4 1.6 1.8 observações σ 2 λi Cen´ario 2 long lat 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 20 6 1 4 7 11 15 19 23 27 0 2 4 6 8 observações σ 2 λi Cen´ario 3 long lat 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 20 6 15 29 30 16 1 4 7 11 15 19 23 27 0 2 4 6 8 10 12 14 observações σ 2 λi

Figura 3.5: Comportamento dos λ’s em cada cen´ario. Observa¸c˜oes contaminadas s˜ao destacadas em verde e apresentam variˆancia relativa maior que as demais.

(41)

37

4 Fun¸

oes de influˆ

encia espaciais

Nesta se¸c˜ao abordaremos um instrumento que permite um melhor entendimento sobre o comportamento de uma distribui¸c˜ao ou modelo perante os dados. Nas an´alises a seguir a fun¸c˜ao de influˆencia sugere como se comporta um estimador quando mudamos uma observa¸c˜ao da amostra, baseada no conjunto dos dados.

4.1

Fun¸

ao de influˆ

encia

A fun¸c˜ao de influˆencia permite analisar como o conjunto de dados s˜ao tratados pela estima¸c˜ao em uma determinada distribui¸c˜ao de interesse.

Sob o paradigma bayesiano o c´alculo da fun¸c˜ao de influˆencia ´e visto com maiores detalhes em West [1984]. A fun¸c˜ao de influˆencia ´e calculada a partir da distribui¸c˜ao escore a posteriori do parˆametro no qual estamos interessados e escrita como

∂ ∂µlogp(µ, ν|y) = ∂ ∂µlogπ(µ) + n X i=1 g(yi− µ) (4.1)

onde a expressao em (4.1) ´e a fun¸c˜ao escore a posteriori e g() = −∂∂p() ´e a fun¸c˜ao de influˆencia e  = yi− µ. Para (4.1) o efeito que a observa¸c˜ao yi tem sobre a fun¸c˜ao escore ´e determinada pela fun¸c˜ao

de influˆencia g.

Apresentado o caso da tν(µ, λ) no exemplo de motiva¸c˜ao (1.2) do Cap´ıtulo 1, podemos

calcular a sua fun¸c˜ao de influˆencia, j´a que o prop´osito ´e avaliar se a observa¸c˜ao yi influencia ou n˜ao na

estima¸c˜ao do parˆametro µ. Para isso, seja o parˆametro de escala σ2 = 1, conhecido. Sua distribui¸ao a

posteriori ´e dada por

p(µ, ν|yi) ∝ f (yi|µ, ν)π(µ)

Aplicando o log na distribui¸c˜ao a posteriori e derivando em rela¸c˜ao a µ:

logp(µ, ν|yi) = c + logf (yi|µ, ν) + logπ(µ) + logπ(ν)

∂ ∂µlogp(µ, ν|yi) = 1 π(µ)π 0(µ) + ν + 1 2  1 1 +(yi−µ)2 ν ! 2(yi− µ) ν 

Ent˜ao se temos as observa¸c˜oes y1, . . . , yn a fun¸c˜ao de influˆencia da t-student ser´a dada por

gt=  ν + 1 2  n X i=1 1 1 + (yi−µ)2 ν ! 2(yi− µ) ν 

(42)

e ent˜ao gt() =  ν + 1 2  n X i=1 1 1 +ν2 !  2 ν 

Para o caso da distribui¸c˜ao Normal com parˆametros µ e σ2temos que a fun¸ao de influˆencia

´ e dada por: gN() = n X i=1 (yi− µ) = n X i=1 

fun¸c˜ao de influˆencia da forma linear (y − µ).

Abaixo segue as curvas de densidade e suas respectivas fun¸c˜oes de influˆencia para a tν(µ, ν, 1)

e N ormal(µ, 1) −4 −2 0 2 4 0.0 0.1 0.2 0.3 0.4 0.5 Densidade Student's t Normal −20 −10 0 10 20 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 Função de Influência y g ( ε ) Student's t Normal (i) (ii)

Figura 4.1: (i) Fun¸c˜oes de Densidade e (ii) Fun¸c˜oes de Influˆencia para ν = 1

(43)

−20 −10 0 10 20 −3 −2 −1 0 1 2 3 y g ( ε ) ν=1 ν=5 ν=20 ν=1 ν=5 ν=20 ν=1 ν=5 ν=20

Figura 4.2: Fun¸c˜ao de influˆencia da distribui¸c˜ao t-student para respectivos graus de liberdade. A linha tracejada na cor vermelha representa a fun¸c˜ao de influˆencia para distribui¸c˜ao normal.

Conforme aumentamos um valor de y na t-student, a influˆencia em rela¸c˜ao a µ diminui, o que n˜ao acontece para o caso gaussiano. Note que se aumentamos o valor de y a influˆencia permanece alta sobre a estima¸c˜ao do parˆametro. Veja ainda que ν o parˆametro representado pelos graus de liberdade tamb´em influencia na estima¸c˜ao do parˆametro de interesse e quanto maior ´e o valor dos graus de liberdade mais a influˆencia da t-student se assemelhar´a com a influˆencia da normal. Temos mais uma evidˆencia que distribui¸c˜oes com caudas mais pesadas s˜ao favor´aveis para tratar dados contaminados.

4.2

Caso Espacial

Apresentado o caso n˜ao-espacial no qual conseguimos representar a curva de influˆencia de µ de acordo com a distribui¸c˜ao de interesse, a ideia ent˜ao ´e novamente representar o qu˜ao influˆenci´avel ´e o parˆametro na presen¸ca de dados at´ıpicos, por meio de modelos espaciais.

De acordo com a proposta de West [1984] iremos generalizar as fun¸c˜oes de influˆencia espaciais para os dois modelos: Gaussiano e N˜ao Gaussiano.

4.2.1

Caso Gaussiano

Inicialmente considere o caso onde µ ´e um escalar. De forma geral suponha que temos z|µ, σ2, θ ∼

fN(µ, σ2Σ(θ)). Para σ2= 1 e θ conhecidos temos o log da sua densidade

logL(µ; z) ∝ −1

2(z − µ1n)

TΣ−1(z − µ1 n)

(44)

dlogp(µ|z) dµ = dlogπ(µ) dµ + dlogL(µ; z) dµ = 1 π(µ)π 0(µ) −1 21 T nΣ −1z − zTΣ−11 n+ 2µ1TnΣ −11 n = 1 π(µ)π 0(µ) +1T nΣ−1z − µ1 T nΣ−11n = 1 π(µ)π 0(µ) +1T nΣ −1(z − µ1 n)

Denotado por C = Σ−1, representando a matriz de precis˜ao e assim temos

dlogp(µ|z) dµ = 1 π(µ)π 0(µ) + (C ·1, . . . , C·n)(z − µ1n) | {z } gG , k = 1, . . . , n

onde C·k representa a soma dos elementos de cada linha da coluna k, tal que gG´e a fun¸c˜ao de influˆencia

para o processo gaussiano para o caso geral de West [1984]. Gostar´ıamos de ver como uma determinada observa¸c˜ao (que pode ser ou n˜ao discrepante) influencia na estima¸c˜ao do parˆametro de interesse. Baseado nesta fato, chegamos a seguinte proposi¸c˜ao

Proposi¸c˜ao 4.2.1. Se para a observa¸c˜ao k, onde z = (zk, z(−k)) representa o vetor das observa¸c˜oes zk e

as demais observa¸c˜oes da amostra z(−k) diferentes de zk, a fun¸c˜ao de influˆencia para o processo gaussiano

pode ser representada atrav´es de

gG() = C·k(zk− µ) | {z } k +X j6=k C·j(zj− µ) | {z } j (4.2)

A primeira parte de (4.2) representa a influˆencia da observa¸c˜ao k e a outra parte a influˆencia das demais observa¸c˜oes. Para o caso em que C·k= 1, k = 1, . . . , n retornaremos para o caso i.i.d. de West [1984] dada

pela equa¸c˜ao (4.1), onde todas as observa¸c˜oes apresentam o mesmo comportamento, ou seja, independente e identificamente distribu´ıdas.

4.2.2

Caso T-Student Multivariado

Inicialmente considere o caso onde µ ´e um escalar. Suponha que temos z ∼ t − studentn(µ, ν, σ2Σ(θ)).

Para σ2= 1 e θ conhecidos e ν um valor fixo , temos o logaritmo da densidade dado por

logL(µ, ν; z) ∝ − ν + n 2  log  1 + (z − µ1n) TΣ−1(z − µ1 n) ν 

O c´alculo da fun¸c˜ao escore a posterior ´e dado por

(45)

dlogp(µ, ν|z) dµ = dlogπ(µ) dµ + dlogL(µ, ν; z) dµ = 1 π(µ)π 0(µ) − ν + n 2  × 1 1 +(z−µ1n)TΣ−1(z−µ1n) ν ! ×  1 + 1 T nΣ−1z − zTΣ−11n+ 2µ1TnΣ−11n ν  = 1 π(µ)π 0(µ) − ν + n 2  × 1 1 +(z−µ1n)TΣ−1(z−µ1n) ν ! × 21 T nΣ−1(z − µ1n) ν 

Podemos chamar C = Σ−1, representando a precis˜ao da matriz de covariˆancia, temos

dlogp(µ, ν|z) dµ = 1 π(µ)π 0(µ) + ν + n 2  × 1 1 + (z−µ1n)TC(z−µ1n) ν ! × 2(C·1, . . . , C·n)(z − µ1n) ν  | {z } gN G , k = 1, . . . , n

onde C·k representa a soma dos elementos de cada linha da coluna k e Ckk representa o elemento da

k-´esima linha da k-´esima coluna. Podemos escrever a fun¸c˜ao de influˆencia para o modelo T-Student Multivariado atrav´es da Proposi¸c˜ao (4.2.1) tendo:

gT S() =  ν + n 2  × 1 1 +(z−µ)0C(z−µ)ν ! ×      2C·k k z }| { (zk− µ) +Pj6=kC·j j z }| { (zj− µ) ν      =  ν + n 2  × 1 1 + P ij(zi−µ)0Cij(zj−µ) ν ! ×      2C·k k z }| { (zk− µ) +Pj6=kC·j j z }| { (zj− µ) ν      (4.3)

O caso T-Student tem uma express˜ao mais complicada que o caso gaussiano, mas note que a fun¸c˜ao de influˆencia ir´a depender dos parˆametros de alcance (a = 1/φ), da constante de suaviza¸c˜ao κ e dos graus de liberdade ν.

Novamente, se C·k= 1, k = 1, . . . , n retornaremos ao caso da se¸c˜ao anterior para a influˆencia

t-student univariada.

4.2.3

Caso GLG

Para o processo GLG utilizamos a mistura de escalas da distribui¸c˜ao normal multivariada, afim de obtermos uma disitrui¸c˜ao com caudas mais pesadas e segundo Palacios and Steel [2006] a estrutura de

(46)

correla¸c˜ao n˜ao ´e afetada pela mistura. Para este processo temos que z|Λ, β, σ2, φ, ν ∼ N ormal

n(µ, Σ∗(θ)).

Do mesmo modo apresentado anteriorimente para os dois processo acima, desejamos calcular a influˆencia do parˆametro µ. Neste caso temos que λ|ν ∼ Log − N ormal −ν21, νΣ(θ). Suponha tamb´em que µ ´e um escalar, σ2= 1, ν respons´avel pelo comportamento da cauda fixo e θ conhecidos.

Proposi¸c˜ao 4.2.2. A fun¸c˜ao de influˆencia para o processo GLG ´e dada por

gGLG() =

R dq(|λ)

dµ p(λ|ν)dλ

R q(|λ)p(λ|ν)dλ (4.4)

onde q(|) representa a densidade e  = z − µ

Demonstra¸c˜ao. O c´alculo da fun¸c˜ao escore a posteriori ser´a escrito atrav´es de p(µ|z) ∝ p(z|µ)π(µ). Note que, como n˜ao conhecemos a densidade de p(z|µ) devemos primeiramente marginalizar z com respeito a λ atrav´es de

p(z|µ) = Z

p(z|µ, λ)p(λ|ν)p(ν)dλ

o que torna o c´alculo invi´avel analiticamente. Uma maneira de resolver este problema ´e utilizar t´ecnicas num´ericas para conseguir primeiramente calcular a integral acima. A posteriori de µ|z ´e dada por

p(µ|z) ∝ p(z|µ)π(µ) ∝ π(µ) Z p(z|µ, λ)p(λ|ν)π(ν)dλ ∝ π(µ)π(ν) Z p(z|µ, λ)p(λ|ν)dλ

O log da posteriori ´e dado por

logp(µ|z) = c + logπ(µ) + log p(ν) + log Z

p(z|µ, λ)p(λ|ν)dλ = c∗+ logπ(µ) + log

Z

p(z|µ, λ)p(λ|ν)dλ

O c´alculo da fun¸c˜ao escore a posteriori ´e dado por

dlogp(µ|z) dµ = dlogπ(µ) dµ + dlogR p(z|µ, λ)p(λ|ν)dλ dµ = 1 π(µ)π 0(µ) + R dp(z|µ,λ) dµ p(λ|ν)dλ R p(z|µ, λ)p(λ|ν)dλ | {z } gGLG() 42

Referências

Documentos relacionados

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças

O objetivo deste artigo é justamente abordar uma metodologia alternativa para a elaboração de análises contábeis e financeiras, denominada de balanço perguntado e

Hoje o gasto com a saúde equivale a aproximada- mente 8% do Produto Interno Bruto (PIB), sendo que, dessa porcentagem, o setor privado gasta mais que o setor público (Portal

A Figura 17 apresenta os resultados obtidos por meio da análise de DSC para a amostra inicial da blenda PBAT/PHBH-0 e para as amostras PBAT/PHBH-4, PBAT/PHBH-8 e

O estudo múltiplo de casos foi aplicado para identificar as semelhanças e dissemelhanças na forma como as empresas relacionam seus modelos de negócios e suas

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

• Este é sem dúvida um momento de alguma ansiedade e de muitas incertezas quanto à saúde das nossas crianças e jovens, bem como quanto à forma como vão decorrer as aulas ao longo