Modelos para Dados de Contagem Espacial com Sobredispersão

(1)

Modelos para dados de contagem espacial

com sobredispers˜

ao

Luiz Fernando Lima Costa

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´etodos Estat´ısticos

2015

(2)

Modelos para dados de contagem espacial com

sobredispers˜

ao

Luiz Fernando Lima Costa

Disserta¸cão de Mestrado submetida ao Programa de Pós-Gradua¸cão em Estat´ıstica do Instituto de Matemática da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obten¸cão do t´ıtulo de Mestre em Estat´ıstica.

Aprovada por:

Thais Cristina Oliveira da Fonseca DME/IM - UFRJ - Orientadora.

Alexandra Mello Schmidt DME/IM - UFRJ.

Aline Ara´ujo Nobre FIOCRUZ.

Rio de Janeiro, RJ - Brasil 2015

(3)

CIP - Catalogação na Publicação

Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a) autor(a).

C837m

Costa, Luiz Fernando Lima

Modelos para dados de contagem espaciais com sobredispersão / Luiz Fernando Lima Costa. -- Rio de Janeiro, 2015.

53 f.

Orientador: Thais Cristina Oliveira da Fonseca. Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, 2015. 1. Geoestatística. 2. Inferência Bayesiana. 3. Sobredispersão. 4. Poisson. 5. Dados de contagem. I. Fonseca, Thais Cristina Oliveira da, orient. II. Título.

(4)

(5)

Agradecimentos

Primeiramente a Deus pela dádiva da vida. Sem sua misericórdia e gra¸ca eu não teria chegado até aqui.

A toda minha fam´ılia e em especial aos meus pais, Luiz Henrique e Silvia, por todo apoio e incentivo dado desde o come¸co da minha carreira estudantil. Obrigado por acreditarem que eu seria capaz e terem me dado todo suporte necess´ario.

Aos meus amigos que entenderam e aceitaram as v´arias vezes que deixamos de nos ver pois eu estava muito ocupado com a disserta¸c˜ao. Valeu a pena esperar.

Aos amigos especiais que reencontrei e conheci durante o Mestrado: Caroline Ponce, Juliana Freitas e Rafael Erbist. Sem d´uvida a amizade e o companherismo que criamos nesse per´ıodo nos fortaleceu e nos deu for¸ca para continuar. Sem contar as pizzas de toda ter¸ca-feira que ajudava a relaxar depois de um dia inteiro de estudo. A Liga sobreviveu. Aos amigos do IBGE que sempre acreditaram em mim e me apoiaram. Seus conselhos foram providenciais para o t´ermino deste trabalho. Em especial quero destacar Daniela Barreto, Roberta Souza, Samela Arantes, Sofia Monti e Viviane Quintaes.

A minha orientadora Thais Fonseca por ter aceitado prontamente me orientar e ter me dado todo suporte necess´ario para concluir esta etapa da minha vida.

A professora Aline Nobre por ter aceito fazer parte da banca e ter disponibilizado tempo para discutir e contribuir com a presente disserta¸c˜ao.

A professora Alexandra M. Schmidt por ter sido pe¸ca importante na minha caminhada no Mestrado. Desde o curso de ver˜ao, passando por professora de disciplina, depois trabalhando comigo na monitoria e, fechando o ciclo, fazendo parte dessa banca. Suas palavras de apoio e seu exemplo foram de suma importˆancia. Muito obrigado.

A todos que de alguma forma, direta ou indireta, contribuiram para minha forma¸c˜ao tanto na ENCE quanto na UFRJ.

(6)

Resumo

A análise estat´ıstica de dados tem passado por grande desenvolvimento devido ao avan¸co tecnológico que permite armazenamento e estudo de dados mais complexos. Em particular, a análise de dados espaciais tem avan¸cado significativamente. O objetivo deste trabalho é contribuir com a análise de dados de contagem georeferenciados com sobre-dispersão. Para isto, é proposto um modelo chamado Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) para tratar destas especificidades com foco em dados de geoestat´ıstica. O processo inferencial utilizado foi Bayesiano e para estima¸cão o algoritmo de Monte Carlo via Cadeias de Markov (MCMC) foi escolhido. Para ilustrar a metodo-logia foram estudados dados artificiais e dados reais referentes ao número de interna¸cões por meningite viral nos hospitais do estado do Rio de Janeiro. O modelo combinado LN-P-LN se mostrou satisfatório para ambos os dados. Para uma análise da convergência das cadeias foram aplicados critérios de convergência amplamente utilizados na literatura. Vimos também que há necessidade de se estudar melhor os testes dispon´ıveis na litera-tura para verifica¸cão da presen¸ca de sobredispersão nos dados e também que a inser¸cão de novas covariáveis para o modelo com dados reais seria interessante.

Palavras-Chaves: geoestat´ıstica, inferˆencia bayesiana, sobredispers˜ao, Poisson, dados de contagem.

(7)

Abstract

The statistical data analysis has improved due to the technological progress which allows storage and study of more complex data. In particular the analysis of statistical data has advanced significantly. The purpose of this work is to contribute to the analysis of georeferenced count data with overdispersion. In this context, it’s proposed a mo-del called Combined Momo-del Lognormal-Poisson-Lognormal (LN-P-LN) to address these specificities. The Bayesian inferential process was used and so the Monte Carlo Markov Chains (MCMC) algorithm has been chosen for estimation. To illustrate the methodo-logy simulated and real data on the number of hospitalizations due to viral meningitis in hospitals in Rio de Janeiro were studied. The Combined Model Lognormal-Poisson-Lognormal (LN-P-LN) proved satisfactory for both data. Convergence criteria widely used in the literature were applied for the analysis of the convergence of chains. We have also seen that there is need to better study the hypoteses tests available in the literature for the presence of overdispersion in the data and also the insertion of new covariates for the model with real data would be interesting.

(8)

Sum´

ario

1 Introdu¸cão 1 1.1 Exemplo ilustrativo . . . 3 1.2 Delineamento da disserta¸cão . . . 5 2 Sobredispersão 7 2.1 O problema da sobredispersão . . . 7

2.2 Testes para investigar a evidˆencia de sobredispers˜ao . . . 9

2.2.1 Teste cl´assico - Dean . . . 9

2.2.2 Teste Bayesiano - Savage-Dickey . . . 10

2.2.3 Obtendo o Fator de Bayes . . . 12

3 Dados georreferenciados 13 3.1 Defini¸c˜oes e conceitos de Estat´ıstica Espacial . . . 13

3.2 Modelo Linear Generalizado com Estrutura Espacial . . . 15

3.3 Quest˜oes de implementa¸c˜ao do Modelo Linear Generalizado com Estrutura Espacial . . . 17

4 Modelo Proposto 19 4.1 Modelo Gaussian-log-Gaussian (GLG) . . . 20

4.2 Descri¸c˜ao do modelo proposto . . . 21

4.3 Fun¸c˜ao de verossimilhan¸ca e especifica¸c˜ao da priori . . . 23

4.4 Procedimentos de inferˆencia e implementa¸c˜ao . . . 24

(9)

4.4.2 Algoritmo de MCMC - Especifica¸c˜oes . . . 27

4.5 Problema de identificabilidade . . . 29

5 An´alise de Dados 30 5.1 Dados Artificiais . . . 30

5.1.1 Exemplo 1 . . . 30

5.1.2 Exemplo 2 . . . 34

5.2 Dados de Meningite Viral . . . 40

(10)

Lista de Tabelas

2.1 Valores cr´ıticos para o Fator de Bayes . . . 12

5.1 Resumo da distribui¸c˜ao a posteriori - Exemplo 1 . . . 32

5.2 Resumo da distribui¸c˜ao a posteriori - Exemplo 2 . . . 35

(11)

Lista de Figuras

1.1 Histograma do número de interna¸cões devido a meningite viral por hospital do estado do Rio de Janeiro no per´ıodo de Janeiro de 2008 a Maio de 2015 4 1.2 Intensidade do número de interna¸cões devido a meningite viral por hospital

do estado do Rio de Janeiro . . . 4 3.1 Estrutura de dependˆencia . . . 16 5.1 Tra¸cos das cadeias e fun¸c˜oes densidade de probabilidade suavizadas das

distribui¸c˜oes a posteriori de φ, σ2_{, β}

0, β1 e β2 . Linha vermelha: valor

verdadeiro - Exemplo 1 . . . 33 5.2 Sumário da distribui¸cão a posteriori da fun¸cão de correla¸cão - Exemplo 1 34 5.3 Sumário da distribui¸cão a posteriori da fun¸cão de correla¸cão - Exemplo 2 36 5.4 Tra¸cos das cadeias e fun¸cões densidade de probabilidade suavizadas das

distribui¸c˜oes a posteriori de φ, σ2_{, β}

0, β1 e β2 . Linha vermelha: valor

verdadeiro -Exemplo 2 . . . 37 5.5 Boxplot da distribui¸c˜ao a posteriori das componentes α(xi) - Exemplo 2 . 38

5.6 Tra¸co das cadeias das distribui¸c˜oes a posteriori de alguns α(xi). Linha

vermelha: abscissa de valor 1 - Exemplo 2 . . . 39 5.7 Estat´ısticas do Teste Bayesiano para sobredispersão - Dados reais . . . . 40 5.8 Mapa da evidência de sobredispersão . . . 42 5.9 Sumário da distribui¸cão a posteriori da fun¸cão de correla¸cão - Dados reais 43 5.10 Boxplot da distribui¸cão a posteriori das componentes α(xi) - Dados reais 44

5.11 Tra¸co das cadeias das distribui¸c˜oes a posteriori de φ, σ2_{, β}

0, β1, β2 e β3

(12)

5.12 Histogramas e fun¸c˜oes densidade de probabilidade suavizadas das distri-bui¸c˜oes a posteriori de φ, σ2_{, β}

0, β1, β2 e β3 - Dados reais . . . 46

(13)

Cap´ıtulo 1

Introdu¸

c˜

ao

A análise estat´ıstica de dados passou por grande desenvolvimento ao longo dos anos devido ao avan¸co tecnológico que permite armazenamento e análise de dados cada vez mais complexos. Com este avan¸co é poss´ıvel aplicarmos técnicas estat´ısticas mais realistas nas mais diversas áreas da ciência.

Um tipo de dado de interesse é aquele composto por contagens observadas num deter-minado per´ıodo de interesse. Esses dados são obtidos a partir da observa¸cão do número de ocorrências de um determinado evento de interesse. Por exemplo, a quantidade de pessoas atendidas numa loja em um dia de trabalho, ou a quantidade de interna¸cões por doen¸cas card´ıacas em diversos hospitais.

A esses dados dá-se o nome de dados de contagem e para eles existe um tratamento diferente. Esses dados são sempre não negativos e obtidos a partir de uma contagem e não de uma classifica¸cão. Eles podem ainda apresentar caracter´ısticas que são usuais para este tipo de dado, tais como sobredispersão e excesso de zeros. Para dados que apresentam sobredispersão é necessária uma abordagem diferente do modelo usual de Poisson.

Em determinados casos os dados carregam consigo uma informa¸cão a mais, a sua localiza¸cão geográfica. Espera-se assim que observa¸cões obtidas em locais próximos te-nham maior correla¸cão e, que uma menor correla¸cão seja observada paraobserva¸cões em locais distantes.

(14)

´

e de extrema importância que se leve em considera¸cão a estrutura de correla¸cão espacial existente. A esses dados dá-se o nome de dados espaciais e existe uma área na estat´ıstica especializada para trabalhar com esse tema, chamada Estat´ıstica Espacial.

Diversas áreas fazem uso dessas técnicas para seus estudos como epidemiologia, agro-nomia, demografia, sensoriamento remoto. Cressie (1993) divide a estat´ıstica espacial em três grandes áreas que contém os seguintes tipos de dados: dados de geoestat´ıstica, dados de área e processos pontuais.

Dados de área são observados a partir de uma região fixa no espa¸co que pode ou não ter forma regular. Esta região estará particionada em um número finito de sub-regiões. Assim a realiza¸cão do processo estocástico estará ligada a essa região definida pela parti¸cão. Usualmente, esse processo representará uma medida da variável numa determinada região.

Processos pontuais são definidos como um conjunto de pontos com coordenadas aleatórias no espa¸co. O principal objetivo na análise deste tipo de dado é estudar a distribui¸cão espacial destes pontos e determinar se o padrão observado é aleatório ou, se os pontos são regularmente distribu´ıdos segundo um padrão sistemático ou, até mesmo, verificar se os pontos se distribuem em aglomerados.

Este trabalho tem foco em dados de geoestat´ıstica que são considerados uma realiza¸cão particular de um processo indexado pela localiza¸cão que pode variar de forma cont´ınua ao longo de uma região fixa definida no espa¸co, conforme descrito em Banerjee et al. (2004).

Segundo Cressie (1993) dados de geoestat´ıstica são realiza¸cões de um processo es-tocástico num subconjunto com volume p-dimensonal. Através de modelos espaciais é poss´ıvel fazer inferência sobre os parâmetros, para aplica¸cões onde há necessidade em entender o processo que gerou os dados e além disso, fazer previsão que no caso espacial pode ser vista como uma estima¸cão de uma realiza¸cão do processo em um local onde não houve medi¸cão.

Sendo assim, este trabalho propõe uma forma alternativa de acomodar a sobredis-persão em modelos para dados de contagem levando em considera¸cão a disposi¸cão espacial dos mesmos e aplicando técnicas estat´ısticas espec´ıficas para dados de geoestat´ıstica.

(15)

1.1 Exemplo ilustrativo

A seguir, descreve-se uma aplica¸cão a dados de meningite viral que serão usados para ilustrar o modelo de Poisson espacial com sobredispersão utilizado nesse trabalho.

Há um interesse crescente no estudo e desenvolvimento de estudos epidemiológicos e da dinâmica dos agentes de doen¸cas infecciosas. Uma forma de agregar mais informa¸cões a esses estudos é levar em considera¸cão a estrutura espacial presente nos dados referentes a doen¸cas infecciosas.

A meningite viral é caracterizada por um quadro cl´ınico de altera¸cão neurológica, que, em geral, evolui de forma benigna e pode ser causada por vários microrganismos, como v´ırus, bactérias, fungos e parasitas. A transmissão pode ser feita pelo ar, por contato direto (got´ıculas de saliva ou muco, sangue e/ou produtos sangu´ıneos) e indireto (utens´ılios, água e alimentos contaminados ou picada de animais). Os casos podem ocorrer isoladamente, embora o aglomerado de casos seja comum.

A literatura mostra que as crian¸cas menores de 18 meses, além de serem as mais atingidas pela doen¸ca, são as que mais evoluem para óbito pois não tem seus anticorpos tão desenvolvidos para sua defesa. Porém o adulto corre risco de contrair a doen¸ca também.

Neste trabalho estudamos o número de interna¸cões, diagnosticadas como meningite viral, por hospitais do estado do Rio de Janeiro. O per´ıodo de referência desses dados ´

e de Janeiro de 2008 a Maio de 2015. A popula¸cão de estudo neste trabalho é formada por 107 hospitais. Com esses dados espera-se chegar num modelo que consiga explicar de forma eficiente a ocorrência dos casos de meningite viral ao longo do espa¸co do estado do Rio de Janeiro.

Os dados em quest˜ao foram obtidos atrav´es do DATASUS 1_{, o departamento de}

informática do SUS que tem como um dos objetivos fomentar, regulamentar e avaliar as a¸cões de informatiza¸cão dos dados do SUS, possibilitando assim o estudo com essas bases de dados.

(16)

Figura 1.1: Histograma do n´umero de interna¸c˜oes devido a meningite viral por hospital do estado do Rio de Janeiro no per´ıodo de Janeiro de 2008 a Maio de 2015

Figura 1.2: Intensidade do n´umero de interna¸c˜oes devido a meningite viral por hospital do estado do Rio de Janeiro

(17)

Na figura 1.1 vemos a grande concentra¸cão de hospitais com 0 a 10 interna¸cões de pacientes com meningite viral. Este fato sugere que o modelo Gaussiano não seria uma boa aproxima¸cão para esses dados.

A figura 1.2 mostra como os casos de interna¸cões por meningite viral se distribuem espacialmente no estado do Rio de Janeiro e além disso podemos ver que as maiores intensidades de interna¸cões acontece em locais mais próximos, salvo algumas exce¸cões.

Através de uma análise descritiva dos dados verificamos que 50% dos hospitais perten-centes a popula¸cão de estudo internaram 3 pacientes com meningite viral neste per´ıodo. A média de interna¸cão por hospital é 7,03 com uma variância dos dados da ordem de 71,24 o que revela ind´ıcios da presen¸ca de sobredispersão nas observa¸cões.

Dentre os 107 estabelecimentos de saúde, 70% pertencem a esfera pública e 30% a esfera privada. O tipo de dependência administrativa também será inclu´ıdo no modelo como uma variável explicativa.

1.2 Delineamento da disserta¸

c˜

ao

A disserta¸cão está organizada da seguinte maneira, no cap´ıtulo 2 é apresentado o problema da sobredispersão e como o mesmo vem sendo tratado na literatura. São descritos testes para verificar a presen¸ca de sobredispersão nos dados de interesse.

No cap´ıtulo 3 são introduzidos conceitos e defini¸cões pertinentes em Estat´ıstica Espa-cial, assim como é introduzido o modelo trabalhado por Diggle et al. (1998) para dados com estrutura espacial e algumas questões de implementa¸cão do mesmo.

No cap´ıtulo 4 é feita uma revisão do modelo Gaussian-log-Gaussian proposo por Pa-lacios e Steel (2006) e como a ideia presente neste modelo ajudará na constru¸cão do modelo proposto pela disserta¸cão. Apresentamos um modelo capaz de capturar a sobre-dispersão presente nos dados que o processo espacial não consegue identificar. Também são descritos os procedimentos de implementa¸cão e inferência utilizados para este modelo. O cap´ıtulo 5 apresenta a análise de dados artificiais e reais utilizando o modelo apre-sentado por Diggle et al. (1998) e o modelo proposto neste trabalho. Primeiramente, é feita uma análise para os dados artificiais utilizando o modelo proposto por Diggle et al.

(18)

(1998) e o modelo proposto. Em seguida, o conjunto de dados referentes ao número de interna¸cões de pacientes com meningite viral por hospital do estado do Rio de Janeiro é analisado através do modelo proposto nesta disserta¸cão.

Por fim, o cap´ıtulo 6 apresenta um resumo sobre os resultados da disserta¸c˜ao e pos-siveis extens˜oes para trabalhos futuros.

(19)

Cap´ıtulo 2

Sobredispers˜

ao

2.1 O problema da sobredispers˜

ao

Quando estamos interessados em realizar uma análise estat´ıstica de dados de contagem usualmente faz-se uso da distribui¸cão Poisson para modelar esse tipo de dado. Porém, para esse tipo de distribui¸cão sabemos que há uma rela¸cão de igualdade entre média e variância dos dados. Na prática essa rela¸cão é muito restritiva e há situa¸cões onde a variância dos dados pode ser maior que a média. A esse fenômeno é dado o nome de sobredispersão e ele ocorre de forma frequente na prática para dados de contagem. Assim, o modelo de Poisson usual não consegue capturar essa caracter´ıstica das observa¸cões.

McCullagh e Nelder (1989) dizem que sobredispersão é o mais usual de se observar no mundo real e a dispersão nominal é exce¸cão. Algumas poss´ıveis causas para sobre-dispersão podem ser: correla¸cão entre as respostas individuais, o modo como foi feita a amostragem, n´ıvel agregado dos dados, variáveis explicativas omitidas, excesso de zero, entre outras.

O modelo Poisson-lognormal, obtido através da inclusão de um efeito aleatório normal no preditor linear, tem a capacidade de captar a sobredispersão. Esta distribui¸cão é grandemente utilizada para tratar de dados de contagem. Em Bulmer (1974) vemos a verossimilhan¸ca para o modelo Poisson-lognormal e como obter estimativas para este modelo.

´

(20)

Yi|λi ∼ P oisson(λi) e λi ∼ Gama(α, β). Assim, a distribui¸c˜ao marginal de Yi ser´a uma

Binomial Negativa e a sobredispersão nesse caso será interpretada como a heterogeneidade não observada entre as observa¸cões, segundo Gschlößl e Czado (2006).

Neyens et al. (2011) trabalham com um modelo combinado que acomoda a sobre-dispersão e a correla¸cão espacial do dado utilizando um modelo Poisson-gamma com estrutura espacial de dados de área. Segundo Besag et al. (1991), este modelo é uma alternativa ao modelo de convolu¸cão usual que utiliza a componente CAR (conditio-nal autoregressive) na sua estrutura. O modelo apresentado por Neyens et al. (2011), aplicável a dados de área, é capaz de aprimorar a modelagem quando os dados contém uma alta heterogenidade não correlacionada. A distribui¸cão Gama utilizada permite que o modelo acomode bem a sobredispersão em sua estrutura.

Em Molenberghs et al. (2007) propõe-se um modelo para cenários onde é necessário estudar a sobredispersão levando em considera¸cão a estrutura hierárquica dos dados. A flexibilidade deste modelo permite adicionar covariáveis e efeitos aleatórios. Esses efeitos aleatórios introduzidos em Molenberghs et al. (2007) podem ter distribui¸cão Normal ou Gama. O efeito introduzido com intuito de estudar a varia¸cão causada pela estrutura hierárquica dos dados de contagem seguirá uma distribui¸cão Normal. Já o efeito aleatório introduzido para captar a sobredispersão presente nos dados será distribu´ıdo segundo uma Gama.

Gschlößl e Czado (2006) trabalham com a heterogeneidade não observada nos dados fazendo uso de modelos mais flex´ıveis que o modelo Poisson usual captando assim o efeito da sobredispersão. Para dados espaciais é utilizado efeitos aleatórios associados a cada região no espa¸co permitindo assim modelar a estrutura de depêndencia espacial presente. Gschlößl e Czado (2006) consideram diferentes modelos comparando a incorpora¸cão ou não da dependência espacial utilizando a abordagem Bayesiana. Quando se trata da incorpora¸cão da depedência espacial, são trabalhados dados de área.

A análise temporal para dados de contagem com sobredispersão também é poss´ıvel. Schmidt e Pereira (2011) consideram um modelo dinâmico Poisson que permite a iden-tifica¸cão da sobredispersão para cada momento no tempo que o dado é observado, além da estrutura temporal presente nos dados.

(21)

A não incorpora¸cão da sobredispersão ao fazer a análise dos dados pode causar alguns problemas. Um deles é que o erro padrão obtido será incorreto e, consequentemente, isto nos levará a conclusões incorretas sobre a significância dos parâmetros.

Outro problema pode ser a escolha de modelos mais complexos do que o necessário para explicar os dados em questão. E por fim, a interpreta¸cão do modelo ficará compro-metida assim como as previsões obtidas.

Ainda que o modelo Poisson-lognormal seja capaz de captar a sobredispersão presente nos dados, é poss´ıvel que alguma variabilidade não seja capturada. Assim, há um interesse em estudar essa variabilidade extra presente nos dados e, para isso, o presente trabalho propõe uma maneira alternativa de captar esta sobredispersão excedente.

A seguir, descrevem-se alguns testes propostos na literatura para investigar a existˆencia de sobredispers˜ao em dados de contagem.

2.2 Testes para investigar a evidˆ

encia de

sobredis-pers˜

ao

2.2.1 Teste cl´

assico - Dean

Há anos vêm sendo discutidos testes para detectar se os dados em estudo apresentam uma varia¸cão extra, no caso Poisson se a variância observada é maior que a média. Dean (1992) apresenta uma unifica¸cão dessas teorias e trabalha com um teste desenvolvido para lidar com distribui¸cões arbitrárias onde somente os dois primeiros momentos são especificados.

Assuma o seguinte modelo,

Yi ∼ P oisson(λi),

onde λi = eZ

T

i β e portanto θ_i = ln(λ_i) = ZT

i β. Para apurar a sobredispers˜ao diremos que

o parâmetro canônico θi não é fixo e sim aleatório representado por θi∗ onde E(θi∗) = θi

e V (θi∗) = τ ki(θi) para τ > 0 e ki(θi) diferenciável. Neste mesmo cenário a variância de

(22)

Assim, o interesse será em testar se τ = 0 ou τ > 0. Se τ = 0 conclu´ımos que não há evidências de sobredispersão para o conjunto de dados. Se o contrário é observado, os dados apresentam sobredispersão.

Dean (1992) apresenta três maneiras de se representar um modelo Poisson com so-bredispersão, porém o foco aqui será em apenas uma dessas. Um modelo com infla¸cão simples da variância, outro com efeitos aleatórios multiplicativos e o modelo log-linear. Este último tem a mesma representa¸cão do modelo utilizado neste trabalho e por isso será dado enfoque a ele.

Em Dean (1992) e Yang et al. (2008) ´e apresentada a seguinte estat´ıstica de teste:

S = n P i=1 {[yi− ˆλi]2–yi} r 2 n P i=1 ˆ λ2 i . (2.1)

Assintoticamente a estat´ıstica de teste S terá uma distribui¸cão Normal Padrão. A um n´ıvel de significância α se S for maior que z1−α₂, o percentil 100(1 − α₂)% desta normal,

rejeitamos a hipótese nula, com isso conclui-se que um modelo usual Poisson não seria o indicado para os dados em questão.

Para o tipo de dado que este trabalho tem foco, dados de contagem georreferenci-ados, o teste clássico não é indicado uma vez que ele não foi constru´ıdo para levar em considera¸cão a estrutura espacial do conjunto de dados que está sendo testado.

2.2.2 Teste Bayesiano - Savage-Dickey

Segundo a perspectiva Bayesiana podemos testar a existência de sobredispersão nos dados a partir de um teste de hipóteses que envolverá o cálculo do Fator de Bayes que consiste na divisão entre a razão das densidades a posteriori e a razão das densidades a priori. Esta medida é calculada da seguinte forma,

P(H0|y)/P(H1|y)

P(H0)/P(H1)

(23)

Assim, pode-se testar a hip´otese de que α(xi) = 1 o que representa n˜ao haver

sobre-dispersão na localiza¸cão xi. Neste caso α(xi) é a componente introduzida no modelo com

o intuito de captar a variabilidade excedente na localiza¸c˜ao xi.

Apresentado em Dickey (1971), o teste de Savage-Dickey pode ser considerado uma representa¸cão do fator de Bayes e trabalhará com uma razão entre distribui¸cões a poste-riori e a pposte-riori dado a hipóstese alternativa que está sendo testada.

A hip´otese nula do teste ser´a dada pelo modelo onde αi pode assumir qualquer valor.

Já a hipótese alternativa neste caso será o modelo onde α(xi) = 1 e todos os outros

elementos de α(x) livres. Ou seja, o parâmetro responsável por representar a sobredis-persão no modelo é igual a 1 o que significa que não há evidências para afirma¸cão de que há sobredispersão nos dados. Assim as hipóteses para este teste seriam:

H0 : α(x) livres X H1 : α(xi) = 1 e α(xj) livres, ∀ i 6= j

A raz˜ao de Savage-Dickey proposta ser´a,

Ri =

p(α(xi)|Y )

p(α(xi))

|αi = 1. (2.3)

Assim, Ri grande será favorável ao modelo da hipótese alternativa com α(xi) = 1 e os

demais α(xj) variando livremente versus o modelo da hip´otese nula com α(xi) variando

livremente para todo valor de i.

Em Kass e Raftery (1995) é apresentada uma tabela contendo os valores do Fator de Bayes cr´ıticos para decisão do teste de hipótese, ou seja, para quais valores há ou não evidência para rejeitarmos a hipótese nula. Para Kass e Raftery (1995), quanto maior o Fator de Bayes, representado por B10, maior será a evidência a favor da hipótese

alter-nativa. No nosso, caso a hipótese que estamos interessados é a de que há sobredispersão, logo devemos olhar para _B1

10 e assim tomar a decis˜ao do teste do Bayesiano. A tabela ´e

(24)

B10 _B1₁₀ = Ri Decis˜ao

1 a 3 1/3 a 1 A sobredispersão não é significativa 3 a 20 1/20 a 1/3 Há evidência positiva de sobredispersão 20 a 150 1/150 a 1/20 Há forte evidência de sobredispersão

> 150 < 1/150 Há evidência extremamente forte de sobredispersão Tabela 2.1: Valores cr´ıticos para o Fator de Bayes

2.2.3 Obtendo o Fator de Bayes

Na implementa¸cão do Teste Bayesiano para sobredispersão é necessário calcular a densidade marginal a posteriori das componentes αi. Essa densidade é calculada através

de uma suaviza¸cão onde a massa da fun¸cão de distribui¸cão emp´ırica é calculada a partir de uma grade regular e após isto uma transforma¸cão de Fourier é utilizada para alcan¸car uma aproxima¸cão com a versão discreta do núcleo. Depois disto é utilizada uma aproxima¸cão linear para avaliar, finalmente, a densidade aplicada em determinados pontos.

Após isto temos condi¸cões de calcular a estat´ıstica de teste expressa na equa¸cão 2.3 e determinar se há evidências ou não para assumirmos que há sobredispersão nos dados.

(25)

Cap´ıtulo 3

Dados georreferenciados

3.1 Defini¸

c˜

oes e conceitos de Estat´ıstica Espacial

Considere o processo espacial {Y (x) : x ∈ D} observado em n localiza¸c˜oes, onde D ⊂ Rd. Como pressuposto, assume-se que

Y = [Y (x1), ..., Y (xn)] ∼ Nn(µ, Σ),

onde µ é o vetor de médias do processo e Σ a matriz de covariância do processo. Usualmente adota-se a representa¸cão

Y = ZT_{β + S,}

onde Z é a matriz de covariáveis, β o vetor de parâmetros destas covariáveis e S é um Processo Gaussiano e, portanto, possui distribui¸cão Nn(0, Σ).

Considera-se ainda que a matriz de covariância será composta da variância do pro-cesso e de uma fun¸cão de correla¸cão espacial válida. Assim, os elementos da matriz de covarância serão obtidos a partir de

Σ = σ2C(h),

sabendo que a fun¸cão de correla¸cão C(h) dependerá da distância euclidiana h entre duas localiza¸cões e pode depender de algum parâmetro a mais. Portanto, σ2 _´_{e a variˆ}_{ancia do}

(26)

Para trabalhar com os dados de geoestat´ıstica se faz necessário conhecer primeiro algumas defini¸cões e especificidades desse tipo de dado. Os modelos propostos devem ter a capacidade de captar e processar a dependência espacial presente nos dados.

• Estacionariedade

Suponha um processo Y (x) onde x ∈ D. Existe a possibilidade de um processo ser estritamente estacionário, fracamente estacionário ou intrinsecamente estacionário.

Quando a fun¸cão de distribui¸cão conjunta do processo é invariante com respeito a qualquer transla¸cão do vetor Y = Y (x1), ..., Y (xn) o processo é dito estritamente

esta-cion´ario.

Se a m´edia do processo ´e constante e a Cov(Y (xi), Y (xi+ h)) = C(h), ∀xi, xi+ h ∈ D

então o processo é chamado de fracamente estacionário.

O processo ´e dito intrinsecamente estacion´ario quando E(Y (xi + h)–Y (xi)) = 0 ∀

xi, xi + h ∈ D e V ar(Y (xi+ h)–Y (xi)) = 2γ(h) ∀ Y (x) e Y (x + h). A fun¸c˜ao γ(h) ´e

chamada de semivariograma do processo espacial em estudo. • Isotropia

A isotropia é outro conceito importante a ser apresentado. Um processo é isotrópico se, para quaisquer duas localiza¸cões, a covariância dependerá somente da distância eu-clidiana entre esses dois pontos. Ou seja, Cov(Y (x), Y (x + h)) = C(||h||),onde ||h|| é a norma do vetor.

• Fun¸c˜ao de Covariˆancia

Algumas fun¸cões de covariância são definidas na literatura para se trabalhar com dados espaciais. Entre as mais utilizadas estão a fun¸cão de covariância exponencial, a Gaussiana, a esférica, a Mátern e a Cauchy, conforme pode ser visto em Banerjee et al. (2004). Iremos trabalhar com a fun¸cão de covariância exponencial definida por,

C(h) = exp −h φ .

(27)

O parâmetro φ é definido como parâmetro de alcance e está ligado a distância a partir da qual duas observa¸cões quaisquer podem ser consideradas independentes, ou seja, quando a correla¸cão entre os dois pontos assumirá valores desprez´ıveis.

3.2 Modelo Linear Generalizado com Estrutura

Es-pacial

No contexto de dados de contagem os pressupostos de normalidade, utilizados usual-mente na análise espacial, não são preservados. Logo, os métodos usuais da geoestat´ıstica não são indicados.

Uma alternativa é uma abordagem que utiliza a ideia de Modelos Lineares Genera-lizados Mistos (MLGM). Estes modelos são extensões dos conhecidos Modelos Lineares Generalizados (MLG ou GLM) que permitem o estudo de fontes de variabilidade adici-onais devido a efeitos aleatórios. Considere o modelo proposto em Diggle et al. (1998) onde:

a) As variáveis aleatórias Yi são mutuamente independentes dado S(xi) e também

E[Yi|S(xi)] = Mi = M (xi);

b) Através de uma fun¸cão de liga¸cão, q(•), Mi é relacionado com o preditor linear de

tal forma que q{M (x)} = ZTβ + S(x);

c) S(xi) é um efeito aleatório inclu´ıdo para captar a varia¸cão não observada em ZTβ

com E[S(xi)] = 0 e Cov[S(xi), S(xj)] = σ2C(||xi − xj||). Assim, condicional a S, que

´

e um processo Gaussiano, o modelo apresentado fica na forma de um MLGM citado anteriomente.

No caso de dados de contagem temos

Yi|λi(xi) ∼ P ois(λ(xi)), (3.1)

onde,

log(λ(xi)) = Z’β + S(xi). (3.2)

(28)

interessados em obter amostras das distribui¸cões a posteriori dos parâmetros de interesse. Para isso utiliza-se usualmente o método de Monte Carlo via Cadeias de Markov (MCMC) onde se faz necessário conhecer as condicionais completas dos parâmetros de interesse.

Neste contexto, precisamos tamb´em amostrar das vari´aveis latentes S, onde S=(S1,...,Sn)

e Si = S(xi). O algoritmo utilizado ´e o de Metropolis-Hastings para sortear da

condi-cional de S. A cada passo gera-se uma proposta para mover a cadeia. Esta proposta ´e aceita ou rejeitada segundo uma probabilidade. Para estimar o vetor param´etrico usa-se um amostrador de Gibbs h´ıbrido com passos de Metropolis-Hastings.

Diggle et al. (1998) fazem uma representa¸cão da estrutura de dependência entre as variáveis do modelo e os parâmetros. Através da figura 3.1 podemos ver que condicional a S, ou seja, dado S, Y é independente de θ e que dado S, β e θ são independentes. S∗ ´

e o vetor com os valores de S nos locais onde procura-se prever a vari´avel de interesse.

Figura 3.1: Estrutura de dependˆencia ´

E importante ressaltar que o modelo apresentado em Diggle et al. (1998) é capaz de capturar a sobredispersão presente nos dados, através do Processo Gaussiano responsável pela acomoda¸cão da estrutura espacial. Porém, é poss´ıvel que alguma variabilidade extra presente nos dados não seja captada por esse processo, assim pode ser necessária a inclusão de um outro processo que identifique onde há mais variabilidade que não foi capturada pelo processo espacial.

(29)

3.3 Quest˜

oes de implementa¸

c˜

ao do Modelo Linear

Generalizado com Estrutura Espacial

Diggle et al. (1998) trabalham com um modelo espacial para dados na fam´ılia ex-ponencial, em particular ele apresenta um modelo para dados de contagem onde a taxa ´

e modelada através de um processo latente log normal. Condicional a variável latente sabe-se que a variável de interesse é mutuamente independente, ou seja, as observa¸cões dos dados de contagem são condicionalmente independentes.

O algoritmo de estima¸cão via MCMC terá um passo de atualiza¸cão de S dado por: a) Amostrar S_i0 da fun¸cão proposta q(Si, Si0)= p (Si|S−i, θ) igual a priori ;

b) Aceite S_i0 com probabilidade de aceita¸c˜ao α(Si, Si0) = min

n_{f (y}

i|s0_i,β)

f (yi|si,β)

, 1o; c) Repita (a) e (b), para i = 1, ..., n.

Este algoritmo requer um tempo computacional muito grande uma vez que as com-ponentes Si s˜ao atualizadas uma a cada vez. Tendo em vista que temos n componentes,

quanto mais dados, maior ser´a o tempo computacional invibializando a aplica¸c˜ao deste algoritmo de forma eficaz.

Como alternativa Christensen e Waagepetersen (2002) propõem um algoritmo que atualiza os efeitos aleatórios simultaneamente através de uma proposta Normal Multiva-riada utilizando o algoritmo Langevin-Hastings que usa o gradiente do log da posteriori chegando assim num resultado melhor que a proposta passeio aleatório.

Diggle e Ribeiro Jr (2007) ainda acrescentam que para melhorar a eficiência do algo-ritmo é aconselhável ajustar a variância da proposta de forma a obter aproximadamente 60% de aceita¸cão desta proposta e ainda trabalhar com espa¸camento da cadeia de 100 unidades.

Outra alternativa proposta por Diggle e Ribeiro Jr (2007) é trabalhar com um algo-ritmo que utiliza a informa¸cão do gradiente na distribui¸cão proposta, ou seja, utiliza o gradiente do log da posteriori. Em Christensen e Waagepetersen (2002) conclui-se que a abordagem que utiliza o gradiente apresenta melhor resultado em compara¸cão ao passeio aleatório no passo de proposta do algoritmo já que houve uma redu¸cão no erro de Monte Carlo para covariância de alguns parâmetros.

(30)

Papaspiliopoulos et al. (2007) descrevem também uma parametriza¸cão em modelos que envolvem variáveis latentes. Dois tipos de parametriza¸cão são apresentados: centra-lizada e não centralizada. Essas parametriza¸cões tem vantagens como uma convergência mais rápida e a possibilidade de identificar, antes mesmo de rodar o algoritmo, qual a parametriza¸cão é mais indicada apenas identificando a estrutura do modelo. Porém, neste trabalho esta reparametriza¸cão de variável latente não será abordada.

Diggle et al. (1998) propõem uma reparametriza¸cão nos parâmetros de regressão o que resulta numa atualiza¸cão mais ortogonal tornando assim o algoritmo mais rápido. Christensen et al. (2006) também propõem reparametriza¸cões com o intuito de padronizar e ortogonalizar as componentes.

A ortogonaliza¸cão das componentes do modelo melhora o desempenho do amostrador de Gibbs, quando ele está sendo utilizado, e a padroniza¸cão das componentes individuais ajuda na hora de dimensionar a distribui¸cão proposta no passo de Metropolis-Hastings o que torna a atualiza¸cão mais eficiente.

Christensen et al. (2006) ainda alertam que a reparametriza¸cão não é uma trans-forma¸cão linear o que não garante que funcione para todos os dados, mas ainda assim é uma alternativa para melhorar a convergência do algoritmo já que Diggle e Ribeiro Jr (2007) também citam a reparametriza¸cão como algo positivo para o modelo.

(31)

Cap´ıtulo 4

Modelo Proposto

Tendo em vista um conjunto de dados de contagem com dependência espacial e so-bredispersão é necessária uma abordagem especial levando em considera¸cão essas carac-ter´ısticas importantes que vão influenciar no processo inferencial e de predi¸cão.

A sobredispersão pode ser modelada de uma forma alternativa aos modelos usuais quando estamos tratando de dados georreferenciaos. É possivel incluir uma componente no modelo responsável por capturar a variabilidade extra que o processo espacial não consegue identificar.

Antes de apresentarmos o modelo proposto neste trabalho, que tem como objetivo captar a sobredispersão que o processo espacial não foi capaz de captar, é introduzido o Modelo Gaussian-log-Gaussian (GLG) apresentado em Palacios e Steel (2006) utilizado como norte para inclusão da componente responsável pela incorpora¸cão no modelo da sobredispersão que não foi captada pelo processo espacial.

Em Neyens et al. (2011) e Molenberghs et al. (2007) para capturar outras fontes de variabilidade além da variabilidade espacial é introduzido um efeito aleatório diferente. Assim tomando como base esses trabalhos, nesta disserta¸cão estamos interessados em incluir um efeito aleatório espacial usual do modelo Poisson Lognormal e também permitir uma varia¸cão extra que não é captada pelo efeito espacial. Este efeito responsável por capturar a variabilidade extra é introduzido de maneira multiplicativa assim como em Neyens et al. (2011) e Molenberghs et al. (2007).

(32)

4.1 Modelo Gaussian-log-Gaussian (GLG)

No modelo proposto por Palacios e Steel (2006) trabalha-se com uma variável latente que tem uma a¸cão direta na variância do processo o que permite a acomoda¸cão da dependência espacial presente no modelo.

Assim no modelo GLG, dado o processo de variância, pode-se chegar numa distri-bui¸cão normal o que dá mais praticidade a implementa¸cão dos algoritmos.

Seja Y (x) um processo aleatório nas localiza¸cões x numa determinada região. O modelo inicial é dado por

Y (x) = ZTβ + σ(x) + τ ρ(x),

onde (x) é um vetor estacionário de segunda ordem com média zero, variância unitária e com uma fun¸cão de correla¸cão que depende apenas da distância entre os pontos,

corr[(xi), (xj)] = Cθ(||xi–xj||),

onde Cθ(d) é uma fun¸cão de correla¸cão válida em fun¸cão da distância euclidiana. τ é cha-mado de efeito pepita e representa um processo Gaussiano não correlacionado utilizado para auxiliar na medi¸cão de erro e deteçcão de varia¸cão em pequena escala.

Na proposta estocástica alternativa trazida por Palacios e Steel (2006) há uma mistura de processos envolvendo (x). Introduz-se uma variável de mistura λi associada a cada

observa¸c˜ao e portanto o novo modelo ser´a,

Y (xi) = ZTi β + σ

(x_√ i)

λi

+ τ ρ(xi).

Assume-se que ρ(xi), (xi) e λi s˜ao independentes e conclui-se que a componente

de mistura inclu´ıda afeta apenas o processo que representa a dependência espacial. A distribui¸cão de mistura será dada por,

ln(λ) = (ln(λ1), ..., ln(λn))T ∼ Nn −ν 21, νCθ .

(33)

correla¸cão neste caso será a mesma determinada para Y (x) pois isto auxilia no momento de fazer a inferência de cada parâmetro, segundo Palacios e Steel (2006).

Cada λi ter´a uma distribui¸c˜ao log-normal e assim este modelo permite a modelagem

em regiões onde a varia¸cão é maior.

4.2 Descri¸

c˜

ao do modelo proposto

O modelo proposto neste trabalho envolverá a ideia de modelos lineares generalizados utilizada por Diggle et al. (1998), acrescentando uma componente responsável por captar o fenômeno de sobredispersão dos dados que não foi captado pelo processo espacial como foi exposto por Gschlößl e Czado (2006) e Neyens et al. (2011). Porém diferente de Gschlößl e Czado (2006) e Neyens et al. (2011) o modelo tratará de dados de geoestat´ıstica e essa nova componente terá as caracter´ısticas da componente introduzida por Palacios e Steel (2006) que naquele contexto trabalhava com a mistura de escala com o processo Gaussiano presente no modelo apresentado por eles.

Em Neyens et al. (2011) ao incluir um efeito aleat´orio capaz de captar a sobredis-pers˜ao presente nos dados eles nomeiam o modelo como Modelo Combinado. A com-ponente αi foi inclu´ıda de forma multiplicativa assim como em Neyens et al. (2011) e o

nome do modelo proposto neste trabalho ´e dado de maneira similar: Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN).

No caso de Neyens et al. (2011) é utilizada uma distribui¸cão Gama não correlacionada para capta¸cão da sobredispersão, enquanto no Modelo Combinado LN-P-LN é utilizada uma distribui¸cão lognormal correlacionada para captar a sobredispersão extra que o processo espacial não conseguiu captar, assim como é feito em Palacios e Steel (2006).

Os dados de geoestat´ıstica tem a caracter´ıstica de variar continuamente na região onde eles estão definidos, usualmente numa região pertencente ao Rd_{. Neste trabalho}

d = 2 sendo representado pela latitude e longitude do dado observado.

Diferente da abordagem apresentada em Palacios e Steel (2006) que introduz a variável de mistura através de uma rela¸cão direta com o processo espacial, a componente α(xi) é

(34)

foi tomada com base nos trabalhos de Gschlößl e Czado (2006) e Neyens et al. (2011). Refor¸cando que Gschlößl e Czado (2006) e Neyens et al. (2011) apresentam modelos cujo o enfoque é para dados de área.

O modelo combinado LN-P-LN ´e representado da seguinte maneira,

Y (xi) ∼ P oisson(λ(xi)) (4.1)

λ(xi) = α(xi)expZiTβ + S(xi)

(4.2) observado nas localiza¸c˜oes espaciais xi em alguma regi˜ao espacial D ⊂ Rd. ZT

repre-senta as covariáveis do modelo e β o vetor de coeficientes desconhecidos relacionados às covariáveis.

S(x) ´e um Processo Gaussiano definido em D ⊂ Rd que entra no modelo represen-tando a correla¸c˜ao espacial dos dados. Por ser um Processo Gaussiano, S = (S(x1), ..., S(xn))

terá uma distribui¸cão normal multivariada com as seguintes especifica¸cões, S ∼ Nn(0, Σ).

Definindo Σ = σ2_C(d

ij, φ), matriz de correla¸c˜ao representada por C(dij) ser´a

defi-nida a partir da estrutura de correla¸c˜ao exponencial definida como e

n −dij_φ o

onde dij ´e

a distância euclidiana entre duas observa¸cões (ver Banerjee et al. (2004)). Neste traba-lho não iremos considerar o efeito pepita porém, ele pode ser inclu´ıdo no modelo se for preciso.

A componente α(x) = (α(x1), ..., α(xn)) ∈ R+ entra no modelo para capturar a

sobredispers˜ao presente nos dados e como pressuposto assumimos que ln(α) = (ln[α(x1)], ..., ln[α(xn)])T ∼ Nn −ν 21, νC(dij, φ) , (4.3)

onde ν ∈ R+ _´_{e um parˆ}_{ametro de escala introduzido na distribui¸c˜}_{ao do logaritmo de α.}

A inclus˜ao de α(xi),assim como em Palacios e Steel (2006), tem como objetivo

captu-rar a variabilidade extra que Processo Gaussiano, introduzido para captucaptu-rar a correla¸cão espacial, não conseguiu identificar. O que justifica a inclusão da mesma é que, por exem-plo, poder´ıamos estar com um modelo onde não há variáveis espaciais que deveriam estar inclu´ıdas e o processo espacial pode não capturar a variabilidade neste caso.

(35)

Como modelamos a sobredispersão como um processo cont´ınuo no Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) é possivel fazer um mapa da sobredispersão do processo. Além disso podemos prever a sobredispersão em lugares sem observa¸cões e ter previsões mais realistas levando em considera¸cão a sobredispersão.

4.3 Fun¸

c˜

ao de verossimilhan¸

ca e especifica¸

c˜

ao da

pri-ori

Por pressuposto, os Yi s˜ao independentes condicionais a S. Portantoa fun¸c˜ao de

ve-rossimilhan¸ca ´e dada por,

p(Y|S, β, α, ν) = n Y i=1 e−λi_λyi i yi!

A escolha da distribui¸cão atribu´ıda a priori aos parâmetros de interesse é de suma importância no paradigma Bayesiano. Portanto, primeiramente fazemos um estudo des-sas distribui¸cões a priori atribu´ıdas aos parâmetros. Neste trabalho foi tomada como base algumas conclusões apresentadas por Palacios e Steel (2006) e Diggle et al. (1998) com rela¸cão a distribui¸cões a priori dos parâmetros.

A priori considera-se os parˆametros independentes e portanto,

p(β, σ2, φ, α, ν) = p(β)p(σ2)p(φ)p(α)p(ν).

Para β foi proposta uma priori proporcional a uma constante, ou seja, uma priori uniforme. Para σ2 _{foi feito uma reparametriza¸c˜}_{ao de maneira a chegar numa conjuga¸c˜}_ao

entre a verossimilhan¸ca e a priori. Trabalhando assim com a precis˜ao, τ = _σ12, definimos

a seguinte priori,

τ ∼ Ga(c1, c2).

Os valores de c1 e c2 s˜ao usualmente baixos de forma que a priori n˜ao seja muito

(36)

Conforme sugerido em Palacios e Steel (2006), foi atribu´ıda uma priori exponencial para φ denotada por,

φ ∼ Exp 1 med(dij) ,

onde med(dij) ´e a mediana de todas as distˆancias euclidianas entre quaisquer 2

ob-serva¸cões. Eles ainda afirmam que a distribui¸cão exponencial assegura que tenha uma grande massa em volta do zero que é o caso limite onde não há correla¸cão. Então se há evidência de correla¸cão, isto deve ser dito pelo dado e não pela priori.

O parâmetro ν teve uma priori não informativa uma vez que este parâmetro é mais restrito e assim foi atribu´ıda uma priori com média numericamente baixa e uma variância alta,

ν ∼ Gama(c3, c4),

onde c3 e c4 s˜ao constantes arbitr´arias

A priori sugerida por Diggle et al. (1998) para S é uma Normal obtida a partir da distribui¸cão Normal Multivariada oriunda do Processo Gaussiano que S segue por pressuposto. Sabe-se que a distribui¸cão condicional de uma Normal Multivariada também será Normal. Assim, a priori para S será dada por,

(S(k)|S−(k), θ), ∼ Nn(A; B), (4.4)

onde A e B é o vetor de médias e a matriz de covariâncias, respectivamente, obtidas a partir das propriedades da Normal Multivariada.

A componente α(x) ter´a distribui¸c˜ao a priori p(α(k)|α−(k), θ, ν) derivada de (4.3).

Neste contexto, S(k) e α(k) representam as componentes de S e α pertencentes ao bloco

K. Esta divisão em blocos está relacionada ao passo de atualiza¸cão dessas componentes que é explicitado mais a frente.

4.4 Procedimentos de inferˆ

encia e implementa¸

c˜

ao

A abordagem escolhida para fazer a inferência dos parâmetros do modelo neste tra-balho é a Bayesiana e o método de Monte Carlo via cadeias de Markov (MCMC) é usado

(37)

em grande escala nessa abordagem. Este m´etodo permite o ajuste de modelos mais complexos e de dif´ıcil tratamento.

Quando usamos inferência bayesiana temos como principal objetivo a obten¸cão de uma amostra da distribui¸cão a posteriori dos parâmetros de interesse e a partir dessa amostra fazer algumas inferências. O MCMC é uma técnica que permite a utiliza¸cão de diferentes algoritmos iterativos que fornecem essa amostra da distribui¸cão a posteriori dos parâmetros. Os mais conhecidos e usados são o amostrador de Gibbs e o Metropolis-Hastings.

Pelo Teorema de Bayes sabemos que a distribui¸cão a posteriori de um parâmetro qualquer é dada pelo produto entre a fun¸cão de verossimilhan¸ca e a distribui¸cão a priori definida para o parâmetro. Quando essa distribui¸cão a posteriori apresenta uma forma fechada e previamente conhecida, não se faz necessária uma aproxima¸cão da amostra da distribui¸cão a posteriori dos parâmetros do modelo.

Há também a possibilidade da distribui¸cão a posteriori não ter uma forma fechada e neste caso faz-se uso de um passo de Metropolis-Hastings. Quando temos alguns parâmetros com distribui¸cão condicional completa conhecida e outros com distribui¸cão condicional completa desconhecida é possivel implementarmos passos de Metropolis-Hastings dentro de um amostrador de Gibbs.

Para isso, é necessário obtermos os núcleos das distribui¸cões a posteriori de cada parâmetro de interesse do modelo. Vemos isso na subse¸cão seguinte.

4.4.1 Distribui¸

c˜

oes a posteriori

Com as distribui¸cões a priori definidas anteriormente temos condi¸cões de achar as distribui¸cões condicionais completas necessárias para desenvolver o método do MCMC. Vemos a seguir os núcleos dessas distribui¸cões.

• θ = (φ, τ ): Sabemos que,

(38)

p(φ, τ |Y, S, β, α, ν) ∝ |Σ|−1/2exp −1 2 S T_Σ−1 S p(φ)p(τ ) Assumindo a priori que τ ∼ Ga(c1, c2) e φ ∼ Exp

p(β|Y, S, θ, α, ν) = p(β|Y, S) ∝ p(Y|S, β)p(β)

p(β|Y, S, θ, α, ν) ∝ n Y i=1 e−λi_λyi i p(β) • ν: p(ν|Y, S, β, α, θ) ∝ p(Y|S, ν)p(ν) p(ν|Y, S, β, α, θ) ∝ " _n Y i=1 e−λi_λyi i # νc3−1_e−νc4

As distribui¸cões condicionais completas para S e α serão obtidas em blocos conforme a técnica utilizada para amostrar dessas componentes durante o passo de Metropolis-Hastings. Essa abordagem será tratada logo após a apresenta¸cão dos núcleos dessas distribui¸cões a posteriori.

• S = (S(x1), ..., S(xn)): p(S(k)|S−(k), Y , θ, β, α, ν) ∝ p(Y |S, β)p(S(k)|S−(k), θ), p(S(k)|S−(k), Y , θ, β, α, ν) ∝ " _n Y i=1 e−λi_λyi i # exp −1 2 (S(k)− A) T B−1(S(k)− A)

onde S(k) ´e o vetor formado apenas com as componentes de S pertencentes ao bloco k

pré definido. A e B são vetor de médias e matriz de covariância, respectivamente, da Normal Multivariada condicional.

(39)

onde α(k) ´e o vetor formado apenas com as componentes de α pertencentes ao bloco k

também pré definido. C e D são vetor de médias e matriz de covariância, respectivamente, da Normal Multivariada condicional expressa na equa¸cão (4.3).

4.4.2 Algoritmo de MCMC - Especifica¸

c˜

oes

Diggle et al. (1998) atualizam as componentes de S uma a cada vez e isso toma um tempo computacional muito grande uma vez que é necessário fazer inversões de matrizes grandes a cada itera¸cão. E quanto maior for o conjunto de dados, maior se torna esse gasto computacional e assim o processo come¸ca a ficar inviável.

Uma op¸cão poderia ser amostrar essas componentes de forma conjunta reduzindo assim o custo computacional porém, isso não permitiria que as cadeias se movessem em dire¸cões diferentes.

Dado isto, usaremos uma abordagem utilizada por Palacios e Steel (2006) onde se par-ticiona os elementos da componente em questão em blocos, onde cada bloco corresponde a um cluster de observa¸cões que estão relativamente próximas.

Palacios e Steel (2006) utilizaram este procedimento para componente introduzida no modelo com o intuito de captar observa¸cões mais distantes. No Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) esta componente será responsável por cap-turar o fenômeno da sobredispersão sendo representada por α e aplicaremos a mesma divisão em blocos para o S.

Espera-se que ao amostrar o bloco inteiro de uma vez o algoritmo se torne mais eficaz já que o custo computacional reduzirá em grande escala pois, ao invés de atualizar as n componentes individualmente a cada itera¸cão como foi proposto anteriormente, iremos

(40)

atualiz´a-las em 4 blocos.

Pode-se escrever o vetor α como a seguinte parti¸c˜ao,

α =   α(k) α−(k)  .

A matriz de covariˆancia poder´a ser escrita da seguinte maneira,

C(θ) =   C11C12 C21C22  ,

onde α(k) representa os elementos de α dentro do bloco k e α−(k) os elementos restantes.

As mesmas parti¸c˜oes foram consideradas para S.

Ao reparametrizar σ2 _{pela precis˜}_{ao τ ´}_{e poss´ıvel chegar numa distribui¸c˜}_{ao conhecida}

da condicional completa. Ent˜ao para obter uma amostra a posteriori de σ2 amostramos diretamente da distribui¸c˜ao Gama.

Conforme visto anteriormente, para os demais parâmetros do modelo não foi poss´ıvel obter uma distribui¸cão condicional completa numa forma conhecida. Assim, dentro do algoritmo é aplicado um passo de Metropolis-Hastings onde são definidas distribui¸cões propostas das quais são amostrados poss´ıveis valores para compor a amostra a posteriori dos parâmetros do modelo. A partir de uma probabilidade de aceita¸cão esses valores propostos são aceitos ou não.

Utilizar um passeio aleatório no momento de propor um novo valor para cadeia é usual nos métodos de Metropolis-Hastings. Neste caso propomos valores de uma distri-bui¸cão simétrica que depende do valor da cadeia no passo anterior. Isto significa que a probabilidade da cadeia se mover dependerá da distância entre o estado atual e o estado proposto. Assim, faz-se uso de uma distribui¸cão Normal centrada no valor da cadeia no passo anterior e com variância calibrada de maneira que o algoritmo tenha taxa de aceita¸cão em torno de 20% a 40%. Há ainda a possibilidade de trabalharmos com uma proposta do tipo passeio aleatório no log, onde propomos valores de uma distribui¸cão Normal centrada no logaritmo do valor da cadeia no passo anterior.

(41)

Portanto foi utilizado um passeio aleatório no log como distribui¸cão proposta para φ, ν e α. Na atualiza¸cão de S e β foi utilizado um passeio aleatório como proposta.

Outra questão abordada é a busca por um aprimoramento do MCMC aplicado para este modelo. Neste sentido, com o intuito de obter uma melhora na convergência do algoritmo, aplica-se uma reparametriza¸cão no parâmetro de regressão β0. Essa

repara-metriza¸cão permite que a atualiza¸cão dos parâmetros ocorra de forma mais ortogonal, o que acelera o andamento do algoritmo diminuindo assim o tempo computacional. Deste modo, a reparametriza¸cão é dada da seguinte maneira,

β₀∗ = β0+ s,

onde s ´e a m´edia dos valores correntes da cadeia de S.

O algoritmo apresentado neste cap´ıtulo ser´a utilizado na an´alise de dados reais e artificiais no cap´ıtulo seguinte.

4.5 Problema de identificabilidade

Uma dificuldade que pode se apresentar neste tipo de estudo é a identificabilidade da variabilidade dos dados. Pode ser que não seja poss´ıvel analisar os parâmetros de variabilidade separadamente. Para alguns conjuntos de dados puramente espaciais os parâmetros de variância λi podem se confundir com a variância global σ2 e neste caso

somente identifica-se a raz˜ao √σ2 λi.

Uma falta de identificabilidade análoga poderia ocorrer para dados puramente espa-ciais nos modelos combinados LN-P-LN, trazendo assim uma limita¸cão para o modelo. Porém neste trabalho este fato não foi observado a partir dos exemplos estudados.

Uma poss´ıvel solu¸cão para este problema seria incorporar e analisar observa¸cões ao longo do tempo como é apresentado em Fonseca e Steel (2011). Para o caso de dados com resposta Poisson essa seria uma poss´ıvel extensão do modelo utilizado aqui.

(42)

Cap´ıtulo 5

An´

alise de Dados

Neste cap´ıtulo iremos trabalhar com a aplica¸cão dos algortimos citados e propostos nas se¸cões anteriores em dados artificiais e dados reais. Primeiramente para dados artificiais teremos dois exemplos, no primeiro é aplicado o modelo proposto por Diggle et al. (1998) e no segundo exemplo, o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) proposto neste trabalho. Esses dados foram simulados a partir de um modelo usual Poisson Lognormal.

Em seguida modelaremos os dados reais do número de interna¸cões de pacientes com meningite viral por hospital do estado do Rio de Janeiro através do Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN).

5.1 Dados Artificiais

5.1.1 Exemplo 1

Foram simulados dados de contagem com estrutura espacial para validar e estudar o desempenho do algoritmo anteriormente explanado. Primeiramente iremos estudar o modelo proposto por Diggle et al. (1998).

Suponha o modelo,

(43)

log(λ(xi)) = β0 + β1lati + β2loni+ S(xi) (5.2)

onde E[S(x)] = 0 , Cov[S(x), S(x0)] = σ2_ρ(||x−x0_{||) e ρ (||x−x}0_{||) = exp}n−dij

φ o

sendo S um Processo Gaussiano e dij a distˆancia euclidiana entre dois pontos xi e xj quaisquer. As

variáveis explicativas neste caso serão a latitude e longitude e os parâmetros regressores β1 e β2, respectivamente.

Banerjee et al. (2004) trabalham com uma estrutura de covariância chamada Expo-nencial com fun¸cão de correla¸cão espacial ρ que depende das distâncias euclidianas dij

e de um parâmetro φ. Esta é a estrutura adotada para os dados artificiais. Banerjee et al. (2004) ainda sugerem que a correla¸cão da distância máxima entre as observa¸cões seja menor que 0,05, ou seja, ρ(dmax) < 0, 05.

Para obter esses dados artificiais é necessário primeiramente fixar os parâmetros. Assim β0 = −2 , β1 = 5 , β2 = 2 , φ = 0.5 e σ2 = 0.3. Após isto foram geradas 100

observa¸cões no quadrado [0,1] x [0,1] conforme modelo expresso através das equa¸cões (5.1) e (5.2). A distribui¸cão a posteriori dos parâmetros foi aproximada por MCMC.

As prioris utilizadas foram: _σ12 = τ ∼ Ga(0.1, 0.1), β ∼ C1 e φ ∼ Exp

1 0,511

, onde C1 ´e uma constante qualquer e portanto β ter´a uma priori Uniforme. Para S foi

atribu´ıda priori a partir da equa¸c˜ao (4.4).

Para análise de convergência foram utilizados critérios existentes na literatura e cal-culados a partir do pacote CODA do R. Os critérios utilizados foram: Geweke (1992), Raftery e Lewis (1992) e Heidelberger e Welch (1983). Estes critérios fornecem es-tat´ısticas que permitem analisar a estacionariedade, convergência, burn-in e espa¸camento necessários para se obter uma amostra a posteriori menos autocorrelacionada.

Conforme resultado obtido através do critério de Raftery e Lewis (1992) foi aplicado um burn-in de 4000 itera¸cões com espa¸camento de 50, resultando numa amostra de tamanho 6921.

Na tabela 5.1 vemos um resumo das amostras a posteriori com média e intervalos de credibilidade de 95%. Todos os intervalos contém os verdadeiros valores dos parâmetros.

(44)

Parˆametros Valor verdadeiro M´edia a posteriori Intervalo de credibilidade φ 0,3 0,281 (0,111 ; 0,861) σ2 _0,5 _0,472 _{(0,215 ; 1,357)} β0 -2 -2,083 (-2,332 ; -1,84) β1 5 5,072 (4,801 ; 5,349) β2 2 2,069 (1,909 ; 2,227)

Tabela 5.1: Resumo da distribui¸c˜ao a posteriori - Exemplo 1

As cadeias dos parâmetros e as densidades das distribui¸cões a posteriori podem ser vistas na figura 5.1. Com uma análse visual desta figura e aplica¸cão dos critérios de convergência propostos em Geweke (1992), Raftery e Lewis (1992) e Heidelberger e Welch (1983) podemos verificar que todas as cadeias se mostraram estacionárias e convergiram para o verdadeiro valor do parâmetro utilizado para gerar os dados.

O gráfico na figura 5.2 é obtido da seguinte maneira: Para cada distância em uma grade pré determinada é calculada a correla¸cão para cada observa¸cão da amostra a pos-teriori de φ obtida através do MCMC. Assim obtemos com um conjunto de correla¸cões de tamanho M para cada distância, onde M é o tamanho da amostra a posteriori dos parâmetros. A seguir, é calculado o intervalo de credibilidade para esse conjunto de correla¸cões e a mediana. As linhas vermelhas ao longo do gráfico são os intervalos de credibilidadede 95%. A linha preta representa a mediana.

Podemos ver na figura 5.2 que a partir da distância 1,093 a correla¸cão entre os efeitos espaciais come¸ca a ser desprez´ıvel. Conclu´ımos assim que a partir dessa distância as ob-serva¸cões podem ser consideradas aproximadamente não correlacionadas. Esta distância ´

e definida em graus uma vez que estamos trabalhando com a latitude e longitude das observa¸cões. Assim não é poss´ıvel fazermos uma alusão ao um sistema métrico utili-zado usualmente. Ainda analisando a figura 5.2, a linha azul representa a verdadeira correla¸cão para grade de distância utilizada. Portanto, a correla¸cão a posteriori obtida através do MCMC se aproxima da verdadeira correla¸cão.

Com isso vemos que o algoritmo se mostrou eficiente na modelagem de dados de contagem espacialmente referenciados.

(45)

Figura 5.1: Tra¸cos das cadeias e fun¸c˜oes densidade de probabilidade suavizadas das distribui¸c˜oes a posteriori de φ, σ2_{, β}

0, β1 e β2 . Linha vermelha: valor verdadeiro

(46)

Figura 5.2: Sumário da distribui¸cão a posteriori da fun¸cão de correla¸cão - Exemplo 1

5.1.2 Exemplo 2

Desta vez iremos analisar os mesmos dados gerados no Exemplo 1 porém utilizando o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) proposto segundo as equa¸cões (4.1) e (4.2). Sabemos que este dado foi gerado a partir de um modelo Poisson Lognormal usual, portanto espera-se que ao fazer inferências sobre o parâmetro res-ponsável por captar a sobredispersão, α, ele esteja em torno de 1.

Foi aplicado o teste o bayesiano, que utiliza a razão de Savage-Dickey, para averi-gua¸cão de evidência de sobredispersão nos dados. A hipóstese de que as componentes αi variam livremente foi descartada, concluindo assim que não há evidência de

(47)

As priori s utilizadas foram: 1 σ2 = τ ∼ Ga(0.1, 0.1), β ∼ C1, φ ∼ Exp 1 0,511 e ν ∼ Gama(0.1, 0.1), onde C1 ´e uma constante qualquer e portanto β ter´a uma priori

Uniforme na reta. Para S e α foram atribu´ıdas priori s a partir das equa¸c˜oes (4.4) e (4.3), respectivamente.

Foi tomado um espa¸camento de 50 itera¸cões e um burn-in de 400 itera¸cões segundo o critério de convergência de Raftery e Lewis (1992) resultando numa amostra a posteriori de 6996 unidades.

Com o aux´ılio dos critérios de convergência dispon´ıveis na literatura e uma análise gráfica podemos verificar que as cadeias se mostraram estacionárias e convergentes.

Na tabela 5.2 vemos um resumo das amostras a posteriori com a média e o intervalo de credibilidade de 95%. Todas as médias a posteriori se mostraram próximas dos valores verdadeiros do parâmetro.

Parˆametros Valor verdadeiro M´edia a posteriori Intervalo de credibilidade

φ 0,3 0,278 (0,104 ; 0,892)

σ2 _0,5 _0,342 _{(0,151 ; 1,024)}

β0 -2 -1,734 (-2,024 ; -1,462)

β1 5 5,159 (4,861 ; 5,462)

β2 2 1,559 (1,331 ; 1,790)

Tabela 5.2: Resumo da distribui¸c˜ao a posteriori - Exemplo 2

Através da figura 5.3 vemos que a partir da distância 0,7 as observa¸cões podem ser consideradas não correlacionadas já que a correla¸cão entre as elas come¸ca a ser des-prez´ıvel. A figura 5.3 ainda mostra a verdadeira correla¸cão dos dados representada pela linha azul. Vemos portanto que correla¸cão a posteriori obtida através do MCMC se aproxima da verdadeira correla¸cão.

O comportamento das cadeias e os histogramas dos parˆametros podem ser observados na figura 5.4. Conclu´ımos assim que o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) se mostrou eficiente para dados espacialmente georeferenciados de contagem.

(48)

Figura 5.3: Sumário da distribui¸cão a posteriori da fun¸cão de correla¸cão - Exemplo 2 Na figura 5.5 podemos observar o boxplot da distribui¸cão a posteriori de cada α(xi).

Vemos que todas as componentes apresentaram mediana pr´oximas ao valor 1 e algumas bem concentradas em torno de 1.

Foram selecionados algumas componentes de α e as cadeias dessas componentes po-dem ser vistas na fgura 5.6. Todas elas convergiram para o valor 1.

(49)

Figura 5.4: Tra¸cos das cadeias e fun¸c˜oes densidade de probabilidade suavizadas das distribui¸c˜oes a posteriori de φ, σ2_{, β}

0, β1 e β2 . Linha vermelha: valor verdadeiro

(50)

(51)

Figura 5.6: Tra¸co das cadeias das distribui¸c˜oes a posteriori de alguns α(xi). Linha

(52)

5.2 Dados de Meningite Viral

Esta se¸cão apresenta uma aplica¸cão do modelo combinado LN-P-LN, proposto ante-riormente neste trabalho através das equa¸cões (4.1) e (4.2), em dados reais de interesse em saúde da popula¸cão com o intuito de trazer uma contribui¸cão para o estudo de dados de contagem com dependência espacial e sobredispersão que não é captada pelo processo espacial.

Com esta abordagem espera-se propor um modelo que consiga explicar os dados com estimativas precisas para os parˆametros de interesse.

Seja a variável de interesse Y o número de interna¸cões por meningite viral em 107 hospitais no estado do Rio de Janeiro no per´ıodo de Janeiro de 2008 a Maio de 2015. As covariáveis utilizadas neste modelo foram a latitude, longitude dos estabelecimentos de saúde e a esfera administrativa, ou seja, se o hospital pertence a rede privada ou pública. Importante ressaltar que a padroniza¸cão das variáveis de latitude e longitude é de grande aux´ılio na convergência do algoritmo do modelo combinado LN-P-LN.

Segundo a tabela 2.1 proposta em Kass e Raftery (1995) sabemos que para valores de Ri no intervalo ₂₀1;1₃ há evidência positiva de sobredispersão e no intervalo ₁₅₀1 ;₂₀1

há forte evidência de sobredispersão.