Modelos para dados de contagem espacial
com sobredispers˜
ao
Luiz Fernando Lima Costa
Universidade Federal do Rio de Janeiro
Instituto de Matem´
atica
Departamento de M´etodos Estat´ısticos
2015
Modelos para dados de contagem espacial com
sobredispers˜
ao
Luiz Fernando Lima Costa
Disserta¸c˜ao de Mestrado submetida ao Programa de P´os-Gradua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do t´ıtulo de Mestre em Estat´ıstica.
Aprovada por:
Thais Cristina Oliveira da Fonseca DME/IM - UFRJ - Orientadora.
Alexandra Mello Schmidt DME/IM - UFRJ.
Aline Ara´ujo Nobre FIOCRUZ.
Rio de Janeiro, RJ - Brasil 2015
CIP - Catalogação na Publicação
Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a) autor(a).
C837m
Costa, Luiz Fernando Lima
Modelos para dados de contagem espaciais com sobredispersão / Luiz Fernando Lima Costa. -- Rio de Janeiro, 2015.
53 f.
Orientador: Thais Cristina Oliveira da Fonseca. Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, 2015. 1. Geoestatística. 2. Inferência Bayesiana. 3. Sobredispersão. 4. Poisson. 5. Dados de contagem. I. Fonseca, Thais Cristina Oliveira da, orient. II. Título.
Agradecimentos
Primeiramente a Deus pela d´adiva da vida. Sem sua miseric´ordia e gra¸ca eu n˜ao teria chegado at´e aqui.
A toda minha fam´ılia e em especial aos meus pais, Luiz Henrique e Silvia, por todo apoio e incentivo dado desde o come¸co da minha carreira estudantil. Obrigado por acreditarem que eu seria capaz e terem me dado todo suporte necess´ario.
Aos meus amigos que entenderam e aceitaram as v´arias vezes que deixamos de nos ver pois eu estava muito ocupado com a disserta¸c˜ao. Valeu a pena esperar.
Aos amigos especiais que reencontrei e conheci durante o Mestrado: Caroline Ponce, Juliana Freitas e Rafael Erbist. Sem d´uvida a amizade e o companherismo que criamos nesse per´ıodo nos fortaleceu e nos deu for¸ca para continuar. Sem contar as pizzas de toda ter¸ca-feira que ajudava a relaxar depois de um dia inteiro de estudo. A Liga sobreviveu. Aos amigos do IBGE que sempre acreditaram em mim e me apoiaram. Seus conselhos foram providenciais para o t´ermino deste trabalho. Em especial quero destacar Daniela Barreto, Roberta Souza, Samela Arantes, Sofia Monti e Viviane Quintaes.
A minha orientadora Thais Fonseca por ter aceitado prontamente me orientar e ter me dado todo suporte necess´ario para concluir esta etapa da minha vida.
A professora Aline Nobre por ter aceito fazer parte da banca e ter disponibilizado tempo para discutir e contribuir com a presente disserta¸c˜ao.
A professora Alexandra M. Schmidt por ter sido pe¸ca importante na minha caminhada no Mestrado. Desde o curso de ver˜ao, passando por professora de disciplina, depois trabalhando comigo na monitoria e, fechando o ciclo, fazendo parte dessa banca. Suas palavras de apoio e seu exemplo foram de suma importˆancia. Muito obrigado.
A todos que de alguma forma, direta ou indireta, contribuiram para minha forma¸c˜ao tanto na ENCE quanto na UFRJ.
Resumo
A an´alise estat´ıstica de dados tem passado por grande desenvolvimento devido ao avan¸co tecnol´ogico que permite armazenamento e estudo de dados mais complexos. Em particular, a an´alise de dados espaciais tem avan¸cado significativamente. O objetivo deste trabalho ´e contribuir com a an´alise de dados de contagem georeferenciados com sobre-dispers˜ao. Para isto, ´e proposto um modelo chamado Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) para tratar destas especificidades com foco em dados de geoestat´ıstica. O processo inferencial utilizado foi Bayesiano e para estima¸c˜ao o algoritmo de Monte Carlo via Cadeias de Markov (MCMC) foi escolhido. Para ilustrar a metodo-logia foram estudados dados artificiais e dados reais referentes ao n´umero de interna¸c˜oes por meningite viral nos hospitais do estado do Rio de Janeiro. O modelo combinado LN-P-LN se mostrou satisfat´orio para ambos os dados. Para uma an´alise da convergˆencia das cadeias foram aplicados crit´erios de convergˆencia amplamente utilizados na literatura. Vimos tamb´em que h´a necessidade de se estudar melhor os testes dispon´ıveis na litera-tura para verifica¸c˜ao da presen¸ca de sobredispers˜ao nos dados e tamb´em que a inser¸c˜ao de novas covari´aveis para o modelo com dados reais seria interessante.
Palavras-Chaves: geoestat´ıstica, inferˆencia bayesiana, sobredispers˜ao, Poisson, dados de contagem.
Abstract
The statistical data analysis has improved due to the technological progress which allows storage and study of more complex data. In particular the analysis of statistical data has advanced significantly. The purpose of this work is to contribute to the analysis of georeferenced count data with overdispersion. In this context, it’s proposed a mo-del called Combined Momo-del Lognormal-Poisson-Lognormal (LN-P-LN) to address these specificities. The Bayesian inferential process was used and so the Monte Carlo Markov Chains (MCMC) algorithm has been chosen for estimation. To illustrate the methodo-logy simulated and real data on the number of hospitalizations due to viral meningitis in hospitals in Rio de Janeiro were studied. The Combined Model Lognormal-Poisson-Lognormal (LN-P-LN) proved satisfactory for both data. Convergence criteria widely used in the literature were applied for the analysis of the convergence of chains. We have also seen that there is need to better study the hypoteses tests available in the literature for the presence of overdispersion in the data and also the insertion of new covariates for the model with real data would be interesting.
Sum´
ario
1 Introdu¸c˜ao 1 1.1 Exemplo ilustrativo . . . 3 1.2 Delineamento da disserta¸c˜ao . . . 5 2 Sobredispers˜ao 7 2.1 O problema da sobredispers˜ao . . . 72.2 Testes para investigar a evidˆencia de sobredispers˜ao . . . 9
2.2.1 Teste cl´assico - Dean . . . 9
2.2.2 Teste Bayesiano - Savage-Dickey . . . 10
2.2.3 Obtendo o Fator de Bayes . . . 12
3 Dados georreferenciados 13 3.1 Defini¸c˜oes e conceitos de Estat´ıstica Espacial . . . 13
3.2 Modelo Linear Generalizado com Estrutura Espacial . . . 15
3.3 Quest˜oes de implementa¸c˜ao do Modelo Linear Generalizado com Estrutura Espacial . . . 17
4 Modelo Proposto 19 4.1 Modelo Gaussian-log-Gaussian (GLG) . . . 20
4.2 Descri¸c˜ao do modelo proposto . . . 21
4.3 Fun¸c˜ao de verossimilhan¸ca e especifica¸c˜ao da priori . . . 23
4.4 Procedimentos de inferˆencia e implementa¸c˜ao . . . 24
4.4.2 Algoritmo de MCMC - Especifica¸c˜oes . . . 27
4.5 Problema de identificabilidade . . . 29
5 An´alise de Dados 30 5.1 Dados Artificiais . . . 30
5.1.1 Exemplo 1 . . . 30
5.1.2 Exemplo 2 . . . 34
5.2 Dados de Meningite Viral . . . 40
Lista de Tabelas
2.1 Valores cr´ıticos para o Fator de Bayes . . . 12
5.1 Resumo da distribui¸c˜ao a posteriori - Exemplo 1 . . . 32
5.2 Resumo da distribui¸c˜ao a posteriori - Exemplo 2 . . . 35
Lista de Figuras
1.1 Histograma do n´umero de interna¸c˜oes devido a meningite viral por hospital do estado do Rio de Janeiro no per´ıodo de Janeiro de 2008 a Maio de 2015 4 1.2 Intensidade do n´umero de interna¸c˜oes devido a meningite viral por hospital
do estado do Rio de Janeiro . . . 4 3.1 Estrutura de dependˆencia . . . 16 5.1 Tra¸cos das cadeias e fun¸c˜oes densidade de probabilidade suavizadas das
distribui¸c˜oes a posteriori de φ, σ2, β
0, β1 e β2 . Linha vermelha: valor
verdadeiro - Exemplo 1 . . . 33 5.2 Sum´ario da distribui¸c˜ao a posteriori da fun¸c˜ao de correla¸c˜ao - Exemplo 1 34 5.3 Sum´ario da distribui¸c˜ao a posteriori da fun¸c˜ao de correla¸c˜ao - Exemplo 2 36 5.4 Tra¸cos das cadeias e fun¸c˜oes densidade de probabilidade suavizadas das
distribui¸c˜oes a posteriori de φ, σ2, β
0, β1 e β2 . Linha vermelha: valor
verdadeiro -Exemplo 2 . . . 37 5.5 Boxplot da distribui¸c˜ao a posteriori das componentes α(xi) - Exemplo 2 . 38
5.6 Tra¸co das cadeias das distribui¸c˜oes a posteriori de alguns α(xi). Linha
vermelha: abscissa de valor 1 - Exemplo 2 . . . 39 5.7 Estat´ısticas do Teste Bayesiano para sobredispers˜ao - Dados reais . . . . 40 5.8 Mapa da evidˆencia de sobredispers˜ao . . . 42 5.9 Sum´ario da distribui¸c˜ao a posteriori da fun¸c˜ao de correla¸c˜ao - Dados reais 43 5.10 Boxplot da distribui¸c˜ao a posteriori das componentes α(xi) - Dados reais 44
5.11 Tra¸co das cadeias das distribui¸c˜oes a posteriori de φ, σ2, β
0, β1, β2 e β3
5.12 Histogramas e fun¸c˜oes densidade de probabilidade suavizadas das distri-bui¸c˜oes a posteriori de φ, σ2, β
0, β1, β2 e β3 - Dados reais . . . 46
Cap´ıtulo 1
Introdu¸
c˜
ao
A an´alise estat´ıstica de dados passou por grande desenvolvimento ao longo dos anos devido ao avan¸co tecnol´ogico que permite armazenamento e an´alise de dados cada vez mais complexos. Com este avan¸co ´e poss´ıvel aplicarmos t´ecnicas estat´ısticas mais realistas nas mais diversas ´areas da ciˆencia.
Um tipo de dado de interesse ´e aquele composto por contagens observadas num deter-minado per´ıodo de interesse. Esses dados s˜ao obtidos a partir da observa¸c˜ao do n´umero de ocorrˆencias de um determinado evento de interesse. Por exemplo, a quantidade de pessoas atendidas numa loja em um dia de trabalho, ou a quantidade de interna¸c˜oes por doen¸cas card´ıacas em diversos hospitais.
A esses dados d´a-se o nome de dados de contagem e para eles existe um tratamento diferente. Esses dados s˜ao sempre n˜ao negativos e obtidos a partir de uma contagem e n˜ao de uma classifica¸c˜ao. Eles podem ainda apresentar caracter´ısticas que s˜ao usuais para este tipo de dado, tais como sobredispers˜ao e excesso de zeros. Para dados que apresentam sobredispers˜ao ´e necess´aria uma abordagem diferente do modelo usual de Poisson.
Em determinados casos os dados carregam consigo uma informa¸c˜ao a mais, a sua localiza¸c˜ao geogr´afica. Espera-se assim que observa¸c˜oes obtidas em locais pr´oximos te-nham maior correla¸c˜ao e, que uma menor correla¸c˜ao seja observada paraobserva¸c˜oes em locais distantes.
´
e de extrema importˆancia que se leve em considera¸c˜ao a estrutura de correla¸c˜ao espacial existente. A esses dados d´a-se o nome de dados espaciais e existe uma ´area na estat´ıstica especializada para trabalhar com esse tema, chamada Estat´ıstica Espacial.
Diversas ´areas fazem uso dessas t´ecnicas para seus estudos como epidemiologia, agro-nomia, demografia, sensoriamento remoto. Cressie (1993) divide a estat´ıstica espacial em trˆes grandes ´areas que cont´em os seguintes tipos de dados: dados de geoestat´ıstica, dados de ´area e processos pontuais.
Dados de ´area s˜ao observados a partir de uma regi˜ao fixa no espa¸co que pode ou n˜ao ter forma regular. Esta regi˜ao estar´a particionada em um n´umero finito de sub-regi˜oes. Assim a realiza¸c˜ao do processo estoc´astico estar´a ligada a essa regi˜ao definida pela parti¸c˜ao. Usualmente, esse processo representar´a uma medida da vari´avel numa determinada regi˜ao.
Processos pontuais s˜ao definidos como um conjunto de pontos com coordenadas aleat´orias no espa¸co. O principal objetivo na an´alise deste tipo de dado ´e estudar a distribui¸c˜ao espacial destes pontos e determinar se o padr˜ao observado ´e aleat´orio ou, se os pontos s˜ao regularmente distribu´ıdos segundo um padr˜ao sistem´atico ou, at´e mesmo, verificar se os pontos se distribuem em aglomerados.
Este trabalho tem foco em dados de geoestat´ıstica que s˜ao considerados uma realiza¸c˜ao particular de um processo indexado pela localiza¸c˜ao que pode variar de forma cont´ınua ao longo de uma regi˜ao fixa definida no espa¸co, conforme descrito em Banerjee et al. (2004).
Segundo Cressie (1993) dados de geoestat´ıstica s˜ao realiza¸c˜oes de um processo es-toc´astico num subconjunto com volume p-dimensonal. Atrav´es de modelos espaciais ´e poss´ıvel fazer inferˆencia sobre os parˆametros, para aplica¸c˜oes onde h´a necessidade em entender o processo que gerou os dados e al´em disso, fazer previs˜ao que no caso espacial pode ser vista como uma estima¸c˜ao de uma realiza¸c˜ao do processo em um local onde n˜ao houve medi¸c˜ao.
Sendo assim, este trabalho prop˜oe uma forma alternativa de acomodar a sobredis-pers˜ao em modelos para dados de contagem levando em considera¸c˜ao a disposi¸c˜ao espacial dos mesmos e aplicando t´ecnicas estat´ısticas espec´ıficas para dados de geoestat´ıstica.
1.1
Exemplo ilustrativo
A seguir, descreve-se uma aplica¸c˜ao a dados de meningite viral que ser˜ao usados para ilustrar o modelo de Poisson espacial com sobredispers˜ao utilizado nesse trabalho.
H´a um interesse crescente no estudo e desenvolvimento de estudos epidemiol´ogicos e da dinˆamica dos agentes de doen¸cas infecciosas. Uma forma de agregar mais informa¸c˜oes a esses estudos ´e levar em considera¸c˜ao a estrutura espacial presente nos dados referentes a doen¸cas infecciosas.
A meningite viral ´e caracterizada por um quadro cl´ınico de altera¸c˜ao neurol´ogica, que, em geral, evolui de forma benigna e pode ser causada por v´arios microrganismos, como v´ırus, bact´erias, fungos e parasitas. A transmiss˜ao pode ser feita pelo ar, por contato direto (got´ıculas de saliva ou muco, sangue e/ou produtos sangu´ıneos) e indireto (utens´ılios, ´agua e alimentos contaminados ou picada de animais). Os casos podem ocorrer isoladamente, embora o aglomerado de casos seja comum.
A literatura mostra que as crian¸cas menores de 18 meses, al´em de serem as mais atingidas pela doen¸ca, s˜ao as que mais evoluem para ´obito pois n˜ao tem seus anticorpos t˜ao desenvolvidos para sua defesa. Por´em o adulto corre risco de contrair a doen¸ca tamb´em.
Neste trabalho estudamos o n´umero de interna¸c˜oes, diagnosticadas como meningite viral, por hospitais do estado do Rio de Janeiro. O per´ıodo de referˆencia desses dados ´
e de Janeiro de 2008 a Maio de 2015. A popula¸c˜ao de estudo neste trabalho ´e formada por 107 hospitais. Com esses dados espera-se chegar num modelo que consiga explicar de forma eficiente a ocorrˆencia dos casos de meningite viral ao longo do espa¸co do estado do Rio de Janeiro.
Os dados em quest˜ao foram obtidos atrav´es do DATASUS 1, o departamento de
inform´atica do SUS que tem como um dos objetivos fomentar, regulamentar e avaliar as a¸c˜oes de informatiza¸c˜ao dos dados do SUS, possibilitando assim o estudo com essas bases de dados.
Figura 1.1: Histograma do n´umero de interna¸c˜oes devido a meningite viral por hospital do estado do Rio de Janeiro no per´ıodo de Janeiro de 2008 a Maio de 2015
Figura 1.2: Intensidade do n´umero de interna¸c˜oes devido a meningite viral por hospital do estado do Rio de Janeiro
Na figura 1.1 vemos a grande concentra¸c˜ao de hospitais com 0 a 10 interna¸c˜oes de pacientes com meningite viral. Este fato sugere que o modelo Gaussiano n˜ao seria uma boa aproxima¸c˜ao para esses dados.
A figura 1.2 mostra como os casos de interna¸c˜oes por meningite viral se distribuem espacialmente no estado do Rio de Janeiro e al´em disso podemos ver que as maiores intensidades de interna¸c˜oes acontece em locais mais pr´oximos, salvo algumas exce¸c˜oes.
Atrav´es de uma an´alise descritiva dos dados verificamos que 50% dos hospitais perten-centes a popula¸c˜ao de estudo internaram 3 pacientes com meningite viral neste per´ıodo. A m´edia de interna¸c˜ao por hospital ´e 7,03 com uma variˆancia dos dados da ordem de 71,24 o que revela ind´ıcios da presen¸ca de sobredispers˜ao nas observa¸c˜oes.
Dentre os 107 estabelecimentos de sa´ude, 70% pertencem a esfera p´ublica e 30% a esfera privada. O tipo de dependˆencia administrativa tamb´em ser´a inclu´ıdo no modelo como uma vari´avel explicativa.
1.2
Delineamento da disserta¸
c˜
ao
A disserta¸c˜ao est´a organizada da seguinte maneira, no cap´ıtulo 2 ´e apresentado o problema da sobredispers˜ao e como o mesmo vem sendo tratado na literatura. S˜ao descritos testes para verificar a presen¸ca de sobredispers˜ao nos dados de interesse.
No cap´ıtulo 3 s˜ao introduzidos conceitos e defini¸c˜oes pertinentes em Estat´ıstica Espa-cial, assim como ´e introduzido o modelo trabalhado por Diggle et al. (1998) para dados com estrutura espacial e algumas quest˜oes de implementa¸c˜ao do mesmo.
No cap´ıtulo 4 ´e feita uma revis˜ao do modelo Gaussian-log-Gaussian proposo por Pa-lacios e Steel (2006) e como a ideia presente neste modelo ajudar´a na constru¸c˜ao do modelo proposto pela disserta¸c˜ao. Apresentamos um modelo capaz de capturar a sobre-dispers˜ao presente nos dados que o processo espacial n˜ao consegue identificar. Tamb´em s˜ao descritos os procedimentos de implementa¸c˜ao e inferˆencia utilizados para este modelo. O cap´ıtulo 5 apresenta a an´alise de dados artificiais e reais utilizando o modelo apre-sentado por Diggle et al. (1998) e o modelo proposto neste trabalho. Primeiramente, ´e feita uma an´alise para os dados artificiais utilizando o modelo proposto por Diggle et al.
(1998) e o modelo proposto. Em seguida, o conjunto de dados referentes ao n´umero de interna¸c˜oes de pacientes com meningite viral por hospital do estado do Rio de Janeiro ´e analisado atrav´es do modelo proposto nesta disserta¸c˜ao.
Por fim, o cap´ıtulo 6 apresenta um resumo sobre os resultados da disserta¸c˜ao e pos-siveis extens˜oes para trabalhos futuros.
Cap´ıtulo 2
Sobredispers˜
ao
2.1
O problema da sobredispers˜
ao
Quando estamos interessados em realizar uma an´alise estat´ıstica de dados de contagem usualmente faz-se uso da distribui¸c˜ao Poisson para modelar esse tipo de dado. Por´em, para esse tipo de distribui¸c˜ao sabemos que h´a uma rela¸c˜ao de igualdade entre m´edia e variˆancia dos dados. Na pr´atica essa rela¸c˜ao ´e muito restritiva e h´a situa¸c˜oes onde a variˆancia dos dados pode ser maior que a m´edia. A esse fenˆomeno ´e dado o nome de sobredispers˜ao e ele ocorre de forma frequente na pr´atica para dados de contagem. Assim, o modelo de Poisson usual n˜ao consegue capturar essa caracter´ıstica das observa¸c˜oes.
McCullagh e Nelder (1989) dizem que sobredispers˜ao ´e o mais usual de se observar no mundo real e a dispers˜ao nominal ´e exce¸c˜ao. Algumas poss´ıveis causas para sobre-dispers˜ao podem ser: correla¸c˜ao entre as respostas individuais, o modo como foi feita a amostragem, n´ıvel agregado dos dados, vari´aveis explicativas omitidas, excesso de zero, entre outras.
O modelo Poisson-lognormal, obtido atrav´es da inclus˜ao de um efeito aleat´orio normal no preditor linear, tem a capacidade de captar a sobredispers˜ao. Esta distribui¸c˜ao ´e grandemente utilizada para tratar de dados de contagem. Em Bulmer (1974) vemos a verossimilhan¸ca para o modelo Poisson-lognormal e como obter estimativas para este modelo.
´
Yi|λi ∼ P oisson(λi) e λi ∼ Gama(α, β). Assim, a distribui¸c˜ao marginal de Yi ser´a uma
Binomial Negativa e a sobredispers˜ao nesse caso ser´a interpretada como a heterogeneidade n˜ao observada entre as observa¸c˜oes, segundo Gschl¨oßl e Czado (2006).
Neyens et al. (2011) trabalham com um modelo combinado que acomoda a sobre-dispers˜ao e a correla¸c˜ao espacial do dado utilizando um modelo Poisson-gamma com estrutura espacial de dados de ´area. Segundo Besag et al. (1991), este modelo ´e uma alternativa ao modelo de convolu¸c˜ao usual que utiliza a componente CAR (conditio-nal autoregressive) na sua estrutura. O modelo apresentado por Neyens et al. (2011), aplic´avel a dados de ´area, ´e capaz de aprimorar a modelagem quando os dados cont´em uma alta heterogenidade n˜ao correlacionada. A distribui¸c˜ao Gama utilizada permite que o modelo acomode bem a sobredispers˜ao em sua estrutura.
Em Molenberghs et al. (2007) prop˜oe-se um modelo para cen´arios onde ´e necess´ario estudar a sobredispers˜ao levando em considera¸c˜ao a estrutura hier´arquica dos dados. A flexibilidade deste modelo permite adicionar covari´aveis e efeitos aleat´orios. Esses efeitos aleat´orios introduzidos em Molenberghs et al. (2007) podem ter distribui¸c˜ao Normal ou Gama. O efeito introduzido com intuito de estudar a varia¸c˜ao causada pela estrutura hier´arquica dos dados de contagem seguir´a uma distribui¸c˜ao Normal. J´a o efeito aleat´orio introduzido para captar a sobredispers˜ao presente nos dados ser´a distribu´ıdo segundo uma Gama.
Gschl¨oßl e Czado (2006) trabalham com a heterogeneidade n˜ao observada nos dados fazendo uso de modelos mais flex´ıveis que o modelo Poisson usual captando assim o efeito da sobredispers˜ao. Para dados espaciais ´e utilizado efeitos aleat´orios associados a cada regi˜ao no espa¸co permitindo assim modelar a estrutura de depˆendencia espacial presente. Gschl¨oßl e Czado (2006) consideram diferentes modelos comparando a incorpora¸c˜ao ou n˜ao da dependˆencia espacial utilizando a abordagem Bayesiana. Quando se trata da incorpora¸c˜ao da depedˆencia espacial, s˜ao trabalhados dados de ´area.
A an´alise temporal para dados de contagem com sobredispers˜ao tamb´em ´e poss´ıvel. Schmidt e Pereira (2011) consideram um modelo dinˆamico Poisson que permite a iden-tifica¸c˜ao da sobredispers˜ao para cada momento no tempo que o dado ´e observado, al´em da estrutura temporal presente nos dados.
A n˜ao incorpora¸c˜ao da sobredispers˜ao ao fazer a an´alise dos dados pode causar alguns problemas. Um deles ´e que o erro padr˜ao obtido ser´a incorreto e, consequentemente, isto nos levar´a a conclus˜oes incorretas sobre a significˆancia dos parˆametros.
Outro problema pode ser a escolha de modelos mais complexos do que o necess´ario para explicar os dados em quest˜ao. E por fim, a interpreta¸c˜ao do modelo ficar´a compro-metida assim como as previs˜oes obtidas.
Ainda que o modelo Poisson-lognormal seja capaz de captar a sobredispers˜ao presente nos dados, ´e poss´ıvel que alguma variabilidade n˜ao seja capturada. Assim, h´a um interesse em estudar essa variabilidade extra presente nos dados e, para isso, o presente trabalho prop˜oe uma maneira alternativa de captar esta sobredispers˜ao excedente.
A seguir, descrevem-se alguns testes propostos na literatura para investigar a existˆencia de sobredispers˜ao em dados de contagem.
2.2
Testes para investigar a evidˆ
encia de
sobredis-pers˜
ao
2.2.1
Teste cl´
assico - Dean
H´a anos vˆem sendo discutidos testes para detectar se os dados em estudo apresentam uma varia¸c˜ao extra, no caso Poisson se a variˆancia observada ´e maior que a m´edia. Dean (1992) apresenta uma unifica¸c˜ao dessas teorias e trabalha com um teste desenvolvido para lidar com distribui¸c˜oes arbitr´arias onde somente os dois primeiros momentos s˜ao especificados.
Assuma o seguinte modelo,
Yi ∼ P oisson(λi),
onde λi = eZ
T
i β e portanto θi = ln(λi) = ZT
i β. Para apurar a sobredispers˜ao diremos que
o parˆametro canˆonico θi n˜ao ´e fixo e sim aleat´orio representado por θi∗ onde E(θi∗) = θi
e V (θi∗) = τ ki(θi) para τ > 0 e ki(θi) diferenci´avel. Neste mesmo cen´ario a variˆancia de
Assim, o interesse ser´a em testar se τ = 0 ou τ > 0. Se τ = 0 conclu´ımos que n˜ao h´a evidˆencias de sobredispers˜ao para o conjunto de dados. Se o contr´ario ´e observado, os dados apresentam sobredispers˜ao.
Dean (1992) apresenta trˆes maneiras de se representar um modelo Poisson com so-bredispers˜ao, por´em o foco aqui ser´a em apenas uma dessas. Um modelo com infla¸c˜ao simples da variˆancia, outro com efeitos aleat´orios multiplicativos e o modelo log-linear. Este ´ultimo tem a mesma representa¸c˜ao do modelo utilizado neste trabalho e por isso ser´a dado enfoque a ele.
Em Dean (1992) e Yang et al. (2008) ´e apresentada a seguinte estat´ıstica de teste:
S = n P i=1 {[yi− ˆλi]2–yi} r 2 n P i=1 ˆ λ2 i . (2.1)
Assintoticamente a estat´ıstica de teste S ter´a uma distribui¸c˜ao Normal Padr˜ao. A um n´ıvel de significˆancia α se S for maior que z1−α2, o percentil 100(1 − α2)% desta normal,
rejeitamos a hip´otese nula, com isso conclui-se que um modelo usual Poisson n˜ao seria o indicado para os dados em quest˜ao.
Para o tipo de dado que este trabalho tem foco, dados de contagem georreferenci-ados, o teste cl´assico n˜ao ´e indicado uma vez que ele n˜ao foi constru´ıdo para levar em considera¸c˜ao a estrutura espacial do conjunto de dados que est´a sendo testado.
2.2.2
Teste Bayesiano - Savage-Dickey
Segundo a perspectiva Bayesiana podemos testar a existˆencia de sobredispers˜ao nos dados a partir de um teste de hip´oteses que envolver´a o c´alculo do Fator de Bayes que consiste na divis˜ao entre a raz˜ao das densidades a posteriori e a raz˜ao das densidades a priori. Esta medida ´e calculada da seguinte forma,
P(H0|y)/P(H1|y)
P(H0)/P(H1)
Assim, pode-se testar a hip´otese de que α(xi) = 1 o que representa n˜ao haver
sobre-dispers˜ao na localiza¸c˜ao xi. Neste caso α(xi) ´e a componente introduzida no modelo com
o intuito de captar a variabilidade excedente na localiza¸c˜ao xi.
Apresentado em Dickey (1971), o teste de Savage-Dickey pode ser considerado uma representa¸c˜ao do fator de Bayes e trabalhar´a com uma raz˜ao entre distribui¸c˜oes a poste-riori e a pposte-riori dado a hip´ostese alternativa que est´a sendo testada.
A hip´otese nula do teste ser´a dada pelo modelo onde αi pode assumir qualquer valor.
J´a a hip´otese alternativa neste caso ser´a o modelo onde α(xi) = 1 e todos os outros
elementos de α(x) livres. Ou seja, o parˆametro respons´avel por representar a sobredis-pers˜ao no modelo ´e igual a 1 o que significa que n˜ao h´a evidˆencias para afirma¸c˜ao de que h´a sobredispers˜ao nos dados. Assim as hip´oteses para este teste seriam:
H0 : α(x) livres X H1 : α(xi) = 1 e α(xj) livres, ∀ i 6= j
A raz˜ao de Savage-Dickey proposta ser´a,
Ri =
p(α(xi)|Y )
p(α(xi))
|αi = 1. (2.3)
Assim, Ri grande ser´a favor´avel ao modelo da hip´otese alternativa com α(xi) = 1 e os
demais α(xj) variando livremente versus o modelo da hip´otese nula com α(xi) variando
livremente para todo valor de i.
Em Kass e Raftery (1995) ´e apresentada uma tabela contendo os valores do Fator de Bayes cr´ıticos para decis˜ao do teste de hip´otese, ou seja, para quais valores h´a ou n˜ao evidˆencia para rejeitarmos a hip´otese nula. Para Kass e Raftery (1995), quanto maior o Fator de Bayes, representado por B10, maior ser´a a evidˆencia a favor da hip´otese
alter-nativa. No nosso, caso a hip´otese que estamos interessados ´e a de que h´a sobredispers˜ao, logo devemos olhar para B1
10 e assim tomar a decis˜ao do teste do Bayesiano. A tabela ´e
B10 B110 = Ri Decis˜ao
1 a 3 1/3 a 1 A sobredispers˜ao n˜ao ´e significativa 3 a 20 1/20 a 1/3 H´a evidˆencia positiva de sobredispers˜ao 20 a 150 1/150 a 1/20 H´a forte evidˆencia de sobredispers˜ao
> 150 < 1/150 H´a evidˆencia extremamente forte de sobredispers˜ao Tabela 2.1: Valores cr´ıticos para o Fator de Bayes
2.2.3
Obtendo o Fator de Bayes
Na implementa¸c˜ao do Teste Bayesiano para sobredispers˜ao ´e necess´ario calcular a densidade marginal a posteriori das componentes αi. Essa densidade ´e calculada atrav´es
de uma suaviza¸c˜ao onde a massa da fun¸c˜ao de distribui¸c˜ao emp´ırica ´e calculada a partir de uma grade regular e ap´os isto uma transforma¸c˜ao de Fourier ´e utilizada para alcan¸car uma aproxima¸c˜ao com a vers˜ao discreta do n´ucleo. Depois disto ´e utilizada uma aproxima¸c˜ao linear para avaliar, finalmente, a densidade aplicada em determinados pontos.
Ap´os isto temos condi¸c˜oes de calcular a estat´ıstica de teste expressa na equa¸c˜ao 2.3 e determinar se h´a evidˆencias ou n˜ao para assumirmos que h´a sobredispers˜ao nos dados.
Cap´ıtulo 3
Dados georreferenciados
3.1
Defini¸
c˜
oes e conceitos de Estat´ıstica Espacial
Considere o processo espacial {Y (x) : x ∈ D} observado em n localiza¸c˜oes, onde D ⊂ Rd. Como pressuposto, assume-se que
Y = [Y (x1), ..., Y (xn)] ∼ Nn(µ, Σ),
onde µ ´e o vetor de m´edias do processo e Σ a matriz de covariˆancia do processo. Usualmente adota-se a representa¸c˜ao
Y = ZTβ + S,
onde Z ´e a matriz de covari´aveis, β o vetor de parˆametros destas covari´aveis e S ´e um Processo Gaussiano e, portanto, possui distribui¸c˜ao Nn(0, Σ).
Considera-se ainda que a matriz de covariˆancia ser´a composta da variˆancia do pro-cesso e de uma fun¸c˜ao de correla¸c˜ao espacial v´alida. Assim, os elementos da matriz de covarˆancia ser˜ao obtidos a partir de
Σ = σ2C(h),
sabendo que a fun¸c˜ao de correla¸c˜ao C(h) depender´a da distˆancia euclidiana h entre duas localiza¸c˜oes e pode depender de algum parˆametro a mais. Portanto, σ2 ´e a variˆancia do
Para trabalhar com os dados de geoestat´ıstica se faz necess´ario conhecer primeiro algumas defini¸c˜oes e especificidades desse tipo de dado. Os modelos propostos devem ter a capacidade de captar e processar a dependˆencia espacial presente nos dados.
• Estacionariedade
Suponha um processo Y (x) onde x ∈ D. Existe a possibilidade de um processo ser estritamente estacion´ario, fracamente estacion´ario ou intrinsecamente estacion´ario.
Quando a fun¸c˜ao de distribui¸c˜ao conjunta do processo ´e invariante com respeito a qualquer transla¸c˜ao do vetor Y = Y (x1), ..., Y (xn) o processo ´e dito estritamente
esta-cion´ario.
Se a m´edia do processo ´e constante e a Cov(Y (xi), Y (xi+ h)) = C(h), ∀xi, xi+ h ∈ D
ent˜ao o processo ´e chamado de fracamente estacion´ario.
O processo ´e dito intrinsecamente estacion´ario quando E(Y (xi + h)–Y (xi)) = 0 ∀
xi, xi + h ∈ D e V ar(Y (xi+ h)–Y (xi)) = 2γ(h) ∀ Y (x) e Y (x + h). A fun¸c˜ao γ(h) ´e
chamada de semivariograma do processo espacial em estudo. • Isotropia
A isotropia ´e outro conceito importante a ser apresentado. Um processo ´e isotr´opico se, para quaisquer duas localiza¸c˜oes, a covariˆancia depender´a somente da distˆancia eu-clidiana entre esses dois pontos. Ou seja, Cov(Y (x), Y (x + h)) = C(||h||),onde ||h|| ´e a norma do vetor.
• Fun¸c˜ao de Covariˆancia
Algumas fun¸c˜oes de covariˆancia s˜ao definidas na literatura para se trabalhar com dados espaciais. Entre as mais utilizadas est˜ao a fun¸c˜ao de covariˆancia exponencial, a Gaussiana, a esf´erica, a M´atern e a Cauchy, conforme pode ser visto em Banerjee et al. (2004). Iremos trabalhar com a fun¸c˜ao de covariˆancia exponencial definida por,
C(h) = exp −h φ .
O parˆametro φ ´e definido como parˆametro de alcance e est´a ligado a distˆancia a partir da qual duas observa¸c˜oes quaisquer podem ser consideradas independentes, ou seja, quando a correla¸c˜ao entre os dois pontos assumir´a valores desprez´ıveis.
3.2
Modelo Linear Generalizado com Estrutura
Es-pacial
No contexto de dados de contagem os pressupostos de normalidade, utilizados usual-mente na an´alise espacial, n˜ao s˜ao preservados. Logo, os m´etodos usuais da geoestat´ıstica n˜ao s˜ao indicados.
Uma alternativa ´e uma abordagem que utiliza a ideia de Modelos Lineares Genera-lizados Mistos (MLGM). Estes modelos s˜ao extens˜oes dos conhecidos Modelos Lineares Generalizados (MLG ou GLM) que permitem o estudo de fontes de variabilidade adici-onais devido a efeitos aleat´orios. Considere o modelo proposto em Diggle et al. (1998) onde:
a) As vari´aveis aleat´orias Yi s˜ao mutuamente independentes dado S(xi) e tamb´em
E[Yi|S(xi)] = Mi = M (xi);
b) Atrav´es de uma fun¸c˜ao de liga¸c˜ao, q(•), Mi ´e relacionado com o preditor linear de
tal forma que q{M (x)} = ZTβ + S(x);
c) S(xi) ´e um efeito aleat´orio inclu´ıdo para captar a varia¸c˜ao n˜ao observada em ZTβ
com E[S(xi)] = 0 e Cov[S(xi), S(xj)] = σ2C(||xi − xj||). Assim, condicional a S, que
´
e um processo Gaussiano, o modelo apresentado fica na forma de um MLGM citado anteriomente.
No caso de dados de contagem temos
Yi|λi(xi) ∼ P ois(λ(xi)), (3.1)
onde,
log(λ(xi)) = Z’β + S(xi). (3.2)
interessados em obter amostras das distribui¸c˜oes a posteriori dos parˆametros de interesse. Para isso utiliza-se usualmente o m´etodo de Monte Carlo via Cadeias de Markov (MCMC) onde se faz necess´ario conhecer as condicionais completas dos parˆametros de interesse.
Neste contexto, precisamos tamb´em amostrar das vari´aveis latentes S, onde S=(S1,...,Sn)
e Si = S(xi). O algoritmo utilizado ´e o de Metropolis-Hastings para sortear da
condi-cional de S. A cada passo gera-se uma proposta para mover a cadeia. Esta proposta ´e aceita ou rejeitada segundo uma probabilidade. Para estimar o vetor param´etrico usa-se um amostrador de Gibbs h´ıbrido com passos de Metropolis-Hastings.
Diggle et al. (1998) fazem uma representa¸c˜ao da estrutura de dependˆencia entre as vari´aveis do modelo e os parˆametros. Atrav´es da figura 3.1 podemos ver que condicional a S, ou seja, dado S, Y ´e independente de θ e que dado S, β e θ s˜ao independentes. S∗ ´
e o vetor com os valores de S nos locais onde procura-se prever a vari´avel de interesse.
Figura 3.1: Estrutura de dependˆencia ´
E importante ressaltar que o modelo apresentado em Diggle et al. (1998) ´e capaz de capturar a sobredispers˜ao presente nos dados, atrav´es do Processo Gaussiano respons´avel pela acomoda¸c˜ao da estrutura espacial. Por´em, ´e poss´ıvel que alguma variabilidade extra presente nos dados n˜ao seja captada por esse processo, assim pode ser necess´aria a inclus˜ao de um outro processo que identifique onde h´a mais variabilidade que n˜ao foi capturada pelo processo espacial.
3.3
Quest˜
oes de implementa¸
c˜
ao do Modelo Linear
Generalizado com Estrutura Espacial
Diggle et al. (1998) trabalham com um modelo espacial para dados na fam´ılia ex-ponencial, em particular ele apresenta um modelo para dados de contagem onde a taxa ´
e modelada atrav´es de um processo latente log normal. Condicional a vari´avel latente sabe-se que a vari´avel de interesse ´e mutuamente independente, ou seja, as observa¸c˜oes dos dados de contagem s˜ao condicionalmente independentes.
O algoritmo de estima¸c˜ao via MCMC ter´a um passo de atualiza¸c˜ao de S dado por: a) Amostrar Si0 da fun¸c˜ao proposta q(Si, Si0)= p (Si|S−i, θ) igual a priori ;
b) Aceite Si0 com probabilidade de aceita¸c˜ao α(Si, Si0) = min
nf (y
i|s0i,β)
f (yi|si,β)
, 1o; c) Repita (a) e (b), para i = 1, ..., n.
Este algoritmo requer um tempo computacional muito grande uma vez que as com-ponentes Si s˜ao atualizadas uma a cada vez. Tendo em vista que temos n componentes,
quanto mais dados, maior ser´a o tempo computacional invibializando a aplica¸c˜ao deste algoritmo de forma eficaz.
Como alternativa Christensen e Waagepetersen (2002) prop˜oem um algoritmo que atualiza os efeitos aleat´orios simultaneamente atrav´es de uma proposta Normal Multiva-riada utilizando o algoritmo Langevin-Hastings que usa o gradiente do log da posteriori chegando assim num resultado melhor que a proposta passeio aleat´orio.
Diggle e Ribeiro Jr (2007) ainda acrescentam que para melhorar a eficiˆencia do algo-ritmo ´e aconselh´avel ajustar a variˆancia da proposta de forma a obter aproximadamente 60% de aceita¸c˜ao desta proposta e ainda trabalhar com espa¸camento da cadeia de 100 unidades.
Outra alternativa proposta por Diggle e Ribeiro Jr (2007) ´e trabalhar com um algo-ritmo que utiliza a informa¸c˜ao do gradiente na distribui¸c˜ao proposta, ou seja, utiliza o gradiente do log da posteriori. Em Christensen e Waagepetersen (2002) conclui-se que a abordagem que utiliza o gradiente apresenta melhor resultado em compara¸c˜ao ao passeio aleat´orio no passo de proposta do algoritmo j´a que houve uma redu¸c˜ao no erro de Monte Carlo para covariˆancia de alguns parˆametros.
Papaspiliopoulos et al. (2007) descrevem tamb´em uma parametriza¸c˜ao em modelos que envolvem vari´aveis latentes. Dois tipos de parametriza¸c˜ao s˜ao apresentados: centra-lizada e n˜ao centralizada. Essas parametriza¸c˜oes tem vantagens como uma convergˆencia mais r´apida e a possibilidade de identificar, antes mesmo de rodar o algoritmo, qual a parametriza¸c˜ao ´e mais indicada apenas identificando a estrutura do modelo. Por´em, neste trabalho esta reparametriza¸c˜ao de vari´avel latente n˜ao ser´a abordada.
Diggle et al. (1998) prop˜oem uma reparametriza¸c˜ao nos parˆametros de regress˜ao o que resulta numa atualiza¸c˜ao mais ortogonal tornando assim o algoritmo mais r´apido. Christensen et al. (2006) tamb´em prop˜oem reparametriza¸c˜oes com o intuito de padronizar e ortogonalizar as componentes.
A ortogonaliza¸c˜ao das componentes do modelo melhora o desempenho do amostrador de Gibbs, quando ele est´a sendo utilizado, e a padroniza¸c˜ao das componentes individuais ajuda na hora de dimensionar a distribui¸c˜ao proposta no passo de Metropolis-Hastings o que torna a atualiza¸c˜ao mais eficiente.
Christensen et al. (2006) ainda alertam que a reparametriza¸c˜ao n˜ao ´e uma trans-forma¸c˜ao linear o que n˜ao garante que funcione para todos os dados, mas ainda assim ´e uma alternativa para melhorar a convergˆencia do algoritmo j´a que Diggle e Ribeiro Jr (2007) tamb´em citam a reparametriza¸c˜ao como algo positivo para o modelo.
Cap´ıtulo 4
Modelo Proposto
Tendo em vista um conjunto de dados de contagem com dependˆencia espacial e so-bredispers˜ao ´e necess´aria uma abordagem especial levando em considera¸c˜ao essas carac-ter´ısticas importantes que v˜ao influenciar no processo inferencial e de predi¸c˜ao.
A sobredispers˜ao pode ser modelada de uma forma alternativa aos modelos usuais quando estamos tratando de dados georreferenciaos. ´E possivel incluir uma componente no modelo respons´avel por capturar a variabilidade extra que o processo espacial n˜ao consegue identificar.
Antes de apresentarmos o modelo proposto neste trabalho, que tem como objetivo captar a sobredispers˜ao que o processo espacial n˜ao foi capaz de captar, ´e introduzido o Modelo Gaussian-log-Gaussian (GLG) apresentado em Palacios e Steel (2006) utilizado como norte para inclus˜ao da componente respons´avel pela incorpora¸c˜ao no modelo da sobredispers˜ao que n˜ao foi captada pelo processo espacial.
Em Neyens et al. (2011) e Molenberghs et al. (2007) para capturar outras fontes de variabilidade al´em da variabilidade espacial ´e introduzido um efeito aleat´orio diferente. Assim tomando como base esses trabalhos, nesta disserta¸c˜ao estamos interessados em incluir um efeito aleat´orio espacial usual do modelo Poisson Lognormal e tamb´em permitir uma varia¸c˜ao extra que n˜ao ´e captada pelo efeito espacial. Este efeito respons´avel por capturar a variabilidade extra ´e introduzido de maneira multiplicativa assim como em Neyens et al. (2011) e Molenberghs et al. (2007).
4.1
Modelo Gaussian-log-Gaussian (GLG)
No modelo proposto por Palacios e Steel (2006) trabalha-se com uma vari´avel latente que tem uma a¸c˜ao direta na variˆancia do processo o que permite a acomoda¸c˜ao da dependˆencia espacial presente no modelo.
Assim no modelo GLG, dado o processo de variˆancia, pode-se chegar numa distri-bui¸c˜ao normal o que d´a mais praticidade a implementa¸c˜ao dos algoritmos.
Seja Y (x) um processo aleat´orio nas localiza¸c˜oes x numa determinada regi˜ao. O modelo inicial ´e dado por
Y (x) = ZTβ + σ(x) + τ ρ(x),
onde (x) ´e um vetor estacion´ario de segunda ordem com m´edia zero, variˆancia unit´aria e com uma fun¸c˜ao de correla¸c˜ao que depende apenas da distˆancia entre os pontos,
corr[(xi), (xj)] = Cθ(||xi–xj||),
onde Cθ(d) ´e uma fun¸c˜ao de correla¸c˜ao v´alida em fun¸c˜ao da distˆancia euclidiana. τ ´e cha-mado de efeito pepita e representa um processo Gaussiano n˜ao correlacionado utilizado para auxiliar na medi¸c˜ao de erro e detec¸c˜ao de varia¸c˜ao em pequena escala.
Na proposta estoc´astica alternativa trazida por Palacios e Steel (2006) h´a uma mistura de processos envolvendo (x). Introduz-se uma vari´avel de mistura λi associada a cada
observa¸c˜ao e portanto o novo modelo ser´a,
Y (xi) = ZTi β + σ
(x√ i)
λi
+ τ ρ(xi).
Assume-se que ρ(xi), (xi) e λi s˜ao independentes e conclui-se que a componente
de mistura inclu´ıda afeta apenas o processo que representa a dependˆencia espacial. A distribui¸c˜ao de mistura ser´a dada por,
ln(λ) = (ln(λ1), ..., ln(λn))T ∼ Nn −ν 21, νCθ .
correla¸c˜ao neste caso ser´a a mesma determinada para Y (x) pois isto auxilia no momento de fazer a inferˆencia de cada parˆametro, segundo Palacios e Steel (2006).
Cada λi ter´a uma distribui¸c˜ao log-normal e assim este modelo permite a modelagem
em regi˜oes onde a varia¸c˜ao ´e maior.
4.2
Descri¸
c˜
ao do modelo proposto
O modelo proposto neste trabalho envolver´a a ideia de modelos lineares generalizados utilizada por Diggle et al. (1998), acrescentando uma componente respons´avel por captar o fenˆomeno de sobredispers˜ao dos dados que n˜ao foi captado pelo processo espacial como foi exposto por Gschl¨oßl e Czado (2006) e Neyens et al. (2011). Por´em diferente de Gschl¨oßl e Czado (2006) e Neyens et al. (2011) o modelo tratar´a de dados de geoestat´ıstica e essa nova componente ter´a as caracter´ısticas da componente introduzida por Palacios e Steel (2006) que naquele contexto trabalhava com a mistura de escala com o processo Gaussiano presente no modelo apresentado por eles.
Em Neyens et al. (2011) ao incluir um efeito aleat´orio capaz de captar a sobredis-pers˜ao presente nos dados eles nomeiam o modelo como Modelo Combinado. A com-ponente αi foi inclu´ıda de forma multiplicativa assim como em Neyens et al. (2011) e o
nome do modelo proposto neste trabalho ´e dado de maneira similar: Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN).
No caso de Neyens et al. (2011) ´e utilizada uma distribui¸c˜ao Gama n˜ao correlacionada para capta¸c˜ao da sobredispers˜ao, enquanto no Modelo Combinado LN-P-LN ´e utilizada uma distribui¸c˜ao lognormal correlacionada para captar a sobredispers˜ao extra que o processo espacial n˜ao conseguiu captar, assim como ´e feito em Palacios e Steel (2006).
Os dados de geoestat´ıstica tem a caracter´ıstica de variar continuamente na regi˜ao onde eles est˜ao definidos, usualmente numa regi˜ao pertencente ao Rd. Neste trabalho
d = 2 sendo representado pela latitude e longitude do dado observado.
Diferente da abordagem apresentada em Palacios e Steel (2006) que introduz a vari´avel de mistura atrav´es de uma rela¸c˜ao direta com o processo espacial, a componente α(xi) ´e
foi tomada com base nos trabalhos de Gschl¨oßl e Czado (2006) e Neyens et al. (2011). Refor¸cando que Gschl¨oßl e Czado (2006) e Neyens et al. (2011) apresentam modelos cujo o enfoque ´e para dados de ´area.
O modelo combinado LN-P-LN ´e representado da seguinte maneira,
Y (xi) ∼ P oisson(λ(xi)) (4.1)
λ(xi) = α(xi)expZiTβ + S(xi)
(4.2) observado nas localiza¸c˜oes espaciais xi em alguma regi˜ao espacial D ⊂ Rd. ZT
repre-senta as covari´aveis do modelo e β o vetor de coeficientes desconhecidos relacionados `as covari´aveis.
S(x) ´e um Processo Gaussiano definido em D ⊂ Rd que entra no modelo represen-tando a correla¸c˜ao espacial dos dados. Por ser um Processo Gaussiano, S = (S(x1), ..., S(xn))
ter´a uma distribui¸c˜ao normal multivariada com as seguintes especifica¸c˜oes, S ∼ Nn(0, Σ).
Definindo Σ = σ2C(d
ij, φ), matriz de correla¸c˜ao representada por C(dij) ser´a
defi-nida a partir da estrutura de correla¸c˜ao exponencial definida como e
n −dijφ o
onde dij ´e
a distˆancia euclidiana entre duas observa¸c˜oes (ver Banerjee et al. (2004)). Neste traba-lho n˜ao iremos considerar o efeito pepita por´em, ele pode ser inclu´ıdo no modelo se for preciso.
A componente α(x) = (α(x1), ..., α(xn)) ∈ R+ entra no modelo para capturar a
sobredispers˜ao presente nos dados e como pressuposto assumimos que ln(α) = (ln[α(x1)], ..., ln[α(xn)])T ∼ Nn −ν 21, νC(dij, φ) , (4.3)
onde ν ∈ R+ ´e um parˆametro de escala introduzido na distribui¸c˜ao do logaritmo de α.
A inclus˜ao de α(xi),assim como em Palacios e Steel (2006), tem como objetivo
captu-rar a variabilidade extra que Processo Gaussiano, introduzido para captucaptu-rar a correla¸c˜ao espacial, n˜ao conseguiu identificar. O que justifica a inclus˜ao da mesma ´e que, por exem-plo, poder´ıamos estar com um modelo onde n˜ao h´a vari´aveis espaciais que deveriam estar inclu´ıdas e o processo espacial pode n˜ao capturar a variabilidade neste caso.
Como modelamos a sobredispers˜ao como um processo cont´ınuo no Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) ´e possivel fazer um mapa da sobredispers˜ao do processo. Al´em disso podemos prever a sobredispers˜ao em lugares sem observa¸c˜oes e ter previs˜oes mais realistas levando em considera¸c˜ao a sobredispers˜ao.
4.3
Fun¸
c˜
ao de verossimilhan¸
ca e especifica¸
c˜
ao da
pri-ori
Por pressuposto, os Yi s˜ao independentes condicionais a S. Portantoa fun¸c˜ao de
ve-rossimilhan¸ca ´e dada por,
p(Y|S, β, α, ν) = n Y i=1 e−λiλyi i yi!
A escolha da distribui¸c˜ao atribu´ıda a priori aos parˆametros de interesse ´e de suma importˆancia no paradigma Bayesiano. Portanto, primeiramente fazemos um estudo des-sas distribui¸c˜oes a priori atribu´ıdas aos parˆametros. Neste trabalho foi tomada como base algumas conclus˜oes apresentadas por Palacios e Steel (2006) e Diggle et al. (1998) com rela¸c˜ao a distribui¸c˜oes a priori dos parˆametros.
A priori considera-se os parˆametros independentes e portanto,
p(β, σ2, φ, α, ν) = p(β)p(σ2)p(φ)p(α)p(ν).
Para β foi proposta uma priori proporcional a uma constante, ou seja, uma priori uniforme. Para σ2 foi feito uma reparametriza¸c˜ao de maneira a chegar numa conjuga¸c˜ao
entre a verossimilhan¸ca e a priori. Trabalhando assim com a precis˜ao, τ = σ12, definimos
a seguinte priori,
τ ∼ Ga(c1, c2).
Os valores de c1 e c2 s˜ao usualmente baixos de forma que a priori n˜ao seja muito
Conforme sugerido em Palacios e Steel (2006), foi atribu´ıda uma priori exponencial para φ denotada por,
φ ∼ Exp 1 med(dij) ,
onde med(dij) ´e a mediana de todas as distˆancias euclidianas entre quaisquer 2
ob-serva¸c˜oes. Eles ainda afirmam que a distribui¸c˜ao exponencial assegura que tenha uma grande massa em volta do zero que ´e o caso limite onde n˜ao h´a correla¸c˜ao. Ent˜ao se h´a evidˆencia de correla¸c˜ao, isto deve ser dito pelo dado e n˜ao pela priori.
O parˆametro ν teve uma priori n˜ao informativa uma vez que este parˆametro ´e mais restrito e assim foi atribu´ıda uma priori com m´edia numericamente baixa e uma variˆancia alta,
ν ∼ Gama(c3, c4),
onde c3 e c4 s˜ao constantes arbitr´arias
A priori sugerida por Diggle et al. (1998) para S ´e uma Normal obtida a partir da distribui¸c˜ao Normal Multivariada oriunda do Processo Gaussiano que S segue por pressuposto. Sabe-se que a distribui¸c˜ao condicional de uma Normal Multivariada tamb´em ser´a Normal. Assim, a priori para S ser´a dada por,
(S(k)|S−(k), θ), ∼ Nn(A; B), (4.4)
onde A e B ´e o vetor de m´edias e a matriz de covariˆancias, respectivamente, obtidas a partir das propriedades da Normal Multivariada.
A componente α(x) ter´a distribui¸c˜ao a priori p(α(k)|α−(k), θ, ν) derivada de (4.3).
Neste contexto, S(k) e α(k) representam as componentes de S e α pertencentes ao bloco
K. Esta divis˜ao em blocos est´a relacionada ao passo de atualiza¸c˜ao dessas componentes que ´e explicitado mais a frente.
4.4
Procedimentos de inferˆ
encia e implementa¸
c˜
ao
A abordagem escolhida para fazer a inferˆencia dos parˆametros do modelo neste tra-balho ´e a Bayesiana e o m´etodo de Monte Carlo via cadeias de Markov (MCMC) ´e usado
em grande escala nessa abordagem. Este m´etodo permite o ajuste de modelos mais complexos e de dif´ıcil tratamento.
Quando usamos inferˆencia bayesiana temos como principal objetivo a obten¸c˜ao de uma amostra da distribui¸c˜ao a posteriori dos parˆametros de interesse e a partir dessa amostra fazer algumas inferˆencias. O MCMC ´e uma t´ecnica que permite a utiliza¸c˜ao de diferentes algoritmos iterativos que fornecem essa amostra da distribui¸c˜ao a posteriori dos parˆametros. Os mais conhecidos e usados s˜ao o amostrador de Gibbs e o Metropolis-Hastings.
Pelo Teorema de Bayes sabemos que a distribui¸c˜ao a posteriori de um parˆametro qualquer ´e dada pelo produto entre a fun¸c˜ao de verossimilhan¸ca e a distribui¸c˜ao a priori definida para o parˆametro. Quando essa distribui¸c˜ao a posteriori apresenta uma forma fechada e previamente conhecida, n˜ao se faz necess´aria uma aproxima¸c˜ao da amostra da distribui¸c˜ao a posteriori dos parˆametros do modelo.
H´a tamb´em a possibilidade da distribui¸c˜ao a posteriori n˜ao ter uma forma fechada e neste caso faz-se uso de um passo de Metropolis-Hastings. Quando temos alguns parˆametros com distribui¸c˜ao condicional completa conhecida e outros com distribui¸c˜ao condicional completa desconhecida ´e possivel implementarmos passos de Metropolis-Hastings dentro de um amostrador de Gibbs.
Para isso, ´e necess´ario obtermos os n´ucleos das distribui¸c˜oes a posteriori de cada parˆametro de interesse do modelo. Vemos isso na subse¸c˜ao seguinte.
4.4.1
Distribui¸
c˜
oes a posteriori
Com as distribui¸c˜oes a priori definidas anteriormente temos condi¸c˜oes de achar as distribui¸c˜oes condicionais completas necess´arias para desenvolver o m´etodo do MCMC. Vemos a seguir os n´ucleos dessas distribui¸c˜oes.
• θ = (φ, τ ): Sabemos que,
p(φ, τ |Y, S, β, α, ν) ∝ |Σ|−1/2exp −1 2 S TΣ−1 S p(φ)p(τ ) Assumindo a priori que τ ∼ Ga(c1, c2) e φ ∼ Exp
1 med(dij) , obtemos p(τ |Y, S, β, α, ν, φ) ∝ |Σ|−1/2exp −1 2 S TΣ−1 S τc1−1e−τ c2 p(φ|Y, S, β, α, ν, τ ) ∝ |Σ|−1/2exp −1 2 S T Σ−1S e −φ med(dij ) • β = (β1, ..., βp):
p(β|Y, S, θ, α, ν) = p(β|Y, S) ∝ p(Y|S, β)p(β)
p(β|Y, S, θ, α, ν) ∝ n Y i=1 e−λiλyi i p(β) • ν: p(ν|Y, S, β, α, θ) ∝ p(Y|S, ν)p(ν) p(ν|Y, S, β, α, θ) ∝ " n Y i=1 e−λiλyi i # νc3−1e−νc4
As distribui¸c˜oes condicionais completas para S e α ser˜ao obtidas em blocos conforme a t´ecnica utilizada para amostrar dessas componentes durante o passo de Metropolis-Hastings. Essa abordagem ser´a tratada logo ap´os a apresenta¸c˜ao dos n´ucleos dessas distribui¸c˜oes a posteriori.
• S = (S(x1), ..., S(xn)): p(S(k)|S−(k), Y , θ, β, α, ν) ∝ p(Y |S, β)p(S(k)|S−(k), θ), p(S(k)|S−(k), Y , θ, β, α, ν) ∝ " n Y i=1 e−λiλyi i # exp −1 2 (S(k)− A) T B−1(S(k)− A)
onde S(k) ´e o vetor formado apenas com as componentes de S pertencentes ao bloco k
pr´e definido. A e B s˜ao vetor de m´edias e matriz de covariˆancia, respectivamente, da Normal Multivariada condicional.
• α = (α(x1), ..., α(xn)): p(α(k)|α−(k), Y , θ, β, S, ν) ∝ p(Y |S, β)p(α(k)|α−(k), θ, ν), p(α(k)|α−(k), Y , θ, β, S, ν) ∝ " n Y i=1 e−λiλyi i # |B|−1/2exp −1 2 (α(k)− C) TD−1 (α(k)− C)
onde α(k) ´e o vetor formado apenas com as componentes de α pertencentes ao bloco k
tamb´em pr´e definido. C e D s˜ao vetor de m´edias e matriz de covariˆancia, respectivamente, da Normal Multivariada condicional expressa na equa¸c˜ao (4.3).
4.4.2
Algoritmo de MCMC - Especifica¸
c˜
oes
Diggle et al. (1998) atualizam as componentes de S uma a cada vez e isso toma um tempo computacional muito grande uma vez que ´e necess´ario fazer invers˜oes de matrizes grandes a cada itera¸c˜ao. E quanto maior for o conjunto de dados, maior se torna esse gasto computacional e assim o processo come¸ca a ficar invi´avel.
Uma op¸c˜ao poderia ser amostrar essas componentes de forma conjunta reduzindo assim o custo computacional por´em, isso n˜ao permitiria que as cadeias se movessem em dire¸c˜oes diferentes.
Dado isto, usaremos uma abordagem utilizada por Palacios e Steel (2006) onde se par-ticiona os elementos da componente em quest˜ao em blocos, onde cada bloco corresponde a um cluster de observa¸c˜oes que est˜ao relativamente pr´oximas.
Palacios e Steel (2006) utilizaram este procedimento para componente introduzida no modelo com o intuito de captar observa¸c˜oes mais distantes. No Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) esta componente ser´a respons´avel por cap-turar o fenˆomeno da sobredispers˜ao sendo representada por α e aplicaremos a mesma divis˜ao em blocos para o S.
Espera-se que ao amostrar o bloco inteiro de uma vez o algoritmo se torne mais eficaz j´a que o custo computacional reduzir´a em grande escala pois, ao inv´es de atualizar as n componentes individualmente a cada itera¸c˜ao como foi proposto anteriormente, iremos
atualiz´a-las em 4 blocos.
Pode-se escrever o vetor α como a seguinte parti¸c˜ao,
α = α(k) α−(k) .
A matriz de covariˆancia poder´a ser escrita da seguinte maneira,
C(θ) = C11C12 C21C22 ,
onde α(k) representa os elementos de α dentro do bloco k e α−(k) os elementos restantes.
As mesmas parti¸c˜oes foram consideradas para S.
Ao reparametrizar σ2 pela precis˜ao τ ´e poss´ıvel chegar numa distribui¸c˜ao conhecida
da condicional completa. Ent˜ao para obter uma amostra a posteriori de σ2 amostramos diretamente da distribui¸c˜ao Gama.
Conforme visto anteriormente, para os demais parˆametros do modelo n˜ao foi poss´ıvel obter uma distribui¸c˜ao condicional completa numa forma conhecida. Assim, dentro do algoritmo ´e aplicado um passo de Metropolis-Hastings onde s˜ao definidas distribui¸c˜oes propostas das quais s˜ao amostrados poss´ıveis valores para compor a amostra a posteriori dos parˆametros do modelo. A partir de uma probabilidade de aceita¸c˜ao esses valores propostos s˜ao aceitos ou n˜ao.
Utilizar um passeio aleat´orio no momento de propor um novo valor para cadeia ´e usual nos m´etodos de Metropolis-Hastings. Neste caso propomos valores de uma distri-bui¸c˜ao sim´etrica que depende do valor da cadeia no passo anterior. Isto significa que a probabilidade da cadeia se mover depender´a da distˆancia entre o estado atual e o estado proposto. Assim, faz-se uso de uma distribui¸c˜ao Normal centrada no valor da cadeia no passo anterior e com variˆancia calibrada de maneira que o algoritmo tenha taxa de aceita¸c˜ao em torno de 20% a 40%. H´a ainda a possibilidade de trabalharmos com uma proposta do tipo passeio aleat´orio no log, onde propomos valores de uma distribui¸c˜ao Normal centrada no logaritmo do valor da cadeia no passo anterior.
Portanto foi utilizado um passeio aleat´orio no log como distribui¸c˜ao proposta para φ, ν e α. Na atualiza¸c˜ao de S e β foi utilizado um passeio aleat´orio como proposta.
Outra quest˜ao abordada ´e a busca por um aprimoramento do MCMC aplicado para este modelo. Neste sentido, com o intuito de obter uma melhora na convergˆencia do algoritmo, aplica-se uma reparametriza¸c˜ao no parˆametro de regress˜ao β0. Essa
repara-metriza¸c˜ao permite que a atualiza¸c˜ao dos parˆametros ocorra de forma mais ortogonal, o que acelera o andamento do algoritmo diminuindo assim o tempo computacional. Deste modo, a reparametriza¸c˜ao ´e dada da seguinte maneira,
β0∗ = β0+ s,
onde s ´e a m´edia dos valores correntes da cadeia de S.
O algoritmo apresentado neste cap´ıtulo ser´a utilizado na an´alise de dados reais e artificiais no cap´ıtulo seguinte.
4.5
Problema de identificabilidade
Uma dificuldade que pode se apresentar neste tipo de estudo ´e a identificabilidade da variabilidade dos dados. Pode ser que n˜ao seja poss´ıvel analisar os parˆametros de variabilidade separadamente. Para alguns conjuntos de dados puramente espaciais os parˆametros de variˆancia λi podem se confundir com a variˆancia global σ2 e neste caso
somente identifica-se a raz˜ao √σ2 λi.
Uma falta de identificabilidade an´aloga poderia ocorrer para dados puramente espa-ciais nos modelos combinados LN-P-LN, trazendo assim uma limita¸c˜ao para o modelo. Por´em neste trabalho este fato n˜ao foi observado a partir dos exemplos estudados.
Uma poss´ıvel solu¸c˜ao para este problema seria incorporar e analisar observa¸c˜oes ao longo do tempo como ´e apresentado em Fonseca e Steel (2011). Para o caso de dados com resposta Poisson essa seria uma poss´ıvel extens˜ao do modelo utilizado aqui.
Cap´ıtulo 5
An´
alise de Dados
Neste cap´ıtulo iremos trabalhar com a aplica¸c˜ao dos algortimos citados e propostos nas se¸c˜oes anteriores em dados artificiais e dados reais. Primeiramente para dados artificiais teremos dois exemplos, no primeiro ´e aplicado o modelo proposto por Diggle et al. (1998) e no segundo exemplo, o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) proposto neste trabalho. Esses dados foram simulados a partir de um modelo usual Poisson Lognormal.
Em seguida modelaremos os dados reais do n´umero de interna¸c˜oes de pacientes com meningite viral por hospital do estado do Rio de Janeiro atrav´es do Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN).
5.1
Dados Artificiais
5.1.1
Exemplo 1
Foram simulados dados de contagem com estrutura espacial para validar e estudar o desempenho do algoritmo anteriormente explanado. Primeiramente iremos estudar o modelo proposto por Diggle et al. (1998).
Suponha o modelo,
log(λ(xi)) = β0 + β1lati + β2loni+ S(xi) (5.2)
onde E[S(x)] = 0 , Cov[S(x), S(x0)] = σ2ρ(||x−x0||) e ρ (||x−x0||) = expn−dij
φ o
sendo S um Processo Gaussiano e dij a distˆancia euclidiana entre dois pontos xi e xj quaisquer. As
vari´aveis explicativas neste caso ser˜ao a latitude e longitude e os parˆametros regressores β1 e β2, respectivamente.
Banerjee et al. (2004) trabalham com uma estrutura de covariˆancia chamada Expo-nencial com fun¸c˜ao de correla¸c˜ao espacial ρ que depende das distˆancias euclidianas dij
e de um parˆametro φ. Esta ´e a estrutura adotada para os dados artificiais. Banerjee et al. (2004) ainda sugerem que a correla¸c˜ao da distˆancia m´axima entre as observa¸c˜oes seja menor que 0,05, ou seja, ρ(dmax) < 0, 05.
Para obter esses dados artificiais ´e necess´ario primeiramente fixar os parˆametros. Assim β0 = −2 , β1 = 5 , β2 = 2 , φ = 0.5 e σ2 = 0.3. Ap´os isto foram geradas 100
observa¸c˜oes no quadrado [0,1] x [0,1] conforme modelo expresso atrav´es das equa¸c˜oes (5.1) e (5.2). A distribui¸c˜ao a posteriori dos parˆametros foi aproximada por MCMC.
As prioris utilizadas foram: σ12 = τ ∼ Ga(0.1, 0.1), β ∼ C1 e φ ∼ Exp
1 0,511
, onde C1 ´e uma constante qualquer e portanto β ter´a uma priori Uniforme. Para S foi
atribu´ıda priori a partir da equa¸c˜ao (4.4).
Para an´alise de convergˆencia foram utilizados crit´erios existentes na literatura e cal-culados a partir do pacote CODA do R. Os crit´erios utilizados foram: Geweke (1992), Raftery e Lewis (1992) e Heidelberger e Welch (1983). Estes crit´erios fornecem es-tat´ısticas que permitem analisar a estacionariedade, convergˆencia, burn-in e espa¸camento necess´arios para se obter uma amostra a posteriori menos autocorrelacionada.
Conforme resultado obtido atrav´es do crit´erio de Raftery e Lewis (1992) foi aplicado um burn-in de 4000 itera¸c˜oes com espa¸camento de 50, resultando numa amostra de tamanho 6921.
Na tabela 5.1 vemos um resumo das amostras a posteriori com m´edia e intervalos de credibilidade de 95%. Todos os intervalos cont´em os verdadeiros valores dos parˆametros.
Parˆametros Valor verdadeiro M´edia a posteriori Intervalo de credibilidade φ 0,3 0,281 (0,111 ; 0,861) σ2 0,5 0,472 (0,215 ; 1,357) β0 -2 -2,083 (-2,332 ; -1,84) β1 5 5,072 (4,801 ; 5,349) β2 2 2,069 (1,909 ; 2,227)
Tabela 5.1: Resumo da distribui¸c˜ao a posteriori - Exemplo 1
As cadeias dos parˆametros e as densidades das distribui¸c˜oes a posteriori podem ser vistas na figura 5.1. Com uma an´alse visual desta figura e aplica¸c˜ao dos crit´erios de convergˆencia propostos em Geweke (1992), Raftery e Lewis (1992) e Heidelberger e Welch (1983) podemos verificar que todas as cadeias se mostraram estacion´arias e convergiram para o verdadeiro valor do parˆametro utilizado para gerar os dados.
O gr´afico na figura 5.2 ´e obtido da seguinte maneira: Para cada distˆancia em uma grade pr´e determinada ´e calculada a correla¸c˜ao para cada observa¸c˜ao da amostra a pos-teriori de φ obtida atrav´es do MCMC. Assim obtemos com um conjunto de correla¸c˜oes de tamanho M para cada distˆancia, onde M ´e o tamanho da amostra a posteriori dos parˆametros. A seguir, ´e calculado o intervalo de credibilidade para esse conjunto de correla¸c˜oes e a mediana. As linhas vermelhas ao longo do gr´afico s˜ao os intervalos de credibilidadede 95%. A linha preta representa a mediana.
Podemos ver na figura 5.2 que a partir da distˆancia 1,093 a correla¸c˜ao entre os efeitos espaciais come¸ca a ser desprez´ıvel. Conclu´ımos assim que a partir dessa distˆancia as ob-serva¸c˜oes podem ser consideradas aproximadamente n˜ao correlacionadas. Esta distˆancia ´
e definida em graus uma vez que estamos trabalhando com a latitude e longitude das observa¸c˜oes. Assim n˜ao ´e poss´ıvel fazermos uma alus˜ao ao um sistema m´etrico utili-zado usualmente. Ainda analisando a figura 5.2, a linha azul representa a verdadeira correla¸c˜ao para grade de distˆancia utilizada. Portanto, a correla¸c˜ao a posteriori obtida atrav´es do MCMC se aproxima da verdadeira correla¸c˜ao.
Com isso vemos que o algoritmo se mostrou eficiente na modelagem de dados de contagem espacialmente referenciados.
Figura 5.1: Tra¸cos das cadeias e fun¸c˜oes densidade de probabilidade suavizadas das distribui¸c˜oes a posteriori de φ, σ2, β
0, β1 e β2 . Linha vermelha: valor verdadeiro
Figura 5.2: Sum´ario da distribui¸c˜ao a posteriori da fun¸c˜ao de correla¸c˜ao - Exemplo 1
5.1.2
Exemplo 2
Desta vez iremos analisar os mesmos dados gerados no Exemplo 1 por´em utilizando o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) proposto segundo as equa¸c˜oes (4.1) e (4.2). Sabemos que este dado foi gerado a partir de um modelo Poisson Lognormal usual, portanto espera-se que ao fazer inferˆencias sobre o parˆametro res-pons´avel por captar a sobredispers˜ao, α, ele esteja em torno de 1.
Foi aplicado o teste o bayesiano, que utiliza a raz˜ao de Savage-Dickey, para averi-gua¸c˜ao de evidˆencia de sobredispers˜ao nos dados. A hip´ostese de que as componentes αi variam livremente foi descartada, concluindo assim que n˜ao h´a evidˆencia de
As priori s utilizadas foram: 1 σ2 = τ ∼ Ga(0.1, 0.1), β ∼ C1, φ ∼ Exp 1 0,511 e ν ∼ Gama(0.1, 0.1), onde C1 ´e uma constante qualquer e portanto β ter´a uma priori
Uniforme na reta. Para S e α foram atribu´ıdas priori s a partir das equa¸c˜oes (4.4) e (4.3), respectivamente.
Foi tomado um espa¸camento de 50 itera¸c˜oes e um burn-in de 400 itera¸c˜oes segundo o crit´erio de convergˆencia de Raftery e Lewis (1992) resultando numa amostra a posteriori de 6996 unidades.
Com o aux´ılio dos crit´erios de convergˆencia dispon´ıveis na literatura e uma an´alise gr´afica podemos verificar que as cadeias se mostraram estacion´arias e convergentes.
Na tabela 5.2 vemos um resumo das amostras a posteriori com a m´edia e o intervalo de credibilidade de 95%. Todas as m´edias a posteriori se mostraram pr´oximas dos valores verdadeiros do parˆametro.
Parˆametros Valor verdadeiro M´edia a posteriori Intervalo de credibilidade
φ 0,3 0,278 (0,104 ; 0,892)
σ2 0,5 0,342 (0,151 ; 1,024)
β0 -2 -1,734 (-2,024 ; -1,462)
β1 5 5,159 (4,861 ; 5,462)
β2 2 1,559 (1,331 ; 1,790)
Tabela 5.2: Resumo da distribui¸c˜ao a posteriori - Exemplo 2
Atrav´es da figura 5.3 vemos que a partir da distˆancia 0,7 as observa¸c˜oes podem ser consideradas n˜ao correlacionadas j´a que a correla¸c˜ao entre as elas come¸ca a ser des-prez´ıvel. A figura 5.3 ainda mostra a verdadeira correla¸c˜ao dos dados representada pela linha azul. Vemos portanto que correla¸c˜ao a posteriori obtida atrav´es do MCMC se aproxima da verdadeira correla¸c˜ao.
O comportamento das cadeias e os histogramas dos parˆametros podem ser observados na figura 5.4. Conclu´ımos assim que o Modelo Combinado Lognormal-Poisson-Lognormal (LN-P-LN) se mostrou eficiente para dados espacialmente georeferenciados de contagem.
Figura 5.3: Sum´ario da distribui¸c˜ao a posteriori da fun¸c˜ao de correla¸c˜ao - Exemplo 2 Na figura 5.5 podemos observar o boxplot da distribui¸c˜ao a posteriori de cada α(xi).
Vemos que todas as componentes apresentaram mediana pr´oximas ao valor 1 e algumas bem concentradas em torno de 1.
Foram selecionados algumas componentes de α e as cadeias dessas componentes po-dem ser vistas na fgura 5.6. Todas elas convergiram para o valor 1.
Figura 5.4: Tra¸cos das cadeias e fun¸c˜oes densidade de probabilidade suavizadas das distribui¸c˜oes a posteriori de φ, σ2, β
0, β1 e β2 . Linha vermelha: valor verdadeiro
Figura 5.6: Tra¸co das cadeias das distribui¸c˜oes a posteriori de alguns α(xi). Linha
5.2
Dados de Meningite Viral
Esta se¸c˜ao apresenta uma aplica¸c˜ao do modelo combinado LN-P-LN, proposto ante-riormente neste trabalho atrav´es das equa¸c˜oes (4.1) e (4.2), em dados reais de interesse em sa´ude da popula¸c˜ao com o intuito de trazer uma contribui¸c˜ao para o estudo de dados de contagem com dependˆencia espacial e sobredispers˜ao que n˜ao ´e captada pelo processo espacial.
Com esta abordagem espera-se propor um modelo que consiga explicar os dados com estimativas precisas para os parˆametros de interesse.
Seja a vari´avel de interesse Y o n´umero de interna¸c˜oes por meningite viral em 107 hospitais no estado do Rio de Janeiro no per´ıodo de Janeiro de 2008 a Maio de 2015. As covari´aveis utilizadas neste modelo foram a latitude, longitude dos estabelecimentos de sa´ude e a esfera administrativa, ou seja, se o hospital pertence a rede privada ou p´ublica. Importante ressaltar que a padroniza¸c˜ao das vari´aveis de latitude e longitude ´e de grande aux´ılio na convergˆencia do algoritmo do modelo combinado LN-P-LN.
Segundo a tabela 2.1 proposta em Kass e Raftery (1995) sabemos que para valores de Ri no intervalo 201;13 h´a evidˆencia positiva de sobredispers˜ao e no intervalo 1501 ;201
h´a forte evidˆencia de sobredispers˜ao.