Matheus Camelo dos Santos Araujo
Modelos para dados de ´
area sob a
abordagem bayesiana
Niter´oi - RJ, Brasil 5 de dezembro de 2018
Universidade Federal Fluminense
Matheus Camelo dos Santos Araujo
Modelos para dados de ´
area sob a
abordagem bayesiana
Trabalho de Conclus˜ao de Curso
Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.
Orientadora: Profa. Dra. Patr´ıcia Lusi´e Velozo da Costa
Niter´oi - RJ, Brasil 5 de dezembro de 2018
Ficha catalográfica automática - SDC/BIME
Bibliotecário responsável: Carlos Roberto Santos de Lima - CRB7/5531
A658m Araujo, Matheus Camelo dos Santos
Modelos para dados de área sob a abordagem bayesiana / Matheus Camelo dos Santos Araujo ; Patrícia Lusié Velozo Da Costa, orientadora. Niterói, 2018.
49 f. : il.
Trabalho de Conclusão de Curso (Graduação em
Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2018.
1. Estatística. 2. Inferência bayesiana . 3. Produção intelectual. I. Título II. Da Costa,Patrícia Lusié Velozo, orientadora. III. Universidade Federal Fluminense. Instituto de Matemática e Estatística. Departamento de Estatística. CDD
-Resumo
Fenˆomenos das mais diversas ´areas est˜ao sendo cada vez mais influenciados pelo espa¸co onde ocorrem. Somadas `as demais an´alises, a an´alise espacial vem tornando a modelagem desses eventos mais requintada. Diante dos principais tipos de dados em estat´ıstica espacial, esse trabalho visa a modelagem de vari´aveis aleat´orias, com foco em dados de ´area, averiguando modelos adequados e ajustando-os via dados simulados. Como aplica¸c˜ao, ser˜ao utilizados dados referentes a hansen´ıase, doen¸ca crˆonica e infecciosa que apresenta altas taxas de ocorrˆencias no Brasil, principalmente nas regi˜oes Norte do pa´ıs. Acredita-se que, al´em de fatores socioeconˆomicos e ambientais, as taxas da doen¸ca tamb´em s˜ao influenciadas segundo suas localiza¸c˜oes geogr´aficas, justificando a utiliza¸c˜ao da modelagem espacial nesse trabalho.
Quando o interesse na modelagem ´e, por exemplo, relacionar as respostas de uma vari´avel com seus vizinhos, os modelos CAR e SAR s˜ao os mais usados. Algumas restri¸c˜oes s˜ao necess´arias e uma delas ´e a especifica¸c˜ao adequada da matriz de vizinhan¸ca, que ´e respons´avel pela pondera¸c˜ao dos efeitos da vizinhan¸ca. Assumindo dados simulados, os modelos foram bem ajustados com uma an´alise de sensibilidade satisfat´oria, assumindo diferentes distribui¸c˜oes a priori para os parˆametros que foram estimados.
Inicialmente e de forma explorat´oria, para verificar uma poss´ıvel associa¸c˜ao espacial dos dados em uma determinada regi˜ao, os ´ındices de Moran e Geary foram utilizados. Assim como no mapa coropl´etico, os resultados dos ´ındices apresentaram um indicativo preliminar de que a hansen´ıase est´a correlacionada espacialmente.
Considerando os dados de hansen´ıase em 2010, viu-se que as taxas de detec¸c˜ao em menores de 15 anos apresentaram uma alta variabilidade sendo necess´aria uma transforma¸c˜ao dos dados. Mesmo com a transforma¸c˜ao, foi visto que, considerando dados cont´ınuos, os modelos propostos n˜ao de adequaram corretamente devido `a infla¸c˜ao de zeros. Apesar disso, o ajuste de ambos os modelos apresentou que o IDHM ´e uma covari´avel significativa e que h´a uma rela¸c˜ao entre o parˆametro de autocorrela¸c˜ao espacial com os ´ındices de Moran e Geary.
Palavras-chaves: taxas de hansen´ıase; estat´ıstica espacial; dados de ´area; CAR; SAR; MCMC; inferˆencia bayesiana.
Dedicat´
oria
“Somos o resultado dos livros que lemos, das viagens que fazemos e das pessoas que amamos.”
Sum´
ario
Lista de Figuras
Lista de Tabelas
Lista de Abrevia¸c˜oes p. 11
1 Introdu¸c˜ao p. 12
2 Objetivos p. 15
3 Materiais e M´etodos p. 16
3.1 Estat´ıstica Espacial . . . p. 16 3.1.1 Indicadores de Autocorrela¸c˜ao Espacial . . . p. 17 3.1.2 Dados de ´Area . . . p. 18 3.1.3 Modelo Autorregressivo Condicional - CAR . . . p. 19 3.1.4 Modelo Autorregressivo Simultˆaneo - SAR . . . p. 20 3.2 Inferˆencia Bayesiana . . . p. 21 3.2.1 MCMC . . . p. 23 3.2.2 Amostrador de Gibbs . . . p. 23 3.2.3 Algoritmo de Metropolis-Hastings . . . p. 24
4 An´alise dos Resultados p. 26
4.1 An´alise Descritiva . . . p. 26 4.2 Indicadores de Autocorrela¸c˜ao Espacial . . . p. 28 4.3 Modelo CAR . . . p. 32
4.3.1 Estudo Simulado . . . p. 33 4.3.2 Dados de Hansen´ıase . . . p. 35 4.4 Modelo SAR . . . p. 37 4.4.1 Estudo Simulado . . . p. 38 4.4.2 Dados de Hansen´ıase . . . p. 41 5 Conclus˜ao p. 44 Referˆencias p. 46
Lista de Figuras
1 Taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos por 100 mil
habitantes nos muninc´ıpios do Maranh˜ao em 2010. . . p. 27 2 Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados
simulados do modelo SAR assumindo diferentes valores de ρSAR e uma
regi˜ao de grade regular contendo 400 subregi˜oes. . . p. 29 3 P-valores dos testes de hip´otese dos indicadores para 1000 replica¸c˜oes de
dados simulados do modelo SAR considerando diferentes valores de ρSAR
e uma regi˜ao de grade regular contendo 400 subregi˜oes. . . p. 30 4 Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados
simulados do modelo SAR assumindo diferentes valores de ρ e o estado
do Maranh˜ao. . . p. 31 5 P-valores dos testes de hip´otese dos indicadores para 1000 replica¸c˜oes de
dados simulados do modelo SAR considerando diferentes valores de ρSAR
e o estado do Maranh˜ao. . . p. 31 6 Tra¸cos das cadeias e histogramas das amostras dos parˆametros utilizando
a Priori 2 com dados simulados. As linhas em verde representam os valores verdadeiros dos parˆametros, j´a as linhas em vermelho s˜ao as estimativas a posteriori dos parˆametros desconhecidos e seus respectivos
intervalos de credibilidade de 95% em cor azul. . . p. 34 7 Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a
posteriori usando o conjunto de dados reais. . . p. 36 8 Dados simulados via modelo SAR para diferentes valores de ρSAR nos
9 An´alise de sensibilidade: estimativas a posteriori dos parˆametros sob diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori. A estimativa pontual ´e dada pela m´edia a posteriori e a intervalar pelo
intervalo HDI de 95%. . . p. 40 10 Tra¸cos das cadeias e histogramas das amostras a posteriori dos
parˆametros utilizando a Priori 2 com dados simulados. . . p. 41 11 Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes
a posteriori usando o conjunto de dados reais e o modelo Modelo
Lista de Tabelas
1 An´alise de sensibilidade: estimativas a posteriori dos parˆametros sob diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori. A estimativa pontual ´e dada pela m´edia a posteriori e a intervalar pelo intervalo de credibilidade de 95%. Os valores verdadeiros dos parˆametros
s˜ao β1 = −0, 5, β2 = 3 e τ = 0, 5. . . p. 34
2 M´edias a posteriori e intervalos de credibilidade de 95% para os parˆametros. p. 36 3 An´alise de sensibilidade: diferentes escolhas de hiperparˆametros para a
distribui¸c˜ao a priori. . . p. 38 4 M´edias a posteriori e intervalos Highest Density Interval (HDI) de 95%
11
Lista de Abrevia¸
c˜
oes
CAR Modelo Autorregressivo Condicional MCMC Monte Carlo via cadeias de Markov SAR Modelo Autorregressivo Simultˆaneo SIG Sistema de Informa¸c˜ao Geogr´afica
IDHM ´Indice de Desenvolvimento Humano Municipal HDI Highest Density Interval
SINAN Sistema de Informa¸c˜oes de Agravos e Notifica¸c˜oes IBGE Instituto Brasileiro de Geografia e Estat´ıstica
12
1
Introdu¸
c˜
ao
Dados georreferenciados s˜ao aqueles cujas coordenadas que informam sua localiza¸c˜ao, num dado sistema de referˆencia, tamb´em s˜ao obtidas. Por exemplo, se a quantidade de chuva, a latitude e a longitude desse fenˆomeno forem observadas, ent˜ao s˜ao chamados de dados georreferenciados. A crescente coleta e armazenamento de dados dessa natureza, nos ´ultimos tempos, tˆem aperfei¸coado a modelagem de fenˆomenos em ´areas como a Economia, Biologia e Epidemiologia. A estat´ıstica espacial tem como objetivo identificar, analisar e modelar a ocorrˆencia desses fenˆomenos que se materializam no espa¸co.
Diante da era do “Big Data”, h´a uma explos˜ao de dados e informa¸c˜oes de diversos tipos em tempo real. De acordo com a IBM - International Business Machines, uma das maiores empresas de inform´atica do mundo, 90% dos dados armazenados atualmente foram produzidos nos ´ultimos dois anos. Uma parcela bastante significativa desses dados s˜ao espaciais, permitindo o enriquecimento da an´alise espacial.
Acompanhando a necessidade de um sistema que integrasse os diversos tipos de dados espaciais, ao longo das d´ecadas de 70 e 80, foi desenvolvido o Sistema de Informa¸c˜ao Geogr´afica (SIG), do inglˆes GIS - Geographic Information System, que ´e um sistema de hardware, um software que permite obter, armazenar, manipular e gerenciar dados espaciais ou geogr´aficos. Alguns componentes que integram o SIG s˜ao por exemplo: imagens de sat´elite, modelos num´ericos de terreno, mapas tem´aticos, redes e dados tabulares. Maiores detalhes podem ser vistos em Cˆamara e Ortiz (1998) [1].
Dentre tantas ´areas que a an´alise espacial ´e implementada, a ´area de Epidemiologia teve suas primeiras contribui¸c˜oes j´a no s´eculo XIX, como por exemplo, o mapeamento das mortes por c´olera nos distritos de Paris no ano de 1832 realizado pelo ge´ografo francˆes Charles Picquet [2]. J´a o primeiro estudo bem sucedido usando uma metodologia espacial em Epidemiologia foi realizado por John Snow, em 1854, que determinou a origem de um surto tamb´em de col´era em Londres por meio de um mapa de padr˜ao de pontos [3].
1 Introdu¸c˜ao 13
No Brasil, pa´ıs com uma extensa ´area territorial e diversidade de climas, relevo, etc, muitas doen¸cas com forte dependˆencia espacial ainda persistem e vˆem sendo estudadas mais detalhadamente. Uma delas que epidemiologistas brasileiros possuem aten¸c˜ao especial ´e a hansen´ıase, que ainda afeta muitas pessoas principalmente na regi˜ao Norte do pa´ıs.
Popularmente conhecida como lepra, a hansen´ıase ´e uma doen¸ca crˆonica e infecciosa que afeta a pele e os troncos nervosos perif´ericos podendo causar ´ulceras de pernas e p´es, caro¸cos no corpo, febre, edemas e dor nas juntas, entupimento, sangramento, ferida e ressecamento do nariz e dos olhos. Sua forma de cont´agio ocorre por meio do contato com pessoas infectadas com o bacilo Mycobacterium leprae, que n˜ao estejam sendo tratadas. Esse bacilo tem a capacidade de infectar um grande n´umero de indiv´ıduos, mas poucos adoecem. Acredita-se tamb´em que fatores como condi¸c˜oes de vida e nutri¸c˜ao, insalubridade do ambiente e quest˜oes ambientais possam intensificar a propaga¸c˜ao da doen¸ca.
H´a relatos de ocorrˆencias da doen¸ca em 600 a.C na ´Asia e na ´Africa, consideradas o ber¸co da hansen´ıase. Sem recursos m´edicos nessa ´epoca, a doen¸ca se acentuava com graves deforma¸c˜oes f´ısicas nas pessoas contaminadas, levando o paciente a marginaliza¸c˜ao e estigmatiza¸c˜ao social. Devido aos avan¸cos da medicina, introduziu-se o tratamento de poliquimioterapia tornando a doen¸ca cur´avel. Al´em disso, acredita-se que a redu¸c˜ao da pobreza e o crescimento econˆomico contribu´ıram para a grande redu¸c˜ao no n´umero de pessoas com hansen´ıase em todo o mundo.
A hansen´ıase apresenta um longo per´ıodo m´edio de incuba¸c˜ao, de 2 a 7 anos, e o diagn´ostico dessa doen¸ca ´e essencialmente cl´ınico. E, por isso, espera-se que haja poucos indiv´ıduos menores de 15 anos com a doen¸ca diagnosticada. Sendo assim, um n´umero grande de menores doentes pode ser um indicador de problema grave em uma regi˜ao.
H´a ainda algumas regi˜oes consideradas hiperendˆemicas. Segundo Who (2012) [4], trˆes pa´ıses s˜ao respons´aveis por 83% de todos os casos detectados no mundo: ´India (58%), Brasil (16%) e Indon´esia (9%). Sendo assim, o Brasil apresenta a maior prevalˆencia na Am´erica Latina. Entre as regi˜oes brasileiras, o Norte, Nordeste e Centro-Oeste apresentam as maiores taxas de detec¸c˜ao. Dentres os estados, o Maranh˜ao apresenta a maior prevalˆencia, a maior taxa de detec¸c˜ao geral e a maior taxa de detec¸c˜ao em menores de 15 anos, considerado como hiperendˆemico para os padr˜oes do Minist´erio da Sa´ude.
Partindo do pressuposto que a regi˜ao do Maranh˜ao e seus munic´ıpios apresentam altas e diferentes taxas de hansen´ıase, ´e poss´ıvel analisar espacialmente sua influˆencia com o
1 Introdu¸c˜ao 14
aux´ılio de dados localmente observados que s˜ao acess´ıveis atrav´es do SIG, no qual vem se tornando uma grande ferramenta em an´alises de dados sobre sa´ude e meio ambiente.
Assim sendo, esse trabalho visa modelar estat´ısticamente as taxas de detec¸c˜ao de hansen´ıase no Maranh˜ao em 2010, descrevendo o comportamento probabil´ıstico dessa doen¸ca em indiv´ıduos menores de 15 anos. Para isso, recorreu-se a modelos espaciais. Os parˆametros desconhecidos foram estimados segundo o enfoque bayesiano atrav´es dos m´etodos de Monte Carlo via cadeias de Markov (MCMC).
Esse trabalho est´a organizado como descrito a seguir. No Cap´ıtulo 2, est˜ao apresentados os objetivos gerais desse trabalho. No Cap´ıtulo 3, define-se os m´etodos e apresentam-se as revis˜oes bibliogr´aficas de Estat´ıstica Espacial, Inferˆencia Bayesiana e m´etodos de MCMC. Posteriormente, no Cap´ıtulo 4, est˜ao as an´alises dos resultados encontrados. E por fim, o Cap´ıtulo 5 finaliza-se o trabalho apresentando as conclus˜oes sobre o estudo.
15
2
Objetivos
O objetivo geral desse trabalho ´e estudar sobre a modelagem espacial para dados de ´
area. Para isso, prop˜oe-se alguns modelos e analisa-se a capacidade de inferir sobre os parˆametros desconhecidos com base em conjuntos de dados simulados e dados reais. A inferˆencia sobre os parˆametros desconhecidos ´e realizada sob o enfoque bayesiano.
Os objetivos espec´ıficos s˜ao:
• Estudar os principais indicadores de autocorrela¸c˜ao espacial por meio de dados simulados, considerando uma regi˜ao de grade regular e outra irregular;
• Ajustar os modelos propostos por meio de dados simulados, avaliar a capacidade de estima¸c˜ao dos parˆametros e analisar a sensibilidade quanto a distribui¸c˜ao a priori para diferentes escolhas dos hiperparˆametros;
• Aplicar os dados de hansen´ıase do Maranh˜ao em escala municipal, avaliar descritivamente a dependˆencia espacial da doen¸ca entre as regi˜oes, estimar os parˆametros desconhecidos dos modelos e interpret´a-los no contexto do problema.
16
3
Materiais e M´
etodos
Nesse cap´ıtulo, ser˜ao apresentadas revis˜oes bibliogr´aficas a come¸car pela Se¸c˜ao 3.1 sobre Estat´ıstica Espacial, descrevendo os principais tipos de dados espaciais com foco na modelagem em dados de ´area. Em seguida, na Se¸c˜ao 3.2, uma revis˜ao de Inferˆencia Bayesiana, e logo ap´os, na Se¸c˜ao 3.2.1, os principais m´etodos de MCMC.
3.1
Estat´ıstica Espacial
Fenˆomenos observados ao longo do espa¸co s˜ao considerados dados espaciais. A estat´ıstica espacial ´e a ´area da estat´ıstica que busca descrever ou explicar esses fenˆomenos relacionando-os com o espa¸co e tem aplica¸c˜ao em diversas ´areas tais como Economia, Epidemiologia, Demografia, entre outras.
De acordo com Cressie (1993) [5], dados espaciais podem ser classificados em trˆes grupos: dados de superf´ıcies cont´ınuas (geoestat´ısticos), padr˜ao de pontos e dados de ´
area.
Dados geoestat´ısticos s˜ao obtidos quando a vari´avel de interesse ocorre de forma cont´ınua no espa¸co. Apesar de transcorrer de forma constante no espa¸co, observa-se apenas um conjunto finito de localiza¸c˜oes e o aleat´orio est´a no atributo medido em cada ponto. O volume pluviom´etrico em certa regi˜ao ´e um exemplo de dados dessa natureza.
Caso o interesse seja modelar a localiza¸c˜ao (desconhecida) de um evento de interesse (conhecido), ent˜ao os dados s˜ao considerados como padr˜ao de pontos. O estudo de acidentes de trˆansito em determinada cidade ´e um exemplo desse grupo e a aleatoriedade nesse caso est´a no local exato da ocorrˆencia.
Por fim e n˜ao menos importante, os dados de ´area s˜ao aqueles agregados em unidades de an´alises. Dessa forma, ´e poss´ıvel avaliar a influˆencia da vizinhan¸ca de acordo com a proximidade e analisar seus impactos. Por exemplo: o n´umero de homic´ıdios nos bairros da cidade do Rio de Janeiro. Cada bairro cont´em um n´umero que representa a quantidade
3.1 Estat´ıstica Espacial 17
de homic´ıdios que ocorreram em diferentes ruas daquele mesmo bairro. Portanto, nesse tipo de dado a aleatoriedade est´a no valor observado e agregado por regi˜ao.
Em dados epidemiol´ogicos ´e comum agrupar o n´umero de indiv´ıduos, infectados com uma certa doen¸ca, por bairros ou munic´ıpios, por exemplo. Nesse caso, esses s˜ao classificados como dados de ´area. O objetivo desse trabalho ´e estudar dados dessa natureza.
3.1.1
Indicadores de Autocorrela¸
c˜
ao Espacial
Quando o interesse est´a em avaliar a associa¸c˜ao entre duas vari´aveis aleat´orias, geralmente s˜ao usados os coeficientes de correla¸c˜ao de Spearman, Pearson, dentre outros. Por´em, na ocasi˜ao em que uma vari´avel est´a distribu´ıda espacialmente e deseja-se analisar a similaridade ou dependˆencia espacial entre as regi˜oes, dois dos principais indicadores de autocorrela¸c˜ao espacial mais empregados s˜ao, o ´Indice de Moran e o ´Indice de Geary, sendo o primeiro o mais utilizado em dados de ´area.
• ´Indice Global de Moran
Esse ´ındice ´e calculado comparando-se as diferen¸cas observacionais de cada regi˜ao com rela¸c˜ao a m´edia global, sendo assim, considerando uma matriz de vizinhan¸ca ou matriz de proximidade espacial W, Banerjee [6] define o ´Indice Global de Moran como sendo I = n Pn i=1 Pn j=1wij(Zi− ¯Z)(Zj − ¯Z) (P i6=jwij) P i(Zi− ¯Z)2 , (3.1)
onde n ´e o n´umero de ´areas na regi˜ao de interesse, Zi e Zj s˜ao os valores da vari´avel
aleat´oria nas regi˜oes i e j respectivamente, ¯Z a m´edia amostral global e wij os
elementos da matriz de vizinhan¸ca.
Os valores desse ´ındice podem ser tanto positivos quanto negativos, podendo assumir quaisquer valores no conjunto dos reais R (Waller et al. (2004)) [7]. Contudo, o mais comum s˜ao valores no intervalo [−1, 1], em que um valor pr´oximo de zero indica ausˆencia de autocorre¸ca¸c˜ao espacial. Caso exista similaridade entre as regi˜oes mais pr´oximas, espera-sa que o indicador tenda a ser positivo, caso contr´ario, ser´a negativo.
3.1 Estat´ıstica Espacial 18
• ´Indice de Geary
Esse ´ındice ´e calculado levando em conta a diferen¸ca entre os pares observacionais, de tal forma que possa ser definido como
C = (n − 1) Pn i=1 Pn j=1wij(Zi− Zj) 2 (P i6=jwij) P i(Zi− ¯Z)2 , (3.2)
em que n ´e o n´umero de ´areas na regi˜ao de interesse, Zi e Zj s˜ao os valores
observacionais da vari´avel aleat´oria nas regi˜oes i e j respectivamente e wij os
elementos da matriz de vizinhan¸ca.
A partir do numerador da Equa¸c˜ao 3.2, percebe-se que jamais o ´ındice de Geary assumir´a valores negativos. Considerando o intervalo de [0, 2], valores menores e maiores que 1 indicam correla¸c˜ao espacial positiva e negativa, respectivamente. E logo, resultados pr´oximos de 1 indicam ausˆencia de dependˆencia espacial.
Maiores detalhes desses e de outros indicadores de autocorrela¸c˜ao espacial podem ser vistos em Camara et al. (2004) [8] e Banerjee et al. (2004) [6].
3.1.2
Dados de ´
Area
No contexto de estat´ıstica espacial, os dados de ´area s˜ao observa¸c˜oes obtidas sob uma regi˜ao de interesse que pode ser dividida em subregi˜oes regulares (de mesmo comprimento e mesma ´area) ou irregulares (bairros, cidades, distritos, setores censit´arios, etc). S˜ao in´umeros os exemplos para dados dessa natureza tais como: casos de dengue nos bairros da cidade do Rio de Janeiro e vendas de um determinado produto nos munic´ıpios do estado de S˜ao Paulo. Usualmente, esses dados correspondem a contagens, taxas, m´edias, entre outros.
Os principais objetivos de estudo em dados de ´area s˜ao a detec¸c˜ao e explica¸c˜ao dos padr˜oes espaciais ou tendˆencias encontradas no fenˆomeno de interesse. Consequentemente, torna-se v´alido investigar e analisar a existˆencia de alguma tendˆencia nas observa¸c˜oes de regi˜oes mais pr´oximas serem mais semelhantes do que em observa¸c˜oes em locais mais distantes.
Quando o interesse na modelagem espacial ´e, por exemplo, relacionar as respostas de uma vari´avel com seus vizinhos, duas especifica¸c˜oes de modelos s˜ao mais comuns, s˜ao elas: o SAR e o Modelo Autorregressivo Condicional (CAR). Cressie (1993) [5] mostrou que o modelo SAR ´e um caso espec´ıfico do modelo CAR e que este ´ultimo ´e mais comumente
3.1 Estat´ıstica Espacial 19
usado em an´alise espacial de dados de contagem, devido a facilidade computacional. O modelo CAR ´e definido a partir da distribui¸c˜ao condicional da vari´avel de interesse numa dada regi˜ao condicionada na vari´avel de interesse nas demais regi˜oes. Sob a distribui¸c˜ao condicional, ´e imposta uma rela¸c˜ao autoregressiva, o que motivou o nome do modelo CAR. Para analisar a dependˆencia espacial, obtem-se a distribui¸c˜ao conjunta. O modelo SAR, como o pr´oprio nome induz, ´e definido a partir da distribui¸c˜ao conjunta da vari´avel de interesse. A estrutura autoregressiva ´e imposta nessa distribui¸c˜ao.
Comparando algumas propriedades de ambos os modelos e em termos de estima¸c˜ao e interpreta¸c˜ao, o modelo CAR ´e prefer´ıvel ao SAR (Schmidt et al. (2003) [9]). Uma delas ´e bastante interessante, a propriedade de que a especifica¸c˜ao do CAR fornece diretamente as distribui¸c˜oes condicionais completas a posteriori dos parˆametros do modelo, fator imprescind´ıvel para o uso do amostrador de Gibbs em m´etodos de MCMC, que ser´a visto na Se¸c˜ao 3.2.2.
3.1.3
Modelo Autorregressivo Condicional - CAR
Basicamente a ideia do modelo CAR ´e que a probabilidade do evento de interesse assumir um valor em um local depende do valor desse evento assumido na vizinhan¸ca. Assim, supondo Zi a vari´avel de interesse na regi˜ao i, o modelo pode ser definido por
Zi = µi+ ρ
X
j∈S−i
bij(Zj− µj) + ei, i = 1, . . . , n, (3.3)
onde S−i = {1, . . . , i − 1, i + 1, . . . , n} ´e o conjunto de ´ındices que representa todas as
regi˜oes excluindo a i-´esima localiza¸c˜ao, n ´e o n´umero total de regi˜oes, µi ´e o valor m´edio
de Zi que n˜ao depende de forma direta dos vizinhos e pode conter, por exemplo, vari´aveis
explicativas espec´ıficas da i-´esima regi˜ao, ρ ´e o parˆametro da autocorrela¸c˜ao espacial que determina a dependˆencia da vizinhan¸ca, bij ´e o efeito do vizinho j na regi˜ao i e tamb´em
pode ser visto como uma pondera¸c˜ao e ei´e um efeito aleat´orio independente. Suponha que
esses efeitos sejam independentes e identicamente distribu´ıdos e que possuam a seguinte distribui¸c˜ao normal
ei iid
∼ N (0, Vi). (3.4)
Note que o modelo acima permite que haja fatores locais e da vizinhan¸ca influenciando a vari´avel atrav´es das componentes µi e µj, respectivamente, que podem ou n˜ao variar
3.1 Estat´ıstica Espacial 20
ponderar a influˆencia do vizinho j na dada regi˜ao e costuma ser definida atrav´es de uma matriz W , comumente conhecida como matriz de vizinhan¸cas, que pode ser representada de diversas formas. Essa matriz indica se as regi˜oes i e j s˜ao vizinhas. Para definir isso, pode-se considerar vizinhas se essas regi˜oes dividirem fronteiras ou se elas estiverem no m´aximo a uma certa distˆancia, por exemplo. Seja Wij o elemento da i-´esima linha e
j-´esima coluna da matriz W , sendo Wij = 1, caso i 6= j e se as ´areas i e j dividem fronteira
e Wij = 0, caso contr´ario. Seja Wi+ =
Pn
j=1Wij o n´umero de vizinhos da i-´esima regi˜ao.
Sendo assim, considerando bij = Wij
Wi+, tem-se que essa componente pondera o peso do
vizinho j na regi˜ao i.
Atrav´es da matriz de covariˆancia de Z = (Z1, . . . , Zn), pode-se avaliar a correla¸c˜ao
entre 2 regi˜oes diferentes. Para isso, assuma que Vi = WVi+, sendo V comum a todas as
regi˜oes. Sendo assim, tem-se a seguinte matriz de covariˆancia para a vari´avel Z:
ΣCAR= V AR(Z) = (I − ρW∗)−1V , (3.5)
onde I ´e a matriz identidade de ordem n, W∗´e a matriz formada pelos elementos bij e V
´e uma matriz diagonal formada pelos elementos Vi. Quando ρ = 0, tem-se independˆencia
e que Zi ∼ N (0, V /Wi+). Quando ρ = 1, ´e dito ter um modelo autoregressivo intr´ınseco e
tem-se uma distribui¸c˜ao conjunta impr´opria para Z. Pode-se mostrar que se ρ ∈ (−1, 1), ent˜ao existe a distribui¸c˜ao conjunta de Z e essa possui a seguinte forma
Z ∼ N µ, (I − ρW∗)−1V , (3.6)
sendo µ = (µ1, . . . , µn)
0
.
3.1.4
Modelo Autorregressivo Simultˆ
aneo - SAR
Considere que a vari´avel de interesse Z = (Z1, . . . , Zn)
0
tem a seguinte express˜ao, sob o modelo SAR:
Z = µ + (I − B)−1e, e ∼ N (0, τ−1I), (3.7) onde µ = (µ1, . . . , µn)
0
´
e o conjunto de valores m´edios da vari´avel de interesse Z que pode depender de covari´aveis, n ´e o n´umero total de regi˜oes, I ´e a matriz identidade de ordem n, B ´e uma matriz quadrada de ordem n que ser´a explicada mais adiante, e = (e1, . . . , en)
0
3.2 Inferˆencia Bayesiana 21
e τ ´e um escalar correspondendo a um parˆametro de precis˜ao. Dessa forma, tem-se que a distribui¸c˜ao conjunta da vari´avel de interesse ´e dada da seguinte forma
Z ∼ N (µ, ΣSAR) , (3.8)
onde a matriz de covariˆancia ´e dada por
ΣSAR = (I − B)−1τ−1(I − B)−1 0 = (I − B)−1τ−1h(I − B)0i −1 = (I − B)−1τ−1h(I − B0)i −1 . (3.9)
Existem algumas formas diferentes de definir a matriz B. Neste trabalho, recorreu-se a seguinte estrutura: B = ρSARW∗, sendo ρSAR um parˆametro de autocorrela¸c˜ao espacial
e W∗ a matriz de vizinhan¸ca ponderada, conforme definida na Subse¸c˜ao 3.1.3.
Maiores detalhes sobre os modelos CAR e SAR podem ser vistos em Cressie(1993) [5] e Banerjee et al.(2003) [6].
3.2
Inferˆ
encia Bayesiana
Inferˆencia estat´ıstica consiste em fazer afirma¸c˜oes sobre certa caracter´ıstica de uma popula¸c˜ao com base em um subconjunto dessa popula¸c˜ao chamado de amostra. Sendo assim, considere que θ seja um vetor de parˆametros populacionais desconhecidos de uma popula¸c˜ao de tamanho N . A quantidade θ assume valores no espa¸co param´etrico denotado por Θ.
Seja Zi uma vari´avel aleat´oria com i sendo o ´ındice de unidade amostral da popula¸c˜ao
e que pode representar, por exemplo, um ind´ıviduo, um instante de tempo ou uma localidade. Suponha que ´e obtida uma amostra dessa popula¸c˜ao de tamanho n e que haja o interesse em inferir sobre a m´edia e/ou a variˆancia da mesma, representadas por µ e σ2, respectivamente. Nesse caso, tem-se que θ = (µ, σ2)0 ´e o vetor de parˆametros
desconhecidos.
Para explicar como ´e realizada a inferˆencia sob a perspectiva bayesiana, faz-se necess´ario definir alguns termos como fun¸c˜ao de verossimihan¸ca, distribui¸c˜ao a priori e distribui¸c˜ao a posteriori.
3.2 Inferˆencia Bayesiana 22
Ao propor um modelo para um conjunto de dados, atribui-se uma fun¸c˜ao de distribui¸c˜ao ou de densidade para a vari´avel aleat´oria de interesse, Z = (Z1, . . . , Zn)
0
. Denote essa fun¸c˜ao por p(Z|θ). Essa fun¸c˜ao representa a cren¸ca que tem-se sobre a distribui¸c˜ao da vari´avel de interesse considerando conhecido o vetor param´etrico θ. Mas, na pr´atica, esse vetor ´e desconhecido e deseja-se inferi-lo. Sendo assim, quando uma amostra dessa popula¸c˜ao ´e aplicada nessa fun¸c˜ao para inferir sobre θ, essa fun¸c˜ao passa a ser chamada de fun¸c˜ao de verossimilhan¸ca e passa a ser denotada por l(θ; z), onde z representa o valor amostrado da vari´avel de interesse.
Em inferˆencia bayesiana, diferentemente da cl´assica, leva-se em considera¸c˜ao um conhecimento pr´evio sobre os parˆametros, conhecido como distribui¸c˜ao a priori. Denote essa distribui¸c˜ao por h(θ).
Dessa forma, a inferˆencia sobre θ ´e dada atrav´es da distribui¸c˜ao a posteriori p(θ|z), que pode ser obtida a partir do Teorema de Bayes, combinando a fun¸c˜ao de verossimilhan¸ca com a distribui¸c˜ao a priori, h(θ) e com a distribui¸c˜ao marginal dos dados, p(z), obtendo a seguinte forma
p(θ|z) = l(θ; z)h(θ)
p(z) . (3.10)
A distribui¸c˜ao marginal da vari´avel de interesse pode ser obtida da seguinte forma p(z) = Z . . . Z Θ p(z|θ)h(θ)dθ. (3.11)
Note que a distribui¸c˜ao marginal p(z) n˜ao varia com o vetor param´etrico θ. Sendo assim, a distribui¸c˜ao a posteriori do vetor param´etrico ´e proporcional ao produto da fun¸c˜ao de verossimilhan¸ca e da distribui¸c˜ao a priori. E, por defini¸c˜ao de fun¸c˜ao de densidade, integrando a distribui¸c˜ao a posteriori com respeito a Θ essa integral tem que dar 1. Logo, n˜ao faz-se necess´ario calcular a distribui¸c˜ao marginal p(z) para obter a distribui¸c˜ao a posteriori. E, portanto, essa ´ultima pode ser reescrita da seguinte forma
p(θ|z) = kl(θ; z)h(θ), (3.12)
sendo k−1 =RΘl(θ; z)h(θ)dθ.
Muitas vezes a Equa¸c˜ao 3.12 n˜ao possui forma anal´ıtica conhecida. Portanto, para inferir sobre o vetor param´etrico desconhecido θ pode-se obter amostras da distribui¸c˜ao a posteriori recorrendo aos m´etodos de MCMC. Na se¸c˜ao a seguir, ser˜ao apresentados dois desses m´etodos: o amostrador de Gibbs e o algoritmo de Metropolis-Hastings.
3.2 Inferˆencia Bayesiana 23
3.2.1
MCMC
Os m´etodos de MCMC servem para simular amostras de uma distribui¸c˜ao de interesse p(·) quando essa distribui¸c˜ao possui forma anal´ıtica desconhecida ou ´e custosa de se amostrar diretamente. Para essa amotragem, ´e necess´ario que as cadeias de Markov sejam homogˆeneas, irredut´ıveis e aper´ıodicas. Diz-se que uma cadeia de Markov ´e homogˆenea se a probabilidade de transi¸c˜ao for estacion´aria, ou seja, se esta probabilidade n˜ao depender da itera¸c˜ao. Uma cadeia ´e irredut´ıvel se para um conjunto finito de itera¸c˜oes e com probabilidade positiva, ela se move de um ponto a outro qualquer. E ser´a aper´ıodica se ela for irredut´ıvel e se nenhum de seus estados seja visitado ap´os n passos com probabilidade menor ou igual a um.
A distribui¸c˜ao a posteriori de um vetor param´etrico costuma ter forma anal´ıtica desconhecida ou dif´ıcil de ser calculada. Sendo assim, para inferir sobre os parˆametros, nesses casos, uma alternativa ´e recorrer a algum m´etodo de simula¸c˜ao de amostras. Este trabalho ir´a se concentrar em dois dos principais m´etodos, o amostrador de Gibbs e o Algoritmo de Metropolis-Hastings, aplicados a inferˆencia bayesiana. Para mais detalhes consultar Gamerman e Lopes (2006) [10].
3.2.2
Amostrador de Gibbs
O algoritmo amostrador de Gibbs foi proposto por Geman e Geman (1984) [11] e introduzido a comunidade estat´ıstica por Gelfand e Smith (1990) [12]. Em inferˆencia bayesiana, esse algoritmo consiste basicamente em amostrar a partir das distribui¸c˜oes condicionais completas a posteriori, p(θl | θ1, . . . , θl−1, θl+1, . . . , θp, z), sendo z os valores
observados e θl o l-´esimo vetor param´etrico desconhecido. A componente θl pode ser um
escalar ou um vetor. A ideia ´e que a distribui¸c˜ao condicional completa a posteriori de θl seja conhecida para ser amostrada. Caso essa distribui¸c˜ao tamb´em seja desconhecida,
ser´a necess´ario recorrer aos passos de Metropolis-Hastings, que ser´a discutido na pr´oxima Subse¸c˜ao.
Os passos desse algoritmo, baseado em sucessivas gera¸c˜oes das distribui¸c˜oes condicionais completas a posteriori, podem ser descritos como:
1. Inicialize o contador em j = 0 e determine valores arbitr´arios para θ(0) = (θ(0)1 , θ(0)2 , . . . , θ(0)p )0.
3.2 Inferˆencia Bayesiana 24
2. Modifique o contador de j para j + 1;
3. Obtenha um novo valor para θ(j) a partir de θ(j−1) sequencialmente da forma θ1(j) v p(θ1 | θ (j−1) 2 , . . . , θ (j−1) p , z) θ(j)2 v p(θ2 | θ (j−1) 1 , θ (j−1) 3 , . . . , θ (j−1) p , z) .. . θ(j)p v p(θp | θ (j−1) 1 , θ (j−1) 2 , . . . , θ (j−1) p−1 , z)
4. Repita os passos (2) e (3) at´e que a cadeia convirja.
A convergˆencia das cadeias de Markov ´e esperada ap´os um n´umero de itera¸c˜oes suficientemente grande e ap´os o per´ıodo de aquecimento (burn-in), que s˜ao as itera¸c˜oes necess´arias at´e que a cadeia comece a convergir. Importante salientar que os parˆametros amostrados costumam ser altamente autocorrelacionados, caracter´ıstica das cadeias de Markov, desta forma, utiliza-se um espa¸camento de ordem k em que seleciona-se uma amostra a cada k intera¸c˜oes at´e que seja corrigida a autocorrela¸c˜ao da cadeia.
3.2.3
Algoritmo de Metropolis-Hastings
O Algoritmo de Metropolis-Hastings foi proposto por Metropolis e outros (1953) [13] e Hastings (1970) [14]. Ele ´e utilizado quando a distribui¸c˜ao de interesse p(·) n˜ao possui forma anal´ıtica conhecida. Portanto, sem conhecer o n´ucleo ou a classe de distribui¸c˜oes de p(·), n˜ao ´e poss´ıvel amostrar diretamente da distribui¸c˜ao de interesse. Com isso, utiliza-se uma distribui¸c˜ao auxiliar q(·), denominada como distribui¸c˜ao proposta. O algoritmo baseia-se em gerar um valor proposto de q(·) e aceit´a-lo na cadeia a partir de uma condi¸c˜ao probabil´ıstica de p(·) e q(·). Sob o ponto de vista bayesiano, o m´etodo pode ser explicado pelos seguintes passos:
1. Inicialize o contador de itera¸c˜oes em j = 0 e determine valores arbitr´arios para θ(0); 2. Modifique o contador de j para j + 1;
3. Gere um valor proposto ϕ usando uma distribui¸c˜ao conhecida que pode depender do valor amostrado na itera¸c˜ao anterior e essa distribui¸c˜ao ser´a denotada por q(ϕ | θ(j−1)). Aceite o ponto gerado com probabilidade
α = min ( 1, p(ϕ|z) q(ϕ | θ(j−1)) q(θ(j−1)| ϕ) p(θ(j−1)|z) ) . (3.13)
3.2 Inferˆencia Bayesiana 25
Se o valor for aceito, θ(j)= ϕ, caso contr´ario θ(j)= θ(j−1); 4. Repita os passos (2) e (3) at´e que a cadeia convirja.
Os crit´erios de convergˆencia vistos no amostrador de Gibbs tamb´em valem para o algoritmo de Metropolis-Hastings, tais como: per´ıodo de aquecimento (burn-in) e espa¸camento de ordem k.
Uma vez atingida a convergˆencia, torna-se bastante trivial fazer inferˆencia a partir das distribui¸c˜oes a posteriori dos parˆametros de interesse.
Esse algoritmo pode ser utilizado para amostrar de uma distribui¸c˜ao p(·) qualquer e, em particular, da distribui¸c˜ao a posteriori de θ ou da distribui¸c˜ao condicional completa a posteriori descrita na Subse¸c˜ao anterior.
26
4
An´
alise dos Resultados
Nesse Cap´ıtulo, ser˜ao apresentados os principais resultados da modelagem de dados de vari´aveis aleat´orias espaciais via simula¸c˜ao e dados reais. Para aplica¸c˜ao dos dados reais, foram utilizadas as taxas de hansen´ıase no Maranh˜ao por 100 mil habitantes em escala municipal. Considerando as taxas da doen¸ca sendo vari´aveis cont´ınuas, inicialmente foi proposto um modelo CAR e em seguida um modelo SAR, ambos definidos ao longo da Se¸c˜ao 3.1. Al´em disso, ser´a apresentado um estudo sobre os Indicadores de Autocorrela¸c˜ao Espacial especificados na Se¸c˜ao 3.1.1.
4.1
An´
alise Descritiva
Os dados foram disponibilizados pelo mestre Paulo Henrique Leal de Sousa que foi orientado pelo professor doutor Iuri da Costa Leite e co-orientado pela professora doutora Patr´ıcia Lusi´e Velozo da Costa no mestrado profissional em Epidemiologia em Sa´ude P´ublica, na Escola Nacional de Sa´ude P´ublica Sergio Arouca, na Funda¸c˜ao Oswaldo Cruz, no Rio de Janeiro.
O estado do Maranh˜ao possui 217 mun´ıcipios sendo a cidade de S˜ao Lu´ıs a sua capital. A lista completa pode ser consultada no Apˆendice A. As informa¸c˜oes referentes a taxa de detec¸c˜ao de hansen´ıase foram obtidas a partir do Sistema de Informa¸c˜oes de Agravos e Notifica¸c˜oes (SINAN), que ´e um instrumento p´ublico relevante no combate `as principais doen¸cas estudadas no pa´ıs. J´a os dados do ´Indice de Desenvolvimento Humano Municipal (IDHM) no Maranh˜ao, foram adquiridos a partir do ´ultimo censo demogr´afico realizado pelo Instituto Brasileiro de Geografia e Estat´ıstica (IBGE) em 2010.
A taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos possui classifica¸c˜oes categ´oricas diferentes da usuais, uma vez que altos ´ındices nessa faixa et´aria representam combate inadequado da doen¸ca por parte dos org˜aos de sa´ude. Assim, considerando a escala de 100 mil habitantes, a taxa ´e classificada em: hiperendˆemica (≥ 10, 00); muito
4.1 An´alise Descritiva 27
alta (5, 00 a 9, 99); alta (2, 50 a 4, 99); m´edia (0, 50 a 2, 49); e baixa (< 0, 50) (Revista de Sa´ude P´ublica (2017)) [15].
A Figura 1 apresenta as taxas de detec¸c˜ao de hansen´ıase para cada munc´ıpio do Maranh˜ao em 2010 de acordo com a classifica¸c˜ao estabelecida desse indicador. Note que as cores predominantes s˜ao das categorias baixo e hiperendˆemico, ou seja, apesar de muitas regi˜oes apresentarem taxas quase ou totalmente nulas, outras apresentam taxas bastante elevadas. Ademais, percebe-se uma poss´ıvel correla¸c˜ao espacial entre os munic´ıpios pois muitas regi˜oes e sua vizinhan¸ca possuem a mesma classifica¸c˜ao categ´orica da doen¸ca.
Figura 1: Taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos por 100 mil habitantes nos muninc´ıpios do Maranh˜ao em 2010.
Al´em da an´alise explorat´oria dos dados pelo mapa coropl´etico na figura acima, a correla¸c˜ao espacial entre as regi˜oes pˆode ser verificada tamb´em por meio dos indicadores de autocorrela¸c˜ao espacial. Verificou-se que h´a ind´ıcios de correla¸c˜ao espacial positiva entre os munic´ıpios do Maranh˜ao, uma vez que o ´Indices de Moran e Geary foram aproximadamente 0, 12 e 0, 88 respectivamente. E em ambos os indicadores os testes rejeitaram a hip´otese de ausˆencia de depˆencia espacial, evidenciando assim a associa¸c˜ao espacial entre as regi˜oes ao n´ıvel de significˆancia de 5%.
Cerca de 55% das regi˜oes n˜ao tiveram registros de infectados por hansen´ıase, tendo taxas nulas. Diversos motivos podem ser avaliados, como por exemplo: regi˜oes pouco povoadas, regi˜oes que n˜ao notificam os casos ou at´e mesmo a migra¸c˜ao de pessoas para as grandes cidades em busca de tratamento.
4.2 Indicadores de Autocorrela¸c˜ao Espacial 28
4.2
Indicadores de Autocorrela¸
c˜
ao Espacial
Ao analisar dados espaciais, costuma-se ter um forte interesse em medir a dependˆencia espacial. Essa dependˆencia pode ser investigada inicialmente de forma explorat´oria a partir dos indicadores de autocorrela¸c˜ao espacial vistos na Se¸c˜ao 3.1.1. O modelo SAR possui um parˆametro que descreve a dependˆencia espacial, o ρSAR. Sendo asim, ´e natural
questionar se h´a alguma rela¸c˜ao entre os ´ındices de Moran e de Geary com o parˆametro ρSAR, descrito na Se¸c˜ao 3.1.
Para isso foram gerados dados simulados do modelo SAR para diferentes valores de ρSAR e calculado os seus respectivos ´Indices de Moran e Geary associados. Foi criada uma
regi˜ao de grade regular, de mesma ´area e comprimento, com dimens˜ao 20x20 e contendo n = 400 subregi˜oes. Considere que µ = Xβ na Equa¸c˜ao (3.7), sendo X uma matriz 400 × 2 com a primeira coluna com todos os elementos unit´arios e a segunda coluna gerada da seguinte forma Xi2 ∼ U (0, 1). Fixou-se valores arbitr´arios para os demais
parˆametros, como β = (2, 3) e τ = 0, 5.
Os boxplots na Figura 2 representam o resultado de cada ´ındice para 1000 replica¸c˜oes do modelo. Note que as curvas de ambos os ´ındices se assemelham, uma vez que a medida que aumenta ou diminui o valor do parˆametro em dire¸c˜ao aos extremos, maior ´e a autocorrela¸c˜ao espacial seja ela positiva ou negativa. Vale destacar a forte correla¸c˜ao de ρSAR nos extremos de ambos os indicadores e a simetria dos resultados em torno de
4.2 Indicadores de Autocorrela¸c˜ao Espacial 29
Figura 2: Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados simulados do modelo SAR assumindo diferentes valores de ρSAR e uma regi˜ao de grade regular
contendo 400 subregi˜oes.
Al´em de verificar os valores correspondentes dos ´ındices, ´e poss´ıvel tamb´em avaliar a relevˆancia estat´ıstica desses resultados considerando um certo n´ıvel de significˆancia α. Assim, considere o teste de hipot´ese em que a hipot´ese nula, H0, representa a n˜ao presen¸ca
de correla¸c˜ao espacial e a hipot´ese alternativa, H1, caso contr´ario.
Assumindo α = 5%, a Figura 3 apresenta o resultado dos p-valores dos testes para as 1000 replica¸c˜oes do modelo a partir de diferentes valores de ρSAR para cada ´ındice.
Os valores sob a linha horizontal tracejada retratam os casos em que o teste rejeitou a hip´otese nula, ou seja, evidencia-se que h´a correla¸c˜ao espacial. Note que a medida que o parˆametro aumenta ou diminui, os p-valores diminuem at´e se manterem est´aveis.
4.2 Indicadores de Autocorrela¸c˜ao Espacial 30
Figura 3: P-valores dos testes de hip´otese dos indicadores para 1000 replica¸c˜oes de dados simulados do modelo SAR considerando diferentes valores de ρSAR e uma regi˜ao de grade
regular contendo 400 subregi˜oes.
Vale lembrar que nos resultados anteriores foi utilizada uma regi˜ao de grade regular, simulada, de mesma ´area e comprimento. J´a era esperado um comportamento conforme apresentado, uma vez que est´a sendo utilizado um modelo com estrutura espacial. Diante disso, agora se torna interessante analisar os mesmos resultados aplicando-os a uma grade irregular, retratando uma regi˜ao mais similar a que ocorre na pr´atica.
Como aplica¸c˜ao, utilizou-se o estado do Maranh˜ao e seus 217 munic´ıpios. Na Figura 4, nota-se o mesmo resultado visto na Figura 2, por´em, contendo uma “incerteza”(variabildiade) maior conforme os valores de ρSAR v˜ao aumentando ou
diminuindo. Fatores como regi˜oes com muitos ou poucos vizinhos, n´umero menor de subregi˜oes e dentre outros, podem estar associados a esse comportamento distinto ao utilizar regi˜oes com caracacter´ısticas diferentes.
4.2 Indicadores de Autocorrela¸c˜ao Espacial 31
Figura 4: Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados simulados do modelo SAR assumindo diferentes valores de ρ e o estado do Maranh˜ao.
A Figura 5 apresenta os p-valores dos testes de hip´otese de correla¸c˜ao espacial considerando o estado do Maranh˜ao e um n´ıvel de significˆancia de 5%. Diferentemente do resultado apresentado na Figura 3, os valores dos testes apresentaram muita incerteza at´e para ρSAR mais altos que do caso anterior.
Figura 5: P-valores dos testes de hip´otese dos indicadores para 1000 replica¸c˜oes de dados simulados do modelo SAR considerando diferentes valores de ρSAR e o estado do
4.3 Modelo CAR 32
4.3
Modelo CAR
Considere que Z = (Z1, . . . , Zn)
0
, segue um modelo condicional autoregressivo conforme descrito na Subse¸c˜ao 3.1.2 e dado da seguinte forma
Z ∼ N Xβ, (I − ρW∗)−1V , (4.1)
sendo X chamada de matriz desenho contendo n linhas nas quais cada linha cont´em K vari´aveis relacionadas a i-´esima regi˜ao. Essa matriz pode conter uma coluna de uns para permitir intercepto na modelagem, vari´aveis explicativas tamb´em chamadas de covari´aveis, sazonalidade, entre outros. Al´em disso, considere que β seja um vetor coluna representando os efeitos dessas vari´aveis na vari´avel resposta, I uma matriz identidade de ordem n, ρ representa o efeito espacial, W∗ sendo uma matriz de ordem n × n formada pelos elementos Wij∗ = Wij
Wi+, nos quais Wij = 1, para i 6= j e se os munic´ıpios i e j
dividirem a mesma fronteira, e Wij = 0, caso contr´ario, e Wi+ =Pnj=1Wij sendo o total
de regi˜oes que dividem fronteira com a regi˜ao i. E V uma matriz diagonal de ordem n formada pelos elementos Vi = τ W1i+ sendo τ um escalar. Considere que o parˆametro
de autocorrela¸c˜ao espacial em ρ seja conhecido. Sendo assim, tem-se que o vetor de parˆametros desconhecidos desse modelo ´e θ = (β, τ )0.
Seguindo o enfoque bayesiano, para inferir sobre o vetor param´etrico θ ´e necess´ario atribuir uma distribui¸c˜ao a priori para esse vetor. Portanto, considere que β e τ sejam independentes e que possuam as seguintes distribui¸c˜oes
β ∼ N (a; VβI),
τ ∼ Ga(b, c), (4.2)
sendo bc e cb2, respectivamente, a m´edia e a variˆancia da distribui¸c˜ao gama.
Portanto, a distribui¸c˜ao a posteriori ´e dada pela seguinte forma
p(θ|Z) ∝ p(Z|θ)p(β)p(τ ), (4.3)
sendo p(Z|θ) a fun¸c˜ao de densidade da distribui¸c˜ao dada pela Equa¸c˜ao (4.1). Essa distribui¸c˜ao a posteriori n˜ao possui forma anal´ıtica conhecida e amostras podem ser obtidas atrav´es dos m´etodos de MCMC. Conforme descrito na Se¸c˜ao 3.2.1, faz-se ent˜ao
4.3 Modelo CAR 33
necess´ario obter as distribui¸c˜oes condicionais completas a posteriori do vetor param´etrico β. Dessa forma, tem-se as seguintes distribui¸c˜oes
β | τ, ρ, z ∼ NVp[X 0 (I − ρW∗)V−1Z + Vβ−1Ia] ; Vp = [X 0 (I − ρW∗)V−1X + Vβ−1I]−1, τ | β, ρ, z ∼ Ga n 2 + b ; 1 2(Z − Xβ) 0 (I − ρW∗)V∗(Z − Xβ) + c ,
onde V∗ ´e uma matriz diagonal de ordem n formada pelos elementos Vii = W1i+.
4.3.1
Estudo Simulado
Para verificar a capacidade de estima¸c˜ao dos parˆametros e analisar a sensibilidade da modelagem quanto a distribui¸c˜ao a priori, aplicou-se o modelo proposto a um conjunto de dados simulados, fixando valores arbitr´arios para os parˆametros desconhecidos. Suponha que a matriz desenho possui um intercepto e uma vari´avel explicativa com os seguintes valores β0 = (−0, 5 ; 3), sendo Xi1= 1 e Xi2∼ U (0, 1). Al´em disso, considere que h´a
uma alta correla¸c˜ao espacial assumindo ρ = 0, 999 e precis˜ao τ = 0, 5.
Com o intuito de analisar a sensibilidade do modelo quanto a distribui¸c˜ao a priori, ajustou-se os dados simulados considerando diferentes escolhas para os hiperparˆametros da distribui¸c˜ao. As escolhas foram realizadas de forma que ora tivesse uma distribui¸c˜ao a priori informativa e ora fosse menos informativa. Uma das formas utilizadas para transformar uma distribui¸c˜ao informativa em n˜ao informativa ´e aumentar a variabilidade dessa distribui¸c˜ao.
Sendo assim, visando a an´alise de sensibilidade, a Tabela 1 apresenta as estimativas pontuais, obtidas pelas m´edias a posteriori, e as intervalares, obtidas pelos intervalos de credibilidade de 95% a posteriori, sob diferentes escolhas para os hiperparˆametros da distribui¸c˜ao a priori. Repare que, mesmo aumentando a variˆancia de Vβ, as estimativas
dos parˆametros a posteriori se mantiveram pr´oximas. Por isso, evidenciou-se que o modelo foi bem ajustado.
4.3 Modelo CAR 34
Tabela 1: An´alise de sensibilidade: estimativas a posteriori dos parˆametros sob diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori. A estimativa pontual ´e dada pela m´edia a posteriori e a intervalar pelo intervalo de credibilidade de 95%. Os valores verdadeiros dos parˆametros s˜ao β1 = −0, 5, β2 = 3 e τ = 0, 5.
Hiperparˆametros Estimativas a posteriori
a Vβ b c β1 β2 τ Priori 1 (0 ; 0) 500 2 0,5 -0,5993 3,0273 0,5768 (-3,0150 ; 1,7799) (2,7764 ; 3,2921) (0,4752 ; 0,6925) Priori 2 (0 ; 0) 100 0,1 0,1 -0,5652 3,0280 0,5689 (-3,0097 ; 1,7976) (2,7631 ; 3,2850) (0,4611 ; 0,6769) Priori 3 (0 ; 0) 50 1 0,2 -0,6233 3,0219 0,5750 (-2,9380 ; 1,6575) (2,7543 ; 3,2716) (0,4627 ; 0,6891) Priori 4 (0 ; 0) 25 1 0,1 -0,6056 3,0208 0,5753 (-2,8866 ; 1,6396) (2,7533 ; 3,2703) (0,4631 ; 0,6896)
Foram realizadas 11.000 itera¸c˜oes, com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. A Figura 6 mostra a convergˆencia das cadeias dos parˆametros e tamb´em seus histogramas a posteriori utilizando a Priori 2 definida na Tabela 1. As linhas em verde representam os valores verdadeiros dos parˆametros, j´a as linhas em vermelho s˜ao as estimativas a posteriori dos parˆametros desconhecidos e seus respectivos intervalos de credibilidade de 95% em cor azul. Note que h´a ind´ıcios de convergˆencia, que as m´edias a posteriori (estimativas pontuais) ficaram pr´oximas dos valores verdadeiros e os intervalos contemplaram os valores verdadeiros.
Figura 6: Tra¸cos das cadeias e histogramas das amostras dos parˆametros utilizando a Priori 2 com dados simulados. As linhas em verde representam os valores verdadeiros dos parˆametros, j´a as linhas em vermelho s˜ao as estimativas a posteriori dos parˆametros desconhecidos e seus respectivos intervalos de credibilidade de 95% em cor azul.
4.3 Modelo CAR 35
4.3.2
Dados de Hansen´ıase
Como foi visto na Se¸c˜ao 4.1, mais da metade dos mun´ıcipios do estado do Maranh˜ao apresentaram taxas de hansen´ıase iguais a zero no ano de 2010. Isso implica diretamente na modelagem podendo prejudicar consideravelmente na estima¸c˜ao dos parˆametros desconhecidos do modelo. Como alternativa, foi feita uma transforma¸c˜ao logar´ıtmica da vari´avel resposta para tentar reduzir a variabilidade dos dados e tentar ajustar adequadamente obtendo um resultado mais satisfat´orio.
Seja Zi∗ a taxa de doentes menores de 15 anos diagnosticados com hansen´ıase na regi˜ao i, por 100.000 habitantes. Considere que Z = (Z1, . . . , Zn)
0
, sendo Zi =
log(Zi∗ + 0, 1), segue um modelo condicional autoregressivo conforme descrito na Se¸c˜ao 3.1, com intercepto e uma vari´avel explicativa. Utilizou-se como vari´avel explicativa o IDHM em 2010 de cada munic´ıpio do Maranh˜ao. Al´em disso, considerando que h´a uma alta correla¸c˜ao espacial assumiu-se ρ = 0, 999.
Como n˜ao h´a cren¸ca sob os parˆametros desconhecidos, considere a priori que β e τ s˜ao independentes e que possuem as seguintes distribui¸c˜oes
β ∼ N (0; 100I),
τ ∼ Ga(0, 1; 0, 1), (4.4)
sendo 0 = (0, 0)0.
Foram gerados 11.000 valores com burn-in de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. Para a estimativa dos parˆametros desconhecidos, foram utilizadas a m´edia a posteriori e intervalos de credibilidade de 95%.
A Figura 7 mostra a convergˆencia das cadeias dos parˆametros e os histogramas das distribui¸c˜oes a posteriori. Note que parece ter havido convergˆencia.
4.3 Modelo CAR 36
Figura 7: Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a posteriori usando o conjunto de dados reais.
A Tabela 2 apresenta as estimativas e os intervalos de credibilidade a posteriori dos parˆametros estimados.
Tabela 2: M´edias a posteriori e intervalos de credibilidade de 95% para os parˆametros.
Parˆametros β1 β2 τ
Priori 2 -8,4525 15,1894 0,0306
(-18,0569 ; 1,6520) (11,5084 ; 19,3378) (0,0254 ; 0,0365)
A partir das estimativas dos parˆametros na Tabela 2, verificou-se que qu˜ao maior for o IDHM, maior dever´a ser a taxa de detec¸c˜ao de hansen´ıase nos munic´ıpios do Maranh˜ao. Resultado esse nada trivial, uma vez que esse indicador representa desenvolvimento humano nas ´areas de educa¸c˜ao, sa´ude e renda. Como argumenta¸c˜ao inicial, essa rela¸c˜ao pode estar associada, por exemplo, `a subnotifica¸c˜ao diferenciada segundo os munic´ıpios onde pessoas oriundas de regi˜oes com baixos IDHM s˜ao notificadas nos grandes centros urbanos onde apresentam ´ındices de desenvolvimento mais elevados.
Verificou-se tamb´em grandes aplitudes nos intervalos de credibilidade de 95% para os parˆametros estimados. Isso est´a relacionado principalmente devido os dados inflacionados em zero que impactam diretamente nesses resultados, mesmo ap´os a transforma¸c˜ao proposta na vari´avel de interesse.
Inicialmente foi utilizado o modelo CAR no ajuste e estima¸c˜ao dos parˆametros do modelo espacial fixando um das componentes. Contudo, ao tentar ajustar o mesmo modelo assumindo o parˆametro de autocorrela¸c˜ao espacial ρ desconhecido, encontrou-se problemas na sua amostragem.
4.4 Modelo SAR 37
4.4
Modelo SAR
Assuma que Z = (Z1, . . . , Zn)
0
, segue um modelo autorregressivo simultˆaneo conforme descrito na Subse¸c˜ao 4.4 e definido da seguinte forma
Z ∼ N Xβ,1 τ [(I − ρSARW ∗ )(I − ρSARW∗)0] −1 . (4.5)
sendo Xβ o produto entre a matriz desenho contendo n linhas nas quais cada linha cont´em K vari´aveis relacionadas a i-´esima regi˜ao e o vetor coluna representando os efeitos dessas vari´aveis na vari´avel resposta, I uma matriz identidade de ordem n, ρ o efeito espacial, W∗ sendo uma matriz de ordem n × n formada pelos elementos Wij∗ = Wij
Wi+, nos
quais Wij = 1, se as regi˜oes i e j dividem a mesma fronteira, e Wij = 0, caso contr´ario,
e Wi+ = Pnj=1Wij sendo o total de regi˜oes que dividem fronteira com a regi˜ao i. E τ
a precis˜ao do modelo. Por conta disso, tem-se que o vetor de parˆametros desconhecidos desse modelo ´e θ = (β, τ, ρSAR)0.
Acompanhando o enfoque bayesiano, para inferir sobre o vetor param´etrico θ ´e necess´ario atribuir uma distribui¸c˜ao a priori para o mesmo. Portanto, considere que β, τ e ρ sejam independentes e que possuam as seguintes distribui¸c˜oes
β ∼ N (a; VβI),
τ ∼ Ga(b, c),
ρ ∼ U (d, e), (4.6)
sendo bc e cb2, respectivamente, a m´edia e a variˆancia da distribui¸c˜ao gama.
Dessa forma, tem-se que a distribui¸c˜ao a posteriori ´e dada pela seguinte forma
p(θ|Z) ∝ p(Z|θ)p(β)p(τ )p(ρ), (4.7)
sendo p(Z|θ) a fun¸c˜ao de densidade da distribui¸c˜ao dada pela Equa¸c˜ao (4.1). Essa distribui¸c˜ao a posteriori n˜ao possui forma anal´ıtica conhecida e amostras podem ser obtidas atrav´es dos m´etodos de MCMC. Conforme descrito na Se¸c˜ao 3.2.1, faz-se ent˜ao necess´ario obter as distribui¸c˜oes condicionais completas a posteriori do vetor param´etrico θ. Assim, tem-se as seguintes distribui¸c˜oes.
β | τ, ρSAR, z ∼ N Vp[X 0 τ QZ + Vβ−1Ia] ; Vp = [X 0 τ QX + Vβ−1I]−1, τ | θ, ρSAR, z ∼ Ga n 2 + b ; 1 2(Z − Xβ) 0 Q(Z − Xβ) + c ,
4.4 Modelo SAR 38
onde Q = [(I − ρSARW∗)(I − ρSARW∗)0].
A distribui¸c˜ao condicional completa do parˆametro ρSAR n˜ao apresentou forma
anal´ıtica fechada e conhecida, sendo necess´aria assim a utiliza¸c˜ao do algoritmo de Metropolis Hastings para estim´a-lo. Dessa forma, especificou-se uma distribui¸c˜ao proposta para esse parˆametro que segue uma normal truncada no intervalo [−1, 1], de tal forma que
q(ρ) ∼ N T (ρ(i−1), 0, 252 ; −1, 1) ,
onde ρi−1 ´e o valor do parˆametro na intera¸c˜ao anterior do algoritmo.
4.4.1
Estudo Simulado
Aplicou-se o modelo SAR proposto a um conjunto de dados simulados e analisou-se a analisou-sensibilidade da modelagem quanto a diferentes escolhas para os hiperparˆametros da distribui¸c˜ao a priori, com o intuito de verificar a capacidade de estima¸c˜ao dos parˆametros. As escolhas foram realizadas de forma que ora tivesse uma distribui¸c˜ao a priori informativa e ora tivesse menos informativa. Uma das formas utilizadas para transformar uma distribui¸c˜ao informativa em n˜ao informativa ´e aumentar a variabilidade dessa distribui¸c˜ao. Sendo assim, visando essa an´alise, a Tabela 3 apresenta as distribui¸c˜oes utilizadas.
Tabela 3: An´alise de sensibilidade: diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori.
a Vβ b c d e
Priori 1 (0 ; 0) 1000 0,1 0,1 -1 1
Priori 2 (0 ; 0) 100 2 0,5 -1 1
Priori 3 (0 ; 0) 10 16 4 -1 1
Para a simula¸c˜ao dos dados, foram fixados valores arbitr´arios para os parˆametros desconhecidos do modelo. Suponha que a m´edia do processo seja formada por uma matriz desenho com um intercepto, uma vari´avel explicativa e os seguintes valores β0 = (2 ; 3) e τ = 0, 5, sendo Xi1 = 1 e Xi2∼ U (0, 1). Para o parˆametro ρ, fixou-se trˆes valores, 0, 1,
0, 3 e 0, 7, com o objetivo de analisar o comportamento da an´alise de sensibilidade dos hiperparˆametros do modelo.
4.4 Modelo SAR 39
A Figura 8 apresenta os dados simulados a partir de uma baixa e moderada/alta correla¸c˜ao espacial entre os munic´ıpios do estado do Maranh˜ao.
(a) ρ = 0, 1 (b) ρ = 0.7
Figura 8: Dados simulados via modelo SAR para diferentes valores de ρSAR nos munic´ıpios
do Maranh˜ao.
A Figura 9 apresenta as estimativas pontuais, obtidas pelas m´edias a posteriori sob diferentes escolhas para os hiperparˆametros da distribui¸c˜ao a priori e seus respectivos intervalos de alta densidade a posteriori, abreviados aqui por HDI, que s˜ao bastante usados em an´alises bayesianas (Turkkan et al. 1993) [16]. As linhas tracejadas horizontamente representam os valores verdadeiros fixados para β e τ . Repare que, mesmo diminuindo a variˆancia de Vβ, as estimativas dos parˆametros a posteriori se mantiveram pr´oximas e com
os intervalos contendo o valor verdadeiro fixado, com exce¸c˜ao da Priori 3 no parˆametro τ . Isso se deve ao fato da m´edia alta e variˆancia pequena na distribui¸c˜ao da precis˜ao. J´a no parˆametro ρSAR, o “x”representa o valor fixado para cada um dos casos. Note que o
4.4 Modelo SAR 40
Figura 9: An´alise de sensibilidade: estimativas a posteriori dos parˆametros sob diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori. A estimativa pontual ´e dada pela m´edia a posteriori e a intervalar pelo intervalo HDI de 95%.
Foram realizadas 11.000 itera¸c˜oes, com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. A Figura 10 mostra a convergˆencia das cadeias dos parˆametros e tamb´em seus histogramas a posteriori utilizando a Priori 2 definida na Tabela 3 e considerando ρ = 0, 7. As linhas tracejadas representam os valores verdadeiros dos parˆametros, j´a as linhas trajecadas mais fracamente s˜ao as estimativas dos intervalos HDI a posteriori de 95%. Note que h´a ind´ıcios de convergˆencia, que as m´edias a posteriori (estimativas pontuais) ficaram pr´oximas dos valores verdadeiros e os intervalos contemplaram os mesmos.
4.4 Modelo SAR 41
Figura 10: Tra¸cos das cadeias e histogramas das amostras a posteriori dos parˆametros utilizando a Priori 2 com dados simulados.
4.4.2
Dados de Hansen´ıase
Como j´a mencionado na Se¸c˜ao 4.1, mais da metade dos mun´ıcipios do estado do Maranh˜ao apresentaram taxas de hansen´ıase iguais a zero no ano de 2010. Fato esse que implica diretamente na modelagem podendo prejudicar substancialmente na estima¸c˜ao dos parˆametros desconhecidos do modelo. Como alternativa, novamente foi realizada uma transforma¸c˜ao da vari´avel resposta para diminuir a variabilidade dos dados e tentar obter um resultado mais satisfat´orio no ajuste.
Considere Zi∗ a taxa da doen¸ca em menores de 15 anos diagnosticados na regi˜ao i, por 100.000 habitantes. Admita que Z = (Z1, . . . , Zn)
0
, em que Zi = log(Zi∗+ 0, 1), segue
um modelo autoregressivo simultˆaneo conforme descrito na Se¸c˜ao 3.1, com intercepto e uma vari´avel explicativa. Utilizou-se como vari´avel explicativa o IDHM em 2010 de cada munic´ıpio do Maranh˜ao.
Assumindo a an´alise de sensibilidade anterior satisfat´oria, optou-se em escolher a priori 2 na aplica¸c˜ao dos dados reais um vez que o modelo se ajustou corretamente para diferentes prioris. Sendo assim, assuma que
β ∼ N (0; 100I), τ ∼ Ga(2; 0, 5),
4.4 Modelo SAR 42
sendo 0 = (0, 0)0.
Foram gerados 11.000 valores com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. Para a estimativa dos parˆametros desconhecidos, foram utilizadas a m´edia a posteriori e intervalos HDI de 95%. A Figura 11 apresenta a convergˆencia das cadeias dos parˆametros e os histogramas das distribui¸c˜oes a posteriori.
Figura 11: Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a posteriori usando o conjunto de dados reais e o modelo SAR.
A Tabela 2 apresenta as estimativas e os intervalos HDI a posteriori dos parˆametros estimados do modelo SAR aplicado aos dados reais.
Tabela 4: M´edias a posteriori e intervalos HDI de 95% para os parˆametros.
β1 β2 τ ρSAR
Priori 2 -8,1888 14,3357 0,1510 0,2540
(-12,5041 ; -3,9518) (7,0572 ; 21,7918) (0,1226 ; 0,1765) (0,0829 ; 0,4272)
Com base nas estimativas dos parˆametros apresentadas Tabela 4, verificou-se que qu˜ao maior for o IDHM, maior dever´a ser a taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos nos munic´ıpios do Maranh˜ao. Resultado esse n˜ao muito esperado, dado que esse indicador representa desenvolvimento humano nas ´areas de educa¸c˜ao, sa´ude e renda. Como hip´otese inicial, essa rela¸c˜ao pode estar associada, por exemplo, `a subnotifica¸c˜ao diferenciada segundo os munic´ıpios onde pessoas oriundas de regi˜oes com baixos IDHM s˜ao notificadas nos grandes centros urbanos onde apresentam ´ındices de desenvolvimento
4.4 Modelo SAR 43
mais elevados. E dessa vez o intervalo HDI para β1 n˜ao cont´em o 0, resultado que esse
parˆametro ´e significante para esse modelo especificamente.
Note que a estimativa pontual para o parˆametro de autocorrela¸c˜ao espacial foi de ρSAR = 0, 25 e sabendo que os ´ındices de Moran e Geary foram respectivamente 0, 11
e 0, 88, percebe-se que h´a uma associa¸c˜ao entre esses valores, uma vez j´a verificado no estudo simulado na Se¸c˜ao 4.2. Como prova disso, aplicou-se a estimativa de ρSAR a 1.000
replica¸c˜oes de dados simulados via o modelo SAR e calculado os indicadores. As m´edias dos ´ındices foram 0, 09 para o I de Moran e 0, 90 para o C de Geary, valores bem pr´oximos aos verdadeiros usando os dados reais de hansen´ıase.
44
5
Conclus˜
ao
O interesse desse trabalho estava na modelagem espacial de dados de ´area sob a perspectiva bayesiana. Para isso, recorreu-se aos modelos CAR e SAR tradicionalmente usados para esse tipo de dados.
Para estudar sobre os parˆametros que medem a dependˆencia espacial, gerou-se um conjunto de dados simulados e comparou-se os ´ındices de Moran, o de Geary e o parˆametro de correla¸c˜ao espacial do modelo SAR. A partir dos resultados, verificou-se que h´a ind´ıcios desses parˆametros serem correlacionados e apropriados para verificarem a dependˆencia espacial.
Para verificar o procedimento de inferˆencia, gerou-se um conjunto de dados simulados e estimou-se os parˆametros desse conjunto. A an´alise de sensibilidade da distribui¸c˜ao a priori se comportou de forma satisfat´oria e os parˆametros foram bem estimados mesmo sob diferentes escolhas dos hiperparˆametros em ambos os modelos.
Em seguida, analisou-se um conjunto de dados reais, que correspondeu a uma transforma¸c˜ao das taxas de hansen´ıase. A partir de uma an´alise explorat´oria dos dados e pelos ´ındices de Moran e de Geary, foi poss´ıvel verificar que as taxas de detec¸c˜ao de hansen´ıase em menores de 15 anos apresentaram correla¸c˜ao espacial, ou seja, a taxa de determinada regi˜ao ´e influenciada pelas taxas de sua vizinhan¸ca. Ademais, atrav´es dos modelos apresentados e suas covari´aveis associadas, verificou-se que o IDHM foi uma covari´avel significativa, por´em indicou que regi˜oes com maiores ´ındices de desenvolvimento humano tendem a ter maiores taxas da doen¸ca.
Os modelos propostos servem para vari´aveis respostas cont´ınuas que assumem valores na reta. As taxas de hansen´ıase s˜ao n˜ao-negativas. Para levar essas taxas na reta e diminuir a variabildiade dos dados, aplicou-se uma fun¸c˜ao logar´ıtmica. Por´em, h´a muitas taxas nulas indicando que a vari´avel resposta ´e mista mesmo com a transforma¸c˜ao utilizada. Problema esse que pode influenciar negativamente na estimativa e no intervalo de credibilidade dos parˆametros dos modelos.
5 Conclus˜ao 45
Consequentemente, fica como trabalhos futuros a utiliza¸c˜ao de modelos mais adequados aos dados de hansen´ıase, levando em considera¸c˜ao principalmente a grande quantidade de taxas iguais a zero.
46
Referˆ
encias
[1] C ˆAMARA, G.; ORTIZ, M. J. Sistemas de informa¸c˜ao geogr´afica para aplica¸c˜oes ambientais e cadastrais: uma vis˜ao geral. In: CONGRESSO BRASILEIRO DE ENGENHARIA AGRICOLA. [S.l.: s.n.], 1998. v. 27, p. 59–82.
[2] CH ˆATEAUNEUF, L.-F. B. D. Rapport sur la marche et les effets du chol´era-morbus dans Paris et les communes rurales du d´epartement de la Seine, par la commission nomm´ee... ann´ee 1832. [S.l.]: Imprimerie royale, 1834.
[3] SNOW, J. The cholera near golden-square, and at deptford. Medical Times and Gazette, v. 9, p. 321–322, 1854.
[4] ORGANIZATION, W. H. Weekly epidemiological record relev´e ´epid´emiologique hebdomadaire. Weekly Epidemiological Record, v. 34, p. 317–28, 2012.
[5] CRESSIE, N. A. C. Statistics for Spatial Data. [S.l.]: John Wiley & Sons, 1993. [6] BANERJEE, S.; GELFAND, A. E.; CARLIN, B. P. Hierarchical Modeling and
Analysis for Spatial Data. [S.l.]: Chapman & Hall/CRC, 2003.
[7] WALLER, L. A.; GOTWAY, C. A. Applied spatial statistics for public health data. [S.l.]: John Wiley & Sons, 2004.
[8] C ˆAMARA, G. et al. An´alise espacial de ´areas. An´alise espacial de dados geogr´aficos, Empresa Brasileira de Pesquisa Agropecu´aria Bras´ılia, v. 2, 2004.
[9] SCHMIDT, A. M.; NOBRE, A. A.; FERREIRA, G. S. Alguns aspectos da modelagem de dados espacialmente referenciados. Rio de Janeiro, 2003.
[10] GAMERMAN, D.; LOPES, H. F. Markov chain Monte Carlo: stochastic simulation for Bayesian inference. [S.l.]: CRC Press, 2006.
[11] GEMAN, S.; GEMAN, D. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. IEEE Transactions on pattern analysis and machine intelligence, IEEE, n. 6, p. 721–741, 1984.
[12] GELFAND, A. E.; SMITH, A. F. M. Samping-based approaches to calculating marginal densities. Journal of the American Statistical Association, v. 85, n. 410, p. 398–409, 1990.
[13] METROPOLIS, N. et al. Equation of state calculations by fast computing machines. The journal of chemical physics, AIP, v. 21, n. 6, p. 1087–1092, 1953.
[14] HASTINGS, W. K. Monte Carlo sampling methods using Markov chains and their applications. Biometrika, v. 57, p. 97–109, 1970.
Referˆencias 47
[15] FREITASI, B. H. B. M. de et al. Tendˆencia da hansen´ıase em menores de 15 anos em mato grosso (brasil), 2001-2013. Rev Sa´ude P´ublica, SciELO Public Health, v. 51, p. 28, 2017.
[16] TURKKAN, N.; PHAM-GIA, T. Computation of the highest posterior density interval in bayesian analysis. Journal of statistical computation and simulation, Taylor & Francis, v. 44, n. 3-4, p. 243–250, 1993.
48
APˆ
ENDICE A -- Munic´ıpios do Estado do
Maranh˜
ao
A¸cailˆandia, Afonso Cunha, Agua Doce do Maranh˜ao, Alcˆantara, Aldeias Altas, Altamira do Maranh˜ao, Alto Alegre do Maranh˜ao, Alto Alegre do Pindar´e, Alto Parna´ıba, Amap´a do Maranh˜ao, Amarante do Maranh˜ao, Anajatuba, Anapurus, Apicum-Acu, Araguan˜a, Araioses, Arame, Arari, Axix´a, Bacabal, Bacabeira, Bacuri, Bacurituba, Balsas, Bar˜ao de Grajau, Barra do Corda, Barreirinhas, Bela Vista do Maranh˜ao, Bel´agua, Benedito Leite, Bequim˜ao, Bernardo do Mearim, Boa Vista do Gurupi, Bom Jardim, Bom Jesus das Selvas, Bom Lugar, Brejo de Areia, Brejo, Buriti Bravo, Buriti, Buriticupu, Buritirana, Cachoeira Grande, Cajapi´o, Cajari, Campestre do Maranh˜ao, Candido Mendes, Cantanhede, Capinzal do Norte, Carolina, Carutapera, Caxias, Cedral, Central do Maranh˜ao, Centro Novo do Maranh˜ao, Centro do Guilherme, Chapadinha, Cidelˆandia, Cod´o, Coelho Neto, Colinas, Concei¸c˜ao do Lago-Acu, Coroat´a, Cururupu, Davin´opolis, Dom Pedro, Duque Bacelar, Esperantin´opolis, Estreito, Feira Nova do Maranh˜ao, Fernando Falc˜ao, Formosa da Serra Negra, Fortaleza dos Nogueiras, Fortuna, Godofredo Viana, Goncalves Dias, Governador Archer, Governador Edison Lob˜ao, Governador Eugenio Barros, Governador Luiz Rocha, Governador Newton Bello, Governador Nunes Freire, Gra¸ca Aranha, Grajau, Guimaraes, Humberto de Campos, Icatu, Igarap´e Grande, Igarap´e do Meio, Imperatriz, Itaipava do Grajau, Itapecuru Mirim, Itinga do Maranh˜ao, Jatob´a, Jenipapo dos Vieiras, Joao Lisboa, Joselˆandia, Junco do Maranh˜ao, Lago Verde, Lago da Pedra, Lago do Junco, Lagoa Grande do Maranh˜ao, Lagoa do Mato, Lagoa dos Rodrigues, Lajeado Novo, Lima Campos, Loreto, Lu´ıs Domingues, Magalhaes de Almeida, Maraca¸cum´e, Maraj´a do Sena, Maranh˜aozinho, Mata Roma, Matinha, Mat˜oes do Norte, Mat˜oes, Milagres do Maranh˜ao, Mirador, Miranda do Norte, Mirinzal, Mon¸c˜ao, Montes Altos, Morros, Nina Rodrigues, Nova Colinas, Nova Iorque, Nova Olinda do Maranh˜ao, Olho d’Agua das Cunhas, Olinda Nova do Maranh˜ao, Paco do Lumiar, Palmeirˆandia, Paraibano, Parnarama, Passagem Franca, Pastos Bons, Paulino Neves, Paulo Ramos, Pedreiras, Pedro do Ros´ario, Penalva, Peri Mirim, Peritor´o, Pindar´e Mirim, Pinheiro, Pio