• Nenhum resultado encontrado

Modelos para dados de área sob a abordagem bayesiana

N/A
N/A
Protected

Academic year: 2021

Share "Modelos para dados de área sob a abordagem bayesiana"

Copied!
50
0
0

Texto

(1)

Matheus Camelo dos Santos Araujo

Modelos para dados de ´

area sob a

abordagem bayesiana

Niter´oi - RJ, Brasil 5 de dezembro de 2018

(2)

Universidade Federal Fluminense

Matheus Camelo dos Santos Araujo

Modelos para dados de ´

area sob a

abordagem bayesiana

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientadora: Profa. Dra. Patr´ıcia Lusi´e Velozo da Costa

Niter´oi - RJ, Brasil 5 de dezembro de 2018

(3)
(4)

Ficha catalográfica automática - SDC/BIME

Bibliotecário responsável: Carlos Roberto Santos de Lima - CRB7/5531

A658m Araujo, Matheus Camelo dos Santos

Modelos para dados de área sob a abordagem bayesiana / Matheus Camelo dos Santos Araujo ; Patrícia Lusié Velozo Da Costa, orientadora. Niterói, 2018.

49 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2018.

1. Estatística. 2. Inferência bayesiana . 3. Produção intelectual. I. Título II. Da Costa,Patrícia Lusié Velozo, orientadora. III. Universidade Federal Fluminense. Instituto de Matemática e Estatística. Departamento de Estatística. CDD

(5)

-Resumo

Fenˆomenos das mais diversas ´areas est˜ao sendo cada vez mais influenciados pelo espa¸co onde ocorrem. Somadas `as demais an´alises, a an´alise espacial vem tornando a modelagem desses eventos mais requintada. Diante dos principais tipos de dados em estat´ıstica espacial, esse trabalho visa a modelagem de vari´aveis aleat´orias, com foco em dados de ´area, averiguando modelos adequados e ajustando-os via dados simulados. Como aplica¸c˜ao, ser˜ao utilizados dados referentes a hansen´ıase, doen¸ca crˆonica e infecciosa que apresenta altas taxas de ocorrˆencias no Brasil, principalmente nas regi˜oes Norte do pa´ıs. Acredita-se que, al´em de fatores socioeconˆomicos e ambientais, as taxas da doen¸ca tamb´em s˜ao influenciadas segundo suas localiza¸c˜oes geogr´aficas, justificando a utiliza¸c˜ao da modelagem espacial nesse trabalho.

Quando o interesse na modelagem ´e, por exemplo, relacionar as respostas de uma vari´avel com seus vizinhos, os modelos CAR e SAR s˜ao os mais usados. Algumas restri¸c˜oes s˜ao necess´arias e uma delas ´e a especifica¸c˜ao adequada da matriz de vizinhan¸ca, que ´e respons´avel pela pondera¸c˜ao dos efeitos da vizinhan¸ca. Assumindo dados simulados, os modelos foram bem ajustados com uma an´alise de sensibilidade satisfat´oria, assumindo diferentes distribui¸c˜oes a priori para os parˆametros que foram estimados.

Inicialmente e de forma explorat´oria, para verificar uma poss´ıvel associa¸c˜ao espacial dos dados em uma determinada regi˜ao, os ´ındices de Moran e Geary foram utilizados. Assim como no mapa coropl´etico, os resultados dos ´ındices apresentaram um indicativo preliminar de que a hansen´ıase est´a correlacionada espacialmente.

Considerando os dados de hansen´ıase em 2010, viu-se que as taxas de detec¸c˜ao em menores de 15 anos apresentaram uma alta variabilidade sendo necess´aria uma transforma¸c˜ao dos dados. Mesmo com a transforma¸c˜ao, foi visto que, considerando dados cont´ınuos, os modelos propostos n˜ao de adequaram corretamente devido `a infla¸c˜ao de zeros. Apesar disso, o ajuste de ambos os modelos apresentou que o IDHM ´e uma covari´avel significativa e que h´a uma rela¸c˜ao entre o parˆametro de autocorrela¸c˜ao espacial com os ´ındices de Moran e Geary.

Palavras-chaves: taxas de hansen´ıase; estat´ıstica espacial; dados de ´area; CAR; SAR; MCMC; inferˆencia bayesiana.

(6)

Dedicat´

oria

“Somos o resultado dos livros que lemos, das viagens que fazemos e das pessoas que amamos.”

(7)

Sum´

ario

Lista de Figuras

Lista de Tabelas

Lista de Abrevia¸c˜oes p. 11

1 Introdu¸c˜ao p. 12

2 Objetivos p. 15

3 Materiais e M´etodos p. 16

3.1 Estat´ıstica Espacial . . . p. 16 3.1.1 Indicadores de Autocorrela¸c˜ao Espacial . . . p. 17 3.1.2 Dados de ´Area . . . p. 18 3.1.3 Modelo Autorregressivo Condicional - CAR . . . p. 19 3.1.4 Modelo Autorregressivo Simultˆaneo - SAR . . . p. 20 3.2 Inferˆencia Bayesiana . . . p. 21 3.2.1 MCMC . . . p. 23 3.2.2 Amostrador de Gibbs . . . p. 23 3.2.3 Algoritmo de Metropolis-Hastings . . . p. 24

4 An´alise dos Resultados p. 26

4.1 An´alise Descritiva . . . p. 26 4.2 Indicadores de Autocorrela¸c˜ao Espacial . . . p. 28 4.3 Modelo CAR . . . p. 32

(8)

4.3.1 Estudo Simulado . . . p. 33 4.3.2 Dados de Hansen´ıase . . . p. 35 4.4 Modelo SAR . . . p. 37 4.4.1 Estudo Simulado . . . p. 38 4.4.2 Dados de Hansen´ıase . . . p. 41 5 Conclus˜ao p. 44 Referˆencias p. 46

(9)

Lista de Figuras

1 Taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos por 100 mil

habitantes nos muninc´ıpios do Maranh˜ao em 2010. . . p. 27 2 Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados

simulados do modelo SAR assumindo diferentes valores de ρSAR e uma

regi˜ao de grade regular contendo 400 subregi˜oes. . . p. 29 3 P-valores dos testes de hip´otese dos indicadores para 1000 replica¸c˜oes de

dados simulados do modelo SAR considerando diferentes valores de ρSAR

e uma regi˜ao de grade regular contendo 400 subregi˜oes. . . p. 30 4 Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados

simulados do modelo SAR assumindo diferentes valores de ρ e o estado

do Maranh˜ao. . . p. 31 5 P-valores dos testes de hip´otese dos indicadores para 1000 replica¸c˜oes de

dados simulados do modelo SAR considerando diferentes valores de ρSAR

e o estado do Maranh˜ao. . . p. 31 6 Tra¸cos das cadeias e histogramas das amostras dos parˆametros utilizando

a Priori 2 com dados simulados. As linhas em verde representam os valores verdadeiros dos parˆametros, j´a as linhas em vermelho s˜ao as estimativas a posteriori dos parˆametros desconhecidos e seus respectivos

intervalos de credibilidade de 95% em cor azul. . . p. 34 7 Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a

posteriori usando o conjunto de dados reais. . . p. 36 8 Dados simulados via modelo SAR para diferentes valores de ρSAR nos

(10)

9 An´alise de sensibilidade: estimativas a posteriori dos parˆametros sob diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori. A estimativa pontual ´e dada pela m´edia a posteriori e a intervalar pelo

intervalo HDI de 95%. . . p. 40 10 Tra¸cos das cadeias e histogramas das amostras a posteriori dos

parˆametros utilizando a Priori 2 com dados simulados. . . p. 41 11 Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes

a posteriori usando o conjunto de dados reais e o modelo Modelo

(11)

Lista de Tabelas

1 An´alise de sensibilidade: estimativas a posteriori dos parˆametros sob diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori. A estimativa pontual ´e dada pela m´edia a posteriori e a intervalar pelo intervalo de credibilidade de 95%. Os valores verdadeiros dos parˆametros

s˜ao β1 = −0, 5, β2 = 3 e τ = 0, 5. . . p. 34

2 M´edias a posteriori e intervalos de credibilidade de 95% para os parˆametros. p. 36 3 An´alise de sensibilidade: diferentes escolhas de hiperparˆametros para a

distribui¸c˜ao a priori. . . p. 38 4 M´edias a posteriori e intervalos Highest Density Interval (HDI) de 95%

(12)

11

Lista de Abrevia¸

oes

CAR Modelo Autorregressivo Condicional MCMC Monte Carlo via cadeias de Markov SAR Modelo Autorregressivo Simultˆaneo SIG Sistema de Informa¸c˜ao Geogr´afica

IDHM ´Indice de Desenvolvimento Humano Municipal HDI Highest Density Interval

SINAN Sistema de Informa¸c˜oes de Agravos e Notifica¸c˜oes IBGE Instituto Brasileiro de Geografia e Estat´ıstica

(13)

12

1

Introdu¸

ao

Dados georreferenciados s˜ao aqueles cujas coordenadas que informam sua localiza¸c˜ao, num dado sistema de referˆencia, tamb´em s˜ao obtidas. Por exemplo, se a quantidade de chuva, a latitude e a longitude desse fenˆomeno forem observadas, ent˜ao s˜ao chamados de dados georreferenciados. A crescente coleta e armazenamento de dados dessa natureza, nos ´ultimos tempos, tˆem aperfei¸coado a modelagem de fenˆomenos em ´areas como a Economia, Biologia e Epidemiologia. A estat´ıstica espacial tem como objetivo identificar, analisar e modelar a ocorrˆencia desses fenˆomenos que se materializam no espa¸co.

Diante da era do “Big Data”, h´a uma explos˜ao de dados e informa¸c˜oes de diversos tipos em tempo real. De acordo com a IBM - International Business Machines, uma das maiores empresas de inform´atica do mundo, 90% dos dados armazenados atualmente foram produzidos nos ´ultimos dois anos. Uma parcela bastante significativa desses dados s˜ao espaciais, permitindo o enriquecimento da an´alise espacial.

Acompanhando a necessidade de um sistema que integrasse os diversos tipos de dados espaciais, ao longo das d´ecadas de 70 e 80, foi desenvolvido o Sistema de Informa¸c˜ao Geogr´afica (SIG), do inglˆes GIS - Geographic Information System, que ´e um sistema de hardware, um software que permite obter, armazenar, manipular e gerenciar dados espaciais ou geogr´aficos. Alguns componentes que integram o SIG s˜ao por exemplo: imagens de sat´elite, modelos num´ericos de terreno, mapas tem´aticos, redes e dados tabulares. Maiores detalhes podem ser vistos em Cˆamara e Ortiz (1998) [1].

Dentre tantas ´areas que a an´alise espacial ´e implementada, a ´area de Epidemiologia teve suas primeiras contribui¸c˜oes j´a no s´eculo XIX, como por exemplo, o mapeamento das mortes por c´olera nos distritos de Paris no ano de 1832 realizado pelo ge´ografo francˆes Charles Picquet [2]. J´a o primeiro estudo bem sucedido usando uma metodologia espacial em Epidemiologia foi realizado por John Snow, em 1854, que determinou a origem de um surto tamb´em de col´era em Londres por meio de um mapa de padr˜ao de pontos [3].

(14)

1 Introdu¸c˜ao 13

No Brasil, pa´ıs com uma extensa ´area territorial e diversidade de climas, relevo, etc, muitas doen¸cas com forte dependˆencia espacial ainda persistem e vˆem sendo estudadas mais detalhadamente. Uma delas que epidemiologistas brasileiros possuem aten¸c˜ao especial ´e a hansen´ıase, que ainda afeta muitas pessoas principalmente na regi˜ao Norte do pa´ıs.

Popularmente conhecida como lepra, a hansen´ıase ´e uma doen¸ca crˆonica e infecciosa que afeta a pele e os troncos nervosos perif´ericos podendo causar ´ulceras de pernas e p´es, caro¸cos no corpo, febre, edemas e dor nas juntas, entupimento, sangramento, ferida e ressecamento do nariz e dos olhos. Sua forma de cont´agio ocorre por meio do contato com pessoas infectadas com o bacilo Mycobacterium leprae, que n˜ao estejam sendo tratadas. Esse bacilo tem a capacidade de infectar um grande n´umero de indiv´ıduos, mas poucos adoecem. Acredita-se tamb´em que fatores como condi¸c˜oes de vida e nutri¸c˜ao, insalubridade do ambiente e quest˜oes ambientais possam intensificar a propaga¸c˜ao da doen¸ca.

H´a relatos de ocorrˆencias da doen¸ca em 600 a.C na ´Asia e na ´Africa, consideradas o ber¸co da hansen´ıase. Sem recursos m´edicos nessa ´epoca, a doen¸ca se acentuava com graves deforma¸c˜oes f´ısicas nas pessoas contaminadas, levando o paciente a marginaliza¸c˜ao e estigmatiza¸c˜ao social. Devido aos avan¸cos da medicina, introduziu-se o tratamento de poliquimioterapia tornando a doen¸ca cur´avel. Al´em disso, acredita-se que a redu¸c˜ao da pobreza e o crescimento econˆomico contribu´ıram para a grande redu¸c˜ao no n´umero de pessoas com hansen´ıase em todo o mundo.

A hansen´ıase apresenta um longo per´ıodo m´edio de incuba¸c˜ao, de 2 a 7 anos, e o diagn´ostico dessa doen¸ca ´e essencialmente cl´ınico. E, por isso, espera-se que haja poucos indiv´ıduos menores de 15 anos com a doen¸ca diagnosticada. Sendo assim, um n´umero grande de menores doentes pode ser um indicador de problema grave em uma regi˜ao.

H´a ainda algumas regi˜oes consideradas hiperendˆemicas. Segundo Who (2012) [4], trˆes pa´ıses s˜ao respons´aveis por 83% de todos os casos detectados no mundo: ´India (58%), Brasil (16%) e Indon´esia (9%). Sendo assim, o Brasil apresenta a maior prevalˆencia na Am´erica Latina. Entre as regi˜oes brasileiras, o Norte, Nordeste e Centro-Oeste apresentam as maiores taxas de detec¸c˜ao. Dentres os estados, o Maranh˜ao apresenta a maior prevalˆencia, a maior taxa de detec¸c˜ao geral e a maior taxa de detec¸c˜ao em menores de 15 anos, considerado como hiperendˆemico para os padr˜oes do Minist´erio da Sa´ude.

Partindo do pressuposto que a regi˜ao do Maranh˜ao e seus munic´ıpios apresentam altas e diferentes taxas de hansen´ıase, ´e poss´ıvel analisar espacialmente sua influˆencia com o

(15)

1 Introdu¸c˜ao 14

aux´ılio de dados localmente observados que s˜ao acess´ıveis atrav´es do SIG, no qual vem se tornando uma grande ferramenta em an´alises de dados sobre sa´ude e meio ambiente.

Assim sendo, esse trabalho visa modelar estat´ısticamente as taxas de detec¸c˜ao de hansen´ıase no Maranh˜ao em 2010, descrevendo o comportamento probabil´ıstico dessa doen¸ca em indiv´ıduos menores de 15 anos. Para isso, recorreu-se a modelos espaciais. Os parˆametros desconhecidos foram estimados segundo o enfoque bayesiano atrav´es dos m´etodos de Monte Carlo via cadeias de Markov (MCMC).

Esse trabalho est´a organizado como descrito a seguir. No Cap´ıtulo 2, est˜ao apresentados os objetivos gerais desse trabalho. No Cap´ıtulo 3, define-se os m´etodos e apresentam-se as revis˜oes bibliogr´aficas de Estat´ıstica Espacial, Inferˆencia Bayesiana e m´etodos de MCMC. Posteriormente, no Cap´ıtulo 4, est˜ao as an´alises dos resultados encontrados. E por fim, o Cap´ıtulo 5 finaliza-se o trabalho apresentando as conclus˜oes sobre o estudo.

(16)

15

2

Objetivos

O objetivo geral desse trabalho ´e estudar sobre a modelagem espacial para dados de ´

area. Para isso, prop˜oe-se alguns modelos e analisa-se a capacidade de inferir sobre os parˆametros desconhecidos com base em conjuntos de dados simulados e dados reais. A inferˆencia sobre os parˆametros desconhecidos ´e realizada sob o enfoque bayesiano.

Os objetivos espec´ıficos s˜ao:

• Estudar os principais indicadores de autocorrela¸c˜ao espacial por meio de dados simulados, considerando uma regi˜ao de grade regular e outra irregular;

• Ajustar os modelos propostos por meio de dados simulados, avaliar a capacidade de estima¸c˜ao dos parˆametros e analisar a sensibilidade quanto a distribui¸c˜ao a priori para diferentes escolhas dos hiperparˆametros;

• Aplicar os dados de hansen´ıase do Maranh˜ao em escala municipal, avaliar descritivamente a dependˆencia espacial da doen¸ca entre as regi˜oes, estimar os parˆametros desconhecidos dos modelos e interpret´a-los no contexto do problema.

(17)

16

3

Materiais e M´

etodos

Nesse cap´ıtulo, ser˜ao apresentadas revis˜oes bibliogr´aficas a come¸car pela Se¸c˜ao 3.1 sobre Estat´ıstica Espacial, descrevendo os principais tipos de dados espaciais com foco na modelagem em dados de ´area. Em seguida, na Se¸c˜ao 3.2, uma revis˜ao de Inferˆencia Bayesiana, e logo ap´os, na Se¸c˜ao 3.2.1, os principais m´etodos de MCMC.

3.1

Estat´ıstica Espacial

Fenˆomenos observados ao longo do espa¸co s˜ao considerados dados espaciais. A estat´ıstica espacial ´e a ´area da estat´ıstica que busca descrever ou explicar esses fenˆomenos relacionando-os com o espa¸co e tem aplica¸c˜ao em diversas ´areas tais como Economia, Epidemiologia, Demografia, entre outras.

De acordo com Cressie (1993) [5], dados espaciais podem ser classificados em trˆes grupos: dados de superf´ıcies cont´ınuas (geoestat´ısticos), padr˜ao de pontos e dados de ´

area.

Dados geoestat´ısticos s˜ao obtidos quando a vari´avel de interesse ocorre de forma cont´ınua no espa¸co. Apesar de transcorrer de forma constante no espa¸co, observa-se apenas um conjunto finito de localiza¸c˜oes e o aleat´orio est´a no atributo medido em cada ponto. O volume pluviom´etrico em certa regi˜ao ´e um exemplo de dados dessa natureza.

Caso o interesse seja modelar a localiza¸c˜ao (desconhecida) de um evento de interesse (conhecido), ent˜ao os dados s˜ao considerados como padr˜ao de pontos. O estudo de acidentes de trˆansito em determinada cidade ´e um exemplo desse grupo e a aleatoriedade nesse caso est´a no local exato da ocorrˆencia.

Por fim e n˜ao menos importante, os dados de ´area s˜ao aqueles agregados em unidades de an´alises. Dessa forma, ´e poss´ıvel avaliar a influˆencia da vizinhan¸ca de acordo com a proximidade e analisar seus impactos. Por exemplo: o n´umero de homic´ıdios nos bairros da cidade do Rio de Janeiro. Cada bairro cont´em um n´umero que representa a quantidade

(18)

3.1 Estat´ıstica Espacial 17

de homic´ıdios que ocorreram em diferentes ruas daquele mesmo bairro. Portanto, nesse tipo de dado a aleatoriedade est´a no valor observado e agregado por regi˜ao.

Em dados epidemiol´ogicos ´e comum agrupar o n´umero de indiv´ıduos, infectados com uma certa doen¸ca, por bairros ou munic´ıpios, por exemplo. Nesse caso, esses s˜ao classificados como dados de ´area. O objetivo desse trabalho ´e estudar dados dessa natureza.

3.1.1

Indicadores de Autocorrela¸

ao Espacial

Quando o interesse est´a em avaliar a associa¸c˜ao entre duas vari´aveis aleat´orias, geralmente s˜ao usados os coeficientes de correla¸c˜ao de Spearman, Pearson, dentre outros. Por´em, na ocasi˜ao em que uma vari´avel est´a distribu´ıda espacialmente e deseja-se analisar a similaridade ou dependˆencia espacial entre as regi˜oes, dois dos principais indicadores de autocorrela¸c˜ao espacial mais empregados s˜ao, o ´Indice de Moran e o ´Indice de Geary, sendo o primeiro o mais utilizado em dados de ´area.

• ´Indice Global de Moran

Esse ´ındice ´e calculado comparando-se as diferen¸cas observacionais de cada regi˜ao com rela¸c˜ao a m´edia global, sendo assim, considerando uma matriz de vizinhan¸ca ou matriz de proximidade espacial W, Banerjee [6] define o ´Indice Global de Moran como sendo I = n Pn i=1 Pn j=1wij(Zi− ¯Z)(Zj − ¯Z) (P i6=jwij) P i(Zi− ¯Z)2 , (3.1)

onde n ´e o n´umero de ´areas na regi˜ao de interesse, Zi e Zj s˜ao os valores da vari´avel

aleat´oria nas regi˜oes i e j respectivamente, ¯Z a m´edia amostral global e wij os

elementos da matriz de vizinhan¸ca.

Os valores desse ´ındice podem ser tanto positivos quanto negativos, podendo assumir quaisquer valores no conjunto dos reais R (Waller et al. (2004)) [7]. Contudo, o mais comum s˜ao valores no intervalo [−1, 1], em que um valor pr´oximo de zero indica ausˆencia de autocorre¸ca¸c˜ao espacial. Caso exista similaridade entre as regi˜oes mais pr´oximas, espera-sa que o indicador tenda a ser positivo, caso contr´ario, ser´a negativo.

(19)

3.1 Estat´ıstica Espacial 18

• ´Indice de Geary

Esse ´ındice ´e calculado levando em conta a diferen¸ca entre os pares observacionais, de tal forma que possa ser definido como

C = (n − 1) Pn i=1 Pn j=1wij(Zi− Zj) 2 (P i6=jwij) P i(Zi− ¯Z)2 , (3.2)

em que n ´e o n´umero de ´areas na regi˜ao de interesse, Zi e Zj s˜ao os valores

observacionais da vari´avel aleat´oria nas regi˜oes i e j respectivamente e wij os

elementos da matriz de vizinhan¸ca.

A partir do numerador da Equa¸c˜ao 3.2, percebe-se que jamais o ´ındice de Geary assumir´a valores negativos. Considerando o intervalo de [0, 2], valores menores e maiores que 1 indicam correla¸c˜ao espacial positiva e negativa, respectivamente. E logo, resultados pr´oximos de 1 indicam ausˆencia de dependˆencia espacial.

Maiores detalhes desses e de outros indicadores de autocorrela¸c˜ao espacial podem ser vistos em Camara et al. (2004) [8] e Banerjee et al. (2004) [6].

3.1.2

Dados de ´

Area

No contexto de estat´ıstica espacial, os dados de ´area s˜ao observa¸c˜oes obtidas sob uma regi˜ao de interesse que pode ser dividida em subregi˜oes regulares (de mesmo comprimento e mesma ´area) ou irregulares (bairros, cidades, distritos, setores censit´arios, etc). S˜ao in´umeros os exemplos para dados dessa natureza tais como: casos de dengue nos bairros da cidade do Rio de Janeiro e vendas de um determinado produto nos munic´ıpios do estado de S˜ao Paulo. Usualmente, esses dados correspondem a contagens, taxas, m´edias, entre outros.

Os principais objetivos de estudo em dados de ´area s˜ao a detec¸c˜ao e explica¸c˜ao dos padr˜oes espaciais ou tendˆencias encontradas no fenˆomeno de interesse. Consequentemente, torna-se v´alido investigar e analisar a existˆencia de alguma tendˆencia nas observa¸c˜oes de regi˜oes mais pr´oximas serem mais semelhantes do que em observa¸c˜oes em locais mais distantes.

Quando o interesse na modelagem espacial ´e, por exemplo, relacionar as respostas de uma vari´avel com seus vizinhos, duas especifica¸c˜oes de modelos s˜ao mais comuns, s˜ao elas: o SAR e o Modelo Autorregressivo Condicional (CAR). Cressie (1993) [5] mostrou que o modelo SAR ´e um caso espec´ıfico do modelo CAR e que este ´ultimo ´e mais comumente

(20)

3.1 Estat´ıstica Espacial 19

usado em an´alise espacial de dados de contagem, devido a facilidade computacional. O modelo CAR ´e definido a partir da distribui¸c˜ao condicional da vari´avel de interesse numa dada regi˜ao condicionada na vari´avel de interesse nas demais regi˜oes. Sob a distribui¸c˜ao condicional, ´e imposta uma rela¸c˜ao autoregressiva, o que motivou o nome do modelo CAR. Para analisar a dependˆencia espacial, obtem-se a distribui¸c˜ao conjunta. O modelo SAR, como o pr´oprio nome induz, ´e definido a partir da distribui¸c˜ao conjunta da vari´avel de interesse. A estrutura autoregressiva ´e imposta nessa distribui¸c˜ao.

Comparando algumas propriedades de ambos os modelos e em termos de estima¸c˜ao e interpreta¸c˜ao, o modelo CAR ´e prefer´ıvel ao SAR (Schmidt et al. (2003) [9]). Uma delas ´e bastante interessante, a propriedade de que a especifica¸c˜ao do CAR fornece diretamente as distribui¸c˜oes condicionais completas a posteriori dos parˆametros do modelo, fator imprescind´ıvel para o uso do amostrador de Gibbs em m´etodos de MCMC, que ser´a visto na Se¸c˜ao 3.2.2.

3.1.3

Modelo Autorregressivo Condicional - CAR

Basicamente a ideia do modelo CAR ´e que a probabilidade do evento de interesse assumir um valor em um local depende do valor desse evento assumido na vizinhan¸ca. Assim, supondo Zi a vari´avel de interesse na regi˜ao i, o modelo pode ser definido por

Zi = µi+ ρ

X

j∈S−i

bij(Zj− µj) + ei, i = 1, . . . , n, (3.3)

onde S−i = {1, . . . , i − 1, i + 1, . . . , n} ´e o conjunto de ´ındices que representa todas as

regi˜oes excluindo a i-´esima localiza¸c˜ao, n ´e o n´umero total de regi˜oes, µi ´e o valor m´edio

de Zi que n˜ao depende de forma direta dos vizinhos e pode conter, por exemplo, vari´aveis

explicativas espec´ıficas da i-´esima regi˜ao, ρ ´e o parˆametro da autocorrela¸c˜ao espacial que determina a dependˆencia da vizinhan¸ca, bij ´e o efeito do vizinho j na regi˜ao i e tamb´em

pode ser visto como uma pondera¸c˜ao e ei´e um efeito aleat´orio independente. Suponha que

esses efeitos sejam independentes e identicamente distribu´ıdos e que possuam a seguinte distribui¸c˜ao normal

ei iid

∼ N (0, Vi). (3.4)

Note que o modelo acima permite que haja fatores locais e da vizinhan¸ca influenciando a vari´avel atrav´es das componentes µi e µj, respectivamente, que podem ou n˜ao variar

(21)

3.1 Estat´ıstica Espacial 20

ponderar a influˆencia do vizinho j na dada regi˜ao e costuma ser definida atrav´es de uma matriz W , comumente conhecida como matriz de vizinhan¸cas, que pode ser representada de diversas formas. Essa matriz indica se as regi˜oes i e j s˜ao vizinhas. Para definir isso, pode-se considerar vizinhas se essas regi˜oes dividirem fronteiras ou se elas estiverem no m´aximo a uma certa distˆancia, por exemplo. Seja Wij o elemento da i-´esima linha e

j-´esima coluna da matriz W , sendo Wij = 1, caso i 6= j e se as ´areas i e j dividem fronteira

e Wij = 0, caso contr´ario. Seja Wi+ =

Pn

j=1Wij o n´umero de vizinhos da i-´esima regi˜ao.

Sendo assim, considerando bij = Wij

Wi+, tem-se que essa componente pondera o peso do

vizinho j na regi˜ao i.

Atrav´es da matriz de covariˆancia de Z = (Z1, . . . , Zn), pode-se avaliar a correla¸c˜ao

entre 2 regi˜oes diferentes. Para isso, assuma que Vi = WVi+, sendo V comum a todas as

regi˜oes. Sendo assim, tem-se a seguinte matriz de covariˆancia para a vari´avel Z:

ΣCAR= V AR(Z) = (I − ρW∗)−1V , (3.5)

onde I ´e a matriz identidade de ordem n, W∗´e a matriz formada pelos elementos bij e V

´e uma matriz diagonal formada pelos elementos Vi. Quando ρ = 0, tem-se independˆencia

e que Zi ∼ N (0, V /Wi+). Quando ρ = 1, ´e dito ter um modelo autoregressivo intr´ınseco e

tem-se uma distribui¸c˜ao conjunta impr´opria para Z. Pode-se mostrar que se ρ ∈ (−1, 1), ent˜ao existe a distribui¸c˜ao conjunta de Z e essa possui a seguinte forma

Z ∼ N µ, (I − ρW∗)−1V , (3.6)

sendo µ = (µ1, . . . , µn)

0

.

3.1.4

Modelo Autorregressivo Simultˆ

aneo - SAR

Considere que a vari´avel de interesse Z = (Z1, . . . , Zn)

0

tem a seguinte express˜ao, sob o modelo SAR:

Z = µ + (I − B)−1e, e ∼ N (0, τ−1I), (3.7) onde µ = (µ1, . . . , µn)

0

´

e o conjunto de valores m´edios da vari´avel de interesse Z que pode depender de covari´aveis, n ´e o n´umero total de regi˜oes, I ´e a matriz identidade de ordem n, B ´e uma matriz quadrada de ordem n que ser´a explicada mais adiante, e = (e1, . . . , en)

0

(22)

3.2 Inferˆencia Bayesiana 21

e τ ´e um escalar correspondendo a um parˆametro de precis˜ao. Dessa forma, tem-se que a distribui¸c˜ao conjunta da vari´avel de interesse ´e dada da seguinte forma

Z ∼ N (µ, ΣSAR) , (3.8)

onde a matriz de covariˆancia ´e dada por

ΣSAR = (I − B)−1τ−1(I − B)−1 0 = (I − B)−1τ−1h(I − B)0i −1 = (I − B)−1τ−1h(I − B0)i −1 . (3.9)

Existem algumas formas diferentes de definir a matriz B. Neste trabalho, recorreu-se a seguinte estrutura: B = ρSARW∗, sendo ρSAR um parˆametro de autocorrela¸c˜ao espacial

e W∗ a matriz de vizinhan¸ca ponderada, conforme definida na Subse¸c˜ao 3.1.3.

Maiores detalhes sobre os modelos CAR e SAR podem ser vistos em Cressie(1993) [5] e Banerjee et al.(2003) [6].

3.2

Inferˆ

encia Bayesiana

Inferˆencia estat´ıstica consiste em fazer afirma¸c˜oes sobre certa caracter´ıstica de uma popula¸c˜ao com base em um subconjunto dessa popula¸c˜ao chamado de amostra. Sendo assim, considere que θ seja um vetor de parˆametros populacionais desconhecidos de uma popula¸c˜ao de tamanho N . A quantidade θ assume valores no espa¸co param´etrico denotado por Θ.

Seja Zi uma vari´avel aleat´oria com i sendo o ´ındice de unidade amostral da popula¸c˜ao

e que pode representar, por exemplo, um ind´ıviduo, um instante de tempo ou uma localidade. Suponha que ´e obtida uma amostra dessa popula¸c˜ao de tamanho n e que haja o interesse em inferir sobre a m´edia e/ou a variˆancia da mesma, representadas por µ e σ2, respectivamente. Nesse caso, tem-se que θ = (µ, σ2)0 ´e o vetor de parˆametros

desconhecidos.

Para explicar como ´e realizada a inferˆencia sob a perspectiva bayesiana, faz-se necess´ario definir alguns termos como fun¸c˜ao de verossimihan¸ca, distribui¸c˜ao a priori e distribui¸c˜ao a posteriori.

(23)

3.2 Inferˆencia Bayesiana 22

Ao propor um modelo para um conjunto de dados, atribui-se uma fun¸c˜ao de distribui¸c˜ao ou de densidade para a vari´avel aleat´oria de interesse, Z = (Z1, . . . , Zn)

0

. Denote essa fun¸c˜ao por p(Z|θ). Essa fun¸c˜ao representa a cren¸ca que tem-se sobre a distribui¸c˜ao da vari´avel de interesse considerando conhecido o vetor param´etrico θ. Mas, na pr´atica, esse vetor ´e desconhecido e deseja-se inferi-lo. Sendo assim, quando uma amostra dessa popula¸c˜ao ´e aplicada nessa fun¸c˜ao para inferir sobre θ, essa fun¸c˜ao passa a ser chamada de fun¸c˜ao de verossimilhan¸ca e passa a ser denotada por l(θ; z), onde z representa o valor amostrado da vari´avel de interesse.

Em inferˆencia bayesiana, diferentemente da cl´assica, leva-se em considera¸c˜ao um conhecimento pr´evio sobre os parˆametros, conhecido como distribui¸c˜ao a priori. Denote essa distribui¸c˜ao por h(θ).

Dessa forma, a inferˆencia sobre θ ´e dada atrav´es da distribui¸c˜ao a posteriori p(θ|z), que pode ser obtida a partir do Teorema de Bayes, combinando a fun¸c˜ao de verossimilhan¸ca com a distribui¸c˜ao a priori, h(θ) e com a distribui¸c˜ao marginal dos dados, p(z), obtendo a seguinte forma

p(θ|z) = l(θ; z)h(θ)

p(z) . (3.10)

A distribui¸c˜ao marginal da vari´avel de interesse pode ser obtida da seguinte forma p(z) = Z . . . Z Θ p(z|θ)h(θ)dθ. (3.11)

Note que a distribui¸c˜ao marginal p(z) n˜ao varia com o vetor param´etrico θ. Sendo assim, a distribui¸c˜ao a posteriori do vetor param´etrico ´e proporcional ao produto da fun¸c˜ao de verossimilhan¸ca e da distribui¸c˜ao a priori. E, por defini¸c˜ao de fun¸c˜ao de densidade, integrando a distribui¸c˜ao a posteriori com respeito a Θ essa integral tem que dar 1. Logo, n˜ao faz-se necess´ario calcular a distribui¸c˜ao marginal p(z) para obter a distribui¸c˜ao a posteriori. E, portanto, essa ´ultima pode ser reescrita da seguinte forma

p(θ|z) = kl(θ; z)h(θ), (3.12)

sendo k−1 =RΘl(θ; z)h(θ)dθ.

Muitas vezes a Equa¸c˜ao 3.12 n˜ao possui forma anal´ıtica conhecida. Portanto, para inferir sobre o vetor param´etrico desconhecido θ pode-se obter amostras da distribui¸c˜ao a posteriori recorrendo aos m´etodos de MCMC. Na se¸c˜ao a seguir, ser˜ao apresentados dois desses m´etodos: o amostrador de Gibbs e o algoritmo de Metropolis-Hastings.

(24)

3.2 Inferˆencia Bayesiana 23

3.2.1

MCMC

Os m´etodos de MCMC servem para simular amostras de uma distribui¸c˜ao de interesse p(·) quando essa distribui¸c˜ao possui forma anal´ıtica desconhecida ou ´e custosa de se amostrar diretamente. Para essa amotragem, ´e necess´ario que as cadeias de Markov sejam homogˆeneas, irredut´ıveis e aper´ıodicas. Diz-se que uma cadeia de Markov ´e homogˆenea se a probabilidade de transi¸c˜ao for estacion´aria, ou seja, se esta probabilidade n˜ao depender da itera¸c˜ao. Uma cadeia ´e irredut´ıvel se para um conjunto finito de itera¸c˜oes e com probabilidade positiva, ela se move de um ponto a outro qualquer. E ser´a aper´ıodica se ela for irredut´ıvel e se nenhum de seus estados seja visitado ap´os n passos com probabilidade menor ou igual a um.

A distribui¸c˜ao a posteriori de um vetor param´etrico costuma ter forma anal´ıtica desconhecida ou dif´ıcil de ser calculada. Sendo assim, para inferir sobre os parˆametros, nesses casos, uma alternativa ´e recorrer a algum m´etodo de simula¸c˜ao de amostras. Este trabalho ir´a se concentrar em dois dos principais m´etodos, o amostrador de Gibbs e o Algoritmo de Metropolis-Hastings, aplicados a inferˆencia bayesiana. Para mais detalhes consultar Gamerman e Lopes (2006) [10].

3.2.2

Amostrador de Gibbs

O algoritmo amostrador de Gibbs foi proposto por Geman e Geman (1984) [11] e introduzido a comunidade estat´ıstica por Gelfand e Smith (1990) [12]. Em inferˆencia bayesiana, esse algoritmo consiste basicamente em amostrar a partir das distribui¸c˜oes condicionais completas a posteriori, p(θl | θ1, . . . , θl−1, θl+1, . . . , θp, z), sendo z os valores

observados e θl o l-´esimo vetor param´etrico desconhecido. A componente θl pode ser um

escalar ou um vetor. A ideia ´e que a distribui¸c˜ao condicional completa a posteriori de θl seja conhecida para ser amostrada. Caso essa distribui¸c˜ao tamb´em seja desconhecida,

ser´a necess´ario recorrer aos passos de Metropolis-Hastings, que ser´a discutido na pr´oxima Subse¸c˜ao.

Os passos desse algoritmo, baseado em sucessivas gera¸c˜oes das distribui¸c˜oes condicionais completas a posteriori, podem ser descritos como:

1. Inicialize o contador em j = 0 e determine valores arbitr´arios para θ(0) = (θ(0)1 , θ(0)2 , . . . , θ(0)p )0.

(25)

3.2 Inferˆencia Bayesiana 24

2. Modifique o contador de j para j + 1;

3. Obtenha um novo valor para θ(j) a partir de θ(j−1) sequencialmente da forma θ1(j) v p(θ1 | θ (j−1) 2 , . . . , θ (j−1) p , z) θ(j)2 v p(θ2 | θ (j−1) 1 , θ (j−1) 3 , . . . , θ (j−1) p , z) .. . θ(j)p v p(θp | θ (j−1) 1 , θ (j−1) 2 , . . . , θ (j−1) p−1 , z)

4. Repita os passos (2) e (3) at´e que a cadeia convirja.

A convergˆencia das cadeias de Markov ´e esperada ap´os um n´umero de itera¸c˜oes suficientemente grande e ap´os o per´ıodo de aquecimento (burn-in), que s˜ao as itera¸c˜oes necess´arias at´e que a cadeia comece a convergir. Importante salientar que os parˆametros amostrados costumam ser altamente autocorrelacionados, caracter´ıstica das cadeias de Markov, desta forma, utiliza-se um espa¸camento de ordem k em que seleciona-se uma amostra a cada k intera¸c˜oes at´e que seja corrigida a autocorrela¸c˜ao da cadeia.

3.2.3

Algoritmo de Metropolis-Hastings

O Algoritmo de Metropolis-Hastings foi proposto por Metropolis e outros (1953) [13] e Hastings (1970) [14]. Ele ´e utilizado quando a distribui¸c˜ao de interesse p(·) n˜ao possui forma anal´ıtica conhecida. Portanto, sem conhecer o n´ucleo ou a classe de distribui¸c˜oes de p(·), n˜ao ´e poss´ıvel amostrar diretamente da distribui¸c˜ao de interesse. Com isso, utiliza-se uma distribui¸c˜ao auxiliar q(·), denominada como distribui¸c˜ao proposta. O algoritmo baseia-se em gerar um valor proposto de q(·) e aceit´a-lo na cadeia a partir de uma condi¸c˜ao probabil´ıstica de p(·) e q(·). Sob o ponto de vista bayesiano, o m´etodo pode ser explicado pelos seguintes passos:

1. Inicialize o contador de itera¸c˜oes em j = 0 e determine valores arbitr´arios para θ(0); 2. Modifique o contador de j para j + 1;

3. Gere um valor proposto ϕ usando uma distribui¸c˜ao conhecida que pode depender do valor amostrado na itera¸c˜ao anterior e essa distribui¸c˜ao ser´a denotada por q(ϕ | θ(j−1)). Aceite o ponto gerado com probabilidade

α = min ( 1, p(ϕ|z) q(ϕ | θ(j−1)) q(θ(j−1)| ϕ) p(θ(j−1)|z) ) . (3.13)

(26)

3.2 Inferˆencia Bayesiana 25

Se o valor for aceito, θ(j)= ϕ, caso contr´ario θ(j)= θ(j−1); 4. Repita os passos (2) e (3) at´e que a cadeia convirja.

Os crit´erios de convergˆencia vistos no amostrador de Gibbs tamb´em valem para o algoritmo de Metropolis-Hastings, tais como: per´ıodo de aquecimento (burn-in) e espa¸camento de ordem k.

Uma vez atingida a convergˆencia, torna-se bastante trivial fazer inferˆencia a partir das distribui¸c˜oes a posteriori dos parˆametros de interesse.

Esse algoritmo pode ser utilizado para amostrar de uma distribui¸c˜ao p(·) qualquer e, em particular, da distribui¸c˜ao a posteriori de θ ou da distribui¸c˜ao condicional completa a posteriori descrita na Subse¸c˜ao anterior.

(27)

26

4

An´

alise dos Resultados

Nesse Cap´ıtulo, ser˜ao apresentados os principais resultados da modelagem de dados de vari´aveis aleat´orias espaciais via simula¸c˜ao e dados reais. Para aplica¸c˜ao dos dados reais, foram utilizadas as taxas de hansen´ıase no Maranh˜ao por 100 mil habitantes em escala municipal. Considerando as taxas da doen¸ca sendo vari´aveis cont´ınuas, inicialmente foi proposto um modelo CAR e em seguida um modelo SAR, ambos definidos ao longo da Se¸c˜ao 3.1. Al´em disso, ser´a apresentado um estudo sobre os Indicadores de Autocorrela¸c˜ao Espacial especificados na Se¸c˜ao 3.1.1.

4.1

An´

alise Descritiva

Os dados foram disponibilizados pelo mestre Paulo Henrique Leal de Sousa que foi orientado pelo professor doutor Iuri da Costa Leite e co-orientado pela professora doutora Patr´ıcia Lusi´e Velozo da Costa no mestrado profissional em Epidemiologia em Sa´ude P´ublica, na Escola Nacional de Sa´ude P´ublica Sergio Arouca, na Funda¸c˜ao Oswaldo Cruz, no Rio de Janeiro.

O estado do Maranh˜ao possui 217 mun´ıcipios sendo a cidade de S˜ao Lu´ıs a sua capital. A lista completa pode ser consultada no Apˆendice A. As informa¸c˜oes referentes a taxa de detec¸c˜ao de hansen´ıase foram obtidas a partir do Sistema de Informa¸c˜oes de Agravos e Notifica¸c˜oes (SINAN), que ´e um instrumento p´ublico relevante no combate `as principais doen¸cas estudadas no pa´ıs. J´a os dados do ´Indice de Desenvolvimento Humano Municipal (IDHM) no Maranh˜ao, foram adquiridos a partir do ´ultimo censo demogr´afico realizado pelo Instituto Brasileiro de Geografia e Estat´ıstica (IBGE) em 2010.

A taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos possui classifica¸c˜oes categ´oricas diferentes da usuais, uma vez que altos ´ındices nessa faixa et´aria representam combate inadequado da doen¸ca por parte dos org˜aos de sa´ude. Assim, considerando a escala de 100 mil habitantes, a taxa ´e classificada em: hiperendˆemica (≥ 10, 00); muito

(28)

4.1 An´alise Descritiva 27

alta (5, 00 a 9, 99); alta (2, 50 a 4, 99); m´edia (0, 50 a 2, 49); e baixa (< 0, 50) (Revista de Sa´ude P´ublica (2017)) [15].

A Figura 1 apresenta as taxas de detec¸c˜ao de hansen´ıase para cada munc´ıpio do Maranh˜ao em 2010 de acordo com a classifica¸c˜ao estabelecida desse indicador. Note que as cores predominantes s˜ao das categorias baixo e hiperendˆemico, ou seja, apesar de muitas regi˜oes apresentarem taxas quase ou totalmente nulas, outras apresentam taxas bastante elevadas. Ademais, percebe-se uma poss´ıvel correla¸c˜ao espacial entre os munic´ıpios pois muitas regi˜oes e sua vizinhan¸ca possuem a mesma classifica¸c˜ao categ´orica da doen¸ca.

Figura 1: Taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos por 100 mil habitantes nos muninc´ıpios do Maranh˜ao em 2010.

Al´em da an´alise explorat´oria dos dados pelo mapa coropl´etico na figura acima, a correla¸c˜ao espacial entre as regi˜oes pˆode ser verificada tamb´em por meio dos indicadores de autocorrela¸c˜ao espacial. Verificou-se que h´a ind´ıcios de correla¸c˜ao espacial positiva entre os munic´ıpios do Maranh˜ao, uma vez que o ´Indices de Moran e Geary foram aproximadamente 0, 12 e 0, 88 respectivamente. E em ambos os indicadores os testes rejeitaram a hip´otese de ausˆencia de depˆencia espacial, evidenciando assim a associa¸c˜ao espacial entre as regi˜oes ao n´ıvel de significˆancia de 5%.

Cerca de 55% das regi˜oes n˜ao tiveram registros de infectados por hansen´ıase, tendo taxas nulas. Diversos motivos podem ser avaliados, como por exemplo: regi˜oes pouco povoadas, regi˜oes que n˜ao notificam os casos ou at´e mesmo a migra¸c˜ao de pessoas para as grandes cidades em busca de tratamento.

(29)

4.2 Indicadores de Autocorrela¸c˜ao Espacial 28

4.2

Indicadores de Autocorrela¸

ao Espacial

Ao analisar dados espaciais, costuma-se ter um forte interesse em medir a dependˆencia espacial. Essa dependˆencia pode ser investigada inicialmente de forma explorat´oria a partir dos indicadores de autocorrela¸c˜ao espacial vistos na Se¸c˜ao 3.1.1. O modelo SAR possui um parˆametro que descreve a dependˆencia espacial, o ρSAR. Sendo asim, ´e natural

questionar se h´a alguma rela¸c˜ao entre os ´ındices de Moran e de Geary com o parˆametro ρSAR, descrito na Se¸c˜ao 3.1.

Para isso foram gerados dados simulados do modelo SAR para diferentes valores de ρSAR e calculado os seus respectivos ´Indices de Moran e Geary associados. Foi criada uma

regi˜ao de grade regular, de mesma ´area e comprimento, com dimens˜ao 20x20 e contendo n = 400 subregi˜oes. Considere que µ = Xβ na Equa¸c˜ao (3.7), sendo X uma matriz 400 × 2 com a primeira coluna com todos os elementos unit´arios e a segunda coluna gerada da seguinte forma Xi2 ∼ U (0, 1). Fixou-se valores arbitr´arios para os demais

parˆametros, como β = (2, 3) e τ = 0, 5.

Os boxplots na Figura 2 representam o resultado de cada ´ındice para 1000 replica¸c˜oes do modelo. Note que as curvas de ambos os ´ındices se assemelham, uma vez que a medida que aumenta ou diminui o valor do parˆametro em dire¸c˜ao aos extremos, maior ´e a autocorrela¸c˜ao espacial seja ela positiva ou negativa. Vale destacar a forte correla¸c˜ao de ρSAR nos extremos de ambos os indicadores e a simetria dos resultados em torno de

(30)

4.2 Indicadores de Autocorrela¸c˜ao Espacial 29

Figura 2: Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados simulados do modelo SAR assumindo diferentes valores de ρSAR e uma regi˜ao de grade regular

contendo 400 subregi˜oes.

Al´em de verificar os valores correspondentes dos ´ındices, ´e poss´ıvel tamb´em avaliar a relevˆancia estat´ıstica desses resultados considerando um certo n´ıvel de significˆancia α. Assim, considere o teste de hipot´ese em que a hipot´ese nula, H0, representa a n˜ao presen¸ca

de correla¸c˜ao espacial e a hipot´ese alternativa, H1, caso contr´ario.

Assumindo α = 5%, a Figura 3 apresenta o resultado dos p-valores dos testes para as 1000 replica¸c˜oes do modelo a partir de diferentes valores de ρSAR para cada ´ındice.

Os valores sob a linha horizontal tracejada retratam os casos em que o teste rejeitou a hip´otese nula, ou seja, evidencia-se que h´a correla¸c˜ao espacial. Note que a medida que o parˆametro aumenta ou diminui, os p-valores diminuem at´e se manterem est´aveis.

(31)

4.2 Indicadores de Autocorrela¸c˜ao Espacial 30

Figura 3: P-valores dos testes de hip´otese dos indicadores para 1000 replica¸c˜oes de dados simulados do modelo SAR considerando diferentes valores de ρSAR e uma regi˜ao de grade

regular contendo 400 subregi˜oes.

Vale lembrar que nos resultados anteriores foi utilizada uma regi˜ao de grade regular, simulada, de mesma ´area e comprimento. J´a era esperado um comportamento conforme apresentado, uma vez que est´a sendo utilizado um modelo com estrutura espacial. Diante disso, agora se torna interessante analisar os mesmos resultados aplicando-os a uma grade irregular, retratando uma regi˜ao mais similar a que ocorre na pr´atica.

Como aplica¸c˜ao, utilizou-se o estado do Maranh˜ao e seus 217 munic´ıpios. Na Figura 4, nota-se o mesmo resultado visto na Figura 2, por´em, contendo uma “incerteza”(variabildiade) maior conforme os valores de ρSAR v˜ao aumentando ou

diminuindo. Fatores como regi˜oes com muitos ou poucos vizinhos, n´umero menor de subregi˜oes e dentre outros, podem estar associados a esse comportamento distinto ao utilizar regi˜oes com caracacter´ısticas diferentes.

(32)

4.2 Indicadores de Autocorrela¸c˜ao Espacial 31

Figura 4: Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados simulados do modelo SAR assumindo diferentes valores de ρ e o estado do Maranh˜ao.

A Figura 5 apresenta os p-valores dos testes de hip´otese de correla¸c˜ao espacial considerando o estado do Maranh˜ao e um n´ıvel de significˆancia de 5%. Diferentemente do resultado apresentado na Figura 3, os valores dos testes apresentaram muita incerteza at´e para ρSAR mais altos que do caso anterior.

Figura 5: P-valores dos testes de hip´otese dos indicadores para 1000 replica¸c˜oes de dados simulados do modelo SAR considerando diferentes valores de ρSAR e o estado do

(33)

4.3 Modelo CAR 32

4.3

Modelo CAR

Considere que Z = (Z1, . . . , Zn)

0

, segue um modelo condicional autoregressivo conforme descrito na Subse¸c˜ao 3.1.2 e dado da seguinte forma

Z ∼ N Xβ, (I − ρW∗)−1V , (4.1)

sendo X chamada de matriz desenho contendo n linhas nas quais cada linha cont´em K vari´aveis relacionadas a i-´esima regi˜ao. Essa matriz pode conter uma coluna de uns para permitir intercepto na modelagem, vari´aveis explicativas tamb´em chamadas de covari´aveis, sazonalidade, entre outros. Al´em disso, considere que β seja um vetor coluna representando os efeitos dessas vari´aveis na vari´avel resposta, I uma matriz identidade de ordem n, ρ representa o efeito espacial, W∗ sendo uma matriz de ordem n × n formada pelos elementos Wij∗ = Wij

Wi+, nos quais Wij = 1, para i 6= j e se os munic´ıpios i e j

dividirem a mesma fronteira, e Wij = 0, caso contr´ario, e Wi+ =Pnj=1Wij sendo o total

de regi˜oes que dividem fronteira com a regi˜ao i. E V uma matriz diagonal de ordem n formada pelos elementos Vi = τ W1i+ sendo τ um escalar. Considere que o parˆametro

de autocorrela¸c˜ao espacial em ρ seja conhecido. Sendo assim, tem-se que o vetor de parˆametros desconhecidos desse modelo ´e θ = (β, τ )0.

Seguindo o enfoque bayesiano, para inferir sobre o vetor param´etrico θ ´e necess´ario atribuir uma distribui¸c˜ao a priori para esse vetor. Portanto, considere que β e τ sejam independentes e que possuam as seguintes distribui¸c˜oes

β ∼ N (a; VβI),

τ ∼ Ga(b, c), (4.2)

sendo bc e cb2, respectivamente, a m´edia e a variˆancia da distribui¸c˜ao gama.

Portanto, a distribui¸c˜ao a posteriori ´e dada pela seguinte forma

p(θ|Z) ∝ p(Z|θ)p(β)p(τ ), (4.3)

sendo p(Z|θ) a fun¸c˜ao de densidade da distribui¸c˜ao dada pela Equa¸c˜ao (4.1). Essa distribui¸c˜ao a posteriori n˜ao possui forma anal´ıtica conhecida e amostras podem ser obtidas atrav´es dos m´etodos de MCMC. Conforme descrito na Se¸c˜ao 3.2.1, faz-se ent˜ao

(34)

4.3 Modelo CAR 33

necess´ario obter as distribui¸c˜oes condicionais completas a posteriori do vetor param´etrico β. Dessa forma, tem-se as seguintes distribui¸c˜oes

β | τ, ρ, z ∼ NVp[X 0 (I − ρW∗)V−1Z + Vβ−1Ia] ; Vp = [X 0 (I − ρW∗)V−1X + Vβ−1I]−1, τ | β, ρ, z ∼ Ga n 2 + b ; 1 2(Z − Xβ) 0 (I − ρW∗)V∗(Z − Xβ) + c  ,

onde V∗ ´e uma matriz diagonal de ordem n formada pelos elementos Vii = W1i+.

4.3.1

Estudo Simulado

Para verificar a capacidade de estima¸c˜ao dos parˆametros e analisar a sensibilidade da modelagem quanto a distribui¸c˜ao a priori, aplicou-se o modelo proposto a um conjunto de dados simulados, fixando valores arbitr´arios para os parˆametros desconhecidos. Suponha que a matriz desenho possui um intercepto e uma vari´avel explicativa com os seguintes valores β0 = (−0, 5 ; 3), sendo Xi1= 1 e Xi2∼ U (0, 1). Al´em disso, considere que h´a

uma alta correla¸c˜ao espacial assumindo ρ = 0, 999 e precis˜ao τ = 0, 5.

Com o intuito de analisar a sensibilidade do modelo quanto a distribui¸c˜ao a priori, ajustou-se os dados simulados considerando diferentes escolhas para os hiperparˆametros da distribui¸c˜ao. As escolhas foram realizadas de forma que ora tivesse uma distribui¸c˜ao a priori informativa e ora fosse menos informativa. Uma das formas utilizadas para transformar uma distribui¸c˜ao informativa em n˜ao informativa ´e aumentar a variabilidade dessa distribui¸c˜ao.

Sendo assim, visando a an´alise de sensibilidade, a Tabela 1 apresenta as estimativas pontuais, obtidas pelas m´edias a posteriori, e as intervalares, obtidas pelos intervalos de credibilidade de 95% a posteriori, sob diferentes escolhas para os hiperparˆametros da distribui¸c˜ao a priori. Repare que, mesmo aumentando a variˆancia de Vβ, as estimativas

dos parˆametros a posteriori se mantiveram pr´oximas. Por isso, evidenciou-se que o modelo foi bem ajustado.

(35)

4.3 Modelo CAR 34

Tabela 1: An´alise de sensibilidade: estimativas a posteriori dos parˆametros sob diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori. A estimativa pontual ´e dada pela m´edia a posteriori e a intervalar pelo intervalo de credibilidade de 95%. Os valores verdadeiros dos parˆametros s˜ao β1 = −0, 5, β2 = 3 e τ = 0, 5.

Hiperparˆametros Estimativas a posteriori

a Vβ b c β1 β2 τ Priori 1 (0 ; 0) 500 2 0,5 -0,5993 3,0273 0,5768 (-3,0150 ; 1,7799) (2,7764 ; 3,2921) (0,4752 ; 0,6925) Priori 2 (0 ; 0) 100 0,1 0,1 -0,5652 3,0280 0,5689 (-3,0097 ; 1,7976) (2,7631 ; 3,2850) (0,4611 ; 0,6769) Priori 3 (0 ; 0) 50 1 0,2 -0,6233 3,0219 0,5750 (-2,9380 ; 1,6575) (2,7543 ; 3,2716) (0,4627 ; 0,6891) Priori 4 (0 ; 0) 25 1 0,1 -0,6056 3,0208 0,5753 (-2,8866 ; 1,6396) (2,7533 ; 3,2703) (0,4631 ; 0,6896)

Foram realizadas 11.000 itera¸c˜oes, com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. A Figura 6 mostra a convergˆencia das cadeias dos parˆametros e tamb´em seus histogramas a posteriori utilizando a Priori 2 definida na Tabela 1. As linhas em verde representam os valores verdadeiros dos parˆametros, j´a as linhas em vermelho s˜ao as estimativas a posteriori dos parˆametros desconhecidos e seus respectivos intervalos de credibilidade de 95% em cor azul. Note que h´a ind´ıcios de convergˆencia, que as m´edias a posteriori (estimativas pontuais) ficaram pr´oximas dos valores verdadeiros e os intervalos contemplaram os valores verdadeiros.

Figura 6: Tra¸cos das cadeias e histogramas das amostras dos parˆametros utilizando a Priori 2 com dados simulados. As linhas em verde representam os valores verdadeiros dos parˆametros, j´a as linhas em vermelho s˜ao as estimativas a posteriori dos parˆametros desconhecidos e seus respectivos intervalos de credibilidade de 95% em cor azul.

(36)

4.3 Modelo CAR 35

4.3.2

Dados de Hansen´ıase

Como foi visto na Se¸c˜ao 4.1, mais da metade dos mun´ıcipios do estado do Maranh˜ao apresentaram taxas de hansen´ıase iguais a zero no ano de 2010. Isso implica diretamente na modelagem podendo prejudicar consideravelmente na estima¸c˜ao dos parˆametros desconhecidos do modelo. Como alternativa, foi feita uma transforma¸c˜ao logar´ıtmica da vari´avel resposta para tentar reduzir a variabilidade dos dados e tentar ajustar adequadamente obtendo um resultado mais satisfat´orio.

Seja Zi∗ a taxa de doentes menores de 15 anos diagnosticados com hansen´ıase na regi˜ao i, por 100.000 habitantes. Considere que Z = (Z1, . . . , Zn)

0

, sendo Zi =

log(Zi∗ + 0, 1), segue um modelo condicional autoregressivo conforme descrito na Se¸c˜ao 3.1, com intercepto e uma vari´avel explicativa. Utilizou-se como vari´avel explicativa o IDHM em 2010 de cada munic´ıpio do Maranh˜ao. Al´em disso, considerando que h´a uma alta correla¸c˜ao espacial assumiu-se ρ = 0, 999.

Como n˜ao h´a cren¸ca sob os parˆametros desconhecidos, considere a priori que β e τ s˜ao independentes e que possuem as seguintes distribui¸c˜oes

β ∼ N (0; 100I),

τ ∼ Ga(0, 1; 0, 1), (4.4)

sendo 0 = (0, 0)0.

Foram gerados 11.000 valores com burn-in de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. Para a estimativa dos parˆametros desconhecidos, foram utilizadas a m´edia a posteriori e intervalos de credibilidade de 95%.

A Figura 7 mostra a convergˆencia das cadeias dos parˆametros e os histogramas das distribui¸c˜oes a posteriori. Note que parece ter havido convergˆencia.

(37)

4.3 Modelo CAR 36

Figura 7: Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a posteriori usando o conjunto de dados reais.

A Tabela 2 apresenta as estimativas e os intervalos de credibilidade a posteriori dos parˆametros estimados.

Tabela 2: M´edias a posteriori e intervalos de credibilidade de 95% para os parˆametros.

Parˆametros β1 β2 τ

Priori 2 -8,4525 15,1894 0,0306

(-18,0569 ; 1,6520) (11,5084 ; 19,3378) (0,0254 ; 0,0365)

A partir das estimativas dos parˆametros na Tabela 2, verificou-se que qu˜ao maior for o IDHM, maior dever´a ser a taxa de detec¸c˜ao de hansen´ıase nos munic´ıpios do Maranh˜ao. Resultado esse nada trivial, uma vez que esse indicador representa desenvolvimento humano nas ´areas de educa¸c˜ao, sa´ude e renda. Como argumenta¸c˜ao inicial, essa rela¸c˜ao pode estar associada, por exemplo, `a subnotifica¸c˜ao diferenciada segundo os munic´ıpios onde pessoas oriundas de regi˜oes com baixos IDHM s˜ao notificadas nos grandes centros urbanos onde apresentam ´ındices de desenvolvimento mais elevados.

Verificou-se tamb´em grandes aplitudes nos intervalos de credibilidade de 95% para os parˆametros estimados. Isso est´a relacionado principalmente devido os dados inflacionados em zero que impactam diretamente nesses resultados, mesmo ap´os a transforma¸c˜ao proposta na vari´avel de interesse.

Inicialmente foi utilizado o modelo CAR no ajuste e estima¸c˜ao dos parˆametros do modelo espacial fixando um das componentes. Contudo, ao tentar ajustar o mesmo modelo assumindo o parˆametro de autocorrela¸c˜ao espacial ρ desconhecido, encontrou-se problemas na sua amostragem.

(38)

4.4 Modelo SAR 37

4.4

Modelo SAR

Assuma que Z = (Z1, . . . , Zn)

0

, segue um modelo autorregressivo simultˆaneo conforme descrito na Subse¸c˜ao 4.4 e definido da seguinte forma

Z ∼ N  Xβ,1 τ [(I − ρSARW ∗ )(I − ρSARW∗)0] −1 . (4.5)

sendo Xβ o produto entre a matriz desenho contendo n linhas nas quais cada linha cont´em K vari´aveis relacionadas a i-´esima regi˜ao e o vetor coluna representando os efeitos dessas vari´aveis na vari´avel resposta, I uma matriz identidade de ordem n, ρ o efeito espacial, W∗ sendo uma matriz de ordem n × n formada pelos elementos Wij∗ = Wij

Wi+, nos

quais Wij = 1, se as regi˜oes i e j dividem a mesma fronteira, e Wij = 0, caso contr´ario,

e Wi+ = Pnj=1Wij sendo o total de regi˜oes que dividem fronteira com a regi˜ao i. E τ

a precis˜ao do modelo. Por conta disso, tem-se que o vetor de parˆametros desconhecidos desse modelo ´e θ = (β, τ, ρSAR)0.

Acompanhando o enfoque bayesiano, para inferir sobre o vetor param´etrico θ ´e necess´ario atribuir uma distribui¸c˜ao a priori para o mesmo. Portanto, considere que β, τ e ρ sejam independentes e que possuam as seguintes distribui¸c˜oes

β ∼ N (a; VβI),

τ ∼ Ga(b, c),

ρ ∼ U (d, e), (4.6)

sendo bc e cb2, respectivamente, a m´edia e a variˆancia da distribui¸c˜ao gama.

Dessa forma, tem-se que a distribui¸c˜ao a posteriori ´e dada pela seguinte forma

p(θ|Z) ∝ p(Z|θ)p(β)p(τ )p(ρ), (4.7)

sendo p(Z|θ) a fun¸c˜ao de densidade da distribui¸c˜ao dada pela Equa¸c˜ao (4.1). Essa distribui¸c˜ao a posteriori n˜ao possui forma anal´ıtica conhecida e amostras podem ser obtidas atrav´es dos m´etodos de MCMC. Conforme descrito na Se¸c˜ao 3.2.1, faz-se ent˜ao necess´ario obter as distribui¸c˜oes condicionais completas a posteriori do vetor param´etrico θ. Assim, tem-se as seguintes distribui¸c˜oes.

β | τ, ρSAR, z ∼ N  Vp[X 0 τ QZ + Vβ−1Ia] ; Vp = [X 0 τ QX + Vβ−1I]−1, τ | θ, ρSAR, z ∼ Ga  n 2 + b ; 1 2(Z − Xβ) 0 Q(Z − Xβ) + c  ,

(39)

4.4 Modelo SAR 38

onde Q = [(I − ρSARW∗)(I − ρSARW∗)0].

A distribui¸c˜ao condicional completa do parˆametro ρSAR n˜ao apresentou forma

anal´ıtica fechada e conhecida, sendo necess´aria assim a utiliza¸c˜ao do algoritmo de Metropolis Hastings para estim´a-lo. Dessa forma, especificou-se uma distribui¸c˜ao proposta para esse parˆametro que segue uma normal truncada no intervalo [−1, 1], de tal forma que

q(ρ) ∼ N T (ρ(i−1), 0, 252 ; −1, 1) ,

onde ρi−1 ´e o valor do parˆametro na intera¸c˜ao anterior do algoritmo.

4.4.1

Estudo Simulado

Aplicou-se o modelo SAR proposto a um conjunto de dados simulados e analisou-se a analisou-sensibilidade da modelagem quanto a diferentes escolhas para os hiperparˆametros da distribui¸c˜ao a priori, com o intuito de verificar a capacidade de estima¸c˜ao dos parˆametros. As escolhas foram realizadas de forma que ora tivesse uma distribui¸c˜ao a priori informativa e ora tivesse menos informativa. Uma das formas utilizadas para transformar uma distribui¸c˜ao informativa em n˜ao informativa ´e aumentar a variabilidade dessa distribui¸c˜ao. Sendo assim, visando essa an´alise, a Tabela 3 apresenta as distribui¸c˜oes utilizadas.

Tabela 3: An´alise de sensibilidade: diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori.

a Vβ b c d e

Priori 1 (0 ; 0) 1000 0,1 0,1 -1 1

Priori 2 (0 ; 0) 100 2 0,5 -1 1

Priori 3 (0 ; 0) 10 16 4 -1 1

Para a simula¸c˜ao dos dados, foram fixados valores arbitr´arios para os parˆametros desconhecidos do modelo. Suponha que a m´edia do processo seja formada por uma matriz desenho com um intercepto, uma vari´avel explicativa e os seguintes valores β0 = (2 ; 3) e τ = 0, 5, sendo Xi1 = 1 e Xi2∼ U (0, 1). Para o parˆametro ρ, fixou-se trˆes valores, 0, 1,

0, 3 e 0, 7, com o objetivo de analisar o comportamento da an´alise de sensibilidade dos hiperparˆametros do modelo.

(40)

4.4 Modelo SAR 39

A Figura 8 apresenta os dados simulados a partir de uma baixa e moderada/alta correla¸c˜ao espacial entre os munic´ıpios do estado do Maranh˜ao.

(a) ρ = 0, 1 (b) ρ = 0.7

Figura 8: Dados simulados via modelo SAR para diferentes valores de ρSAR nos munic´ıpios

do Maranh˜ao.

A Figura 9 apresenta as estimativas pontuais, obtidas pelas m´edias a posteriori sob diferentes escolhas para os hiperparˆametros da distribui¸c˜ao a priori e seus respectivos intervalos de alta densidade a posteriori, abreviados aqui por HDI, que s˜ao bastante usados em an´alises bayesianas (Turkkan et al. 1993) [16]. As linhas tracejadas horizontamente representam os valores verdadeiros fixados para β e τ . Repare que, mesmo diminuindo a variˆancia de Vβ, as estimativas dos parˆametros a posteriori se mantiveram pr´oximas e com

os intervalos contendo o valor verdadeiro fixado, com exce¸c˜ao da Priori 3 no parˆametro τ . Isso se deve ao fato da m´edia alta e variˆancia pequena na distribui¸c˜ao da precis˜ao. J´a no parˆametro ρSAR, o “x”representa o valor fixado para cada um dos casos. Note que o

(41)

4.4 Modelo SAR 40

Figura 9: An´alise de sensibilidade: estimativas a posteriori dos parˆametros sob diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori. A estimativa pontual ´e dada pela m´edia a posteriori e a intervalar pelo intervalo HDI de 95%.

Foram realizadas 11.000 itera¸c˜oes, com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. A Figura 10 mostra a convergˆencia das cadeias dos parˆametros e tamb´em seus histogramas a posteriori utilizando a Priori 2 definida na Tabela 3 e considerando ρ = 0, 7. As linhas tracejadas representam os valores verdadeiros dos parˆametros, j´a as linhas trajecadas mais fracamente s˜ao as estimativas dos intervalos HDI a posteriori de 95%. Note que h´a ind´ıcios de convergˆencia, que as m´edias a posteriori (estimativas pontuais) ficaram pr´oximas dos valores verdadeiros e os intervalos contemplaram os mesmos.

(42)

4.4 Modelo SAR 41

Figura 10: Tra¸cos das cadeias e histogramas das amostras a posteriori dos parˆametros utilizando a Priori 2 com dados simulados.

4.4.2

Dados de Hansen´ıase

Como j´a mencionado na Se¸c˜ao 4.1, mais da metade dos mun´ıcipios do estado do Maranh˜ao apresentaram taxas de hansen´ıase iguais a zero no ano de 2010. Fato esse que implica diretamente na modelagem podendo prejudicar substancialmente na estima¸c˜ao dos parˆametros desconhecidos do modelo. Como alternativa, novamente foi realizada uma transforma¸c˜ao da vari´avel resposta para diminuir a variabilidade dos dados e tentar obter um resultado mais satisfat´orio no ajuste.

Considere Zi∗ a taxa da doen¸ca em menores de 15 anos diagnosticados na regi˜ao i, por 100.000 habitantes. Admita que Z = (Z1, . . . , Zn)

0

, em que Zi = log(Zi∗+ 0, 1), segue

um modelo autoregressivo simultˆaneo conforme descrito na Se¸c˜ao 3.1, com intercepto e uma vari´avel explicativa. Utilizou-se como vari´avel explicativa o IDHM em 2010 de cada munic´ıpio do Maranh˜ao.

Assumindo a an´alise de sensibilidade anterior satisfat´oria, optou-se em escolher a priori 2 na aplica¸c˜ao dos dados reais um vez que o modelo se ajustou corretamente para diferentes prioris. Sendo assim, assuma que

β ∼ N (0; 100I), τ ∼ Ga(2; 0, 5),

(43)

4.4 Modelo SAR 42

sendo 0 = (0, 0)0.

Foram gerados 11.000 valores com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. Para a estimativa dos parˆametros desconhecidos, foram utilizadas a m´edia a posteriori e intervalos HDI de 95%. A Figura 11 apresenta a convergˆencia das cadeias dos parˆametros e os histogramas das distribui¸c˜oes a posteriori.

Figura 11: Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a posteriori usando o conjunto de dados reais e o modelo SAR.

A Tabela 2 apresenta as estimativas e os intervalos HDI a posteriori dos parˆametros estimados do modelo SAR aplicado aos dados reais.

Tabela 4: M´edias a posteriori e intervalos HDI de 95% para os parˆametros.

β1 β2 τ ρSAR

Priori 2 -8,1888 14,3357 0,1510 0,2540

(-12,5041 ; -3,9518) (7,0572 ; 21,7918) (0,1226 ; 0,1765) (0,0829 ; 0,4272)

Com base nas estimativas dos parˆametros apresentadas Tabela 4, verificou-se que qu˜ao maior for o IDHM, maior dever´a ser a taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos nos munic´ıpios do Maranh˜ao. Resultado esse n˜ao muito esperado, dado que esse indicador representa desenvolvimento humano nas ´areas de educa¸c˜ao, sa´ude e renda. Como hip´otese inicial, essa rela¸c˜ao pode estar associada, por exemplo, `a subnotifica¸c˜ao diferenciada segundo os munic´ıpios onde pessoas oriundas de regi˜oes com baixos IDHM s˜ao notificadas nos grandes centros urbanos onde apresentam ´ındices de desenvolvimento

(44)

4.4 Modelo SAR 43

mais elevados. E dessa vez o intervalo HDI para β1 n˜ao cont´em o 0, resultado que esse

parˆametro ´e significante para esse modelo especificamente.

Note que a estimativa pontual para o parˆametro de autocorrela¸c˜ao espacial foi de ρSAR = 0, 25 e sabendo que os ´ındices de Moran e Geary foram respectivamente 0, 11

e 0, 88, percebe-se que h´a uma associa¸c˜ao entre esses valores, uma vez j´a verificado no estudo simulado na Se¸c˜ao 4.2. Como prova disso, aplicou-se a estimativa de ρSAR a 1.000

replica¸c˜oes de dados simulados via o modelo SAR e calculado os indicadores. As m´edias dos ´ındices foram 0, 09 para o I de Moran e 0, 90 para o C de Geary, valores bem pr´oximos aos verdadeiros usando os dados reais de hansen´ıase.

(45)

44

5

Conclus˜

ao

O interesse desse trabalho estava na modelagem espacial de dados de ´area sob a perspectiva bayesiana. Para isso, recorreu-se aos modelos CAR e SAR tradicionalmente usados para esse tipo de dados.

Para estudar sobre os parˆametros que medem a dependˆencia espacial, gerou-se um conjunto de dados simulados e comparou-se os ´ındices de Moran, o de Geary e o parˆametro de correla¸c˜ao espacial do modelo SAR. A partir dos resultados, verificou-se que h´a ind´ıcios desses parˆametros serem correlacionados e apropriados para verificarem a dependˆencia espacial.

Para verificar o procedimento de inferˆencia, gerou-se um conjunto de dados simulados e estimou-se os parˆametros desse conjunto. A an´alise de sensibilidade da distribui¸c˜ao a priori se comportou de forma satisfat´oria e os parˆametros foram bem estimados mesmo sob diferentes escolhas dos hiperparˆametros em ambos os modelos.

Em seguida, analisou-se um conjunto de dados reais, que correspondeu a uma transforma¸c˜ao das taxas de hansen´ıase. A partir de uma an´alise explorat´oria dos dados e pelos ´ındices de Moran e de Geary, foi poss´ıvel verificar que as taxas de detec¸c˜ao de hansen´ıase em menores de 15 anos apresentaram correla¸c˜ao espacial, ou seja, a taxa de determinada regi˜ao ´e influenciada pelas taxas de sua vizinhan¸ca. Ademais, atrav´es dos modelos apresentados e suas covari´aveis associadas, verificou-se que o IDHM foi uma covari´avel significativa, por´em indicou que regi˜oes com maiores ´ındices de desenvolvimento humano tendem a ter maiores taxas da doen¸ca.

Os modelos propostos servem para vari´aveis respostas cont´ınuas que assumem valores na reta. As taxas de hansen´ıase s˜ao n˜ao-negativas. Para levar essas taxas na reta e diminuir a variabildiade dos dados, aplicou-se uma fun¸c˜ao logar´ıtmica. Por´em, h´a muitas taxas nulas indicando que a vari´avel resposta ´e mista mesmo com a transforma¸c˜ao utilizada. Problema esse que pode influenciar negativamente na estimativa e no intervalo de credibilidade dos parˆametros dos modelos.

(46)

5 Conclus˜ao 45

Consequentemente, fica como trabalhos futuros a utiliza¸c˜ao de modelos mais adequados aos dados de hansen´ıase, levando em considera¸c˜ao principalmente a grande quantidade de taxas iguais a zero.

(47)

46

Referˆ

encias

[1] C ˆAMARA, G.; ORTIZ, M. J. Sistemas de informa¸c˜ao geogr´afica para aplica¸c˜oes ambientais e cadastrais: uma vis˜ao geral. In: CONGRESSO BRASILEIRO DE ENGENHARIA AGRICOLA. [S.l.: s.n.], 1998. v. 27, p. 59–82.

[2] CH ˆATEAUNEUF, L.-F. B. D. Rapport sur la marche et les effets du chol´era-morbus dans Paris et les communes rurales du d´epartement de la Seine, par la commission nomm´ee... ann´ee 1832. [S.l.]: Imprimerie royale, 1834.

[3] SNOW, J. The cholera near golden-square, and at deptford. Medical Times and Gazette, v. 9, p. 321–322, 1854.

[4] ORGANIZATION, W. H. Weekly epidemiological record relev´e ´epid´emiologique hebdomadaire. Weekly Epidemiological Record, v. 34, p. 317–28, 2012.

[5] CRESSIE, N. A. C. Statistics for Spatial Data. [S.l.]: John Wiley & Sons, 1993. [6] BANERJEE, S.; GELFAND, A. E.; CARLIN, B. P. Hierarchical Modeling and

Analysis for Spatial Data. [S.l.]: Chapman & Hall/CRC, 2003.

[7] WALLER, L. A.; GOTWAY, C. A. Applied spatial statistics for public health data. [S.l.]: John Wiley & Sons, 2004.

[8] C ˆAMARA, G. et al. An´alise espacial de ´areas. An´alise espacial de dados geogr´aficos, Empresa Brasileira de Pesquisa Agropecu´aria Bras´ılia, v. 2, 2004.

[9] SCHMIDT, A. M.; NOBRE, A. A.; FERREIRA, G. S. Alguns aspectos da modelagem de dados espacialmente referenciados. Rio de Janeiro, 2003.

[10] GAMERMAN, D.; LOPES, H. F. Markov chain Monte Carlo: stochastic simulation for Bayesian inference. [S.l.]: CRC Press, 2006.

[11] GEMAN, S.; GEMAN, D. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. IEEE Transactions on pattern analysis and machine intelligence, IEEE, n. 6, p. 721–741, 1984.

[12] GELFAND, A. E.; SMITH, A. F. M. Samping-based approaches to calculating marginal densities. Journal of the American Statistical Association, v. 85, n. 410, p. 398–409, 1990.

[13] METROPOLIS, N. et al. Equation of state calculations by fast computing machines. The journal of chemical physics, AIP, v. 21, n. 6, p. 1087–1092, 1953.

[14] HASTINGS, W. K. Monte Carlo sampling methods using Markov chains and their applications. Biometrika, v. 57, p. 97–109, 1970.

(48)

Referˆencias 47

[15] FREITASI, B. H. B. M. de et al. Tendˆencia da hansen´ıase em menores de 15 anos em mato grosso (brasil), 2001-2013. Rev Sa´ude P´ublica, SciELO Public Health, v. 51, p. 28, 2017.

[16] TURKKAN, N.; PHAM-GIA, T. Computation of the highest posterior density interval in bayesian analysis. Journal of statistical computation and simulation, Taylor & Francis, v. 44, n. 3-4, p. 243–250, 1993.

(49)

48

APˆ

ENDICE A -- Munic´ıpios do Estado do

Maranh˜

ao

A¸cailˆandia, Afonso Cunha, Agua Doce do Maranh˜ao, Alcˆantara, Aldeias Altas, Altamira do Maranh˜ao, Alto Alegre do Maranh˜ao, Alto Alegre do Pindar´e, Alto Parna´ıba, Amap´a do Maranh˜ao, Amarante do Maranh˜ao, Anajatuba, Anapurus, Apicum-Acu, Araguan˜a, Araioses, Arame, Arari, Axix´a, Bacabal, Bacabeira, Bacuri, Bacurituba, Balsas, Bar˜ao de Grajau, Barra do Corda, Barreirinhas, Bela Vista do Maranh˜ao, Bel´agua, Benedito Leite, Bequim˜ao, Bernardo do Mearim, Boa Vista do Gurupi, Bom Jardim, Bom Jesus das Selvas, Bom Lugar, Brejo de Areia, Brejo, Buriti Bravo, Buriti, Buriticupu, Buritirana, Cachoeira Grande, Cajapi´o, Cajari, Campestre do Maranh˜ao, Candido Mendes, Cantanhede, Capinzal do Norte, Carolina, Carutapera, Caxias, Cedral, Central do Maranh˜ao, Centro Novo do Maranh˜ao, Centro do Guilherme, Chapadinha, Cidelˆandia, Cod´o, Coelho Neto, Colinas, Concei¸c˜ao do Lago-Acu, Coroat´a, Cururupu, Davin´opolis, Dom Pedro, Duque Bacelar, Esperantin´opolis, Estreito, Feira Nova do Maranh˜ao, Fernando Falc˜ao, Formosa da Serra Negra, Fortaleza dos Nogueiras, Fortuna, Godofredo Viana, Goncalves Dias, Governador Archer, Governador Edison Lob˜ao, Governador Eugenio Barros, Governador Luiz Rocha, Governador Newton Bello, Governador Nunes Freire, Gra¸ca Aranha, Grajau, Guimaraes, Humberto de Campos, Icatu, Igarap´e Grande, Igarap´e do Meio, Imperatriz, Itaipava do Grajau, Itapecuru Mirim, Itinga do Maranh˜ao, Jatob´a, Jenipapo dos Vieiras, Joao Lisboa, Joselˆandia, Junco do Maranh˜ao, Lago Verde, Lago da Pedra, Lago do Junco, Lagoa Grande do Maranh˜ao, Lagoa do Mato, Lagoa dos Rodrigues, Lajeado Novo, Lima Campos, Loreto, Lu´ıs Domingues, Magalhaes de Almeida, Maraca¸cum´e, Maraj´a do Sena, Maranh˜aozinho, Mata Roma, Matinha, Mat˜oes do Norte, Mat˜oes, Milagres do Maranh˜ao, Mirador, Miranda do Norte, Mirinzal, Mon¸c˜ao, Montes Altos, Morros, Nina Rodrigues, Nova Colinas, Nova Iorque, Nova Olinda do Maranh˜ao, Olho d’Agua das Cunhas, Olinda Nova do Maranh˜ao, Paco do Lumiar, Palmeirˆandia, Paraibano, Parnarama, Passagem Franca, Pastos Bons, Paulino Neves, Paulo Ramos, Pedreiras, Pedro do Ros´ario, Penalva, Peri Mirim, Peritor´o, Pindar´e Mirim, Pinheiro, Pio

Referências

Documentos relacionados

Este trabalho buscou, através de pesquisa de campo, estudar o efeito de diferentes alternativas de adubações de cobertura, quanto ao tipo de adubo e época de

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Our contributions are: a set of guidelines that provide meaning to the different modelling elements of SysML used during the design of systems; the individual formal semantics for

Para preparar a pimenta branca, as espigas são colhidas quando os frutos apresentam a coloração amarelada ou vermelha. As espigas são colocadas em sacos de plástico trançado sem

Neste tipo de situações, os valores da propriedade cuisine da classe Restaurant deixam de ser apenas “valores” sem semântica a apresentar (possivelmente) numa caixa

Foram portanto seleccionados alguns edifícios e conjuntos representativos dos aglomerados urbanos, a par de elementos presentes no território rural, considerando os

 Caminho simples que contém todas as arestas do grafo (e,. consequentemente, todos os