Modelos para dados de área sob a abordagem bayesiana

(1)

Matheus Camelo dos Santos Araujo

Modelos para dados de ´

area sob a

abordagem bayesiana

Niter´oi - RJ, Brasil 5 de dezembro de 2018

(2)

Universidade Federal Fluminense

Matheus Camelo dos Santos Araujo

Modelos para dados de ´

area sob a

abordagem bayesiana

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientadora: Profa. Dra. Patr´ıcia Lusi´e Velozo da Costa

Niter´oi - RJ, Brasil 5 de dezembro de 2018

(3)

(4)

Ficha catalográfica automática - SDC/BIME

Bibliotecário responsável: Carlos Roberto Santos de Lima - CRB7/5531

A658m Araujo, Matheus Camelo dos Santos

Modelos para dados de área sob a abordagem bayesiana / Matheus Camelo dos Santos Araujo ; Patrícia Lusié Velozo Da Costa, orientadora. Niterói, 2018.

49 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2018.

1. Estatística. 2. Inferência bayesiana . 3. Produção intelectual. I. Título II. Da Costa,Patrícia Lusié Velozo, orientadora. III. Universidade Federal Fluminense. Instituto de Matemática e Estatística. Departamento de Estatística. CDD

(5)

-Resumo

Fenômenos das mais diversas áreas estão sendo cada vez mais influenciados pelo espa¸co onde ocorrem. Somadas às demais análises, a análise espacial vem tornando a modelagem desses eventos mais requintada. Diante dos principais tipos de dados em estat´ıstica espacial, esse trabalho visa a modelagem de variáveis aleatórias, com foco em dados de área, averiguando modelos adequados e ajustando-os via dados simulados. Como aplica¸cão, serão utilizados dados referentes a hansen´ıase, doen¸ca crônica e infecciosa que apresenta altas taxas de ocorrências no Brasil, principalmente nas regiões Norte do pa´ıs. Acredita-se que, além de fatores socioeconômicos e ambientais, as taxas da doen¸ca também são influenciadas segundo suas localiza¸cões geográficas, justificando a utiliza¸cão da modelagem espacial nesse trabalho.

Quando o interesse na modelagem é, por exemplo, relacionar as respostas de uma variável com seus vizinhos, os modelos CAR e SAR são os mais usados. Algumas restri¸cões são necessárias e uma delas é a especifica¸cão adequada da matriz de vizinhan¸ca, que é responsável pela pondera¸cão dos efeitos da vizinhan¸ca. Assumindo dados simulados, os modelos foram bem ajustados com uma análise de sensibilidade satisfatória, assumindo diferentes distribui¸cões a priori para os parâmetros que foram estimados.

Inicialmente e de forma exploratória, para verificar uma poss´ıvel associa¸cão espacial dos dados em uma determinada região, os ´ındices de Moran e Geary foram utilizados. Assim como no mapa coroplético, os resultados dos ´ındices apresentaram um indicativo preliminar de que a hansen´ıase está correlacionada espacialmente.

Considerando os dados de hansen´ıase em 2010, viu-se que as taxas de deteçcão em menores de 15 anos apresentaram uma alta variabilidade sendo necessária uma transforma¸cão dos dados. Mesmo com a transforma¸cão, foi visto que, considerando dados cont´ınuos, os modelos propostos não de adequaram corretamente devido à infla¸cão de zeros. Apesar disso, o ajuste de ambos os modelos apresentou que o IDHM é uma covariável significativa e que há uma rela¸cão entre o parâmetro de autocorrela¸cão espacial com os ´ındices de Moran e Geary.

Palavras-chaves: taxas de hansen´ıase; estat´ıstica espacial; dados de ´area; CAR; SAR; MCMC; inferˆencia bayesiana.

(6)

Dedicat´

oria

“Somos o resultado dos livros que lemos, das viagens que fazemos e das pessoas que amamos.”

(7)

Sum´

ario

Lista de Figuras

Lista de Tabelas

Lista de Abrevia¸c˜oes p. 11

1 Introdu¸c˜ao p. 12

2 Objetivos p. 15

3 Materiais e M´etodos p. 16

3.1 Estat´ıstica Espacial . . . p. 16 3.1.1 Indicadores de Autocorrela¸cão Espacial . . . p. 17 3.1.2 Dados de Área . . . p. 18 3.1.3 Modelo Autorregressivo Condicional - CAR . . . p. 19 3.1.4 Modelo Autorregressivo Simultâneo - SAR . . . p. 20 3.2 Inferência Bayesiana . . . p. 21 3.2.1 MCMC . . . p. 23 3.2.2 Amostrador de Gibbs . . . p. 23 3.2.3 Algoritmo de Metropolis-Hastings . . . p. 24

4 An´alise dos Resultados p. 26

4.1 An´alise Descritiva . . . p. 26 4.2 Indicadores de Autocorrela¸c˜ao Espacial . . . p. 28 4.3 Modelo CAR . . . p. 32

(8)

4.3.1 Estudo Simulado . . . p. 33 4.3.2 Dados de Hansen´ıase . . . p. 35 4.4 Modelo SAR . . . p. 37 4.4.1 Estudo Simulado . . . p. 38 4.4.2 Dados de Hansen´ıase . . . p. 41 5 Conclus˜ao p. 44 Referˆencias p. 46

(9)

Lista de Figuras

1 Taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos por 100 mil

habitantes nos muninc´ıpios do Maranh˜ao em 2010. . . p. 27 2 Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados

simulados do modelo SAR assumindo diferentes valores de ρSAR e uma

região de grade regular contendo 400 subregiões. . . p. 29 3 P-valores dos testes de hipótese dos indicadores para 1000 replica¸cões de

dados simulados do modelo SAR considerando diferentes valores de ρSAR

e uma região de grade regular contendo 400 subregiões. . . p. 30 4 Boxplot dos ´ındices de Moran e Geary para 1000 replica¸cões de dados

simulados do modelo SAR assumindo diferentes valores de ρ e o estado

do Maranhão. . . p. 31 5 P-valores dos testes de hipótese dos indicadores para 1000 replica¸cões de

dados simulados do modelo SAR considerando diferentes valores de ρSAR

e o estado do Maranh˜ao. . . p. 31 6 Tra¸cos das cadeias e histogramas das amostras dos parˆametros utilizando

a Priori 2 com dados simulados. As linhas em verde representam os valores verdadeiros dos parâmetros, já as linhas em vermelho são as estimativas a posteriori dos parâmetros desconhecidos e seus respectivos

intervalos de credibilidade de 95% em cor azul. . . p. 34 7 Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a

posteriori usando o conjunto de dados reais. . . p. 36 8 Dados simulados via modelo SAR para diferentes valores de ρSAR nos

(10)

9 Análise de sensibilidade: estimativas a posteriori dos parâmetros sob diferentes escolhas de hiperparâmetros para a distribui¸cão a priori. A estimativa pontual é dada pela média a posteriori e a intervalar pelo

intervalo HDI de 95%. . . p. 40 10 Tra¸cos das cadeias e histogramas das amostras a posteriori dos

parˆametros utilizando a Priori 2 com dados simulados. . . p. 41 11 Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes

a posteriori usando o conjunto de dados reais e o modelo Modelo

(11)

Lista de Tabelas

1 Análise de sensibilidade: estimativas a posteriori dos parâmetros sob diferentes escolhas de hiperparâmetros para a distribui¸cão a priori. A estimativa pontual é dada pela média a posteriori e a intervalar pelo intervalo de credibilidade de 95%. Os valores verdadeiros dos parâmetros

s˜ao β1 = −0, 5, β2 = 3 e τ = 0, 5. . . p. 34

2 Médias a posteriori e intervalos de credibilidade de 95% para os parâmetros. p. 36 3 Análise de sensibilidade: diferentes escolhas de hiperparâmetros para a

distribui¸c˜ao a priori. . . p. 38 4 M´edias a posteriori e intervalos Highest Density Interval (HDI) de 95%

(12)

11

Lista de Abrevia¸

c˜

oes

CAR Modelo Autorregressivo Condicional MCMC Monte Carlo via cadeias de Markov SAR Modelo Autorregressivo Simultâneo SIG Sistema de Informa¸cão Geográfica

IDHM ´Indice de Desenvolvimento Humano Municipal HDI Highest Density Interval

SINAN Sistema de Informa¸c˜oes de Agravos e Notifica¸c˜oes IBGE Instituto Brasileiro de Geografia e Estat´ıstica

(13)

12

1 Introdu¸

c˜

ao

Dados georreferenciados são aqueles cujas coordenadas que informam sua localiza¸cão, num dado sistema de referência, também são obtidas. Por exemplo, se a quantidade de chuva, a latitude e a longitude desse fenômeno forem observadas, então são chamados de dados georreferenciados. A crescente coleta e armazenamento de dados dessa natureza, nos últimos tempos, têm aperfei¸coado a modelagem de fenômenos em áreas como a Economia, Biologia e Epidemiologia. A estat´ıstica espacial tem como objetivo identificar, analisar e modelar a ocorrência desses fenômenos que se materializam no espa¸co.

Diante da era do “Big Data”, há uma explosão de dados e informa¸cões de diversos tipos em tempo real. De acordo com a IBM - International Business Machines, uma das maiores empresas de informática do mundo, 90% dos dados armazenados atualmente foram produzidos nos últimos dois anos. Uma parcela bastante significativa desses dados são espaciais, permitindo o enriquecimento da análise espacial.

Acompanhando a necessidade de um sistema que integrasse os diversos tipos de dados espaciais, ao longo das décadas de 70 e 80, foi desenvolvido o Sistema de Informa¸cão Geográfica (SIG), do inglês GIS - Geographic Information System, que é um sistema de hardware, um software que permite obter, armazenar, manipular e gerenciar dados espaciais ou geográficos. Alguns componentes que integram o SIG são por exemplo: imagens de satélite, modelos numéricos de terreno, mapas temáticos, redes e dados tabulares. Maiores detalhes podem ser vistos em Câmara e Ortiz (1998) [1].

Dentre tantas áreas que a análise espacial é implementada, a área de Epidemiologia teve suas primeiras contribui¸cões já no século XIX, como por exemplo, o mapeamento das mortes por cólera nos distritos de Paris no ano de 1832 realizado pelo geógrafo francês Charles Picquet [2]. Já o primeiro estudo bem sucedido usando uma metodologia espacial em Epidemiologia foi realizado por John Snow, em 1854, que determinou a origem de um surto também de coléra em Londres por meio de um mapa de padrão de pontos [3].

(14)

1 Introdu¸c˜ao 13

No Brasil, pa´ıs com uma extensa área territorial e diversidade de climas, relevo, etc, muitas doen¸cas com forte dependência espacial ainda persistem e vêm sendo estudadas mais detalhadamente. Uma delas que epidemiologistas brasileiros possuem aten¸cão especial é a hansen´ıase, que ainda afeta muitas pessoas principalmente na região Norte do pa´ıs.

Popularmente conhecida como lepra, a hansen´ıase é uma doen¸ca crônica e infecciosa que afeta a pele e os troncos nervosos periféricos podendo causar úlceras de pernas e pés, caro¸cos no corpo, febre, edemas e dor nas juntas, entupimento, sangramento, ferida e ressecamento do nariz e dos olhos. Sua forma de contágio ocorre por meio do contato com pessoas infectadas com o bacilo Mycobacterium leprae, que não estejam sendo tratadas. Esse bacilo tem a capacidade de infectar um grande número de indiv´ıduos, mas poucos adoecem. Acredita-se também que fatores como condi¸cões de vida e nutri¸cão, insalubridade do ambiente e questões ambientais possam intensificar a propaga¸cão da doen¸ca.

Há relatos de ocorrências da doen¸ca em 600 a.C na Ásia e na África, consideradas o ber¸co da hansen´ıase. Sem recursos médicos nessa época, a doen¸ca se acentuava com graves deforma¸cões f´ısicas nas pessoas contaminadas, levando o paciente a marginaliza¸cão e estigmatiza¸cão social. Devido aos avan¸cos da medicina, introduziu-se o tratamento de poliquimioterapia tornando a doen¸ca curável. Além disso, acredita-se que a redu¸cão da pobreza e o crescimento econômico contribu´ıram para a grande redu¸cão no número de pessoas com hansen´ıase em todo o mundo.

A hansen´ıase apresenta um longo per´ıodo médio de incuba¸cão, de 2 a 7 anos, e o diagnóstico dessa doen¸ca é essencialmente cl´ınico. E, por isso, espera-se que haja poucos indiv´ıduos menores de 15 anos com a doen¸ca diagnosticada. Sendo assim, um número grande de menores doentes pode ser um indicador de problema grave em uma região.

Há ainda algumas regiões consideradas hiperendêmicas. Segundo Who (2012) [4], três pa´ıses são responsáveis por 83% de todos os casos detectados no mundo: Índia (58%), Brasil (16%) e Indonésia (9%). Sendo assim, o Brasil apresenta a maior prevalência na América Latina. Entre as regiões brasileiras, o Norte, Nordeste e Centro-Oeste apresentam as maiores taxas de deteçcão. Dentres os estados, o Maranhão apresenta a maior prevalência, a maior taxa de deteçcão geral e a maior taxa de deteçcão em menores de 15 anos, considerado como hiperendêmico para os padrões do Ministério da Saúde.

Partindo do pressuposto que a região do Maranhão e seus munic´ıpios apresentam altas e diferentes taxas de hansen´ıase, é poss´ıvel analisar espacialmente sua influência com o

(15)

1 Introdu¸c˜ao 14

aux´ılio de dados localmente observados que são acess´ıveis através do SIG, no qual vem se tornando uma grande ferramenta em análises de dados sobre saúde e meio ambiente.

Assim sendo, esse trabalho visa modelar estat´ısticamente as taxas de deteçcão de hansen´ıase no Maranhão em 2010, descrevendo o comportamento probabil´ıstico dessa doen¸ca em indiv´ıduos menores de 15 anos. Para isso, recorreu-se a modelos espaciais. Os parâmetros desconhecidos foram estimados segundo o enfoque bayesiano através dos métodos de Monte Carlo via cadeias de Markov (MCMC).

Esse trabalho está organizado como descrito a seguir. No Cap´ıtulo 2, estão apresentados os objetivos gerais desse trabalho. No Cap´ıtulo 3, define-se os métodos e apresentam-se as revisões bibliográficas de Estat´ıstica Espacial, Inferência Bayesiana e métodos de MCMC. Posteriormente, no Cap´ıtulo 4, estão as análises dos resultados encontrados. E por fim, o Cap´ıtulo 5 finaliza-se o trabalho apresentando as conclusões sobre o estudo.

(16)

15

2 Objetivos

O objetivo geral desse trabalho ´e estudar sobre a modelagem espacial para dados de ´

area. Para isso, propõe-se alguns modelos e analisa-se a capacidade de inferir sobre os parâmetros desconhecidos com base em conjuntos de dados simulados e dados reais. A inferência sobre os parâmetros desconhecidos é realizada sob o enfoque bayesiano.

Os objetivos espec´ıficos s˜ao:

• Estudar os principais indicadores de autocorrela¸c˜ao espacial por meio de dados simulados, considerando uma regi˜ao de grade regular e outra irregular;

• Ajustar os modelos propostos por meio de dados simulados, avaliar a capacidade de estima¸cão dos parâmetros e analisar a sensibilidade quanto a distribui¸cão a priori para diferentes escolhas dos hiperparâmetros;

• Aplicar os dados de hansen´ıase do Maranhão em escala municipal, avaliar descritivamente a dependência espacial da doen¸ca entre as regiões, estimar os parâmetros desconhecidos dos modelos e interpretá-los no contexto do problema.

(17)

16

3 Materiais e M´

etodos

Nesse cap´ıtulo, serão apresentadas revisões bibliográficas a come¸car pela Se¸cão 3.1 sobre Estat´ıstica Espacial, descrevendo os principais tipos de dados espaciais com foco na modelagem em dados de área. Em seguida, na Se¸cão 3.2, uma revisão de Inferência Bayesiana, e logo após, na Se¸cão 3.2.1, os principais métodos de MCMC.

3.1 Estat´ıstica Espacial

Fenômenos observados ao longo do espa¸co são considerados dados espaciais. A estat´ıstica espacial é a área da estat´ıstica que busca descrever ou explicar esses fenômenos relacionando-os com o espa¸co e tem aplica¸cão em diversas áreas tais como Economia, Epidemiologia, Demografia, entre outras.

De acordo com Cressie (1993) [5], dados espaciais podem ser classificados em trˆes grupos: dados de superf´ıcies cont´ınuas (geoestat´ısticos), padr˜ao de pontos e dados de ´

area.

Dados geoestat´ısticos são obtidos quando a variável de interesse ocorre de forma cont´ınua no espa¸co. Apesar de transcorrer de forma constante no espa¸co, observa-se apenas um conjunto finito de localiza¸cões e o aleatório está no atributo medido em cada ponto. O volume pluviométrico em certa região é um exemplo de dados dessa natureza.

Caso o interesse seja modelar a localiza¸cão (desconhecida) de um evento de interesse (conhecido), então os dados são considerados como padrão de pontos. O estudo de acidentes de trânsito em determinada cidade é um exemplo desse grupo e a aleatoriedade nesse caso está no local exato da ocorrência.

Por fim e não menos importante, os dados de área são aqueles agregados em unidades de análises. Dessa forma, é poss´ıvel avaliar a influência da vizinhan¸ca de acordo com a proximidade e analisar seus impactos. Por exemplo: o número de homic´ıdios nos bairros da cidade do Rio de Janeiro. Cada bairro contém um número que representa a quantidade

(18)

3.1 Estat´ıstica Espacial 17

de homic´ıdios que ocorreram em diferentes ruas daquele mesmo bairro. Portanto, nesse tipo de dado a aleatoriedade est´a no valor observado e agregado por regi˜ao.

Em dados epidemiológicos é comum agrupar o número de indiv´ıduos, infectados com uma certa doen¸ca, por bairros ou munic´ıpios, por exemplo. Nesse caso, esses são classificados como dados de área. O objetivo desse trabalho é estudar dados dessa natureza.

3.1.1 Indicadores de Autocorrela¸

c˜

ao Espacial

Quando o interesse está em avaliar a associa¸cão entre duas variáveis aleatórias, geralmente são usados os coeficientes de correla¸cão de Spearman, Pearson, dentre outros. Porém, na ocasião em que uma variável está distribu´ıda espacialmente e deseja-se analisar a similaridade ou dependência espacial entre as regiões, dois dos principais indicadores de autocorrela¸cão espacial mais empregados são, o Índice de Moran e o Índice de Geary, sendo o primeiro o mais utilizado em dados de área.

• ´Indice Global de Moran

Esse ´ındice é calculado comparando-se as diferen¸cas observacionais de cada região com rela¸cão a média global, sendo assim, considerando uma matriz de vizinhan¸ca ou matriz de proximidade espacial W, Banerjee [6] define o Índice Global de Moran como sendo I = n Pn i=1 Pn j=1wij(Zi− ¯Z)(Zj − ¯Z) (P i6=jwij) P i(Zi− ¯Z)2 , (3.1)

onde n é o número de áreas na região de interesse, Zi e Zj são os valores da variável

aleatória nas regiões i e j respectivamente, ¯Z a média amostral global e wij os

elementos da matriz de vizinhan¸ca.

Os valores desse ´ındice podem ser tanto positivos quanto negativos, podendo assumir quaisquer valores no conjunto dos reais R (Waller et al. (2004)) [7]. Contudo, o mais comum são valores no intervalo [−1, 1], em que um valor próximo de zero indica ausência de autocorre¸ca¸cão espacial. Caso exista similaridade entre as regiões mais próximas, espera-sa que o indicador tenda a ser positivo, caso contrário, será negativo.

(19)

• ´Indice de Geary

Esse ´ındice ´e calculado levando em conta a diferen¸ca entre os pares observacionais, de tal forma que possa ser definido como

C = (n − 1) Pn i=1 Pn j=1wij(Zi− Zj) 2 (P i6=jwij) P i(Zi− ¯Z)2 , (3.2)

em que n é o número de áreas na região de interesse, Zi e Zj são os valores

observacionais da variável aleatória nas regiões i e j respectivamente e wij os

elementos da matriz de vizinhan¸ca.

A partir do numerador da Equa¸cão 3.2, percebe-se que jamais o ´ındice de Geary assumirá valores negativos. Considerando o intervalo de [0, 2], valores menores e maiores que 1 indicam correla¸cão espacial positiva e negativa, respectivamente. E logo, resultados próximos de 1 indicam ausência de dependência espacial.

Maiores detalhes desses e de outros indicadores de autocorrela¸c˜ao espacial podem ser vistos em Camara et al. (2004) [8] e Banerjee et al. (2004) [6].

3.1.2 Dados de ´

Area

No contexto de estat´ıstica espacial, os dados de área são observa¸cões obtidas sob uma região de interesse que pode ser dividida em subregiões regulares (de mesmo comprimento e mesma área) ou irregulares (bairros, cidades, distritos, setores censitários, etc). São inúmeros os exemplos para dados dessa natureza tais como: casos de dengue nos bairros da cidade do Rio de Janeiro e vendas de um determinado produto nos munic´ıpios do estado de São Paulo. Usualmente, esses dados correspondem a contagens, taxas, médias, entre outros.

Os principais objetivos de estudo em dados de área são a deteçcão e explica¸cão dos padrões espaciais ou tendências encontradas no fenômeno de interesse. Consequentemente, torna-se válido investigar e analisar a existência de alguma tendência nas observa¸cões de regiões mais próximas serem mais semelhantes do que em observa¸cões em locais mais distantes.

Quando o interesse na modelagem espacial é, por exemplo, relacionar as respostas de uma variável com seus vizinhos, duas especifica¸cões de modelos são mais comuns, são elas: o SAR e o Modelo Autorregressivo Condicional (CAR). Cressie (1993) [5] mostrou que o modelo SAR é um caso espec´ıfico do modelo CAR e que este último é mais comumente

(20)

usado em análise espacial de dados de contagem, devido a facilidade computacional. O modelo CAR é definido a partir da distribui¸cão condicional da variável de interesse numa dada região condicionada na variável de interesse nas demais regiões. Sob a distribui¸cão condicional, é imposta uma rela¸cão autoregressiva, o que motivou o nome do modelo CAR. Para analisar a dependência espacial, obtem-se a distribui¸cão conjunta. O modelo SAR, como o próprio nome induz, é definido a partir da distribui¸cão conjunta da variável de interesse. A estrutura autoregressiva é imposta nessa distribui¸cão.

Comparando algumas propriedades de ambos os modelos e em termos de estima¸cão e interpreta¸cão, o modelo CAR é prefer´ıvel ao SAR (Schmidt et al. (2003) [9]). Uma delas é bastante interessante, a propriedade de que a especifica¸cão do CAR fornece diretamente as distribui¸cões condicionais completas a posteriori dos parâmetros do modelo, fator imprescind´ıvel para o uso do amostrador de Gibbs em métodos de MCMC, que será visto na Se¸cão 3.2.2.

3.1.3 Modelo Autorregressivo Condicional - CAR

Basicamente a ideia do modelo CAR é que a probabilidade do evento de interesse assumir um valor em um local depende do valor desse evento assumido na vizinhan¸ca. Assim, supondo Zi a variável de interesse na região i, o modelo pode ser definido por

Zi = µi+ ρ

X

j∈S−i

bij(Zj− µj) + ei, i = 1, . . . , n, (3.3)

onde S−i = {1, . . . , i − 1, i + 1, . . . , n} ´e o conjunto de ´ındices que representa todas as

regiões excluindo a i-ésima localiza¸cão, n é o número total de regiões, µi é o valor médio

de Zi que n˜ao depende de forma direta dos vizinhos e pode conter, por exemplo, vari´aveis

explicativas espec´ıficas da i-ésima região, ρ é o parâmetro da autocorrela¸cão espacial que determina a dependência da vizinhan¸ca, bij é o efeito do vizinho j na região i e também

pode ser visto como uma pondera¸cão e eié um efeito aleatório independente. Suponha que

esses efeitos sejam independentes e identicamente distribu´ıdos e que possuam a seguinte distribui¸c˜ao normal

ei iid

∼ N (0, Vi). (3.4)

Note que o modelo acima permite que haja fatores locais e da vizinhan¸ca influenciando a variável através das componentes µi e µj, respectivamente, que podem ou não variar

(21)

ponderar a influência do vizinho j na dada região e costuma ser definida através de uma matriz W , comumente conhecida como matriz de vizinhan¸cas, que pode ser representada de diversas formas. Essa matriz indica se as regiões i e j são vizinhas. Para definir isso, pode-se considerar vizinhas se essas regiões dividirem fronteiras ou se elas estiverem no máximo a uma certa distância, por exemplo. Seja Wij o elemento da i-ésima linha e

j-´esima coluna da matriz W , sendo Wij = 1, caso i 6= j e se as ´areas i e j dividem fronteira

e Wij = 0, caso contr´ario. Seja Wi+ =

Pn

j=1Wij o número de vizinhos da i-ésima região.

Sendo assim, considerando bij = Wij

Wi+, tem-se que essa componente pondera o peso do

vizinho j na regi˜ao i.

Através da matriz de covariância de Z = (Z1, . . . , Zn), pode-se avaliar a correla¸cão

entre 2 regi˜oes diferentes. Para isso, assuma que Vi = _WV_i+, sendo V comum a todas as

regiões. Sendo assim, tem-se a seguinte matriz de covariância para a variável Z:

ΣCAR= V AR(Z) = (I − ρW∗)−1V , (3.5)

onde I ´e a matriz identidade de ordem n, W∗´e a matriz formada pelos elementos bij e V

´e uma matriz diagonal formada pelos elementos Vi. Quando ρ = 0, tem-se independˆencia

e que Zi ∼ N (0, V /Wi+). Quando ρ = 1, ´e dito ter um modelo autoregressivo intr´ınseco e

tem-se uma distribui¸cão conjunta imprópria para Z. Pode-se mostrar que se ρ ∈ (−1, 1), então existe a distribui¸cão conjunta de Z e essa possui a seguinte forma

Z ∼ N µ, (I − ρW∗)−1V , (3.6)

sendo µ = (µ1, . . . , µn)

0

.

3.1.4 Modelo Autorregressivo Simultˆ

aneo - SAR

Considere que a vari´avel de interesse Z = (Z1, . . . , Zn)

0

tem a seguinte express˜ao, sob o modelo SAR:

Z = µ + (I − B)−1e, e ∼ N (0, τ−1I), (3.7) onde µ = (µ1, . . . , µn)

0

´

e o conjunto de valores médios da variável de interesse Z que pode depender de covariáveis, n é o número total de regiões, I é a matriz identidade de ordem n, B é uma matriz quadrada de ordem n que será explicada mais adiante, e = (e1, . . . , en)

0

(22)

3.2 Inferˆencia Bayesiana 21

e τ é um escalar correspondendo a um parâmetro de precisão. Dessa forma, tem-se que a distribui¸cão conjunta da variável de interesse é dada da seguinte forma

Z ∼ N (µ, ΣSAR) , (3.8)

onde a matriz de covariˆancia ´e dada por

ΣSAR = (I − B)−1τ−1(I − B)−1 0 = (I − B)−1τ−1h(I − B)0i −1 = (I − B)−1τ−1h(I − B0)i −1 . (3.9)

Existem algumas formas diferentes de definir a matriz B. Neste trabalho, recorreu-se a seguinte estrutura: B = ρSARW∗, sendo ρSAR um parˆametro de autocorrela¸c˜ao espacial

e W∗ a matriz de vizinhan¸ca ponderada, conforme definida na Subse¸c˜ao 3.1.3.

Maiores detalhes sobre os modelos CAR e SAR podem ser vistos em Cressie(1993) [5] e Banerjee et al.(2003) [6].

3.2 Inferˆ

encia Bayesiana

Inferência estat´ıstica consiste em fazer afirma¸cões sobre certa caracter´ıstica de uma popula¸cão com base em um subconjunto dessa popula¸cão chamado de amostra. Sendo assim, considere que θ seja um vetor de parâmetros populacionais desconhecidos de uma popula¸cão de tamanho N . A quantidade θ assume valores no espa¸co paramétrico denotado por Θ.

Seja Zi uma variável aleatória com i sendo o ´ındice de unidade amostral da popula¸cão

e que pode representar, por exemplo, um ind´ıviduo, um instante de tempo ou uma localidade. Suponha que é obtida uma amostra dessa popula¸cão de tamanho n e que haja o interesse em inferir sobre a média e/ou a variância da mesma, representadas por µ e σ2_{, respectivamente. Nesse caso, tem-se que θ = (µ, σ}2₎0 _´_{e o vetor de parˆ}_ametros

desconhecidos.

Para explicar como é realizada a inferência sob a perspectiva bayesiana, faz-se necessário definir alguns termos como fun¸cão de verossimihan¸ca, distribui¸cão a priori e distribui¸cão a posteriori.

(23)

Ao propor um modelo para um conjunto de dados, atribui-se uma fun¸cão de distribui¸cão ou de densidade para a variável aleatória de interesse, Z = (Z1, . . . , Zn)

0

. Denote essa fun¸cão por p(Z|θ). Essa fun¸cão representa a cren¸ca que tem-se sobre a distribui¸cão da variável de interesse considerando conhecido o vetor paramétrico θ. Mas, na prática, esse vetor é desconhecido e deseja-se inferi-lo. Sendo assim, quando uma amostra dessa popula¸cão é aplicada nessa fun¸cão para inferir sobre θ, essa fun¸cão passa a ser chamada de fun¸cão de verossimilhan¸ca e passa a ser denotada por l(θ; z), onde z representa o valor amostrado da variável de interesse.

Em inferência bayesiana, diferentemente da clássica, leva-se em considera¸cão um conhecimento prévio sobre os parâmetros, conhecido como distribui¸cão a priori. Denote essa distribui¸cão por h(θ).

Dessa forma, a inferência sobre θ é dada através da distribui¸cão a posteriori p(θ|z), que pode ser obtida a partir do Teorema de Bayes, combinando a fun¸cão de verossimilhan¸ca com a distribui¸cão a priori, h(θ) e com a distribui¸cão marginal dos dados, p(z), obtendo a seguinte forma

p(θ|z) = l(θ; z)h(θ)

p(z) . (3.10)

A distribui¸c˜ao marginal da vari´avel de interesse pode ser obtida da seguinte forma p(z) = Z . . . Z Θ p(z|θ)h(θ)dθ. (3.11)

Note que a distribui¸cão marginal p(z) não varia com o vetor paramétrico θ. Sendo assim, a distribui¸cão a posteriori do vetor paramétrico é proporcional ao produto da fun¸cão de verossimilhan¸ca e da distribui¸cão a priori. E, por defini¸cão de fun¸cão de densidade, integrando a distribui¸cão a posteriori com respeito a Θ essa integral tem que dar 1. Logo, não faz-se necessário calcular a distribui¸cão marginal p(z) para obter a distribui¸cão a posteriori. E, portanto, essa última pode ser reescrita da seguinte forma

p(θ|z) = kl(θ; z)h(θ), (3.12)

sendo k−1 =R_Θl(θ; z)h(θ)dθ.

Muitas vezes a Equa¸cão 3.12 não possui forma anal´ıtica conhecida. Portanto, para inferir sobre o vetor paramétrico desconhecido θ pode-se obter amostras da distribui¸cão a posteriori recorrendo aos métodos de MCMC. Na se¸cão a seguir, serão apresentados dois desses métodos: o amostrador de Gibbs e o algoritmo de Metropolis-Hastings.

(24)

3.2.1 MCMC

Os métodos de MCMC servem para simular amostras de uma distribui¸cão de interesse p(·) quando essa distribui¸cão possui forma anal´ıtica desconhecida ou é custosa de se amostrar diretamente. Para essa amotragem, é necessário que as cadeias de Markov sejam homogêneas, irredut´ıveis e aper´ıodicas. Diz-se que uma cadeia de Markov é homogênea se a probabilidade de transi¸cão for estacionária, ou seja, se esta probabilidade não depender da itera¸cão. Uma cadeia é irredut´ıvel se para um conjunto finito de itera¸cões e com probabilidade positiva, ela se move de um ponto a outro qualquer. E será aper´ıodica se ela for irredut´ıvel e se nenhum de seus estados seja visitado após n passos com probabilidade menor ou igual a um.

A distribui¸cão a posteriori de um vetor paramétrico costuma ter forma anal´ıtica desconhecida ou dif´ıcil de ser calculada. Sendo assim, para inferir sobre os parâmetros, nesses casos, uma alternativa é recorrer a algum método de simula¸cão de amostras. Este trabalho irá se concentrar em dois dos principais métodos, o amostrador de Gibbs e o Algoritmo de Metropolis-Hastings, aplicados a inferência bayesiana. Para mais detalhes consultar Gamerman e Lopes (2006) [10].

3.2.2 Amostrador de Gibbs

O algoritmo amostrador de Gibbs foi proposto por Geman e Geman (1984) [11] e introduzido a comunidade estat´ıstica por Gelfand e Smith (1990) [12]. Em inferˆencia bayesiana, esse algoritmo consiste basicamente em amostrar a partir das distribui¸c˜oes condicionais completas a posteriori, p(θl | θ1, . . . , θl−1, θl+1, . . . , θp, z), sendo z os valores

observados e θl o l-´esimo vetor param´etrico desconhecido. A componente θl pode ser um

escalar ou um vetor. A ideia é que a distribui¸cão condicional completa a posteriori de θl seja conhecida para ser amostrada. Caso essa distribui¸cão também seja desconhecida,

será necessário recorrer aos passos de Metropolis-Hastings, que será discutido na próxima Subse¸cão.

Os passos desse algoritmo, baseado em sucessivas gera¸c˜oes das distribui¸c˜oes condicionais completas a posteriori, podem ser descritos como:

1. Inicialize o contador em j = 0 e determine valores arbitr´arios para θ(0) = (θ(0)₁ , θ(0)₂ , . . . , θ(0)_p )0.

(25)

2. Modifique o contador de j para j + 1;

3. Obtenha um novo valor para θ(j) a partir de θ(j−1) sequencialmente da forma θ1(j) v p(θ1 | θ (j−1) 2 , . . . , θ (j−1) p , z) θ(j)₂ _{v p(θ}2 | θ (j−1) 1 , θ (j−1) 3 , . . . , θ (j−1) p , z) .. . θ(j)_p _{v p(θ}p | θ (j−1) 1 , θ (j−1) 2 , . . . , θ (j−1) p−1 , z)

4. Repita os passos (2) e (3) at´e que a cadeia convirja.

A convergência das cadeias de Markov é esperada após um número de itera¸cões suficientemente grande e após o per´ıodo de aquecimento (burn-in), que são as itera¸cões necessárias até que a cadeia comece a convergir. Importante salientar que os parâmetros amostrados costumam ser altamente autocorrelacionados, caracter´ıstica das cadeias de Markov, desta forma, utiliza-se um espa¸camento de ordem k em que seleciona-se uma amostra a cada k intera¸cões até que seja corrigida a autocorrela¸cão da cadeia.

3.2.3 Algoritmo de Metropolis-Hastings

O Algoritmo de Metropolis-Hastings foi proposto por Metropolis e outros (1953) [13] e Hastings (1970) [14]. Ele é utilizado quando a distribui¸cão de interesse p(·) não possui forma anal´ıtica conhecida. Portanto, sem conhecer o núcleo ou a classe de distribui¸cões de p(·), não é poss´ıvel amostrar diretamente da distribui¸cão de interesse. Com isso, utiliza-se uma distribui¸cão auxiliar q(·), denominada como distribui¸cão proposta. O algoritmo baseia-se em gerar um valor proposto de q(·) e aceitá-lo na cadeia a partir de uma condi¸cão probabil´ıstica de p(·) e q(·). Sob o ponto de vista bayesiano, o método pode ser explicado pelos seguintes passos:

1. Inicialize o contador de itera¸c˜oes em j = 0 e determine valores arbitr´arios para θ(0); 2. Modifique o contador de j para j + 1;

3. Gere um valor proposto ϕ usando uma distribui¸cão conhecida que pode depender do valor amostrado na itera¸cão anterior e essa distribui¸cão será denotada por q(ϕ | θ(j−1)). Aceite o ponto gerado com probabilidade

α = min ( 1, p(ϕ|z) q(ϕ | θ(j−1)) q(θ(j−1)| ϕ) p(θ(j−1)|z) ) . (3.13)

(26)

Se o valor for aceito, θ(j)= ϕ, caso contr´ario θ(j)= θ(j−1); 4. Repita os passos (2) e (3) at´e que a cadeia convirja.

Os critérios de convergência vistos no amostrador de Gibbs também valem para o algoritmo de Metropolis-Hastings, tais como: per´ıodo de aquecimento (burn-in) e espa¸camento de ordem k.

Uma vez atingida a convergência, torna-se bastante trivial fazer inferência a partir das distribui¸cões a posteriori dos parâmetros de interesse.

Esse algoritmo pode ser utilizado para amostrar de uma distribui¸cão p(·) qualquer e, em particular, da distribui¸cão a posteriori de θ ou da distribui¸cão condicional completa a posteriori descrita na Subse¸cão anterior.

(27)

26

4 An´

alise dos Resultados

Nesse Cap´ıtulo, serão apresentados os principais resultados da modelagem de dados de variáveis aleatórias espaciais via simula¸cão e dados reais. Para aplica¸cão dos dados reais, foram utilizadas as taxas de hansen´ıase no Maranhão por 100 mil habitantes em escala municipal. Considerando as taxas da doen¸ca sendo variáveis cont´ınuas, inicialmente foi proposto um modelo CAR e em seguida um modelo SAR, ambos definidos ao longo da Se¸cão 3.1. Além disso, será apresentado um estudo sobre os Indicadores de Autocorrela¸cão Espacial especificados na Se¸cão 3.1.1.

4.1 An´

alise Descritiva

Os dados foram disponibilizados pelo mestre Paulo Henrique Leal de Sousa que foi orientado pelo professor doutor Iuri da Costa Leite e co-orientado pela professora doutora Patr´ıcia Lusié Velozo da Costa no mestrado profissional em Epidemiologia em Saúde Pública, na Escola Nacional de Saúde Pública Sergio Arouca, na Funda¸cão Oswaldo Cruz, no Rio de Janeiro.

O estado do Maranhão possui 217 mun´ıcipios sendo a cidade de São Lu´ıs a sua capital. A lista completa pode ser consultada no Apêndice A. As informa¸cões referentes a taxa de deteçcão de hansen´ıase foram obtidas a partir do Sistema de Informa¸cões de Agravos e Notifica¸cões (SINAN), que é um instrumento público relevante no combate às principais doen¸cas estudadas no pa´ıs. Já os dados do Índice de Desenvolvimento Humano Municipal (IDHM) no Maranhão, foram adquiridos a partir do último censo demográfico realizado pelo Instituto Brasileiro de Geografia e Estat´ıstica (IBGE) em 2010.

A taxa de deteçcão de hansen´ıase em menores de 15 anos possui classifica¸cões categóricas diferentes da usuais, uma vez que altos ´ındices nessa faixa etária representam combate inadequado da doen¸ca por parte dos orgãos de saúde. Assim, considerando a escala de 100 mil habitantes, a taxa é classificada em: hiperendêmica (≥ 10, 00); muito

(28)

4.1 An´alise Descritiva 27

alta (5, 00 a 9, 99); alta (2, 50 a 4, 99); média (0, 50 a 2, 49); e baixa (< 0, 50) (Revista de Saúde Pública (2017)) [15].

A Figura 1 apresenta as taxas de deteçcão de hansen´ıase para cada munc´ıpio do Maranhão em 2010 de acordo com a classifica¸cão estabelecida desse indicador. Note que as cores predominantes são das categorias baixo e hiperendêmico, ou seja, apesar de muitas regiões apresentarem taxas quase ou totalmente nulas, outras apresentam taxas bastante elevadas. Ademais, percebe-se uma poss´ıvel correla¸cão espacial entre os munic´ıpios pois muitas regiões e sua vizinhan¸ca possuem a mesma classifica¸cão categórica da doen¸ca.

Figura 1: Taxa de deteçcão de hansen´ıase em menores de 15 anos por 100 mil habitantes nos muninc´ıpios do Maranhão em 2010.

Além da análise exploratória dos dados pelo mapa coroplético na figura acima, a correla¸cão espacial entre as regiões pôde ser verificada também por meio dos indicadores de autocorrela¸cão espacial. Verificou-se que há ind´ıcios de correla¸cão espacial positiva entre os munic´ıpios do Maranhão, uma vez que o Índices de Moran e Geary foram aproximadamente 0, 12 e 0, 88 respectivamente. E em ambos os indicadores os testes rejeitaram a hipótese de ausência de depência espacial, evidenciando assim a associa¸cão espacial entre as regiões ao n´ıvel de significância de 5%.

Cerca de 55% das regiões não tiveram registros de infectados por hansen´ıase, tendo taxas nulas. Diversos motivos podem ser avaliados, como por exemplo: regiões pouco povoadas, regiões que não notificam os casos ou até mesmo a migra¸cão de pessoas para as grandes cidades em busca de tratamento.

(29)

4.2 Indicadores de Autocorrela¸c˜ao Espacial 28

4.2 Indicadores de Autocorrela¸

c˜

ao Espacial

Ao analisar dados espaciais, costuma-se ter um forte interesse em medir a dependência espacial. Essa dependência pode ser investigada inicialmente de forma exploratória a partir dos indicadores de autocorrela¸cão espacial vistos na Se¸cão 3.1.1. O modelo SAR possui um parâmetro que descreve a dependência espacial, o ρSAR. Sendo asim, é natural

questionar se há alguma rela¸cão entre os ´ındices de Moran e de Geary com o parâmetro ρSAR, descrito na Se¸cão 3.1.

Para isso foram gerados dados simulados do modelo SAR para diferentes valores de ρSAR e calculado os seus respectivos ´Indices de Moran e Geary associados. Foi criada uma

região de grade regular, de mesma área e comprimento, com dimensão 20x20 e contendo n = 400 subregiões. Considere que µ = Xβ na Equa¸cão (3.7), sendo X uma matriz 400 × 2 com a primeira coluna com todos os elementos unitários e a segunda coluna gerada da seguinte forma Xi2 ∼ U (0, 1). Fixou-se valores arbitrários para os demais

parˆametros, como β = (2, 3) e τ = 0, 5.

Os boxplots na Figura 2 representam o resultado de cada ´ındice para 1000 replica¸cões do modelo. Note que as curvas de ambos os ´ındices se assemelham, uma vez que a medida que aumenta ou diminui o valor do parâmetro em dire¸cão aos extremos, maior é a autocorrela¸cão espacial seja ela positiva ou negativa. Vale destacar a forte correla¸cão de ρSAR nos extremos de ambos os indicadores e a simetria dos resultados em torno de

(30)

Figura 2: Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados simulados do modelo SAR assumindo diferentes valores de ρSAR e uma regi˜ao de grade regular

contendo 400 subregi˜oes.

Além de verificar os valores correspondentes dos ´ındices, é poss´ıvel também avaliar a relevância estat´ıstica desses resultados considerando um certo n´ıvel de significância α. Assim, considere o teste de hipotése em que a hipotése nula, H0, representa a não presen¸ca

de correla¸cão espacial e a hipotése alternativa, H1, caso contrário.

Assumindo α = 5%, a Figura 3 apresenta o resultado dos p-valores dos testes para as 1000 replica¸c˜oes do modelo a partir de diferentes valores de ρSAR para cada ´ındice.

Os valores sob a linha horizontal tracejada retratam os casos em que o teste rejeitou a hipótese nula, ou seja, evidencia-se que há correla¸cão espacial. Note que a medida que o parâmetro aumenta ou diminui, os p-valores diminuem até se manterem estáveis.

(31)

Figura 3: P-valores dos testes de hipótese dos indicadores para 1000 replica¸cões de dados simulados do modelo SAR considerando diferentes valores de ρSAR e uma região de grade

regular contendo 400 subregi˜oes.

Vale lembrar que nos resultados anteriores foi utilizada uma região de grade regular, simulada, de mesma área e comprimento. Já era esperado um comportamento conforme apresentado, uma vez que está sendo utilizado um modelo com estrutura espacial. Diante disso, agora se torna interessante analisar os mesmos resultados aplicando-os a uma grade irregular, retratando uma região mais similar a que ocorre na prática.

Como aplica¸cão, utilizou-se o estado do Maranhão e seus 217 munic´ıpios. Na Figura 4, nota-se o mesmo resultado visto na Figura 2, porém, contendo uma “incerteza”(variabildiade) maior conforme os valores de ρSAR vão aumentando ou

diminuindo. Fatores como regiões com muitos ou poucos vizinhos, número menor de subregiões e dentre outros, podem estar associados a esse comportamento distinto ao utilizar regiões com caracacter´ısticas diferentes.

(32)

Figura 4: Boxplot dos ´ındices de Moran e Geary para 1000 replica¸c˜oes de dados simulados do modelo SAR assumindo diferentes valores de ρ e o estado do Maranh˜ao.

A Figura 5 apresenta os p-valores dos testes de hipótese de correla¸cão espacial considerando o estado do Maranhão e um n´ıvel de significância de 5%. Diferentemente do resultado apresentado na Figura 3, os valores dos testes apresentaram muita incerteza até para ρSAR mais altos que do caso anterior.

Figura 5: P-valores dos testes de hip´otese dos indicadores para 1000 replica¸c˜oes de dados simulados do modelo SAR considerando diferentes valores de ρSAR e o estado do

(33)

4.3 Modelo CAR 32

4.3 Modelo CAR

Considere que Z = (Z1, . . . , Zn)

0

, segue um modelo condicional autoregressivo conforme descrito na Subse¸c˜ao 3.1.2 e dado da seguinte forma

Z ∼ N Xβ, (I − ρW∗)−1V , (4.1)

sendo X chamada de matriz desenho contendo n linhas nas quais cada linha contém K variáveis relacionadas a i-ésima região. Essa matriz pode conter uma coluna de uns para permitir intercepto na modelagem, variáveis explicativas também chamadas de covariáveis, sazonalidade, entre outros. Além disso, considere que β seja um vetor coluna representando os efeitos dessas variáveis na variável resposta, I uma matriz identidade de ordem n, ρ representa o efeito espacial, W∗ sendo uma matriz de ordem n × n formada pelos elementos W_ij∗ = Wij

Wi+, nos quais Wij = 1, para i 6= j e se os munic´ıpios i e j

dividirem a mesma fronteira, e Wij = 0, caso contr´ario, e Wi+ =Pn_j=1Wij sendo o total

de regiões que dividem fronteira com a região i. E V uma matriz diagonal de ordem n formada pelos elementos Vi = _{τ W}1_i+ sendo τ um escalar. Considere que o parâmetro

de autocorrela¸cão espacial em ρ seja conhecido. Sendo assim, tem-se que o vetor de parâmetros desconhecidos desse modelo é θ = (β, τ )0.

Seguindo o enfoque bayesiano, para inferir sobre o vetor paramétrico θ é necessário atribuir uma distribui¸cão a priori para esse vetor. Portanto, considere que β e τ sejam independentes e que possuam as seguintes distribui¸cões

β ∼ N (a; VβI),

τ ∼ Ga(b, c), (4.2)

sendo b_c e _cb2, respectivamente, a média e a variância da distribui¸cão gama.

Portanto, a distribui¸c˜ao a posteriori ´e dada pela seguinte forma

p(θ|Z) ∝ p(Z|θ)p(β)p(τ ), (4.3)

sendo p(Z|θ) a fun¸cão de densidade da distribui¸cão dada pela Equa¸cão (4.1). Essa distribui¸cão a posteriori não possui forma anal´ıtica conhecida e amostras podem ser obtidas através dos métodos de MCMC. Conforme descrito na Se¸cão 3.2.1, faz-se então

(34)

4.3 Modelo CAR 33

necessário obter as distribui¸cões condicionais completas a posteriori do vetor paramétrico β. Dessa forma, tem-se as seguintes distribui¸cões

β | τ, ρ, z ∼ NVp[X 0 (I − ρW∗)V−1Z + V_β−1Ia] ; Vp = [X 0 (I − ρW∗)V−1X + V_β−1I]−1, τ | β, ρ, z ∼ Ga n 2 + b ; 1 2(Z − Xβ) 0 (I − ρW∗)V∗(Z − Xβ) + c ,

onde V∗ ´e uma matriz diagonal de ordem n formada pelos elementos Vii = _W1_i+.

4.3.1 Estudo Simulado

Para verificar a capacidade de estima¸cão dos parâmetros e analisar a sensibilidade da modelagem quanto a distribui¸cão a priori, aplicou-se o modelo proposto a um conjunto de dados simulados, fixando valores arbitrários para os parâmetros desconhecidos. Suponha que a matriz desenho possui um intercepto e uma variável explicativa com os seguintes valores β0 = (−0, 5 ; 3), sendo Xi1= 1 e Xi2∼ U (0, 1). Além disso, considere que há

uma alta correla¸c˜ao espacial assumindo ρ = 0, 999 e precis˜ao τ = 0, 5.

Com o intuito de analisar a sensibilidade do modelo quanto a distribui¸cão a priori, ajustou-se os dados simulados considerando diferentes escolhas para os hiperparâmetros da distribui¸cão. As escolhas foram realizadas de forma que ora tivesse uma distribui¸cão a priori informativa e ora fosse menos informativa. Uma das formas utilizadas para transformar uma distribui¸cão informativa em não informativa é aumentar a variabilidade dessa distribui¸cão.

Sendo assim, visando a análise de sensibilidade, a Tabela 1 apresenta as estimativas pontuais, obtidas pelas médias a posteriori, e as intervalares, obtidas pelos intervalos de credibilidade de 95% a posteriori, sob diferentes escolhas para os hiperparâmetros da distribui¸cão a priori. Repare que, mesmo aumentando a variância de Vβ, as estimativas

dos parˆametros a posteriori se mantiveram pr´oximas. Por isso, evidenciou-se que o modelo foi bem ajustado.

(35)

4.3 Modelo CAR 34

Tabela 1: Análise de sensibilidade: estimativas a posteriori dos parâmetros sob diferentes escolhas de hiperparâmetros para a distribui¸cão a priori. A estimativa pontual é dada pela média a posteriori e a intervalar pelo intervalo de credibilidade de 95%. Os valores verdadeiros dos parâmetros são β1 = −0, 5, β2 = 3 e τ = 0, 5.

Hiperparˆametros Estimativas a posteriori

a Vβ b c β1 β2 τ Priori 1 (0 ; 0) 500 2 0,5 -0,5993 3,0273 0,5768 (-3,0150 ; 1,7799) (2,7764 ; 3,2921) (0,4752 ; 0,6925) Priori 2 (0 ; 0) 100 0,1 0,1 -0,5652 3,0280 0,5689 (-3,0097 ; 1,7976) (2,7631 ; 3,2850) (0,4611 ; 0,6769) Priori 3 (0 ; 0) 50 1 0,2 -0,6233 3,0219 0,5750 (-2,9380 ; 1,6575) (2,7543 ; 3,2716) (0,4627 ; 0,6891) Priori 4 (0 ; 0) 25 1 0,1 -0,6056 3,0208 0,5753 (-2,8866 ; 1,6396) (2,7533 ; 3,2703) (0,4631 ; 0,6896)

Foram realizadas 11.000 itera¸cões, com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori não correlacionadas de tamanho 1.000. A Figura 6 mostra a convergência das cadeias dos parâmetros e também seus histogramas a posteriori utilizando a Priori 2 definida na Tabela 1. As linhas em verde representam os valores verdadeiros dos parâmetros, já as linhas em vermelho são as estimativas a posteriori dos parâmetros desconhecidos e seus respectivos intervalos de credibilidade de 95% em cor azul. Note que há ind´ıcios de convergência, que as médias a posteriori (estimativas pontuais) ficaram próximas dos valores verdadeiros e os intervalos contemplaram os valores verdadeiros.

Figura 6: Tra¸cos das cadeias e histogramas das amostras dos parâmetros utilizando a Priori 2 com dados simulados. As linhas em verde representam os valores verdadeiros dos parâmetros, já as linhas em vermelho são as estimativas a posteriori dos parâmetros desconhecidos e seus respectivos intervalos de credibilidade de 95% em cor azul.

(36)

4.3 Modelo CAR 35

4.3.2 Dados de Hansen´ıase

Como foi visto na Se¸cão 4.1, mais da metade dos mun´ıcipios do estado do Maranhão apresentaram taxas de hansen´ıase iguais a zero no ano de 2010. Isso implica diretamente na modelagem podendo prejudicar consideravelmente na estima¸cão dos parâmetros desconhecidos do modelo. Como alternativa, foi feita uma transforma¸cão logar´ıtmica da variável resposta para tentar reduzir a variabilidade dos dados e tentar ajustar adequadamente obtendo um resultado mais satisfatório.

Seja Z_i∗ a taxa de doentes menores de 15 anos diagnosticados com hansen´ıase na regi˜ao i, por 100.000 habitantes. Considere que Z = (Z1, . . . , Zn)

0

, sendo Zi =

log(Z_i∗ + 0, 1), segue um modelo condicional autoregressivo conforme descrito na Se¸cão 3.1, com intercepto e uma variável explicativa. Utilizou-se como variável explicativa o IDHM em 2010 de cada munic´ıpio do Maranhão. Além disso, considerando que há uma alta correla¸cão espacial assumiu-se ρ = 0, 999.

Como não há cren¸ca sob os parâmetros desconhecidos, considere a priori que β e τ são independentes e que possuem as seguintes distribui¸cões

β ∼ N (0; 100I),

τ ∼ Ga(0, 1; 0, 1), (4.4)

sendo 0 = (0, 0)0.

Foram gerados 11.000 valores com burn-in de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori não correlacionadas de tamanho 1.000. Para a estimativa dos parâmetros desconhecidos, foram utilizadas a média a posteriori e intervalos de credibilidade de 95%.

A Figura 7 mostra a convergência das cadeias dos parâmetros e os histogramas das distribui¸cões a posteriori. Note que parece ter havido convergência.

(37)

4.3 Modelo CAR 36

Figura 7: Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a posteriori usando o conjunto de dados reais.

A Tabela 2 apresenta as estimativas e os intervalos de credibilidade a posteriori dos parˆametros estimados.

Tabela 2: M´edias a posteriori e intervalos de credibilidade de 95% para os parˆametros.

Parˆametros β1 β2 τ

Priori 2 -8,4525 15,1894 0,0306

(-18,0569 ; 1,6520) (11,5084 ; 19,3378) (0,0254 ; 0,0365)

A partir das estimativas dos parâmetros na Tabela 2, verificou-se que quão maior for o IDHM, maior deverá ser a taxa de deteçcão de hansen´ıase nos munic´ıpios do Maranhão. Resultado esse nada trivial, uma vez que esse indicador representa desenvolvimento humano nas áreas de educa¸cão, saúde e renda. Como argumenta¸cão inicial, essa rela¸cão pode estar associada, por exemplo, à subnotifica¸cão diferenciada segundo os munic´ıpios onde pessoas oriundas de regiões com baixos IDHM são notificadas nos grandes centros urbanos onde apresentam ´ındices de desenvolvimento mais elevados.

Verificou-se também grandes aplitudes nos intervalos de credibilidade de 95% para os parâmetros estimados. Isso está relacionado principalmente devido os dados inflacionados em zero que impactam diretamente nesses resultados, mesmo após a transforma¸cão proposta na variável de interesse.

Inicialmente foi utilizado o modelo CAR no ajuste e estima¸cão dos parâmetros do modelo espacial fixando um das componentes. Contudo, ao tentar ajustar o mesmo modelo assumindo o parâmetro de autocorrela¸cão espacial ρ desconhecido, encontrou-se problemas na sua amostragem.

(38)

4.4 Modelo SAR 37

4.4 Modelo SAR

Assuma que Z = (Z1, . . . , Zn)

0

, segue um modelo autorregressivo simultˆaneo conforme descrito na Subse¸c˜ao 4.4 e definido da seguinte forma

Z ∼ N Xβ,1 τ [(I − ρSARW ∗ )(I − ρSARW∗)0] −1 . (4.5)

sendo Xβ o produto entre a matriz desenho contendo n linhas nas quais cada linha contém K variáveis relacionadas a i-ésima região e o vetor coluna representando os efeitos dessas variáveis na variável resposta, I uma matriz identidade de ordem n, ρ o efeito espacial, W∗ sendo uma matriz de ordem n × n formada pelos elementos W_ij∗ = Wij

Wi+, nos

quais Wij = 1, se as regi˜oes i e j dividem a mesma fronteira, e Wij = 0, caso contr´ario,

e Wi+ = Pn_j=1Wij sendo o total de regi˜oes que dividem fronteira com a regi˜ao i. E τ

a precisão do modelo. Por conta disso, tem-se que o vetor de parâmetros desconhecidos desse modelo é θ = (β, τ, ρSAR)0.

Acompanhando o enfoque bayesiano, para inferir sobre o vetor paramétrico θ é necessário atribuir uma distribui¸cão a priori para o mesmo. Portanto, considere que β, τ e ρ sejam independentes e que possuam as seguintes distribui¸cões

β ∼ N (a; VβI),

τ ∼ Ga(b, c),

ρ ∼ U (d, e), (4.6)

sendo b_c e _cb2, respectivamente, a média e a variância da distribui¸cão gama.

Dessa forma, tem-se que a distribui¸c˜ao a posteriori ´e dada pela seguinte forma

p(θ|Z) ∝ p(Z|θ)p(β)p(τ )p(ρ), (4.7)

sendo p(Z|θ) a fun¸cão de densidade da distribui¸cão dada pela Equa¸cão (4.1). Essa distribui¸cão a posteriori não possui forma anal´ıtica conhecida e amostras podem ser obtidas através dos métodos de MCMC. Conforme descrito na Se¸cão 3.2.1, faz-se então necessário obter as distribui¸cões condicionais completas a posteriori do vetor paramétrico θ. Assim, tem-se as seguintes distribui¸cões.

β | τ, ρSAR, z ∼ N Vp[X 0 τ QZ + V_β−1Ia] ; Vp = [X 0 τ QX + V_β−1I]−1, τ | θ, ρSAR, z ∼ Ga n 2 + b ; 1 2(Z − Xβ) 0 Q(Z − Xβ) + c ,

(39)

4.4 Modelo SAR 38

onde Q = [(I − ρSARW∗)(I − ρSARW∗)0].

A distribui¸cão condicional completa do parâmetro ρSAR não apresentou forma

anal´ıtica fechada e conhecida, sendo necessária assim a utiliza¸cão do algoritmo de Metropolis Hastings para estimá-lo. Dessa forma, especificou-se uma distribui¸cão proposta para esse parâmetro que segue uma normal truncada no intervalo [−1, 1], de tal forma que

q(ρ) ∼ N T (ρ(i−1), 0, 252 ; −1, 1) ,

onde ρi−1 _´_{e o valor do parˆ}_{ametro na intera¸c˜}_{ao anterior do algoritmo.}

4.4.1 Estudo Simulado

Aplicou-se o modelo SAR proposto a um conjunto de dados simulados e analisou-se a analisou-sensibilidade da modelagem quanto a diferentes escolhas para os hiperparâmetros da distribui¸cão a priori, com o intuito de verificar a capacidade de estima¸cão dos parâmetros. As escolhas foram realizadas de forma que ora tivesse uma distribui¸cão a priori informativa e ora tivesse menos informativa. Uma das formas utilizadas para transformar uma distribui¸cão informativa em não informativa é aumentar a variabilidade dessa distribui¸cão. Sendo assim, visando essa análise, a Tabela 3 apresenta as distribui¸cões utilizadas.

Tabela 3: Análise de sensibilidade: diferentes escolhas de hiperparâmetros para a distribui¸cão a priori.

a Vβ b c d e

Priori 1 (0 ; 0) 1000 0,1 0,1 -1 1

Priori 2 (0 ; 0) 100 2 0,5 -1 1

Priori 3 (0 ; 0) 10 16 4 -1 1

Para a simula¸cão dos dados, foram fixados valores arbitrários para os parâmetros desconhecidos do modelo. Suponha que a média do processo seja formada por uma matriz desenho com um intercepto, uma variável explicativa e os seguintes valores β0 = (2 ; 3) e τ = 0, 5, sendo Xi1 = 1 e Xi2∼ U (0, 1). Para o parâmetro ρ, fixou-se três valores, 0, 1,

0, 3 e 0, 7, com o objetivo de analisar o comportamento da an´alise de sensibilidade dos hiperparˆametros do modelo.

(40)

4.4 Modelo SAR 39

A Figura 8 apresenta os dados simulados a partir de uma baixa e moderada/alta correla¸c˜ao espacial entre os munic´ıpios do estado do Maranh˜ao.

(a) ρ = 0, 1 (b) ρ = 0.7

Figura 8: Dados simulados via modelo SAR para diferentes valores de ρSAR nos munic´ıpios

do Maranh˜ao.

A Figura 9 apresenta as estimativas pontuais, obtidas pelas médias a posteriori sob diferentes escolhas para os hiperparâmetros da distribui¸cão a priori e seus respectivos intervalos de alta densidade a posteriori, abreviados aqui por HDI, que são bastante usados em análises bayesianas (Turkkan et al. 1993) [16]. As linhas tracejadas horizontamente representam os valores verdadeiros fixados para β e τ . Repare que, mesmo diminuindo a variância de Vβ, as estimativas dos parâmetros a posteriori se mantiveram próximas e com

os intervalos contendo o valor verdadeiro fixado, com exce¸cão da Priori 3 no parâmetro τ . Isso se deve ao fato da média alta e variância pequena na distribui¸cão da precisão. Já no parâmetro ρSAR, o “x”representa o valor fixado para cada um dos casos. Note que o

(41)

4.4 Modelo SAR 40

Figura 9: Análise de sensibilidade: estimativas a posteriori dos parâmetros sob diferentes escolhas de hiperparâmetros para a distribui¸cão a priori. A estimativa pontual é dada pela média a posteriori e a intervalar pelo intervalo HDI de 95%.

Foram realizadas 11.000 itera¸cões, com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori não correlacionadas de tamanho 1.000. A Figura 10 mostra a convergência das cadeias dos parâmetros e também seus histogramas a posteriori utilizando a Priori 2 definida na Tabela 3 e considerando ρ = 0, 7. As linhas tracejadas representam os valores verdadeiros dos parâmetros, já as linhas trajecadas mais fracamente são as estimativas dos intervalos HDI a posteriori de 95%. Note que há ind´ıcios de convergência, que as médias a posteriori (estimativas pontuais) ficaram próximas dos valores verdadeiros e os intervalos contemplaram os mesmos.

(42)

4.4 Modelo SAR 41

Figura 10: Tra¸cos das cadeias e histogramas das amostras a posteriori dos parˆametros utilizando a Priori 2 com dados simulados.

4.4.2 Dados de Hansen´ıase

Como já mencionado na Se¸cão 4.1, mais da metade dos mun´ıcipios do estado do Maranhão apresentaram taxas de hansen´ıase iguais a zero no ano de 2010. Fato esse que implica diretamente na modelagem podendo prejudicar substancialmente na estima¸cão dos parâmetros desconhecidos do modelo. Como alternativa, novamente foi realizada uma transforma¸cão da variável resposta para diminuir a variabilidade dos dados e tentar obter um resultado mais satisfatório no ajuste.

Considere Z_i∗ a taxa da doen¸ca em menores de 15 anos diagnosticados na regi˜ao i, por 100.000 habitantes. Admita que Z = (Z1, . . . , Zn)

0

, em que Zi = log(Zi∗+ 0, 1), segue

um modelo autoregressivo simultâneo conforme descrito na Se¸cão 3.1, com intercepto e uma variável explicativa. Utilizou-se como variável explicativa o IDHM em 2010 de cada munic´ıpio do Maranhão.

Assumindo a análise de sensibilidade anterior satisfatória, optou-se em escolher a priori 2 na aplica¸cão dos dados reais um vez que o modelo se ajustou corretamente para diferentes prioris. Sendo assim, assuma que

β ∼ N (0; 100I), τ ∼ Ga(2; 0, 5),

(43)

4.4 Modelo SAR 42

sendo 0 = (0, 0)0.

Foram gerados 11.000 valores com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori não correlacionadas de tamanho 1.000. Para a estimativa dos parâmetros desconhecidos, foram utilizadas a média a posteriori e intervalos HDI de 95%. A Figura 11 apresenta a convergência das cadeias dos parâmetros e os histogramas das distribui¸cões a posteriori.

Figura 11: Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a posteriori usando o conjunto de dados reais e o modelo SAR.

A Tabela 2 apresenta as estimativas e os intervalos HDI a posteriori dos parˆametros estimados do modelo SAR aplicado aos dados reais.

Tabela 4: M´edias a posteriori e intervalos HDI de 95% para os parˆametros.

β1 β2 τ ρSAR

Priori 2 -8,1888 14,3357 0,1510 0,2540

(-12,5041 ; -3,9518) (7,0572 ; 21,7918) (0,1226 ; 0,1765) (0,0829 ; 0,4272)

Com base nas estimativas dos parâmetros apresentadas Tabela 4, verificou-se que quão maior for o IDHM, maior deverá ser a taxa de deteçcão de hansen´ıase em menores de 15 anos nos munic´ıpios do Maranhão. Resultado esse não muito esperado, dado que esse indicador representa desenvolvimento humano nas áreas de educa¸cão, saúde e renda. Como hipótese inicial, essa rela¸cão pode estar associada, por exemplo, à subnotifica¸cão diferenciada segundo os munic´ıpios onde pessoas oriundas de regiões com baixos IDHM são notificadas nos grandes centros urbanos onde apresentam ´ındices de desenvolvimento

(44)

4.4 Modelo SAR 43

mais elevados. E dessa vez o intervalo HDI para β1 n˜ao cont´em o 0, resultado que esse

parˆametro ´e significante para esse modelo especificamente.

Note que a estimativa pontual para o parˆametro de autocorrela¸c˜ao espacial foi de ρSAR = 0, 25 e sabendo que os ´ındices de Moran e Geary foram respectivamente 0, 11

e 0, 88, percebe-se que há uma associa¸cão entre esses valores, uma vez já verificado no estudo simulado na Se¸cão 4.2. Como prova disso, aplicou-se a estimativa de ρSAR a 1.000

replica¸cões de dados simulados via o modelo SAR e calculado os indicadores. As médias dos ´ındices foram 0, 09 para o I de Moran e 0, 90 para o C de Geary, valores bem próximos aos verdadeiros usando os dados reais de hansen´ıase.

(45)

44

5 Conclus˜

ao

O interesse desse trabalho estava na modelagem espacial de dados de ´area sob a perspectiva bayesiana. Para isso, recorreu-se aos modelos CAR e SAR tradicionalmente usados para esse tipo de dados.

Para estudar sobre os parâmetros que medem a dependência espacial, gerou-se um conjunto de dados simulados e comparou-se os ´ındices de Moran, o de Geary e o parâmetro de correla¸cão espacial do modelo SAR. A partir dos resultados, verificou-se que há ind´ıcios desses parâmetros serem correlacionados e apropriados para verificarem a dependência espacial.

Para verificar o procedimento de inferência, gerou-se um conjunto de dados simulados e estimou-se os parâmetros desse conjunto. A análise de sensibilidade da distribui¸cão a priori se comportou de forma satisfatória e os parâmetros foram bem estimados mesmo sob diferentes escolhas dos hiperparâmetros em ambos os modelos.

Em seguida, analisou-se um conjunto de dados reais, que correspondeu a uma transforma¸cão das taxas de hansen´ıase. A partir de uma análise exploratória dos dados e pelos ´ındices de Moran e de Geary, foi poss´ıvel verificar que as taxas de deteçcão de hansen´ıase em menores de 15 anos apresentaram correla¸cão espacial, ou seja, a taxa de determinada região é influenciada pelas taxas de sua vizinhan¸ca. Ademais, através dos modelos apresentados e suas covariáveis associadas, verificou-se que o IDHM foi uma covariável significativa, porém indicou que regiões com maiores ´ındices de desenvolvimento humano tendem a ter maiores taxas da doen¸ca.

Os modelos propostos servem para variáveis respostas cont´ınuas que assumem valores na reta. As taxas de hansen´ıase são não-negativas. Para levar essas taxas na reta e diminuir a variabildiade dos dados, aplicou-se uma fun¸cão logar´ıtmica. Porém, há muitas taxas nulas indicando que a variável resposta é mista mesmo com a transforma¸cão utilizada. Problema esse que pode influenciar negativamente na estimativa e no intervalo de credibilidade dos parâmetros dos modelos.

(46)

5 Conclus˜ao 45

Consequentemente, fica como trabalhos futuros a utiliza¸c˜ao de modelos mais adequados aos dados de hansen´ıase, levando em considera¸c˜ao principalmente a grande quantidade de taxas iguais a zero.

(47)

46

Referˆ

encias

[1] C ÂMARA, G.; ORTIZ, M. J. Sistemas de informa¸cão geográfica para aplica¸cões ambientais e cadastrais: uma visão geral. In: CONGRESSO BRASILEIRO DE ENGENHARIA AGRICOLA. [S.l.: s.n.], 1998. v. 27, p. 59–82.

[2] CH ÂTEAUNEUF, L.-F. B. D. Rapport sur la marche et les effets du choléra-morbus dans Paris et les communes rurales du département de la Seine, par la commission nommée... année 1832. [S.l.]: Imprimerie royale, 1834.

[3] SNOW, J. The cholera near golden-square, and at deptford. Medical Times and Gazette, v. 9, p. 321–322, 1854.

[4] ORGANIZATION, W. H. Weekly epidemiological record relevé épidémiologique hebdomadaire. Weekly Epidemiological Record, v. 34, p. 317–28, 2012.

[5] CRESSIE, N. A. C. Statistics for Spatial Data. [S.l.]: John Wiley & Sons, 1993. [6] BANERJEE, S.; GELFAND, A. E.; CARLIN, B. P. Hierarchical Modeling and

Analysis for Spatial Data. [S.l.]: Chapman & Hall/CRC, 2003.

[7] WALLER, L. A.; GOTWAY, C. A. Applied spatial statistics for public health data. [S.l.]: John Wiley & Sons, 2004.

[8] C ÂMARA, G. et al. Análise espacial de áreas. Análise espacial de dados geográficos, Empresa Brasileira de Pesquisa Agropecuária Bras´ılia, v. 2, 2004.

[9] SCHMIDT, A. M.; NOBRE, A. A.; FERREIRA, G. S. Alguns aspectos da modelagem de dados espacialmente referenciados. Rio de Janeiro, 2003.

[10] GAMERMAN, D.; LOPES, H. F. Markov chain Monte Carlo: stochastic simulation for Bayesian inference. [S.l.]: CRC Press, 2006.

[11] GEMAN, S.; GEMAN, D. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. IEEE Transactions on pattern analysis and machine intelligence, IEEE, n. 6, p. 721–741, 1984.

[12] GELFAND, A. E.; SMITH, A. F. M. Samping-based approaches to calculating marginal densities. Journal of the American Statistical Association, v. 85, n. 410, p. 398–409, 1990.

[13] METROPOLIS, N. et al. Equation of state calculations by fast computing machines. The journal of chemical physics, AIP, v. 21, n. 6, p. 1087–1092, 1953.

[14] HASTINGS, W. K. Monte Carlo sampling methods using Markov chains and their applications. Biometrika, v. 57, p. 97–109, 1970.

(48)

Referˆencias 47

[15] FREITASI, B. H. B. M. de et al. Tendência da hansen´ıase em menores de 15 anos em mato grosso (brasil), 2001-2013. Rev Saúde Pública, SciELO Public Health, v. 51, p. 28, 2017.

[16] TURKKAN, N.; PHAM-GIA, T. Computation of the highest posterior density interval in bayesian analysis. Journal of statistical computation and simulation, Taylor & Francis, v. 44, n. 3-4, p. 243–250, 1993.

(49)

48

APˆ

ENDICE A -- Munic´ıpios do Estado do

Maranh˜

ao

A¸cailândia, Afonso Cunha, Agua Doce do Maranhão, Alcântara, Aldeias Altas, Altamira do Maranhão, Alto Alegre do Maranhão, Alto Alegre do Pindaré, Alto Parna´ıba, Amapá do Maranhão, Amarante do Maranhão, Anajatuba, Anapurus, Apicum-Acu, Araguanã, Araioses, Arame, Arari, Axixá, Bacabal, Bacabeira, Bacuri, Bacurituba, Balsas, Barão de Grajau, Barra do Corda, Barreirinhas, Bela Vista do Maranhão, Belágua, Benedito Leite, Bequimão, Bernardo do Mearim, Boa Vista do Gurupi, Bom Jardim, Bom Jesus das Selvas, Bom Lugar, Brejo de Areia, Brejo, Buriti Bravo, Buriti, Buriticupu, Buritirana, Cachoeira Grande, Cajapió, Cajari, Campestre do Maranhão, Candido Mendes, Cantanhede, Capinzal do Norte, Carolina, Carutapera, Caxias, Cedral, Central do Maranhão, Centro Novo do Maranhão, Centro do Guilherme, Chapadinha, Cidelândia, Codó, Coelho Neto, Colinas, Concei¸cão do Lago-Acu, Coroatá, Cururupu, Davinópolis, Dom Pedro, Duque Bacelar, Esperantinópolis, Estreito, Feira Nova do Maranhão, Fernando Falcão, Formosa da Serra Negra, Fortaleza dos Nogueiras, Fortuna, Godofredo Viana, Goncalves Dias, Governador Archer, Governador Edison Lobão, Governador Eugenio Barros, Governador Luiz Rocha, Governador Newton Bello, Governador Nunes Freire, Gra¸ca Aranha, Grajau, Guimaraes, Humberto de Campos, Icatu, Igarapé Grande, Igarapé do Meio, Imperatriz, Itaipava do Grajau, Itapecuru Mirim, Itinga do Maranhão, Jatobá, Jenipapo dos Vieiras, Joao Lisboa, Joselândia, Junco do Maranhão, Lago Verde, Lago da Pedra, Lago do Junco, Lagoa Grande do Maranhão, Lagoa do Mato, Lagoa dos Rodrigues, Lajeado Novo, Lima Campos, Loreto, Lu´ıs Domingues, Magalhaes de Almeida, Maraca¸cumé, Marajá do Sena, Maranhãozinho, Mata Roma, Matinha, Matões do Norte, Matões, Milagres do Maranhão, Mirador, Miranda do Norte, Mirinzal, Mon¸cão, Montes Altos, Morros, Nina Rodrigues, Nova Colinas, Nova Iorque, Nova Olinda do Maranhão, Olho d’Agua das Cunhas, Olinda Nova do Maranhão, Paco do Lumiar, Palmeirândia, Paraibano, Parnarama, Passagem Franca, Pastos Bons, Paulino Neves, Paulo Ramos, Pedreiras, Pedro do Rosário, Penalva, Peri Mirim, Peritoró, Pindaré Mirim, Pinheiro, Pio