4.4
Modelo SAR
Assuma que Z = (Z1, . . . , Zn)
0
, segue um modelo autorregressivo simultˆaneo conforme descrito na Subse¸c˜ao 4.4 e definido da seguinte forma
Z ∼ N Xβ,1 τ [(I − ρSARW ∗ )(I − ρSARW∗)0] −1 . (4.5)
sendo Xβ o produto entre a matriz desenho contendo n linhas nas quais cada linha cont´em K vari´aveis relacionadas a i-´esima regi˜ao e o vetor coluna representando os efeitos dessas vari´aveis na vari´avel resposta, I uma matriz identidade de ordem n, ρ o efeito espacial, W∗ sendo uma matriz de ordem n × n formada pelos elementos Wij∗ = Wij
Wi+, nos
quais Wij = 1, se as regi˜oes i e j dividem a mesma fronteira, e Wij = 0, caso contr´ario,
e Wi+ = Pnj=1Wij sendo o total de regi˜oes que dividem fronteira com a regi˜ao i. E τ
a precis˜ao do modelo. Por conta disso, tem-se que o vetor de parˆametros desconhecidos desse modelo ´e θ = (β, τ, ρSAR)0.
Acompanhando o enfoque bayesiano, para inferir sobre o vetor param´etrico θ ´e necess´ario atribuir uma distribui¸c˜ao a priori para o mesmo. Portanto, considere que β, τ e ρ sejam independentes e que possuam as seguintes distribui¸c˜oes
β ∼ N (a; VβI),
τ ∼ Ga(b, c),
ρ ∼ U (d, e), (4.6)
sendo bc e cb2, respectivamente, a m´edia e a variˆancia da distribui¸c˜ao gama.
Dessa forma, tem-se que a distribui¸c˜ao a posteriori ´e dada pela seguinte forma
p(θ|Z) ∝ p(Z|θ)p(β)p(τ )p(ρ), (4.7)
sendo p(Z|θ) a fun¸c˜ao de densidade da distribui¸c˜ao dada pela Equa¸c˜ao (4.1). Essa distribui¸c˜ao a posteriori n˜ao possui forma anal´ıtica conhecida e amostras podem ser obtidas atrav´es dos m´etodos de MCMC. Conforme descrito na Se¸c˜ao 3.2.1, faz-se ent˜ao necess´ario obter as distribui¸c˜oes condicionais completas a posteriori do vetor param´etrico θ. Assim, tem-se as seguintes distribui¸c˜oes.
β | τ, ρSAR, z ∼ N Vp[X 0 τ QZ + Vβ−1Ia] ; Vp = [X 0 τ QX + Vβ−1I]−1, τ | θ, ρSAR, z ∼ Ga n 2 + b ; 1 2(Z − Xβ) 0 Q(Z − Xβ) + c ,
4.4 Modelo SAR 38
onde Q = [(I − ρSARW∗)(I − ρSARW∗)0].
A distribui¸c˜ao condicional completa do parˆametro ρSAR n˜ao apresentou forma
anal´ıtica fechada e conhecida, sendo necess´aria assim a utiliza¸c˜ao do algoritmo de Metropolis Hastings para estim´a-lo. Dessa forma, especificou-se uma distribui¸c˜ao proposta para esse parˆametro que segue uma normal truncada no intervalo [−1, 1], de tal forma que
q(ρ) ∼ N T (ρ(i−1), 0, 252 ; −1, 1) ,
onde ρi−1 ´e o valor do parˆametro na intera¸c˜ao anterior do algoritmo.
4.4.1
Estudo Simulado
Aplicou-se o modelo SAR proposto a um conjunto de dados simulados e analisou- se a sensibilidade da modelagem quanto a diferentes escolhas para os hiperparˆametros da distribui¸c˜ao a priori, com o intuito de verificar a capacidade de estima¸c˜ao dos parˆametros. As escolhas foram realizadas de forma que ora tivesse uma distribui¸c˜ao a priori informativa e ora tivesse menos informativa. Uma das formas utilizadas para transformar uma distribui¸c˜ao informativa em n˜ao informativa ´e aumentar a variabilidade dessa distribui¸c˜ao. Sendo assim, visando essa an´alise, a Tabela 3 apresenta as distribui¸c˜oes utilizadas.
Tabela 3: An´alise de sensibilidade: diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori.
a Vβ b c d e
Priori 1 (0 ; 0) 1000 0,1 0,1 -1 1
Priori 2 (0 ; 0) 100 2 0,5 -1 1
Priori 3 (0 ; 0) 10 16 4 -1 1
Para a simula¸c˜ao dos dados, foram fixados valores arbitr´arios para os parˆametros desconhecidos do modelo. Suponha que a m´edia do processo seja formada por uma matriz desenho com um intercepto, uma vari´avel explicativa e os seguintes valores β0 = (2 ; 3) e τ = 0, 5, sendo Xi1 = 1 e Xi2∼ U (0, 1). Para o parˆametro ρ, fixou-se trˆes valores, 0, 1,
0, 3 e 0, 7, com o objetivo de analisar o comportamento da an´alise de sensibilidade dos hiperparˆametros do modelo.
4.4 Modelo SAR 39
A Figura 8 apresenta os dados simulados a partir de uma baixa e moderada/alta correla¸c˜ao espacial entre os munic´ıpios do estado do Maranh˜ao.
(a) ρ = 0, 1 (b) ρ = 0.7
Figura 8: Dados simulados via modelo SAR para diferentes valores de ρSAR nos munic´ıpios
do Maranh˜ao.
A Figura 9 apresenta as estimativas pontuais, obtidas pelas m´edias a posteriori sob diferentes escolhas para os hiperparˆametros da distribui¸c˜ao a priori e seus respectivos intervalos de alta densidade a posteriori, abreviados aqui por HDI, que s˜ao bastante usados em an´alises bayesianas (Turkkan et al. 1993) [16]. As linhas tracejadas horizontamente representam os valores verdadeiros fixados para β e τ . Repare que, mesmo diminuindo a variˆancia de Vβ, as estimativas dos parˆametros a posteriori se mantiveram pr´oximas e com
os intervalos contendo o valor verdadeiro fixado, com exce¸c˜ao da Priori 3 no parˆametro τ . Isso se deve ao fato da m´edia alta e variˆancia pequena na distribui¸c˜ao da precis˜ao. J´a no parˆametro ρSAR, o “x”representa o valor fixado para cada um dos casos. Note que o
4.4 Modelo SAR 40
Figura 9: An´alise de sensibilidade: estimativas a posteriori dos parˆametros sob diferentes escolhas de hiperparˆametros para a distribui¸c˜ao a priori. A estimativa pontual ´e dada pela m´edia a posteriori e a intervalar pelo intervalo HDI de 95%.
Foram realizadas 11.000 itera¸c˜oes, com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. A Figura 10 mostra a convergˆencia das cadeias dos parˆametros e tamb´em seus histogramas a posteriori utilizando a Priori 2 definida na Tabela 3 e considerando ρ = 0, 7. As linhas tracejadas representam os valores verdadeiros dos parˆametros, j´a as linhas trajecadas mais fracamente s˜ao as estimativas dos intervalos HDI a posteriori de 95%. Note que h´a ind´ıcios de convergˆencia, que as m´edias a posteriori (estimativas pontuais) ficaram pr´oximas dos valores verdadeiros e os intervalos contemplaram os mesmos.
4.4 Modelo SAR 41
Figura 10: Tra¸cos das cadeias e histogramas das amostras a posteriori dos parˆametros utilizando a Priori 2 com dados simulados.
4.4.2
Dados de Hansen´ıase
Como j´a mencionado na Se¸c˜ao 4.1, mais da metade dos mun´ıcipios do estado do Maranh˜ao apresentaram taxas de hansen´ıase iguais a zero no ano de 2010. Fato esse que implica diretamente na modelagem podendo prejudicar substancialmente na estima¸c˜ao dos parˆametros desconhecidos do modelo. Como alternativa, novamente foi realizada uma transforma¸c˜ao da vari´avel resposta para diminuir a variabilidade dos dados e tentar obter um resultado mais satisfat´orio no ajuste.
Considere Zi∗ a taxa da doen¸ca em menores de 15 anos diagnosticados na regi˜ao i, por 100.000 habitantes. Admita que Z = (Z1, . . . , Zn)
0
, em que Zi = log(Zi∗+ 0, 1), segue
um modelo autoregressivo simultˆaneo conforme descrito na Se¸c˜ao 3.1, com intercepto e uma vari´avel explicativa. Utilizou-se como vari´avel explicativa o IDHM em 2010 de cada munic´ıpio do Maranh˜ao.
Assumindo a an´alise de sensibilidade anterior satisfat´oria, optou-se em escolher a priori 2 na aplica¸c˜ao dos dados reais um vez que o modelo se ajustou corretamente para diferentes prioris. Sendo assim, assuma que
β ∼ N (0; 100I), τ ∼ Ga(2; 0, 5),
4.4 Modelo SAR 42
sendo 0 = (0, 0)0.
Foram gerados 11.000 valores com per´ıodo de aquecimento (burn-in) de 1.000 e espa¸camento de 10, retornando assim amostras a posteriori n˜ao correlacionadas de tamanho 1.000. Para a estimativa dos parˆametros desconhecidos, foram utilizadas a m´edia a posteriori e intervalos HDI de 95%. A Figura 11 apresenta a convergˆencia das cadeias dos parˆametros e os histogramas das distribui¸c˜oes a posteriori.
Figura 11: Tra¸cos das cadeias (superior) e histogramas (inferior) das distribui¸c˜oes a posteriori usando o conjunto de dados reais e o modelo SAR.
A Tabela 2 apresenta as estimativas e os intervalos HDI a posteriori dos parˆametros estimados do modelo SAR aplicado aos dados reais.
Tabela 4: M´edias a posteriori e intervalos HDI de 95% para os parˆametros.
β1 β2 τ ρSAR
Priori 2 -8,1888 14,3357 0,1510 0,2540
(-12,5041 ; -3,9518) (7,0572 ; 21,7918) (0,1226 ; 0,1765) (0,0829 ; 0,4272)
Com base nas estimativas dos parˆametros apresentadas Tabela 4, verificou-se que qu˜ao maior for o IDHM, maior dever´a ser a taxa de detec¸c˜ao de hansen´ıase em menores de 15 anos nos munic´ıpios do Maranh˜ao. Resultado esse n˜ao muito esperado, dado que esse indicador representa desenvolvimento humano nas ´areas de educa¸c˜ao, sa´ude e renda. Como hip´otese inicial, essa rela¸c˜ao pode estar associada, por exemplo, `a subnotifica¸c˜ao diferenciada segundo os munic´ıpios onde pessoas oriundas de regi˜oes com baixos IDHM s˜ao notificadas nos grandes centros urbanos onde apresentam ´ındices de desenvolvimento
4.4 Modelo SAR 43
mais elevados. E dessa vez o intervalo HDI para β1 n˜ao cont´em o 0, resultado que esse
parˆametro ´e significante para esse modelo especificamente.
Note que a estimativa pontual para o parˆametro de autocorrela¸c˜ao espacial foi de ρSAR = 0, 25 e sabendo que os ´ındices de Moran e Geary foram respectivamente 0, 11
e 0, 88, percebe-se que h´a uma associa¸c˜ao entre esses valores, uma vez j´a verificado no estudo simulado na Se¸c˜ao 4.2. Como prova disso, aplicou-se a estimativa de ρSAR a 1.000
replica¸c˜oes de dados simulados via o modelo SAR e calculado os indicadores. As m´edias dos ´ındices foram 0, 09 para o I de Moran e 0, 90 para o C de Geary, valores bem pr´oximos aos verdadeiros usando os dados reais de hansen´ıase.
44
5
Conclus˜ao
O interesse desse trabalho estava na modelagem espacial de dados de ´area sob a perspectiva bayesiana. Para isso, recorreu-se aos modelos CAR e SAR tradicionalmente usados para esse tipo de dados.
Para estudar sobre os parˆametros que medem a dependˆencia espacial, gerou-se um conjunto de dados simulados e comparou-se os ´ındices de Moran, o de Geary e o parˆametro de correla¸c˜ao espacial do modelo SAR. A partir dos resultados, verificou-se que h´a ind´ıcios desses parˆametros serem correlacionados e apropriados para verificarem a dependˆencia espacial.
Para verificar o procedimento de inferˆencia, gerou-se um conjunto de dados simulados e estimou-se os parˆametros desse conjunto. A an´alise de sensibilidade da distribui¸c˜ao a priori se comportou de forma satisfat´oria e os parˆametros foram bem estimados mesmo sob diferentes escolhas dos hiperparˆametros em ambos os modelos.
Em seguida, analisou-se um conjunto de dados reais, que correspondeu a uma transforma¸c˜ao das taxas de hansen´ıase. A partir de uma an´alise explorat´oria dos dados e pelos ´ındices de Moran e de Geary, foi poss´ıvel verificar que as taxas de detec¸c˜ao de hansen´ıase em menores de 15 anos apresentaram correla¸c˜ao espacial, ou seja, a taxa de determinada regi˜ao ´e influenciada pelas taxas de sua vizinhan¸ca. Ademais, atrav´es dos modelos apresentados e suas covari´aveis associadas, verificou-se que o IDHM foi uma covari´avel significativa, por´em indicou que regi˜oes com maiores ´ındices de desenvolvimento humano tendem a ter maiores taxas da doen¸ca.
Os modelos propostos servem para vari´aveis respostas cont´ınuas que assumem valores na reta. As taxas de hansen´ıase s˜ao n˜ao-negativas. Para levar essas taxas na reta e diminuir a variabildiade dos dados, aplicou-se uma fun¸c˜ao logar´ıtmica. Por´em, h´a muitas taxas nulas indicando que a vari´avel resposta ´e mista mesmo com a transforma¸c˜ao utilizada. Problema esse que pode influenciar negativamente na estimativa e no intervalo de credibilidade dos parˆametros dos modelos.
5 Conclus˜ao 45
Consequentemente, fica como trabalhos futuros a utiliza¸c˜ao de modelos mais adequados aos dados de hansen´ıase, levando em considera¸c˜ao principalmente a grande quantidade de taxas iguais a zero.
46
Referˆencias
[1] C ˆAMARA, G.; ORTIZ, M. J. Sistemas de informa¸c˜ao geogr´afica para aplica¸c˜oes ambientais e cadastrais: uma vis˜ao geral. In: CONGRESSO BRASILEIRO DE ENGENHARIA AGRICOLA. [S.l.: s.n.], 1998. v. 27, p. 59–82.
[2] CH ˆATEAUNEUF, L.-F. B. D. Rapport sur la marche et les effets du chol´era-morbus dans Paris et les communes rurales du d´epartement de la Seine, par la commission nomm´ee... ann´ee 1832. [S.l.]: Imprimerie royale, 1834.
[3] SNOW, J. The cholera near golden-square, and at deptford. Medical Times and Gazette, v. 9, p. 321–322, 1854.
[4] ORGANIZATION, W. H. Weekly epidemiological record relev´e ´epid´emiologique hebdomadaire. Weekly Epidemiological Record, v. 34, p. 317–28, 2012.
[5] CRESSIE, N. A. C. Statistics for Spatial Data. [S.l.]: John Wiley & Sons, 1993. [6] BANERJEE, S.; GELFAND, A. E.; CARLIN, B. P. Hierarchical Modeling and
Analysis for Spatial Data. [S.l.]: Chapman & Hall/CRC, 2003.
[7] WALLER, L. A.; GOTWAY, C. A. Applied spatial statistics for public health data. [S.l.]: John Wiley & Sons, 2004.
[8] C ˆAMARA, G. et al. An´alise espacial de ´areas. An´alise espacial de dados geogr´aficos, Empresa Brasileira de Pesquisa Agropecu´aria Bras´ılia, v. 2, 2004.
[9] SCHMIDT, A. M.; NOBRE, A. A.; FERREIRA, G. S. Alguns aspectos da modelagem de dados espacialmente referenciados. Rio de Janeiro, 2003.
[10] GAMERMAN, D.; LOPES, H. F. Markov chain Monte Carlo: stochastic simulation for Bayesian inference. [S.l.]: CRC Press, 2006.
[11] GEMAN, S.; GEMAN, D. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. IEEE Transactions on pattern analysis and machine intelligence, IEEE, n. 6, p. 721–741, 1984.
[12] GELFAND, A. E.; SMITH, A. F. M. Samping-based approaches to calculating marginal densities. Journal of the American Statistical Association, v. 85, n. 410, p. 398–409, 1990.
[13] METROPOLIS, N. et al. Equation of state calculations by fast computing machines. The journal of chemical physics, AIP, v. 21, n. 6, p. 1087–1092, 1953.
[14] HASTINGS, W. K. Monte Carlo sampling methods using Markov chains and their applications. Biometrika, v. 57, p. 97–109, 1970.
Referˆencias 47
[15] FREITASI, B. H. B. M. de et al. Tendˆencia da hansen´ıase em menores de 15 anos em mato grosso (brasil), 2001-2013. Rev Sa´ude P´ublica, SciELO Public Health, v. 51, p. 28, 2017.
[16] TURKKAN, N.; PHAM-GIA, T. Computation of the highest posterior density interval in bayesian analysis. Journal of statistical computation and simulation, Taylor & Francis, v. 44, n. 3-4, p. 243–250, 1993.
48
APˆENDICE A -- Munic´ıpios do Estado do
Maranh˜ao
A¸cailˆandia, Afonso Cunha, Agua Doce do Maranh˜ao, Alcˆantara, Aldeias Altas, Altamira do Maranh˜ao, Alto Alegre do Maranh˜ao, Alto Alegre do Pindar´e, Alto Parna´ıba, Amap´a do Maranh˜ao, Amarante do Maranh˜ao, Anajatuba, Anapurus, Apicum-Acu, Araguan˜a, Araioses, Arame, Arari, Axix´a, Bacabal, Bacabeira, Bacuri, Bacurituba, Balsas, Bar˜ao de Grajau, Barra do Corda, Barreirinhas, Bela Vista do Maranh˜ao, Bel´agua, Benedito Leite, Bequim˜ao, Bernardo do Mearim, Boa Vista do Gurupi, Bom Jardim, Bom Jesus das Selvas, Bom Lugar, Brejo de Areia, Brejo, Buriti Bravo, Buriti, Buriticupu, Buritirana, Cachoeira Grande, Cajapi´o, Cajari, Campestre do Maranh˜ao, Candido Mendes, Cantanhede, Capinzal do Norte, Carolina, Carutapera, Caxias, Cedral, Central do Maranh˜ao, Centro Novo do Maranh˜ao, Centro do Guilherme, Chapadinha, Cidelˆandia, Cod´o, Coelho Neto, Colinas, Concei¸c˜ao do Lago-Acu, Coroat´a, Cururupu, Davin´opolis, Dom Pedro, Duque Bacelar, Esperantin´opolis, Estreito, Feira Nova do Maranh˜ao, Fernando Falc˜ao, Formosa da Serra Negra, Fortaleza dos Nogueiras, Fortuna, Godofredo Viana, Goncalves Dias, Governador Archer, Governador Edison Lob˜ao, Governador Eugenio Barros, Governador Luiz Rocha, Governador Newton Bello, Governador Nunes Freire, Gra¸ca Aranha, Grajau, Guimaraes, Humberto de Campos, Icatu, Igarap´e Grande, Igarap´e do Meio, Imperatriz, Itaipava do Grajau, Itapecuru Mirim, Itinga do Maranh˜ao, Jatob´a, Jenipapo dos Vieiras, Joao Lisboa, Joselˆandia, Junco do Maranh˜ao, Lago Verde, Lago da Pedra, Lago do Junco, Lagoa Grande do Maranh˜ao, Lagoa do Mato, Lagoa dos Rodrigues, Lajeado Novo, Lima Campos, Loreto, Lu´ıs Domingues, Magalhaes de Almeida, Maraca¸cum´e, Maraj´a do Sena, Maranh˜aozinho, Mata Roma, Matinha, Mat˜oes do Norte, Mat˜oes, Milagres do Maranh˜ao, Mirador, Miranda do Norte, Mirinzal, Mon¸c˜ao, Montes Altos, Morros, Nina Rodrigues, Nova Colinas, Nova Iorque, Nova Olinda do Maranh˜ao, Olho d’Agua das Cunhas, Olinda Nova do Maranh˜ao, Paco do Lumiar, Palmeirˆandia, Paraibano, Parnarama, Passagem Franca, Pastos Bons, Paulino Neves, Paulo Ramos, Pedreiras, Pedro do Ros´ario, Penalva, Peri Mirim, Peritor´o, Pindar´e Mirim, Pinheiro, Pio
Apˆendice A -- Munic´ıpios do Estado do Maranh˜ao 49
XII, Pirapemas, Po¸c˜ao de Pedras, Porto Franco, Porto Rico do Maranh˜ao, Presidente Dutra, Presidente Juscelino, Presidente M´edici, Presidente Sarney, Presidente Vargas, Primeira Cruz, Raposa, Riach˜ao, Ribamar Fiquene, Ros´ario, Samba´ıba, Santa Filomena do Maranh˜ao, Santa Helena, Santa Inˆes, Santa Luzia do Paru´a, Santa Luzia, Santa Quit´eria do Maranh˜ao, Santa Rita, Santana do Maranh˜ao, Santo Amaro do Maranh˜ao, Santo Antˆonio dos Lopes, S˜ao Benedito do Rio Preto, S˜ao Bento, S˜ao Bernardo, S˜ao Domingos do Azeit˜ao, S˜ao Domingos do Maranh˜ao, S˜ao Felix de Balsas, S˜ao Francisco do Brej˜ao, S˜ao Francisco do Maranh˜ao, S˜ao Joao Batista, S˜ao Joao do Car´u, S˜ao Joao do Paraiso, S˜ao Joao do Soter, S˜ao Joao dos Patos, S˜ao Jose de Ribamar, S˜ao Jose dos Bas´ılio, S˜ao Lu´ıs Gonzaga do Maranh˜ao, S˜ao Lu´ıs, S˜ao Mateus do Maranh˜ao, S˜ao Pedro da Agua Branca, S˜ao Pedro dos Crentes, S˜ao Raimundo das Mangabeiras, S˜ao Raimundo do Doca Bezerra, S˜ao Roberto, S˜ao Vicente Ferrer, Satubinha, Senador Alexandre Costa, Senador La Rocque, Serrano do Maranh˜ao, Sitio Novo, Sucupira do Norte, Sucupira do Riach˜ao, Tasso Fragoso, Timbiras, Timon, Trizidela do Vale, Tufilˆandia, Tuntum, Turia¸cu, Turilˆandia, Tutoia, Urbano Santos, Vargem Grande, Viana, Vila Nova dos Mart´ırios, Vitoria do Mearim, Vitorino Freire e Z´e Doca.