• Nenhum resultado encontrado

Análise espacial de dados de contagem por meio de um modelo autorregressivo condicional

N/A
N/A
Protected

Academic year: 2021

Share "Análise espacial de dados de contagem por meio de um modelo autorregressivo condicional"

Copied!
56
0
0

Texto

(1)

Andrine Mendon¸

ca Mˆ

osca

An´

alise Espacial de Dados de Contagem por

Meio de um Modelo Autorregressivo

Condicional

Niter´oi - RJ, Brasil 17 de janeiro de 2017

(2)

Universidade Federal Fluminense

Andrine Mendon¸

ca Mˆ

osca

An´

alise Espacial de Dados de

Contagem por Meio de um Modelo

Autorregressivo Condicional

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Jony Arrais Pinto Junior

Niter´oi - RJ, Brasil 17 de janeiro de 2017

(3)

Universidade Federal Fluminense

Andrine Mendon¸

ca Mˆ

osca

An´

alise Espacial de Dados de Contagem por

Meio de um Modelo Autorregressivo

Condicional

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “An´alise Espacial de Dados de Contagem por Meio de um Modelo Autorregressivo Condicional”, defendida por Andrine Mendon¸ca Mˆosca e aprovada em 17 de janeiro de 2017, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Jony Arrais Pinto Junior Departamento de Estat´ıstica – UFF

Prof. Dr. Luis Guillermo Coca Velarde Departamento de Estat´ıstica – UFF

Prof. Dr. Gilberto Pereira Sassi Departamento de Estat´ıstica – UFF

(4)

M894 Môsca, Andrine Mendonça

Análise espacial de dados de contagem por meio de um modelo autorregressivo condicional / Andrine Mendonça Môsca. – Niterói, RJ: [s.n.], 2017.

55f.

Orientador: Prof. Jony Arrais Pinto Junior

TCC (Bacharelado em Estatística) – Universidade Federal Fluminense, 2017.

1.Inferência bayesiana. 2.Análise espacial (Estatística). I. Título.

CDD 519.54

(5)

Resumo

Com a crescente coleta de dados georreferenciados vivenciada nas ´ultimas d´ecadas, surge a necessidade da utiliza¸c˜ao de informa¸c˜ao da localiza¸c˜ao geogr´afica na modelagem dos mais diversos fenˆomenos cient´ıficos, principalmente quando o fenˆomeno de interesse ´e estudado em uma regi˜ao com uma grande heterogeneidade espacial. O foco deste tra-balho ´e no ramo da Estat´ıstica Espacial conhecido como Dados de ´Area. Desta forma, foi analisado um banco de dados contendo o n´umero de ´obitos por ´alcool nas Unidades Federativas do Brasil, considerando como vari´aveis regressoras o sexo do ind´ıviduo e a faixa et´aria em que est´a incluso (se possui menos de 30 anos de idade ou se possui 30 anos ou mais de idade). Para isto, foram comparados trˆes modelos segundo o crit´erio DIC, para decidir qual se ajusta melhor a estes dados. O modelo 1 n˜ao assume dependˆencia espacial estre as regi˜oes; j´a o modelo 2, assume dependˆencia espacial por meio de uma priori CAR (Besag et al. [1]); e, por fim, o modelo 3, que assume tanto independˆencia, quanto dependˆencia espacial (esta ´ultima tamb´em por meio de uma priori CAR). O ter-ceiro modelo foi dividido em trˆes vers˜oes (3*, 3** e 3***), devido a resultados n˜ao muito satisfat´orios obtidos no ajuste do mesmo. Em rela¸c˜ao aos resultados, os parˆametros α1 e

α2, associados, respectivamente, ao sexo e faixa et´aria, apresentam estimativas pontuais

positivas, o que mostra que, de acordo com este estudo, o fato do indiv´ıduo ser do sexo masculino e ter 30 anos ou mais de idade, aumenta o n´umero de ´obitos por ingest˜ao de bebidas alco´olicas. Al´em disso, concluiu-se que os modelo 3* e 3**, apresentam menor variabilidade dos efeitos espaciais u e b. Segundo o crit´erio DIC, o modelo 3**, que pos-sui os dois tipos de efeitos aleat´orios (com dependˆencia espacial e com independˆencia), e que considera fixa a precis˜ao dos efeitos que assumem dependˆencia espacial (com pri-ori CAR), ´e o melhor para ajustar os dados. Neste projeto utilizou-se uma abordagem completamente Bayesiana. Toda a metodologia foi implementada no software livre R e OpenBUGS.

(6)

Dedicat´

oria

Dedico este trabalho a todos os meus familiares, amigos e professores, por sempre acreditaram em mim e me apoiaram.

Em especial, `a: minha m˜ae, Maria Ang´elica, por ser minha fortaleza; minha av´o materna, Lucin´ea, por todo carinho e incentivo; minha segunda m˜ae, muito amiga da fam´ılia, Antˆonia L´ucia; meus av´os paternos, Francisco e Marly; meu pai, Altair; meus av´os maternos, Lucimar (av´o biol´ogica) e Walter; estas ´ultimas cinco pessoas, em mem´oria.

`

As minhas amigas: Let´ıcia Cunha e Thabata Souza, por mostrarem que amizade iniciada no Ensino Fundamental sobrevive sim, independente de qualquer obst´aculo; e Sarah Braga, por toda meiguice, delicadeza e pelo companheirismo.

Aos meus lindos irm˜aos uffianos: Bruno Leonardo e Daniel Oliveira, por toda esta longa estrada que percorremos juntos, por todas as conquistas que alcan¸camos unidos, por todas as dificuldades que me ajudaram a enfrentar, por todos os conselhos (na vida pessoal e acadˆemica), pelas palavras gentis e por todos os abra¸cos carinhosos que recebi. Aos fofos jovens ibgeanos: Maycon Mazotto, por toda sinceridade, companheirismo, conselhos, implicˆancias (mais da minha parte do que da dele) e por provar que o fato de ser exibido n˜ao altera em nada a humildade presente em sua alma; Rodrigo Ventura, pelos momentos engra¸cados e incr´ıveis, conversas s´erias (e outras nem t˜ao s´erias assim), incentivo, boas influˆencias, abra¸cos sinceros e acolhedores (mesmo os desajeitados) e por mostrar que apesar do intenso c´alculo do PIB trimestral, seu cora¸c˜ao se mant´em doce e bondoso; e Ronan Barradas, pelas risadas, carinho infinito, abra¸cos encorajadores, ami-zade inabal´avel, discuss˜oes sobre bom (ou mau) gosto, conversas, maturidade (ou falta desta) e por me tornar uma padawan exemplar.

(7)

Agradecimentos

Primeiramente, `a Deus, por me aben¸coar e me dar for¸cas diante de todas as dificul-dades que tive de enfrentar.

`

A minha fam´ılia, que sempre acreditou em mim. Em especial, minha m˜ae, Maria Ang´elica, e minha av´o, Lucin´ea. Se tenho bom car´ater e bom cora¸c˜ao, ´e porque me espelhei nelas. Al´em disso, recebi muito amor, carinho e uma excelente educa¸c˜ao.

Aos meus amigos, por sempre torcerem e acreditarem em mim. Obrigada, Amanda Gomes, Deborah Cholodovski, Hugo Fiares, Let´ıcia Cunha, Matheus Camilo, Pedro Hen-rique, Pedro Romeiro, Rayssa da Paz, Sarah Braga, Thabata Costa, Thaylla Carolina e, claro, meus irm˜aos da vida, Bruno Leonardo e Daniel Oliveira, que me ajudaram, estu-daram comigo, foram pacientes e compreensivos, e se foi poss´ıvel concluir este trabalho, foi gra¸cas ao apoio e aos ensinamentos deles.

Aos meus professores, coordenadores e diretores, desde o Ensino Fundamental at´e minha Gradua¸c˜ao, por todo conhecimento que me proporcionaram. Em especial, Jony Arrais, meu orientador, por ter sido paciente, ter me dedicado seu tempo, ter me dado a oportunidade de ser sua orientanda e me ajudar a concluir este projeto.

Aos meus grandes amigos do IBGE, por me receberem com tanto carinho e por faze-rem as horas de est´agio serem t˜ao prazerosas. Aprendi muito, me diverti muito e conheci pessoas incr´ıveis e maravilhosas, que levarei comigo por toda a vida. Obrigada, Andr´ea Bastos, Arthur Cepeda, Augusto Fadel, Breno Campolina, Carlos Arieira, Carlos So-bral, Daniel de Almeida, Eliseu Oliveira, Emanuel Rodrigues, Eudes Monteiro, Francisco Marta, Frederico Barcellos, Henny Buckentin, Inˆes Teixeira, J´ulio Siqueira, K´ezia da Cu-nha, L´ucia Ribeiro, M´arcia Quintslr, Maycon Mazotto, Paulo Gonzaga, Pedro Albuquer-que, Pedro Sotto, Priscila Koeller, Rodrigo Ventura, Ronan Barradas, Roselir Baptista, Samuel Cruz, e a todas as outras pessoas especiais que convivi no IBGE.

A todos os bichinhos que tive, por compartilharem comigo momentos de alegria e leveza, por me entederem e ficarem ao meu lado nos momentos tristes. Obrigada, meu brutamonte, Banz´e; meu ca¸cula, ´Icaro; minha magrela, Paloma; e minhas estrelinhas, Bochecha, Cristal, Docinho, Mimi, Rex, Slash, Tina e Vit´oria.

(8)

Sum´

ario

Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 11 2 Objetivos p. 14 3 Materiais e M´etodos p. 15

3.1 Inferˆencia Bayesiana . . . p. 15 3.1.1 Teorema de Bayes . . . p. 16 3.1.2 Monte Carlo via Cadeia de Markov - MCMC . . . p. 17 3.1.3 Estima¸c˜ao Bayesiana . . . p. 19 3.2 Estat´ıstica Espacial . . . p. 21 3.3 Modelos Estudados . . . p. 24 3.3.1 Modelo 1 . . . p. 25 3.3.2 Modelo 2 . . . p. 30 3.3.3 Modelo 3 . . . p. 34 3.4 Deviance Information Criterion - DIC . . . p. 37

4 An´alise dos Resultados p. 38

4.1 Base de Dados . . . p. 38 4.2 Modelos . . . p. 39 4.3 Resultados . . . p. 42

(9)

5 Conclus˜ao p. 52

(10)

Lista de Figuras

1 Mortalidade por homic´ıdios o Rio de Janeiro para os triˆenios 1979-1981

e 1990-1992 (Cˆamara [2]) . . . p. 22 2 Distribui¸c˜ao de perfis e amostras de solo em Santa Catarina (figura `a

esquerda) e distribui¸c˜ao cont´ınua estimada para a vari´avel satura¸c˜ao por

bases (figura `a direita) (Cˆamara [3]) . . . p. 23 3 Exemplo de tipos de padr˜ao de pontos (Louren¸co [4]) . . . p. 23 4 Regi˜ao S particionada . . . p. 27 5 N´umero de ´obitos por ´alcool em cada UF . . . p. 42 6 N´umero de ´obitos por ´alcool para cada categoria de sexo e faixa et´aria

em cada UF . . . p. 43 7 Histogramas das distribui¸c˜oes a posteriori do parˆametro δ para cada

modelo utilizado . . . p. 44 8 Histogramas das distribui¸c˜oes a posteriori do efeito do sexo α1 para cada

modelo utilizado . . . p. 45 9 Histogramas das distribui¸c˜oes a posteriori do efeito da faixa et´aria α2

para cada modelo utilizado . . . p. 46 10 Gr´afico das medianas e intervalo de credibilidade de 95% das distribui¸c˜oes

a posteriori do parˆametro u para cada modelo utilizado . . . p. 47 11 Histogramas das distribui¸c˜oes a posteriori do parˆametro τu para cada

modelo utilizado . . . p. 47 12 Gr´afico das medianas e intervalo de credibilidade de 95% das distribui¸c˜oes

a posteriori do parˆametro b para cada modelo utilizado . . . p. 48 13 Histogramas das distribui¸c˜oes a posteriori do parˆametro τb para cada

(11)

Lista de Tabelas

1 Configura¸c˜oes das covari´aveis Vj no exemplo . . . p. 28

2 Resultado do teste I de Moran . . . p. 43 3 Medianas e Intervalos de Credibilidade de 95% para os parˆametros δ, α1

e α2 dos modelos ajustados . . . p. 49

(12)

11

1

Introdu¸

ao

Cada vez com maior frequˆencia, m´etodos estat´ısticos tem sido utilizados para explicar fenˆomenos da natureza e cotidianos. O uso desses recursos, na maioria das vezes, facilita o entendimento e ajuda a prever o comportamento do evento de interesse. Por este motivo, a procura de pesquisadores por explica¸c˜oes usando modelos estat´ısticos tem aumentado.

Dentro da Estat´ıstica, h´a um tipo de abordagem que estuda dados espaciais, cujo nome ´e Estat´ıstica Espacial. Maiores detalhes sobre esta ´area que vem crescendo ao longo das ´ultimas d´ecadas podem ser vistos, por exemplo, por Ripley [5] e Cressie [6].

Um dos poss´ıveis tipos de dados analisados pela Estat´ıstica Espacial s˜ao os dados de ´

area. O estudo de dados de ´area ´e um ramo desta abordagem que consiste em entender um fenˆomeno de interesse numa determinada regi˜ao particionada em sub-regi˜oes ou ´areas, que podem ser munic´ıpios, bairros ou setores censit´arios. Para este grupo de dados, a localiza¸c˜ao exata do evento n˜ao importa, o que interessa ´e apenas o n´umero de eventos observado em cada sub-regi˜ao.

Modelagens desse tipo s˜ao muito comuns quando deseja-se estudar doen¸cas ou proble-mas sociais, mais especificamente, quando a vari´avel que deseja-se estudar ´e a contagem do n´umero de casos ocorridos do fenˆomeno de interesse, o que, al´em de produzir informa¸c˜oes a respeito do problema, como regi˜oes com maiores intensidades e quais covari´aveis afetam diretamente a maior ocorrˆencia de casos, serve como alerta a popula¸c˜ao sobre o porquˆe da preven¸c˜ao do problema em quest˜ao.

Dentre os modelos utilizados para a modelagem de problemas com estas caracter´ısticas, um dos mais utilizados ´e o modelo condicional autorregressivo Gaussiano intr´ınseco (CAR), que foi introduzido por Besag [1], em 1974 . Inicialmente, estes modelos eram conhecidos por “Campo Aleat´orio Markoviano Gaussiano” (CAMG).

Diversos trabalhos vem utilizando as ideias contidas em Besag [1], como, por exemplo, em Vivar [7], tese na qual interessou-se em propor uma classe de modelos espa¸co-temporais para dados de ´area na fam´ılia exponencial; e em Ferreira [8], em que houve o interesse em

(13)

1 Introdu¸c˜ao 12

modelar o n´umero de casos de dengue nos bairros do munic´ıpio do Rio de Janeiro. Na segunda referˆencia, o autor, assim como neste trabalho, em uma de suas an´alises, adotou o efeito CAR como distribui¸c˜ao a priori (permitindo uma interpreta¸c˜ao de efeito espacial para o mesmo), al´em de adotar tamb´em efeitos que pressup˜oem independˆencia entre si. A diferen¸ca ´e que, no modelo em que o efeito CAR foi considerado, optou por testar v´arias estruturas de vizinhan¸ca. Os resultados satisfat´orios obtidos pelo autor (Ferreira [8]), serviram como motiva¸c˜ao para dar continuidade a este trabalho.

Pode-se ainda citar o trabalho de Caumo [9], que tamb´em optou por trabalhar com da-dos de ´area sobre o mapeamento de doen¸cas relacionadas `a natalidade em mulheres jovens. Em um trabalho recente, Paez e Gamerman [10], em suas an´alises sobre concentra¸c˜oes de part´ıculas inal´aveis na regi˜ao metropolitana do Rio de Janeiro, tamb´em fizeram um estudo espa¸co-temporal aplicando o efeito CAR como priori para a componente espacial. Agora, suponha que um pesquisador esteja interessado em estudar o n´umero de ´obitos decorrentes da ingest˜ao de bebidas alco´olicas. Sabe-se que problemas desse tipo podem acarretar tanto na morte de quem consome, quanto na de terceiros. Para o trabalho em quest˜ao, ser´a utilizada uma base de dados reais com o n´umero de mortos por consumo de ´

alcool nas Unidades Federativas brasileiras, entre os anos de 1998 a 2012.

Quest˜oes como a que foi citada acima podem estar relacionada com problemas b´asicos da sociedade, como, por exemplo, analfabetismo ou educa¸c˜ao prec´aria, IDH da popula¸c˜ao, renda mensal m´edia, entre outros, sendo estas covari´aveis associadas ao local onde ocor-reu o ´obito. Al´em disso, pode-se considerar como influˆencia do fenˆomeno analisado algu-mas informa¸c˜oes a respeito dos pr´oprios indiv´ıduos (covari´aveis n˜ao-espaciais), como, por exemplo, sexo, idade, entre outros.

O objetivo deste trabalho ´e estudar modelos para dados de ´area, considerando a presen¸ca de covari´aveis espaciais e n˜ao espaciais para o n´umero de ´obitos decorrentes da ingest˜ao de bebidas alco´olicas. Como ser˜ao estudados mais de um modelo, tem-se como objetivo, tamb´em, utilizar um crit´erio de sele¸c˜ao de modelos para escolher o “melhor” modelo.

O trabalho em quest˜ao est´a dividido em cinco cap´ıtulos, sendo, a introdu¸c˜ao, o pri-meiro. Seguido pelo Cap´ıtulo 2, que apresenta os objetivos do trabalho, em que o principal ´e comparar os trˆes modelos propostos utilizando o crit´erio DIC.

J´a no Cap´ıtulo 3, ´e apresentada toda a metodologia necess´aria para a realiza¸c˜ao do trabalho. Este cap´ıtulo ´e composto por quatro se¸c˜oes: a Se¸c˜ao 3.1, que apresenta os

(14)

1 Introdu¸c˜ao 13

principais pontos da inferˆencia bayesiana; a Se¸c˜ao 3.2 que descreve o ramo da estat´ıstica conhecido como Estat´ıstica Espacial, mostrando os trˆes grupos de dados abordados nesta ´

area de estudo; a Se¸c˜ao 3.3, que exp˜oe os trˆes modelos propostos para ajustar os dados; e, por fim, a Se¸c˜ao 3.4, que explica como calcular e qual ´e a regra de decis˜ao do DIC

O Cap´ıtulo 4 apresenta os resultados obtidos no tabalho, o qual est´a dividido em trˆes se¸c˜oes: a Se¸c˜ao 4.1, que descreve a base de dados; a Se¸c˜ao 4.2, que mostra os modelos j´a aplicado aos dados; e a Se¸c˜ao 4.3, que mostra a decis˜ao tomada a partir do DIC. Finalizando, segue o Cap´ıtulo 5, que explicita a coclus˜ao do trabalho.

(15)

14

2

Objetivos

Este trabalho tem como objetivo principal estudar modelos para dados de contagem, em que alguns destes utilizam efeitos autorregressivos condicionais. Para tal, ser˜ao reali-zados os seguintes passos:

• Estudar trˆes modelos para dados de contagem:

– um modelo que sup˜oe independˆencia entre as regi˜oes;

– um modelo em que as regi˜oes s˜ao dependentes, tais que existe um efeito que representa uma esp´ecie de m´edia ponderada dos bairros com os quais fazem vizinhan¸ca;

– um terceiro modelo que apresenta componentes presentes nos dois modelos anteriores.

• Ajustar os modelos em um conjunto de dados reais referentes a quantidade de ´obitos pelo consumo de ´alcool nos estados brasileiros sob um enfoque bayesiano;

(16)

15

3

Materiais e M´

etodos

Note que, neste trabalho deseja-se modelar, sob o enfoque bayesiano, dados de conta-gem por meio de modelos autorregressivos condicionais. Deste modo, ´e necess´ario enten-der as ferramentas que comp˜oem este processo. Por isso, este cap´ıtulo tem como objetivo apresentar, de forma sucinta, as fundamenta¸c˜oes te´oricas, modelos e m´etodos que estar˜ao presentes neste trabalho.

3.1

Inferˆ

encia Bayesiana

Aqui ser´a apresentada uma breve explica¸c˜ao do que ´e a inferˆencia Bayesiana, sua importˆancia e aplica¸c˜ao.

Para se definir inferˆencia Bayesiana, ´e necess´ario inicialmente se discutir o que ´e inferˆencia. A inferˆencia utilizada com frequˆencia quando deseja-se fazer afirma¸c˜oes sobre medidas desconhecidas, as quais s˜ao chamadas de parˆametros, como, por exemplo, uma m´edia populacional ou a probabilidade de contrair uma determinada doen¸ca.

A principal diferen¸ca entre a inferˆencia Cl´assica e a Bayesiana ´e que, na citada primei-ramente, o parˆametro ´e uma quantidade fixa e desconhecida. Enquanto, na Bayesiana, esta quantidade tamb´em ´e desconhecida, por´em n˜ao mais fixa, e sim aleat´oria. Desta forma, toda informa¸c˜ao dispon´ıvel ´e necess´aria para se inferir, inclusive alguma “cren¸ca” a priori a respeito do parˆametro em quest˜ao.

Na pr´oxima subse¸c˜ao, ser´a apresentado um importante resultado utilizado na in-ferˆencia Bayesiana, denominado Teorema de Bayes, a partir do qual ´e poss´ıvel calcular a distribui¸c˜ao a posteriori para um parˆametro de interesse.

(17)

3.1 Inferˆencia Bayesiana 16

3.1.1

Teorema de Bayes

O Teorema de Bayes ´e um m´etodo de atualiza¸c˜ao de probabilidades. Desta forma, permite encontrar a probabilidade (ou distribui¸c˜ao) a posteriori para o parˆametro (ou, em alguns casos, vetor de parˆametros) de interesse. A distribui¸c˜ao a posteriori ´e a pro-babilidade condicional atribu´ıda ao parˆametro ap´os considerar a evidˆencia ou evento que influencie no mesmo.

Para isto, ´e necess´ario que a distibui¸c˜ao a priori do parˆametro seja conhecida e que a fun¸c˜ao de verossimilhan¸ca j´a tenha sido calculada. A distribui¸c˜ao a priori ´e a probailidade antes de qualquer dado ou evidˆencia sobre o parˆametro e a verossimilha¸ca ´e uma fun¸c˜ao que, a partir de um banco de dados observados, permite fazer inferˆencias sobre o valor do mesmo.

Por simplicidade, considerar dois eventos, A e B. Assim, para encontrar a distribui¸c˜ao a posteriori de A, denotada por p(A|B), aplica-se o Teorema de Bayes da seguinte forma:

p(A|B) = p(A ∩ B)

p(B) . (3.1)

Note que pode-se obter de (3.1) o seguinte resultado:

p(A ∩ B) = p(A|B)p(B). (3.2)

Aplicando-se o Teorema de Bayes como foi feito em (3.1), tem-se que a distribui¸c˜ao de B dado A ´e dada por:

p(B|A) = p(A ∩ B)

p(A) . (3.3)

Agora, seguindo o mesmo racioc´ınio de (3.2):

p(A ∩ B) = p(B|A)p(A). (3.4)

Com base em (3.1), (3.2), (3.3) e (3.4), tem-se que:

p(A|B) = p(B|A)p(A)

p(B) ,

em que p(A) ´e a distribui¸c˜ao a priori de A, p(B) ´e a distribui¸c˜ao a priori de B, p(B|A) ´e a distribui¸c˜ao a posteriori de B e p(A|B) ´e a distribui¸c˜ao a posteriori de A.

H´a outros teoremas e m´etodos importantes utilizados na inferˆencia Bayesiana e que tamb´em ser˜ao necess´arios para este trabalho. Entre estes, est˜ao os m´etodos de Monte Carlo via Cadeia de Markov (MCMC), que s˜ao bastante ´uteis quando deseja-se amostrar

(18)

3.1 Inferˆencia Bayesiana 17

a partir das distribui¸c˜oes a posteriori obtidas.

3.1.2

Monte Carlo via Cadeia de Markov - MCMC

Para amostrar de uma certa distribui¸c˜ao p(·) usando um algoritmo MCMC, este deve produzir uma cadeia de Markov que seja homogˆenea, erg´odica e irredut´ıvel, e que possua distribui¸c˜ao estacion´aria p(·).

Uma cadeia de Markov ´e denominada homogˆenea se a probabilidade de transi¸c˜ao for estacion´aria; ´e dita erg´odica quando esta ´e aperi´odica e recorrente positiva; ´e recorrente positiva quando o n´umero m´edio de passos at´e que a cadeia retorne a qualquer estado ´e finito; e, finalizando, uma cadeia ´e dita irredut´ıvel quando ´e sempre poss´ıvel mudar de um estado para outro, sendo que esta mudan¸ca n˜ao ocorre, necessariamente, em um ´unico passo.

A seguir ser˜ao apresentados dois algoritmos MCMC utilizados para amostrar a partir das distribui¸c˜oes condicionais completas.

• Algoritmo Amostrador de Gibbs

O algoritmo foi proposto, em 1984, por Geman e Geman [11]. Por´em, apenas em 1990, Gelfand e Smith [12] expuseram essas ideias para toda a comunidade estat´ıstica.

Utiliza-se este m´etodo quando a disribui¸c˜ao que deseja-se amostrar ´e conhecida, por´em, este procedimento ´e custoso ou ´e dif´ıcil de executar.

Seja um vetor de parˆametros θ = (θ1, θ2, ..., θt)T que possui distrbui¸c˜ao p(θ). A

amostra, de tamanho m, que deseja-se obter ´e (θ(1), θ(2), ..., θ(m))T, em que θ(i) ∼ p(θ), i = 1, ..., m.

O parˆametro θj, j = 1, ..., t pode ser um escalar, um vetor ou uma matriz.

Considera-se θ−r o conjunto de vari´aveis θ exceto o r-´esimo elemento.

As distrbui¸c˜oes pr(θr) = p(θr|θ−r), r = 1, ..., t s˜ao denominadas por distribui¸c˜oes

con-dicionais completa, que, para este caso, ser˜ao consideradas conhecidas. Desta forma, abaixo s˜ao descritos os passos do amostrador de Gibbs:

1. Um valor inicial aleat´orio ´e escolhido para cada θr, r = 1, ..., t, em que θ(0) =

(19)

3.1 Inferˆencia Bayesiana 18

2. O contador da itera¸c˜ao ´e inicializado: i = 1;

3. Um novo valor θ(i) = (θ1(i), θ(i)2 , ..., θ(i)t ) ´e obtido por meio das distribui¸c˜oes condicio-nais completas: θ1(i) ∼ p(θ1|θ (i−1) 2 , θ (i−1) 3 , ..., θ (i−1) t )T θ2(i) ∼ p(θ2|θ (i) 1 , θ (i−1) 3 , ..., θ (i−1) t )T .. . θt(i−1) ∼ p(θt|θ (i) 1 , θ (i) 2 , ..., θ (i) t−1) T;

4. O contador ´e alterado de i para i + 1;

5. Os itens (3) e (4) devem ser repetidos at´e obter convergˆencia.

A convergˆencia das cadeias de Markov ´e esperada ap´os um per´ıodo chamado de aque-cimento ou burn-in. Para diminuir a autocorrela¸c˜ao dos parˆametros pode-se usar o que denomina-se de espa¸camento ou thin, ap´os o aquecimento.

A quantidade de itera¸c˜oes necess´arias para o aquecimento ´e (w−1) e z ´e o espa¸camento. Ent˜ao, ´e poss´ıvel obter as amostras

θ(w), θ(w+z), θ(w+2z),

s˜ao usados como sendo a amostra de θ da distribui¸c˜ao de interesse.

• Algoritmo Metropolis-Hastings

O algoritmo em quest˜ao foi proposto em 1953 por Metropolis et al. [13], e posterior-mente, em 1970, aperfei¸coado por Hastings [14].

Deseja-se amostrar da distribui¸c˜ao p(φ). Da mesma maneira que acontece no algo-ritmo amostrador de Gibbs, o de Metropolis-Hastings, partindo de uma cadeia de Markov, cria uma sequˆencia φ(0), φ(1), ... , que possui p(φ) como distibui¸c˜ao limite. ´E utilizado

quando a distribui¸c˜ao condicional completa ´e uma distribui¸c˜ao desconhecida ou quando esta n˜ao pˆode ser reconhecida.

Segue abaixo o funcionamento do algoritmo Metropolis-Hastings:

(20)

3.1 Inferˆencia Bayesiana 19

2. O contador da itera¸c˜ao ´e incializado: i = 1;

3. De uma distribui¸c˜ao conhecida, denominada por distribui¸c˜ao proposta ou fun¸c˜ao de densidade de transi¸c˜ao, ´e gerado ξ ∼ q ξ|φ(i−1).

O ponto gerado tem min  1, p(ξ) q(ξ|φ(i−1)) q(φ(i−1)) p(φ(i−1)) 

de probabilidade de ser aceito, em que a distribui¸c˜ao de interesse ´e p(·). Se o ponto for aceito, φ(i) = ξ. Se n˜ao for, φ(i) = φ(i−1), e a cadeia mantˆem-se im´ovel;

4. O contador ´e alterado de i para i + 1;

5. Os passos 3 e 4 s˜ao repetidos at´e obter covergˆencia.

3.1.3

Estima¸

ao Bayesiana

Assim como na inferˆencia Cl´assica, na Bayesiana tamb´em existem duas formas de se fazer estima¸c˜ao: pontual e intervalar.

Este t´opico apresentar´a a descri¸c˜ao desses dois m´etodos. Antes disso, ´e v´alido lembrar a defini¸c˜ao de estimador.

Defini¸c˜ao: Um estimador de um parˆametro ´e qualquer fun¸c˜ao dos dados (amostra). Deseja-se que esta fun¸c˜ao represente bem o valor verdadeiro do parˆametro.

• Estima¸c˜ao Pontual

Para a estima¸c˜ao pontual, utiliza-se o estimador de Bayes, que nada mais ´e do que um estimador escolhido com o intuito de minimizar a m´edia a posteriori de alguma medida de distˆancia entre o estimador e o parˆametro.

Seja y1, ..., ykvari´aveis aleat´orias cuja distribui¸c˜ao conjunta depende de um parˆametro

θ.

Ent˜ao, de acordo com a defin¸c˜ao apresentada anteriormente, um estimador para o parˆametro θ ´e qualquer fun¸c˜ao de y, g(y1, ..., yk). J´a a estimativa ´e esta fun¸c˜ao aplicada

aos yi, i = 1, ..., k, observados.

O estimador de Bayes varia de acordo com o tipo de fun¸c˜ao perda, que ´e uma fun¸c˜ao real de duas vari´aveis, P (θ, ˆθ), sendo θ ∈ Ω (espa¸co amostral) e ˆθ ∈ R.

Esta fun¸c˜ao possui a seguinte interpreta¸c˜ao: haver´a uma perda P (θ, ˆθ) se o valor verdadeiro do parˆametro for θ e o estimador for ˆθ.

(21)

3.1 Inferˆencia Bayesiana 20

Os diferentes tipos de fun¸c˜ao perda ser˜ao explicitados mais adiante.

Por´em, quando h´a dificuldade em coletar um conjunto de dados ou este procedimento n˜ao ´e poss´ıvel, considerando p(θ) a distribui¸c˜ao a priori do parˆametro θ, deve-se escolher uma estimativa particular ˆθ. Ent˜ao, a perda esperada ser´a:

EhP θ, ˆθi= Z

P (θ, ˆθ)p(θ)dθ.

Assim, um estimador para ˆθ ser´a escolhido de modo a minimizar a perda esperada. Considerando ainda os y1, ..., yk observados, e seja p(θ|y1, ..., yk) a distribui¸c˜ao a

pos-teriori de θ, a perda esperada, tamb´em denominada por risco de uma regra de decis˜ao, ´e dada por: R(ˆθ) = Eθ|y h P θ, ˆθi= Z Ω P (θ, ˆθ)p(θ|y1, ..., yk)dθ,

em que, da mesma forma, escolhe-se ˆθ de maneira que o risco seja m´ınimo.

A regra de decis˜ao δ∗ ´e dita ´otima e denomina-se esta de estimador de Bayes quando considera-se uma fun¸c˜ao perda P (θ, ˆθ), uma fun¸c˜ao das vari´aveis δ∗ = g(y) e y = (y1, ..., yk)T, supondo E

h

P θ, ˆθi o m´ınimo poss´ıvel, R (δ∗) < R (δ), ∀δ. Diante disto, o risco desta regra ´e chamado de risco de Bayes.

Agora, tendo em vista as defini¸c˜oes expostas, seguem os trˆes tipos conhecidos de fun¸c˜ao perda:

1. Perda Quadr´atica

P (θ, ˆθ) = (θ − ˆθ)2

Neste caso, o estimador de Bayes para o parˆametro θ ´e dado por E[θ|y1, .., yk] (m´edia

a posteriori de θ). Este tipo de perda ´e caraterizado por penalizar bastante o erro de estima¸c˜ao.

2. Perda Absoluta

P (θ, ˆθ) = |θ − ˆθ|

Esta fun¸c˜ao ´e conhecida por suas puni¸c˜oes apresentarem um crescimento linear com o erro de estima¸c˜ao. O estimador de Bayes associado a este tipo de perda ´e a mediana a posteriori de θ.

(22)

3.2 Estat´ıstica Espacial 21 3. Perda 0-1 P (θ, ˆθ) = ( 1, se |θ − ˆθ| > ε, ∀ε > 0 0, se |θ − ˆθ| < ε .

J´a neste caso, o estimador de Bayes associado ´e a moda a posteriori de θ.

• Estima¸c˜ao Intervalar

Na inferˆencia Bayesiana, a estima¸c˜ao intervalar ´e chamada de intervalo de credibili-dade.

Considerar θ o parˆametro (em alguns casos, pode ser um vetor de parˆametros) que deseja-se estimar, o qual est´a definido em Θ (espa¸co param´etrico). Seja tamb´em RC uma quantidade intervalar que, por sua vez, est´a contida em Θ.

Se P (θ ∈ RC|y) > 1 − α, em que y s˜ao os y1, ..., yk observados, ent˜ao a regi˜ao RC ´e

uma regi˜ao de credibilidade de 100(1 − α)% para θ.

Os limites inferior e superior da RC s˜ao os quantis da distribui¸c˜ao a posteriori do parˆametro (ou vetor de parˆametros) de interesse, para um n´ıvel de credibilidade de (1 − α)%.

A seguir ser´a discutido de forma resumida a ´area da Estat´ıstica respons´avel pela modelagem de dados georreferenciados: a Estat´ıstica Espacial.

3.2

Estat´ıstica Espacial

Todo dado observado possui informa¸c˜oes temporal e espacial. Estas informa¸c˜oes po-dem ser consideradas ou n˜ao na hora de modelar os dados.

A modelagem espacial ´e um ramo da estat´ıstica utilizado quando a localiza¸c˜ao ge-ogr´afica do fenˆomeno de estudo influencia nos resultados da an´alise. O objetivo de intro-duzir a localiza¸c˜ao no modelo ´e tornar a explica¸c˜ao do comportamento do fenˆomeno de interesse mais clara e realista.

As trˆes poss´ıveis classifica¸c˜oes para os conjuntos de dados espaciais, de acordo com as teorias de Cressie [6] e Banerjee et al. [15], s˜ao:

(23)

3.2 Estat´ıstica Espacial 22

• Dados de ´area: Neste tipo de dados, particiona-se a regi˜ao de estudo em ´areas, onde, em cada parti¸c˜ao, s˜ao medidas as vari´aveis de interesse e as covari´aveis que, de alguma forma, afetam a distribui¸c˜ao das vari´aveis em quest˜ao. Esta abordagem tem como objetivo a verifica¸c˜ao da existˆencia de um padr˜ao ou estrutura de correla¸c˜ao espacial nas observa¸c˜oes. Neste caso, as localiza¸c˜oes da vari´avel de interesse, a qual ´

e discreta, s˜ao fixas. A Figura 1 apresenta um exemplo para ilustrar este tipo de dados.

Figura 1: Mortalidade por homic´ıdios o Rio de Janeiro para os triˆenios 1979-1981 e 1990-1992 (Cˆamara [2])

• Geoestat´ıstica: ´E um tipo de modelagem probabil´ıstica utilizada para an´alise e mapeamento de dados levando em considera¸c˜ao a sua distribui¸c˜ao espacial e tempo-ral. Tem aplica¸c˜ao direta quando deseja-se estimar valores da vari´avel de interesse em locais que n˜ao foram considerados na amostra (predi¸c˜ao espacial). Neste caso, as localiza¸c˜oes tamb´em s˜ao ditas fixas, j´a a vari´avel de interesse ´e continua. A Figura 2 exemplifica este tipo de dados.

(24)

3.2 Estat´ıstica Espacial 23

Figura 2: Distribui¸c˜ao de perfis e amostras de solo em Santa Catarina (figura `a esquerda) e distribui¸c˜ao cont´ınua estimada para a vari´avel satura¸c˜ao por bases (figura `a direita) (Cˆamara [3])

• Padr˜oes de Pontos: O objetivo principal da an´alise destes dados ´e o estudo da distribui¸c˜ao espacial dos pontos (localiza¸c˜oes), testando se o padr˜ao observado ´e aleat´orio, apresenta aglomerados ou apresenta uma distribui¸c˜ao regular. A Figura 3 mostra estes poss´ıveis padr˜oes que os dados podem apresentar.

Figura 3: Exemplo de tipos de padr˜ao de pontos (Louren¸co [4])

O enfoque deste trabalho se dar´a em dados de ´area. Como foi apresentado acima, neste tipo de dados, mede-se a vari´avel de interesse em cada parti¸c˜ao da regi˜ao de estudo. Desta forma, deve-se decidir se h´a dependˆencia ou n˜ao entre as parti¸c˜oes vizinhas e, caso haja, decidir o grau de proximidade espacial entre essas ´areas (uma esp´ecie de “peso” que quantifica o grau de influˆencia que cada vizinho exerce sobre outro).

O principal objetivo do estudo de dados de ´area ´e identificar se a vari´avel de interesse apresenta algum padr˜ao espacial e se existe rela¸c˜ao espacial entre esta e as covari´aveis consideradas no estudo. Recomenda-se que este tipo de abordagem seja utilizada em estudos nos quais os dados analisados tenham sido coletados a partir de levantamentos populacionais, como, por exemplo, o censo, realizado pelo IBGE.

(25)

3.3 Modelos Estudados 24

Estes dados podem ser representados graficamente por meio de um Mapa de Padr˜ao de Cores (Choropleth Map), em que as ´areas do mapa s˜ao coloridas de acordo com uma escala discreta associada aos seus respectivos valores, vide o trabalho de Caumo [9]. Esta escala de cores pode ter seu n´umero de classes calculado com base no que foi sugerido por Bailey e Gatrell [16]. Uma dessas op¸c˜oes ´e a utiliza¸c˜ao de quantis ou frequˆencias pr´e-definidas.

Em rela¸c˜ao a autocorrela¸c˜ao espacial, Moran [17] e Geary [18] apresentam ´ındices que ajudam a quantificar a magnitude da mesma. No trabalho escrito por Braga et al. [19], o ´Indice Global de Moran tem sua f´ormula explicitada, al´em de tamb´em mostrar como ´e feita a estima¸c˜ao da vari´avel de interesse por meio da M´edia M´ovel Espacial. Segundo o mesmo autor (Braga et al. [19]), esta ´e uma esp´ecie de m´edia ponderada, a qual representa uma maneira simples para avalia¸c˜ao de varia¸c˜oes e tendˆencias, vide o livro de 1995 de Bailey e Gatrell [16].

Tendo em vista que o trabalho em quest˜ao utiliza o efeito CAR em alguns modelos, ´e v´alido citar que os artigos de Besag [20], Clayton e Kaldor [21], Cressie e Chan [22], Waller et al. [23], Xia e Carlin [24] foram alguns dos pioneiros no assunto.

Na se¸c˜ao seguinte ser˜ao apresentados os modelos estudados neste trabalho.

3.3

Modelos Estudados

Suponha que um pesquisador, que est´a estudando a contagem do n´umero de casos de dengue em uma certa regi˜ao S = ∪k

i=1Si, com Si ∩ Sl = ∅ se i 6= l, deseja verificar

se covari´aveis como, por exemplo, n´umero de agentes que visita as casas da regi˜ao, sexo e idade dos infectados, podem ajudar a explicar a varia¸c˜ao espacial observada nos casos da doen¸ca para aquela regi˜ao. Note que, existe diferen¸ca entre os tipos de covari´aveis consideradas. Aqui, tem-se covari´aveis associadas ao espa¸co (n´umero de agentes que visita as casas da regi˜ao) e covari´aveis associadas aos indiv´ıduos (sexo e idade). Neste trabalho, as covari´aveis associadas ao espa¸co ser˜ao denotadas por X e aos indiv´ıduos por V .

O uso de covari´aveis n˜ao-espaciais aparece constantemente em muitas ´areas, princi-palmente na ´area m´edica, onde deseja-se estudar a distribui¸c˜ao espacial de uma doen¸ca espec´ıfica em fun¸c˜ao de caracter´ısticas das unidades experimentais, como, por exemplo, idade, escolaridade, gˆenero e etc. Assim, vˆe-se a importˆancia de tratar modelos com estas caracter´ısticas.

(26)

3.3 Modelos Estudados 25

Assuma que foram observados um vetor V = (V1, . . . , Vp1) de covari´aveis associadas

aos indiv´ıduos e um vetor X = (X1, . . . , Xp2) de covari´aveis espaciais. De modo que,

Xi, i = 1, . . . , k ´e o vetor de covari´aveis associadas `a regi˜ao i e Vj, j = 1, . . . , v ´e o vetor

com uma configura¸c˜ao pertencente ao espa¸co de todas as configura¸c˜oes poss´ıveis V. Para entender melhor a composi¸c˜ao de V, suponha, por exemplo, que as covari´aveis associadas aos indiv´ıduos observadas sejam gˆenero e idade e entre os eventos observados existiam pessoas dos gˆeneros masculino (M) e feminino (F) e com idades iguais a 20, 21 e 22 anos. Neste caso, V seria um espa¸co composto pelas seguintes configura¸c˜oes

V = {(F, 20); (F, 21); (F, 22); (M, 20); (M, 21); (M, 22)}.

Para todos os modelos estudados neste trabalho, considere que foi observado o vetor y = (y1, . . . , yk)T, com yi = (yi1, ..., yiv), i = 1, . . . , k, em que yij ´e o n´umero de casos do

evento de interesse na regi˜ao i com configura¸c˜ao j. Cada yij, i = 1, ..., k e j = 1, ..., v, segue

uma distribui¸c˜ao Poisson com m´edia Λij = rijλij, em que rij ´e conhecido (no trabalho em

quest˜ao, assume o total da popula¸c˜ao de indiv´ıduos do tipo Vj pertencentes `a sub-regi˜ao

i) e λij ´e uma informa¸c˜ao desconhecida. Sendo assim:

yij|rij, λij ∼ P oisson(Λij), i = 1, ..., k e j = 1, ..., v. (3.5)

Os modelos estudados neste trabalho, se diferem em fun¸c˜ao da especifica¸c˜ao da parte desconhecida λij. Al´em disso, n˜ao houve um crit´erio para as escolhas das distribui¸c˜oes a

priori nem dos valores atribu´ıdos aos parˆametros das mesmas, o que a literatura chama de prioris vagas. O trabalho de Ehlers [25] sobre Inferˆencia Bayesiana apresenta explica¸c˜oes a respeito deste tipo de priori.

A seguir ser˜ao apresentados os trˆes modelos com suas particularidades.

3.3.1

Modelo 1

Neste modelo, n˜ao ser´a considerada nenhuma dependˆencia espacial entre as sub-regi˜oes. Desta forma, cada ui, i = 1, ..., k (componentes do vetor de efeitos espaciais

u), segue uma distribui¸c˜ao Normal de m´edia 0 e variˆancia τu−1. Segue, abaixo, a com-posi¸c˜ao do modelo 1:

(27)

3.3 Modelos Estudados 26 yij|rij, λij ∼ P oisson(Λij), i = 1, ..., k e j = 1, ..., v Λij = rijλij log(λij) = δ + αTVj + βTXi+ ui u = (u1, ..., uk)T ∼ Nk(0, τu−1Ik) δ ∼ N (t, η1) α ∼ Np1(o, η2Ip1) β ∼ Np2(a, η3Ip2), em que τu ∼ Gama(c, d),

e p1 e p2 correspondem, respectivamente, ao n´umero de covari´aveis n˜ao-espaciais e

espa-ciais presentes no modelo.

A fun¸c˜ao de verossimilhan¸ca para este modelo ´e dada por:

L(δ, α, β, u|y) = exp ( − k X i=1 v X j=1 rijexp{δ + αTVj + βTXi+ ui} ) × k Y i=1 v Y j=1 (rijexp{δ + αTVj+ βTXi+ ui})yij yij! . (3.6) Exemplo

Para ilustrar o modelo, suponha que foram observados 15 ocorrˆencias do evento de interesse na regi˜ao S particionada em 9 sub-regi˜oes como mostra a Figura 4:

(28)

3.3 Modelos Estudados 27

Figura 4: Regi˜ao S particionada

Apesar da Figura 4 apresentar a localiza¸c˜ao do evento de interesse, aqui o interesse se d´a no n´umero de ocorrˆencias do evento em cada sub-regi˜ao. Como motiva¸c˜ao, considere que a regi˜ao S representa a cidade de Niter´oi particionada por seus bairros e suponha ainda o exemplo em que h´a o interesse em modelar o n´umero de casos de dengue nos bairros da cidade de Niter´oi, considerando as covari´aveis “n´umero de agentes que visita as casas dos bairros” e “programa de coleta de lixo consciente”. Considerar tamb´em que V ´e composto por vetores com caracter´ısticas dos indiv´ıduos que fazem parte da base de dados, neste caso, sexo (0 = “Feminino” e 1 = “Masculino”) e mora com a fam´ılia (0 = “N˜ao” e 1 = “Sim”). Desta forma, V = {V1, . . . , V4}, ´e da seguinte forma:

V1 = (0, 0)T : Mulheres que n˜ao moram com a fam´ılia

V2 = (0, 1)T : Mulheres que moram com a fam´ılia

V3 = (1, 0)T : Homens que n˜ao moram com a fam´ılia

V4 = (1, 1)T : Homens que moram com a fam´ılia.

Para o exemplo em quest˜ao, tem-se as seguintes configura¸c˜oes de indiv´ıduos por sub-regi˜ao, apresentadas na Tabela 1:

(29)

3.3 Modelos Estudados 28

Sub-regi˜ao V1 V2 V3 V4

1 um indiv´ıduo um indiv´ıduo um indiv´ıduo

2 um indiv´ıduo

3 um indiv´ıduo

4 um indiv´ıduo

5 dois indiv´ıduos um indiv´ıduo

6

7 um indiv´ıduo um indiv´ıduo

8 um indiv´ıduo

9 um indiv´ıduo um indiv´ıduo um indiv´ıduo

Tabela 1: Configura¸c˜oes das covari´aveis Vj no exemplo

Portanto, para este exemplo, a verossimilhan¸ca assume a seguinte forma:

L(δ, α, β, u|y) ∝ [r11exp{δ + αTV1+ βTX1 + u1}]1× [r12exp{δ + αTV2 + βTX1+ u1}]1

× [r13exp{δ + αTV3+ βTX1 + u1}]1× [r24exp{δ + αTV4 + βTX2+ u2}]1 × [r32exp{δ + αTV2+ βTX3 + u3}]1× [r41exp{δ + αTV1 + βTX4+ u4}]1 × [r53exp{δ + αTV3+ βTX5 + u5}]2× [r54exp{δ + αTV4 + βTX5+ u5}]1 × [r71exp{δ + αTV1+ βTX7 + u7}]1× [r74exp{δ + αTV4 + βTX7+ u7}]1 × [r84exp{δ + αTV4+ βTX8 + u8}]1× [r92exp{δ + αTV2 + βTX9+ u9}]1 × [r93exp{δ + αTV3+ βTX9 + u9}]1× [r94exp{δ + αTV4 + βTX9+ u9}]1 × exp ( − 9 X i=1 4 X j=1 rijexp{δ + αTVj+ βTXi + ui} ) .

Inferˆencia para o modelo 1

Com base no modelo 1 descrito acima, para fazer inferˆencia Bayesiana ser´a necess´ario definir a distribui¸c˜ao a priori conjunta, a qual, assumindo independˆencia a priori de δ, α, β, u e τu pode ser definida como:

p(δ, α, β, u, τu) = p(δ)p(α)p(β)p(u|τu)p(τu), em que p(u|τu) ∝ τ k 2 u exp n −τu 2 u Tuo . (3.7)

(30)

3.3 Modelos Estudados 29

. Tamb´em ´e necess´ario calcular a distribui¸c˜ao a posteriori conjunta, que ´e dada por:

p(δ, α, β, u, τu|y) ∝ L(δ, α, β, u|y)p(δ, α, β, u, τu) ∝ τ k 2+c−1 u k Y i=1 v Y j=1  (rijexp{δ + αTVj+ βTXi+ ui})yij yij!  × exp ( −dτu− k X i=1 v X j=1 rijexp{δ + αTVj + βTXi+ ui}  ) × exp  −1 2(α − o) T(α − o) + (β − a)T(β − a)  × exp  −1 2(δ − t) 2 + τ u(uTu)   .

A partir da distribui¸c˜ao a posteriori conjunta, ´e poss´ıvel escrever as distribui¸c˜oes con-dicionais completas, que tamb´em ser˜ao importantes para fazer inferˆencia sobre o modelo.

Desta forma, a distribui¸c˜ao de δ|y, α, β, u, τu ´e:

p(δ|y, α, β, u, τu) ∝ exp ( − k X i=1 v X j=1 [rijexp{δ + αTVj+ βTXi+ ui}] − 1 2(δ − t) 2 ) × k Y i=1 v Y j=1 exp δ + αTV j+ βTXi+ ui yij .

J´a a de α|y, δ, β, u, τu ´e dada por:

p(α|y, δ, β, u, τu) ∝ exp ( − k X i=1 v X j=1 [rijexp{δ + αTVj+ βTXi+ ui}] − 1 2(α − o) T(α − o) ) × k Y i=1 v Y j=1 exp δ + αTV j + βTXi+ ui yij .

A distribui¸c˜ao de β|y, δ, α, u, τu ´e dada por:

p(β|y, δ, α, u, τu) ∝ exp ( − k X i=1 v X j=1 [rijexp{δ + αTVj+ βTXi+ ui}] − 1 2(β − a) T(β − a) ) × k Y i=1 v Y j=1 exp δ + αTV j + βTXi+ ui yij .

(31)

3.3 Modelos Estudados 30

Seguida da distribui¸c˜ao de u|y, δ, α, β, τu que ´e:

p(u|y, δ, α, β, τu) ∝ exp ( − k X i=1 v X j=1 [rijexp{δ + αTVj+ βTXi+ ui}] − 1 2τu(u Tu) ) × k Y i=1 v Y j=1 exp{δ + αTV j + βTXi+ ui} yij .

Por fim, a distribui¸c˜ao de τu|y, δ, α, β, u ´e dada por:

p(τu|y, δ, α, β, u) ∝ τ (k2+c)−1 u exp  − 1 2(u Tu) + d  τu  ,

de onde conclui-se que:

τu|y, δ, α, β, u ∼ Gama  k 2 + c, 1 2(u Tu) + d  . (3.8)

3.3.2

Modelo 2

Neste segundo modelo, diferentemente do primeiro, pretense considerar uma de-pendˆencia espacial entre as sub-regi˜oes. Aqui, a dependˆencia espacial ser´a expressa por meio da distribui¸c˜ao a priori adotada para um dos componentes de λij. Deste modo,

a seguir ser´a apresentado um modelo Condicional Autorregressivo Gaussiano Intr´ınseco (CAR) (Besag et al. [1]), neste caso, um CAR(τb−1):

yij|rij, λij ∼ P oisson(Λij), i = 1, ..., k e j = 1, ..., v Λij = rijλij log(λij) = δ + αTVj + βTXi+ bi bi|bl = sl, l 6= i ∼ N (mi, vi) δ ∼ N (t, η1) α ∼ Np1(o, η2Ip1) β ∼ Np2(a, η3Ip2), em que τb ∼ Gama(g, h), mi = P l∈γi wilsl P l∈γi wil e vi = 1 τb P l∈γi wil .

(32)

3.3 Modelos Estudados 31

Cada mi e vi s˜ao, respectivamente, m´edias e variˆancias ponderadas, considerando os

vizinhos γi (conjunto de ´areas que fazem vizinhan¸ca com a ´area i) e W , uma matriz de

pesos em que cada wil recebe um valor dependendo da estrutura de vizinhan¸ca adotada.

Como foi dito acima, est´a sendo considerada uma dependˆencia espacial entre as sub-regi˜oes e, para a defini¸c˜ao do modelo CAR, ´e preciso definir quem ser˜ao considerados vizinhos. Na literatuta existem diversas estruturas de vizinhan¸ca. A seguir ser˜ao apre-sentadas, de forma sucinta, algumas dessas estruturas.

Tipos de Estrutura de Vizinhan¸ca

Aqui ser˜ao apresentadas algumas estruturas de vizinhan¸ca para os casos em que h´a dependˆencia espacial entre as regi˜oes, como ocorre no modelo 2 explicitado acima.

- Vizinhan¸ca bin´aria

Neste trabalho, optou-se por adotar este tipo de estrutura. Este ´e o tipo mais simples e ´e utilizado em modelagens em que considera-se apenas o fato de uma parti¸c˜ao da regi˜ao de estudo (que podem ser bairros, munic´ıpios, microrregi˜oes, UF, entre outros) fazer fronteira com outra. Sendo assim, a matriz W de pesos ´e compostas por 0 e 1, em que wil

recebe 1 se a parti¸c˜ao i faz fronteira com a parti¸c˜ao l, e recebe 0 caso n˜ao fa¸ca. Em casos como este, tem-se que a m´edia e a variˆancia dos efeitos espaciais s˜ao, respectivamente:

mi = P l∈γi sl ni e vi = 1 τbni ,

em que ni, i = 1, ..., k, ´e o n´umero de vizinhos da parti¸c˜ao i.

- Vizinhan¸ca ponderada pelo tamanho da fronteira

Quando as parti¸c˜oes da regi˜ao de estudo n˜ao possuem o mesmo tamanho, ´e interes-sante optar por este tipo de modelagem, j´a que leva em consder¸c˜ao a extens˜ao da fronteira entre elas. Neste tipo de estrutura, diferente da bin´aria, wil assume o valor do

compri-mento da fronteira entre a parti¸c˜ao i e a parti¸c˜ao l, em km. Desta forma, a influˆencia do efeito espacial de uma parti¸c˜ao em seu vizinho pode aumentar ou diminuir de acordo com o tamanho da fronteira entre eles.

- Vizinhan¸ca ponderada pelo tamanho da fronteira e pelas barreiras naturais

Este tipo de estrutura de vizinhan¸ca ´e uma deriva¸c˜ao da que foi descrita no item anterior e baseia-se em uma discuss˜ao proposta por Molli´e, em 1996 [26]. Neste caso, considera-se que fronteiras naturais, como montanhas, rios e mares, podem influenciar

(33)

3.3 Modelos Estudados 32

nas an´alises. Assim, wil assume o valor do comprimento da fronteira entre a parti¸c˜ao i e

a parti¸c˜ao l, em km, menos o comprimento da fronteira coberta pela “parede” natural. Voltando ao modelo, segue abaixo a fun¸c˜ao de verossimilhan¸ca para o mesmo:

L(δ, α, β, b|y) = exp ( − k X i=1 v X j=1 rijexp{δ + αTVj + βTXi+ bi} ) × k Y i=1 v Y j=1 (rijexp{δ + αTVj + βTXi+ bi})yij yij! .

Inferˆencia para o modelo 2

Assim com foi dito no modelo anterior, para fazer inferˆencia Bayesiana sobre este modelo tamb´em ser´a necess´ario definir a distribui¸c˜ao a priori conjunta dos parˆametros em quest˜ao, a qual, assumindo independˆencia a priori de δ, α, β, b e τb, pode ser escrita

como: p(δ, α, β, b, τb) = p(δ)p(α)p(β)p(b|τb)p(τb), em que: p(b|τb) ∝ τ k 2 b exp ( −τb 2 k X i=1 X l<i wil(bi− bl)2 ) . (3.9)

Diante disso, segue que a distribui¸c˜ao a posteriori conjunta ´e:

p(δ, α, β, b, τb|y) ∝ L(δ, α, β, b|y)p(δ, α, β, b, τb) ∝ L(δ, α, β, b|y)p(δ)p(α)p(β)p(b|τb)p(τb) ∝ τ k 2+g−1 b k Y i=1 v Y j=1 exp{δ + αT Vj + βTXi+ bi} yij × exp ( −1 2 " (β − a)T(β − a) + τb k X i=1 X l<i wil(bi− bl)2 #) × exp ( −hτb− k X i=1 v X j=1 rijexp{δ + αTVj + βTXi+ bi} ) × exp  −1 2(α − o) T(α − o) + (δ − t)2  .

Sabendo a distribui¸c˜ao a posteriori conjunta, seguem abaixo as distribui¸c˜oes condici-onais completas.

(34)

3.3 Modelos Estudados 33 A distribui¸c˜ao de δ|α, β, y, b, τb ´e: p(δ|y, α, β, b, τb) ∝ exp ( − k X i=1 v X j=1 [rijexp{δ + αTVj + βTXi+ bi}] − 1 2(δ − t) 2 ) × k Y i=1 v Y j=1 exp δ + αTV j + βTXi+ bi yij .

J´a a de α|y, δ, β, b, τb ´e dada por:

p(α|y, δ, β, u, τu) ∝ exp ( − k X i=1 v X j=1 [rijexp{δ + αTVj+ βTXi+ bi}] − 1 2(α − o) T (α − o) ) × k Y i=1 v Y j=1 exp δ + αTV j + βTXi+ bi yij .

A distribui¸c˜ao de β|δ, α, y, b, τb ´e semelhante a do modelo anterior, sendo expressa como:

p(β|y, δ, α, b, τb) ∝ exp ( − k X i=1 v X j=1 [rijexp{δ + αTVj + βTXi+ bi}] − 1 2(β − a) T(β − a) ) × k Y i=1 v Y j=1 exp δ + αTV j + βTXi+ bi yij .

J´a a distribui¸c˜ao de b|y, δ, α, β, τb ´e dada por:

p(b|y, δ, α, β, τb) ∝ exp ( − k X i=1 v X j=1 rijexp{δ + αTVj+ βTXi+ bi} − τb 2 k X i=1 X l<i wil(bi− bl)2 ) × k Y i=1 v Y j=1 exp δ + αTV j + βTXi+ bi yij .

A distribui¸c˜ao de τb|y, δ, α, β, b ´e a seguinte:

p(τb|y, δ, α, β, b) ∝ τ (k2+g)−1 b exp ( − " h + 1 2 k X i=1 X l<i wil(bi− bl)2 # τb ) ,

em que pode-se concluir que:

τb|y, δ, α, β, b ∼ Gama k 2 + g, h + 1 2 k X i=1 X l<i wil(bi− bl)2 ! . (3.10)

(35)

3.3 Modelos Estudados 34

3.3.3

Modelo 3

O modelo 3 ser´a definido utilizando componentes presentes nos modelos 1 e 2, isto ´e, λij ser´a composto tanto por bi, i = 1, . . . , k, como por ui, i = 1, . . . , k. Note que os

demais modelos s´o possuem um componente que varia no espa¸co, j´a o modelo 3 possui dois. Deste modo, o modelo ´e definido por:

yij|rij, λij ∼ P oisson(Λij), i = 1, ..., k e j = 1, ..., v Λij = rijλij log(λij) = δ + αTVj + βTXi+ bi+ ui bi|bl = sl, l 6= i ∼ N (mi, vi) u = (u1, ..., uk)T ∼ Nk(0, τu−1Ik) δ ∼ N (t, η1) α ∼ Np1(o, η2Ip1) β ∼ Np2(a, η3Ip2), em que mi = P l∈γi wilsl P l∈γi wil e vi = 1 τb P l∈γi wil , τb ∼ Gama(g, h) e τu ∼ Gama(c, d).

Dando continuidade, a fun¸c˜ao de verossimilhan¸ca para o terceiro modelo ´e dada por:

L(δ, α, β, b, u|y) = exp ( − k X i=1 v X j=1 rijexp{δ + αTVj+ βTXi+ bi+ ui} ) × k Y i=1 v Y j=1 (rijexp{δ + αTVj + βTXi+ bi+ ui})yij yij! .

Inferˆencia para o modelo 3

Seguindo o que foi dito nos modelos anteriores, novamente ser´a necess´ario definir a distribui¸c˜ao a priori conjunta dos parˆametros do modelo 3. Desta forma, assumindo independˆencia a priori de δ, α, β, b, u, τb e τu, tem-se que a disribui¸c˜ao a priori conjunta

(36)

3.3 Modelos Estudados 35

pode ser definida como:

p(δ, α, β, b, u, τb, τu) = p(δ)p(α)p(β)p(b|τb)p(τb)p(u|τu)p(τu),

em que p(u|τu) e p(b|τb) s˜ao as mesmas distribui¸c˜oes explicitadas, respectivamente, por

(3.7) e (3.9).

A distribui¸c˜ao a posteriori conjunta para este modelo ´e:

p(δ, α, β, b, u, τb, τu|y) ∝ L(δ, α, β, b, u|y)p(δ, α, β, b, u, τb, τu) ∝ L(δ, α, β, b, u|y)p(δ)p(α)p(β)p(b|τb)p(τb)p(u|τu)p(τu) ∝ τ k 2+g−1 b exp ( − k X i=1 v X j=1 rijexp{δ + αTVj+ βTXi + bi+ ui} ) × τk2+c−1 u k Y i=1 v Y l=1  (rijexp{δ + αTVj + βTXi+ bi+ ui})yij yij!  × exp  −1 2(δ − t) 2+ (α − o)T(α − o) + (β − a)T(β − a)  × exp ( −τb " h + 1 2 k X i=1 X l<i wil(bi− bl)2 #) × exp  −τu  d + 1 2(u Tu) 

Abaixo, seguem as distribui¸c˜oes condicionais completas, iniciando pela de δ|y, α, β, b, u, τb, τu,

que ´e dada por:

p(δ|y, α, β, b, u, τb, τu) ∝ exp ( − k X i=1 v X j=1 [rijexp{δ + αTVj+ βTXi+ bi+ ui}] − 1 2(δ − t) 2 ) × k Y i=1 v Y j=1 exp δ + αTV j+ βTXi+ bi+ ui yij A distribui¸c˜ao de α|y, δ, β, b, u, τb, τu ´e: p(α|y, δ, β, b, u, τb, τu) ∝ exp ( − k X i=1 v X j=1 rijexp{δ + αTVj+ βTXi+ bi+ ui} ) × k Y i=1 v Y j=1 exp δ + αTV j+ βTXi+ bi+ ui yij × exp  −1 2(α − o) T(α − o)  .

(37)

3.3 Modelos Estudados 36 J´a a de β|y, δ, α, b, u, τb, τu ´e: p(β|y, δ, α, b, u, τb, τu) ∝ exp ( − k X i=1 v X j=1 rijexp{δ + αTVj+ βTXi+ bi+ ui} ) × k Y i=1 v Y j=1 exp δ + αTV j+ βTXi+ bi+ ui yij × exp  −1 2(β − a) T(β − a)  .

Seguida pela de b|y, δ, α, β, u, τb, τu, dada por:

p(b|y, β, u, τb, τu) ∝ exp ( − k X i=1 v X j=1 rijexp{δ + αTVj + βTXi+ bi+ ui}  ) × k Y i=1 v Y j=1 exp δ + αTV j+ βTXi+ bi+ ui yij × exp ( −τb 2 k X i=1 X l<i wil(bi− bl)2 ) . J´a a disribui¸c˜ao de u|y, δ, α, β, b, τb, τu ´e: p(u|y, δ, α, β, b, τb, τu) ∝ exp ( − k X i=1 v X j=1 rijexp{δ + αTVj + βTXi+ bi+ ui} − τu 2 u Tu ) × k Y i=1 v Y j=1 exp δ + αT Vj+ βTXi+ bi+ ui yij .

Finalizando, as distribui¸c˜oes de τu|y, δ, α, β, b, u, τb e τb|y, δ, α, β, b, u, τu s˜ao as

mes-mas do primeiro e segundo modelo, vide (3.8) e (3.10), respectivamente.

Para escolher o modelo que melhor se adequa `a distribui¸c˜ao espacial dos dados de interesse, utiliza-se o DIC (Deviance Information Criterion). A pr´oxima se¸c˜ao dar´a uma breve explica¸c˜ao de como aplicar este m´etodo.

(38)

3.4 Deviance Information Criterion - DIC 37

3.4

Deviance Information Criterion - DIC

O DIC ´e um crit´erio de sele¸c˜ao de modelos muito utilizado na inferˆencia Bayesiana quando o m´etodo MCMC foi necess´ario para se obter as disribui¸c˜oes a posteriori. Este crit´erio, assim como o AIC (Akaike Information Criterion) e o BIC (Bayesian Information Criterion), ´e uma aproxima¸c˜ao assint´otica, que se torna melhor de acordo com o aumento do tamanho da amostra.

Seja yi, i = 1, ..., k a vari´avel de interesse, θ o vetor de parˆametros, L(θ|y) a fun¸c˜ao

de verossimilhan¸ca de y e κ uma constante.

Diante disto, pode-se definir o desvio de θ e a sua esperan¸ca como, respectivamente:

D(θ) = −2log(L(θ|y)) + κ e D = E[D(θ)],¯

em que ¯D ´e uma medida que avalia a qualidade do ajuste do modelo em rela¸c˜ao aos dados. O DIC ´e calculado da seguinte maneira:

DIC = pD + ¯D,

que tamb´em pode ser reescrito como:

DIC = D(¯θ) + 2pD,

em que ¯θ ´e a m´edia do vetor de parˆametros θ e pD, segundo Spiegelhter [27], ´e tal que:

pD = ¯D − D(¯θ).

Com base neste crit´erio, o melhor modelo ´e aquele que apresentar o menor valor para o DIC.

(39)

38

4

An´

alise dos Resultados

Este cap´ıtulo do trabalho apresenta os resultados obtidos a partir das an´alises dos dados. Aqui est˜ao presentes gr´aficos e tabelas, al´em da decis˜ao tomada a partir do crit´erio de compara¸c˜ao de modelos. O cap´ıtulo est´a dividido em trˆes se¸c˜oes: Base de Dados, em que o banco de dados utilizado ´e descrito; Modelos, em que as modelagens propostas s˜ao apresentadas de forma j´a aplicada aos dados que foram usados; e, enfim, Resultados, se¸c˜ao na qual a resposta sobre qual modelo se adequa melhor aos dados ´e revelada.

4.1

Base de Dados

Para realizar as an´alises, foi utilizado um banco de dados com o n´umero de ´obitos devido a ingest˜ao de bebidas alco´olicas nos vinte e seis estados brasileiros e no Distrito Federal (totalizando vinte e sete Unidades Federativas), o qual foi adquirido no SIM (Sis-tema de Informa¸c˜ao de Mortalidade). As observa¸c˜oes presentes na base foram coletadas entre os anos de 1998 e 2012 e s˜ao divididas por sexo (0 = “Feminino” e 1 = “Masculino”) e faixa et´aria (0 = “Indv´ıduos com at´e 30 anos de idade” e 1 = “Indiv´ıduos com 30 anos de idade ou mais”). Todas as an´alises foram feitas nos softwares R e OpenBUGS.

Para ajustar os trˆes modelos apresentados na Se¸c˜ao 3.3, n˜ao foram utilizadas co-vari´aveis espaciais (seriam estas: N´umero de Alfabetizados por UF, Renda Mensal M´edia Nominal por UF e IDH por UF, todas tendo como fonte o SIDRA, Sistema IBGE de Recupera¸c˜ao Autom´atica, para o ano de 2010). Isto aconteceu porque, utilizando es-tas covari´aveis, os resultados apresentavam instabilidades, isto ´e, alguns parˆametros n˜ao mostravam convergˆencia e outros um intervalo de credibilidade demasiadamente grande. Portanto, nas modelagens foram consideradas apenas as covari´aveis n˜ao-espaciais (sexo e idade, de forma como foram descritas no primeiro par´agrafo desta se¸c˜ao), sendo rij,

(40)

4.2 Modelos 39

4.2

Modelos

Abaixo est˜ao descritos todos os modelos utilizados para modelagem dos dados. S˜ao estes: o modelo 1, que leva em considera¸c˜ao um efeito aleat´orio que n˜ao assume de-pendˆencia espacial entre as UF brasileiras; o modelo 2, que, ao contr´ario do 1, considera que as UF possuem dependˆencia espacial (CAR, com estrutuara de vizinhan¸ca bin´aria); e o modelo 3, o qual possui os dois tipos de efeitos espaciais aleat´orios. Este ´ultimo foi di-vidido em trˆes novas vers˜oes, devido a um ajuste insatisfat´orio, com certas instabilidades, que tinham como consequˆencias, por exemplo, intervalos de credibilidades muito grandes para os parˆametros deste modelo. Assim, tem-se o modelo 3∗, em que o τu ´e fixo (o valor

utilizado foi a mediana obtida no modelo 1, 3,3095); o modelo 3∗∗, em que o τb ´e fixo (o

valor utilizado foi a mediana obtida no modelo 2, 1,6420); e, por ´ultimo, o modelo 3∗∗∗, em que tanto o τu quanto o τb s˜ao fixos (da mesma forma que nos dois modelos anteriores, os

valores utilizados foram as medianas obtidas nos modelos 1 e 2, respectivamente). Assim, os modelos se d˜ao da seguinte forma:

Modelo 1 yij|rij, λij ∼ P oisson(Λij), i = 1, ..., 27 e j = 1, ..., 4 Λij = rijλij log(λij) = δ + αTVj + ui u = (u1, ..., u27)T ∼ N27(0, τu−1I27) δ ∼ N (0, η1) α ∼ N2(0, η2I2), em que τu ∼ Gama  1, 1 1000  e η1 = η2 = 1 10000.

(41)

4.2 Modelos 40 Modelo 2 yij|rij, λij ∼ P oisson(Λij), i = 1, ..., 27 e j = 1, ..., 4 Λij = rijλij log(λij) = δ + αTVj + bi bi|bl = sl, l 6= i ∼ N (mi, vi) δ ∼ N (0, η1) α ∼ N2(0, η2I2), em que mi = P l∈γi sl ni e vi = 1 τbni , i = 1, ..., 27 e l = 1, ..., 27, l 6= i, e τb ∼ Gama  2, 5 1000  e η1 = η2 = 1 10000. Modelo 3* yij|rij, λij ∼ P oisson(Λij), i = 1, ..., 27 e j = 1, ..., 4 Λij = rijλij log(λij) = δ + αTVj + bi+ ui bi|bl = sl, l 6= i ∼ N (mi, vi) u = (u1, ..., u27)T ∼ N27(0, τu−1I27) δ ∼ N (0, η1) α ∼ N2(0, η2I2), em que mi = P l∈γi sl ni e vi = 1 τbni , i = 1, ..., 27 e l = 1, ..., 27, l 6= i, e τu = 3, 3095, τb ∼ Gama  2, 5 1000  e η1 = η2 = 1 10000.

(42)

4.2 Modelos 41 Modelo 3** yij|rij, λij ∼ P oisson(Λij), i = 1, ..., 27 e j = 1, ..., 4 Λij = rijλij log(λij) = δ + αTVj + bi+ ui bi|bl = sl, l 6= i ∼ N (mi, vi) u = (u1, ..., u27)T ∼ N27(0, τu−1I27) δ ∼ N (0, η1) α ∼ N2(0, η2I2) em que mi = P l∈γi sl ni e vi = 1 τbni , i = 1, ..., 27 e l = 1, ..., 27, l 6= i, e τb = 1, 6420, η1 = η2 = 1 10000 e τu ∼ Gama  1, 1 1000  . Modelo 3*** yij|rij, λij ∼ P oisson(Λij), i = 1, ..., 27 e j = 1, ..., 4 Λij = rijλij log(λij) = δ + αTVj + bi+ ui bi|bl = sl, l 6= i ∼ N (mi, vi) u = (u1, ..., u27)T ∼ N27(0, τu−1I27) δ ∼ N (0, η1) α ∼ N2(0, η2I2) em que mi = P l∈γi sl ni e vi = 1 τbni , i = 1, ..., 27 e l = 1, ..., 27, l 6= i, e τb = 1, 6420, τu = 3, 3095 e η1 = η2 = 1 10000.

(43)

4.3 Resultados 42

4.3

Resultados

Esta se¸c˜ao ilustra os resultados por meio de gr´aficos e tabelas, al´em de responder ao questionamento principal do estudo, que consiste em determinar o modelo que melhor se adequa aos dados (n´umero de ´obitos por ingest˜ao de bebidas alco´olicas nas Unidades Federativas brasileiras).

Figura 5: N´umero de ´obitos por ´alcool em cada UF

Para uma primeira visualiza¸c˜ao dos dados utilizados, observa-se a Figura 5, a qual mostra a distribui¸c˜ao do n´umero de ´obitos por ingest˜ao de bebidas alco´olicas nas Unidades Federativas brasileiras. Nota-se que as regi˜oes Sudeste e Nordeste s˜ao as que apresentam mais UF com quantidades altas de mortes por ingest˜ao de ´alcool.

(44)

4.3 Resultados 43

Figura 6: N´umero de ´obitos por ´alcool para cada categoria de sexo e faixa et´aria em cada UF

J´a a Figura 6 tamb´em mostra a distribui¸c˜ao do n´umero de ´obitos por ingest˜ao de bebidas alco´olicas nas Unidades Federativas brasileiras, por´em, considerando o sexo e a faixa et´aria das v´ıtimas. Para cada categoria de sexo e faixa et´aria, observa-se que o padr˜ao apresentado para o total de mortes (n˜ao considerando o sexo nem a faixa et´aria dos indiv´ıduos) se repete, ou seja, as regi˜oes Sudeste e Nordeste s˜ao as que possuem mais UF com v´ıtimas fatais tendo como causa a ingest˜ao de ´alcool, tendo estas UF grandes quantidades de ´obitos. Al´em disso, nota-se que o mapa que ilustra as mortes de indiv´ıduos homens com 30 anos ou mais de idade, apresenta n´umeros maiores de v´ıtimas do que as demais categorias presentes, indicando uma poss´ıvel rela¸c˜ao entre indiv´ıduos que possuem estas carater´ısticas e o aumento de ´obitos pela ingest˜ao de ´alcool.

I de Moran Global P-valor

0,3053 0,0039

(45)

4.3 Resultados 44

A Tabela 2 mostra o valor da estat´ısica do teste (I de Moran Global) e o p-valor correspondentes ao teste I de Moran, o qual tem como objetivo testar a hip´otese de dependˆencia espacial nos dados. Considerando um n´ıvel de significˆancia de 5%, conclui-se com o teste que h´a ind´ıcios de que os dados possuem dependˆencia espacial. Por´em, mesmo diante deste resultado, optou-se por continuar a considerar efeitos que pressup˜oem independˆencia espacial nos modelos que eram compostos por este tipo de efeito.

(a) Modelo 1 (b) Modelo 2

(c) Modelo 3* (d) Modelo 3**

(e) Modelo 3***

Figura 7: Histogramas das distribui¸c˜oes a posteriori do parˆametro δ para cada modelo utilizado

(46)

4.3 Resultados 45

(a) Modelo 1 (b) Modelo 2

(c) Modelo 3* (d) Modelo 3**

(e) Modelo 3***

Figura 8: Histogramas das distribui¸c˜oes a posteriori do efeito do sexo α1para cada modelo

(47)

4.3 Resultados 46

(a) Modelo 1 (b) Modelo 2

(c) Modelo 3* (d) Modelo 3**

(e) Modelo 3***

Figura 9: Histogramas das distribui¸c˜oes a posteriori do efeito da faixa et´aria α2 para cada

(48)

4.3 Resultados 47

(a) Modelo 1 (b) Modelo 3*

(c) Modelo 3** (d) Modelo 3***

Figura 10: Gr´afico das medianas e intervalo de credibilidade de 95% das distribui¸c˜oes a posteriori do parˆametro u para cada modelo utilizado

(a) Modelo 1 (b) Modelo 3**

Figura 11: Histogramas das distribui¸c˜oes a posteriori do parˆametro τu para cada modelo

(49)

4.3 Resultados 48

(a) Modelo 2 (b) Modelo 3*

(c) Modelo 3** (d) Modelo 3***

Figura 12: Gr´afico das medianas e intervalo de credibilidade de 95% das distribui¸c˜oes a posteriori do parˆametro b para cada modelo utilizado

(a) Modelo 2 (b) Modelo 3*

Figura 13: Histogramas das distribui¸c˜oes a posteriori do parˆametro τb para cada modelo

(50)

4.3 Resultados 49 δ α1 α2 Modelo Md IC 95% Md IC 95% Md IC 95% 1 -0,1284 (-0,2461 ; 0,0003) 2,1990 (2,1770 ; 2,2190) 2,9450 (2,9159 ; 2,9740) 2 -0,1812 (-0,2444 ; -0,1181) 2,1990 (2,1620 ; 2,2390) 2,9440 (2,8890 ; 2,9950) 3* -0,2899 (-0,4739 ; -0,0722) 2,1990 (2,1640 ; 2,2340) 2,9480 (2,8980 ; 2,9960) 3** -0,2108 (-0,4156 ; -0,0580) 2,1990 (2,1620 ; 2,2370) 2,9460 (2,8950 ; 2,9960) 3*** -0,3179 (-0,4877 ; -0,1454) 2,2000 (2,1670 ; 2,2300) 2,9450 (2,9010 ; 2,9890) Tabela 3: Medianas e Intervalos de Credibilidade de 95% para os parˆametros δ, α1 e α2

dos modelos ajustados

Para todos os gr´aficos apresentados, as linhas verticais tracejadas representam os intervalos de credibilidade de 95% para o parˆametro em quest˜ao. Para cada parˆametro, os gr´aficos foram constru´ıdos utilizando o mesmo eixo x, para que seja poss´ıvel a compara¸c˜ao entre os mesmos. No caso dos parˆametros δ, α1 e α2, as respectivas medianas e intevalos

de credibilidade de 95% est˜ao explicitados na Tabela 3.

De acordo com os gr´aficos da Figura 7 e a Tabela 3, observa-se que os intervalos de credibilidade de 95% para δ (intercepto) contˆem apenas valores negativos, para todos os modelos ajustados, exceto o modelo 1, cujo intervalo cont´em o zero, indicando que neste modelo o intercepto n˜ao ´e estatisticamente significativo. Al´em disso, as estimativas pontuais (medianas) s˜ao negativas para os modelos cujo efeito foi considerado diferente de 0, tendo o modelo 2 a maior estimativa (-0,1812) e o modelo 3*** a menor (-0,3179). J´a as estimativas pontuais e intervalares para o parˆametro α1 (associado ao sexo),

como pode ser visto na Figura 8 e na Tabela 3, s˜ao muito pr´oximas para todos os modelos. Nota-se que os intervalos de credibilidade n˜ao possuem o zero em todos os modelos e que as estimativas pontuais s˜ao positivas, indicando que se o indiv´ıduo for homem, o n´umero de ´obitos por ´alcool aumenta.

Para o parˆametro α2 (associado `a faixa et´aria), os intervalos de credibilidade de 95%

apresentam limites e comprimentos pr´oximos para todos os modelos, al´em de n˜ao pos-suirem o zero, como pode se visto na Figura 9 e Tabela 3. Em rela¸c˜ao `as estimativas pontuais, estas apresentam valores pr´oximos e positivos, com uma diferen¸ca m´axima de 0,004 da menor estimativa (modelo 2: md = 2,9440) para a maior (modelo 3*: md = 2,9480). O fato dessas estimativas serem positivas significa que, se o indiv´ıduo tem 30 anos ou mais de idade, aumenta o n´umero de ´obitos por ingest˜ao de bebidas alco´olicas.

Quanto aos parˆametros ui, i = 1, ..., 27 (efeitos espaciais independentes), presentes

nos modelos 1, 3*, 3** e 3***, percebe-se que no modelo 1, que apresenta apenas este vetor de efeitos espaciais, as estimativas pontuais variam muito mais entre si do que nos

(51)

4.3 Resultados 50

outros modelos, os quais apresentam, al´em do vetor u, o vetor b de efeitos aleat´orios espaciais (este fato pode ser comprovado quando compara-se as estimativas obtidas em rela¸c˜ao a reta y = 0 tracejada), vide Figura 10. Isso ocorre porque o modelo apresenta apenas este componente variando de regi˜ao para regi˜ao (as UF, neste caso). O mesmo acontece em rela¸c˜ao aos bi, i = 1, ..., 27 (efeitos espaciais dependentes), presentes nos

modelos 2, 3*, 3** e 3*** (ver Figura 12). Ou seja, por apresentarem os dois tipos de efeitos espaciais, os modelos 3*, 3** e 3*** possuem menor varia¸c˜ao no espa¸co, quando comparadas os modelos que apresentam apenas um dos efeitos. Al´em disso, os intervalos de credibilidades de 95% para estas trˆes vers˜oes do modelo 3 s˜ao muito maiores.

Em rela¸c˜ao `as precis˜oes, observando a Figura 11, conclui-se que os valores das es-timativas para τu (precis˜ao dos efeitos espaciais independentes, u), s˜ao todas positivas

(como j´a era de se esperar, j´a que trata-se de precis˜ao, que ´e o inverso da variˆancia). Al´em disso, no modelo 3**, estes valores s˜ao mais altos, com estimativas chegando a 40, o que tem como consequˆencia uma menor variabilidade para o vetor u (efeitos espaciais independentes). O mesmo comportamento se repete para as estimativas da precis˜ao do vetor de efeitos espaciais dependentes, b, o τb (vide Figura 13). Neste caso, o modelo que

apresenta maiores estimativas ´e o 3*, chegando a assumir valores pr´oximos de 12. Desta forma, o modelo 3* ´e o que apresenta menor variabilidade para o vetor b (efeitos espaciais dependentes). Estes resultados comprovam o que foi conclu´ıdo no par´agrafo anterior.

Para fazer o ajuste utilizando o modelo 1, foram realizadas 400.000 itera¸c˜oes, das quais 200.000 fizeram parte do per´ıodo aquecimento (burn-in) e utilizou-se um espa¸camento (thin) de 100 unidades. J´a no caso dos modelo 2, 300.000 itera¸c˜oes foram realizadas em que o burn-in foi de 100.000 itera¸c˜oes e, novamente, houve um espa¸camento de 100. Para o modelo 3**, foram necess´arias 1.000.000 itera¸c˜oes para obter convergˆencia, em que 800.000 foram tomadas como aquecimento e, mais uma vez, o espa¸camento foi de 100. Por fim, no ajuste dos modelos 3* e 3***, 1.200.000 itera¸c˜oes foram rodadas, tendo 1.000.000 destas utilizadas no per´ıodo de aquecimento e utilizou-se um espa¸camento de 100 unidades. Com isso, todas as modelagens obtiveram uma amostra final de tamanho 2.000.

(52)

4.3 Resultados 51 Modelo DIC 1 2.014 2 2.111 3* -4.246 3** -22.660 3*** -16.600

Tabela 4: DIC dos modelos ajustados

Diante de todos esses resultados, ´e o momento de decidir qual o melhor modelo para ajustar os dados. Neste trabalho, o crit´erio escolhido para tomar esta decis˜ao foi o DIC. A Tabela 4 apresenta o valor deste crit´erio para cada modelo considerado nesta an´alise. Desta forma, observa-se que o modelo 3** ´e o que apresenta o menor DIC (-22.660), portanto, pela regra de decis˜ao explicitada na Se¸c˜ao 3.4, o modelo 3**, no qual o τb ´e fixo,

(53)

52

5

Conclus˜

ao

Neste trabalho, analisou-se a distribui¸c˜ao espacial dos ´obitos por ingest˜ao de bebidas alco´olicas nas Unidades Federativas brasileiras, entre os anos de 1998 e 2012, utilizando um enfoque totalmente bayesiano.

Como j´a foi mencionado, este consiste em um estudo de dados de ´area, tendo em sua modelagem o uso apenas de covari´aveis n˜ao-espaciais, ou seja, aquelas que dizem respeito aos indiv´ıduos que fizeram parte do estudo (neste caso, sexo e faixa et´aria).

Para realizar o estudo, foram considerados trˆes modelos iniciais, tendo o terceiro mo-delo recebido trˆes novas vers˜oes devido a resultados n˜ao satisfatorios obtidos com o modelo 3 original (intervalos de credibilidade muito grandes para os parˆametros considerados).

O modelo 1 ´e o mais simples dos cinco modelos: ´e um modelo que n˜ao considera um efeito espacial, isto ´e, pressup˜oe independˆencia entre as regi˜oes em que o fenˆomeno de interesse foi estudado (no caso, as UF do Brasil). Em contrapartida, o modelo 2 j´a apresenta uma modelagem em que se pressup˜oe uma dependˆencia espacial, por meio de uma priori CAR considerando uma estrutura de vizinhan¸ca bin´aria. O modelo 3, que foi repartido em trˆes vers˜oes, apresenta, para todas estas, os dois tipos de efeito: com dependˆencia e com independˆencia espacial. As trˆes vertentes deste modelo se diferenciam da seguinte forma: o modelo 3* considera fixa a precis˜ao dos efeitos espaciais indepen-dentes; j´a o modelo 3**, considera fixa a precis˜ao dos efeitos espaciais dependentes; por fim, o modelo 3*** considera estas duas quantidades fixas.

Dentre os resultados obtidos, pose destacar que modelos que possuem tanto de-pendˆencia espacial (segundo a estrutura de vizinhan¸ca bin´aria) entre as parti¸c˜oes da regi˜ao de estudo (neste caso, as Unidades Federativas brasileiras), quanto independˆencia espa-cial entre as mesmas, apresentam resultados melhores quando comparados com os que possuem apenas um destes efeitos.

Observa-se que os parˆametros α1 e α2 apresentam estimativas pontuais positivas, o

Referências

Documentos relacionados

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

Promovido pelo Sindifisco Nacio- nal em parceria com o Mosap (Mo- vimento Nacional de Aposentados e Pensionistas), o Encontro ocorreu no dia 20 de março, data em que também

6 Consideraremos que a narrativa de Lewis Carroll oscila ficcionalmente entre o maravilhoso e o fantástico, chegando mesmo a sugerir-se com aspectos do estranho,

Com o objetivo de compreender como se efetivou a participação das educadoras - Maria Zuíla e Silva Moraes; Minerva Diaz de Sá Barreto - na criação dos diversos

Em média, a Vivo forneceu a melhor velocidade de download para os seus clientes em 2020... A Vivo progrediu em especial a partir de abril

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e

As reuniões entre a FPCUB e a CML, mais concretamente com o Gabinete do Vereador Miguel Gaspar, quer presencialmente, quer via zoom, sobre a rede ciclável concretizada e

obtidas em cada base, também são registradas, elas são utilizadas para dar volume ao sistema subterrâneo.. Trabalhos sobre levantamentos topográficos em cavernas [1,2] discutem