• Nenhum resultado encontrado

Modelagem probabilística da dinâmica da Zika usando modelos hierárquicos bayesianos

N/A
N/A
Protected

Academic year: 2021

Share "Modelagem probabilística da dinâmica da Zika usando modelos hierárquicos bayesianos"

Copied!
103
0
0

Texto

(1)

Funda¸

ao Getulio Vargas

Escola de Matem´

atica Aplicada

Marcio Maciel Bastos

Modelagem Probabil´ıstica da Dinˆ

amica da

Zika Usando Modelos Hier´

arquicos

Bayesianos

Rio de Janeiro 2018

(2)

Marcio Maciel Bastos

Modelagem Probabil´ıstica da Dinˆ

amica da

Zika Usando Modelos Hier´

arquicos

Bayesianos

Disserta¸c˜ao submetida `a Escola de Ma-tem´atica Aplicada como requisito parcial para a obten¸c˜ao do grau de Mestre em Mo-delagem Matem´atica da Informa¸c˜ao. ´

Area de Concentra¸c˜ao: Epidemiologia Matem´atica Orientador: Fl´avio Code¸co Coelho

Rio de Janeiro 2018

(3)

Ficha catalográfica elaborada pela Biblioteca Mario Henrique Simonsen/FGV

Bastos, Marcio Maciel

Modelagem probabilística da dinâmica da zika usando modelos hierárquicos

bayesianos / Marcio Maciel Bastos. – 2018. 101 f.

Dissertação (mestrado) – Fundação Getulio Vargas, Escola de Matemática Aplicada.

Orientador: Flávio Codeço Coelho. Inclui bibliografia.

1. Vírus da zika. 2. Modelagem de dados. 3. Teoria bayesiana de decisão estatística. 4. Epidemiologia – Modelos matemáticos. I. Coelho, Flávio Codeço. II. Fundação Getulio Vargas. Escola de Matemática Aplicada. III. Título.

(4)
(5)

Agradecimentos

Gostaria de agradecer a minha esposa Sara, os meus pais e os professores Fl´avio e Renato.

(6)

Resumo

O Zika virus (ZIKV) ´e um pat´ogeno da fam´ılia Flaviviridae transmitido no Brasil principalmente pelo mosquito Aedes aegypti e em menor escala por rela¸c˜oes sexuais. Al´em dos sintomas comuns `a dengue e chikungunya, o v´ırus da zika tamb´em ´e capaz de causar danos irrevers´ıveis no sistema nervoso, em adultos est´a relacionada `a s´ındrome de Guillain-Barr´e e em fetos provoca microcefalia. O sistema de sa´ude do Rio de Janeiro mant´em um banco de dados com os registros dos pacientes que buscaram atendimento e apresentaram sintomas de Zika.

O nosso estudo busca estimar o verdadeiro tamanho da epidemia que ocorreu no ano de 2016 e os parˆametros que podem ser ajustados para ex-plicar o processo de dissemina¸c˜ao. Para realizar essas estimativas, utiliza-mos os dados fornecidos pelo sistema de sa´ude e uma modelagem Bayesiana hier´arquica adaptada ao modelo epidemiol´ogico SIR. Realizamos o processo de inferˆencia atrav´es de modernas t´ecnicas de amostragem, como Automa-tic Differentiation Variational Inference (ADVI), Stein Variational Gradient Descent (SVGD) e No-U-Turn (NUTS).

(7)

Abstract

The Zika virus (ZIKV) is a pathogen of the family Flaviviridae, trans-mitted in Brazil mainly by the mosquito Aedes aegypti and in less extent by sexual relations. In addition to symptoms common to dengue and chi-kungunya, the zika virus is also capable of causing irreversible damage to the nervous system, in adults it is related to Guillain-Barr´e syndrome and in fetuses it causes microcephaly. The Health Department of Rio de Ja-neiro maintains a database with records of patients who sought care and was infeccted with Zika.

Our study seeks to estimate the true size of the epidemic that occurred in the year 2016 and the parameters that fit to explain the dissemination process. To make these estimates, we used the data provided by the Health Department and a hierarchical Bayesian model adapted to the SIR epidemi-ological model. We perform the inference process through modern sampling techniques such as Automatic Differentiation Variational Inference (ADVI), Stein Variational Gradient Descent (SVGD) and No-U-Turn (NUTS).

(8)

Sum´

ario

1 Introdu¸c˜ao 11

2 Referencial Te´orico 12

2.1 Zika . . . 12

2.1.1 Sintomas . . . 12

2.2 Simula¸c˜ao de N´umeros Pseudo-aleat´orios . . . 13

2.2.1 M´etodo da Congruˆencia Linear . . . 14

2.2.2 M´etodo da Transforma¸c˜ao Inversa . . . 14

2.2.3 M´etodo da Aceita¸c˜ao-Rejei¸c˜ao . . . 14

2.3 Redes Bayesianas . . . 15

2.3.1 Modelos Hier´arquicos . . . 18

2.3.2 Inferˆencia / Aprendizado . . . 19

2.4 Monte Carlo via Cadeias de Markov (MCMC) . . . 19

2.4.1 Integra¸c˜ao por M´etodo de Monte Carlo . . . 20

2.4.2 Cadeias de Markov . . . 20

2.4.3 Metropolis-Hastings . . . 21

2.4.4 Monte Carlo Hamiltoniano (HMC) . . . 22

2.4.5 Amostrador No-U-Turn (NUTS) . . . 25

2.4.6 Diagn´ostico . . . 30

2.5 Inferˆencia Variacional (VI) . . . 35

2.5.1 Automatic Differentiation Variational Inference (ADVI) 38 2.5.2 Stein Variational Gradient Descent (SVGD) . . . 40

2.6 Modelos Compartimentais em Epidemiologia . . . 43

3 Metodologia 47 3.1 Dados . . . 47

3.1.1 Limpeza dos dados . . . 47

(9)

3.2.1 Verossimilhan¸ca . . . 51

3.2.2 Defini¸c˜oes a priori . . . 53

4 Resultados 61 4.1 Diagn´ostico . . . 61 4.2 Estimativas . . . 68 5 Artigo Cient´ıfico 72 5.1 Introduction . . . 73 5.2 Methods . . . 74

5.2.1 The data set . . . 75

5.2.2 Likelihoods . . . 79

5.2.3 Female in fertile age model . . . 80

5.2.4 Male, Female not in Fertile Age, Total Female model . 86 5.3 Results . . . 89

5.3.1 Epidemiological parameter estimates . . . 89

5.4 Discussion and Conclusion . . . 95

5.5 Acknowledgements . . . 95

6 Conclus˜ao 96

(10)

Lista de Figuras

2.1 Exemplo de Rede Bayesiana. Fonte: (Barber 2016) . . . 16 2.2 Nota¸c˜ao de placa: permite organizar vari´aveis com

dis-tribui¸c˜ao equivalente (2.1) em uma figura mais condensada. Fonte: (Barber 2016) . . . 17 2.3 Modelos de d-separa¸c˜ao. Os n´os preenchidos representam

que a vari´avel foi observada . . . 18 2.4 Tra¸cado da amostragem de uma vari´avel θ. Perceba

o amostrador permanece preso um uma regi˜ao durante as itera¸c˜oes entre as linhas tracejadas, indicando que h´a um pro-blema com o processo de amostragem. . . 31 2.5 Tra¸cado com problema de convergˆencia . . . 33 2.6 Gr´afico com o comportamento t´ıpico das fun¸c˜oes S(t) e I(t),

a fun¸c˜ao R(t) ´e unicamente definida conhecendo-se N , S(t) e I(t). . . 44 3.1 Rede Bayesiana utilizada para estimar os limites da

dura¸c˜ao da epidemia. O c´ırculo preenchido indica os da-dos observada-dos, o ponto verde indica um parˆametro fixo, os demais c´ırculos representam as vari´aveis aleat´orias do modelo e as cores representam suas distribui¸c˜oes a priori, com rosa indicando Exponencial e cinza Uniforme. . . 49 3.2 Sobreposi¸c˜ao do n´umero de nascimentos nos anos de

2015 e 2016. Percebemos que h´a um significativo decr´escimo na taxa de natalidade ap´os o instante demarcado pela linha azul vertical. . . 50

(11)

3.3 Rede Bayesiana do modelo SIR das mulheres dentro da idade f´ertil. Assim como na figura 3.1, os n´os preenchi-dos com cinza indicam que vari´aveis observadas e os pontos s˜ao parˆametros fixos. A cor azul claro indica uma fun¸c˜ao de-termin´ıstica dos n´os pais. A cor rosa indica uma distribui¸c˜ao Exponencial, a roxa representa distribui¸c˜ao Gama, o c´ırculo vermelho indica distribui¸c˜ao Beta. O azul escuro representa distribui¸c˜ao de Cauchy e a cor laranja ´e utilizada para a dis-tribui¸c˜ao Normal. . . 57 3.4 Rede Bayesiana do modelo SIR gen´erico para homens,

mulheres na idade f´ertil e o total de mulheres . Os s´ımbolos e as cores possuem o mesmo significado da figura 3.3 60 4.1 Traces obtidos pela amostragem por meio do

algo-ritmo NUTS para os modelos Mulheres na idade f´ertil (4.8a) e Mulheres fora da idade f´ertil (4.8b). Para cada modelo ´e apresentada uma coluna com o perfil da distribui¸c˜ao a posteriori de cada vari´avel(coluna da esquerda) e uma coluna com o respectivo trace (coluna da direita). . . 63 4.2 Traces obtidos pela amostragem por meio do

algo-ritmo NUTS para os modelos Mulheres-Total (4.8c) e Homens-Total (4.8d). Para cada modelo ´e apresentada uma coluna com o perfil da distribui¸c˜ao a posteriori de cada vari´avel (coluna da esquerda) e uma coluna com o respectivo trace (coluna da direita). . . 64 4.3 Gr´aficos com o Intervalo de Credibilidade e o ˆR

ob-tido pelo algoritmo Gelman-Rubin para cada uma das dimens˜oes da vari´avel I em cada um dos modelos pro-babil´ısticos estabelecidos. . . 65 4.4 Gr´aficos com o Intervalo de Credibilidade e o ˆR obtido

pelo algoritmo Gelman-Rubin para a vari´avel unidi-mensional po (primeira linha do gr´afico), seguida de cada uma das dimens˜oes da vari´avel β para cada um dos modelos probabil´ısticos estabelecidos.. . . 66 4.5 Gr´afico com os valores calculados pelo m´etodo de Geweke

em uma das cadeias obtidas pelo algoritmo NUTS em cada um dos modelos probabil´ısticos estabelecidos. . . 67

(12)

4.6 Probabilidades de observa¸c˜ao dos casos de Zika e seu Intervalo de Credibilidade (95%) em cada modelo. . . . 68 4.7 Posteriori de γ−1 e mz e seus respectivos Intervalos de

Credibilidade (95%). . . 69 4.8 Compara¸c˜ao entre o n´umero total e o reportado de

casos de Zika no per´ıodo de estudo (epidemia de 2016) para cada um dos modelos probabil´ısticos estabelecidos. 70 4.9 R0 ≈ RV+ RS. O N´umero de Reprodu¸c˜ao B´asico ´e

repre-sentado separadamente em rosa para a popula¸c˜ao feminina e em azul para a popula¸c˜ao masculina. . . 71 5.1 Period of interest. The higher level of the green line delimits

the period of significant infection, being thus the period that will be analyzed. . . 77 5.2 Bayesian network for estimating the time boundaries

of the epidemic season. The gray filled circle means the observed data , the green border dots to represent a fixed parameter, the gray border circle indicate a Uniformly distri-buted variable, the pink border variable indicate Exponentially distributed variables and the purple halo means Poisson dis-tribution. The arrows indicate probabilistic dependencies. . . . 78 5.3 Bayesian network representing the model. . . 85 5.4 Bayesian network used in male, female not in fertile

age and total female models. . . 88 5.5 Probability of observation. Posterior probability

distribu-tion of the probability of observadistribu-tion in each sub-populadistribu-tion model. In particular, the mean and highest 95% posterior density interval of each parameter. . . 89 5.6 Posterior of γ−1 and mz. Histogram of samples extracted

from the posterior distributions of the duration of the infec-tious period (γ−1) and the fraction of miscarriage caused by ZIKV (mz). . . 90 5.7 Estimated Total Zika Female in Fertile Age Incidence.

The dashed lines bounds the 95% credibility range and the continuous darker curve represents the median of the total female in fertile age incidence. The dots are the observed incidences in our data. . . 90

(13)

5.8 Estimated Total Zika Female Not in Fertile Age In-cidence. The dashed lines bounds the 95% credibility range and the continuous darker curve represents the median of the total female not in fertile age incidence. The dots are the observed incidences in our data. . . 91 5.9 Estimated Total Zika Female Incidence. The dashed

li-nes bounds the 95% credibility range and the continuous dar-ker curve represents the median of the total female incidence. The dots are the observed incidences in our data. . . 92 5.10 Estimated Total Zika Male Incidence. The dashed lines

bounds the 95% credibility range and the continuous darker curve represents the median of the total male incidence. The dots are the observed incidences in our data. . . 93 5.11 Estimated Total Incidence. The dashed lines bounds the

95% credibility range and the continuous darker curve repre-sents the median of the total incidence. The dots are the observed incidences in our data. . . 94 5.12 Basic reproductive number (R0). The blue and pink areas

correspond to the separated Male and Female R0 estimates

respectively. The purple area is the intersection between the two areas. . . 94

(14)

Cap´ıtulo 1

Introdu¸

ao

Nos anos de 2015 e 2016 a cidade do Rio de Janeiro sofreu com uma grande epidemia de Zika que chamou aten¸c˜ao internacionalmente para os efeitos que essa doen¸ca pode causar. O volume dessa epidemia ´e explicado devido ao ambiente prop´ıcio do Rio de Janeiro durante o per´ıodo chuvoso para a prolifera¸c˜ao do principal vetor de transmiss˜ao, o mosquito Aedes aegypti.

Essa doen¸ca ´e respons´avel por danos ao sistema nervoso, de forma que em 2016, o n´umero de abortos e nascimentos de crian¸cas com microcefalia foi muito maior que o dos anos anteriores.

Muitos estudos foram realizados nos ´ultimos anos para compreender os efeitos causados pela epidemia de Zika, como a redu¸c˜ao na taxa de natalidade por exemplo (Coelho et al. 2017), a comprova¸c˜ao da rela¸c˜ao com microcefalia (Mlakar et al. 2016) e do processo de transmiss˜ao sexual (Maxian et al. 2017).

Existe um esfor¸co para estimar os parˆametros da Zika em v´arias regi˜oes do mundo, como o realizado na Colˆombia, El Salvador e Suriname (Shutt et al. 2017). Esses estudos buscam melhorar o processo de preven¸c˜ao, garantindo o aten¸c˜ao necess´aria para que novas epidemias n˜ao ocorram ou sejam rapidamente con-troladas.

O presente trabalho busca estimar o tamanho total da epidemia e os parˆametros de transmiss˜ao da epidemia de Zika no ano de 2016 na cidade do Rio de Janeiro.

Iremos fazer uma breve descri¸c˜ao das ferramentas matem´aticas utiliza-das para realizar o processo de modelagem e inferˆencia do problema. Em seguida, realizaremos a modelagem do problema de acordo com os dados que possu´ımos. Por fim, ser´a apresentado o artigo cient´ıfico que o trabalho deu origem e a conclus˜ao.

(15)

Cap´ıtulo 2

Referencial Te´

orico

2.1

Zika

A Zika ´e uma arbovirose transmitida principalmente pelo mosquito Aedes aegypti. O v´ırus da Zika pertence ao gˆenero Flavivirus, sendo muito pr´oximo de outros v´ırus como o da Dengue e Febre Amarela (Zanluca et al. 2015).

O nome Zika remete `a floresta de Zika em Uganda, local onde o v´ırus foi isolado pela primeira vez em 1947.

O primeiro caso de epidemia de Zika registrado no mundo ocorreu em 2007 na Micron´esia, desde ent˜ao muitas outras regi˜oes notificaram epidemias de Zika. Em 2015, o Brasil sofreu com uma epidemia inicialmente identificada no Rio Grande do Norte.

2.1.1

Sintomas

Muitas pessoas n˜ao apresentam os sintomas da Zika, mas para aqueles os quais a doen¸ca ´e sintom´atica, ´e comum apresentarem artralgia, edema de ex-tremidades, leve febre, erup¸c˜oes maculopapulares e frequentemente prurigi-nosas, dores de cabe¸ca, dores retro-orbitais, conjuntivite purulenta, vertigem, mialgia e dist´urbios digestivos (Zanluca et al. 2015).

Danos ao Sistema Nervoso

Al´em dos sintomas acima listados, a Zika apresenta efeitos danosos ao sistema nervoso.

(16)

A transmiss˜ao no per´ıodo de gesta¸c˜ao ´e respons´avel por abortos ou por

graves defeitos congˆenitos como a m´a forma¸c˜ao cerebral (microcefalia)(Brasil et al. 2016) e atrofia neuro-retinal macular em rec´em-nascidos (Ventura et al. 2016).

Em adultos, ´e conhecida a rela¸c˜ao da Zika com s´ındrome de Guillain-Barr´e (Brasil et al. 2016), uma doen¸ca incapacitante que afeta a transmiss˜ao dos impulsos nervosos aos m´usculos, podendo levar `a morte por falha respirat´oria.

Al´em disso, existem casos reportados de Meningoencefalite (Carteaux et al. 2016) e mielite aguda (M´echarles et al. 2016) que apresentam rela¸c˜ao de causa e

efeito com a Zika. Transmiss˜ao

A transmiss˜ao da Zika ocorre principalmente pelo vetor Aedes aegypti, esse mosquito tamb´em ´e respons´avel pela transmiss˜ao de outras doen¸cas como dengue, febre amarela e chikunguya. Existem estudos recentes que exploram os efeitos da transmiss˜ao simultˆanea da chikungunya e zika na mesma picada (G¨oertz et al. 2017).

Al´em da transmiss˜ao vetorial, o v´ırus tamb´em pode ser transmitido sexu-almente (Musso et al. 2015). Os indiv´ıduos infectados s˜ao capazes de trans-mitir o v´ırus por bem mais tempo atrav´es do sˆemen (Atkinson et al. 2016) que atrav´es do mosquito (Nicastri et al. 2016).

Por fim, existem ainda os processos de transmiss˜ao atrav´es da placenta e transfus˜ao sangu´ınea.

2.2

Simula¸

ao de N´

umeros Pseudo-aleat´

orios

N´umeros aleat´orios s˜ao aqueles gerados de forma n˜ao determin´ıstica, atrav´es de amostragem de uma distribui¸c˜ao de probabilidade.

Uma vez que o computador ´e uma m´aquina determin´ıstica, n˜ao ´e poss´ıvel gerar n´umeros aleat´orios atrav´es de instru¸c˜oes bem definidas do seu proces-sador.

Por outro lado, ´e poss´ıvel gerar n´umeros que imitam o comportamento de n´umeros aleat´orios, os chamados n´umeros pseudo-aleat´orios.

Descreveremos agora os algoritmos mais comuns para a gera¸c˜ao de n´umeros pseudo-aleat´orios. De agora em diante, as vari´aveis geradas por esses m´etodos ser˜ao referenciadas como se fossem realmente aleat´orias.

(17)

2.2.1

etodo da Congruˆ

encia Linear

A distribui¸c˜ao Uniforme ´e a matriz para a constru¸c˜ao de outras distribui¸c˜oes. Um m´etodo bastante conhecido para gerar vari´aveis uniformemente distribu´ıdas no intervalo [0, 1] (usaremos a nota¸c˜ao U (0, 1)) ´e atrav´es no procedimento da Congruˆencia Linear. em janeiro de 2018

Definimos um valor inicial Z0, o multiplicador a, o incremento b e o

m´odulo m. N´os conseguimos gerar n´umeros uniformemente distribu´ıdos no intervalo (0, m − 1) atrav´es da soma modular definida pela equa¸c˜ao recursiva (2.1).

Zi = (aZi−1+ b) mod m, i = 1, 2, 3, . . . (2.1)

Para garantir que os n´umeros gerados por esse processo estejam no in-tervalo (0, 1), n´os devemos dividi-los por m, como mostrado pela equa¸c˜ao (2.2).

Ui =

Zi

m (2.2)

2.2.2

etodo da Transforma¸

ao Inversa

Possuindo uma vari´avel aleat´oria U uniformemente distribu´ıda (U ∼ U (0, 1)) e uma fun¸c˜ao de distribui¸c˜ao acumulada (FDA) invers´ıvel F , n´os podemos gerar uma vari´avel aleat´oria X distribu´ıda conforme F (X).

Uma vez que o conjunto imagem da fun¸c˜ao F ´e o intervalo (0, 1), para cada realiza¸c˜ao u de U , teremos uma realiza¸c˜ao x de X atrav´es de x = F−1(u), generalizando X = F−1(U )

2.2.3

etodo da Aceita¸

ao-Rejei¸

ao

Para os casos em que ´e analiticamente dif´ıcil inverter a FDA F , o m´etodo da Transforma¸c˜ao Inversa n˜ao ´e o mais indicado. Suponha que desejamos amostrar valores de distribu´ıdos de acordo com a fun¸c˜ao de densidade de probabilidade (FDP) f (x) de suporte I tal que sua FDA F (x) ´e analitica-mente dif´ıcil de inverter. Seja g(x) uma FDP cuja FDA ´e G(x) e que pode ser obtida por um m´etodo mais simples, como o m´etodo da Transforma¸c˜ao

(18)

Inversa (2.2.2) por exemplo. Escolhemos ent˜ao uma fun¸c˜ao t(x) (n˜ao neces-sariamente uma fun¸c˜ao de densidade de probabilidade) tal que:

t(x) = cg(x) c ∈ R (2.3)

t(x) ≥ f (x) ∀x ∈ I (2.4)

O algoritmo para simular uma vari´avel aleat´oria X ∼ f (x) pode ser ent˜ao resumido da seguinte maneira:

1. Gere uma vari´avel aleat´oria Y ∼ g(x) ;

2. Gere uma vari´avel aleat´oria U uniformemente distribu´ıda com suporte (0, 1) e independente de Y ;

3. Se

U ≤ f (x)

t(x) (2.5)

Ent˜ao aceite e tome X = Y , caso contr´ario rejeite e repita o processo desde a etapa 1.

O valor da constante c da equa¸c˜ao (2.3) ´e tal que f (x)t(x) seja o mais pr´oximo poss´ıvel de 1, pois pode ser provado que essa constante representa o valor esperado de itera¸c˜oes do algor´ıtimo at´e que haja uma aceita¸c˜ao na etapa 3. (Sigman 2007).

O m´etodo para a gera¸c˜ao de vari´aveis aleat´orias discretas ´e an´alogo ao descrito acima.

2.3

Redes Bayesianas

Redes Bayesianas s˜ao representa¸c˜oes conjuntas de probabilidade que se fun-damentam nas propriedades da regra do produto da probabilidade (descrita na equa¸c˜ao 2.6) e da independˆencia condicional (presente na equa¸c˜ao (2.7)) para modelar a rela¸c˜ao entre vari´aveis aleat´orias, reduzindo o volume de dados e a complexidade de processamento.

(19)

X ⊥ Y |Z ↔ P(X, Y |Z) = P(X|Z)P(Y |Z) (2.7) A modelagem pelas Redes Bayesianas permite expressar a cren¸ca das rela¸c˜oes de dependˆencia entre as vari´aveis atrav´es de grafos direcionados ac´ıclicos. Nesses modelos, os n´os representam as vari´aveis aleat´orias e as rela¸c˜oes de dependˆencia s˜ao representadas por setas que apontam do parˆametro para a vari´avel dependente, como visto na figura 2.1.

Figura 2.1: Exemplo de Rede Bayesiana. Fonte: (Barber 2016) Em modelos gr´afico probabil´ısticos, como o descrito acima, o modelo ´e representado pelo grafo G(V, A), onde V ´e o conjunto de v´ertices (vari´aveis aleat´orias) e A ´e o conjunto de arestas.

Dessa forma, G(a, b) significa que os n´os a, b ∈ V e a aresta ab ∈ A. O conjunto de n´os pais (defini¸c˜ao (2.8)), em rela¸c˜ao a uma f, s˜ao os n´os cujas arestas que saem apontam para o n´o f, chamado de n´o filho (defini¸c˜ao (2.9)).

pais(f) , {t : G(t, f) = 1}. (2.8) f ilhos(p) , {t : G(t, p) = 1} (2.9) Dessa forma, o n´o raiz ´e aquele que n˜ao possui n´os pais. Estendendo as defini¸c˜oes acima, temos os conceitos de fam´ılia, que ´e o conjunto:

(20)

Os ancestrais s˜ao os elementos do conjunto:

pais(f) ∪ pais(pais(f)) ∪ · · · ∪ {raiz} (2.11) Para representar n´os independentes e igualmente distribu´ıdos - iid (con-dicionalmente independentes dados os n´os pais comuns) da figura 2.1, por exemplo, n´os utilizamos a nota¸c˜ao de placa, indicada na figura 2.2, para evitar que a representa¸c˜ao gr´afica se torne polu´ıda e de dif´ıcil compreens˜ao.

Figura 2.2: Nota¸c˜ao de placa: permite organizar vari´aveis com distribui¸c˜ao equivalente (2.1) em uma figura mais condensada. Fonte: (Barber 2016)

As independˆencias condicionais s˜ao verificadas visualmente atrav´es do conceito de d-separa¸c˜ao. Dado um conjunto de n´os E, que representa as vari´aveis dos dados evidenciados, dizemos que dois n´os s˜ao d-separados se, e somente se, ao menos uma das condi¸c˜oes abaixo forem satisfeitas.

• Seguindo um caminho no grafo (seguindo o sentido das arestas), ini-ciando num n´o inicial (i) e chegando num n´o final (f ), passarmos por um n´o e ∈ E, como na figura 2.3a, ent˜ao P(i, f |e) = P(i|e)P(f |e).

• Se tivermos um n´o e ∈ E cujas arestas que saem apontam para os n´os a e b, ilustrado pela figura 2.3b, ent˜ao P(a, b|e) = P(a|e)P(b|e).

(21)

• Se tivermos um n´o e 6∈ E cujas arestas que chegam s˜ao oriundas dos n´os a e b, conforme a figura 2.3c, ent˜ao P(a, b) = P(a)P(b).

(a) i ⊥ f |e (b) a ⊥ b|e (c) a ⊥ b

Figura 2.3: Modelos de d-separa¸c˜ao. Os n´os preenchidos representam que a vari´avel foi observada

2.3.1

Modelos Hier´

arquicos

Os modelos estat´ısticos hier´arquicos s˜ao uma generaliza¸c˜ao dos modelos cl´assicos de regress˜ao linear.

Os parˆametros que regem o modelo possuem uma distribui¸c˜ao proba-bil´ıstica, de forma que os hiperparˆametros que regem essa distribui¸c˜ao pos-suem sua pr´opria distribui¸c˜ao de probabilidade.

O n´umero de n´ıveis de incertezas que se deseja estabelecer ´e limitado pelo conhecimento pr´evio do problema em estudo, pelos dados dispon´ıveis, pelo modelo probabil´ıstico estabelecido e pela capacidade computacional (proces-samento e mem´oria) dispon´ıvel.

Existe uma estreita rela¸c˜ao entre a modelagem hier´arquica e os modelos gr´aficos. A modelagem hier´arquica estabelece a rela¸c˜ao matem´atica e as distribui¸c˜oes de probabilidade entre as vari´aveis do modelo. A partir das inter-rela¸c˜oes matem´aticas estabelecidas, o modelo gr´afico ´e constru´ıdo e reduzido de acordo com as cren¸cas de independˆencia condicional.

(22)

2.3.2

Inferˆ

encia / Aprendizado

A modelagem descrita acima permite definir distribui¸c˜oes de probabilidade de forma organizada dos n´os desconhecidos atrav´es dos n´os conhecidos. A inferˆencia ´e o processo no qual calculamos fun¸c˜oes dessas distribui¸c˜oes.

Na equa¸c˜ao (2.12), temos a regra de Bayes que ´e o modelo no qual reli-zamos a inferˆencia de uma rede Bayesiana.

P(θ|D) = P(D|θ)P(θ) P(D) = P(D|θ)P(θ) R θP(D|θ)P(θ) (2.12) A verossimilhan¸ca P(D|θ) representa a modelagem dos dados conhecidos e a medida P(θ) representa a cren¸ca acerca dos do parˆametro que desejamos inferir (θ) antes de qualquer novo dado seja evidenciado.

As fun¸c˜oes P(D|θ) e P(θ) se relacionam tal qual foi desenhado no grafo da Rede Bayesiana.

O denominador RθP(D|θ)P(θ) representa apenas um fator de margina-liza¸c˜ao da distribui¸c˜ao de θ restringida ao espa¸co dos dados D (P(θ|D)).

Portando, inferˆencia ´e o processo de calcular os valores da equa¸c˜ao (2.12) e encontrar P(θ|D).

O processo de aprendizado ´e realizado atrav´es do qual realizamos a atu-aliza¸c˜ao do grafo ap´os observarmos novas evidˆencias (dados).

2.4

Monte Carlo via Cadeias de Markov (MCMC)

Diversas vezes precisamos estimar o valor da integral de fun¸c˜oes (possivel-mente em m´ultiplas dimens˜oes) que n˜ao s˜ao analiticamente resolv´ıveis. Para realizar inferˆencias sobre o um parˆametro de um modelo atrav´es da estat´ıstica Bayesiana, por exemplo, n´os precisamos integrar a distribui¸c˜ao dos valores observados, condicionado a todos os valores que o parˆametro de estudo pode assumir, como verificado no denominador de (2.12).

MCMC realiza amostragens de uma cadeia de Markov estacion´aria que possui distribui¸c˜ao igual `a distribui¸c˜ao a posteriori. Utilizaremos esse meca-nismo para realizar inferˆencias de parˆametros da epidemia da Zika condicio-nados `a serie temporal de pessoas infectadas.

Assim, conforme os algoritmos que ser˜ao descritos, um processo intera-tivo ´e realizado at´e que seja alcan¸cada a convergˆencia a essa distribui¸c˜ao estacion´aria.

(23)

Em uma fase inicial, muitos pontos s˜ao extra´ıdos antes de alcan¸car a convergˆecia e devem ser descartados, ´e o que chamamos de burn-in.

2.4.1

Integra¸

ao por M´

etodo de Monte Carlo

Em muitos problemas pr´aticos, desejamos calcular o valor esperado de vari´aveis aleat´orias cujas fun¸c˜oes de densidade de probabilidade s˜ao desconhecidas ou apresentam integrais muito dif´ıceis de resolver analiticamente. Para esse tipo de problema, utilizamos o M´etodo de Monte Carlo, que nada mais ´e do que empregar diretamente a Lei dos Grandes N´umeros para resolver numerica-mente esse tipo de problema.

Assim, seja X uma vari´avel aleat´oria e f (X) sua fun¸c˜ao de densidade de probabilidade e suponha que desejarmos resolver a integral definida do nalo direito da equa¸c˜ao (2.13), onde g ´e uma fun¸c˜ao qualquer de X.

E[g(X)] = Z

g(X) · f (X)dX (2.13)

Extraindo n amostras da vari´avel X e fazendo Yi = g(X(i)) para a i-´esima

amostra, podemos aproximar E[g(X)] por 2.14

lim

n→∞

Y1+ Y2+ Y3+ · · · + Yn

n = E[g(X)] (2.14)

2.4.2

Cadeias de Markov

Seja I um conjunto cont´avel, Cadeias de Markov ´e o nome gen´erico que se d´a ao processo estoc´astico (Xn)n∈N tal que para quaisquer i0, i1, . . . , in−1, in∈ I

a condi¸c˜ao (2.15), abaixo, ´e v´alida.

P(Xn= in|Xn−1= in−1, . . . , X0 = i0) = P(Xn = in|Xn−1 = in−1) (2.15)

Assim, uma Cadeia de Markov ´e um processo estoc´astico no qual as re-aliza¸c˜oes passadas n˜ao acrescentam informa¸c˜oes para previs˜oes futuras, so-mente o estado presente.

(24)

2.4.3

Metropolis-Hastings

O algoritmo Metropolis-Hastings descreve uma forma eficiente de gerar amos-tras oriundas de uma distribui¸c˜ao de interesse (π(.)). Essa amostragem ´e ra-lizada atrav´es de uma cadeia de Markov que possui distribui¸c˜ao estacion´aria φ(.) igual a distribui¸c˜ao de interesse (π(.) = φ(.)).

Inicialmente, um estado inicial (X0) ´e escolhido arbitrariamente, em

se-guida o algoritmo ´e repetido at´e que uma condi¸c˜ao de parada seja alcan¸cada. Em cada repeti¸c˜ao do algoritmo, um candidato Y ´e selecionado de uma distribui¸c˜ao de probabilidade proposta condicionada ao ´ultimo valor aceito pelo algoritmo. Assim, seja q(.) a distribui¸c˜ao de probabilidade proposta, na t-´esima rodada do algoritmo, selecionamos Y ∼ q(.|Xt−1= xt−1).

O candidato Y = y ´e aceito com probabilidade α(.), conforme a defini¸c˜ao (2.16). Caso seja aceito xt = y, caso contr´ario xt= xt−1.

α(x, y) , min1,π(y)q(x|y) π(x)q(y|x)



(2.16) Qualquer escolha da distribui¸c˜ao proposta eventualmente ir´a produzir amostras distribu´ıdas de acordo com a distribui¸c˜ao π(.).

´

E comum a utiliza¸c˜ao de distribui¸c˜oes sim´etricas, que atendem a igual-dade (2.17), para simplificar o c´alculo de α, conforme (2.18).

q(X|Y ) = q(Y |X) (2.17)

α(X, Y ) = min1, π(Y ) π(X)



(2.18) Apesar de n˜ao ser um fator crucial para na obten¸c˜ao do resultado espe-rado, a escolha de uma distribui¸c˜ao proposta adequada ´e importante para acelerar o processo convergˆencia `a distribui¸c˜ao estacion´aria. Al´em disso, uma vez alcan¸cada a convergˆencia, a amplitude de varredura do suporte de π(.)

tamb´em ´e determinada pela escolha de q(.|.) (Gilks, Richardson e Spiegelhalter 1995). Assim, se q(.|.) for escolhida tal que o candidato Y seja muito pr´oximo

do estado atual da cadeia Xt, ou seja, a distˆancia d(Xt, Y ) = |Y − Xt| seja

pequena, ent˜ao teremos elevada taxa de aceita¸c˜ao, por´em a varredura do suporte de π(.) ocorrer´a lentamente.

(25)

Por outro lado, se escolhermos uma distribui¸c˜ao proposta que seleciona candidatos mais afastados (d(Xt, Y ) seja grande), ent˜ao teremos baixa taxa

de aceita¸c˜ao e a cadeia ir´a demorar para convergir `a distribui¸c˜ao estacion´aria. ´

E comum escolher como proposta a distribui¸c˜ao normal centrada do es-tado atual (Xt), o desvio padr˜ao controla a distˆancia d(Xt, Y ).

Os dados dispon´ıveis s˜ao introduzidos ao utilizarmos a regra de Bayes, como descrito em (2.19): π(Y ) π(Xt) = P(D|Y )P(Y ) P(D) P(D|Xt)P(Xt) P(D) = P(D|Y )P(Y ) P(D|Xt)P(Xt) (2.19) Podemos resumir a descri¸c˜ao acima atrav´es do algoritmo 1.

Algoritmo 1: Metropolis-Hastings Dados: X0, T , t = 0 1 enquanto t ≤ T fa¸ca 2 Amostre Y ∼ N (Xt, σ); 3 Amostre U ∼ U (0, 1); 4 α(X, Y ) := min  1,π(Xπ(Y ) t)  ; 5 se U ≤ α(Xt, Y ) ent˜ao 6 Xt+1 := Y ; 7 sen˜ao 8 Xt+1 := Xt; 9 fim 10 t = t + 1; 11 fim

2.4.4

Monte Carlo Hamiltoniano (HMC)

Para o c´alculo do Valor Esperado de uma distribui¸c˜ao cont´ınua de proba-bilidades multidimensional, precisamos integrar a fun¸c˜ao de densidade de probabilidade no volume em que ela se encontra.

Em espa¸cos multidimensionais, o volume ocupado pela moda (se ela exis-tir e for ´unica) torna-se menos significante com aumento do n´umero de di-mens˜oes. Isso ocorre porque com o aumento do n´umero de dimens˜oes, o vo-lume vai se concentrando na casca esf´erica centrada na moda da distribui¸c˜ao,

(26)

fenˆomeno conhecido como Maldi¸c˜ao da Dimensionalidade. Essa concentra¸c˜ao de volume ´e an´aloga para os casos de distribui¸c˜ao multimodal.

Dessa forma, em espa¸cos param´etricos multidimensionais de probabili-dade, as regi˜oes com maior probabilidade e volume s˜ao respons´aveis por maior contribui¸c˜ao do Valor Esperado. A regi˜ao do espa¸co que concentra esses pontos ´e uma estreita faixa chamada de Conjunto T´ıpico.

Como o algoritmo Metropolis-Hastings vasculha o espa¸co amostral consi-derando todas as dire¸c˜oes equiprov´aveis e o grau de liberdade ´e muito grande em espa¸cos multidimensionais, os pontos sugeridos s˜ao enviesados para fora do Conjunto T´ıpico.

Assim, o Algoritmo Metropolis-Hastings apresenta baixa probabilidade de ser aceitar pontos com significante efeito no c´alculo do Valor Esperado.

Al´em disso, em regi˜oes onde o grau de curvatura ´e muito alto, o algoritmo Metropolis-Hastings tende a se comportar de forma anˆomala, vasculhando de forma ineficiente esses pontos.

O algoritmo Monte Carlo Hamiltoniano resolve esses problemas ao explo-rar a geometria do Conjunto T´ıpico e realizar transi¸c˜oes maiores dentro de uma trajet´oria com alta aceita¸c˜ao e eficiente para o c´alculo do Valor Espe-rado.

A dinˆamica Hamiltoniana emprega um vetor de posi¸c˜ao d-dimensional q e um vetor de momentum d-dimensional p. Assim, o espa¸co de estados gerado por p e q ´e composto por 2d dimens˜oes e ´e chamado de Espa¸co de Fases.

O Hamiltoniano (H(q, p)) ´e a fun¸c˜ao que descreve esse sistema, geralmente atrav´es da soma das energias potencial U (q) e a cin´etica K(p), como descrito pela equa¸c˜ao (2.20). As equa¸c˜oes de Hamilton definidas por (2.21) e (2.22) determinam a evolu¸c˜ao da posi¸c˜ao e do momentum.

H(q, p) = U (q) + K(p) (2.20) dqi dt = ∂H ∂pi (2.21) dpi dt = −∂H ∂qi (2.22) Assim, para utilizarmos a dinˆamica Hamiltoniana para realizarmos amos-tragens da vari´avel q de interesse, precisamos adicionalmente de um vetor de

(27)

momento p. A distribui¸c˜ao conjunta de q e p da igualdade (2.23) ´e chamada de Distribui¸c˜ao Canˆonica.

A Distribui¸c˜ao Canˆonica se relaciona com um Hamiltoniano invariante atrav´es da equa¸c˜ao (2.24), onde T ´e a temperatura e Z ´e uma constante de normaliza¸c˜ao para que a fun¸c˜ao distribui¸c˜ao possua integral igual a 1.

π(q, p) = π(p|q)π(q) (2.23) π(q, p) = 1 Z exp −H(q, p) T  (2.24) Das equa¸c˜oes (2.20), (2.23) e (2.24), podemos escrever H conforme a equa¸c˜ao (2.25), considerando Z = T = 1,

H(q, p) = − log(π(p|q)) − log(π(q)) (2.25) Como π(q) ´e a nossa distribui¸c˜ao de interesse, podemos relacionar as equa¸c˜oes (2.20), (2.25) e o Teorema de Bayes (2.12) atrav´es da igualdade (2.26) a menos de uma constante.

U (q) = − log(P(D|q)P(q)) (2.26) Para resolver o sistema de equa¸c˜oes formado pelas equa¸c˜oes (2.21) e (2.22), utilizaremos uma modifica¸c˜ao do m´etodo de Euler, chamado de inte-grador simpl´etico St¨ormer-Verlet ou Leapfrog, definido pelo Algoritmo 2.

Uma maneira de corrigir o erro gerado pelo integrador simpl´etico ´e intro-duzir o mecanismo de aceita¸c˜ao-rejei¸c˜ao de Metropolis-Hastings (Betancourt 2017).

A probabilidade α de aceita¸c˜ao do parˆametro proposto ˜θ ´e definido pela equa¸c˜ao (2.27). Nessa equa¸c˜ao, θ = (p, q) e θt−1 ´e o valor do parˆametro no

tempo de execu¸c˜ao t − 1. α(˜θ, θt−1) = min  1, exp(−H(˜θ)) exp(−H(θt−1))  (2.27) Portanto, considerando que q0 ´e o valor inicial arbitrariamente escolhido

para a vari´avel de interesse,  e L/ s˜ao o passo e o n´umero de itera¸c˜oes do Leapfrog respectivamente, U ´e definido por (2.26), ∇U ´e o gradiente de U

(28)

Algoritmo 2: Leapfrog Dados: q, p, L, , ∇U

1 q0 := q; 2 p0 := p;

3 para n = 0 at´e L/ − 1 fa¸ca 4 pn+1 2 := pn−  2∇U (qn); 5 qn+1 := qn+ pn+1 2; 6 pn+1 := pn+1 2 −  2∇U (qn+1); 7 n = n + 1; 8 fim 9 Retorna ˜q ← q(L/) e ˜p ← p(L/)

e M ´e o n´umero de amostras, ent˜ao o m´etodo de amostragem Monte Carlo Hamiltoniano fica resumido pelo Algoritmo 3.

Algoritmo 3: Monte Carlo Hamiltoniano Dados: q0, , L, U , ∇U , M

1 para m = 1 at´e M fa¸ca 2 Amostre p ∼ N (0, I); 3 Amostre U ∼ U (0, 1);

4 θ := Leapfrog(q˜ m−1, p, L, , ∇U ) ; /* Considere θ = (q, p) */ 5 α(˜θ, θm−1) := min  1, exp(U (qm−1) − U (˜q) + 12(||p||2− ||˜p||2)  ; 6 se U ≤ α(˜θ, θm−1) ent˜ao 7 qm := ˜q; 8 sen˜ao 9 qm := qm−1; 10 fim 11 m = m + 1; 12 fim

2.4.5

Amostrador No-U-Turn (NUTS)

Os parˆametros  e L devem ser criteriosamente ajustados para que o al-goritmo Monte Carlo Hamiltoniano (alal-goritmo 3) apresente os resultados esperados.

(29)

De fato, quando o  ´e muito pequeno, os passos s˜ao muito pequenos causando desperdi¸co de tempo computacional. Por outro lado, quando  ´e muito grande, ent˜ao ocorre grande taxa de rejei¸c˜ao dos pontos propostos.

Quando o L ´e muito pequeno, o algoritmo se comporta como se realizasse um passeio aleat´orio (problem´atico em grande n´umero dimens˜oes), j´a quando o L ´e muito grande, pode acontecer uma curva completa (U-turn) e o ponto proposto ser muito pr´oximo ou pior ainda, periodicamente fixo.

Assim, ´e necess´aria grande experiˆencia para interpretar os resultados ob-servados para conseguir ajustar o algoritmo corretamente. Al´em disso, s˜ao necess´arias v´arias realiza¸c˜oes do HMC para poder alcan¸car os valores ´otimos de  e L.

O amostrador No-U-Turn ´e uma extens˜ao no algoritmo HMC que elimina as limita¸c˜oes listadas acima. Nesse algoritmo, estabelecemos um crit´erio para evitar os percursos com grandes ˆangulos de curvatura (U-turn), parando a simula¸c˜ao quando a ganho de distˆancia instantˆanea (C) for menor que zero. Para facilitar o c´alculo consideraremos o ganho de distˆancia a derivada no tempo do quadrado da distˆancia percorrida, dividido por 2 por conveniˆencia matem´atica, como pode ser observado na igualdade (2.28). Resolvendo ob-temos a equa¸c˜ao fechada (2.30).

C(q, q0) = ∂ ∂t (q0− q)T · (q0 − q) 2 (2.28) = (q0− q)T · ∂ ∂t(q 0− q) (2.29) = (q0− q)T · p (2.30)

Al´em disso, o amostrador NUTS acrescenta um conjunto B de todos os pontos tra¸cados pelo algoritmo Leapfrog, um conjunto C com os pontos de B que s˜ao candidatos a serem aceitos e uma vari´avel u que condiciona a escolha dos pontos que ser˜ao adicionados em C. Essas modifica¸c˜oes s˜ao necess´arias para o tempo de parada, definido por 2.31, proporcione uma Cadeia de Markov revers´ıvel.

C(q, q0) < 0 (2.31)

O processo aleat´orio de constru¸c˜ao dos conjuntos B e C ⊆ B, dados q, p, u e , definir´a uma distribui¸c˜ao condicional P(B, C|q, p, u, ), na qual devem ser v´alidas as seguintes condi¸c˜oes (Hoffman e Gelman 2014):

(30)

1. Todos os elementos de C devem ser escolhidos tal que preservem o volume. Ou seja, qualquer transforma¸c˜ao determin´ıstica de q, p usados para adicionar um estado q0, p0 a C devem ter Jacobiano igual a 1. 2. P((q, p) ∈ C|q, p, u, ) = 1

3. P(u ≤ {U (q0) − 12p0p0}|(q0, p0) ∈ C) = 1

4. Se (q, p) ∈ C e (q0, p0) ∈ C. ent˜ao para qualquer B, P(B, C|q, p, u, ) = P(B, C|q0, p0, u, )

O conjunto B ´e constru´ıdo por um processo gerador no qual repetidamente ´

e dobrado o tamanho de uma ´arvore bin´aria (B) cujos n´os correspondem a estados de posi¸c˜ao e momentum (q, p). Em cada tempo de execu¸c˜ao i, tomamos 2i passos para frente ou para tr´as atrav´es do algoritmo Leapfrog, o

sentido do passo ´e determinado pela vari´avel νi ∈ {−1, 1}.

Podeoms definir u como uma vari´avel distribu´ıda tal qual (2.32).

u ∼ U (0, U (qt) −1

2p · p) (2.32)

Dessa forma, a condi¸c˜ao 3. ser´a formalizada por ela desigualdade (2.33), estabelecendo uma condi¸c˜ao de parada. ∆max ´e um valor arbitrariamente

estabelecido, recomendado a ser um valor grande como 1000 para obter uma boa acur´acia (Hoffman e Gelman 2014).

U (qt) − 1

2p · p − log u < ∆max (2.33) O algoritmo repetir´a at´e que a condi¸c˜ao (2.31) seja alcan¸cada.

Resumidamente, o amostrador NUTS pode ser descrito pelo algoritmo 5. O algoritmo descrito ´e uma vers˜ao simplificada para ilustrar o funcionamento, mas n˜ao est´a otimizado quanto ao uso de mem´oria e processamento.

(31)

Algoritmo 4: BuildTree Dados: q, p, u, ν, j, , U , ∇U 1 se j = 0 ent˜ao 2 q0, p0 := Leapfrog(q, p, ν, , ∇U ); 3 C0 := ( {(q0, p0)} se u ≤ exp{U (q0)1 2p 0 · p0} ∅ c.c. ;

4 s0 := I[U (q0) −12r0· r0 > log u − ∆max]; 5 retorna q0, p0, q0, p0, C0, s0 6 sen˜ao 7 q−, p−, q+, p+, C0, s0 := BuildTree(q, p, u, ν, j − 1, , U, ∇U ); 8 se ν = −1 ent˜ao 9 q−, p−, − , − , C00, s00 := BuildTree(q−, p−, u, νj, j − 1, , U, ∇U ); 10 sen˜ao 11 − , − , q+, p+, C00, s00 := BuildTree(q+, p+, u, νj, j − 1, , U, ∇U ); 12 fim 13 s0 := s0s00I[(q+− q−) · p− ≥ 0]I[(q+− q−) · p+≥ 0]; 14 C := C ∪ C0; 15 retorna q0, p0, q0, p0, C0, s0 16 fim

(32)

Algoritmo 5: NUTS (N˜ao otimizado) Dados: q0, , U , ∇U , M

1 para m = 1 at´e M fa¸ca 2 Amostre p0 ∼ N (0, I); 3 Amostre u ∼ U (0, exp{U (qm−1) −12p0· p0)}); 4 q− := qm−1; 5 q+ := qm−1; 6 p− := p0; 7 p+ := p0; 8 j := 0; 9 C := {(qm−1, p0)}; 10 s := 1; 11 enquanto s = 1 fa¸ca 12 Amostre νj ∼ U {0, 1}; 13 se νj = −1 ent˜ao 14 q−, p−, − , − , C0, s0 := BuildTree(q−, p−, u, νj, j − 1, , U, ∇U ); 15 sen˜ao 16 − , − , q+, p+, C0, s0 := BuildTree(q+, p+, u, ν j, j − 1, , U, ∇U ); 17 fim 18 se s0 = 1 ent˜ao 19 C := C ∪ C0 20 fim 21 s := s0I[(q+− q−) · p− ≥ 0]I[(q+− q−) · p+≥ 0]; 22 j := j + 1 23 fim

24 Amostre qm e p uniformemente do conjunto C; 25 fim

O ajuste automatizado do parˆametro  pode ser realizado atrav´es de oti-miza¸c˜ao estoc´astica (Dual Averaging) ou atrav´es da escolha aleat´oria em torno da vizinha¸ca de algum 0. Ambos os processos s˜ao realizados nas fases

(33)

2.4.6

Diagn´

ostico

Infelizmente, n˜ao ´e poss´ıvel assegurar que o algoritmo MCMC convergiu. Os m´etodos presentes apenas indicam a falta de convergˆencia. Portanto, se o m´etodo falha em provar a falta de convergˆencia n˜ao significa que a convergˆencia ´e certa.

Listaremos os m´etodos que utilizamos para avaliar a convergˆencia do nosso modelo, existem ainda muitos outros m´etodos que n˜ao foram utili-zados.

Inspe¸c˜ao Visual

A inspe¸c˜ao visual do tra¸cado da amostragem de cada uma das vari´aveis possibilita verificar rapidamente anomalias no modelo.

Se a amostragem permanecer em certas ´areas do espa¸co por muito tempo, como verificado na regi˜ao entre as linhas tracejadas do tra¸cado representado pela figura 2.4, temos um sinal de problema de amostragem, como por exem-plo quando o Conjunto T´ıpico apresenta uma regi˜ao com elevado grau de curvatura e o algoritmo de amostragem utilizado ´e o Metropolis-Hastings ou a parametriza¸c˜ao n˜ao est´a adequada.

(34)

Figura 2.4: Tra¸cado da amostragem de uma vari´avel θ. Perceba o amos-trador permanece preso um uma regi˜ao durante as itera¸c˜oes entre as linhas tracejadas, indicando que h´a um problema com o processo de amostragem.

Quando o Conjunto T´ıpico apresenta uma regi˜ao com elevado grau de cur-vatura, at´e mesmo algoritmos mais robustos como o HMC e o NUTS podem acabar tendo problemas na varredura dessas ´areas. Nesses casos, defini¸c˜oes

“n˜ao centradas” das vari´aveis podem corrigir o problema (Betancourt e Girolami 2015). Vari´aveis n˜ao centradas s˜ao aquelas em que certas dependˆencias foram

fatorizadas em transforma¸c˜oes determin´ısticas. Essa transforma¸c˜oes descor-relacionam as vari´aveis antes dependentes condicionadas aos dados. Um exemplo desse tipo de transforma¸c˜ao ´e ilustrada pela vari´avel centrada (2.34) que passa a ser modelado como a vari´avel n˜ao centrada (2.35) e a vari´avel auxiliar (2.36).

(35)

θ ∼ N (µ, σ2) (2.34) θ = µ + σ ση η (2.35) η ∼ N (0, σ2η) (2.36)

Quando o tra¸cado n˜ao permanece ao redor de um valor central, como indicado na figura 2.5, tamb´em ´e um sinal de problema de convergˆencia, diz-se que o modelo n˜ao misturou bem. Nesse caso, aumentar o n´umero de amostras ´e necess´ario.

(36)

Figura 2.5: Tra¸cado com problema de convergˆencia

Muitas vezes o n´umero de amostras necess´ario para verificar convergˆencia ´

e muito grande. Nesses casos, ´e melhor reparametrizar o modelo, ou iniciar a cadeia num ponto mais pr´oximo da convergˆencia atrav´es de estimadores mais r´apidos como M´aximo a Posteriori (MAP) ou Inferˆencia Variacional (VI).

Existem ainda os m´etodos quantitativos para diagnosticar a falta de con-vergˆencia de um modelo.

(37)

Geweke

Geweke propˆos um diagn´ostico de convergˆencia em que comparamos a m´edia da primeira parte (geralmente os primeiros 10%) com a m´edia da ´ultima parte (geralmente os ´ultimos 50%) da s´erie de amostras. Se a distribui¸c˜ao da cadeia for estacion´aria, ent˜ao as duas m´edias ser˜ao iguais(Geweke et al. 1992).

A estat´ıstica de Geweke ´e definida pela equa¸c˜ao (2.37) e possui distri-bui¸c˜ao assintoticamente normal padr˜ao, onde xi ´e a primeira parte da s´erie,

xf ´e a ´ultima parte, bE ´e a m´edia amostral e dVar significa a variˆancia amostral. De forma que se o valor do m´odulo dessa estat´ıstica for maior que 1, ent˜ao indica que houve divergˆencia.

G = E[xb i] − bE[xf] d

Var[xi] − dVar[xf]

(2.37)

Gelman-Rubin

O diagn´ostico de Gelman-Rubin compara a variˆancia entre cadeias distintas com a variˆancia das dentro dessas cadeias. Se essas cadeias convergirem, ent˜ao as variˆancias inter e intra cadeias devem ser idˆenticas.

As cadeias devem ser iniciadas em pontos distintos para melhorar a efe-tividade do teste em detectar evidˆencias da falta de convergˆencia.

Suponha que simulemos m cadeias, cada uma com 2n amostras, tais que as primeiras n sejam descartadas. Para um modelo parametrizado por θ, seja {θij}ni=1 a j-´esima cadeia. Dessa forma, ¯θj ´e a m´edia amostral da

j-´

esima cadeia, ¯θ a m´¯ edia amostral das m´edias amostrais, como descrito por (2.38). ¯ ¯ θ = 1 m m X j=1 ¯ θj (2.38)

Assim, calculamos a variˆancia (2.39) de cada uma dessas cadeias, a m´edia dessas variˆancias (2.40) e a variˆancia das m´edias dessas cadeias (2.41), mul-tiplicada por n pois cada uma dessas cadeias ´e baseada em n amostras.

(38)

s2j = 1 n − 1 n X i=1 (θij − ¯θj)2 (2.39) W = 1 m m X j=1 s2j (2.40) B = n m − 1 m X j=1 (¯θj − ¯θ)¯2 (2.41)

Dessa forma, n´os podemos estimar a variˆancia da distribui¸c˜ao estacion´aria como uma combina¸c˜ao afim de W e B, como descrito pela igualdade (2.42).

ˆ V ar(θ) =1 − 1 n  W + 1 nB (2.42) (2.43) Por fim, o fator de diagn´ostico Gelman-Rubin ( ˆR) ´e definido por (2.44).

ˆ R = s ˆ V ar(θ) W (2.44)

Quando ˆR > 1.2 (Brooks e Gelman 1998), ent˜ao n´os devemos realizar amostras maiores para alcan¸car a convergˆencia para a distribui¸c˜ao esta-cion´aria.

2.5

Inferˆ

encia Variacional (VI)

A fam´ılia de algoritmos MCMC produz assintoticamente amostras da ver-dadeira distribui¸c˜ao que nos interessa. Por´em, modelos muito complexos ou com elevado volume de observa¸c˜oes demandam muitos recursos computacio-nais em repeti¸c˜oes do algoritmo at´e a convergˆencia e no c´alculo da verossi-milhan¸ca.

Diferentemente dos algoritmos MCMC que utilizam amostragem, os al-goritmos VI baseiam-se na otimiza¸c˜ao.

(39)

De uma maneira geral, inicialmente definimos uma fam´ılia de distribui¸c˜oes D para as vari´aveis latentes do modelo (θ), definida por uma fun¸c˜ao de densidade de probabilidades (q(θ|ν)). Em seguida, buscamos os parˆametros (˜ν) que mais aproximam as distribui¸c˜oes propostas (q(θ|˜ν)) da distribui¸c˜ao de interesse (p(θ|D)).

Uma forma de medir a distˆancia entre as duas distribui¸c˜oes de probabili-dade q(θ|ν) e p(θ|D) ´e atrav´es da divergˆencia/ distˆancia de Kullback-Leibler (distˆancia KL) ou entropia relativa, definida pela equa¸c˜ao (2.45).

KL(q(θ|ν)||p(θ|D)) , Z q(θ|ν) log q(θ|ν) p(θ|D)  dθ (2.45)

Assim, escolhemos a distribui¸c˜ao que apresenta menor distˆancia da ver-dadeira distribui¸c˜ao e a utilizamos como substituta para explicar o fenˆomeno governado pela vari´avel latente em quest˜ao.

No entanto, n˜ao ´e poss´ıvel minimizar a distˆancia KL pois n˜ao temos conhecimento da distribui¸c˜ao a posterior p(θ|D), que ´e exatamente o que queremos aproximar.

Para resolver esse problema recorremos `a Desigualdade de Jensen. Essa desigualdade estabelece que, para uma fun¸c˜ao cˆoncava f (.), ´e valida a ine-qua¸c˜ao (2.46) e por consequˆencia a inequa¸c˜ao (2.47).

f (Eq[X]) ≥ Eq[f (X)] (2.46) log Z p(x)q(x)dx≥ Z log(p(x))q(x)dx (2.47) Dessa forma, seja o problema de marginaliza¸c˜ao (omitimos o parˆametro ν em q(.) por simplicidade):

p(D) = Z

p(D|θ)p(θ)dθ (2.48)

(40)

inequa¸c˜ao (2.46) no passo (2.52): log(p(D)) = log Z p(D, θ)dθ  (2.49) = log Z p(θ|D)p(D)q(θ) q(θ)dθ  (2.50) = log Z p(D)p(θ|D) q(θ) q(θ)dθ  (2.51) ≥ Z q(θ) logp(D)p(θ|D) q(θ)  dθ (2.52) = Z q(θ) log(p(D))dθ − Z q(θ) log  q(θ) p(θ|D)  dθ (2.53)

Uma vez que p(D) ´e uma constante, pela desigualdade (2.53) e pela de-fini¸c˜ao (2.45), podemos escrever a inequa¸c˜ao (2.54). Perceba que essa ine-qua¸c˜ao ´e obvia pois KL ≥ 0, pois se trata de uma distˆancia. Apesar disso, esse desenvolvimento matem´atico permitiu mostrar uma alternativa para a minimiza¸c˜ao do KL.

log(p(D)) ≥ −KL(q(θ|ν)||p(θ|D)) + log(p(D)) (2.54) F (D, ν) = −KL(q(θ|ν)||p(θ|D)) + log(p(D)) (2.55) A fun¸c˜ao (2.55) ´e chamada de Limite inferior de evidˆencia (ELBO) e, como o pr´oprio nome descreve, limita o valor m´ınimo da probabilidade mar-ginal da evidˆencia do modelo.

Assim, o problema de inferir a distribui¸c˜ao de interesse se resume a ma-ximizar o ELBO, que ´e equivalente a minimizar KL(q(θ|ν)||p(θ|D)).

A fun¸c˜ao (2.55) pode ser reescrita como (2.57), na qual fica evidente quais fun¸c˜oes que otimizaremos.

F (D, ν) = Eq[log p(D|θ)] − Eq h log q(θ|ν) p(θ) i (2.56) = Eq[log p(D|θ)] − KL(q(θ|ν)||p(θ)) (2.57)

O suporte (conjunto definido por (2.58)) das distribui¸c˜oes de D deve ser um subconjunto do suporte da distribui¸c˜ao a posteriori, como descrito por

(41)

(2.59). No entanto, como o suporte da posteriori muitas vezes ´e desconhe-cido, ´e comum assumirmos que o suporte da posteriori ´e igual ao suporte da distribui¸c˜ao a priori, como ilustrado por (2.60).

supp(f (x)) = {x|x ∈ Rn, f (x) > 0} ⊆ Rn} (2.58) supp(q(θ|ν) ⊂ supp(p(θ|D)) (2.59) supp(p(θ|D)) = supp(p(θ)) (2.60) Maximizamos o Valor Esperado do logaritmo da fun¸c˜ao de verossimi-lhan¸ca (E[log p(D|θ)]) e escolhemos o parˆametro ν que minimize a divergˆencia entre a densidade proposta (q(θ|ν)) e a distribui¸c˜ao a priori (p(θ)).

Descreveremos sumariamente asseguir um m´etodo que realiza o processo automatizado de maximiza¸c˜ao de E[log p(D|θ)]

2.5.1

Automatic Differentiation Variational Inference

(ADVI)

A Inferˆencia Variacional descrita acima exige que seja estabelecida uma fam´ılia de distribui¸c˜oes D que atenda a condi¸c˜ao (2.59).

ADVI ´e o algoritmo que busca generalizar a VI e realizar a sua automa-tiza¸c˜ao atrav´es de algoritmos j´a estabelecidos.

Inicialmente, ´e realizada uma transforma¸c˜ao bijetora (T ) no modelo para remover as restri¸c˜oes do suporte das vari´aveis latentes (2.61).

Com essa transforma¸c˜ao, ´e poss´ıvel determinar previamente D, tal que atenda a todos os problemas os quais sejam poss´ıvel realizar essa trans-forma¸c˜ao.

θ −→ ξT (2.61)

Assim, a distribui¸c˜ao conjunta p(D, ξ) fica definida pela igualdade 2.62, onde JT−1 ´e a matriz Jacobiana da transforma¸c˜ao inversa de T .

p(D, ξ) = p(D, T−1(ξ))|detJT−1(ξ)| (2.62) A transforma¸c˜ao T : S → Rn leva a vari´avel θ que assume valores num

(42)

exemplo de transforma¸c˜ao que leva do espa¸co S = R+ ao conjunto R (caso em que n = 1).

Para o suporte Rn existem diversas aproxima¸c˜oes variacionais que aten-dem o requisito. Aqui, ser´a utilizado a fatora¸c˜ao de distribui¸c˜oes Gaus-sianas, como descrito por (2.63), onde os s´ımbolos em negrito s˜ao veto-res n-dimensionais e Σ ´e a matriz de covariˆancias ´e uma matriz diagonal (Σ = diag(σ2)), indicando que as componentes dessa distribui¸c˜ao s˜ao

inde-pendentes. q(ξ|ν) = q(ξ|µ, σ) = N (ξ|µ, Σ) = n Y i=1 N (ξi|µi, σi2) (2.63)

O pr´oximo passo ´e realizar uma normaliza¸c˜ao para a distribui¸c˜ao Gaus-siana padr˜ao. Assim, considere ω = log(σ) (logaritmo aplicado a cada ele-mento de ξ), de forma que η = S(ω) = diag(exp(ω))−1(ξ − µ) seja tal normaliza¸c˜ao, ent˜ao temos a distribui¸c˜ao variacional (2.64).

q(η) = N (η|0, I) =

n

Y

i=1

N (ηi|0, 1) (2.64)

Essa normaliza¸c˜ao ´e importante para facilitar o processo de amostragem para realizar a integra¸c˜ao num´erica do ELBO por Monte Carlo (lembre-se de que o Valor Esperado ´e uma integral). Ap´os essas transforma¸c˜oes, a ELBO ser´a definida por (2.65), onde H(q) = Eq(q) representa a entropia da

distribui¸c˜ao q. Perceba que o Valor Esperado independe do valor de ν.

F (D, µ, σ) = Eq[log(p(D, T−1(S−1(η))))+

+ log(|detJT−1(S−1(η))|)] + H[q(ξ|µ, σ))]

(2.65)

Por fim, ´e realizada a Otimiza¸c˜ao Estoc´astica para achar µ∗ e σ2∗ defi-nidos pela equa¸c˜ao (2.66).

µ∗, σ2∗ = argmax

µ,σ2

(43)

Considerando que o gradiente e a integral podem trocar de posi¸c˜ao, po-demos realizar o c´alculo do gradiente atrav´es das f´ormulas (2.67) e (2.68) (Kucukelbir et al. 2017).

∇µF = Eq[∇θlog(p(D, θ)∇ξT−1(ξ) + ∇ξlog(|detJT−1(ξ)|)] (2.67) ∇ωF = Eq[∇θlog(p(D, θ)∇ξT−1(ξ)+

+∇ξlog(|detJT−1(ξ)|)ηTdiag(exp(ω))] + 1

(2.68) Calculamos portanto os gradientes dentro dos Valores Esperados com diferencia¸c˜ao num´erica, em seguida realizamos amostras de uma distribui¸c˜ao Gaussiana padr˜ao e aproximamos o Valor Esperado utilizando integra¸c˜ao de Monte Carlo, produzindo estimativas sem vi´es do gradiente do ELBO.

O algoritmo 6 resume os passos descritos acima (Kucukelbir et al. 2015). Algoritmo 6: ADVI

Dados: D, p(D, θ), L, ρ

1 /*p(D, θ) ´e o modelo escolhido, L ´e a condi¸c˜ao de parada para o

algoritmo e ρ ´e o vetor de passos para a diferencia¸c˜ao*/;

2 i := 0; 3 µ(0) := 0; 4 ω(0) := 0;

5 enquanto (∇µF > L && ∇ωF > L) fa¸ca 6 Amostre η ∼ N (0, I);

7 ξ := diag(exp(ω(i)))η + µ(i);

8 ∇µF , ∇ωF := Integra¸c˜ao MC de 2.67 e 2.68; 9 µ(i+1) := µ(i)+ ρ(i)∇µF ;

10 ω(i+1) := ω(i)+ ρ(i)∇ωF ; 11 i += 1;

12 fim

13 Retorna µ∗ ← µ(i) e ω∗ ← ω(i)

2.5.2

Stein Variational Gradient Descent (SVGD)

O algoritmo Stein Variational Gradient Descent (SVGD), pertence a classe dos algoritmos de Inferˆencia Variacional, mas o seu mecanismo de funciona-mento ´e ligeiramente diferente, pois n˜ao busca minimizar a fun¸c˜ao (2.55),

(44)

nem utiliza diretamente a distˆancia KL (2.45) para mensurar a discrepˆancia entre duas distribui¸c˜oes de probabilidade.

Considere a transforma¸c˜ao T (θ) = θ + φ(θ), onde φ ´e uma fun¸c˜ao su-ave que representa a dire¸c˜ao de perturba¸c˜ao da vari´avel θ e  representa a amplitude da perturba¸c˜ao.

Considerando que T ´e uma fun¸c˜ao bijetora, realizamos a transforma¸c˜ao da distribui¸c˜ao de θ para x = T (θ), como definido pela igualdade (2.69), onde T−1 ´e a fun¸c˜ao inversa de T e ∇xT−1 ´e a matriz Jacobiana de T−1.

qT(x) = q(T−1(x)) · |det(∇xT−1(x))| (2.69)

Seja Apφ(θ) o operador de Stein, definido por (2.70), onde p(θ|D) ´e a

distribui¸c˜ao a posterior que desejamos inferir, perceba que apesar de p(θ|D) aparecer diretamente em (2.70), Apφ(θ) independe de p(θ|D), como pode ser

demonstrado pelo desenvolvimento, de (2.71) `a (2.73). Perceba que p(D) ´e uma constante e portanto ∇ log(p(D)) = 0, como observado na passagem de (2.72) para (2.73). Apφ(θ) = φ(θ)∇θlog(p(θ|D))T + ∇θφ(θ) (2.70) ∇ log p(θ|D) = ∇ logp(θ)p(D|θ) p(D)  (2.71) = ∇ log(p(θ)p(D|θ)) − ∇ log(p(D)) (2.72) = ∇ log(p(θ)p(D|θ)) (2.73)

O algoritmo SVGD utiliza a identidade do operador de Stein, definida pela igualdade (2.74) (Liu e Wang 2016), na qual para outra distribui¸c˜ao q com mesmo suporte de p temos (2.75), para estimar a discrepˆancia entre as distribui¸c˜oes p (de interesse) e q (proposta).

O SVGD utiliza um processo iterativo no qual vai atualizando a distri-bui¸c˜ao q0 a partir de uma amostra inicial {θi0}ni=1 por meio de um algoritmo

de gradiente descendente no qual implicitamente diminui a divergˆencia KL por meio da divergˆencia de Stein, definida por (2.77), onde tra¸co(Apφ(θ))

(45)

Ep[Apφ(θ)] = 0 (2.74)

Eq[Apφ(θ)] 6= 0 (2.75)

(2.76) A distˆancia KL e a discrepˆancia de Stein se relacionam atrav´es da igual-dade (2.78). S(q, p) = max φ {[Eqtra¸co(Apφ(θ))] 2} (2.77) Eq[tra¸co(Apφ(θ))] = −∇KL(qT||p)|=0 (2.78)

Assim, para a amostra inicial {θi0}n

i=1, extra´ıdas da distribui¸c˜ao q0,

reali-zamos a atualiza¸c˜ao (2.79), onde  ´e o passo do algoritmo (semelhante ao do algoritmo gradiente descendente) e φ∗ representa a dire¸c˜ao de perturba¸c˜ao ´

otima. Em (2.80), “k” ´e uma fun¸c˜ao de kernel, como a Radial Basis Function (RBF) por exemplo, definida pela equa¸c˜ao (2.81)

θl+1i = θil+  ˆφ∗(θli) (2.79) ˆ φ∗(θ) = 1 n n X j=1 [k(θlj, θ)∇θl jlog(p(θ l j|D)) + ∇θl jk(θ l j, θ)] (2.80) k(θ, θ0) = exp− ||θ − θ 0||2 h  (2.81) O SVGD pode portanto ser resumido pelo algoritmo 7.

Algoritmo 7: SVGD Dados: {θ0

i}ni=1, L 1 para l = 0 at´e L fa¸ca 2 φˆ∗ := n1 n X j=1 [k(θjl, θ)∇θl jlog(p(θ l j|D)) + ∇θl jk(θ l j, θ)]; 3 θl+1i := θli+  ˆφ∗ 4 fim 5 Retorna {θi}ni=1 ∼ p(θ|D)

(46)

2.6

Modelos Compartimentais em

Epidemio-logia

Para descrever a dinˆamica na qual uma infec¸c˜ao se alastra, ao longo do tempo em uma popula¸c˜ao espacialmente definida, ´e comum dividirmos a popula¸c˜ao em compartimentos e estudarmos a dinˆamica em que os indiv´ıduos mudam para outro compartimento.

No nosso estudo, realizamos uma modelagem baseada no cl´assico modelo de Kermack–McKendrick. Nesse modelo, estabelecemos que a popula¸c˜ao to-tal (N ) possui tamanho constante no per´ıodo de estudo e ´e dividida nas classes Suscept´ıveis, Infecciosos e Removidos. Nesse modelo, a ´unica dife-ren¸ca entre os indiv´ıduos da popula¸c˜ao total ´e a classe em que se encontram, portanto cada classe ´e composta por elementos equivalentes.

O compartimento Suscept´ıveis cont´em os indiv´ıduos que ainda n˜ao foram infectados e que s˜ao vulner´aveis `a doen¸ca, a fun¸c˜ao S(t) quantifica n´umero de indiv´ıduos no suscept´ıveis no instante t e apresenta um comportamento convexo semelhante ao gr´afico 2.6a. O compartimento Infecciosos, como o pr´oprio nome indica, denota aqueles indiv´ıduos que contra´ıram a doen¸ca e s˜ao uma fonte para novas infec¸c˜oes de indiv´ıduos suscept´ıveis, geralmente ´e uma fun¸c˜ao cˆoncava como ilustrado no gr´afico 2.6b. O compartimento Removidos denota todos os elementos que j´a contra´ıram a doen¸ca, s˜ao imunes a novas infec¸c˜oes e n˜ao s˜ao mais capazes de transmiti-la. Esse tipo de modelo ´e comumente chamado de modelo SIR e as descri¸c˜oes acima s˜ao resumidas pela equa¸c˜ao 2.82.

(47)

(a) S(t) (b) I(t)

Figura 2.6: Gr´afico com o comportamento t´ıpico das fun¸c˜oes S(t) e I(t), a fun¸c˜ao R(t) ´e unicamente definida conhecendo-se N , S(t) e I(t).

As equa¸c˜oes que governam a dinˆamica populacional entre os trˆes com-partimentos citados acima s˜ao: taxa com que os indiv´ıduos saem do com-partimento ”suscept´ıveis” (descrita pela equa¸c˜ao 2.83), taxa de crescimento (decrescimento) da popula¸c˜ao de infectados (descrita pela equa¸c˜ao 2.84) e taxa de recupera¸c˜ao (descrita pela equa¸c˜ao 2.85). Perceba que a mudan¸ca populacional no compartimento ”infectados” ´e determinada pela fluxo que entra oriundo do compartimento ”suscept´ıveis” e pelo fluxo que sai para o compartimento ”recuperados”, como mostrado na equa¸c˜ao 2.86

N = S(t) + I(t) + R(t) (2.82) dS dt = −βIS N (2.83) dI dt = βIS N − γI (2.84) dR dt = γI (2.85) dI dt = − dS dt − dR dt (2.86)

(48)

O parˆametro β representa a taxa de transmiss˜ao. O parˆametro γ repre-senta a taxa intr´ınseca de recupera¸c˜ao, ou seja, 1γ representa o tempo m´edio em que um indiv´ıduo permanece infeccioso. Assim, para S(0) = N , um novo indiv´ıduo infeccioso inserido nessa popula¸c˜ao infecta outros β indiv´ıduos du-rante γ1 unidades de tempo em m´edia.

Para o problema ser univocamente definido, devem ser estabelecidas as condi¸c˜oes iniciais 2.87, 2.88, 2.89.

S(0) = S0 > 0 (2.87)

I(0) = I0 > 0 (2.88)

R(0) = 0 (2.89)

Assim, pelo exposto acima e pelas caracter´ısticas da transmiss˜ao do Zika virus, podemos estabelecer ainda as seguintes premissas:

• Em m´edia, os efeitos de aditivos de todos os meios de transmiss˜ao (e.g. vetorial e sexual) s˜ao suficientes para que um indiv´ıduo infeccioso possa transmitir o v´ırus para β indiv´ıduo suscept´ıveis;

• γI elementos da classe Infecciosos deixam essa classe por unidade de tempo e uma vez na classe Removidos, n˜ao saem mais de l´a (aqueles que morrem em t devido a doen¸ca s˜ao contabilizados em R(t));

Como a popula¸c˜ao total ´e constante e n˜ao existe fluxo de retorno entre as classes do modelo SIR, o modelo fica completamente definido pelo sistema 2.90.    dS dt = −  β N · S  I dI dt =  β N · S − γ  I (2.90)

Sabendo que ∀t: S(t), I(t) ≥ 0, ent˜ao quando a infec¸c˜ao tende a crescer ent˜ao sua taxa de crescimento dIdt > 0, por outro lado quando a infec¸c˜ao tende a diminuir at´e acabar, dIdt < 0. Essas premissas e o sistema 2.90 resultam nas implica¸c˜oes 2.91 e 2.92.

(49)

dI dt > 0 ⇐⇒ β γN · S > 1 (2.91) dI dt < 0 ⇐⇒ β γN · S < 1 (2.92) (2.93) O elemento 2.94 ´e chamado de N´umero B´asico de Reprodu¸c˜ao e representa em m´edia o n´umero de infec¸c˜oes secund´arias que podem ser geradas por um ´

unico indiv´ıduo infectado em uma popula¸c˜ao formada apenas por suscept´ıveis ao longo do per´ıodo infeccioso.

R0 ,

β

γ (2.94)

O parˆametro R0 ´e muito importante para analisar se uma doen¸ca

infecci-osa ir´a se espalhar pela popula¸c˜ao. Dessa forma, quando R0 < 1 a infec¸c˜ao ir´a

ser interrompida em tempo finito, antes de comprometer toda a popula¸c˜ao. Por outro lado, se R0 > 1, a doen¸ca ir´a se espalhar por toda a popula¸c˜ao,

(50)

Cap´ıtulo 3

Metodologia

3.1

Dados

Os dados utilizados na pesquisa s˜ao oriundos do Sistema de Informa¸c˜ao de Agravos de Notifica¸c˜ao (SINAN) e do Sistema de Informa¸c˜oes sobre Nascidos Vivos (SINASC).

N´os utilizamos uma s´erie temporal com o n´umero de incidˆencias semanais no estado do Rio de Janeiro do in´ıcio do ano 2015 ao in´ıcio do ano de 2016 provenientes do SINAN.

O tamanho total da popula¸c˜ao feminina (Nf = 3’392’425) e o tamanho total da popula¸c˜ao masculina (Nm = 2’994’018)no per´ıodo foi estabelecido utilizando a estimativa oficial do censo demogr´afico do ano de 2010.

3.1.1

Limpeza dos dados

Os dados de incidˆencia foram agregados semanalmente e divididos por sexo. A fra¸c˜ao feminina foi estudada de trˆes formas distintas: mulheres na idade f´ertil (Df f a - nascidas entre os anos de 1968 e 2002), mulheres fora da idade

f´ertil (Df nf a) e o total de mulheres (Df). A fra¸c˜ao dos dados masculinos

(Dm) n˜ao foi dividida.

Atrav´es dos registros do SINASC, produzimos a matriz Dmz, que ser´a

utilizada como representante para o n´umero semanal de abortos causados por Zika no ano de 2016 no Rio de Janeiro.

Utilizamos a tabela Df f acomo base pois foi relacionada apropriadamente

com Dmz para estabelecer uma estimativa mais precisa de fatores comuns `as

(51)

Per´ıodo de interesse

Sabendo que a epidemia de Zika, assim como as demais arboviroses transmi-tidas pelo Aedes aegypti, se manifesta de forma sazonal (primordialmente no ver˜ao), estabelecemos o per´ıodo de estudo atrav´es da estimativa de marcos temporais que representassem o in´ıcio (τ1) e o t´ermino (τ2) do per´ıodo

epi-demiol´ogico de 2016. Essa medida elimina os registros espor´adicos antes e depois da epidemia, que podem causar interferˆencia no processo de inferˆencia por induzir a redu¸c˜ao da for¸ca da epidemia.

Assumindo que as observa¸c˜oes dos casos de Zika possuem distribui¸c˜ao de Poisson (conforme 3.1), estabelecemos que diferen¸cas significativas no parˆametro λ dessa distribui¸c˜ao ao longo do tempo caracterizam os per´ıodos anterior (λ1), durante (λ2) e posterior (λ3) `a epidemia.

Ot ∼ Poisson(λt) (3.1)

Dessas forma, estabelecemos que o parˆametro λ ´e uma fun¸c˜ao do tempo e pode ser resumida pela igualdade 3.2

λ =      λ1 se t ≤ τ1 λ2 se τ1 ≤ t ≤ τ2 λ3 se τ2 ≤ t (3.2)

Estimamos τ1 e τ2 em duas fases distintas. Na primeira fase, fixamos

que h´a um ponto de in´ıcio da epidemia, portanto h´a uma taxa m´edia de notifica¸c˜oes menor antes e uma taxa m´edia de notifica¸c˜oes maior ap´os esse ponto. Na segunda fase, o processo ´e an´alogo s´o que marcamos a semana que indica o t´ermino da epidemia.

Na primeira fase, qualquer semana do ano (semana 0 `a semana ˆn) pode ser a que inicia a epidemia, portanto escolhemos para τ1 uma distribui¸c˜ao

discreta uniforme. Utilizamos um modelo hier´arquico com distribui¸c˜ao a priori comum ao λ1 (antes) e ao λ2 (depois), isso reduz o vi´es e ajuda no

shrinkage dos dados. Seguimos a pr´atica comum em estat´ıstica Bayesiana de usar a priori uma distribui¸c˜ao exponencial com hiper-parˆametro α igual ao inverso da m´edia dos dados para os parˆametros de uma distribui¸c˜ao de Poisson (λ1 e λ2).

(52)

O modelo estat´ıstico utilizado nessa primeira fase ´e resumido pelas vari´aveis 3.3, 3.4, 3.5 e pela vari´avel observ´avel 3.6. O grafo que representa esse modelo hier´arquico ´e representado pela figura 3.1.

τ1 ∼ U {0, ˆn} (3.3)

λ1 ∼ Exp(α) (3.4)

λ2 ∼ Exp(α) (3.5)

O|τ1, λ1, λ2 ∼ Poisson(λ = 1semana≤τ1 · λ1+ 1semana>τ1 · λ2|Df f a) (3.6) Ap´os estimar o valor de τ1, removemos de Df f a todos os registros das

semanas anteriores a τ1.

A segunda fase utiliza o mesmo procedimento da primeira, com as mesmas distribui¸c˜oes. O τ2 estimado marca o fim da epidemia, removemos portanto

de Df f a todos os registros das semanas posteriores a τ2.

Figura 3.1: Rede Bayesiana utilizada para estimar os limites da dura¸c˜ao da epidemia. O c´ırculo preenchido indica os dados observados, o ponto verde indica um parˆametro fixo, os demais c´ırculos representam as vari´aveis aleat´orias do modelo e as cores representam suas distribui¸c˜oes a priori, com rosa indicando Exponencial e cinza Uniforme.

(53)

Constru¸c˜ao da matriz Dmz

O processo construtivo dessa matriz ´e idˆentico ao descrito em (Coelho et al. 2017). Assim, sejam as matrizes B2015 e B2016 cujas entradas apresentam o n´umero

de nascimentos agregados semanalmente nos anos de 2015 e 2016 respectiva-mente.

A matriz Dmz definida pela equa¸c˜ao (3.7) ´e a discrepˆancia entre o n´umero

de nascimentos no ano de 2015 e 2016 agregada semanalmente. Essa dis-crepˆancia ´e evidente ao sobrepormos os gr´aficos dessas duas s´eries temporais, como ilustrado pela figura 3.2

Figura 3.2: Sobreposi¸c˜ao do n´umero de nascimentos nos anos de 2015 e 2016. Percebemos que h´a um significativo decr´escimo na taxa de natalidade ap´os o instante demarcado pela linha azul vertical.

Imagem

Figura 2.1: Exemplo de Rede Bayesiana. Fonte: (Barber 2016) Em modelos gr´ afico probabil´ısticos, como o descrito acima, o modelo ´e representado pelo grafo G(V , A), onde V ´ e o conjunto de v´ ertices (vari´ aveis aleat´ orias) e A ´ e o conjunto de are
Figura 2.3: Modelos de d-separa¸ c˜ ao. Os n´ os preenchidos representam que a vari´ avel foi observada
Figura 2.4: Tra¸ cado da amostragem de uma vari´ avel θ. Perceba o amos- amos-trador permanece preso um uma regi˜ ao durante as itera¸c˜ oes entre as linhas tracejadas, indicando que h´ a um problema com o processo de amostragem.
Figura 2.5: Tra¸ cado com problema de convergˆ encia
+7

Referências

Documentos relacionados

Lista de preços Novembro 2015 Fitness-Outdoor (IVA 23%).. FITNESS

os atores darão início à missão do projeto: escrever um espetáculo para levar até as aldeias moçambicanas para que a população local possa aprender a usufruir e confiar

Este artigo tem por objetivo a avaliação da vida marinha e terrestre na praia da vila no Município de Imbituba em Santa Catarina, o estudo traz uma avaliação da vida existente

Avaliação técnico-econômica do processo de obtenção de extrato de cúrcuma utilizando CO 2 supercrítico e estudo da distribuição de temperatura no leito durante a

Sobretudo recentemente, nessas publicações, as sugestões de ativi- dade e a indicação de meios para a condução da aprendizagem dão ênfase às práticas de sala de aula. Os

Objetivo: Identificar critérios de seleção para a rizotomia dorsal seletiva (RDS) na paralisia cerebral (PC), analisar os instrumentos de avaliação e descrever as características

Obedecendo ao cronograma de aulas semanais do calendário letivo escolar da instituição de ensino, para ambas as turmas selecionadas, houve igualmente quatro horas/aula

A disponibilização de recursos digitais em acesso aberto e a forma como os mesmos são acessados devem constituir motivo de reflexão no âmbito da pertinência e do valor