Modelagem probabilística da dinâmica da Zika usando modelos hierárquicos bayesianos

(1)

Funda¸

c˜

ao Getulio Vargas

Escola de Matem´

atica Aplicada

Marcio Maciel Bastos

Modelagem Probabil´ıstica da Dinˆ

amica da

Zika Usando Modelos Hier´

arquicos

Bayesianos

Rio de Janeiro 2018

(2)

Marcio Maciel Bastos

Modelagem Probabil´ıstica da Dinˆ

amica da

Zika Usando Modelos Hier´

arquicos

Bayesianos

Disserta¸cão submetida à Escola de Ma-temática Aplicada como requisito parcial para a obten¸cão do grau de Mestre em Mo-delagem Matemática da Informa¸cão. ´

Area de Concentra¸cão: Epidemiologia Matemática Orientador: Flávio Code¸co Coelho

Rio de Janeiro 2018

(3)

Ficha catalográfica elaborada pela Biblioteca Mario Henrique Simonsen/FGV

Bastos, Marcio Maciel

Modelagem probabilística da dinâmica da zika usando modelos hierárquicos

bayesianos / Marcio Maciel Bastos. – 2018. 101 f.

Dissertação (mestrado) – Fundação Getulio Vargas, Escola de Matemática Aplicada.

Orientador: Flávio Codeço Coelho. Inclui bibliografia.

1. Vírus da zika. 2. Modelagem de dados. 3. Teoria bayesiana de decisão estatística. 4. Epidemiologia – Modelos matemáticos. I. Coelho, Flávio Codeço. II. Fundação Getulio Vargas. Escola de Matemática Aplicada. III. Título.

(4)

(5)

Agradecimentos

Gostaria de agradecer a minha esposa Sara, os meus pais e os professores Fl´avio e Renato.

(6)

Resumo

O Zika virus (ZIKV) é um patógeno da fam´ılia Flaviviridae transmitido no Brasil principalmente pelo mosquito Aedes aegypti e em menor escala por rela¸cões sexuais. Além dos sintomas comuns à dengue e chikungunya, o v´ırus da zika também é capaz de causar danos irrevers´ıveis no sistema nervoso, em adultos está relacionada à s´ındrome de Guillain-Barré e em fetos provoca microcefalia. O sistema de saúde do Rio de Janeiro mantém um banco de dados com os registros dos pacientes que buscaram atendimento e apresentaram sintomas de Zika.

O nosso estudo busca estimar o verdadeiro tamanho da epidemia que ocorreu no ano de 2016 e os parâmetros que podem ser ajustados para ex-plicar o processo de dissemina¸cão. Para realizar essas estimativas, utiliza-mos os dados fornecidos pelo sistema de saúde e uma modelagem Bayesiana hierárquica adaptada ao modelo epidemiológico SIR. Realizamos o processo de inferência através de modernas técnicas de amostragem, como Automa-tic Differentiation Variational Inference (ADVI), Stein Variational Gradient Descent (SVGD) e No-U-Turn (NUTS).

(7)

Abstract

The Zika virus (ZIKV) is a pathogen of the family Flaviviridae, trans-mitted in Brazil mainly by the mosquito Aedes aegypti and in less extent by sexual relations. In addition to symptoms common to dengue and chi-kungunya, the zika virus is also capable of causing irreversible damage to the nervous system, in adults it is related to Guillain-Barr´e syndrome and in fetuses it causes microcephaly. The Health Department of Rio de Ja-neiro maintains a database with records of patients who sought care and was infeccted with Zika.

Our study seeks to estimate the true size of the epidemic that occurred in the year 2016 and the parameters that fit to explain the dissemination process. To make these estimates, we used the data provided by the Health Department and a hierarchical Bayesian model adapted to the SIR epidemi-ological model. We perform the inference process through modern sampling techniques such as Automatic Differentiation Variational Inference (ADVI), Stein Variational Gradient Descent (SVGD) and No-U-Turn (NUTS).

(8)

Sum´

ario

1 Introdu¸c˜ao 11

2 Referencial Te´orico 12

2.1 Zika . . . 12

2.1.1 Sintomas . . . 12

2.2 Simula¸cão de Números Pseudo-aleatórios . . . 13

2.2.1 M´etodo da Congruˆencia Linear . . . 14

2.2.2 M´etodo da Transforma¸c˜ao Inversa . . . 14

2.2.3 Método da Aceita¸cão-Rejei¸cão . . . 14

2.3 Redes Bayesianas . . . 15

2.3.1 Modelos Hier´arquicos . . . 18

2.3.2 Inferˆencia / Aprendizado . . . 19

2.4 Monte Carlo via Cadeias de Markov (MCMC) . . . 19

2.4.1 Integra¸c˜ao por M´etodo de Monte Carlo . . . 20

2.4.2 Cadeias de Markov . . . 20

2.4.3 Metropolis-Hastings . . . 21

2.4.4 Monte Carlo Hamiltoniano (HMC) . . . 22

2.4.5 Amostrador No-U-Turn (NUTS) . . . 25

2.4.6 Diagn´ostico . . . 30

2.5 Inferˆencia Variacional (VI) . . . 35

2.5.1 Automatic Differentiation Variational Inference (ADVI) 38 2.5.2 Stein Variational Gradient Descent (SVGD) . . . 40

2.6 Modelos Compartimentais em Epidemiologia . . . 43

3 Metodologia 47 3.1 Dados . . . 47

3.1.1 Limpeza dos dados . . . 47

(9)

3.2.1 Verossimilhan¸ca . . . 51

3.2.2 Defini¸c˜oes a priori . . . 53

4 Resultados 61 4.1 Diagn´ostico . . . 61 4.2 Estimativas . . . 68 5 Artigo Cient´ıfico 72 5.1 Introduction . . . 73 5.2 Methods . . . 74

5.2.1 The data set . . . 75

5.2.2 Likelihoods . . . 79

5.2.3 Female in fertile age model . . . 80

5.2.4 Male, Female not in Fertile Age, Total Female model . 86 5.3 Results . . . 89

5.3.1 Epidemiological parameter estimates . . . 89

5.4 Discussion and Conclusion . . . 95

5.5 Acknowledgements . . . 95

6 Conclus˜ao 96

(10)

Lista de Figuras

2.1 Exemplo de Rede Bayesiana. Fonte: (Barber 2016) . . . 16 2.2 Nota¸c˜ao de placa: permite organizar vari´aveis com

dis-tribui¸cão equivalente (2.1) em uma figura mais condensada. Fonte: (Barber 2016) . . . 17 2.3 Modelos de d-separa¸cão. Os nós preenchidos representam

que a vari´avel foi observada . . . 18 2.4 Tra¸cado da amostragem de uma vari´avel θ. Perceba

o amostrador permanece preso um uma região durante as itera¸cões entre as linhas tracejadas, indicando que há um pro-blema com o processo de amostragem. . . 31 2.5 Tra¸cado com problema de convergência . . . 33 2.6 Gráfico com o comportamento t´ıpico das fun¸cões S(t) e I(t),

a fun¸c˜ao R(t) ´e unicamente definida conhecendo-se N , S(t) e I(t). . . 44 3.1 Rede Bayesiana utilizada para estimar os limites da

dura¸cão da epidemia. O c´ırculo preenchido indica os da-dos observada-dos, o ponto verde indica um parâmetro fixo, os demais c´ırculos representam as variáveis aleatórias do modelo e as cores representam suas distribui¸cões a priori, com rosa indicando Exponencial e cinza Uniforme. . . 49 3.2 Sobreposi¸cão do número de nascimentos nos anos de

2015 e 2016. Percebemos que há um significativo decréscimo na taxa de natalidade após o instante demarcado pela linha azul vertical. . . 50

(11)

3.3 Rede Bayesiana do modelo SIR das mulheres dentro da idade fértil. Assim como na figura 3.1, os nós preenchi-dos com cinza indicam que variáveis observadas e os pontos são parâmetros fixos. A cor azul claro indica uma fun¸cão de-termin´ıstica dos nós pais. A cor rosa indica uma distribui¸cão Exponencial, a roxa representa distribui¸cão Gama, o c´ırculo vermelho indica distribui¸cão Beta. O azul escuro representa distribui¸cão de Cauchy e a cor laranja é utilizada para a dis-tribui¸cão Normal. . . 57 3.4 Rede Bayesiana do modelo SIR genérico para homens,

mulheres na idade f´ertil e o total de mulheres . Os s´ımbolos e as cores possuem o mesmo significado da figura 3.3 60 4.1 Traces obtidos pela amostragem por meio do

algo-ritmo NUTS para os modelos Mulheres na idade fértil (4.8a) e Mulheres fora da idade fértil (4.8b). Para cada modelo é apresentada uma coluna com o perfil da distribui¸cão a posteriori de cada variável(coluna da esquerda) e uma coluna com o respectivo trace (coluna da direita). . . 63 4.2 Traces obtidos pela amostragem por meio do

algo-ritmo NUTS para os modelos Mulheres-Total (4.8c) e Homens-Total (4.8d). Para cada modelo é apresentada uma coluna com o perfil da distribui¸cão a posteriori de cada variável (coluna da esquerda) e uma coluna com o respectivo trace (coluna da direita). . . 64 4.3 Gráficos com o Intervalo de Credibilidade e o ˆR

ob-tido pelo algoritmo Gelman-Rubin para cada uma das dimensões da variável I em cada um dos modelos pro-babil´ısticos estabelecidos. . . 65 4.4 Gráficos com o Intervalo de Credibilidade e o ˆR obtido

pelo algoritmo Gelman-Rubin para a variável unidi-mensional po (primeira linha do gráfico), seguida de cada uma das dimensões da variável β para cada um dos modelos probabil´ısticos estabelecidos.. . . 66 4.5 Gráfico com os valores calculados pelo método de Geweke

em uma das cadeias obtidas pelo algoritmo NUTS em cada um dos modelos probabil´ısticos estabelecidos. . . 67

(12)

4.6 Probabilidades de observa¸c˜ao dos casos de Zika e seu Intervalo de Credibilidade (95%) em cada modelo. . . . 68 4.7 Posteriori de γ−1 e mz e seus respectivos Intervalos de

Credibilidade (95%). . . 69 4.8 Compara¸c˜ao entre o n´umero total e o reportado de

casos de Zika no per´ıodo de estudo (epidemia de 2016) para cada um dos modelos probabil´ısticos estabelecidos. 70 4.9 R0 ≈ RV+ RS. O Número de Reprodu¸cão Básico é

repre-sentado separadamente em rosa para a popula¸c˜ao feminina e em azul para a popula¸c˜ao masculina. . . 71 5.1 Period of interest. The higher level of the green line delimits

the period of significant infection, being thus the period that will be analyzed. . . 77 5.2 Bayesian network for estimating the time boundaries

of the epidemic season. The gray filled circle means the observed data , the green border dots to represent a fixed parameter, the gray border circle indicate a Uniformly distri-buted variable, the pink border variable indicate Exponentially distributed variables and the purple halo means Poisson dis-tribution. The arrows indicate probabilistic dependencies. . . . 78 5.3 Bayesian network representing the model. . . 85 5.4 Bayesian network used in male, female not in fertile

age and total female models. . . 88 5.5 Probability of observation. Posterior probability

distribu-tion of the probability of observadistribu-tion in each sub-populadistribu-tion model. In particular, the mean and highest 95% posterior density interval of each parameter. . . 89 5.6 Posterior of γ−1 and mz. Histogram of samples extracted

from the posterior distributions of the duration of the infec-tious period (γ−1) and the fraction of miscarriage caused by ZIKV (mz). . . 90 5.7 Estimated Total Zika Female in Fertile Age Incidence.

The dashed lines bounds the 95% credibility range and the continuous darker curve represents the median of the total female in fertile age incidence. The dots are the observed incidences in our data. . . 90

(13)

5.8 Estimated Total Zika Female Not in Fertile Age In-cidence. The dashed lines bounds the 95% credibility range and the continuous darker curve represents the median of the total female not in fertile age incidence. The dots are the observed incidences in our data. . . 91 5.9 Estimated Total Zika Female Incidence. The dashed

li-nes bounds the 95% credibility range and the continuous dar-ker curve represents the median of the total female incidence. The dots are the observed incidences in our data. . . 92 5.10 Estimated Total Zika Male Incidence. The dashed lines

bounds the 95% credibility range and the continuous darker curve represents the median of the total male incidence. The dots are the observed incidences in our data. . . 93 5.11 Estimated Total Incidence. The dashed lines bounds the

95% credibility range and the continuous darker curve repre-sents the median of the total incidence. The dots are the observed incidences in our data. . . 94 5.12 Basic reproductive number (R0). The blue and pink areas

correspond to the separated Male and Female R0 estimates

respectively. The purple area is the intersection between the two areas. . . 94

(14)

Cap´ıtulo 1

Introdu¸

c˜

ao

Nos anos de 2015 e 2016 a cidade do Rio de Janeiro sofreu com uma grande epidemia de Zika que chamou aten¸cão internacionalmente para os efeitos que essa doen¸ca pode causar. O volume dessa epidemia é explicado devido ao ambiente prop´ıcio do Rio de Janeiro durante o per´ıodo chuvoso para a prolifera¸cão do principal vetor de transmissão, o mosquito Aedes aegypti.

Essa doen¸ca é responsável por danos ao sistema nervoso, de forma que em 2016, o número de abortos e nascimentos de crian¸cas com microcefalia foi muito maior que o dos anos anteriores.

Muitos estudos foram realizados nos últimos anos para compreender os efeitos causados pela epidemia de Zika, como a redu¸cão na taxa de natalidade por exemplo (Coelho et al. 2017), a comprova¸cão da rela¸cão com microcefalia (Mlakar et al. 2016) e do processo de transmissão sexual (Maxian et al. 2017).

Existe um esfor¸co para estimar os parâmetros da Zika em várias regiões do mundo, como o realizado na Colômbia, El Salvador e Suriname (Shutt et al. 2017). Esses estudos buscam melhorar o processo de preven¸cão, garantindo o aten¸cão necessária para que novas epidemias não ocorram ou sejam rapidamente con-troladas.

O presente trabalho busca estimar o tamanho total da epidemia e os parˆametros de transmiss˜ao da epidemia de Zika no ano de 2016 na cidade do Rio de Janeiro.

Iremos fazer uma breve descri¸cão das ferramentas matemáticas utiliza-das para realizar o processo de modelagem e inferência do problema. Em seguida, realizaremos a modelagem do problema de acordo com os dados que possu´ımos. Por fim, será apresentado o artigo cient´ıfico que o trabalho deu origem e a conclusão.

(15)

Cap´ıtulo 2

Referencial Te´

orico

2.1 Zika

A Zika é uma arbovirose transmitida principalmente pelo mosquito Aedes aegypti. O v´ırus da Zika pertence ao gênero Flavivirus, sendo muito próximo de outros v´ırus como o da Dengue e Febre Amarela (Zanluca et al. 2015).

O nome Zika remete `a floresta de Zika em Uganda, local onde o v´ırus foi isolado pela primeira vez em 1947.

O primeiro caso de epidemia de Zika registrado no mundo ocorreu em 2007 na Micronésia, desde então muitas outras regiões notificaram epidemias de Zika. Em 2015, o Brasil sofreu com uma epidemia inicialmente identificada no Rio Grande do Norte.

2.1.1 Sintomas

Muitas pessoas não apresentam os sintomas da Zika, mas para aqueles os quais a doen¸ca é sintomática, é comum apresentarem artralgia, edema de ex-tremidades, leve febre, erup¸cões maculopapulares e frequentemente prurigi-nosas, dores de cabe¸ca, dores retro-orbitais, conjuntivite purulenta, vertigem, mialgia e distúrbios digestivos (Zanluca et al. 2015).

Danos ao Sistema Nervoso

Al´em dos sintomas acima listados, a Zika apresenta efeitos danosos ao sistema nervoso.

(16)

A transmissão no per´ıodo de gesta¸cão é responsável por abortos ou por

graves defeitos congênitos como a má forma¸cão cerebral (microcefalia)(Brasil et al. 2016) e atrofia neuro-retinal macular em recém-nascidos (Ventura et al. 2016).

Em adultos, é conhecida a rela¸cão da Zika com s´ındrome de Guillain-Barré (Brasil et al. 2016), uma doen¸ca incapacitante que afeta a transmissão dos impulsos nervosos aos músculos, podendo levar à morte por falha respiratória.

Além disso, existem casos reportados de Meningoencefalite (Carteaux et al. 2016) e mielite aguda (Mécharles et al. 2016) que apresentam rela¸cão de causa e

efeito com a Zika. Transmiss˜ao

A transmissão da Zika ocorre principalmente pelo vetor Aedes aegypti, esse mosquito também é responsável pela transmissão de outras doen¸cas como dengue, febre amarela e chikunguya. Existem estudos recentes que exploram os efeitos da transmissão simultânea da chikungunya e zika na mesma picada (Göertz et al. 2017).

Além da transmissão vetorial, o v´ırus também pode ser transmitido sexu-almente (Musso et al. 2015). Os indiv´ıduos infectados são capazes de trans-mitir o v´ırus por bem mais tempo através do sêmen (Atkinson et al. 2016) que através do mosquito (Nicastri et al. 2016).

Por fim, existem ainda os processos de transmissão através da placenta e transfusão sangu´ınea.

2.2 Simula¸

c˜

ao de N´

umeros Pseudo-aleat´

orios

Números aleatórios são aqueles gerados de forma não determin´ıstica, através de amostragem de uma distribui¸cão de probabilidade.

Uma vez que o computador é uma máquina determin´ıstica, não é poss´ıvel gerar números aleatórios através de instru¸cões bem definidas do seu proces-sador.

Por outro lado, é poss´ıvel gerar números que imitam o comportamento de números aleatórios, os chamados números pseudo-aleatórios.

Descreveremos agora os algoritmos mais comuns para a gera¸cão de números pseudo-aleatórios. De agora em diante, as variáveis geradas por esses métodos serão referenciadas como se fossem realmente aleatórias.

(17)

2.2.1 M´

etodo da Congruˆ

encia Linear

A distribui¸cão Uniforme é a matriz para a constru¸cão de outras distribui¸cões. Um método bastante conhecido para gerar variáveis uniformemente distribu´ıdas no intervalo [0, 1] (usaremos a nota¸cão U (0, 1)) é através no procedimento da Congruência Linear. em janeiro de 2018

Definimos um valor inicial Z0, o multiplicador a, o incremento b e o

módulo m. Nós conseguimos gerar números uniformemente distribu´ıdos no intervalo (0, m − 1) através da soma modular definida pela equa¸cão recursiva (2.1).

Zi = (aZi−1+ b) mod m, i = 1, 2, 3, . . . (2.1)

Para garantir que os números gerados por esse processo estejam no in-tervalo (0, 1), nós devemos dividi-los por m, como mostrado pela equa¸cão (2.2).

Ui =

Zi

m (2.2)

2.2.2 M´

etodo da Transforma¸

c˜

ao Inversa

Possuindo uma variável aleatória U uniformemente distribu´ıda (U ∼ U (0, 1)) e uma fun¸cão de distribui¸cão acumulada (FDA) invers´ıvel F , nós podemos gerar uma variável aleatória X distribu´ıda conforme F (X).

Uma vez que o conjunto imagem da fun¸cão F é o intervalo (0, 1), para cada realiza¸cão u de U , teremos uma realiza¸cão x de X através de x = F−1(u), generalizando X = F−1(U )

2.2.3 M´

etodo da Aceita¸

c˜

ao-Rejei¸

c˜

ao

Para os casos em que é analiticamente dif´ıcil inverter a FDA F , o método da Transforma¸cão Inversa não é o mais indicado. Suponha que desejamos amostrar valores de distribu´ıdos de acordo com a fun¸cão de densidade de probabilidade (FDP) f (x) de suporte I tal que sua FDA F (x) é analitica-mente dif´ıcil de inverter. Seja g(x) uma FDP cuja FDA é G(x) e que pode ser obtida por um método mais simples, como o método da Transforma¸cão

(18)

Inversa (2.2.2) por exemplo. Escolhemos então uma fun¸cão t(x) (não neces-sariamente uma fun¸cão de densidade de probabilidade) tal que:

t(x) = cg(x) _{c ∈ R} (2.3)

t(x) ≥ f (x) ∀x ∈ I (2.4)

O algoritmo para simular uma variável aleatória X ∼ f (x) pode ser então resumido da seguinte maneira:

1. Gere uma vari´avel aleat´oria Y ∼ g(x) ;

2. Gere uma vari´avel aleat´oria U uniformemente distribu´ıda com suporte (0, 1) e independente de Y ;

3. Se

U ≤ f (x)

t(x) (2.5)

Ent˜ao aceite e tome X = Y , caso contr´ario rejeite e repita o processo desde a etapa 1.

O valor da constante c da equa¸cão (2.3) é tal que f (x)_t(x) seja o mais próximo poss´ıvel de 1, pois pode ser provado que essa constante representa o valor esperado de itera¸cões do algor´ıtimo até que haja uma aceita¸cão na etapa 3. (Sigman 2007).

O método para a gera¸cão de variáveis aleatórias discretas é análogo ao descrito acima.

2.3 Redes Bayesianas

Redes Bayesianas são representa¸cões conjuntas de probabilidade que se fun-damentam nas propriedades da regra do produto da probabilidade (descrita na equa¸cão 2.6) e da independência condicional (presente na equa¸cão (2.7)) para modelar a rela¸cão entre variáveis aleatórias, reduzindo o volume de dados e a complexidade de processamento.

(19)

X ⊥ Y |Z ↔ P(X, Y |Z) = P(X|Z)P(Y |Z) (2.7) A modelagem pelas Redes Bayesianas permite expressar a cren¸ca das rela¸cões de dependência entre as variáveis através de grafos direcionados ac´ıclicos. Nesses modelos, os nós representam as variáveis aleatórias e as rela¸cões de dependência são representadas por setas que apontam do parâmetro para a variável dependente, como visto na figura 2.1.

Figura 2.1: Exemplo de Rede Bayesiana. Fonte: (Barber 2016) Em modelos gráfico probabil´ısticos, como o descrito acima, o modelo é representado pelo grafo G(V, A), onde V é o conjunto de vértices (variáveis aleatórias) e A é o conjunto de arestas.

Dessa forma, G(a, b) significa que os nós a, b ∈ V e a aresta ab ∈ A. O conjunto de nós pais (defini¸cão (2.8)), em rela¸cão a uma f, são os nós cujas arestas que saem apontam para o nó f, chamado de nó filho (defini¸cão (2.9)).

pais(f) , {t : G(t, f) = 1}. (2.8) f ilhos(p) , {t : G(t, p) = 1} (2.9) Dessa forma, o nó raiz é aquele que não possui nós pais. Estendendo as defini¸cões acima, temos os conceitos de fam´ılia, que é o conjunto:

(20)

Os ancestrais s˜ao os elementos do conjunto:

pais(f) ∪ pais(pais(f)) ∪ · · · ∪ {raiz} (2.11) Para representar nós independentes e igualmente distribu´ıdos - iid (con-dicionalmente independentes dados os nós pais comuns) da figura 2.1, por exemplo, nós utilizamos a nota¸cão de placa, indicada na figura 2.2, para evitar que a representa¸cão gráfica se torne polu´ıda e de dif´ıcil compreensão.

Figura 2.2: Nota¸cão de placa: permite organizar variáveis com distribui¸cão equivalente (2.1) em uma figura mais condensada. Fonte: (Barber 2016)

As independências condicionais são verificadas visualmente através do conceito de d-separa¸cão. Dado um conjunto de nós E, que representa as variáveis dos dados evidenciados, dizemos que dois nós são d-separados se, e somente se, ao menos uma das condi¸cões abaixo forem satisfeitas.

• Seguindo um caminho no grafo (seguindo o sentido das arestas), ini-ciando num nó inicial (i) e chegando num nó final (f ), passarmos por um nó e ∈ E, como na figura 2.3a, ent˜_{ao P(i, f |e) = P(i|e)P(f |e).}

• Se tivermos um n´o e ∈ E cujas arestas que saem apontam para os n´os a e b, ilustrado pela figura 2.3b, ent˜_{ao P(a, b|e) = P(a|e)P(b|e).}

(21)

• Se tivermos um nó e 6∈ E cujas arestas que chegam são oriundas dos nós a e b, conforme a figura 2.3c, ent˜_{ao P(a, b) = P(a)P(b).}

(a) i ⊥ f |e (b) a ⊥ b|e (c) a ⊥ b

Figura 2.3: Modelos de d-separa¸cão. Os nós preenchidos representam que a variável foi observada

2.3.1 Modelos Hier´

arquicos

Os modelos estat´ısticos hierárquicos são uma generaliza¸cão dos modelos clássicos de regressão linear.

Os parâmetros que regem o modelo possuem uma distribui¸cão proba-bil´ıstica, de forma que os hiperparâmetros que regem essa distribui¸cão pos-suem sua própria distribui¸cão de probabilidade.

O número de n´ıveis de incertezas que se deseja estabelecer é limitado pelo conhecimento prévio do problema em estudo, pelos dados dispon´ıveis, pelo modelo probabil´ıstico estabelecido e pela capacidade computacional (proces-samento e memória) dispon´ıvel.

Existe uma estreita rela¸cão entre a modelagem hierárquica e os modelos gráficos. A modelagem hierárquica estabelece a rela¸cão matemática e as distribui¸cões de probabilidade entre as variáveis do modelo. A partir das inter-rela¸cões matemáticas estabelecidas, o modelo gráfico é constru´ıdo e reduzido de acordo com as cren¸cas de independência condicional.

(22)

2.3.2 Inferˆ

encia / Aprendizado

A modelagem descrita acima permite definir distribui¸cões de probabilidade de forma organizada dos nós desconhecidos através dos nós conhecidos. A inferência é o processo no qual calculamos fun¸cões dessas distribui¸cões.

Na equa¸cão (2.12), temos a regra de Bayes que é o modelo no qual reli-zamos a inferência de uma rede Bayesiana.

P(θ|D) = P(D|θ)P(θ) P(D) = P(D|θ)P(θ) R θP(D|θ)P(θ) (2.12) A verossimilhan¸ca P(D|θ) representa a modelagem dos dados conhecidos e a medida P(θ) representa a cren¸ca acerca dos do parˆametro que desejamos inferir (θ) antes de qualquer novo dado seja evidenciado.

As fun¸c˜_{oes P(D|θ) e P(θ) se relacionam tal qual foi desenhado no grafo} da Rede Bayesiana.

O denominador R_θ_{P(D|θ)P(θ) representa apenas um fator de} margina-liza¸c˜ao da distribui¸c˜_{ao de θ restringida ao espa¸co dos dados D (P(θ|D)).}

Portando, inferência é o processo de calcular os valores da equa¸cão (2.12) e encontrar P(θ|D).

O processo de aprendizado é realizado através do qual realizamos a atu-aliza¸cão do grafo após observarmos novas evidências (dados).

2.4 Monte Carlo via Cadeias de Markov (MCMC)

Diversas vezes precisamos estimar o valor da integral de fun¸cões (possivel-mente em múltiplas dimensões) que não são analiticamente resolv´ıveis. Para realizar inferências sobre o um parâmetro de um modelo através da estat´ıstica Bayesiana, por exemplo, nós precisamos integrar a distribui¸cão dos valores observados, condicionado a todos os valores que o parâmetro de estudo pode assumir, como verificado no denominador de (2.12).

MCMC realiza amostragens de uma cadeia de Markov estacionária que possui distribui¸cão igual à distribui¸cão a posteriori. Utilizaremos esse meca-nismo para realizar inferências de parâmetros da epidemia da Zika condicio-nados à serie temporal de pessoas infectadas.

Assim, conforme os algoritmos que serão descritos, um processo intera-tivo é realizado até que seja alcan¸cada a convergência a essa distribui¸cão estacionária.

(23)

Em uma fase inicial, muitos pontos são extra´ıdos antes de alcan¸car a convergêcia e devem ser descartados, é o que chamamos de burn-in.

2.4.1 Integra¸

c˜

ao por M´

etodo de Monte Carlo

Em muitos problemas práticos, desejamos calcular o valor esperado de variáveis aleatórias cujas fun¸cões de densidade de probabilidade são desconhecidas ou apresentam integrais muito dif´ıceis de resolver analiticamente. Para esse tipo de problema, utilizamos o Método de Monte Carlo, que nada mais é do que empregar diretamente a Lei dos Grandes Números para resolver numerica-mente esse tipo de problema.

Assim, seja X uma variável aleatória e f (X) sua fun¸cão de densidade de probabilidade e suponha que desejarmos resolver a integral definida do nalo direito da equa¸cão (2.13), onde g é uma fun¸cão qualquer de X.

E[g(X)] = Z

g(X) · f (X)dX (2.13)

Extraindo n amostras da vari´avel X e fazendo Yi = g(X(i)) para a i-´esima

amostra, podemos aproximar E[g(X)] por 2.14

lim

n→∞

Y1+ Y2+ Y3+ · · · + Yn

n = E[g(X)] (2.14)

2.4.2 Cadeias de Markov

Seja I um conjunto contável, Cadeias de Markov é o nome genérico que se dá ao processo estocástico (Xn)n∈N tal que para quaisquer i0, i1, . . . , in−1, in∈ I

a condi¸cão (2.15), abaixo, é válida.

P(Xn= in|Xn−1= in−1, . . . , X0 = i0) = P(Xn = in|Xn−1 = in−1) (2.15)

Assim, uma Cadeia de Markov é um processo estocástico no qual as re-aliza¸cões passadas não acrescentam informa¸cões para previsões futuras, so-mente o estado presente.

(24)

2.4.3 Metropolis-Hastings

O algoritmo Metropolis-Hastings descreve uma forma eficiente de gerar amos-tras oriundas de uma distribui¸cão de interesse (π(.)). Essa amostragem é ra-lizada através de uma cadeia de Markov que possui distribui¸cão estacionária φ(.) igual a distribui¸cão de interesse (π(.) = φ(.)).

Inicialmente, um estado inicial (X0) ´e escolhido arbitrariamente, em

se-guida o algoritmo é repetido até que uma condi¸cão de parada seja alcan¸cada. Em cada repeti¸cão do algoritmo, um candidato Y é selecionado de uma distribui¸cão de probabilidade proposta condicionada ao último valor aceito pelo algoritmo. Assim, seja q(.) a distribui¸cão de probabilidade proposta, na t-ésima rodada do algoritmo, selecionamos Y ∼ q(.|Xt−1= xt−1).

O candidato Y = y é aceito com probabilidade α(.), conforme a defini¸cão (2.16). Caso seja aceito xt = y, caso contrário xt= xt−1.

α(x, y) , min1,π(y)q(x|y) π(x)q(y|x)

(2.16) Qualquer escolha da distribui¸cão proposta eventualmente irá produzir amostras distribu´ıdas de acordo com a distribui¸cão π(.).

´

E comum a utiliza¸cão de distribui¸cões simétricas, que atendem a igual-dade (2.17), para simplificar o cálculo de α, conforme (2.18).

q(X|Y ) = q(Y |X) (2.17)

α(X, Y ) = min1, π(Y ) π(X)

(2.18) Apesar de não ser um fator crucial para na obten¸cão do resultado espe-rado, a escolha de uma distribui¸cão proposta adequada é importante para acelerar o processo convergência à distribui¸cão estacionária. Além disso, uma vez alcan¸cada a convergência, a amplitude de varredura do suporte de π(.)

também é determinada pela escolha de q(.|.) (Gilks, Richardson e Spiegelhalter 1995). Assim, se q(.|.) for escolhida tal que o candidato Y seja muito próximo

do estado atual da cadeia Xt, ou seja, a distˆancia d(Xt, Y ) = |Y − Xt| seja

pequena, então teremos elevada taxa de aceita¸cão, porém a varredura do suporte de π(.) ocorrerá lentamente.

(25)

Por outro lado, se escolhermos uma distribui¸c˜ao proposta que seleciona candidatos mais afastados (d(Xt, Y ) seja grande), ent˜ao teremos baixa taxa

de aceita¸cão e a cadeia irá demorar para convergir à distribui¸cão estacionária. ´

E comum escolher como proposta a distribui¸cão normal centrada do es-tado atual (Xt), o desvio padrão controla a distância d(Xt, Y ).

Os dados dispon´ıveis são introduzidos ao utilizarmos a regra de Bayes, como descrito em (2.19): π(Y ) π(Xt) = P(D|Y )P(Y ) P(D) P(D|Xt)P(Xt) P(D) = P(D|Y )P(Y ) P(D|Xt)P(Xt) (2.19) Podemos resumir a descri¸cão acima através do algoritmo 1.

Algoritmo 1: Metropolis-Hastings Dados: X0, T , t = 0 1 enquanto t ≤ T fa¸ca 2 Amostre Y ∼ N (X_t, σ); 3 Amostre U ∼ U (0, 1); 4 α(X, Y ) := min 1,_π(Xπ(Y ) t) ; 5 se U ≤ α(Xt, Y ) ent˜ao 6 X_t+1 := Y ; 7 sen˜ao 8 Xt+1 := Xt; 9 fim 10 t = t + 1; 11 fim

2.4.4 Monte Carlo Hamiltoniano (HMC)

Para o cálculo do Valor Esperado de uma distribui¸cão cont´ınua de proba-bilidades multidimensional, precisamos integrar a fun¸cão de densidade de probabilidade no volume em que ela se encontra.

Em espa¸cos multidimensionais, o volume ocupado pela moda (se ela exis-tir e for única) torna-se menos significante com aumento do número de di-mensões. Isso ocorre porque com o aumento do número de dimensões, o vo-lume vai se concentrando na casca esférica centrada na moda da distribui¸cão,

(26)

fenômeno conhecido como Maldi¸cão da Dimensionalidade. Essa concentra¸cão de volume é análoga para os casos de distribui¸cão multimodal.

Dessa forma, em espa¸cos paramétricos multidimensionais de probabili-dade, as regiões com maior probabilidade e volume são responsáveis por maior contribui¸cão do Valor Esperado. A região do espa¸co que concentra esses pontos é uma estreita faixa chamada de Conjunto T´ıpico.

Como o algoritmo Metropolis-Hastings vasculha o espa¸co amostral consi-derando todas as dire¸cões equiprováveis e o grau de liberdade é muito grande em espa¸cos multidimensionais, os pontos sugeridos são enviesados para fora do Conjunto T´ıpico.

Assim, o Algoritmo Metropolis-Hastings apresenta baixa probabilidade de ser aceitar pontos com significante efeito no c´alculo do Valor Esperado.

Além disso, em regiões onde o grau de curvatura é muito alto, o algoritmo Metropolis-Hastings tende a se comportar de forma anômala, vasculhando de forma ineficiente esses pontos.

O algoritmo Monte Carlo Hamiltoniano resolve esses problemas ao explo-rar a geometria do Conjunto T´ıpico e realizar transi¸cões maiores dentro de uma trajetória com alta aceita¸cão e eficiente para o cálculo do Valor Espe-rado.

A dinâmica Hamiltoniana emprega um vetor de posi¸cão d-dimensional q e um vetor de momentum d-dimensional p. Assim, o espa¸co de estados gerado por p e q é composto por 2d dimensões e é chamado de Espa¸co de Fases.

O Hamiltoniano (H(q, p)) é a fun¸cão que descreve esse sistema, geralmente através da soma das energias potencial U (q) e a cinética K(p), como descrito pela equa¸cão (2.20). As equa¸cões de Hamilton definidas por (2.21) e (2.22) determinam a evolu¸cão da posi¸cão e do momentum.

H(q, p) = U (q) + K(p) (2.20) dqi dt = ∂H ∂pi (2.21) dpi dt = −∂H ∂qi (2.22) Assim, para utilizarmos a dinˆamica Hamiltoniana para realizarmos amos-tragens da vari´avel q de interesse, precisamos adicionalmente de um vetor de

(27)

momento p. A distribui¸cão conjunta de q e p da igualdade (2.23) é chamada de Distribui¸cão Canônica.

A Distribui¸cão Canônica se relaciona com um Hamiltoniano invariante através da equa¸cão (2.24), onde T é a temperatura e Z é uma constante de normaliza¸cão para que a fun¸cão distribui¸cão possua integral igual a 1.

π(q, p) = π(p|q)π(q) (2.23) π(q, p) = 1 Z exp −H(q, p) T (2.24) Das equa¸c˜oes (2.20), (2.23) e (2.24), podemos escrever H conforme a equa¸c˜ao (2.25), considerando Z = T = 1,

H(q, p) = − log(π(p|q)) − log(π(q)) (2.25) Como π(q) é a nossa distribui¸cão de interesse, podemos relacionar as equa¸cões (2.20), (2.25) e o Teorema de Bayes (2.12) através da igualdade (2.26) a menos de uma constante.

U (q) = − log(P(D|q)P(q)) (2.26) Para resolver o sistema de equa¸cões formado pelas equa¸cões (2.21) e (2.22), utilizaremos uma modifica¸cão do método de Euler, chamado de inte-grador simplético Störmer-Verlet ou Leapfrog, definido pelo Algoritmo 2.

Uma maneira de corrigir o erro gerado pelo integrador simplético é intro-duzir o mecanismo de aceita¸cão-rejei¸cão de Metropolis-Hastings (Betancourt 2017).

A probabilidade α de aceita¸cão do parâmetro proposto ˜θ é definido pela equa¸cão (2.27). Nessa equa¸cão, θ = (p, q) e θt−1 é o valor do parâmetro no

tempo de execu¸c˜ao t − 1. α(˜θ, θt−1) = min 1, exp(−H(˜θ)) exp(−H(θt−1)) (2.27) Portanto, considerando que q0 ´e o valor inicial arbitrariamente escolhido

para a variável de interesse, e L/ são o passo e o número de itera¸cões do Leapfrog respectivamente, U é definido por (2.26), ∇U é o gradiente de U

(28)

Algoritmo 2: Leapfrog Dados: q, p, L, , ∇U

1 q0 := q; 2 p₀ := p;

3 para n = 0 at´e L/ − 1 fa¸ca 4 p_n+1 2 := pn− 2∇U (qn); 5 q_n+1 := q_n+ p_n+1 2; 6 p_n+1 := p_n+1 2 − 2∇U (qn+1); 7 n = n + 1; 8 fim 9 Retorna ˜q ← q_(L/) e ˜p ← p_(L/)

e M é o número de amostras, então o método de amostragem Monte Carlo Hamiltoniano fica resumido pelo Algoritmo 3.

Algoritmo 3: Monte Carlo Hamiltoniano Dados: q0, , L, U , ∇U , M

1 para m = 1 at´e M fa¸ca 2 Amostre p ∼ N (0, I); 3 Amostre U ∼ U (0, 1);

4 θ := Leapfrog(q˜ m−1, p, L, , ∇U ) ; /* Considere θ = (q, p) */ 5 α(˜θ, θ_m−1) := min 1, exp(U (qm−1) − U (˜q) + 1₂(||p||2− ||˜p||2) ; 6 se U ≤ α(˜θ, θ_m−1) ent˜ao 7 qm := ˜q; 8 sen˜ao 9 q_m := q_m−1; 10 fim 11 m = m + 1; 12 fim

2.4.5 Amostrador No-U-Turn (NUTS)

Os parˆametros e L devem ser criteriosamente ajustados para que o al-goritmo Monte Carlo Hamiltoniano (alal-goritmo 3) apresente os resultados esperados.

(29)

De fato, quando o é muito pequeno, os passos são muito pequenos causando desperdi¸co de tempo computacional. Por outro lado, quando é muito grande, então ocorre grande taxa de rejei¸cão dos pontos propostos.

Quando o L é muito pequeno, o algoritmo se comporta como se realizasse um passeio aleatório (problemático em grande número dimensões), já quando o L é muito grande, pode acontecer uma curva completa (U-turn) e o ponto proposto ser muito próximo ou pior ainda, periodicamente fixo.

Assim, é necessária grande experiência para interpretar os resultados ob-servados para conseguir ajustar o algoritmo corretamente. Além disso, são necessárias várias realiza¸cões do HMC para poder alcan¸car os valores ótimos de e L.

O amostrador No-U-Turn é uma extensão no algoritmo HMC que elimina as limita¸cões listadas acima. Nesse algoritmo, estabelecemos um critério para evitar os percursos com grandes ângulos de curvatura (U-turn), parando a simula¸cão quando a ganho de distância instantânea (C) for menor que zero. Para facilitar o cálculo consideraremos o ganho de distância a derivada no tempo do quadrado da distância percorrida, dividido por 2 por conveniência matemática, como pode ser observado na igualdade (2.28). Resolvendo ob-temos a equa¸cão fechada (2.30).

C(q, q0) = ∂ ∂t (q0− q)T _{· (q}0 _{− q)} 2 (2.28) = (q0− q)T · ∂ ∂t(q 0_{− q)} (2.29) = (q0− q)T · p (2.30)

Além disso, o amostrador NUTS acrescenta um conjunto B de todos os pontos tra¸cados pelo algoritmo Leapfrog, um conjunto C com os pontos de B que são candidatos a serem aceitos e uma variável u que condiciona a escolha dos pontos que serão adicionados em C. Essas modifica¸cões são necessárias para o tempo de parada, definido por 2.31, proporcione uma Cadeia de Markov revers´ıvel.

C(q, q0) < 0 (2.31)

O processo aleatório de constru¸cão dos conjuntos B e C ⊆ B, dados q, p, u e , definirá uma distribui¸c˜_{ao condicional P(B, C|q, p, u, ), na qual devem} ser válidas as seguintes condi¸cões (Hoffman e Gelman 2014):

(30)

1. Todos os elementos de C devem ser escolhidos tal que preservem o volume. Ou seja, qualquer transforma¸c˜ao determin´ıstica de q, p usados para adicionar um estado q0, p0 a C devem ter Jacobiano igual a 1. 2. P((q, p) ∈ C|q, p, u, ) = 1

3. P(u ≤ {U (q0) − 1₂p0p0}|(q0_{, p}0_{) ∈ C) = 1}

4. Se (q, p) ∈ C e (q0, p0) ∈ C. ent˜_{ao para qualquer B, P(B, C|q, p, u, ) =} P(B, C|q0, p0, u, )

O conjunto B ´e constru´ıdo por um processo gerador no qual repetidamente ´

e dobrado o tamanho de uma árvore binária (B) cujos nós correspondem a estados de posi¸cão e momentum (q, p). Em cada tempo de execu¸cão i, tomamos 2i _{passos para frente ou para tr´}_{as atrav´}_{es do algoritmo Leapfrog, o}

sentido do passo ´e determinado pela vari´avel νi ∈ {−1, 1}.

Podeoms definir u como uma vari´avel distribu´ıda tal qual (2.32).

u ∼ U (0, U (qt) −1

2p · p) (2.32)

Dessa forma, a condi¸cão 3. será formalizada por ela desigualdade (2.33), estabelecendo uma condi¸cão de parada. ∆max é um valor arbitrariamente

estabelecido, recomendado a ser um valor grande como 1000 para obter uma boa acur´acia (Hoffman e Gelman 2014).

U (qt) − 1

2p · p − log u < ∆max (2.33) O algoritmo repetirá até que a condi¸cão (2.31) seja alcan¸cada.

Resumidamente, o amostrador NUTS pode ser descrito pelo algoritmo 5. O algoritmo descrito é uma versão simplificada para ilustrar o funcionamento, mas não está otimizado quanto ao uso de memória e processamento.

(31)

Algoritmo 4: BuildTree Dados: q, p, u, ν, j, , U , ∇U 1 se j = 0 ent˜ao 2 q0, p0 := Leapfrog(q, p, ν, , ∇U ); 3 C0 := ( {(q0_{, p}0_)} _{se u ≤ exp{U (q}0₎1 2p 0 _{· p}0_} ∅ c.c. ;

4 s0 := I[U (q0) −1₂r0· r0 > log u − ∆max]; 5 retorna q0, p0, q0, p0, C0, s0 6 senão 7 q−, p−, q+, p+, C0, s0 := BuildTree(q, p, u, ν, j − 1, , U, ∇U ); 8 se ν = −1 então 9 q−, p−, − , − , C00, s00 := BuildTree(q−, p−, u, νj, j − 1, , U, ∇U ); 10 senão 11 − , − , q+, p+, C00, s00 := BuildTree(q+, p+, u, νj, j − 1, , U, ∇U ); 12 fim 13 s0 := s0s00_I[(q+− q−) · p− ≥ 0]I[(q+− q−) · p+≥ 0]; 14 C := C ∪ C0; 15 retorna q0, p0, q0, p0, C0, s0 16 fim

(32)

Algoritmo 5: NUTS (N˜ao otimizado) Dados: q0, , U , ∇U , M

1 para m = 1 até M fa¸ca 2 Amostre p0 ∼ N (0, I); 3 Amostre u ∼ U (0, exp{U (qm−1) −1₂p0· p0)}); 4 q− := qm−1; 5 q+ := qm−1; 6 p− := p0; 7 p+ := p0; 8 j := 0; 9 C := {(qm−1, p0)}; 10 s := 1; 11 enquanto s = 1 fa¸ca 12 Amostre νj ∼ U {0, 1}; 13 se ν_j = −1 então 14 q−, p−, − , − , C0, s0 := BuildTree(q−, p−, u, νj, j − 1, , U, ∇U ); 15 senão 16 − , − , q+, p+, C0, s0 := BuildTree(q+_{, p}+_{, u, ν} j, j − 1, , U, ∇U ); 17 fim 18 se s0 = 1 então 19 C := C ∪ C0 20 fim 21 s := s0_I[(q+− q−) · p− ≥ 0]I[(q+− q−) · p+≥ 0]; 22 j := j + 1 23 fim

24 Amostre qm e p uniformemente do conjunto C; 25 fim

O ajuste automatizado do parâmetro pode ser realizado através de oti-miza¸cão estocástica (Dual Averaging) ou através da escolha aleatória em torno da vizinha¸ca de algum 0. Ambos os processos são realizados nas fases

(33)

2.4.6 Diagn´

ostico

Infelizmente, não é poss´ıvel assegurar que o algoritmo MCMC convergiu. Os métodos presentes apenas indicam a falta de convergência. Portanto, se o método falha em provar a falta de convergência não significa que a convergência é certa.

Listaremos os métodos que utilizamos para avaliar a convergência do nosso modelo, existem ainda muitos outros métodos que não foram utili-zados.

Inspe¸c˜ao Visual

A inspe¸c˜ao visual do tra¸cado da amostragem de cada uma das vari´aveis possibilita verificar rapidamente anomalias no modelo.

Se a amostragem permanecer em certas áreas do espa¸co por muito tempo, como verificado na região entre as linhas tracejadas do tra¸cado representado pela figura 2.4, temos um sinal de problema de amostragem, como por exem-plo quando o Conjunto T´ıpico apresenta uma região com elevado grau de curvatura e o algoritmo de amostragem utilizado é o Metropolis-Hastings ou a parametriza¸cão não está adequada.

(34)

Figura 2.4: Tra¸cado da amostragem de uma variável θ. Perceba o amos-trador permanece preso um uma região durante as itera¸cões entre as linhas tracejadas, indicando que há um problema com o processo de amostragem.

Quando o Conjunto T´ıpico apresenta uma região com elevado grau de cur-vatura, até mesmo algoritmos mais robustos como o HMC e o NUTS podem acabar tendo problemas na varredura dessas áreas. Nesses casos, defini¸cões

“não centradas” das variáveis podem corrigir o problema (Betancourt e Girolami 2015). Variáveis não centradas são aquelas em que certas dependências foram

fatorizadas em transforma¸cões determin´ısticas. Essa transforma¸cões descor-relacionam as variáveis antes dependentes condicionadas aos dados. Um exemplo desse tipo de transforma¸cão é ilustrada pela variável centrada (2.34) que passa a ser modelado como a variável não centrada (2.35) e a variável auxiliar (2.36).

(35)

θ ∼ N (µ, σ2) (2.34) θ = µ + σ ση η (2.35) η ∼ N (0, σ2_η) (2.36)

Quando o tra¸cado não permanece ao redor de um valor central, como indicado na figura 2.5, também é um sinal de problema de convergência, diz-se que o modelo não misturou bem. Nesse caso, aumentar o número de amostras é necessário.

(36)

Figura 2.5: Tra¸cado com problema de convergˆencia

Muitas vezes o número de amostras necessário para verificar convergência ´

e muito grande. Nesses casos, é melhor reparametrizar o modelo, ou iniciar a cadeia num ponto mais próximo da convergência através de estimadores mais rápidos como Máximo a Posteriori (MAP) ou Inferência Variacional (VI).

Existem ainda os m´etodos quantitativos para diagnosticar a falta de con-vergˆencia de um modelo.

(37)

Geweke

Geweke propôs um diagnóstico de convergência em que comparamos a média da primeira parte (geralmente os primeiros 10%) com a média da última parte (geralmente os últimos 50%) da série de amostras. Se a distribui¸cão da cadeia for estacionária, então as duas médias serão iguais(Geweke et al. 1992).

A estat´ıstica de Geweke é definida pela equa¸cão (2.37) e possui distri-bui¸cão assintoticamente normal padrão, onde xi é a primeira parte da série,

xf é a última parte, bE é a média amostral e dVar significa a variância amostral. De forma que se o valor do módulo dessa estat´ıstica for maior que 1, então indica que houve divergência.

G = E[xb i] − bE[xf] d

Var[xi] − dVar[xf]

(2.37)

Gelman-Rubin

O diagnóstico de Gelman-Rubin compara a variância entre cadeias distintas com a variância das dentro dessas cadeias. Se essas cadeias convergirem, então as variâncias inter e intra cadeias devem ser idênticas.

As cadeias devem ser iniciadas em pontos distintos para melhorar a efe-tividade do teste em detectar evidˆencias da falta de convergˆencia.

Suponha que simulemos m cadeias, cada uma com 2n amostras, tais que as primeiras n sejam descartadas. Para um modelo parametrizado por θ, seja {θij}ni=1 a j-ésima cadeia. Dessa forma, ¯θj é a média amostral da

j-´

esima cadeia, ¯θ a m´¯ edia amostral das m´edias amostrais, como descrito por (2.38). ¯ ¯ θ = 1 m m X j=1 ¯ θj (2.38)

Assim, calculamos a variância (2.39) de cada uma dessas cadeias, a média dessas variâncias (2.40) e a variância das médias dessas cadeias (2.41), mul-tiplicada por n pois cada uma dessas cadeias é baseada em n amostras.

(38)

s2_j = 1 n − 1 n X i=1 (θij − ¯θj)2 (2.39) W = 1 m m X j=1 s2_j (2.40) B = n m − 1 m X j=1 (¯θj − ¯θ)¯2 (2.41)

Dessa forma, nós podemos estimar a variância da distribui¸cão estacionária como uma combina¸cão afim de W e B, como descrito pela igualdade (2.42).

ˆ V ar(θ) =1 − 1 n W + 1 nB (2.42) (2.43) Por fim, o fator de diagn´ostico Gelman-Rubin ( ˆR) ´e definido por (2.44).

ˆ R = s ˆ V ar(θ) W (2.44)

Quando ˆR > 1.2 (Brooks e Gelman 1998), então nós devemos realizar amostras maiores para alcan¸car a convergência para a distribui¸cão esta-cionária.

2.5 Inferˆ

encia Variacional (VI)

A fam´ılia de algoritmos MCMC produz assintoticamente amostras da ver-dadeira distribui¸cão que nos interessa. Porém, modelos muito complexos ou com elevado volume de observa¸cões demandam muitos recursos computacio-nais em repeti¸cões do algoritmo até a convergência e no cálculo da verossi-milhan¸ca.

Diferentemente dos algoritmos MCMC que utilizam amostragem, os al-goritmos VI baseiam-se na otimiza¸c˜ao.

(39)

De uma maneira geral, inicialmente definimos uma fam´ılia de distribui¸cões D para as variáveis latentes do modelo (θ), definida por uma fun¸cão de densidade de probabilidades (q(θ|ν)). Em seguida, buscamos os parâmetros (˜ν) que mais aproximam as distribui¸cões propostas (q(θ|˜ν)) da distribui¸cão de interesse (p(θ|D)).

Uma forma de medir a distância entre as duas distribui¸cões de probabili-dade q(θ|ν) e p(θ|D) é através da divergência/ distância de Kullback-Leibler (distˆ_{ancia KL) ou entropia relativa, definida pela equa¸cão (2.45).}

KL(q(θ|ν)||p(θ|D)) , Z q(θ|ν) log q(θ|ν) p(θ|D) dθ (2.45)

Assim, escolhemos a distribui¸cão que apresenta menor distância da ver-dadeira distribui¸cão e a utilizamos como substituta para explicar o fenômeno governado pela variável latente em questão.

No entanto, não é poss´ıvel minimizar a distância KL pois não temos conhecimento da distribui¸cão a posterior p(θ|D), que é exatamente o que queremos aproximar.

Para resolver esse problema recorremos à Desigualdade de Jensen. Essa desigualdade estabelece que, para uma fun¸cão côncava f (.), é valida a ine-qua¸cão (2.46) e por consequência a inequa¸cão (2.47).

f (Eq[X]) ≥ Eq[f (X)] (2.46) log Z p(x)q(x)dx≥ Z log(p(x))q(x)dx (2.47) Dessa forma, seja o problema de marginaliza¸c˜ao (omitimos o parˆametro ν em q(.) por simplicidade):

p(D) = Z

p(D|θ)p(θ)dθ (2.48)

(40)

inequa¸c˜ao (2.46) no passo (2.52): log(p(D)) = log Z p(D, θ)dθ (2.49) = log Z p(θ|D)p(D)q(θ) q(θ)dθ (2.50) = log Z p(D)p(θ|D) q(θ) q(θ)dθ (2.51) ≥ Z q(θ) logp(D)p(θ|D) q(θ) dθ (2.52) = Z q(θ) log(p(D))dθ − Z q(θ) log q(θ) p(θ|D) dθ (2.53)

Uma vez que p(D) é uma constante, pela desigualdade (2.53) e pela de-fini¸cão (2.45), podemos escrever a inequa¸cão (2.54). Perceba que essa ine-qua¸cão ´_{e obvia pois KL ≥ 0, pois se trata de uma distância. Apesar disso,} esse desenvolvimento matemático permitiu mostrar uma alternativa para a minimiza¸c˜_{ao do KL.}

log(p(D)) ≥ −KL(q(θ|ν)||p(θ|D)) + log(p(D)) (2.54) F (D, ν) = −KL(q(θ|ν)||p(θ|D)) + log(p(D)) (2.55) A fun¸cão (2.55) é chamada de Limite inferior de evidência (ELBO) e, como o próprio nome descreve, limita o valor m´ınimo da probabilidade mar-ginal da evidência do modelo.

Assim, o problema de inferir a distribui¸c˜ao de interesse se resume a ma-ximizar o ELBO, que ´_{e equivalente a minimizar KL(q(θ|ν)||p(θ|D)).}

A fun¸c˜ao (2.55) pode ser reescrita como (2.57), na qual fica evidente quais fun¸c˜oes que otimizaremos.

F (D, ν) = Eq[log p(D|θ)] − Eq h log q(θ|ν) p(θ) i (2.56) = Eq[log p(D|θ)] − KL(q(θ|ν)||p(θ)) (2.57)

O suporte (conjunto definido por (2.58)) das distribui¸c˜oes de D deve ser um subconjunto do suporte da distribui¸c˜ao a posteriori, como descrito por

(41)

(2.59). No entanto, como o suporte da posteriori muitas vezes é desconhe-cido, é comum assumirmos que o suporte da posteriori é igual ao suporte da distribui¸cão a priori, como ilustrado por (2.60).

supp(f (x)) = {x|x ∈ Rn, f (x) > 0} ⊆ Rn} (2.58) supp(q(θ|ν) ⊂ supp(p(θ|D)) (2.59) supp(p(θ|D)) = supp(p(θ)) (2.60) Maximizamos o Valor Esperado do logaritmo da fun¸cão de verossimi-lhan¸ca (E[log p(D|θ)]) e escolhemos o parâmetro ν que minimize a divergência entre a densidade proposta (q(θ|ν)) e a distribui¸cão a priori (p(θ)).

Descreveremos sumariamente asseguir um m´etodo que realiza o processo automatizado de maximiza¸c˜_{ao de E[log p(D|θ)]}

2.5.1 Automatic Differentiation Variational Inference

(ADVI)

A Inferência Variacional descrita acima exige que seja estabelecida uma fam´ılia de distribui¸cões D que atenda a condi¸cão (2.59).

ADVI é o algoritmo que busca generalizar a VI e realizar a sua automa-tiza¸cão através de algoritmos já estabelecidos.

Inicialmente, é realizada uma transforma¸cão bijetora (T ) no modelo para remover as restri¸cões do suporte das variáveis latentes (2.61).

Com essa transforma¸cão, é poss´ıvel determinar previamente D, tal que atenda a todos os problemas os quais sejam poss´ıvel realizar essa trans-forma¸cão.

θ −→ ξT (2.61)

Assim, a distribui¸cão conjunta p(D, ξ) fica definida pela igualdade 2.62, onde JT−1 é a matriz Jacobiana da transforma¸cão inversa de T .

p(D, ξ) = p(D, T−1(ξ))|detJT−1(ξ)| (2.62) A transforma¸c˜_{ao T : S → R}n _{leva a vari´}_{avel θ que assume valores num}

(42)

exemplo de transforma¸c˜_{ao que leva do espa¸co S = R}∗₊ _{ao conjunto R (caso} em que n = 1).

Para o suporte Rn existem diversas aproxima¸cões variacionais que aten-dem o requisito. Aqui, será utilizado a fatora¸cão de distribui¸cões Gaus-sianas, como descrito por (2.63), onde os s´ımbolos em negrito são veto-res n-dimensionais e Σ é a matriz de covariâncias é uma matriz diagonal (Σ = diag(σ2_{)), indicando que as componentes dessa distribui¸c˜}_{ao s˜}_ao

inde-pendentes. q(ξ|ν) = q(ξ|µ, σ) = N (ξ|µ, Σ) = n Y i=1 N (ξi|µi, σi2) (2.63)

O próximo passo é realizar uma normaliza¸cão para a distribui¸cão Gaus-siana padrão. Assim, considere ω = log(σ) (logaritmo aplicado a cada ele-mento de ξ), de forma que η = S(ω) = diag(exp(ω))−1(ξ − µ) seja tal normaliza¸cão, então temos a distribui¸cão variacional (2.64).

q(η) = N (η|0, I) =

n

Y

i=1

N (ηi|0, 1) (2.64)

Essa normaliza¸cão é importante para facilitar o processo de amostragem para realizar a integra¸cão numérica do ELBO por Monte Carlo (lembre-se de que o Valor Esperado é uma integral). Após essas transforma¸cões, a ELBO ser´_{a definida por (2.65), onde H(q) = E}q(q) representa a entropia da

distribui¸c˜ao q. Perceba que o Valor Esperado independe do valor de ν.

F (D, µ, σ) = Eq[log(p(D, T−1(S−1(η))))+

+ log(|detJT−1(S−1(η))|)] + H[q(ξ|µ, σ))]

(2.65)

Por fim, é realizada a Otimiza¸cão Estocástica para achar µ∗ e σ2∗ defi-nidos pela equa¸cão (2.66).

µ∗, σ2∗ = argmax

µ,σ2

(43)

Considerando que o gradiente e a integral podem trocar de posi¸cão, po-demos realizar o cálculo do gradiente através das fórmulas (2.67) e (2.68) (Kucukelbir et al. 2017).

∇µF = Eq[∇θlog(p(D, θ)∇ξT−1(ξ) + ∇ξlog(|detJT−1(ξ)|)] (2.67) ∇ωF = Eq[∇θlog(p(D, θ)∇ξT−1(ξ)+

+∇ξlog(|detJT−1(ξ)|)ηTdiag(exp(ω))] + 1

(2.68) Calculamos portanto os gradientes dentro dos Valores Esperados com diferencia¸cão numérica, em seguida realizamos amostras de uma distribui¸cão Gaussiana padrão e aproximamos o Valor Esperado utilizando integra¸cão de Monte Carlo, produzindo estimativas sem viés do gradiente do ELBO.

O algoritmo 6 resume os passos descritos acima (Kucukelbir et al. 2015). Algoritmo 6: ADVI

Dados: D, p(D, θ), L, ρ

1 /*p(D, θ) é o modelo escolhido, L é a condi¸cão de parada para o

algoritmo e ρ ´e o vetor de passos para a diferencia¸c˜ao*/;

2 i := 0; 3 µ(0) := 0; 4 ω(0) := 0;

5 enquanto (∇µF > L && ∇ωF > L) fa¸ca 6 Amostre η ∼ N (0, I);

7 ξ := diag(exp(ω(i)))η + µ(i);

8 ∇µF , ∇ωF := Integra¸c˜ao MC de 2.67 e 2.68; 9 µ(i+1) := µ(i)+ ρ(i)∇_µF ;

10 ω(i+1) := ω(i)+ ρ(i)∇ωF ; 11 i += 1;

12 fim

13 Retorna µ∗ ← µ(i) e ω∗ ← ω(i)

2.5.2 Stein Variational Gradient Descent (SVGD)

O algoritmo Stein Variational Gradient Descent (SVGD), pertence a classe dos algoritmos de Inferência Variacional, mas o seu mecanismo de funciona-mento é ligeiramente diferente, pois não busca minimizar a fun¸cão (2.55),

(44)

nem utiliza diretamente a distˆ_{ancia KL (2.45) para mensurar a discrepˆancia} entre duas distribui¸c˜oes de probabilidade.

Considere a transforma¸cão T (θ) = θ + φ(θ), onde φ é uma fun¸cão su-ave que representa a dire¸cão de perturba¸cão da variável θ e representa a amplitude da perturba¸cão.

Considerando que T é uma fun¸cão bijetora, realizamos a transforma¸cão da distribui¸cão de θ para x = T (θ), como definido pela igualdade (2.69), onde T−1 é a fun¸cão inversa de T e ∇xT−1 é a matriz Jacobiana de T−1.

qT(x) = q(T−1(x)) · |det(∇xT−1(x))| (2.69)

Seja Apφ(θ) o operador de Stein, definido por (2.70), onde p(θ|D) ´e a

distribui¸c˜ao a posterior que desejamos inferir, perceba que apesar de p(θ|D) aparecer diretamente em (2.70), Apφ(θ) independe de p(θ|D), como pode ser

demonstrado pelo desenvolvimento, de (2.71) `a (2.73). Perceba que p(D) ´e uma constante e portanto ∇ log(p(D)) = 0, como observado na passagem de (2.72) para (2.73). Apφ(θ) = φ(θ)∇θlog(p(θ|D))T + ∇θφ(θ) (2.70) ∇ log p(θ|D) = ∇ logp(θ)p(D|θ) p(D) (2.71) = ∇ log(p(θ)p(D|θ)) − ∇ log(p(D)) (2.72) = ∇ log(p(θ)p(D|θ)) (2.73)

O algoritmo SVGD utiliza a identidade do operador de Stein, definida pela igualdade (2.74) (Liu e Wang 2016), na qual para outra distribui¸cão q com mesmo suporte de p temos (2.75), para estimar a discrepância entre as distribui¸cões p (de interesse) e q (proposta).

O SVGD utiliza um processo iterativo no qual vai atualizando a distri-bui¸c˜ao q0 a partir de uma amostra inicial {θi0}ni=1 por meio de um algoritmo

de gradiente descendente no qual implicitamente diminui a divergˆ_{encia KL} por meio da divergˆencia de Stein, definida por (2.77), onde tra¸co(Apφ(θ))

(45)

Ep[Apφ(θ)] = 0 (2.74)

Eq[Apφ(θ)] 6= 0 (2.75)

(2.76) A distˆ_{ancia KL e a discrepˆancia de Stein se relacionam atrav´es da} igual-dade (2.78). S(q, p) = max φ {[Eqtra¸co(Apφ(θ))] 2_} (2.77) Eq[tra¸co(Apφ(θ))] = −∇KL(qT||p)|=0 (2.78)

Assim, para a amostra inicial {θ_i0}n

i=1, extra´ıdas da distribui¸c˜ao q0,

reali-zamos a atualiza¸cão (2.79), onde é o passo do algoritmo (semelhante ao do algoritmo gradiente descendente) e φ∗ representa a dire¸cão de perturba¸cão ´

otima. Em (2.80), “k” é uma fun¸cão de kernel, como a Radial Basis Function (RBF) por exemplo, definida pela equa¸cão (2.81)

θl+1_i = θ_il+ ˆφ∗(θl_i) (2.79) ˆ φ∗(θ) = 1 n n X j=1 [k(θl_j, θ)∇_θl jlog(p(θ l j|D)) + ∇θl jk(θ l j, θ)] (2.80) k(θ, θ0) = exp− ||θ − θ 0_||2 h (2.81) O SVGD pode portanto ser resumido pelo algoritmo 7.

Algoritmo 7: SVGD Dados: {θ0

i}ni=1, L 1 para l = 0 at´e L fa¸ca 2 φˆ∗ := _n1 n X j=1 [k(θ_jl, θ)∇_θl jlog(p(θ l j|D)) + ∇θl jk(θ l j, θ)]; 3 θl+1_i := θl_i+ ˆφ∗ 4 fim 5 Retorna {θ_i}n_i=1 ∼ p(θ|D)

(46)

2.6 Modelos Compartimentais em

Epidemio-logia

Para descrever a dinâmica na qual uma infeçcão se alastra, ao longo do tempo em uma popula¸cão espacialmente definida, é comum dividirmos a popula¸cão em compartimentos e estudarmos a dinâmica em que os indiv´ıduos mudam para outro compartimento.

No nosso estudo, realizamos uma modelagem baseada no clássico modelo de Kermack–McKendrick. Nesse modelo, estabelecemos que a popula¸cão to-tal (N ) possui tamanho constante no per´ıodo de estudo e é dividida nas classes Suscept´ıveis, Infecciosos e Removidos. Nesse modelo, a única dife-ren¸ca entre os indiv´ıduos da popula¸cão total é a classe em que se encontram, portanto cada classe é composta por elementos equivalentes.

O compartimento Suscept´ıveis contém os indiv´ıduos que ainda não foram infectados e que são vulneráveis à doen¸ca, a fun¸cão S(t) quantifica número de indiv´ıduos no suscept´ıveis no instante t e apresenta um comportamento convexo semelhante ao gráfico 2.6a. O compartimento Infecciosos, como o próprio nome indica, denota aqueles indiv´ıduos que contra´ıram a doen¸ca e são uma fonte para novas infeçcões de indiv´ıduos suscept´ıveis, geralmente é uma fun¸cão côncava como ilustrado no gráfico 2.6b. O compartimento Removidos denota todos os elementos que já contra´ıram a doen¸ca, são imunes a novas infeçcões e não são mais capazes de transmiti-la. Esse tipo de modelo é comumente chamado de modelo SIR e as descri¸cões acima são resumidas pela equa¸cão 2.82.

(47)

(a) S(t) (b) I(t)

Figura 2.6: Gráfico com o comportamento t´ıpico das fun¸cões S(t) e I(t), a fun¸cão R(t) é unicamente definida conhecendo-se N , S(t) e I(t).

As equa¸cões que governam a dinâmica populacional entre os três com-partimentos citados acima são: taxa com que os indiv´ıduos saem do com-partimento ”suscept´ıveis” (descrita pela equa¸cão 2.83), taxa de crescimento (decrescimento) da popula¸cão de infectados (descrita pela equa¸cão 2.84) e taxa de recupera¸cão (descrita pela equa¸cão 2.85). Perceba que a mudan¸ca populacional no compartimento ”infectados” é determinada pela fluxo que entra oriundo do compartimento ”suscept´ıveis” e pelo fluxo que sai para o compartimento ”recuperados”, como mostrado na equa¸cão 2.86

N = S(t) + I(t) + R(t) (2.82) dS dt = −βIS N (2.83) dI dt = βIS N − γI (2.84) dR dt = γI (2.85) dI dt = − dS dt − dR dt (2.86)

(48)

O parâmetro β representa a taxa de transmissão. O parâmetro γ repre-senta a taxa intr´ınseca de recupera¸cão, ou seja, 1_γ representa o tempo médio em que um indiv´ıduo permanece infeccioso. Assim, para S(0) = N , um novo indiv´ıduo infeccioso inserido nessa popula¸cão infecta outros β indiv´ıduos du-rante _γ1 unidades de tempo em média.

Para o problema ser univocamente definido, devem ser estabelecidas as condi¸c˜oes iniciais 2.87, 2.88, 2.89.

S(0) = S0 > 0 (2.87)

I(0) = I0 > 0 (2.88)

R(0) = 0 (2.89)

Assim, pelo exposto acima e pelas caracter´ısticas da transmiss˜ao do Zika virus, podemos estabelecer ainda as seguintes premissas:

• Em média, os efeitos de aditivos de todos os meios de transmissão (e.g. vetorial e sexual) são suficientes para que um indiv´ıduo infeccioso possa transmitir o v´ırus para β indiv´ıduo suscept´ıveis;

• γI elementos da classe Infecciosos deixam essa classe por unidade de tempo e uma vez na classe Removidos, não saem mais de lá (aqueles que morrem em t devido a doen¸ca são contabilizados em R(t));

Como a popula¸cão total é constante e não existe fluxo de retorno entre as classes do modelo SIR, o modelo fica completamente definido pelo sistema 2.90.    dS dt = − β N · S I dI dt = β N · S − γ I (2.90)

Sabendo que ∀t: S(t), I(t) ≥ 0, então quando a infeçcão tende a crescer então sua taxa de crescimento dI_dt > 0, por outro lado quando a infeçcão tende a diminuir até acabar, dI_dt < 0. Essas premissas e o sistema 2.90 resultam nas implica¸cões 2.91 e 2.92.

(49)

dI dt > 0 ⇐⇒ β γN · S > 1 (2.91) dI dt < 0 ⇐⇒ β γN · S < 1 (2.92) (2.93) O elemento 2.94 é chamado de Número Básico de Reprodu¸cão e representa em média o número de infeçcões secundárias que podem ser geradas por um ´

unico indiv´ıduo infectado em uma popula¸c˜ao formada apenas por suscept´ıveis ao longo do per´ıodo infeccioso.

R0 ,

β

γ (2.94)

O parˆ_{ametro R}0 ´e muito importante para analisar se uma doen¸ca

infecci-osa irá se espalhar pela popula¸c˜_{ao. Dessa forma, quando R}0 < 1 a infeçcão irá

ser interrompida em tempo finito, antes de comprometer toda a popula¸cão. Por outro lado, se R0 > 1, a doen¸ca irá se espalhar por toda a popula¸cão,

(50)

Cap´ıtulo 3

Metodologia

3.1 Dados

Os dados utilizados na pesquisa são oriundos do Sistema de Informa¸cão de Agravos de Notifica¸cão (SINAN) e do Sistema de Informa¸cões sobre Nascidos Vivos (SINASC).

Nós utilizamos uma série temporal com o número de incidências semanais no estado do Rio de Janeiro do in´ıcio do ano 2015 ao in´ıcio do ano de 2016 provenientes do SINAN.

O tamanho total da popula¸cão feminina (Nf = 3’392’425) e o tamanho total da popula¸cão masculina (Nm = 2’994’018)no per´ıodo foi estabelecido utilizando a estimativa oficial do censo demográfico do ano de 2010.

3.1.1 Limpeza dos dados

Os dados de incidência foram agregados semanalmente e divididos por sexo. A fra¸cão feminina foi estudada de três formas distintas: mulheres na idade fértil (Df f a - nascidas entre os anos de 1968 e 2002), mulheres fora da idade

f´ertil (Df nf a) e o total de mulheres (Df). A fra¸c˜ao dos dados masculinos

(Dm) n˜ao foi dividida.

Atrav´es dos registros do SINASC, produzimos a matriz Dmz, que ser´a

utilizada como representante para o n´umero semanal de abortos causados por Zika no ano de 2016 no Rio de Janeiro.

Utilizamos a tabela Df f acomo base pois foi relacionada apropriadamente

com Dmz para estabelecer uma estimativa mais precisa de fatores comuns `as

(51)

Per´ıodo de interesse

Sabendo que a epidemia de Zika, assim como as demais arboviroses transmi-tidas pelo Aedes aegypti, se manifesta de forma sazonal (primordialmente no verão), estabelecemos o per´ıodo de estudo através da estimativa de marcos temporais que representassem o in´ıcio (τ1) e o término (τ2) do per´ıodo

epi-demiológico de 2016. Essa medida elimina os registros esporádicos antes e depois da epidemia, que podem causar interferência no processo de inferência por induzir a redu¸cão da for¸ca da epidemia.

Assumindo que as observa¸cões dos casos de Zika possuem distribui¸cão de Poisson (conforme 3.1), estabelecemos que diferen¸cas significativas no parâmetro λ dessa distribui¸cão ao longo do tempo caracterizam os per´ıodos anterior (λ1), durante (λ2) e posterior (λ3) à epidemia.

Ot ∼ Poisson(λt) (3.1)

Dessas forma, estabelecemos que o parâmetro λ é uma fun¸cão do tempo e pode ser resumida pela igualdade 3.2

λ =      λ1 se t ≤ τ1 λ2 se τ1 ≤ t ≤ τ2 λ3 se τ2 ≤ t (3.2)

Estimamos τ1 e τ2 em duas fases distintas. Na primeira fase, fixamos

que há um ponto de in´ıcio da epidemia, portanto há uma taxa média de notifica¸cões menor antes e uma taxa média de notifica¸cões maior após esse ponto. Na segunda fase, o processo é análogo só que marcamos a semana que indica o término da epidemia.

Na primeira fase, qualquer semana do ano (semana 0 `a semana ˆn) pode ser a que inicia a epidemia, portanto escolhemos para τ1 uma distribui¸c˜ao

discreta uniforme. Utilizamos um modelo hierárquico com distribui¸cão a priori comum ao λ1 (antes) e ao λ2 (depois), isso reduz o viés e ajuda no

shrinkage dos dados. Seguimos a prática comum em estat´ıstica Bayesiana de usar a priori uma distribui¸cão exponencial com hiper-parâmetro α igual ao inverso da média dos dados para os parâmetros de uma distribui¸cão de Poisson (λ1 e λ2).

(52)

O modelo estat´ıstico utilizado nessa primeira fase é resumido pelas variáveis 3.3, 3.4, 3.5 e pela variável observável 3.6. O grafo que representa esse modelo hierárquico é representado pela figura 3.1.

τ1 ∼ U {0, ˆn} (3.3)

λ1 ∼ Exp(α) (3.4)

λ2 ∼ Exp(α) (3.5)

O|τ1, λ1, λ2 ∼ Poisson(λ = 1semana≤τ1 · λ1+ 1semana>τ1 · λ2|Df f a) (3.6) Ap´os estimar o valor de τ1, removemos de Df f a todos os registros das

semanas anteriores a τ1.

A segunda fase utiliza o mesmo procedimento da primeira, com as mesmas distribui¸c˜oes. O τ2 estimado marca o fim da epidemia, removemos portanto

de Df f a todos os registros das semanas posteriores a τ2.

Figura 3.1: Rede Bayesiana utilizada para estimar os limites da dura¸cão da epidemia. O c´ırculo preenchido indica os dados observados, o ponto verde indica um parâmetro fixo, os demais c´ırculos representam as variáveis aleatórias do modelo e as cores representam suas distribui¸cões a priori, com rosa indicando Exponencial e cinza Uniforme.

(53)

Constru¸c˜ao da matriz Dmz

O processo construtivo dessa matriz é idêntico ao descrito em (Coelho et al. 2017). Assim, sejam as matrizes B2015 e B2016 cujas entradas apresentam o número

de nascimentos agregados semanalmente nos anos de 2015 e 2016 respectiva-mente.

A matriz Dmz definida pela equa¸cão (3.7) é a discrepância entre o número

de nascimentos no ano de 2015 e 2016 agregada semanalmente. Essa dis-crepância é evidente ao sobrepormos os gráficos dessas duas séries temporais, como ilustrado pela figura 3.2

Figura 3.2: Sobreposi¸cão do número de nascimentos nos anos de 2015 e 2016. Percebemos que há um significativo decréscimo na taxa de natalidade após o instante demarcado pela linha azul vertical.