ões652conclusões e trabalhos futuroschapter.6 (Gamerman, 1999)

(1)

˜

oes652Conclus˜oes e trabalhos futuroschapter.6 (Gamerman, 1999)

(2)

(3)

M´

etodos computacionais para realiza¸

c˜

ao de

inferˆ

encia bayesiana em modelos dinˆ

amicos

lineares generalizados

por

Carlos Tadeu Pagani Zanini

Mariana Raniere Neves

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´

etodos Estat´ısticos

2013

(4)

M´

etodos computacionais para realiza¸

c˜

ao de

inferˆ

encia bayesiana em modelos dinˆ

amicos

lineares generalizados

Carlos Tadeu Pagani Zanini e Mariana Raniere Neves

Projeto final submetido ao Corpo Docente do Instituto de Matemática -Departamento de Métodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obten¸cão do grau de Bacharel em Estat´ıstica.

Aprovada por:

Prof. Mariane B. Alves. Doutora - UFRJ - Orientadora.

Prof. Dani Gamerman PhD - UFRJ.

Prof. Alexandra M. Schmidt PhD - UFRJ.

Rio de Janeiro, RJ - Brasil 2010

(5)

Agradecimentos

Carlos Tadeu

Dedico esse trabalho, em primeiro lugar, à minha fam´ılia, principalmente meus pais Márcia Tadéa Pagani Zanini e Antonio Carlos Zanini e meu irmão Gabriel. Pai, mãe, muito obrigado por todo amor e carinho com que sempre me trataram e pela confian¸ca que depositam nas minhas escolhas. Vocês são meus maiores exemplos. Ao meu irmão, agrade¸co por estar sempre presente, sendo o cara mais companheiro (e sem papas na l´ıngua) que esse mundo já viu. Seu bom humor, carisma e perseveran¸ca foram exemplos que me inspiraram a dar sempre o melhor de mim, transformando as muitas adversidades que surgiram nesses longos 4 anos de gradua¸cão nas histórias mais hilárias e estapafúrdias.

Aos meus amigos, agrade¸co pelos momentos de descontra¸cão que foram fundamentais pra que eu pudesse relaxar depois de uma semana bastante puxada de aulas, projetos de inicia¸cão cient´ıfica e afins. Agrade¸co também ao apoio que me deram diante das dificuldades por que passei. Sem vocês minha vida seria sem gra¸ca e muito mais dif´ıcil de levar, sobretudo esses anos de faculdade. A gente vai ficando mais velho, os problemas vão ficando mais sérios, mas a amizade continua lá, firme e forte; cada vez mais.

Aos amigos de faculdade, agrade¸co por tornar os momentos de estudo mais leves e agradáveis. Ao pessoal da inicia¸cão cient´ıfica: Mariana, Arthur, Ingrid, Rafaéis, Jéssicas, Dani, Raquel e também à galera mais recente que eu não tive o prazer de ter um conv´ıvio maior, digo a todos muito obrigado pela troca de conhecimento, pelos

(6)

almo¸cos no bandejão, pelas piadas, pela parceria, pelos congressos e por tudo mais. Em especial, agrade¸co à Mariana, minha amiga, dupla de projeto final, inicia¸cões cient´ıficas, carona pras aulas e ouvinte pras minhas reclama¸cões infinitas. Muito obrigado por ter me aturado durante esses dois últimos anos. Trabalhar com alguém com caracter´ısticas tão complementares às minhas me fez aprender e evoluir muito.

Agrade¸co também aos amigos do mestrado e do doutorado. Em especial, Mariana, Teresa, William, Aniel, Cristian, Pâmela, Rafael e Eduardo; obrigado pela convivência e pela paciência que tiveram tirando minhas dúvidas com rela¸cão a todo tipo de conteúdo nas mais variadas matérias. Também ao pessoal da matemática (companheiros de estudos, trilha e churrasco) Vin´ıcius, Carol, Walter, Henrique e Luise, muito obrigado.

Agrade¸co à Mariane, minha orientadora e praticamente minha segunda mãe na faculdade. Obrigado pela dedica¸cão que você tem por todos nós alunos da estat´ıstica , sempre dispon´ıvel pra ouvir nossas queixas e tirar nossas dúvidas, aos valiosos conselhos que levarei para minha vida acadêmica e, principalmente, pela confian¸ca que você depositou em mim no momento em que me ofereceu a oportunidade de trabalhar no projeto de inicia¸cão cient´ıfica que se ramificou neste trabalho de conclusão de curso. Tenho que agradecer, sobretudo, pelo fato da experiência em trabalhar nesse projeto final e na inicia¸cão cient´ıfica ter sido um fator que pesou muito para que eu decidisse seguir a carreira acadêmica.

Agrade¸co a todos os professores que fizeram parte da minha forma¸cão aqui na UFRJ, na ENCE e na época do colégio. Vocês foram responsáveis pelo meu crescente interesse pelo conhecimento e estando hoje preparado pra exercer minha profissão, com certeza devo isso a vocês. Gostaria de sair um pouco do padrão e dedicar esse trabalho a dois professores que tive na época do colégio: Gláucio Pitanga e Vera Saraiva, que me fizeram descobrir o amor pela matemática e foram os maiores responsáveis pela base sólida que me permitiu ingressar na faculdade com o conhecimento e a gana necessários para que

(7)

eu chegasse onde estou.

Talvez quebrando mais um protocolo, deixo meus agradecimentos à Deise, que a cada semestre me socorria com meus problemas burocráticos abrindo meia dúzia de processos pra mim no DME. Eu sempre te dou trabalho, Deise, então nada mais justo do que dedicar esse a você também.

Agrade¸co a Alexandra e Dani por aceitarem fazer parte da banca.

(8)

Mariana Raniere

Primeiramente, gostaria de dizer que o término deste trabalho é uma grande conquista pessoal, não só pelo t´ıtulo que recebo ao finalizar este ciclo, mas principalmente pelas barreiras que tive que superar para chegar até aqui. É claro que nada disso seria poss´ıvel sem a ajuda de algumas pessoas que me deram todo o apoio para que eu conseguisse chegar ao fim desta trajetória.

Gostaria de agradecer aos meus irm˜aos, Filipe, Gustavo, Miguel e Pedro, afinal fam´ılia ´e a base de tudo.

Agrade¸co `a Juliana, minha melhor companhia, que me deu toda for¸ca para que eu pudesse seguir em frente, ainda que as coisas tenham sido dif´ıceis. Agrade¸co por todo amor, carinho e paciˆencia. Sem ela, este caminho teria sido muito mais dif´ıcil.

Agrade¸co também à minha dupla de IC e monografia, Carlos Tadeu, que além de companheiro de horas e horas de estudo, é também meu amigo, companheiro para todas as outras coisas da vida. Sem ele, este trabalho não teria ficado tão bom e as horas de estudo não teriam nenhuma gra¸ca.

Gostaria de agradecer `a minha amiga Ingrid, por toda for¸ca e pela ´otima companhia.

Agrade¸co à Mariane, que além de ótima orientadora, é também um exemplo de pessoa. Agrade¸co a oportunidade que me deu de fazer este trabalho, pela paciência de explicar tudo centenas de vezes, pela preocupa¸cão em fazer com que tudo fosse entendido e por toda paixão ao ensinar e falar de Estat´ıstica, isso é contagioso.

Gostaria de agradecer imensamente à Alexandra, que me abriu as portas do mundo acadêmico, que acreditou em mim e que me deu a oportunidade de participar de um projeto de Inicia¸cão Cient´ıfica que acabou resultando nesta monografia. A ela, serei

(9)

eternamente grata pela ajuda, apoio e pelas ´otimas aulas de Inferˆencia que mais tarde me fizeram ter interesse em fazer mestrado na UFRJ.

Agrade¸co a todas as pessoas da UFRJ que de alguma forma contribu´ıram para a elabora¸c˜ao deste trabalho.

(10)

Resumo

A concentra¸cão de Poluentes na atmosfera tem sido apontada, por vários estudos, como um fator que influencia na saúde e na qualidade de vida das pessoas. Quantificar o efeito de poluentes sobre desfechos epidemiológicos, bem como seu comportamento ao longo do tempo são questões de grande relevância, não apenas para o estat´ıstico, mas também para os órgãos públicos que administram a área de saúde.

Neste âmbito, o presente trabalho se propõe a estudar o efeito da concentra¸cão de monóxido de carbono, conjuntamente com fatores climáticos, sobre óbitos diários de crian¸cas com menos de 5 anos por doen¸ca respiratória na cidade de São Paulo decorridas entre o dia 1º de Janeiro de 1994 até Dezembro de 1997.

Para isso, utilizou-se a abordagem paramétrica bayesiana. Os modelos propostos pertencem à classe dos Modelos Dinâmicos Lineares Generalizados (MLDG), onde para a variável resposta por se tratar de uma contagem, é assumida ter distribui¸cão Poisson. Dada a falta de solu¸cão anl´ıtica para estima¸cão dos parâmetros destes modelos, é necessário utilizar-se de métodos para inferência aproximada. Nesse sentido, escolheu-se utilizar os Métodos de Monte Carlo via Cadeias de Markov e o método Linear Bayes.

Os resultados obtidos segundo as duas abordagens s˜ao comparados, ressaltando as vantagens e desvantagens decorrentes do uso de ambas.

Palavras-chave: Monte Carlo; Linear Bayes; Modelos Lineares Generalizados; Desfechos epidemiol´ogicos.

(11)

Sum´

ario

1 Introdu¸c˜ao 1

1.1 Estrutura da Disserta¸c˜ao . . . 2

2 Considera¸cões sobre métodos de inferência bayesiana 4 2.1 Teorema de Bayes e distribui¸cão preditiva . . . 4

2.2 Inferˆencia na fam´ılia exponencial . . . 8

2.3 Modelos Dinˆamicos . . . 10

2.4 M´etodos computacionais em inferˆencia bayesiana . . . 12

3 Descri¸c˜ao do conjunto de Dados 14 3.1 Descri¸c˜ao do conjunto de dados . . . 14

3.2 Análise exploratória e proposi¸cão de modelos . . . 15

4 Procedimento de inferˆencia via MCMC 19 4.1 Introdu¸c˜ao . . . 19

4.2 Metropolis-Hastings . . . 20

4.3 Amostrador de Gibbs . . . 22

4.4 Resumo das etapas para implementa¸c˜ao dos m´etodos MCMC . . . 23

4.5 Aplica¸c˜ao aos dados reais . . . 24

4.5.1 Escolha do melhor modelo segundo crit´erio de ajuste DIC . . . 27

4.6 Resultados para o melhor modelo . . . 28

5 Implementa¸c˜ao via Linear Bayes 35 5.1 Introdu¸c˜ao . . . 35

(12)

5.2 Procedimento geral para inferência na classe dos Modelos Dinâmicos Lineares Generalizados . . . 36 5.2.1 Inferência em Modelos Dinâmicos Lineares Generalizados com

resposta Poisson . . . 39 5.3 Aplica¸c˜ao aos dados reais . . . 43 5.4 Resultados para o melhor modelo . . . 44

(13)

Lista de Tabelas

4.1 Especifica¸cões para obten¸cão de amostra final aproximada para a posteriori de cada um dos modelos com efeito propagado . . . 27 4.2 Compara¸cão dos DICs de cada um dos modelos . . . 28 4.3 Média e limites de credibilidade de 95% a posteriori para os parâmetros

estáticos do modelo com n´ıvel da série variando no tempo. Os asteriscos (∗) indicam os coeficientes significativamente distintos de zero ao n´ıvel de 5% de credibilidade. . . 32 5.1 Resultados para os coeficientes estáticos do melhor modelo. Os limites que

constam na tabela são dados pela média à posteriori ± 2 desvios-padrões. A coluna Efeito contém os valores exponenciais das médias estimadas. Os asteriscos (∗) indicam os parâmetros significativos. . . 51

(14)

Lista de Figuras

3.1 Séries temporais da variável resposta e de cada uma das covariáveis do conjunto de dados 15 4.1 Média à posteriori e intervalos de credibilidade de 95% para a taxa de

´

obitos vs Série observada . . . 28 4.2 Média à posteriori e intervalos de credibilidade de 95% para o n´ıvel da série 29 4.3 Intervalos de credibilidade de 95% e média estimados para o simétrico dos

coeficientes da temperatura segundo defasagens . . . 29 4.4 Intervalo de credibilidade e média a posteriori da distribui¸cão preditiva . 30 4.5 Intervalos de credibilidade de 95% e média a posteriori para os parâmetros

est´aticos . . . 30 4.6 Histograma da amostra a posteriori para o coeficiente do mon´oxido de

carbono . . . 33 4.7 Histograma do efeito do acréscimo de 1 desvio padrão com respeito à média

da concentra¸cão de monóxido de carbono na taxa de óbitos e intervalo de credibilidade de 95% . . . 34 5.1 Médias e intervalos de credibilidade à posteriori de 2 desvios para o n´ıvel

da série . . . 45 5.2 Média à posteriori da taxa de óbitos vs Contagens de óbitos observadas . 46 5.3 Média e intervalos de credibilidade à posteriori de 95% para a taxa de óbitos 47 5.4 Média e intervalos de credibilidade à posteriori de 95% para a predi¸cão

um passo à frente vs Série observada . . . 48 5.5 Intervalos de credibilidade à posteriori iguais a média +- 2 desvios para os

(15)

Cap´ıtulo 1

Introdu¸

c˜

ao

No contexto de Inferência Bayesiana, é usual, para modelos razoavelmente complexos, que a distribui¸cão a posteriori do vetor paramétrico não esteja dispon´ıvel analiticamente, sendo necessário o uso de métodos computacionais para sua aproxima¸cão. Em particular, ´

e esta a situa¸c˜ao na classe dos modelos dinˆamicos lineares generalizados (West e Harrison, 1997), da qual fazem parte os modelos adotados neste trabalho.

A abordagem mais frequentemente utilizada para aproxima¸cão da distribui¸cão a posteriori em modelos dinâmicos não normais e/ou não lineares tem sido os métodos de Monte Carlo via Cadeias de Markov (MCMC ). Tais métodos revolucionaram a Inferência Bayesiana ao possibilitarem a realiza¸cão de inferência bayesiana de forma completa: dada uma amostra da distribui¸cão a posteriori para o vetor de estados, obtém-se diretamente, utilizando-se método de Monte Carlo, amostras de fun¸cões dos estados ou sumários, tais como médias, medianas e intervalos de credibilidade a posteriori (Gamerman e Lopes, 2006). Entretanto, na medida em que novas observa¸cões tornam-se dispon´ıveis, é desejável que haja um mecanismo prático de atualiza¸cão das distribui¸cões a posteriori e preditiva. Tal atualiza¸cão não ocorre de maneira sequencial nos algoritmos usuais MCMC, demandando tempos computacionais que podem ser extremamente elevados.

(16)

No presente trabalho, aplica-se, além dos métodos MCMC, o método linear bayes (West et al, 1985) para obten¸cão de sumários da distribui¸cão a posteriori do vetor de estados em regressões Poisson dinâmicas. Aproxima-se, então, a distribui¸cão a posteriori desses parâmetros em termos de primeiro e segundo momentos e, portanto, tem-se informa¸cão menos detalhada sobre sua posteriori que aquela obtida via MCMC. Em contrapartida, preserva-se o esp´ırito sequencial de inferência, presente em modelos dinâmicos normais lineares, agilizando-se computacionalmente a atualiza¸cão de informa¸cão e predi¸cão.

1.1 Estrutura da Disserta¸

c˜

ao

No cap´ıtulo 2 é feita uma breve introdu¸cão à inferência bayesiana em modelos na fam´ılia exponencial e nos Modelos Dinâmicos Lineares (MLD), onde consegue-se solu¸cão anal´ıtica para as posterioris por meio de conjuga¸cão. Em seguida, cita-se algumas alternativas que vem sendo usadas nas últimas décadas para realizar inferência quando não se tem forma anal´ıtica fechada para a posteriori. Dentre elas, estão os dois métodos aplicados neste trabalho: MCMC e Linear Bayes

No cap´ıtulo 3, apresenta-se o conjunto de dados reais utilizados no trabalho e o modelo base utilizado.

No cap´ıtulo 4, apresenta-se os Métodos de Monte Carlo via Cadeias de Markov, em seguida, descreve-se os modelos propostos a partir do modelo-base apresentado no cap´ıtulo 3. Por fim, exibe-se os resultados obtidos através da aplica¸cão dos métodos MCMC ao melhor modelo segundo o critério de ajuste DIC.

O cap´ıtulo 5 introduz os Modelos Dinâmicos Lineares Generalizados, descrevendo em seguida a aplica¸cão do método Linear Bayes para o caso em que a variável resposta tem distribui¸cão Poisson. Descreve-se em seguida os modelos aos quais será aplicado o

(17)

m´etodo Linear Bayes, bem como os resultados obtidos.

O cap´ıtulo 6 trata das conclusões sobre o uso dos métodos MCMC e Linear Bayes aplicados à classe MLDG.

(18)

Cap´ıtulo 2

Considera¸

c˜

oes sobre m´

etodos de

inferˆ

encia bayesiana

2.1 Teorema de Bayes e distribui¸

c˜

ao preditiva

Em problemas de inferência paramétrica, tem-se interesse na estima¸cão ou tomada de decisão sobre quantidades não observáveis θ, ditas parâmetros, que indexam um modelo probabil´ıstico p(y|θ) subjacente ao comportamento de uma variável aleatória Y sob observa¸cão. Os procedimentos bayesianos de inferência paramétrica caracterizam-se por utilizar, como fonte de informa¸cão para estima¸cão ou tomada de decisão sobre θ, não somente observa¸cões y1, . . . , yn de Y |θ ( como nos métodos cássicos de inferência),

mas também informa¸cão externa ao conjunto de dados observados, referentes a cren¸cas subjetivas sobre θ e refletindo a incerteza inicial do tomador de decisão.

A informa¸cão proveniente dos dados é traduzida pela fun¸cão de verossimilhan¸ca, denotada por l(θ; y), em que y representa os dados observados e θ os parâmetros a serem estimados. A fun¸cão de verossimilhan¸ca tem a mesma expressão que define o modelo probabil´ıstico p(y | θ), porém trata-se de objetos matemáticos distintos. Do ponto de vista de estima¸cão ou tomada de decisões sobre θ, sob o enfoque bayesiano,

(19)

passa-se a considerar p(y | θ) como fun¸cão de θ, desconhecido, condicional a um vetor de observa¸cões y e essa fun¸cão, cujo argumento agora é o vetor paramétrico, é denominada verossimilhan¸ca. A nota¸cão l(θ; y) inclusive evidencia ser dom´ınio: o espa¸co paramétrico ou suporte (conjunto de todos os valores poss´ıveis para o vetor paramétrico θ). A informa¸cão subjetiva, por sua vez, é incorporada ao modelo supondo uma distribui¸cão (ou densidade) de probabilidade π(θ) à priori para o vetor de parâmetros θ. O grau de incerteza sobre cada parâmetro está relacionado à variabilidade da respectiva priori: quanto maior a variabilidade, maior é a incerteza à priori (e consequentemente, menor o grau de subjetividade incorporado ao modelo).

O Teorema de Bayes, enunciado a seguir, estabelece a rela¸cão entre priori e verossimilhan¸ca na composi¸cão da incerteza acerca dos parâmetros. Essa incerteza se traduz em termos probabil´ısticos através da distribui¸cão à posteriori, denotada por π(θ | y). A partir da posteriori são calculadas as estimativas dos parâmetros, as medidas de incerteza, etc.

Teorema 2.1 (Teorema de Bayes): Sejam θ o vetor de parâmetros com suporte Θ e distribui¸cão a priori π(θ), e y o vetor de observa¸cões com verossimilhan¸ca p(y | θ). Então a distribui¸cão à posteriori é dada por

π(θ | y) = p(y | θ)π(θ)

R p(y | θ)π(θ)dθ ∝ p(y | θ)π(θ), (2.1)

em que o produto p(y | θ)π(θ) é chamado núcleo da distribui¸cão a posteriori.

Na verdade, qualquer fun¸cão obtida de p(y | θ)π(θ) por multiplica¸cão de uma constante que não dependa de θ, mas que pode depender do vetor de dados y, pode

(20)

ser chamada de núcleo da posteriori. Vale ressaltar que, sob o enfoque bayesiano na atualiza¸cão da incerteza associada ao parâmetro θ via Teorema de Bayes, as observa¸cões y são consideradas valores numéricos constantes.

O Teorema de Bayes pode também ser visto sob o aspecto sequencial, segundo o qual cada observa¸cão é incorporada em sequência à informa¸cão a priori para compor a incerteza a posteriori. Mais especificamente, denotando o vetor de observa¸cões por y = (y1, y2, ..., yn), temos no instante zero a distribui¸cão à priori π(θ). Incorporada a

primeira observa¸cão y1 à informa¸cão a priori, atualiza-se a incerteza a respeito de θ

atrav´es do Teorema de Bayes, obtendo assim a distribui¸c˜ao a posteriori no tempo 1:

π(θ | y1) ∝ p(y1 | θ)π(θ)

Agora, no instante 2, toda a informa¸cão prévia a respeito de θ (traduzida pela posteriori no instante 1: π(θ | y1)) é considerada informa¸cão à priori e, ao ser combinada

com a observa¸c˜ao no tempo corrente, resulta na posteriori no instante 2:

π(θ | y1, y2) ∝ p(y2 | θ, y1)π(θ | y1) = p(y2 | θ)π(θ | y1),

onde a igualdade ocorre quando se supõe independência entre as observa¸cões dado o conhecimento do vetor paramétrico, o que significa assumir que o vetor paramétrico sintetiza toda a informa¸cão necessária para determina¸cão do comportamento probabil´ıstico do vetor y antes de se observar os dados.

Prosseguindo com o mesmo racioc´ınio, temos no tempo n a rela¸c˜ao de recorrˆencia

π(θ | y1, ..., yn) ∝ p(yn| θ)π(θ | yn−1, ..., y1)

que nos permite chegar `a f´ormula enunciada no Teorema de Bayes:

π(θ | y1, ..., yn) ∝ p(yn | θ)p(yn−1 | θ)...p(y1 | θ)π(θ)

(21)

onde a igualdade novamente ocorre quando se supõe independêcia entre as observa¸cões condicionadas ao vetor paramétrico e que toda informa¸cão subjetiva sobre θ esteja resumida em π(θ) no instante 0.

Portanto, se admitirmos ausência de informa¸cão externa aos dados além da priori inicial, a distribui¸cão a posteriori obtida sequencialmente é a mesma que se obtém com uma única aplica¸cão do Teorema de Bayes considerando o vetor completo y = (y1, ..., yn). É interessante notar, porém, que o processo sequencial está intimamente

ligado à distribui¸cão preditiva, a partir da qual são realizadas as previsões sob o enfoque inferencial bayesiano, no caso em que os dados constinuem uma série temporal. A distribui¸cão preditiva é de grande importância não só pela sua capacidade de fazer previsões como também para a avalia¸cão da adequa¸cão do modelo teórico formulado pelo estat´ıstico aos dados reais.

A distribui¸c˜ao preditiva para uma observa¸c˜ao futura yn+k, k ∈ N a partir

do conjunto de observa¸cões y1, . . . , yn é a distribui¸cão de probabilidade (ou fun¸cão

densidade) dada por

p(yn+k | yn, ..., y1) =

Z

Θ

l(θ; yn+k)π(θ | yn, ..., y1)dθ = Eθ|y1,...,yn(l(θ; yn+k)).

Assim, o inverso da constante de proporcionalidade em (2.2) é justamente p(yn|y1, . . . , yn−1), isto é, a distribui¸cão preditiva 1 passo à frente, condicional a

(y1, . . . , yn−1)., ´e o inverso da constante multiplicativa que iguala o lado direito de (2.2)

ao lado esquerdo.

A distribui¸c˜ao preditiva para yn+k pode ser interpretada como uma m´edia dos valores

de l(θ; yn+k) ponderados pela posteriori de θ | (yn, ..., y1). Neste ponto, ´e importante

(22)

vetor de observa¸cões, sem nenhuma dependência do vetor paramétrico.

2.2 Inferˆ

encia na fam´ılia exponencial

Para ter a distribui¸cão a posteriori completamente especificada, é necessário obter a constante multiplicativa k tal que π(θ | y) = k l(θ; y)π(θ) dada por k = _{R l(θ;y)π(θ)dθ}1 . Nos casos em que isso é poss´ıvel do ponto de vista prático (por exemplo, quando se consegue resolver a integral ou identificar o produto l(θ; y)π(θ) com o núcleo de alguma distribui¸cão conhecida) diz-se que a distribui¸cão a posteriori tem forma anal´ıtica fechada.

Exemplo 2.2.1: Seja y = (y1, ..., yn) vetor de observa¸c˜oes independentes e

identicamente distribu´ıdas condicionalmente ao parˆametro λ, com y1 | λ ∼ P oisson(λ).

Se utilizarmos a distribui¸c˜ao a priori λ ∼ Gama(a, b), com a > 0 e b > 0:

p(yi | λ) = e −λ_λ_yi yi! ∝ e −λ_λyi_, _y i = 0, 1, 2, ... l(λ; y) = p(y | λ) = n Q i=1 p(yi | λ) ∝ e−nλλ n P i=1 yi , λ > 0 π(λ) = _Γ(a)ba e−bλλa−1 _{∝ e}−bλ_λa−1_, _{λ > 0}

O núcleo da distribui¸cão a posteriori π(λ | y) será dado por

l(λ; y)π(λ) ∝ e−nλλ n P i=1 yi e−bλλa−1 = e−(b+n)λλ n P i=1 yi+a−1 , λ > 0

que, visto como fun¸cão de λ, é o núcleo da distribui¸cão Gama(P yi + a, b + n).

Portanto, λ | y ∼ Gama(P yi+ a, b + n), a constante multiplicativa k(a, b, y) ´e conhecida:

k = (b+n)_{Γ(P y}P yi+a

i+a) e a posteriori tem forma anal´ıtica fechada.

Note-se que neste exemplo, tanto a distribui¸cão a priori quanto a posteriori para λ são da mesma classe de distribui¸cões, no caso a Gama. De modo geral, quando se tem priori e posteriori pertencentes à mesma classe de distribui¸cões para uma dada

(23)

verossimilhan¸ca l(θ; y) diz-se que a priori e a verossimilhan¸ca conjugam. Formalmente, tem-se a seguinte defini¸c˜ao, extra´ıda de Migon e Gamerman(1999):

Defini¸cão Seja F = {p(• | θ), θ ∈ Θ} uma fam´ılia de distribui¸cões referentes ao vetor de dados y. A classe P de distribui¸cões é dita ser uma fam´ılia conjugada com respeito a F se para todo p(y | θ) ∈ F e p(θ) ∈ P , então p(θ | y) ∈ P .

O Exemplo 2.2.1 é um caso particular de conjuga¸cão quando a verossimilhan¸ca é uma distribui¸cão pertencente à fam´ılia exponencial.

Defini¸cão: Uma fam´ılia de distribui¸cões com fun¸cão de probabilidade (ou densidade) p(y | θ) pertence à fam´ılia exponencial com r parâmetros se p(y | θ) puder ser escrito como p(y | θ) = a(y)exp{ r X j=1 Uj(y)ψj(θ) + b(θ)}, y ∈ X ⊂ R,

onde X nao depende de θ.

A Fam´ılia Exponencial engloba várias distribui¸cões muito conhecidas, como por exemplo a Binomial, Normal, Poisson, Exponencial entre outras e é de grande importância no contexto inferencial bayesiano. Por exemplo, se p(y | θ) é da fam´ılia exponencial, obtém-se prioris que formam conjuga¸cão e, além disso, fornecem distribui¸cão preditiva completamente especificada sem a necessidade do cálculo da integral em (2.1) como pode ser visto em Migon e Gamerman(1999).

Ainda, a conjuga¸cão é bastante desejável no contexto de séries temporais pois permite atualiza¸cão automática das posterioris conforme se tem acesso a novas observa¸cões pois basta atualizar os parâmetros da distribui¸cão conjugada segundo a rela¸cão de recorrência obtida a partir de (2.2).

(24)

2.3 Modelos Dinˆ

amicos

A classe de Modelos Lineares Dinâmicos (MLD) se aplica nos casos em que a variável resposta tem distribui¸cão normal. Esses modelos permitem relacionar de forma dinâmica as covariáveis e a variável resposta, por exemplo, quando se acredita que essa rela¸cão muda com o passar do tempo.

O MLD em sua forma geral é descrito por duas equa¸cões: a equa¸cão de observa¸cão, que descreve a rela¸cão entre covariáveis e a variável resposta, e a equa¸cão de evolu¸cão, que descreve a forma com que os parâmetros do modelo evoluem conforme o tempo:

  

yt = Ftµt+ vt, vt∼ N (0, Vt)

µt= Gtµt−1+ wt, wt ∼ N (0, Wt)

com (vt)t∈N e (wt)t∈N sequências de variáveis aleatórias tais que vt⊥vs, wt⊥ws e

vt⊥ws, ∀s, t. vt é chamado erro de observa¸cão e ws erro de evolu¸cão.

Um MLD ´e, portanto, caracterizado pela qu´adrupla (Ft, Gt, Vt, Wt), onde:

Ft ´e o vetor de covari´aveis no tempo t: Ft = (x1t, . . . , (xpt);

yt ´e a observa¸c˜ao no tempo t;

θt ´e o vetor param´etrico no tempo t: θt = (θ1t, . . . , θpt)T;

Gté a matriz de evolu¸cão no tempo t (dimensão p × p).

As variâncias Vt e Wt controlam os erros de observa¸cão e de evolu¸cão. Quanto

maiores os valores de Wt, mais volátil é a trajetória do vetor de médias (µt) ao longo do

tempo, e quanto maiores os valores de Vt, maior ´e o percentual de variabilidade que n˜ao

(25)

A classe MLD abrange v´arios tipos de modelos importantes, como os modelos lineares (Ft, Gt = I, Vt = σ2, Wt=0) e os modelos de s´eries temporais (Ft = F, Gt= G, Vt, Wt).

Sob o enfoque Bayesiano ´e necess´ario especificar as prioris. Adotando prioris normais para µ0 e conhecidos Vte Wt, tem-se forma anal´ıtica fechada para as posterioris

µt | yt, . . . , y1 conforme descrito pelas equa¸c˜oes do filtro de Kalman (West e Harrison,

1989) pp. 118 e 119.

O exemplo a seguir trata de mais um caso onde se tem forma anal´ıtica fechada para as posterioris e preditivas.

Exemplo 2.3.1: Considera-se um Modelo Linear Dinˆamico de 1a _Ordem:

  

yt = µt+ vt, vt∼ N (0, Vt)

µt= µt−1+ wt, wt∼ N (0, Wt)

onde (vt)t∈N é sequência de variáveis aleatórias independentes, bem como (wt)t∈N, com

vt e ws independentes para quaisquer t,s ∈ N.

Sendo,

vt: Erro observacional

wt: Erro de evolu¸c˜ao.

Vt e Wt são números reais positivos conhecidos denotando as respectivas variâncias

dos erros observacionais e de evolu¸c˜ao.

Segundo este modelo, os valores observados do vetor de dados (yt)t∈N provˆem de um

n´ıvel µt , que evolui temporalmente segundo um passeio aleat´orio, e de uma flutua¸c˜ao

aleatória vt, relacionada apenas à observa¸cão yt em particular.

Para o caso particular em que as variˆancias dos erros s˜ao constantes, ou seja, Vt= V

(26)

preditiva. Por exemplo, se especificarmos uma priori normal para µt no tempo t=0, a

poteriori e a preditiva também terão distribui¸cão normal. Nesta classe de modelos é comum que a atualiza¸cão seja feita sequencialmente, tal esquema de atualiza¸cão pode ser visto em West e Harrison (1989).

Em muitos casos, a distribui¸cão à posteriori pode não ter forma análitica conhecida, o que ocorre quando não se consegue obter a constante normalizadora R p(y | θ)π(θ)dθ através da resolu¸cão da integral, ou do reconhecimento do núcleo da distribui¸cão à posteriori. Nesses casos, é preciso utilizar métodos computacionais para obten¸cão da posteriori.

2.4 M´

etodos

computacionais

em

inferˆ

encia

bayesiana

Durante a década de 80, desenvolveu-se, entre outros, o método Linear Bayes (West et al., 1985) para estima¸cão de parâmetros em modelos lineares generalizados dinâmicos, que admitem que a variável resposta tenha qualquer distribui¸cão pertencente `

a fam´ılia exponencial, e por isso se aplicam a diversas situa¸cões práticas. O método exige pouqu´ıssimo esfor¸co computacional e permite atualiza¸cão de informa¸cão em tempo real, possibilitando que o tomador de decisão incorpore novas observa¸cões ao modelo assim que se tenha acesso a elas, o que torna poss´ıvel realizar previsões com bastante rapidez. Em contrapartida, tem-se informa¸cão apenas parcial com respeito aos estados (parâmetros que governam o impacto de cada covariável sobre o preditor), pois sao fornecidas apenas estimativas de suas médias e variâncias.

Já na década seguinte, com o avan¸co da informática e o desenvolvimento dos métodos de Monte Carlo via Cadeias de Markov (MCMC) (Gamerman e Lopes, 2006), a inferência Bayesiana ganhou grande impulso. Simulando longas cadeias de markov

(27)

contru´ıdas de forma a garantir a convergência em distribui¸cão da cadeia para qualquer distribui¸cão objetivo cujo núcleo fosse conhecido, era poss´ıvel obter uma amostra da posteriori e realizar inferência de forma completa para qualquer fun¸cão dos parâmetros. Contudo, em alguns casos, o custo computacional decorrente da implementa¸cão de esquemas MCMC pode ser bastante elevado.

Por fim, recentemente desenvolveu-se o método INLA (Integreted Nested Laplace Aproximation)(Rue et al., 2009), que se aplica aos modelos latentes gaussianos markovianos e fornece aproxima¸cões determin´ısticas para as curvas de densidade a posteriori do campo latente e dos hiperparâmetros. A estima¸cão via INLA para casos em que é baixa a dimensão do vetor de hiperparâmetros é feita muito rapidamente, com a restri¸cão de que não se obtêm estimativas da posteriori para fun¸cões não-lineares dos parâmetros.

Nesse contexto, propõe-se a aplicar dois diferentes métodos computacionais para aproxima¸cão da posteriori , a saber: Linear Bayes e MCMC. Os métodos são adotados em uma aplica¸cão a dados reais em que não se consegue obter forma anal´ıtica fechada, ressaltando vantagens e desvantagens de cada método. Os casos reais tratados aqui se referem a contagens de desfechos epidemiológicos, especificamente óbitos de crian¸cas em São Paulo causados por doen¸ca respiratória, buscando por exemplo quantificar rela¸cões entre os óbitos e condi¸cões atmosféricas de temperatura, umidade e concentra¸cão de poluente.

(28)

Cap´ıtulo 3

Descri¸

c˜

ao do conjunto de Dados

3.1 Descri¸

c˜

ao do conjunto de dados

A variável de interesse para o presente trabalho é a contagem diária de óbitos de crian¸cas com menos de 5 anos na cidade de São Paulo em decorrência de doen¸cas respiratórias durante os anos de 1994 até 1997. Para explicar a série de óbitos, dispõe-se das covariáveis: temperatura m´ınima (ºC), umidade relativa do ar média (%) e n´ıvel médio de Monóxido de Carbono (ppm), também medidas diariamente. Pode-se ver na Figura (3.1) as séries temporais de cada uma das var´ıaveis citadas. Note-se que as covar´ıaveis umidade, temperatura e concentra¸cão de CO foram padronizadas (subtra´ıdas das suas respectivas médias e divididas pelo desvio padrão considerando toda a série temporal) para eliminar o influência das escalas de medida.

A série de óbitos observada apresenta claro comportamento sazonal com per´ıodo anual e picos nos meses de Julho, além de uma leve tendência de queda no número de ´

(29)

Figura 3.1: Séries temporais da variável resposta e de cada uma das covariáveis do conjunto de dados

3.2 An´

alise explorat´

oria e proposi¸

c˜

ao de modelos

Nesta se¸c˜ao, descreve-se a metodologia utilizada para propor os modelos que foram tratados via inferˆencia bayesiana.

A variável resposta ´_{e uma contagem (portanto assume valores em N}S{0} ) e, no contexto epidemiológico, é usual adotar o modelo Poisson para descrever o comportamento probabil´ıstico desta variável. Também é de interesse relacionar a variável resposta com as medidas de temperatura, umidade e concentra¸cão de monóxido de carbono (entre outras covariáveis) a fim de dimensionar a associa¸cão de cada uma com o número de óbitos. No caso em que yt ∼ P oisson(µt), isso é feito expressando o

logaritmo da taxa média de óbitos µt como uma combina¸cão linear de cada uma das

(30)

Além da utiliza¸cão das covariáveis temperatura, concentra¸cão de CO e umidade, foram constru´ıdas covariáveis indicadoras de dia da semana (exceto para o domingo, tomado como base para os demais dias da semana), um intercepto e um par de harmônicos sen(₃₆₅2πt) e cos(2πt₃₆₅) para descrever a sazonalidade anual observada na série de óbitos. Assim, o modelo base é representado em sua forma inicial por:

yt| µt∼ P oisson(µt)

log(µt) =

β0+ β1COt+ β2T empt+ β3U midt+ δ2Iseg(t) + · · · + δ7Isab(t) + α1sen 2πt₃₆₅ + α2sen 2πt₃₆₅

Porém, os óbitos causados por doen¸cas respiratórias não devem ter rela¸cão apenas com as condi¸cões atmosféricas no dia em que ocorreram, mas principalmente ao longo dos dias anteriores. Portanto, com a finalidade de propor modelos mais próximos da realidade e que se ajustem mais adequadamente aos dados, optou-se por considerar efeitos propagados das covariáveis desde um determinado dia anterior até o dia corrente.

As correla¸cões observadas entre o número de óbitos e cada uma das covariáveis em diversas defasagens mostraram que polui¸cão, umidade e temperatura medidos até duas semanas antes dos desfechos ainda exerciciam influência estaticamente significativa sobre o logaritmo dos óbitos. Foram propostos modelos base considerando inicialmente diversas combina¸cões de propaga¸cão dos efeitos por 7 e 14 dias, para as covariáveis temperatura, umidade e concentra¸cão de monóxido.

Além disso, a alta correla¸cão observada entre as covariáveis defasadas poderia resultar em problemas de identifica¸cão do modelo se os parâmetros das defasagens da mesma covariável fossem estimados sem nenhuma restri¸cão. Para contornar esse problema, optou-se por restringir o conportamento do efeito de cada covariável em fun¸cão das defasagens como polinômios de baixo grau (2, 3 e 4) para temperatura,

(31)

umidade e poluente (Almon, 1965) e (Schartz, 2000).

Realizou-se uma análise exploratória para determina¸cão do número de defasagens relevantes em cada uma das covariáveis, bem como do grau de aproxima¸cão do polinômio suavizador das curvas de defasagens distribu´ıdas. Tal análise baseou-se no ajuste clássico de modelos aditivos generalizados, com combina¸cões de diferentes estruturas de defasagens para cada uma das regressoras. Especificamente, foram ajustadas diversas combina¸cões entre propaga¸cões de 0, 7 e 14 dias, e graus 2, 3 e 4 para as restri¸cões polinomiais aos coeficientes de defasagem, em cada uma das covariáveis temperatura umidade e poluente. Como o objetivo seria a inser¸cão de tais regressoras em modelos com preditores dinâmicos, mimetizamos a presen¸ca de um n´ıvel dinâmico por meio da inclusão, no preditor, de uma fun¸cão suave do tempo. Assim, os modelos foram ajustados à luz de n´ıvel variando no tempo. Para definir a melhor especifica¸cão da estrutura de defasagens, utilizou-se o critério AIC, que levou ao melhor modelo de base:

yt∼ P oisson(λt), t = 1, . . . , 1447 (3.1)

log(λt) =α + δ1sen((2πt)/365) + δ2cos((2πt)/365) + γCOt−2

+ β0T empt+ β1T empt−1+ . . . + β14T empt−14+

+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+

+ δ2Iseg+ . . . + δ7Isab

(3.2) com retri¸c˜ao polinomial de grau dois para as defasagens de temperatura e umidade: βx = η0+ η1x + η2x2

(32)

O modelo escolhido foi ajustado, ent˜ao, sob o paradigma bayesiano, utilizando-se os m´etodos MCMC e Linear Bayes, como descrito nos cap´ıtulos seguintes.

(33)

Cap´ıtulo 4

Procedimento de inferˆ

encia via

MCMC

4.1 Introdu¸

c˜

ao

Os métodos de Monte Carlo via Cadeias de Markov consistem em criar uma cadeia de Markov irredut´ıvel e aperiódica cujo espa¸co de estados Θ seja o suporte do vetor paramétrico θ, de modo que esta cadeia convirja em distribui¸cão para a densidade à posteriori π(θ | y), dado qualquer estado inicial em Θ da cadeia.

O que se faz, então, é simular uma ou mais realiza¸cões dessa cadeia e tomar os valores observados após um determinado número de itera¸cões m a partir do qual seja poss´ıvel assumir que a distribui¸cão estacionária, ou seja, a densidade à posteriori, tenha sido alcan¸cada. Dessa forma, os algoritmos MCMC fornecem uma amostra simulada da distribui¸cão à posteriori e, a partir dela, pode-se estimar quaisquer medidas resumo (média, variância, quantis, ...) da posteriori através das respectivas medidas observadas na amostra.

(34)

Uma forma emp´ırica de analisar a convergência consiste em simular duas cadeias independentemente, cada uma delas inicializada num ponto distinto no espa¸co paramétrico. Como a convergência é garantida para qualquer estado inicial, a partir do momento em que as duas cadeias se encontram e passam a apresentar um mesmo comportamento ao longo do tempo, tem-se um forte ind´ıcio de que a distribui¸cão estacionária foi alcan¸cada. Denomina-se per´ıodo de aquecimento da cadeia o intervalo de tempo discreto transcorrido até observar ind´ıcios da convergência.

Por fim, recomenda-se que o tamanho da amostra final seja grande para que se possa ter boas estimativas das caracter´ısticas de interesse à posteriori. Porém, também é desejável que os valores simulados não apresentem redundância, ou seja, que não sejam muito autocorrelacionados. Do contrário, uma análise precipitada levando em conta apenas o tamanho da amostra simulada pode fazer parecer que as estimativas foram obtidas com uma precisão maior do que na realidade. O que se costuma fazer é, após o per´ıodo de aquecimento, tomar apenas os valores espa¸cados de k unidades no tempo, de forma que as autocorrela¸cões sejam próximas de zero.

A seguir s˜ao descritos os dois m´etodos MCMC que foram implementados neste trabalho: Metropolis-Hastings e o Amostrador de Gibbs.

4.2 Metropolis-Hastings

Sejam Θ o suporte do vetor param´etrico θ e (Xt) uma C.M. irredut´ıvel e aperi´odica

com fun¸cão de transi¸cão q : Θ → Θ. Costuma-se fazer referência à fun¸cão de transi¸cão q como densidade proposta.

Considere a distribui¸c˜ao a posteriori π?_{(θ) = π(θ | y) com n´}_{ucleo n}?_{(θ) e a C.M. com}

(35)

p(θ1, θ2) = q(θ1, θ2)α(θ1, θ2), α(θ1, θ2) = min 1,π ?_(θ 2)q(θ2, θ1) π?_(θ 1)q(θ1, θ2) = min 1,n ?_(θ 2)q(θ2, θ1) n?_(θ 1)q(θ1, θ2) .

A fun¸c˜ao α garante que p e π? _{satisfa¸cam a condi¸c˜}_{ao de reversibilidade}

π?(θ1)p(θ1, θ2) = π?(θ2)p(θ2, θ1), ∀θ1, θ2 ∈ Θ.

Essa condi¸c˜ao implica π? _{ser distribui¸c˜}_{ao invariante da cadeia com fun¸c˜}_{ao de}

transi¸c˜ao p.

Portanto, fornecida a densidade proposta q, prossegue-se com a simula¸cão da cadeia com fun¸cão de transi¸cão p da seguinte da forma:

1. Escolhe-se um valor inicial θ(0) ∈ Θ (i=0); 2. Dado θ(i)_{, amostra-se um valor θ}? _{de q(θ}(i)_{, •);}

3. Com probabilidade α(θ(i), θ?), fazemos θ(i+1) = θ?e com probabilidade 1−α(θ(i), θ?) fazemos θ(i+1) _{= θ}(i)_.

4. Atualiza-se o contador i para i+1 e repete-se os passos 2 e 3.

A teoria subjacente garante que a cadeia de Markov com fun¸cão de transi¸cão p converge para a distribui¸cão π(θ | y) para qualquer densidade proposta q escolhida e qualquer valor inicial θ(0)_{. Cabe ressaltar, por´}_{em, que a escolha de q afeta bastante o}

tempo de convergência da cadeia e, portanto, deve-se estudar boas propostas antes da implementa¸cão dos métodos MCMC. (Gamerman, 1998) (citar artigo do CUBS), por exemplo, tratam de duas formas de especificar a proposta q visando justamente diminuir o tempo computacional necessário à convergência das cadeias.

(36)

4.3 Amostrador de Gibbs

O amostrador de Gibbs é um caso particular do algoritmo de Metropolis-Hastings em que a probabilidade de aceita¸cão de cada valor gerado é sempre 1. Portanto, os argumentos que justificam a convergência do método são os mesmos exibidos na se¸cão anterior.

Seja θ = (θ1, . . . , θn) o vetor de parˆametros e, inicialmente, suponha conhecidas as n

condicionais completas (θ1 | θ2, . . . , θn, y), . . . , (θn| θ1, . . . , θn−1, y). A seguir, descreve-se

as etapas do algoritmo do amostrador de Gibbs:

1. Escolha n valores iniciais θ(0)₁ , . . . , θ(0)n (i=0)

2. Sorteia-se um valor θ(i+1)₁ de θ1 | θ (i) 2 , . . . , θ

(i) n ;

Sorteia-se um valor θ(i+1)₂ de θ2 | θ (i+1) 1 , θ (i) 3 , . . . , θ (i) n ; .. .

Sorteia-se um valor θ(i+1)n de θn| θ (i+1) 1 , . . . , θ

(i+1) n−1 ;

3. Repete-se a etapa anterior para as itera¸c˜oes seguintes (i=1,2,3,..).

A suposi¸cão inicial de que as condicionais completas são conhecidas não é estritamente necessária. Uma vez que o núcelo dessas distibui¸cões é sempre conhecido, pode-se utilizar um passo de Metropolis-Hastings para gerar valores de cada condicional completa cuja forma anal´ıtica seja desconhecida durante a etapa 2 do algoritmo.

(37)

4.4 Resumo das etapas para implementa¸

c˜

ao dos

m´

etodos MCMC

1. Estipula-se a fun¸cão de verossimilhan¸ca p(y | θ) e especifica-se distribui¸cão à priori para o vetor de parâmetros θ;

2. Obtém-se o núcleo da posteriori π(θ | y) através do teorema de Bayes;

3. Obtida a densidade conjunta a posteriori, deve-se encontrar o n´ucleo de cada uma das condicionais completas e identificar quais correspondem a distribui¸c˜oes conhecidas;

4. Escolhe-se os valores iniciais no suporte do vetor param´etrico e a proposta q;

5. Aplica-se o algoritmo do amostrador de Gibbs, lembrando que, a cada vez que se fizer necess´ario amostrar de uma distribui¸c˜ao condicional completa cuja forma anal´ıtica seja desconhecida, deve-se utilizar um passo do algoritmo geral de Metropolis-Hastings;

6. Após diagnosticar ind´ıcios de que a convergência da cadeia foi alcan¸cada, considera-se os valores obtidos posteriormente pelo algoritmo como amostra da distribui¸cão à posteriori;

7. através da amostra final obtida após escolher um espa¸camento adequado conforme descrito na se¸cão 2.1, estima-se as caracter´ısticas de interesse referentes à distribui¸cão à posteriori.

(38)

4.5 Aplica¸

c˜

ao aos dados reais

A implementa¸cão dos métodos MCMC ao conjunto de dados descrito na se¸cão 3.1 foi feita utilizando o software WinBugs, que utiliza um conjunto de rotinas próprias em que o usuário não especifica as propostas q(θ, θ0) que irão gerar os novos valores θ0 da cadeia, dado o último valor gerado θ.

A partir do modelo base discutido no final da se¸cão 3.2, construiu-se 4 novos modelos, cada um deles incorporando dinâmica em uma única covariável: intercepto (n´ıvel da série), concentra¸cão de poluente, temperatura e umidade. A evolu¸cão temporal dos parâmetros é descrita por um passeio aleatório simétrico e foi implementada com o objetivo de flexibilizar o modelo base, permitindo que os efeitos de uma mesma covariável na taxa de óbitos se diferenciem ao longo do tempo.

Modelo com n´ıvel dinˆamico:

yt∼ P oisson(λt), t = 1, . . . , 1447 (4.1)

log(λt) =αt+ δ1sen((2πt)/365) + δ2cos((2πt)/365) + γCOt−2

+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+ + δ2Iseg+ . . . + δ7Isab (4.2) βx = η0+ η1x + η2x2 µx = ξ0+ ξ1x + ξ2x2 αt = αt−1+ ωt, ωt∼ N (0, σ2)

Distribui¸c˜oes `a priori: α1 ∼ N (b, σ2),

b ∼ N(0.7, 0.2) σ2 _{∼ GamaInv(0.01, 0.01)}

η0, η1, η2, ξ0, ξ1, ξ2, δ1, . . . , δ8, γ iid N(0, 100)

(39)

yt ∼ P oisson(λt), t = 1, . . . , 1447 (4.3)

log(λt) =α + δ1sen((2πt)/365) + δ2cos((2πt)/365) + γtCOt−2

+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+ + δ2Iseg+ . . . + δ7Isab (4.4) βx = η0+ η1x + η2x2 µx = ξ0+ ξ1x + ξ2x2 γt = γt−1+ ωt, ωt∼ N (0, σ2)

Distribui¸c˜oes `a priori: γ1 ∼ N (b, σ2),

b ∼ N(0.7, 0.2) σ2 _{∼ GamaInv(0.01, 0.01)}

α, η0, η1, η2, ξ0, ξ1, ξ2, δ1, . . . , δ8 iid N(0, 100)

Modelo com dinˆamica nos coeficientes da temperatura:

yt ∼ P oisson(λt), t = 1, . . . , 1447 (4.5)

+ β0,tT empt+ β1,tT empt−1+ . . . + β14,tT empt−14+

+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+

+ δ2Iseg+ . . . + δ7Isab

(40)

βx,t = η0,t + η1x + η2x2

µx = ξ0+ ξ1x + ξ2x2

η0,t = η0,t−1+ ωt,

ωt∼ N (0, σ2)

Distribui¸c˜oes `a priori:

η0,1 ∼ N (b, σ2),

b ∼ N(0.7, 0.2) σ2 _{∼ GamaInv(0.01, 0.01)}

α, η1, η2, ξ0, ξ1, ξ2, δ1, . . . , δ8, γ iid N(0, 100)

Modelo com dinˆamica nos coeficientes da umidade:

yt∼ P oisson(λt), t = 1, . . . , 1447 (4.7)

+ µ0,tU mdt+ µ1,tU mdt−1+ . . . + µ14,tU mdt−14+ + δ2Iseg+ . . . + δ7Isab (4.8) βx = η0+ η1x + η2x2 µx,t = ξ0,t+ ξ1x + ξ2x2 ξ0,t = ξ0,t−1+ ωt, ωt∼ N (0, σ2)

Distribui¸c˜oes `a priori:

ξ0,1 ∼ N (b, σ2),

b ∼ N(0.7, 0.2) σ2 _{∼ GamaInv(0.01, 0.01)}

η0, η1, η2, ξ1, ξ2, δ1, . . . , δ8, γ iid N(0, 100)

Também foram propostos e estimados modelos considerando o efeito das covariáveis apenas defasado num dia espec´ıfico anterior à observa¸cão do número de óbitos. Para determinar a defasagem em cada covariável, observou-se a correla¸cão cruzada entre cada par (covariável vs logaritmo da variável resposta) para várias defasagens diferentes e escolheu-se a que forneceu o maior valor. A dinâmica nos coeficientes foi feita exatamente como descrito nesta se¸cão. Conforme consta na próxima se¸cão, os modelos com efeito apenas defasado não se ajustaram tão bem quanto aqueles que consideram os efeitos

(41)

propagados.

4.5.1 Escolha do melhor modelo segundo crit´

erio de ajuste DIC

O critério DIC é bastante utilizado nos casos de aplica¸cão de métodos MCMC. Ele ´

e menor para modelos que apresentam melhor ajuste aos dados além de penalizar cada modelo pela quantidade de parâmetros, incorporando assim o princ´ıpio estat´ıstico da parcimônia (deve-se evitar modelos com muitos parâmetros caso haja outros outros modelos quase tão bons mas que utilizam menos parâmetros).

Cada um dos modelos apresentou mais de uma cadeia com autocorrela¸cão bastante elevada, por isso foi necessário especificar espa¸camento grande entre os valores simulados, o que aumentou muito o tempo computacional para simula¸cão das cadeias, dado que foi preciso grande número de itera¸cões de modo a garantir uma amostra final de tamanho grande e com pouca informa¸cão redundante. Nesse ponto, suspeita-se que a escolha de outras propostas mais adequadas do que aquelas escolhidas pelo software WinBugs, adotado para impementa¸cão dos esquemas MCMC neste trabalho, poderia gerar cadeias menos autocorrelacionadas e diminuir assim o número de itera¸cões necessárias e o tempo computacional.

Tabela 4.1: Especifica¸c˜oes para obten¸c˜ao de amostra final aproximada para a posteriori de cada um dos modelos com efeito propagado

Total de itera¸c˜oes 850.000 Aquecimento 50.000 Espa¸camento 800

A seguir, podemos ver que os modelos com efeito apenas defasado n˜ao se ajustaram t˜ao bem quanto aqueles que consideram os efeitos propagados.

(42)

Tabela 4.2: Compara¸c˜ao dos DICs de cada um dos modelos

Dinˆamica N´ıvel Poluente Temperatura Umidade DIC Efeitos Defasados 5048.01 5220.39 5190.58 5275.55 DIC Efeitos Propagados 5043.25 5113.03 5140.21 5144.44

O melhor modelo segundo o critério DIC é aquele que apresenta dinâmica no n´ıvel da série com efeito de covariáveis propagado ao longo do tempo.

4.6 Resultados para o melhor modelo

A evolu¸cão temporal das taxas de óbitos estimadas acompanha bem a série, como é poss´ıvel notar no gráfico abaixo:

Figura 4.1: Média à posteriori e intervalos de credibilidade de 95% para a taxa de óbitos vs Série observada

O n´ıvel da série capta a tendência de queda no número de óbitos com o passar dos anos, como foi observado na se¸cão 3.1:

(43)

Ano

1994 1995 1996 1997 1998

0.5

1.0

1.5

Figura 4.2: Média à posteriori e intervalos de credibilidade de 95% para o n´ıvel da série

A seguir, tem-se o gráfico que mostra o comportamento do simétrico dos coeficientes da temperatura segundo as defasagens onde e possivel perceber que as defasagens de 2 e 3 dias são isoladamente significativas para o ajuste. Ressalta-se a importância de manter as demais, uma vez que considerar efeitos propagados levou a modelos mais bem ajustados do que os modelos com apenas uma defasagem para cada covariável.

Figura 4.3: Intervalos de credibilidade de 95% e m´edia estimados para o sim´etrico dos coeficientes da temperatura segundo defasagens

A distribui¸cão preditiva é parte muito importante da inferência bayesiana, pois é a partir dela que se faz as previsões para horizontes futuros. Percebe-se que os intervalos não se diferenciam muito no tempo e preveem sempre valores baixos, contendo o

(44)

verdadeiro n´umero de ´obitos bservado em todos os 46 dias finais.

Figura 4.4: Intervalo de credibilidade e m´edia a posteriori da distribui¸c˜ao preditiva

A Figura 4.5 e a Tabela 4.3 mostram os valores estimados para os parâmetros estáticos, bem como a incerteza a posteriori de cada um deles (representada pela amplitude dos intervalos de credibilidade de 95%), para o melhor modelo cuja especifica¸cão é dada a seguir.

Figura 4.5: Intervalos de credibilidade de 95% e média a posteriori para os parâmetros estáticos

(45)

Modelo com n´ıvel dinˆamico:

yt∼ P oisson(λt), t = 1, . . . , 1447 (4.9)

log(λt) =αt+ δ1sen((2πt)/365) + δ2cos((2πt)/365) + γCOt−2

+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+ + δ3Iseg+ . . . + δ8Isab (4.10) βx = η0+ η1x + η2x2 µx = ξ0+ ξ1x + ξ2x2 αt = αt−1+ ωt, ωt∼ N (0, σ2)

Distribui¸c˜oes `a priori: α1 ∼ N (b, σ2),

b ∼ N(0.7, 0.2) σ2 _{∼ GamaInv(0.01, 0.01)}

η0, η1, η2, ξ0, ξ1, ξ2, δ1, . . . , δ8, γ iid N(0, 100)

Percebe-se, por exemplo, que segunda-feira, ter¸ca e sexta apresentam n´umero esperado de ´obitos significativamente menor que o domingo.

(46)

Tabela 4.3: Média e limites de credibilidade de 95% a posteriori para os parâmetros estáticos do modelo com n´ıvel da série variando no tempo. Os asteriscos (∗) indicam os coeficientes significativamente distintos de zero ao n´ıvel de 5% de credibilidade.

N´ıvel variando no tempo

Quantil 2.5% M´edia Quantil 97.5% γ -0.0148 0.02382 0.06341 δ∗₃ -0.2723 -0.1491 -0.01827 δ∗ 4 -0.3950 -0.2682 -0.01303 δ5 -0.1212 0.001579 0.1192 δ6 -0.182 -0.06138 0.06547 δ∗₇ -0.2621 -0.1375 -0.01534 δ8 -0.2283 -0.1043 0.02281 η0 -0.5998 -0.2717 0.07347 η1 -0.5702 0.2473 1.053 η2 -0.6413 -0.1004 0.4625 ξ0 -0.1354 -0.009322 0.1226 ξ1 -0.4994 -0.1842 0.135 ξ2 -0.01849 0.2131 0.437 δ2 -0.4057 -0.1603 0.07606 δ∗₁ 0.005664 0.1823 0.3747 σ−2 396.3 721.8 1188.0 b∗ 0.7343 1.086 1.444

Apesar do coeficiente do monóxido de carbono não ter sido significativamente diferente de zero ao n´ıvel de 5%, através da amostra obtida da posteriori por meio do MCMC, observou-se probabilidade de aproximadamente 88,1% do efeito do poluente sobre a taxa de óbitos ser positivo. Isso indica que incrementos no n´ıvel deste poluente estão associados a uma eleva¸cão no número esperado de óbitos. Ainda que de pequena magnitude, tal efeito é significativo e, cumulativamente, pode ser relevante. A amostra a posteriori para o coeficiente do monóxido de carbono pode ser vista na Figura 4.6.

(47)

Figura 4.6: Histograma da amostra a posteriori para o coeficiente do mon´oxido de carbono

Pode-se interpretar a estimativa obtida para o coeficiente do n´ıvel de monóxido de carbono padronizado como um acréscimo na taxa de óbitos. A média e o desvio padrão em ppm foram respectivamente, 4,52 e 2,1198, e a estimativa para o coeficiente desta variável padronizada foi de 0,0238. Segue que e0.0238 = 1, 024, portanto estima-se que um aumento de 1 desvio padrão em rela¸cão à média do n´ıvel de monóxido de carbono, acarrete em um acréscimo de 2, 4% na taxa de óbitos de dois dias à frente. Neste caso, utilizando a inferência Bayesiana, pode-se associar uma medida de incerteza ao efeito do monóxido de carbono na taxa de óbitos dado por eγ.

Para se obter a distribui¸cão de eγ, basta exponenciar os valores da posteriori para γ obtidos pelo método MCMC. A figura 4.7 mostra o histograma obtido através da aplica¸cão deste racioc´ınio, bem como o intervalo de credibilidade de 95%, IC(95%, γ) = [0.985; 1.065].

(48)

Figura 4.7: Histograma do efeito do acréscimo de 1 desvio padrão com respeito à média da concentra¸cão de monóxido de carbono na taxa de óbitos e intervalo de credibilidade de 95%

(49)

Cap´ıtulo 5

Implementa¸

c˜

ao via Linear Bayes

5.1 Introdu¸

c˜

ao

O método Linear Bayes se aplica a classe dos modelos lineares dinâmicos generalizados(MDLG). Essa classe é uma extensão dos Modelos Lineares Dinâmicos (MLD) caracterizada também pela quárdrupla {Ft, Gt, Vt, Wt} , porém com a variável

resposta pertence à fam´ılia exponencial e os erros de evolu¸cão não necessariamente seguindo uma distribui¸cão normal.

Uma v.a. Y possui distribui¸cão pertencente à familia exponencial se sua fun¸cão densidade (ou fun¸cão de probabilidade) pY pode ser escrita na forma

pY(y | η, φ) = exp{φ[f (y)η − a(η)]}b(y, φ)

onde

(50)

φ > 0 é o parâmetro de precisão;

a, f e b são fun¸cões, sendo a duas vezes derivável;

Obs.: Se f for a fun¸c˜ao identidade, ent˜ao µ = E[Y ] = a0(η) e V ar[Y ] = a00(η).

p(y | µ) = yµ_y!e−µ, ∀ y ∈ N ´e da fam´ılia exponencial, sendo η = lnµ, φ = 1, a(η) = eη, b(η, υ) = _y!1

Observa-se que a defini¸c˜ao aqui explicitada encontrada em (West e Harrison, 1989), ´

e diferente mas equivalente àquela apresentada no cap´ıtulo 1. Escolheu-se trabalhar com esta defini¸cão com o objetivo de manter a mesma nota¸cão utilizada pelo autor.

Devido à normalidade à priori do vetor paramétrico e a conjuga¸cão no caso MLD, basta calcular média e variância a priori do vetor de estados para ter suas distribui¸cões completamente especificadas, o que não acontece no caso MDLG.

5.2 Procedimento geral para inferˆ

encia na classe dos

Modelos Dinˆ

amicos Lineares Generalizados

Seja yt(t = 1, 2, . . . ) o vetor de observa¸c˜oes com p(yt | ηt) pertencente `a fam´ılia

exponencial;

1. Preditor linear:

g(ηt) = λt = F

0

(51)

2. Equa¸c˜ao de evolu¸c˜ao:

θt = Gtθt−1+ ωt com ωt ∼ [0, Wt]

Sendo:

θt o vetor param´etrico

Ft matriz de covari´aveis

Gt matriz de evolu¸c˜ao

Wt matriz de covariˆancias

O esquema de atualiza¸c˜ao se d´a da seguinte maneira

Inicia-se com uma priori referente ao vetor de estados no instante inicial da s´erie utilizando a informa¸c˜ao subjetiva representada por D0;

Incorpora-se o primeiro dado observado para compor a posteriori no tempo 1 e a informa¸c˜ao dispon´ıvel passa a ser D1 = D0U {y1} ;

No tempo seguinte, a informa¸c˜ao a priori ´e D1 = D0U {y1 e incorpora-se a nova

observa¸c˜ao y2 para compor a posteriori no tempo 2 e a informa¸c˜ao dispon´ıvel passa

(52)

e assim por diante, onde denota-se priori e posteriori no tempo t respectivamente por θt | Dt−1 e θt | Dt. Note-se que a atualiza¸cão da informa¸cão é on-line no sentido de

que, dada toda a informa¸cão dispon´ıvel no passado, atualiza-se a incerteza associada aos parâmetros assim que se dispõe dos dados no tempo corrente.

Tendo em mente que não há forma anal´ıtica fechada para a posteriori do vetor de estados, o método linear bayes propõe especificar essas prioris apenas através do vetor de médias e matriz de covariância.

O esquema de atualiza¸c˜ao em termos de primeiro e segundo momentos ocorre da seguinte forma: Prioris 1. θt| Dt−1∼ [mt−1, Rt] 2. λt| Dt−1 ∼ [ft, qt] λt=Ft0θt z}|{_⇒ ft= Ft0mt−1, qt = Ft0RtFt Posterioris 1. θt| Dt∼ [mt, Ct]    mt= mt−1+ RtFt(ft∗− ft)/qt, Ct= Rt− RtFtFt0(1 − q ∗_/q t)/qt, 2. λt| Dt∼ [Ft0mt, Ft0CtFt]

Dada a posteriori em t: θt| Dt∼ [mt, Ct], a priori em t + 1 ´e dada por:

θt+1 | Dt ∼ [mt, Rt+1], Rt+1= Ct+ Wt+1

(53)

em que podemos especificar a matriz dos erros de evolu¸c˜ao Wt pela matriz B de fatores de desconto δ1, . . . , δn ∈ (0, 1]: B =          1 √ δ1 0 · · · 0 0 √1 δ2 · · · 0 .. . ... . .. ... 0 0 · · · _√1 δn          .

Escrevendo a matriz de covariˆancias de θt| Dt−1 como o produto BCt−1B, tem-se Wt

especificada:

Rt = Ct−1+ Wt= BCt−1B ⇒ Wt= BCt−1B − Ct−1.

A multiplica¸cão BCt−1B é responsável por inflar a variância das posterioris dos

estados no tempo t em compara¸cão com a das prioris no tempo t − 1, o que condiz com a intui¸cão de que a incerteza dispondo-se de informa¸cão até o tempo t − 1 é maior para avaliar os estados no tempo t, do que no tempo corrente t − 1. Note-se que quanto mais próximo de 1 for o fator de desconto δi, menor é o acréscimo na variância de θi,t com

o passar do tempo e mais suave ´e a evolu¸c˜ao do estado i. No caso extremo em que δi = 1,

temos o estado θi fixo no tempo. Para valores de δi pr´oximos de zero, mais abrupta ser´a

a evolu¸c˜ao de θi,t.

5.2.1 Inferˆ

encia em Modelos Dinˆ

amicos Lineares Generalizados

com resposta Poisson

Nesta se¸cão será mostrado como o método Linear Bayes, aplicado ao caso espec´ıfico de resposta Poisson, fornece distribui¸cão preditiva com forma anal´ıtica fechada, além de conjuga¸cão para média da variável resposta, mesmo especificando as prioris do vetor de estado apenas parcialmente atraves de primeiro e segundo momentos.

(54)

λt = Ft0θt ⇒ E(λt| Dt−1) = Ft0E(λt| Dt−1) = Ft0mt−1

⇒ V ar(λt | Dt−1) = Ft0V ar(λt| Dt−1)Ft= Ft0RtFt,

(5.1) para qualquer que seja a distribui¸c˜ao a priori π(θt | Dt−1).

Por outro lado, se especificarmos para µt a priori Gama(rt, st), teremos

completamente especificada a priori para λt, que dver´a ter m´edia ft = Ft0mt−1 e

variˆancia qt = Ft0RtFt. De µt| Dt−1∼ Gama(rt, st), temos π(µt | Dt−1) = srt t Γ(rt) µrt−1 t e −stµt _{∝ exp{r} tT1(µt) + stT2(µt) − b(rr, st)},

com T1(µt) = log µt, T2(µt) = −µt, b(rt, st) = −rtlog stlog Γ(rt).

Da teoria associada `a fam´ılia exponencial,E(T1) = _d∂rd∂b_t, donde E(T1) =

− log st + Γ 0_(r t) Γ(rt) = − log st + ψ(rt), sendo ψ(rt) = Γ0_(r t) Γ(rt). Como T1 = log µt = λt,

segue que E(T1 | Dt−1) = E(λt| Dt−1) = − log st+ ψ(rt). Portanto, devemos ter

ft= − log st+ ψ(rt).

Tamb´em se sabe que V ar(T1) = ∂

2_b

∂r2

t, donde, V ar(T1) = ψ

0_(r

t). Sendo T1 = λt, segue

que E(λt| Dt−1) = ψ0(rt), donde devemos ter

(55)

Logo, ´e preciso encontrar rt e st de modo a satisfazer o sistema n˜ao-linear:    − log st+ ψ(rt) = ft ψ0(rt) = qt

Ao invés de resolver o sistema através do uso, por exemplo, de métodos numéricos, o Linear Bayes utiliza aproxima¸cões para ψ(rt) e ψ0(rt), dadas em Abramowitz (1972), de

modo que possa obter solu¸c˜ao anal´ıtica aproximadamente:

ψ(z) ∼= log(z), ψ0(z) ∼= z−1    ft = − log st+ ψ(rt) = log rt st qt= _q1_t ∴ rt= _q1_t eft ₌ rt st ⇒ rt= eftst⇒ st = rt eft = e−ft qt    rt= _q1_t st= e −ft qt Assim, µt| Dt−1 ∼ Gamma(rt, st) ⇒ rt∼= 1 qt , st∼= e−ft qt .

A ado¸cão de priori Gama para µt garante conjuga¸cão, ou seja, µt | Dt também tem

distribui¸c˜ao Gama.

Para a obten¸c˜ao da preditiva um passo `a frente, deve-se resolver a integral

π(yt | Dt−1) =

Z

π(yt, µt| Dt−1)dµt=

Z

(56)

e, do fato de que µ | Dt−1 ∼ Gama(rt, st), a integral resulta na densidade da

BinN eg(rt,_s_t1₊₁).

Segue o esquema completo de atualiza¸c˜ao (incluindo preditiva, preditor linear, m´edia da Poisson e vetor de estados) do Linear Bayes:

Prioris 1. θt| Dt−1∼ [mt−1, Rt] 2. λt| Dt−1 ∼ [ft, qt] λt=Ft0θt z}|{_⇒ ft= Ft0mt−1, qt = Ft0RtFt 3. µt | Dt−1 ∼ Gama(rt, st),

Preditiva: yt| Dt−1 ∼ BinomN eg(rt, 1/(st+ 1))

Posterioris 1. λt| Dt∼ [ft∗, q ∗ t], f ∗ t = log rt+yt st+1 + _2(r1 t+yt); q ∗ t = 2(rt+yt)−1 2(rt+yt)2 2. µt | Dt ∼ Gama(yt+ rt, st+ 1), 3. θt| Dt∼ [mt, Ct]    mt= mt−1+ RtFt(ft∗− ft)/qt, Ct= Rt− RtFtFt0(1 − q ∗_/q t)/qt,

(57)

5.3 Aplica¸

c˜

ao aos dados reais

O conjunto de dados e os modelos utilizados para ajustá-los são os mesmos descritos anteriormente no cap´ıtulo 4. Apenas o tratamento dado à dinâmica dos estados foi diferente, uma vez que aqui optou-se por especificar diferentes fatores de desconto para os erros de evolu¸cão dos parâmetros de estado. Aproveitando-se do fato de que a estima¸cão de cada modelo via Linear Bayes era feita em pouqu´ıssimo tempo (menos de um segundo), avaliou-se diversas combina¸cões para a dinâmica do n´ıvel e dos coeficientes associados a temperatura, umidade, e concentra¸cão de monóxido, tanto para os modelos com efeitos propagados no tempo quanto para aqueles que consideram efeito apenas defasado.

Utilizou-se primeiramente apenas o n´ıvel com evolu¸cão temporal, testando para ele os fatores de desconto: 0.88, 0.89, 0.90, ..., 0.99, 1. Escolheu-se então a configura¸cão que apresentou menor Erro Quadrático Médio de Previsão (EQMP) um passo à frente. Em seguida, mantido o ”fator de desconto ótimo” para o n´ıvel, ajustou-se mais 27 modelos, um para cada combina¸cão poss´ıvel dos fatores de desconto 1, 0.98 e 0.95 para as 3 covariáveis citadas.

Essa metodologia foi aplicada tanto nos modelos considerando efeitos apenas defasados quanto efeitos propagados e o melhor modelo segundo o critério preditivo de minimiza¸cão do EQMP foi o de efeitos apenas defasados com dinâmica apenas no n´ıvel e respectivo fator de desconto igual a 0.91. O EQMP para esse modelo foi de 3,1095.

A especifica¸cão das prioris para os modelos só é feita em termos de 1º e 2º momentos para o vetor de estados, da´ı tem-se determinadas as prioris para a taxa de óbitos µt

e para o preditor linear λt, conforme descrito na se¸c˜ao 4.2. Todos os modelos foram

(58)

θ1 | D0 ∼ [m0, BC0B], m0 = (0, 0, . . . , 0)T C0 = diag(2)

5.4 Resultados para o melhor modelo

Conforme relatado, o melhor modelo segundo o crit´erio preditivo de minimiza¸cao do EQMP foi:

yt| µt∼ P oisson(µt)

log(µt) =

β0,t+ β1COt−2+ β2T empt−3+ β3U midt−2+ δ2Iseg+ · · · + δ7Isab+ α1cos ₃₆₅2πt +α2sen 2πt₃₆₅

Equa¸c˜ao de evolu¸c˜ao (fator de desconto 0.91):

β0,t = β0,t−1+ ω0 ω0 ∼ [0, W0,t]

(59)

Evolu¸c˜ao temporal do n´ıvel da s´erie

Figura 5.1: Médias e intervalos de credibilidade à posteriori de 2 desvios para o n´ıvel da série

Percebe-se leve tendência de queda no n´ıvel base da série ao longo dos anos conforme observado na se¸cão 3.1. Os primeiros intervalos de credibilidade são bastante amplos pois no in´ıcio temos poucos dados observados e a incerteza descrita pela priori não informativa supera a informa¸cão proveniente dos dados através da verossimilhan¸ca. Os intervalos de credibilidade foram tomados a distância de ± 2 desvios padrões da média estimada. Não é poss´ıvel saber o grau de incerteza associado a esses intervalos em termos probabil´ısticos, um vez que o n´ıvel pertence ao vetor de estados especificado apenas parcialmente em termos do primeiro e segundo momentos.

(60)

Taxas de ´obitos estimadas e contagens observadas

Figura 5.2: Média à posteriori da taxa de óbitos vs Contagens de óbitos observadas

A taxa de ´obitos estimada acompanha bem a s´erie de dados, apresentando picos e quedas que condizem com o observado.

(61)

Evolu¸c˜ao temporal das taxas de ´obito

Figura 5.3: Média e intervalos de credibilidade à posteriori de 95% para a taxa de óbitos

Os intervalos de credibilidade de 95% parecem conter a devida proporcão de valores observados da variável resposta. Note-se que µt| Dt tem distribui¸cão Gama especificada

de forma completa. A varia¸cão no in´ıcio é mais brusca tanto para as estimativas quanto para os intervalos, pela mesma razão já mencionada para os outros gráficos.

(62)

Distribui¸c˜ao preditiva um passo `a frente

Figura 5.4: Média e intervalos de credibilidade à posteriori de 95% para a predi¸cão um passo à frente vs Série observada

As predi¸cões captam bem o número de óbitos observados, com oscila¸cões que acompanham a série. Novamente, as previsões para os primeiros dias são mais imprecisas do que para os últimos, pois consideram um número menor de observa¸cões.