˜
oes652Conclus˜oes e trabalhos futuroschapter.6 (Gamerman, 1999)
M´
etodos computacionais para realiza¸
c˜
ao de
inferˆ
encia bayesiana em modelos dinˆ
amicos
lineares generalizados
por
Carlos Tadeu Pagani Zanini
Mariana Raniere Neves
Universidade Federal do Rio de Janeiro
Instituto de Matem´
atica
Departamento de M´
etodos Estat´ısticos
2013
M´
etodos computacionais para realiza¸
c˜
ao de
inferˆ
encia bayesiana em modelos dinˆ
amicos
lineares generalizados
Carlos Tadeu Pagani Zanini e Mariana Raniere Neves
Projeto final submetido ao Corpo Docente do Instituto de Matem´atica -Departamento de M´etodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do grau de Bacharel em Estat´ıstica.
Aprovada por:
Prof. Mariane B. Alves. Doutora - UFRJ - Orientadora.
Prof. Dani Gamerman PhD - UFRJ.
Prof. Alexandra M. Schmidt PhD - UFRJ.
Rio de Janeiro, RJ - Brasil 2010
Agradecimentos
Carlos Tadeu
Dedico esse trabalho, em primeiro lugar, `a minha fam´ılia, principalmente meus pais M´arcia Tad´ea Pagani Zanini e Antonio Carlos Zanini e meu irm˜ao Gabriel. Pai, m˜ae, muito obrigado por todo amor e carinho com que sempre me trataram e pela confian¸ca que depositam nas minhas escolhas. Vocˆes s˜ao meus maiores exemplos. Ao meu irm˜ao, agrade¸co por estar sempre presente, sendo o cara mais companheiro (e sem papas na l´ıngua) que esse mundo j´a viu. Seu bom humor, carisma e perseveran¸ca foram exemplos que me inspiraram a dar sempre o melhor de mim, transformando as muitas adversidades que surgiram nesses longos 4 anos de gradua¸c˜ao nas hist´orias mais hil´arias e estapaf´urdias.
Aos meus amigos, agrade¸co pelos momentos de descontra¸c˜ao que foram fundamentais pra que eu pudesse relaxar depois de uma semana bastante puxada de aulas, projetos de inicia¸c˜ao cient´ıfica e afins. Agrade¸co tamb´em ao apoio que me deram diante das dificuldades por que passei. Sem vocˆes minha vida seria sem gra¸ca e muito mais dif´ıcil de levar, sobretudo esses anos de faculdade. A gente vai ficando mais velho, os problemas v˜ao ficando mais s´erios, mas a amizade continua l´a, firme e forte; cada vez mais.
Aos amigos de faculdade, agrade¸co por tornar os momentos de estudo mais leves e agrad´aveis. Ao pessoal da inicia¸c˜ao cient´ıfica: Mariana, Arthur, Ingrid, Rafa´eis, J´essicas, Dani, Raquel e tamb´em `a galera mais recente que eu n˜ao tive o prazer de ter um conv´ıvio maior, digo a todos muito obrigado pela troca de conhecimento, pelos
almo¸cos no bandej˜ao, pelas piadas, pela parceria, pelos congressos e por tudo mais. Em especial, agrade¸co `a Mariana, minha amiga, dupla de projeto final, inicia¸c˜oes cient´ıficas, carona pras aulas e ouvinte pras minhas reclama¸c˜oes infinitas. Muito obrigado por ter me aturado durante esses dois ´ultimos anos. Trabalhar com algu´em com caracter´ısticas t˜ao complementares `as minhas me fez aprender e evoluir muito.
Agrade¸co tamb´em aos amigos do mestrado e do doutorado. Em especial, Mariana, Teresa, William, Aniel, Cristian, Pˆamela, Rafael e Eduardo; obrigado pela convivˆencia e pela paciˆencia que tiveram tirando minhas d´uvidas com rela¸c˜ao a todo tipo de conte´udo nas mais variadas mat´erias. Tamb´em ao pessoal da matem´atica (companheiros de estudos, trilha e churrasco) Vin´ıcius, Carol, Walter, Henrique e Luise, muito obrigado.
Agrade¸co `a Mariane, minha orientadora e praticamente minha segunda m˜ae na faculdade. Obrigado pela dedica¸c˜ao que vocˆe tem por todos n´os alunos da estat´ıstica , sempre dispon´ıvel pra ouvir nossas queixas e tirar nossas d´uvidas, aos valiosos conselhos que levarei para minha vida acadˆemica e, principalmente, pela confian¸ca que vocˆe depositou em mim no momento em que me ofereceu a oportunidade de trabalhar no projeto de inicia¸c˜ao cient´ıfica que se ramificou neste trabalho de conclus˜ao de curso. Tenho que agradecer, sobretudo, pelo fato da experiˆencia em trabalhar nesse projeto final e na inicia¸c˜ao cient´ıfica ter sido um fator que pesou muito para que eu decidisse seguir a carreira acadˆemica.
Agrade¸co a todos os professores que fizeram parte da minha forma¸c˜ao aqui na UFRJ, na ENCE e na ´epoca do col´egio. Vocˆes foram respons´aveis pelo meu crescente interesse pelo conhecimento e estando hoje preparado pra exercer minha profiss˜ao, com certeza devo isso a vocˆes. Gostaria de sair um pouco do padr˜ao e dedicar esse trabalho a dois professores que tive na ´epoca do col´egio: Gl´aucio Pitanga e Vera Saraiva, que me fizeram descobrir o amor pela matem´atica e foram os maiores respons´aveis pela base s´olida que me permitiu ingressar na faculdade com o conhecimento e a gana necess´arios para que
eu chegasse onde estou.
Talvez quebrando mais um protocolo, deixo meus agradecimentos `a Deise, que a cada semestre me socorria com meus problemas burocr´aticos abrindo meia d´uzia de processos pra mim no DME. Eu sempre te dou trabalho, Deise, ent˜ao nada mais justo do que dedicar esse a vocˆe tamb´em.
Agrade¸co a Alexandra e Dani por aceitarem fazer parte da banca.
Mariana Raniere
Primeiramente, gostaria de dizer que o t´ermino deste trabalho ´e uma grande conquista pessoal, n˜ao s´o pelo t´ıtulo que recebo ao finalizar este ciclo, mas principalmente pelas barreiras que tive que superar para chegar at´e aqui. ´E claro que nada disso seria poss´ıvel sem a ajuda de algumas pessoas que me deram todo o apoio para que eu conseguisse chegar ao fim desta trajet´oria.
Gostaria de agradecer aos meus irm˜aos, Filipe, Gustavo, Miguel e Pedro, afinal fam´ılia ´e a base de tudo.
Agrade¸co `a Juliana, minha melhor companhia, que me deu toda for¸ca para que eu pudesse seguir em frente, ainda que as coisas tenham sido dif´ıceis. Agrade¸co por todo amor, carinho e paciˆencia. Sem ela, este caminho teria sido muito mais dif´ıcil.
Agrade¸co tamb´em `a minha dupla de IC e monografia, Carlos Tadeu, que al´em de companheiro de horas e horas de estudo, ´e tamb´em meu amigo, companheiro para todas as outras coisas da vida. Sem ele, este trabalho n˜ao teria ficado t˜ao bom e as horas de estudo n˜ao teriam nenhuma gra¸ca.
Gostaria de agradecer `a minha amiga Ingrid, por toda for¸ca e pela ´otima companhia.
Agrade¸co `a Mariane, que al´em de ´otima orientadora, ´e tamb´em um exemplo de pessoa. Agrade¸co a oportunidade que me deu de fazer este trabalho, pela paciˆencia de explicar tudo centenas de vezes, pela preocupa¸c˜ao em fazer com que tudo fosse entendido e por toda paix˜ao ao ensinar e falar de Estat´ıstica, isso ´e contagioso.
Gostaria de agradecer imensamente `a Alexandra, que me abriu as portas do mundo acadˆemico, que acreditou em mim e que me deu a oportunidade de participar de um projeto de Inicia¸c˜ao Cient´ıfica que acabou resultando nesta monografia. A ela, serei
eternamente grata pela ajuda, apoio e pelas ´otimas aulas de Inferˆencia que mais tarde me fizeram ter interesse em fazer mestrado na UFRJ.
Agrade¸co a todas as pessoas da UFRJ que de alguma forma contribu´ıram para a elabora¸c˜ao deste trabalho.
Resumo
A concentra¸c˜ao de Poluentes na atmosfera tem sido apontada, por v´arios estudos, como um fator que influencia na sa´ude e na qualidade de vida das pessoas. Quantificar o efeito de poluentes sobre desfechos epidemiol´ogicos, bem como seu comportamento ao longo do tempo s˜ao quest˜oes de grande relevˆancia, n˜ao apenas para o estat´ıstico, mas tamb´em para os ´org˜aos p´ublicos que administram a ´area de sa´ude.
Neste ˆambito, o presente trabalho se prop˜oe a estudar o efeito da concentra¸c˜ao de mon´oxido de carbono, conjuntamente com fatores clim´aticos, sobre ´obitos di´arios de crian¸cas com menos de 5 anos por doen¸ca respirat´oria na cidade de S˜ao Paulo decorridas entre o dia 1º de Janeiro de 1994 at´e Dezembro de 1997.
Para isso, utilizou-se a abordagem param´etrica bayesiana. Os modelos propostos pertencem `a classe dos Modelos Dinˆamicos Lineares Generalizados (MLDG), onde para a vari´avel resposta por se tratar de uma contagem, ´e assumida ter distribui¸c˜ao Poisson. Dada a falta de solu¸c˜ao anl´ıtica para estima¸c˜ao dos parˆametros destes modelos, ´e necess´ario utilizar-se de m´etodos para inferˆencia aproximada. Nesse sentido, escolheu-se utilizar os M´etodos de Monte Carlo via Cadeias de Markov e o m´etodo Linear Bayes.
Os resultados obtidos segundo as duas abordagens s˜ao comparados, ressaltando as vantagens e desvantagens decorrentes do uso de ambas.
Palavras-chave: Monte Carlo; Linear Bayes; Modelos Lineares Generalizados; Desfechos epidemiol´ogicos.
Sum´
ario
1 Introdu¸c˜ao 1
1.1 Estrutura da Disserta¸c˜ao . . . 2
2 Considera¸c˜oes sobre m´etodos de inferˆencia bayesiana 4 2.1 Teorema de Bayes e distribui¸c˜ao preditiva . . . 4
2.2 Inferˆencia na fam´ılia exponencial . . . 8
2.3 Modelos Dinˆamicos . . . 10
2.4 M´etodos computacionais em inferˆencia bayesiana . . . 12
3 Descri¸c˜ao do conjunto de Dados 14 3.1 Descri¸c˜ao do conjunto de dados . . . 14
3.2 An´alise explorat´oria e proposi¸c˜ao de modelos . . . 15
4 Procedimento de inferˆencia via MCMC 19 4.1 Introdu¸c˜ao . . . 19
4.2 Metropolis-Hastings . . . 20
4.3 Amostrador de Gibbs . . . 22
4.4 Resumo das etapas para implementa¸c˜ao dos m´etodos MCMC . . . 23
4.5 Aplica¸c˜ao aos dados reais . . . 24
4.5.1 Escolha do melhor modelo segundo crit´erio de ajuste DIC . . . 27
4.6 Resultados para o melhor modelo . . . 28
5 Implementa¸c˜ao via Linear Bayes 35 5.1 Introdu¸c˜ao . . . 35
5.2 Procedimento geral para inferˆencia na classe dos Modelos Dinˆamicos Lineares Generalizados . . . 36 5.2.1 Inferˆencia em Modelos Dinˆamicos Lineares Generalizados com
resposta Poisson . . . 39 5.3 Aplica¸c˜ao aos dados reais . . . 43 5.4 Resultados para o melhor modelo . . . 44
Lista de Tabelas
4.1 Especifica¸c˜oes para obten¸c˜ao de amostra final aproximada para a posteriori de cada um dos modelos com efeito propagado . . . 27 4.2 Compara¸c˜ao dos DICs de cada um dos modelos . . . 28 4.3 M´edia e limites de credibilidade de 95% a posteriori para os parˆametros
est´aticos do modelo com n´ıvel da s´erie variando no tempo. Os asteriscos (∗) indicam os coeficientes significativamente distintos de zero ao n´ıvel de 5% de credibilidade. . . 32 5.1 Resultados para os coeficientes est´aticos do melhor modelo. Os limites que
constam na tabela s˜ao dados pela m´edia `a posteriori ± 2 desvios-padr˜oes. A coluna Efeito cont´em os valores exponenciais das m´edias estimadas. Os asteriscos (∗) indicam os parˆametros significativos. . . 51
Lista de Figuras
3.1 S´eries temporais da vari´avel resposta e de cada uma das covari´aveis do conjunto de dados 15 4.1 M´edia `a posteriori e intervalos de credibilidade de 95% para a taxa de
´
obitos vs S´erie observada . . . 28 4.2 M´edia `a posteriori e intervalos de credibilidade de 95% para o n´ıvel da s´erie 29 4.3 Intervalos de credibilidade de 95% e m´edia estimados para o sim´etrico dos
coeficientes da temperatura segundo defasagens . . . 29 4.4 Intervalo de credibilidade e m´edia a posteriori da distribui¸c˜ao preditiva . 30 4.5 Intervalos de credibilidade de 95% e m´edia a posteriori para os parˆametros
est´aticos . . . 30 4.6 Histograma da amostra a posteriori para o coeficiente do mon´oxido de
carbono . . . 33 4.7 Histograma do efeito do acr´escimo de 1 desvio padr˜ao com respeito `a m´edia
da concentra¸c˜ao de mon´oxido de carbono na taxa de ´obitos e intervalo de credibilidade de 95% . . . 34 5.1 M´edias e intervalos de credibilidade `a posteriori de 2 desvios para o n´ıvel
da s´erie . . . 45 5.2 M´edia `a posteriori da taxa de ´obitos vs Contagens de ´obitos observadas . 46 5.3 M´edia e intervalos de credibilidade `a posteriori de 95% para a taxa de ´obitos 47 5.4 M´edia e intervalos de credibilidade `a posteriori de 95% para a predi¸c˜ao
um passo `a frente vs S´erie observada . . . 48 5.5 Intervalos de credibilidade `a posteriori iguais a m´edia +- 2 desvios para os
Cap´ıtulo 1
Introdu¸
c˜
ao
No contexto de Inferˆencia Bayesiana, ´e usual, para modelos razoavelmente complexos, que a distribui¸c˜ao a posteriori do vetor param´etrico n˜ao esteja dispon´ıvel analiticamente, sendo necess´ario o uso de m´etodos computacionais para sua aproxima¸c˜ao. Em particular, ´
e esta a situa¸c˜ao na classe dos modelos dinˆamicos lineares generalizados (West e Harrison, 1997), da qual fazem parte os modelos adotados neste trabalho.
A abordagem mais frequentemente utilizada para aproxima¸c˜ao da distribui¸c˜ao a posteriori em modelos dinˆamicos n˜ao normais e/ou n˜ao lineares tem sido os m´etodos de Monte Carlo via Cadeias de Markov (MCMC ). Tais m´etodos revolucionaram a Inferˆencia Bayesiana ao possibilitarem a realiza¸c˜ao de inferˆencia bayesiana de forma completa: dada uma amostra da distribui¸c˜ao a posteriori para o vetor de estados, obt´em-se diretamente, utilizando-se m´etodo de Monte Carlo, amostras de fun¸c˜oes dos estados ou sum´arios, tais como m´edias, medianas e intervalos de credibilidade a posteriori (Gamerman e Lopes, 2006). Entretanto, na medida em que novas observa¸c˜oes tornam-se dispon´ıveis, ´e desej´avel que haja um mecanismo pr´atico de atualiza¸c˜ao das distribui¸c˜oes a posteriori e preditiva. Tal atualiza¸c˜ao n˜ao ocorre de maneira sequencial nos algoritmos usuais MCMC, demandando tempos computacionais que podem ser extremamente elevados.
No presente trabalho, aplica-se, al´em dos m´etodos MCMC, o m´etodo linear bayes (West et al, 1985) para obten¸c˜ao de sum´arios da distribui¸c˜ao a posteriori do vetor de estados em regress˜oes Poisson dinˆamicas. Aproxima-se, ent˜ao, a distribui¸c˜ao a posteriori desses parˆametros em termos de primeiro e segundo momentos e, portanto, tem-se informa¸c˜ao menos detalhada sobre sua posteriori que aquela obtida via MCMC. Em contrapartida, preserva-se o esp´ırito sequencial de inferˆencia, presente em modelos dinˆamicos normais lineares, agilizando-se computacionalmente a atualiza¸c˜ao de informa¸c˜ao e predi¸c˜ao.
1.1
Estrutura da Disserta¸
c˜
ao
No cap´ıtulo 2 ´e feita uma breve introdu¸c˜ao `a inferˆencia bayesiana em modelos na fam´ılia exponencial e nos Modelos Dinˆamicos Lineares (MLD), onde consegue-se solu¸c˜ao anal´ıtica para as posterioris por meio de conjuga¸c˜ao. Em seguida, cita-se algumas alternativas que vem sendo usadas nas ´ultimas d´ecadas para realizar inferˆencia quando n˜ao se tem forma anal´ıtica fechada para a posteriori. Dentre elas, est˜ao os dois m´etodos aplicados neste trabalho: MCMC e Linear Bayes
No cap´ıtulo 3, apresenta-se o conjunto de dados reais utilizados no trabalho e o modelo base utilizado.
No cap´ıtulo 4, apresenta-se os M´etodos de Monte Carlo via Cadeias de Markov, em seguida, descreve-se os modelos propostos a partir do modelo-base apresentado no cap´ıtulo 3. Por fim, exibe-se os resultados obtidos atrav´es da aplica¸c˜ao dos m´etodos MCMC ao melhor modelo segundo o crit´erio de ajuste DIC.
O cap´ıtulo 5 introduz os Modelos Dinˆamicos Lineares Generalizados, descrevendo em seguida a aplica¸c˜ao do m´etodo Linear Bayes para o caso em que a vari´avel resposta tem distribui¸c˜ao Poisson. Descreve-se em seguida os modelos aos quais ser´a aplicado o
m´etodo Linear Bayes, bem como os resultados obtidos.
O cap´ıtulo 6 trata das conclus˜oes sobre o uso dos m´etodos MCMC e Linear Bayes aplicados `a classe MLDG.
Cap´ıtulo 2
Considera¸
c˜
oes sobre m´
etodos de
inferˆ
encia bayesiana
2.1
Teorema de Bayes e distribui¸
c˜
ao preditiva
Em problemas de inferˆencia param´etrica, tem-se interesse na estima¸c˜ao ou tomada de decis˜ao sobre quantidades n˜ao observ´aveis θ, ditas parˆametros, que indexam um modelo probabil´ıstico p(y|θ) subjacente ao comportamento de uma vari´avel aleat´oria Y sob observa¸c˜ao. Os procedimentos bayesianos de inferˆencia param´etrica caracterizam-se por utilizar, como fonte de informa¸c˜ao para estima¸c˜ao ou tomada de decis˜ao sobre θ, n˜ao somente observa¸c˜oes y1, . . . , yn de Y |θ ( como nos m´etodos c´assicos de inferˆencia),
mas tamb´em informa¸c˜ao externa ao conjunto de dados observados, referentes a cren¸cas subjetivas sobre θ e refletindo a incerteza inicial do tomador de decis˜ao.
A informa¸c˜ao proveniente dos dados ´e traduzida pela fun¸c˜ao de verossimilhan¸ca, denotada por l(θ; y), em que y representa os dados observados e θ os parˆametros a serem estimados. A fun¸c˜ao de verossimilhan¸ca tem a mesma express˜ao que define o modelo probabil´ıstico p(y | θ), por´em trata-se de objetos matem´aticos distintos. Do ponto de vista de estima¸c˜ao ou tomada de decis˜oes sobre θ, sob o enfoque bayesiano,
passa-se a considerar p(y | θ) como fun¸c˜ao de θ, desconhecido, condicional a um vetor de observa¸c˜oes y e essa fun¸c˜ao, cujo argumento agora ´e o vetor param´etrico, ´e denominada verossimilhan¸ca. A nota¸c˜ao l(θ; y) inclusive evidencia ser dom´ınio: o espa¸co param´etrico ou suporte (conjunto de todos os valores poss´ıveis para o vetor param´etrico θ). A informa¸c˜ao subjetiva, por sua vez, ´e incorporada ao modelo supondo uma distribui¸c˜ao (ou densidade) de probabilidade π(θ) `a priori para o vetor de parˆametros θ. O grau de incerteza sobre cada parˆametro est´a relacionado `a variabilidade da respectiva priori: quanto maior a variabilidade, maior ´e a incerteza `a priori (e consequentemente, menor o grau de subjetividade incorporado ao modelo).
O Teorema de Bayes, enunciado a seguir, estabelece a rela¸c˜ao entre priori e verossimilhan¸ca na composi¸c˜ao da incerteza acerca dos parˆametros. Essa incerteza se traduz em termos probabil´ısticos atrav´es da distribui¸c˜ao `a posteriori, denotada por π(θ | y). A partir da posteriori s˜ao calculadas as estimativas dos parˆametros, as medidas de incerteza, etc.
Teorema 2.1 (Teorema de Bayes): Sejam θ o vetor de parˆametros com suporte Θ e distribui¸c˜ao a priori π(θ), e y o vetor de observa¸c˜oes com verossimilhan¸ca p(y | θ). Ent˜ao a distribui¸c˜ao `a posteriori ´e dada por
π(θ | y) = p(y | θ)π(θ)
R p(y | θ)π(θ)dθ ∝ p(y | θ)π(θ), (2.1)
em que o produto p(y | θ)π(θ) ´e chamado n´ucleo da distribui¸c˜ao a posteriori.
Na verdade, qualquer fun¸c˜ao obtida de p(y | θ)π(θ) por multiplica¸c˜ao de uma constante que n˜ao dependa de θ, mas que pode depender do vetor de dados y, pode
ser chamada de n´ucleo da posteriori. Vale ressaltar que, sob o enfoque bayesiano na atualiza¸c˜ao da incerteza associada ao parˆametro θ via Teorema de Bayes, as observa¸c˜oes y s˜ao consideradas valores num´ericos constantes.
O Teorema de Bayes pode tamb´em ser visto sob o aspecto sequencial, segundo o qual cada observa¸c˜ao ´e incorporada em sequˆencia `a informa¸c˜ao a priori para compor a incerteza a posteriori. Mais especificamente, denotando o vetor de observa¸c˜oes por y = (y1, y2, ..., yn), temos no instante zero a distribui¸c˜ao `a priori π(θ). Incorporada a
primeira observa¸c˜ao y1 `a informa¸c˜ao a priori, atualiza-se a incerteza a respeito de θ
atrav´es do Teorema de Bayes, obtendo assim a distribui¸c˜ao a posteriori no tempo 1:
π(θ | y1) ∝ p(y1 | θ)π(θ)
Agora, no instante 2, toda a informa¸c˜ao pr´evia a respeito de θ (traduzida pela posteriori no instante 1: π(θ | y1)) ´e considerada informa¸c˜ao `a priori e, ao ser combinada
com a observa¸c˜ao no tempo corrente, resulta na posteriori no instante 2:
π(θ | y1, y2) ∝ p(y2 | θ, y1)π(θ | y1) = p(y2 | θ)π(θ | y1),
onde a igualdade ocorre quando se sup˜oe independˆencia entre as observa¸c˜oes dado o conhecimento do vetor param´etrico, o que significa assumir que o vetor param´etrico sintetiza toda a informa¸c˜ao necess´aria para determina¸c˜ao do comportamento probabil´ıstico do vetor y antes de se observar os dados.
Prosseguindo com o mesmo racioc´ınio, temos no tempo n a rela¸c˜ao de recorrˆencia
π(θ | y1, ..., yn) ∝ p(yn| θ)π(θ | yn−1, ..., y1)
que nos permite chegar `a f´ormula enunciada no Teorema de Bayes:
π(θ | y1, ..., yn) ∝ p(yn | θ)p(yn−1 | θ)...p(y1 | θ)π(θ)
onde a igualdade novamente ocorre quando se sup˜oe independˆecia entre as observa¸c˜oes condicionadas ao vetor param´etrico e que toda informa¸c˜ao subjetiva sobre θ esteja resumida em π(θ) no instante 0.
Portanto, se admitirmos ausˆencia de informa¸c˜ao externa aos dados al´em da priori inicial, a distribui¸c˜ao a posteriori obtida sequencialmente ´e a mesma que se obt´em com uma ´unica aplica¸c˜ao do Teorema de Bayes considerando o vetor completo y = (y1, ..., yn). ´E interessante notar, por´em, que o processo sequencial est´a intimamente
ligado `a distribui¸c˜ao preditiva, a partir da qual s˜ao realizadas as previs˜oes sob o enfoque inferencial bayesiano, no caso em que os dados constinuem uma s´erie temporal. A distribui¸c˜ao preditiva ´e de grande importˆancia n˜ao s´o pela sua capacidade de fazer previs˜oes como tamb´em para a avalia¸c˜ao da adequa¸c˜ao do modelo te´orico formulado pelo estat´ıstico aos dados reais.
A distribui¸c˜ao preditiva para uma observa¸c˜ao futura yn+k, k ∈ N a partir
do conjunto de observa¸c˜oes y1, . . . , yn ´e a distribui¸c˜ao de probabilidade (ou fun¸c˜ao
densidade) dada por
p(yn+k | yn, ..., y1) =
Z
Θ
l(θ; yn+k)π(θ | yn, ..., y1)dθ = Eθ|y1,...,yn(l(θ; yn+k)).
Assim, o inverso da constante de proporcionalidade em (2.2) ´e justamente p(yn|y1, . . . , yn−1), isto ´e, a distribui¸c˜ao preditiva 1 passo `a frente, condicional a
(y1, . . . , yn−1)., ´e o inverso da constante multiplicativa que iguala o lado direito de (2.2)
ao lado esquerdo.
A distribui¸c˜ao preditiva para yn+k pode ser interpretada como uma m´edia dos valores
de l(θ; yn+k) ponderados pela posteriori de θ | (yn, ..., y1). Neste ponto, ´e importante
vetor de observa¸c˜oes, sem nenhuma dependˆencia do vetor param´etrico.
2.2
Inferˆ
encia na fam´ılia exponencial
Para ter a distribui¸c˜ao a posteriori completamente especificada, ´e necess´ario obter a constante multiplicativa k tal que π(θ | y) = k l(θ; y)π(θ) dada por k = R l(θ;y)π(θ)dθ1 . Nos casos em que isso ´e poss´ıvel do ponto de vista pr´atico (por exemplo, quando se consegue resolver a integral ou identificar o produto l(θ; y)π(θ) com o n´ucleo de alguma distribui¸c˜ao conhecida) diz-se que a distribui¸c˜ao a posteriori tem forma anal´ıtica fechada.
Exemplo 2.2.1: Seja y = (y1, ..., yn) vetor de observa¸c˜oes independentes e
identicamente distribu´ıdas condicionalmente ao parˆametro λ, com y1 | λ ∼ P oisson(λ).
Se utilizarmos a distribui¸c˜ao a priori λ ∼ Gama(a, b), com a > 0 e b > 0:
p(yi | λ) = e −λλyi yi! ∝ e −λλyi, y i = 0, 1, 2, ... l(λ; y) = p(y | λ) = n Q i=1 p(yi | λ) ∝ e−nλλ n P i=1 yi , λ > 0 π(λ) = Γ(a)ba e−bλλa−1 ∝ e−bλλa−1, λ > 0
O n´ucleo da distribui¸c˜ao a posteriori π(λ | y) ser´a dado por
l(λ; y)π(λ) ∝ e−nλλ n P i=1 yi e−bλλa−1 = e−(b+n)λλ n P i=1 yi+a−1 , λ > 0
que, visto como fun¸c˜ao de λ, ´e o n´ucleo da distribui¸c˜ao Gama(P yi + a, b + n).
Portanto, λ | y ∼ Gama(P yi+ a, b + n), a constante multiplicativa k(a, b, y) ´e conhecida:
k = (b+n)Γ(P yP yi+a
i+a) e a posteriori tem forma anal´ıtica fechada.
Note-se que neste exemplo, tanto a distribui¸c˜ao a priori quanto a posteriori para λ s˜ao da mesma classe de distribui¸c˜oes, no caso a Gama. De modo geral, quando se tem priori e posteriori pertencentes `a mesma classe de distribui¸c˜oes para uma dada
verossimilhan¸ca l(θ; y) diz-se que a priori e a verossimilhan¸ca conjugam. Formalmente, tem-se a seguinte defini¸c˜ao, extra´ıda de Migon e Gamerman(1999):
Defini¸c˜ao Seja F = {p(• | θ), θ ∈ Θ} uma fam´ılia de distribui¸c˜oes referentes ao vetor de dados y. A classe P de distribui¸c˜oes ´e dita ser uma fam´ılia conjugada com respeito a F se para todo p(y | θ) ∈ F e p(θ) ∈ P , ent˜ao p(θ | y) ∈ P .
O Exemplo 2.2.1 ´e um caso particular de conjuga¸c˜ao quando a verossimilhan¸ca ´e uma distribui¸c˜ao pertencente `a fam´ılia exponencial.
Defini¸c˜ao: Uma fam´ılia de distribui¸c˜oes com fun¸c˜ao de probabilidade (ou densidade) p(y | θ) pertence `a fam´ılia exponencial com r parˆametros se p(y | θ) puder ser escrito como p(y | θ) = a(y)exp{ r X j=1 Uj(y)ψj(θ) + b(θ)}, y ∈ X ⊂ R,
onde X nao depende de θ.
A Fam´ılia Exponencial engloba v´arias distribui¸c˜oes muito conhecidas, como por exemplo a Binomial, Normal, Poisson, Exponencial entre outras e ´e de grande importˆancia no contexto inferencial bayesiano. Por exemplo, se p(y | θ) ´e da fam´ılia exponencial, obt´em-se prioris que formam conjuga¸c˜ao e, al´em disso, fornecem distribui¸c˜ao preditiva completamente especificada sem a necessidade do c´alculo da integral em (2.1) como pode ser visto em Migon e Gamerman(1999).
Ainda, a conjuga¸c˜ao ´e bastante desej´avel no contexto de s´eries temporais pois permite atualiza¸c˜ao autom´atica das posterioris conforme se tem acesso a novas observa¸c˜oes pois basta atualizar os parˆametros da distribui¸c˜ao conjugada segundo a rela¸c˜ao de recorrˆencia obtida a partir de (2.2).
2.3
Modelos Dinˆ
amicos
A classe de Modelos Lineares Dinˆamicos (MLD) se aplica nos casos em que a vari´avel resposta tem distribui¸c˜ao normal. Esses modelos permitem relacionar de forma dinˆamica as covari´aveis e a vari´avel resposta, por exemplo, quando se acredita que essa rela¸c˜ao muda com o passar do tempo.
O MLD em sua forma geral ´e descrito por duas equa¸c˜oes: a equa¸c˜ao de observa¸c˜ao, que descreve a rela¸c˜ao entre covari´aveis e a vari´avel resposta, e a equa¸c˜ao de evolu¸c˜ao, que descreve a forma com que os parˆametros do modelo evoluem conforme o tempo:
yt = Ftµt+ vt, vt∼ N (0, Vt)
µt= Gtµt−1+ wt, wt ∼ N (0, Wt)
com (vt)t∈N e (wt)t∈N sequˆencias de vari´aveis aleat´orias tais que vt⊥vs, wt⊥ws e
vt⊥ws, ∀s, t. vt ´e chamado erro de observa¸c˜ao e ws erro de evolu¸c˜ao.
Um MLD ´e, portanto, caracterizado pela qu´adrupla (Ft, Gt, Vt, Wt), onde:
Ft ´e o vetor de covari´aveis no tempo t: Ft = (x1t, . . . , (xpt);
yt ´e a observa¸c˜ao no tempo t;
θt ´e o vetor param´etrico no tempo t: θt = (θ1t, . . . , θpt)T;
Gt´e a matriz de evolu¸c˜ao no tempo t (dimens˜ao p × p).
As variˆancias Vt e Wt controlam os erros de observa¸c˜ao e de evolu¸c˜ao. Quanto
maiores os valores de Wt, mais vol´atil ´e a trajet´oria do vetor de m´edias (µt) ao longo do
tempo, e quanto maiores os valores de Vt, maior ´e o percentual de variabilidade que n˜ao
A classe MLD abrange v´arios tipos de modelos importantes, como os modelos lineares (Ft, Gt = I, Vt = σ2, Wt=0) e os modelos de s´eries temporais (Ft = F, Gt= G, Vt, Wt).
Sob o enfoque Bayesiano ´e necess´ario especificar as prioris. Adotando prioris normais para µ0 e conhecidos Vte Wt, tem-se forma anal´ıtica fechada para as posterioris
µt | yt, . . . , y1 conforme descrito pelas equa¸c˜oes do filtro de Kalman (West e Harrison,
1989) pp. 118 e 119.
O exemplo a seguir trata de mais um caso onde se tem forma anal´ıtica fechada para as posterioris e preditivas.
Exemplo 2.3.1: Considera-se um Modelo Linear Dinˆamico de 1a Ordem:
yt = µt+ vt, vt∼ N (0, Vt)
µt= µt−1+ wt, wt∼ N (0, Wt)
onde (vt)t∈N ´e sequˆencia de vari´aveis aleat´orias independentes, bem como (wt)t∈N, com
vt e ws independentes para quaisquer t,s ∈ N.
Sendo,
vt: Erro observacional
wt: Erro de evolu¸c˜ao.
Vt e Wt s˜ao n´umeros reais positivos conhecidos denotando as respectivas variˆancias
dos erros observacionais e de evolu¸c˜ao.
Segundo este modelo, os valores observados do vetor de dados (yt)t∈N provˆem de um
n´ıvel µt , que evolui temporalmente segundo um passeio aleat´orio, e de uma flutua¸c˜ao
aleat´oria vt, relacionada apenas `a observa¸c˜ao yt em particular.
Para o caso particular em que as variˆancias dos erros s˜ao constantes, ou seja, Vt= V
preditiva. Por exemplo, se especificarmos uma priori normal para µt no tempo t=0, a
poteriori e a preditiva tamb´em ter˜ao distribui¸c˜ao normal. Nesta classe de modelos ´e comum que a atualiza¸c˜ao seja feita sequencialmente, tal esquema de atualiza¸c˜ao pode ser visto em West e Harrison (1989).
Em muitos casos, a distribui¸c˜ao `a posteriori pode n˜ao ter forma an´alitica conhecida, o que ocorre quando n˜ao se consegue obter a constante normalizadora R p(y | θ)π(θ)dθ atrav´es da resolu¸c˜ao da integral, ou do reconhecimento do n´ucleo da distribui¸c˜ao `a posteriori. Nesses casos, ´e preciso utilizar m´etodos computacionais para obten¸c˜ao da posteriori.
2.4
M´
etodos
computacionais
em
inferˆ
encia
bayesiana
Durante a d´ecada de 80, desenvolveu-se, entre outros, o m´etodo Linear Bayes (West et al., 1985) para estima¸c˜ao de parˆametros em modelos lineares generalizados dinˆamicos, que admitem que a vari´avel resposta tenha qualquer distribui¸c˜ao pertencente `
a fam´ılia exponencial, e por isso se aplicam a diversas situa¸c˜oes pr´aticas. O m´etodo exige pouqu´ıssimo esfor¸co computacional e permite atualiza¸c˜ao de informa¸c˜ao em tempo real, possibilitando que o tomador de decis˜ao incorpore novas observa¸c˜oes ao modelo assim que se tenha acesso a elas, o que torna poss´ıvel realizar previs˜oes com bastante rapidez. Em contrapartida, tem-se informa¸c˜ao apenas parcial com respeito aos estados (parˆametros que governam o impacto de cada covari´avel sobre o preditor), pois sao fornecidas apenas estimativas de suas m´edias e variˆancias.
J´a na d´ecada seguinte, com o avan¸co da inform´atica e o desenvolvimento dos m´etodos de Monte Carlo via Cadeias de Markov (MCMC) (Gamerman e Lopes, 2006), a inferˆencia Bayesiana ganhou grande impulso. Simulando longas cadeias de markov
contru´ıdas de forma a garantir a convergˆencia em distribui¸c˜ao da cadeia para qualquer distribui¸c˜ao objetivo cujo n´ucleo fosse conhecido, era poss´ıvel obter uma amostra da posteriori e realizar inferˆencia de forma completa para qualquer fun¸c˜ao dos parˆametros. Contudo, em alguns casos, o custo computacional decorrente da implementa¸c˜ao de esquemas MCMC pode ser bastante elevado.
Por fim, recentemente desenvolveu-se o m´etodo INLA (Integreted Nested Laplace Aproximation)(Rue et al., 2009), que se aplica aos modelos latentes gaussianos markovianos e fornece aproxima¸c˜oes determin´ısticas para as curvas de densidade a posteriori do campo latente e dos hiperparˆametros. A estima¸c˜ao via INLA para casos em que ´e baixa a dimens˜ao do vetor de hiperparˆametros ´e feita muito rapidamente, com a restri¸c˜ao de que n˜ao se obtˆem estimativas da posteriori para fun¸c˜oes n˜ao-lineares dos parˆametros.
Nesse contexto, prop˜oe-se a aplicar dois diferentes m´etodos computacionais para aproxima¸c˜ao da posteriori , a saber: Linear Bayes e MCMC. Os m´etodos s˜ao adotados em uma aplica¸c˜ao a dados reais em que n˜ao se consegue obter forma anal´ıtica fechada, ressaltando vantagens e desvantagens de cada m´etodo. Os casos reais tratados aqui se referem a contagens de desfechos epidemiol´ogicos, especificamente ´obitos de crian¸cas em S˜ao Paulo causados por doen¸ca respirat´oria, buscando por exemplo quantificar rela¸c˜oes entre os ´obitos e condi¸c˜oes atmosf´ericas de temperatura, umidade e concentra¸c˜ao de poluente.
Cap´ıtulo 3
Descri¸
c˜
ao do conjunto de Dados
3.1
Descri¸
c˜
ao do conjunto de dados
A vari´avel de interesse para o presente trabalho ´e a contagem di´aria de ´obitos de crian¸cas com menos de 5 anos na cidade de S˜ao Paulo em decorrˆencia de doen¸cas respirat´orias durante os anos de 1994 at´e 1997. Para explicar a s´erie de ´obitos, disp˜oe-se das covari´aveis: temperatura m´ınima (ºC), umidade relativa do ar m´edia (%) e n´ıvel m´edio de Mon´oxido de Carbono (ppm), tamb´em medidas diariamente. Pode-se ver na Figura (3.1) as s´eries temporais de cada uma das var´ıaveis citadas. Note-se que as covar´ıaveis umidade, temperatura e concentra¸c˜ao de CO foram padronizadas (subtra´ıdas das suas respectivas m´edias e divididas pelo desvio padr˜ao considerando toda a s´erie temporal) para eliminar o influˆencia das escalas de medida.
A s´erie de ´obitos observada apresenta claro comportamento sazonal com per´ıodo anual e picos nos meses de Julho, al´em de uma leve tendˆencia de queda no n´umero de ´
Figura 3.1: S´eries temporais da vari´avel resposta e de cada uma das covari´aveis do conjunto de dados
3.2
An´
alise explorat´
oria e proposi¸
c˜
ao de modelos
Nesta se¸c˜ao, descreve-se a metodologia utilizada para propor os modelos que foram tratados via inferˆencia bayesiana.
A vari´avel resposta ´e uma contagem (portanto assume valores em NS{0} ) e, no contexto epidemiol´ogico, ´e usual adotar o modelo Poisson para descrever o comportamento probabil´ıstico desta vari´avel. Tamb´em ´e de interesse relacionar a vari´avel resposta com as medidas de temperatura, umidade e concentra¸c˜ao de mon´oxido de carbono (entre outras covari´aveis) a fim de dimensionar a associa¸c˜ao de cada uma com o n´umero de ´obitos. No caso em que yt ∼ P oisson(µt), isso ´e feito expressando o
logaritmo da taxa m´edia de ´obitos µt como uma combina¸c˜ao linear de cada uma das
Al´em da utiliza¸c˜ao das covari´aveis temperatura, concentra¸c˜ao de CO e umidade, foram constru´ıdas covari´aveis indicadoras de dia da semana (exceto para o domingo, tomado como base para os demais dias da semana), um intercepto e um par de harmˆonicos sen(3652πt) e cos(2πt365) para descrever a sazonalidade anual observada na s´erie de ´obitos. Assim, o modelo base ´e representado em sua forma inicial por:
yt| µt∼ P oisson(µt)
log(µt) =
β0+ β1COt+ β2T empt+ β3U midt+ δ2Iseg(t) + · · · + δ7Isab(t) + α1sen 2πt365 + α2sen 2πt365
Por´em, os ´obitos causados por doen¸cas respirat´orias n˜ao devem ter rela¸c˜ao apenas com as condi¸c˜oes atmosf´ericas no dia em que ocorreram, mas principalmente ao longo dos dias anteriores. Portanto, com a finalidade de propor modelos mais pr´oximos da realidade e que se ajustem mais adequadamente aos dados, optou-se por considerar efeitos propagados das covari´aveis desde um determinado dia anterior at´e o dia corrente.
As correla¸c˜oes observadas entre o n´umero de ´obitos e cada uma das covari´aveis em diversas defasagens mostraram que polui¸c˜ao, umidade e temperatura medidos at´e duas semanas antes dos desfechos ainda exerciciam influˆencia estaticamente significativa sobre o logaritmo dos ´obitos. Foram propostos modelos base considerando inicialmente diversas combina¸c˜oes de propaga¸c˜ao dos efeitos por 7 e 14 dias, para as covari´aveis temperatura, umidade e concentra¸c˜ao de mon´oxido.
Al´em disso, a alta correla¸c˜ao observada entre as covari´aveis defasadas poderia resultar em problemas de identifica¸c˜ao do modelo se os parˆametros das defasagens da mesma covari´avel fossem estimados sem nenhuma restri¸c˜ao. Para contornar esse problema, optou-se por restringir o conportamento do efeito de cada covari´avel em fun¸c˜ao das defasagens como polinˆomios de baixo grau (2, 3 e 4) para temperatura,
umidade e poluente (Almon, 1965) e (Schartz, 2000).
Realizou-se uma an´alise explorat´oria para determina¸c˜ao do n´umero de defasagens relevantes em cada uma das covari´aveis, bem como do grau de aproxima¸c˜ao do polinˆomio suavizador das curvas de defasagens distribu´ıdas. Tal an´alise baseou-se no ajuste cl´assico de modelos aditivos generalizados, com combina¸c˜oes de diferentes estruturas de defasagens para cada uma das regressoras. Especificamente, foram ajustadas diversas combina¸c˜oes entre propaga¸c˜oes de 0, 7 e 14 dias, e graus 2, 3 e 4 para as restri¸c˜oes polinomiais aos coeficientes de defasagem, em cada uma das covari´aveis temperatura umidade e poluente. Como o objetivo seria a inser¸c˜ao de tais regressoras em modelos com preditores dinˆamicos, mimetizamos a presen¸ca de um n´ıvel dinˆamico por meio da inclus˜ao, no preditor, de uma fun¸c˜ao suave do tempo. Assim, os modelos foram ajustados `a luz de n´ıvel variando no tempo. Para definir a melhor especifica¸c˜ao da estrutura de defasagens, utilizou-se o crit´erio AIC, que levou ao melhor modelo de base:
yt∼ P oisson(λt), t = 1, . . . , 1447 (3.1)
log(λt) =α + δ1sen((2πt)/365) + δ2cos((2πt)/365) + γCOt−2
+ β0T empt+ β1T empt−1+ . . . + β14T empt−14+
+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+
+ δ2Iseg+ . . . + δ7Isab
(3.2) com retri¸c˜ao polinomial de grau dois para as defasagens de temperatura e umidade: βx = η0+ η1x + η2x2
O modelo escolhido foi ajustado, ent˜ao, sob o paradigma bayesiano, utilizando-se os m´etodos MCMC e Linear Bayes, como descrito nos cap´ıtulos seguintes.
Cap´ıtulo 4
Procedimento de inferˆ
encia via
MCMC
4.1
Introdu¸
c˜
ao
Os m´etodos de Monte Carlo via Cadeias de Markov consistem em criar uma cadeia de Markov irredut´ıvel e aperi´odica cujo espa¸co de estados Θ seja o suporte do vetor param´etrico θ, de modo que esta cadeia convirja em distribui¸c˜ao para a densidade `a posteriori π(θ | y), dado qualquer estado inicial em Θ da cadeia.
O que se faz, ent˜ao, ´e simular uma ou mais realiza¸c˜oes dessa cadeia e tomar os valores observados ap´os um determinado n´umero de itera¸c˜oes m a partir do qual seja poss´ıvel assumir que a distribui¸c˜ao estacion´aria, ou seja, a densidade `a posteriori, tenha sido alcan¸cada. Dessa forma, os algoritmos MCMC fornecem uma amostra simulada da distribui¸c˜ao `a posteriori e, a partir dela, pode-se estimar quaisquer medidas resumo (m´edia, variˆancia, quantis, ...) da posteriori atrav´es das respectivas medidas observadas na amostra.
Uma forma emp´ırica de analisar a convergˆencia consiste em simular duas cadeias independentemente, cada uma delas inicializada num ponto distinto no espa¸co param´etrico. Como a convergˆencia ´e garantida para qualquer estado inicial, a partir do momento em que as duas cadeias se encontram e passam a apresentar um mesmo comportamento ao longo do tempo, tem-se um forte ind´ıcio de que a distribui¸c˜ao estacion´aria foi alcan¸cada. Denomina-se per´ıodo de aquecimento da cadeia o intervalo de tempo discreto transcorrido at´e observar ind´ıcios da convergˆencia.
Por fim, recomenda-se que o tamanho da amostra final seja grande para que se possa ter boas estimativas das caracter´ısticas de interesse `a posteriori. Por´em, tamb´em ´e desej´avel que os valores simulados n˜ao apresentem redundˆancia, ou seja, que n˜ao sejam muito autocorrelacionados. Do contr´ario, uma an´alise precipitada levando em conta apenas o tamanho da amostra simulada pode fazer parecer que as estimativas foram obtidas com uma precis˜ao maior do que na realidade. O que se costuma fazer ´e, ap´os o per´ıodo de aquecimento, tomar apenas os valores espa¸cados de k unidades no tempo, de forma que as autocorrela¸c˜oes sejam pr´oximas de zero.
A seguir s˜ao descritos os dois m´etodos MCMC que foram implementados neste trabalho: Metropolis-Hastings e o Amostrador de Gibbs.
4.2
Metropolis-Hastings
Sejam Θ o suporte do vetor param´etrico θ e (Xt) uma C.M. irredut´ıvel e aperi´odica
com fun¸c˜ao de transi¸c˜ao q : Θ → Θ. Costuma-se fazer referˆencia `a fun¸c˜ao de transi¸c˜ao q como densidade proposta.
Considere a distribui¸c˜ao a posteriori π?(θ) = π(θ | y) com n´ucleo n?(θ) e a C.M. com
p(θ1, θ2) = q(θ1, θ2)α(θ1, θ2), α(θ1, θ2) = min 1,π ?(θ 2)q(θ2, θ1) π?(θ 1)q(θ1, θ2) = min 1,n ?(θ 2)q(θ2, θ1) n?(θ 1)q(θ1, θ2) .
A fun¸c˜ao α garante que p e π? satisfa¸cam a condi¸c˜ao de reversibilidade
π?(θ1)p(θ1, θ2) = π?(θ2)p(θ2, θ1), ∀θ1, θ2 ∈ Θ.
Essa condi¸c˜ao implica π? ser distribui¸c˜ao invariante da cadeia com fun¸c˜ao de
transi¸c˜ao p.
Portanto, fornecida a densidade proposta q, prossegue-se com a simula¸c˜ao da cadeia com fun¸c˜ao de transi¸c˜ao p da seguinte da forma:
1. Escolhe-se um valor inicial θ(0) ∈ Θ (i=0); 2. Dado θ(i), amostra-se um valor θ? de q(θ(i), •);
3. Com probabilidade α(θ(i), θ?), fazemos θ(i+1) = θ?e com probabilidade 1−α(θ(i), θ?) fazemos θ(i+1) = θ(i).
4. Atualiza-se o contador i para i+1 e repete-se os passos 2 e 3.
A teoria subjacente garante que a cadeia de Markov com fun¸c˜ao de transi¸c˜ao p converge para a distribui¸c˜ao π(θ | y) para qualquer densidade proposta q escolhida e qualquer valor inicial θ(0). Cabe ressaltar, por´em, que a escolha de q afeta bastante o
tempo de convergˆencia da cadeia e, portanto, deve-se estudar boas propostas antes da implementa¸c˜ao dos m´etodos MCMC. (Gamerman, 1998) (citar artigo do CUBS), por exemplo, tratam de duas formas de especificar a proposta q visando justamente diminuir o tempo computacional necess´ario `a convergˆencia das cadeias.
4.3
Amostrador de Gibbs
O amostrador de Gibbs ´e um caso particular do algoritmo de Metropolis-Hastings em que a probabilidade de aceita¸c˜ao de cada valor gerado ´e sempre 1. Portanto, os argumentos que justificam a convergˆencia do m´etodo s˜ao os mesmos exibidos na se¸c˜ao anterior.
Seja θ = (θ1, . . . , θn) o vetor de parˆametros e, inicialmente, suponha conhecidas as n
condicionais completas (θ1 | θ2, . . . , θn, y), . . . , (θn| θ1, . . . , θn−1, y). A seguir, descreve-se
as etapas do algoritmo do amostrador de Gibbs:
1. Escolha n valores iniciais θ(0)1 , . . . , θ(0)n (i=0)
2. Sorteia-se um valor θ(i+1)1 de θ1 | θ (i) 2 , . . . , θ
(i) n ;
Sorteia-se um valor θ(i+1)2 de θ2 | θ (i+1) 1 , θ (i) 3 , . . . , θ (i) n ; .. .
Sorteia-se um valor θ(i+1)n de θn| θ (i+1) 1 , . . . , θ
(i+1) n−1 ;
3. Repete-se a etapa anterior para as itera¸c˜oes seguintes (i=1,2,3,..).
A suposi¸c˜ao inicial de que as condicionais completas s˜ao conhecidas n˜ao ´e estritamente necess´aria. Uma vez que o n´ucelo dessas distibui¸c˜oes ´e sempre conhecido, pode-se utilizar um passo de Metropolis-Hastings para gerar valores de cada condicional completa cuja forma anal´ıtica seja desconhecida durante a etapa 2 do algoritmo.
4.4
Resumo das etapas para implementa¸
c˜
ao dos
m´
etodos MCMC
1. Estipula-se a fun¸c˜ao de verossimilhan¸ca p(y | θ) e especifica-se distribui¸c˜ao `a priori para o vetor de parˆametros θ;
2. Obt´em-se o n´ucleo da posteriori π(θ | y) atrav´es do teorema de Bayes;
3. Obtida a densidade conjunta a posteriori, deve-se encontrar o n´ucleo de cada uma das condicionais completas e identificar quais correspondem a distribui¸c˜oes conhecidas;
4. Escolhe-se os valores iniciais no suporte do vetor param´etrico e a proposta q;
5. Aplica-se o algoritmo do amostrador de Gibbs, lembrando que, a cada vez que se fizer necess´ario amostrar de uma distribui¸c˜ao condicional completa cuja forma anal´ıtica seja desconhecida, deve-se utilizar um passo do algoritmo geral de Metropolis-Hastings;
6. Ap´os diagnosticar ind´ıcios de que a convergˆencia da cadeia foi alcan¸cada, considera-se os valores obtidos posteriormente pelo algoritmo como amostra da distribui¸c˜ao `a posteriori;
7. atrav´es da amostra final obtida ap´os escolher um espa¸camento adequado conforme descrito na se¸c˜ao 2.1, estima-se as caracter´ısticas de interesse referentes `a distribui¸c˜ao `a posteriori.
4.5
Aplica¸
c˜
ao aos dados reais
A implementa¸c˜ao dos m´etodos MCMC ao conjunto de dados descrito na se¸c˜ao 3.1 foi feita utilizando o software WinBugs, que utiliza um conjunto de rotinas pr´oprias em que o usu´ario n˜ao especifica as propostas q(θ, θ0) que ir˜ao gerar os novos valores θ0 da cadeia, dado o ´ultimo valor gerado θ.
A partir do modelo base discutido no final da se¸c˜ao 3.2, construiu-se 4 novos modelos, cada um deles incorporando dinˆamica em uma ´unica covari´avel: intercepto (n´ıvel da s´erie), concentra¸c˜ao de poluente, temperatura e umidade. A evolu¸c˜ao temporal dos parˆametros ´e descrita por um passeio aleat´orio sim´etrico e foi implementada com o objetivo de flexibilizar o modelo base, permitindo que os efeitos de uma mesma covari´avel na taxa de ´obitos se diferenciem ao longo do tempo.
Modelo com n´ıvel dinˆamico:
yt∼ P oisson(λt), t = 1, . . . , 1447 (4.1)
log(λt) =αt+ δ1sen((2πt)/365) + δ2cos((2πt)/365) + γCOt−2
+ β0T empt+ β1T empt−1+ . . . + β14T empt−14+
+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+ + δ2Iseg+ . . . + δ7Isab (4.2) βx = η0+ η1x + η2x2 µx = ξ0+ ξ1x + ξ2x2 αt = αt−1+ ωt, ωt∼ N (0, σ2)
Distribui¸c˜oes `a priori: α1 ∼ N (b, σ2),
b ∼ N(0.7, 0.2) σ2 ∼ GamaInv(0.01, 0.01)
η0, η1, η2, ξ0, ξ1, ξ2, δ1, . . . , δ8, γ iid N(0, 100)
yt ∼ P oisson(λt), t = 1, . . . , 1447 (4.3)
log(λt) =α + δ1sen((2πt)/365) + δ2cos((2πt)/365) + γtCOt−2
+ β0T empt+ β1T empt−1+ . . . + β14T empt−14+
+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+ + δ2Iseg+ . . . + δ7Isab (4.4) βx = η0+ η1x + η2x2 µx = ξ0+ ξ1x + ξ2x2 γt = γt−1+ ωt, ωt∼ N (0, σ2)
Distribui¸c˜oes `a priori: γ1 ∼ N (b, σ2),
b ∼ N(0.7, 0.2) σ2 ∼ GamaInv(0.01, 0.01)
α, η0, η1, η2, ξ0, ξ1, ξ2, δ1, . . . , δ8 iid N(0, 100)
Modelo com dinˆamica nos coeficientes da temperatura:
yt ∼ P oisson(λt), t = 1, . . . , 1447 (4.5)
log(λt) =α + δ1sen((2πt)/365) + δ2cos((2πt)/365) + γCOt−2
+ β0,tT empt+ β1,tT empt−1+ . . . + β14,tT empt−14+
+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+
+ δ2Iseg+ . . . + δ7Isab
βx,t = η0,t + η1x + η2x2
µx = ξ0+ ξ1x + ξ2x2
η0,t = η0,t−1+ ωt,
ωt∼ N (0, σ2)
Distribui¸c˜oes `a priori:
η0,1 ∼ N (b, σ2),
b ∼ N(0.7, 0.2) σ2 ∼ GamaInv(0.01, 0.01)
α, η1, η2, ξ0, ξ1, ξ2, δ1, . . . , δ8, γ iid N(0, 100)
Modelo com dinˆamica nos coeficientes da umidade:
yt∼ P oisson(λt), t = 1, . . . , 1447 (4.7)
log(λt) =α + δ1sen((2πt)/365) + δ2cos((2πt)/365) + γCOt−2
+ β0T empt+ β1T empt−1+ . . . + β14T empt−14+
+ µ0,tU mdt+ µ1,tU mdt−1+ . . . + µ14,tU mdt−14+ + δ2Iseg+ . . . + δ7Isab (4.8) βx = η0+ η1x + η2x2 µx,t = ξ0,t+ ξ1x + ξ2x2 ξ0,t = ξ0,t−1+ ωt, ωt∼ N (0, σ2)
Distribui¸c˜oes `a priori:
ξ0,1 ∼ N (b, σ2),
b ∼ N(0.7, 0.2) σ2 ∼ GamaInv(0.01, 0.01)
η0, η1, η2, ξ1, ξ2, δ1, . . . , δ8, γ iid N(0, 100)
Tamb´em foram propostos e estimados modelos considerando o efeito das covari´aveis apenas defasado num dia espec´ıfico anterior `a observa¸c˜ao do n´umero de ´obitos. Para determinar a defasagem em cada covari´avel, observou-se a correla¸c˜ao cruzada entre cada par (covari´avel vs logaritmo da vari´avel resposta) para v´arias defasagens diferentes e escolheu-se a que forneceu o maior valor. A dinˆamica nos coeficientes foi feita exatamente como descrito nesta se¸c˜ao. Conforme consta na pr´oxima se¸c˜ao, os modelos com efeito apenas defasado n˜ao se ajustaram t˜ao bem quanto aqueles que consideram os efeitos
propagados.
4.5.1
Escolha do melhor modelo segundo crit´
erio de ajuste DIC
O crit´erio DIC ´e bastante utilizado nos casos de aplica¸c˜ao de m´etodos MCMC. Ele ´
e menor para modelos que apresentam melhor ajuste aos dados al´em de penalizar cada modelo pela quantidade de parˆametros, incorporando assim o princ´ıpio estat´ıstico da parcimˆonia (deve-se evitar modelos com muitos parˆametros caso haja outros outros modelos quase t˜ao bons mas que utilizam menos parˆametros).
Cada um dos modelos apresentou mais de uma cadeia com autocorrela¸c˜ao bastante elevada, por isso foi necess´ario especificar espa¸camento grande entre os valores simulados, o que aumentou muito o tempo computacional para simula¸c˜ao das cadeias, dado que foi preciso grande n´umero de itera¸c˜oes de modo a garantir uma amostra final de tamanho grande e com pouca informa¸c˜ao redundante. Nesse ponto, suspeita-se que a escolha de outras propostas mais adequadas do que aquelas escolhidas pelo software WinBugs, adotado para impementa¸c˜ao dos esquemas MCMC neste trabalho, poderia gerar cadeias menos autocorrelacionadas e diminuir assim o n´umero de itera¸c˜oes necess´arias e o tempo computacional.
Tabela 4.1: Especifica¸c˜oes para obten¸c˜ao de amostra final aproximada para a posteriori de cada um dos modelos com efeito propagado
Total de itera¸c˜oes 850.000 Aquecimento 50.000 Espa¸camento 800
A seguir, podemos ver que os modelos com efeito apenas defasado n˜ao se ajustaram t˜ao bem quanto aqueles que consideram os efeitos propagados.
Tabela 4.2: Compara¸c˜ao dos DICs de cada um dos modelos
Dinˆamica N´ıvel Poluente Temperatura Umidade DIC Efeitos Defasados 5048.01 5220.39 5190.58 5275.55 DIC Efeitos Propagados 5043.25 5113.03 5140.21 5144.44
O melhor modelo segundo o crit´erio DIC ´e aquele que apresenta dinˆamica no n´ıvel da s´erie com efeito de covari´aveis propagado ao longo do tempo.
4.6
Resultados para o melhor modelo
A evolu¸c˜ao temporal das taxas de ´obitos estimadas acompanha bem a s´erie, como ´e poss´ıvel notar no gr´afico abaixo:
Figura 4.1: M´edia `a posteriori e intervalos de credibilidade de 95% para a taxa de ´obitos vs S´erie observada
O n´ıvel da s´erie capta a tendˆencia de queda no n´umero de ´obitos com o passar dos anos, como foi observado na se¸c˜ao 3.1:
Ano
1994 1995 1996 1997 1998
0.5
1.0
1.5
Figura 4.2: M´edia `a posteriori e intervalos de credibilidade de 95% para o n´ıvel da s´erie
A seguir, tem-se o gr´afico que mostra o comportamento do sim´etrico dos coeficientes da temperatura segundo as defasagens onde e possivel perceber que as defasagens de 2 e 3 dias s˜ao isoladamente significativas para o ajuste. Ressalta-se a importˆancia de manter as demais, uma vez que considerar efeitos propagados levou a modelos mais bem ajustados do que os modelos com apenas uma defasagem para cada covari´avel.
Figura 4.3: Intervalos de credibilidade de 95% e m´edia estimados para o sim´etrico dos coeficientes da temperatura segundo defasagens
A distribui¸c˜ao preditiva ´e parte muito importante da inferˆencia bayesiana, pois ´e a partir dela que se faz as previs˜oes para horizontes futuros. Percebe-se que os intervalos n˜ao se diferenciam muito no tempo e preveem sempre valores baixos, contendo o
verdadeiro n´umero de ´obitos bservado em todos os 46 dias finais.
Figura 4.4: Intervalo de credibilidade e m´edia a posteriori da distribui¸c˜ao preditiva
A Figura 4.5 e a Tabela 4.3 mostram os valores estimados para os parˆametros est´aticos, bem como a incerteza a posteriori de cada um deles (representada pela amplitude dos intervalos de credibilidade de 95%), para o melhor modelo cuja especifica¸c˜ao ´e dada a seguir.
Figura 4.5: Intervalos de credibilidade de 95% e m´edia a posteriori para os parˆametros est´aticos
Modelo com n´ıvel dinˆamico:
yt∼ P oisson(λt), t = 1, . . . , 1447 (4.9)
log(λt) =αt+ δ1sen((2πt)/365) + δ2cos((2πt)/365) + γCOt−2
+ β0T empt+ β1T empt−1+ . . . + β14T empt−14+
+ µ0U mdt+ µ1U mdt−1+ . . . + µ14U mdt−14+ + δ3Iseg+ . . . + δ8Isab (4.10) βx = η0+ η1x + η2x2 µx = ξ0+ ξ1x + ξ2x2 αt = αt−1+ ωt, ωt∼ N (0, σ2)
Distribui¸c˜oes `a priori: α1 ∼ N (b, σ2),
b ∼ N(0.7, 0.2) σ2 ∼ GamaInv(0.01, 0.01)
η0, η1, η2, ξ0, ξ1, ξ2, δ1, . . . , δ8, γ iid N(0, 100)
Percebe-se, por exemplo, que segunda-feira, ter¸ca e sexta apresentam n´umero esperado de ´obitos significativamente menor que o domingo.
Tabela 4.3: M´edia e limites de credibilidade de 95% a posteriori para os parˆametros est´aticos do modelo com n´ıvel da s´erie variando no tempo. Os asteriscos (∗) indicam os coeficientes significativamente distintos de zero ao n´ıvel de 5% de credibilidade.
N´ıvel variando no tempo
Quantil 2.5% M´edia Quantil 97.5% γ -0.0148 0.02382 0.06341 δ∗3 -0.2723 -0.1491 -0.01827 δ∗ 4 -0.3950 -0.2682 -0.01303 δ5 -0.1212 0.001579 0.1192 δ6 -0.182 -0.06138 0.06547 δ∗7 -0.2621 -0.1375 -0.01534 δ8 -0.2283 -0.1043 0.02281 η0 -0.5998 -0.2717 0.07347 η1 -0.5702 0.2473 1.053 η2 -0.6413 -0.1004 0.4625 ξ0 -0.1354 -0.009322 0.1226 ξ1 -0.4994 -0.1842 0.135 ξ2 -0.01849 0.2131 0.437 δ2 -0.4057 -0.1603 0.07606 δ∗1 0.005664 0.1823 0.3747 σ−2 396.3 721.8 1188.0 b∗ 0.7343 1.086 1.444
Apesar do coeficiente do mon´oxido de carbono n˜ao ter sido significativamente diferente de zero ao n´ıvel de 5%, atrav´es da amostra obtida da posteriori por meio do MCMC, observou-se probabilidade de aproximadamente 88,1% do efeito do poluente sobre a taxa de ´obitos ser positivo. Isso indica que incrementos no n´ıvel deste poluente est˜ao associados a uma eleva¸c˜ao no n´umero esperado de ´obitos. Ainda que de pequena magnitude, tal efeito ´e significativo e, cumulativamente, pode ser relevante. A amostra a posteriori para o coeficiente do mon´oxido de carbono pode ser vista na Figura 4.6.
Figura 4.6: Histograma da amostra a posteriori para o coeficiente do mon´oxido de carbono
Pode-se interpretar a estimativa obtida para o coeficiente do n´ıvel de mon´oxido de carbono padronizado como um acr´escimo na taxa de ´obitos. A m´edia e o desvio padr˜ao em ppm foram respectivamente, 4,52 e 2,1198, e a estimativa para o coeficiente desta vari´avel padronizada foi de 0,0238. Segue que e0.0238 = 1, 024, portanto estima-se que um aumento de 1 desvio padr˜ao em rela¸c˜ao `a m´edia do n´ıvel de mon´oxido de carbono, acarrete em um acr´escimo de 2, 4% na taxa de ´obitos de dois dias `a frente. Neste caso, utilizando a inferˆencia Bayesiana, pode-se associar uma medida de incerteza ao efeito do mon´oxido de carbono na taxa de ´obitos dado por eγ.
Para se obter a distribui¸c˜ao de eγ, basta exponenciar os valores da posteriori para γ obtidos pelo m´etodo MCMC. A figura 4.7 mostra o histograma obtido atrav´es da aplica¸c˜ao deste racioc´ınio, bem como o intervalo de credibilidade de 95%, IC(95%, γ) = [0.985; 1.065].
Figura 4.7: Histograma do efeito do acr´escimo de 1 desvio padr˜ao com respeito `a m´edia da concentra¸c˜ao de mon´oxido de carbono na taxa de ´obitos e intervalo de credibilidade de 95%
Cap´ıtulo 5
Implementa¸
c˜
ao via Linear Bayes
5.1
Introdu¸
c˜
ao
O m´etodo Linear Bayes se aplica a classe dos modelos lineares dinˆamicos generalizados(MDLG). Essa classe ´e uma extens˜ao dos Modelos Lineares Dinˆamicos (MLD) caracterizada tamb´em pela qu´ardrupla {Ft, Gt, Vt, Wt} , por´em com a vari´avel
resposta pertence `a fam´ılia exponencial e os erros de evolu¸c˜ao n˜ao necessariamente seguindo uma distribui¸c˜ao normal.
Uma v.a. Y possui distribui¸c˜ao pertencente `a familia exponencial se sua fun¸c˜ao densidade (ou fun¸c˜ao de probabilidade) pY pode ser escrita na forma
pY(y | η, φ) = exp{φ[f (y)η − a(η)]}b(y, φ)
onde
φ > 0 ´e o parˆametro de precis˜ao;
a, f e b s˜ao fun¸c˜oes, sendo a duas vezes deriv´avel;
Obs.: Se f for a fun¸c˜ao identidade, ent˜ao µ = E[Y ] = a0(η) e V ar[Y ] = a00(η).
p(y | µ) = yµy!e−µ, ∀ y ∈ N ´e da fam´ılia exponencial, sendo η = lnµ, φ = 1, a(η) = eη, b(η, υ) = y!1
Observa-se que a defini¸c˜ao aqui explicitada encontrada em (West e Harrison, 1989), ´
e diferente mas equivalente `aquela apresentada no cap´ıtulo 1. Escolheu-se trabalhar com esta defini¸c˜ao com o objetivo de manter a mesma nota¸c˜ao utilizada pelo autor.
Devido `a normalidade `a priori do vetor param´etrico e a conjuga¸c˜ao no caso MLD, basta calcular m´edia e variˆancia a priori do vetor de estados para ter suas distribui¸c˜oes completamente especificadas, o que n˜ao acontece no caso MDLG.
5.2
Procedimento geral para inferˆ
encia na classe dos
Modelos Dinˆ
amicos Lineares Generalizados
Seja yt(t = 1, 2, . . . ) o vetor de observa¸c˜oes com p(yt | ηt) pertencente `a fam´ılia
exponencial;
1. Preditor linear:
g(ηt) = λt = F
0
2. Equa¸c˜ao de evolu¸c˜ao:
θt = Gtθt−1+ ωt com ωt ∼ [0, Wt]
Sendo:
θt o vetor param´etrico
Ft matriz de covari´aveis
Gt matriz de evolu¸c˜ao
Wt matriz de covariˆancias
O esquema de atualiza¸c˜ao se d´a da seguinte maneira
Inicia-se com uma priori referente ao vetor de estados no instante inicial da s´erie utilizando a informa¸c˜ao subjetiva representada por D0;
Incorpora-se o primeiro dado observado para compor a posteriori no tempo 1 e a informa¸c˜ao dispon´ıvel passa a ser D1 = D0U {y1} ;
No tempo seguinte, a informa¸c˜ao a priori ´e D1 = D0U {y1 e incorpora-se a nova
observa¸c˜ao y2 para compor a posteriori no tempo 2 e a informa¸c˜ao dispon´ıvel passa
e assim por diante, onde denota-se priori e posteriori no tempo t respectivamente por θt | Dt−1 e θt | Dt. Note-se que a atualiza¸c˜ao da informa¸c˜ao ´e on-line no sentido de
que, dada toda a informa¸c˜ao dispon´ıvel no passado, atualiza-se a incerteza associada aos parˆametros assim que se disp˜oe dos dados no tempo corrente.
Tendo em mente que n˜ao h´a forma anal´ıtica fechada para a posteriori do vetor de estados, o m´etodo linear bayes prop˜oe especificar essas prioris apenas atrav´es do vetor de m´edias e matriz de covariˆancia.
O esquema de atualiza¸c˜ao em termos de primeiro e segundo momentos ocorre da seguinte forma: Prioris 1. θt| Dt−1∼ [mt−1, Rt] 2. λt| Dt−1 ∼ [ft, qt] λt=Ft0θt z}|{⇒ ft= Ft0mt−1, qt = Ft0RtFt Posterioris 1. θt| Dt∼ [mt, Ct] mt= mt−1+ RtFt(ft∗− ft)/qt, Ct= Rt− RtFtFt0(1 − q ∗/q t)/qt, 2. λt| Dt∼ [Ft0mt, Ft0CtFt]
Dada a posteriori em t: θt| Dt∼ [mt, Ct], a priori em t + 1 ´e dada por:
θt+1 | Dt ∼ [mt, Rt+1], Rt+1= Ct+ Wt+1
em que podemos especificar a matriz dos erros de evolu¸c˜ao Wt pela matriz B de fatores de desconto δ1, . . . , δn ∈ (0, 1]: B = 1 √ δ1 0 · · · 0 0 √1 δ2 · · · 0 .. . ... . .. ... 0 0 · · · √1 δn .
Escrevendo a matriz de covariˆancias de θt| Dt−1 como o produto BCt−1B, tem-se Wt
especificada:
Rt = Ct−1+ Wt= BCt−1B ⇒ Wt= BCt−1B − Ct−1.
A multiplica¸c˜ao BCt−1B ´e respons´avel por inflar a variˆancia das posterioris dos
estados no tempo t em compara¸c˜ao com a das prioris no tempo t − 1, o que condiz com a intui¸c˜ao de que a incerteza dispondo-se de informa¸c˜ao at´e o tempo t − 1 ´e maior para avaliar os estados no tempo t, do que no tempo corrente t − 1. Note-se que quanto mais pr´oximo de 1 for o fator de desconto δi, menor ´e o acr´escimo na variˆancia de θi,t com
o passar do tempo e mais suave ´e a evolu¸c˜ao do estado i. No caso extremo em que δi = 1,
temos o estado θi fixo no tempo. Para valores de δi pr´oximos de zero, mais abrupta ser´a
a evolu¸c˜ao de θi,t.
5.2.1
Inferˆ
encia em Modelos Dinˆ
amicos Lineares Generalizados
com resposta Poisson
Nesta se¸c˜ao ser´a mostrado como o m´etodo Linear Bayes, aplicado ao caso espec´ıfico de resposta Poisson, fornece distribui¸c˜ao preditiva com forma anal´ıtica fechada, al´em de conjuga¸c˜ao para m´edia da vari´avel resposta, mesmo especificando as prioris do vetor de estado apenas parcialmente atraves de primeiro e segundo momentos.
λt = Ft0θt ⇒ E(λt| Dt−1) = Ft0E(λt| Dt−1) = Ft0mt−1
⇒ V ar(λt | Dt−1) = Ft0V ar(λt| Dt−1)Ft= Ft0RtFt,
(5.1) para qualquer que seja a distribui¸c˜ao a priori π(θt | Dt−1).
Por outro lado, se especificarmos para µt a priori Gama(rt, st), teremos
completamente especificada a priori para λt, que dver´a ter m´edia ft = Ft0mt−1 e
variˆancia qt = Ft0RtFt. De µt| Dt−1∼ Gama(rt, st), temos π(µt | Dt−1) = srt t Γ(rt) µrt−1 t e −stµt ∝ exp{r tT1(µt) + stT2(µt) − b(rr, st)},
com T1(µt) = log µt, T2(µt) = −µt, b(rt, st) = −rtlog stlog Γ(rt).
Da teoria associada `a fam´ılia exponencial,E(T1) = d∂rd∂bt, donde E(T1) =
− log st + Γ 0(r t) Γ(rt) = − log st + ψ(rt), sendo ψ(rt) = Γ0(r t) Γ(rt). Como T1 = log µt = λt,
segue que E(T1 | Dt−1) = E(λt| Dt−1) = − log st+ ψ(rt). Portanto, devemos ter
ft= − log st+ ψ(rt).
Tamb´em se sabe que V ar(T1) = ∂
2b
∂r2
t, donde, V ar(T1) = ψ
0(r
t). Sendo T1 = λt, segue
que E(λt| Dt−1) = ψ0(rt), donde devemos ter
Logo, ´e preciso encontrar rt e st de modo a satisfazer o sistema n˜ao-linear: − log st+ ψ(rt) = ft ψ0(rt) = qt
Ao inv´es de resolver o sistema atrav´es do uso, por exemplo, de m´etodos num´ericos, o Linear Bayes utiliza aproxima¸c˜oes para ψ(rt) e ψ0(rt), dadas em Abramowitz (1972), de
modo que possa obter solu¸c˜ao anal´ıtica aproximadamente:
ψ(z) ∼= log(z), ψ0(z) ∼= z−1 ft = − log st+ ψ(rt) = log rt st qt= q1t ∴ rt= q1t eft = rt st ⇒ rt= eftst⇒ st = rt eft = e−ft qt rt= q1t st= e −ft qt Assim, µt| Dt−1 ∼ Gamma(rt, st) ⇒ rt∼= 1 qt , st∼= e−ft qt .
A ado¸c˜ao de priori Gama para µt garante conjuga¸c˜ao, ou seja, µt | Dt tamb´em tem
distribui¸c˜ao Gama.
Para a obten¸c˜ao da preditiva um passo `a frente, deve-se resolver a integral
π(yt | Dt−1) =
Z
π(yt, µt| Dt−1)dµt=
Z
e, do fato de que µ | Dt−1 ∼ Gama(rt, st), a integral resulta na densidade da
BinN eg(rt,st1+1).
Segue o esquema completo de atualiza¸c˜ao (incluindo preditiva, preditor linear, m´edia da Poisson e vetor de estados) do Linear Bayes:
Prioris 1. θt| Dt−1∼ [mt−1, Rt] 2. λt| Dt−1 ∼ [ft, qt] λt=Ft0θt z}|{⇒ ft= Ft0mt−1, qt = Ft0RtFt 3. µt | Dt−1 ∼ Gama(rt, st),
Preditiva: yt| Dt−1 ∼ BinomN eg(rt, 1/(st+ 1))
Posterioris 1. λt| Dt∼ [ft∗, q ∗ t], f ∗ t = log rt+yt st+1 + 2(r1 t+yt); q ∗ t = 2(rt+yt)−1 2(rt+yt)2 2. µt | Dt ∼ Gama(yt+ rt, st+ 1), 3. θt| Dt∼ [mt, Ct] mt= mt−1+ RtFt(ft∗− ft)/qt, Ct= Rt− RtFtFt0(1 − q ∗/q t)/qt,
5.3
Aplica¸
c˜
ao aos dados reais
O conjunto de dados e os modelos utilizados para ajust´a-los s˜ao os mesmos descritos anteriormente no cap´ıtulo 4. Apenas o tratamento dado `a dinˆamica dos estados foi diferente, uma vez que aqui optou-se por especificar diferentes fatores de desconto para os erros de evolu¸c˜ao dos parˆametros de estado. Aproveitando-se do fato de que a estima¸c˜ao de cada modelo via Linear Bayes era feita em pouqu´ıssimo tempo (menos de um segundo), avaliou-se diversas combina¸c˜oes para a dinˆamica do n´ıvel e dos coeficientes associados a temperatura, umidade, e concentra¸c˜ao de mon´oxido, tanto para os modelos com efeitos propagados no tempo quanto para aqueles que consideram efeito apenas defasado.
Utilizou-se primeiramente apenas o n´ıvel com evolu¸c˜ao temporal, testando para ele os fatores de desconto: 0.88, 0.89, 0.90, ..., 0.99, 1. Escolheu-se ent˜ao a configura¸c˜ao que apresentou menor Erro Quadr´atico M´edio de Previs˜ao (EQMP) um passo `a frente. Em seguida, mantido o ”fator de desconto ´otimo” para o n´ıvel, ajustou-se mais 27 modelos, um para cada combina¸c˜ao poss´ıvel dos fatores de desconto 1, 0.98 e 0.95 para as 3 covari´aveis citadas.
Essa metodologia foi aplicada tanto nos modelos considerando efeitos apenas defasados quanto efeitos propagados e o melhor modelo segundo o crit´erio preditivo de minimiza¸c˜ao do EQMP foi o de efeitos apenas defasados com dinˆamica apenas no n´ıvel e respectivo fator de desconto igual a 0.91. O EQMP para esse modelo foi de 3,1095.
A especifica¸c˜ao das prioris para os modelos s´o ´e feita em termos de 1º e 2º momentos para o vetor de estados, da´ı tem-se determinadas as prioris para a taxa de ´obitos µt
e para o preditor linear λt, conforme descrito na se¸c˜ao 4.2. Todos os modelos foram
θ1 | D0 ∼ [m0, BC0B], m0 = (0, 0, . . . , 0)T C0 = diag(2)
5.4
Resultados para o melhor modelo
Conforme relatado, o melhor modelo segundo o crit´erio preditivo de minimiza¸cao do EQMP foi:
yt| µt∼ P oisson(µt)
log(µt) =
β0,t+ β1COt−2+ β2T empt−3+ β3U midt−2+ δ2Iseg+ · · · + δ7Isab+ α1cos 3652πt +α2sen 2πt365
Equa¸c˜ao de evolu¸c˜ao (fator de desconto 0.91):
β0,t = β0,t−1+ ω0 ω0 ∼ [0, W0,t]
Evolu¸c˜ao temporal do n´ıvel da s´erie
Figura 5.1: M´edias e intervalos de credibilidade `a posteriori de 2 desvios para o n´ıvel da s´erie
Percebe-se leve tendˆencia de queda no n´ıvel base da s´erie ao longo dos anos conforme observado na se¸c˜ao 3.1. Os primeiros intervalos de credibilidade s˜ao bastante amplos pois no in´ıcio temos poucos dados observados e a incerteza descrita pela priori n˜ao informativa supera a informa¸c˜ao proveniente dos dados atrav´es da verossimilhan¸ca. Os intervalos de credibilidade foram tomados a distˆancia de ± 2 desvios padr˜oes da m´edia estimada. N˜ao ´e poss´ıvel saber o grau de incerteza associado a esses intervalos em termos probabil´ısticos, um vez que o n´ıvel pertence ao vetor de estados especificado apenas parcialmente em termos do primeiro e segundo momentos.
Taxas de ´obitos estimadas e contagens observadas
Figura 5.2: M´edia `a posteriori da taxa de ´obitos vs Contagens de ´obitos observadas
A taxa de ´obitos estimada acompanha bem a s´erie de dados, apresentando picos e quedas que condizem com o observado.
Evolu¸c˜ao temporal das taxas de ´obito
Figura 5.3: M´edia e intervalos de credibilidade `a posteriori de 95% para a taxa de ´obitos
Os intervalos de credibilidade de 95% parecem conter a devida proporc˜ao de valores observados da vari´avel resposta. Note-se que µt| Dt tem distribui¸c˜ao Gama especificada
de forma completa. A varia¸c˜ao no in´ıcio ´e mais brusca tanto para as estimativas quanto para os intervalos, pela mesma raz˜ao j´a mencionada para os outros gr´aficos.
Distribui¸c˜ao preditiva um passo `a frente
Figura 5.4: M´edia e intervalos de credibilidade `a posteriori de 95% para a predi¸c˜ao um passo `a frente vs S´erie observada
As predi¸c˜oes captam bem o n´umero de ´obitos observados, com oscila¸c˜oes que acompanham a s´erie. Novamente, as previs˜oes para os primeiros dias s˜ao mais imprecisas do que para os ´ultimos, pois consideram um n´umero menor de observa¸c˜oes.