Modelos para s´
eries temporais de dados
circulares
Mariana Raniere Neves
Universidade Federal do Rio de Janeiro
Instituto de Matem´
atica
Departamento de M´etodos Estat´ısticos
2015
Modelos para s´
eries temporais de dados
circulares
Mariana Raniere Neves
Disserta¸c˜ao de Mestrado submetida ao Programa de P´os-Gradua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do t´ıtulo de Mestre em Estat´ıstica.
Aprovada por:
Profa Mariane Branco Alves D.Sc - IM - UFRJ - Orientadora.
Dani Gamerman PhD - IM - UFRJ.
Antonio Carlos Monteiro Ponce de Leon D.Sc - IME - UERJ.
Rio de Janeiro, RJ - Brasil 2015
`
“Nada do que foi ser´a De novo do jeito que j´a foi um dia Tudo passa Tudo sempre passar´a
A vida vem em ondas Como um mar Num indo e vindo infinito
Tudo que se vˆe n˜ao ´e Igual ao que a gente Viu h´a um segundo Tudo muda o tempo todo No mundo
N˜ao adianta fugir Nem mentir Pra si mesmo agora H´a tanta vida l´a fora Aqui dentro sempre Como uma onda no mar ”
Agradecimentos
Pela ajuda na conclus˜ao deste trabalho, n˜ao poderia deixar de agradecer a algumas pessoas que foram essenciais para que eu conseguisse concluir mais esta etapa da minha vida. O t´ermino deste mestrado significa para mim n˜ao somente a conclus˜ao de mais uma etapa da minha vida acadˆemica, mas tamb´em mais uma vit´oria pessoal. O caminho at´e aqui foi ´arduo, mas o retorno ´e gratificante. Acredito hoje que posso tudo que quero, n˜ao por acreditar em for¸cas sobrenaturais ou m´ısticas, mas sim por saber que a maioria das coisas depende de esfor¸co e for¸ca de vontade. Esta disserta¸c˜ao ´e motivo de muito orgulho para mim e espero que ela fa¸ca jus a todo incentivo que me foi dado.
Em primeiro lugar, agrade¸co a minha m˜ae que, apesar das diferen¸cas, sempre me garantiu uma educa¸c˜ao de qualidade e que se preocupou em me incentivar a fazer uma p´os-gradua¸c˜ao j´a que segundo ela, gradua¸c˜ao n˜ao ´e mais diferencial. N˜ao foi preciso pagar para que eu tivesse acesso a um ensino m´edio, superior e a um mestrado de qualidade, mas sei que se necess´ario, eu teria incentivos e apoio financeiro, mesmo a grana sendo curta e compartilhada por cinco filhos. M˜ae, esse trabalho ´e seu e ´e fruto de tudo que investiu em mim. N˜ao h´a palavras para agradecer, mas retribuirei tudo com todo amor que puder dar.
Al´em da minha m˜ae, devo agradecer tamb´em aos meus irm˜aos e melhores amigos. Sou uma pessoa de muita sorte por possuir os la¸cos mais fortes com essas pessoas que amo tanto. Filipe, Gustavo, Miguel e Pedro muito obrigada por caminharem comigo nesta jornada, nada que eu disser ser´a suficiente para expressar o meu amor por vocˆes.
Agrade¸co tamb´em ao meu pai e meus av´os por me abrigarem enquanto eu estava estudando e n˜ao podia pagar por um lugar para mim.
Gostaria de agradecer tamb´em ao meu amigo Carlos pela maravilhosa companhia em todas horas nesta jornada e por toda ajuda com revis˜oes, d´uvidas, por estar sempre dis-pon´ıvel quando precisei. Ganhei o melhor presente no dia que por acaso me colocaram para trabalhar em conjunto com vocˆe. Devo agradecer tamb´em ao meu amigo Rafael pelas incont´aveis revis˜oes dos meus programas no R e por todo o incentivo que sempre me deu. N˜ao posso esquecer de agradecer `a Ingrid pela ajuda, incentivo e por me fazer companhia em todas as horas.
`
A minha amiga Lorena, agrade¸co pela revis˜ao do texto, al´em de todo apoio e com-preens˜ao sempre.
Agrade¸co muit´ıssimo `a Michelle, que apesar de ter um ritmo de vida muito diferente do meu, compreende as minhas necessidades e me d´a apoio incondicional.
Agrade¸co a Juliana, que um dia agradeci por ser minha melhor companhia, hoje agrade¸co por me ensinar de forma contradit´oria e emp´ırica que nada precisa ser na dor, tudo pode ser no amor.
Agrade¸co `a Mariane por me orientar por tantos anos e por investir tempo em mim e no meu trabalho. Devo agradecer tamb´em pela paciˆencia, incentivo, pelos conselhos na minha vida profissional e pessoal. N˜ao posso deixar de dizer que te admiro e me sinto uma pessoa de sorte por ter um referencial de que tipo de professora quero ser.
`
A professora Alexandra, nunca posso deixar de agradecer por abrir tantas portas no meu caminho, pelas ´otimas aulas de inferˆencia na gradua¸c˜ao e no mestrado.
Aos professores Antonio Carlos Monteiro Ponce de Leon, Dani Gamerman e Tha´ıs Cristina Oliveira da Fonseca, agrade¸co por aceitarem fazer parte da banca.
Resumo
Muitas vezes deseja-se trabalhar com observa¸c˜oes cujas medidas s˜ao expressas em ˆ
angulos. Para este tipo de dado, uma representa¸c˜ao natural ´e o c´ırculo. Ademais, oberva¸c˜oes peri´odicas tamb´em podem ser representadas no c´ırculo, onde a circunferˆencia representa o per´ıodo . Para estes conjuntos de dados, a metodologia usual utilizada para se trabalhar com dados na reta leva a resultados errˆoneos. Pode-se ter interesse, ainda, em observar essse tipo de dado temporalmente. A metodologia para an´alises estat´ısticas nestes casos deve diferir daquelas usualmente utilizada para se trabalhar com dados na reta, levando-se em conta as particularidades inerentes `a esse tipo de observa¸c˜ao.
Dadas as limita¸c˜oes dos m´etodos para an´alise de dados com representa¸c˜ao no c´ırculo e a enxuta literatura a respeito de esquemas para estima¸c˜ao em modelos para dados desta natureza, este trabalho se prop˜oe a estudar diferentes modelos e m´etodos de estima¸c˜ao para s´eries temporais de dados circulares. Os modelos abordados no presente trabalho tratam de problemas de diferentes naturezas. Os modelos dinˆamicos abordados, por exemplo, se encarregam de tratar da autocorrela¸c˜ao temporal de forma mais intuitiva, atrav´es da equa¸c˜ao de evolu¸c˜ao, e de poss´ıveis associa¸c˜oes entre a vari´avel resposta e ou-tras vari´aveis. J´a os modelos de mistura, fazem o papel de aumentar a gama de aplica¸c˜oes poss´ıveis, pois os mesmos podem ser assim´etricos e multimodais. Por fim, os modelos de misturas markovianas abordados s˜ao utilizados para se ober estruturas flex´ıveis sem prescindir do tratamento de autocorrela¸c˜ao temporal advinda da observa¸c˜ao de vari´aveis temporalmente. Para se trabalhar com tais modelos, utilizam-se extens˜oes de m´etodos com teoria j´a bem estabelecida.
A metodologia proposta neste trabalho ´e avaliada a partir de estudos simulados para cada um dos modelos abordados, por fim, atrav´es de uma aplica¸c˜ao `a dados reais.
Palavras-Chaves: modelos dinˆamicos, s´eries temporais, modelos de misturas, modelos de misturas markovianos, dados circulares e modelos circulares.
Abstract
It is known that observations which are depicted in angles are very often accom-plished. For this kind of data, the circle is a natural representation. Moreover, periodical observations can also be represented on the circle where the circumference corresponds to this period. The usual methodology used in the work with such data in the straight line can lead to misguided results. It is also possible to observe data of this nature in a time perspective. The methodology used in analytical statistics in these instances must differ from the ones usually found, taking into account the intrinsic singularities in this kind of observation.
Considering the limitation of methods of analysis of data in the representation on the circle, and also the bated literature on estimation schemes in models of data of this nature, the present paper aims at studying different models and methods of estimation for the time series of circular data.
The approached dynamic models, for instance are responsible for establishing tempo-ral autocorrelation in a more intuitive way through the evolution equation and through possible associations with the response variable and other variables. Meanwhile, the mix-ture models are responsible for enlarging the range of possible applications, for the former could be asymmetric and multimodal. Finally, the approached Markovs mixture models are used to obtain flexible structures without dispensing the temporal autocorrelation original from the observation of time variables.
In order to work with such models, there have been used extension methods with solid theoretical foundations. The proposed methodology is here tested through simulated
studies for each one of the models approached and, finally, through the application of actual data.
Keywords: dynamic models,temporal series, mixture models, markov mixture models, circular data, circular models.
Sum´
ario
1 Introdu¸c˜ao 1
2 Estat´ısticas Descritivas Circulares 8
2.1 Medidas de Posi¸c˜ao . . . 9
2.1.1 Dire¸c˜ao M´edia . . . 9
2.1.2 Dire¸c˜ao Mediana . . . 12
2.2 Medidas de Concentra¸c˜ao e Dispers˜ao . . . 13
2.2.1 Variˆancia Circular . . . 13
2.2.2 Desvio Padr˜ao Circular . . . 14
2.3 Modelos Circulares . . . 15 2.3.1 Uniforme Circular. . . 17 2.3.2 Distribui¸c˜ao Cardioide . . . 17 2.3.3 Von Mises . . . 18 2.4 Wrapped Models . . . 19 2.4.1 Wrapped Normal . . . 19
3 M´etodos de Inferˆencia Bayesiana e Modelos Dinˆamicos 22 3.1 Inferˆencia Bayesiana . . . 22
3.1.1 Teorema de Bayes . . . 22
3.1.2 Estima¸c˜ao Pontual . . . 25
3.1.3 Estima¸c˜ao Intervalar . . . 26
3.1.4 Distribui¸c˜ao Preditiva . . . 27
3.2.1 Introdu¸c˜ao. . . 28
3.2.2 Metropolis-Hastings. . . 29
3.2.3 Amostrador de Gibbs . . . 31
3.2.4 Resumo das etapas para implementa¸c˜ao dos m´etodos MCMC. . . 32
3.3 Modelos Dinˆamicos . . . 33
3.3.1 Modelos Lineares Dinˆamicos (MLD) . . . 34
3.4 Esquemas de Amostragem em Modelos Dinˆamicos . . . 35
3.4.1 Foward Filtering Backward Sampling . . . 35
4 Modelos Dinˆamicos para Dados Circulares 40 4.1 Modelo Von Mises Est´atico e Dinˆamico . . . 42
4.2 Modelo Wrapped Normal Dinˆamico . . . 45
4.2.1 Estudo Simulado . . . 51
5 Distribui¸c˜oes Circulares a partir de Misturas 55 5.1 Misturas de Distribui¸c˜oes: Fundamentos . . . 56
5.2 Estima¸c˜ao Bayesiana para modelos de mistura utilizando o MCMC . . . 58
5.3 Wrapped Misturas de Normais . . . 61
5.3.1 Estudo Simulado . . . 63
5.4 Modelos de Misturas Markovianas . . . 67
5.4.1 Estima¸c˜ao Bayesiana para modelos de misturas markovianas utili-zando o MCMC . . . 71
5.5 Wrapped Misturas Markovianas de Distribui¸c˜oes Normais . . . 77
5.5.1 Estudo Simulado . . . 78
6 Aplica¸c˜ao a dados reais 83 7 Conclus˜oes e trabalhos futuros 90 A M´etodo Bayessiano de Estima¸c˜ao para Modelos Von Mises 94 A.1 Modelo Von Mises Est´atico. . . 94
A.2.1 Condicionais Completas . . . 97
Lista de Figuras
2.1 Representa¸c˜ao gr´afica da utiliza¸c˜ao da m´edia aritm´etica em dados circulares . 9
2.2 Representa¸c˜ao gr´afica da utiliza¸c˜ao da dire¸c˜ao m´edia circular . . . 12
4.1 Tra¸co da cadeia de σ2 e valor verdadeiro (vermelho) . . . 53
4.2 Dados × µ estimado (cinza) . . . 53
5.1 Tra¸co das cadeias de µ = (µ1, µ2) . . . 64
5.2 Tra¸co das cadeias de σ2 = (σ21, σ22) . . . 65
5.3 M´edia geral da mistura . . . 65
5.4 Variˆancia geral da mistura . . . 66
5.5 M´edia das m´edias da mistura em cada r´eplica e valor real da m´edia da mistura (vermelho) . . . 66
5.6 Histograma da m´edia das variˆancias da mistura em cada r´eplica e valor real da variˆancia da mistura (vermelho) . . . 67
5.7 Tra¸co das cadeias de µ = (µ1, µ2) . . . 79
5.8 Tra¸co das cadeias de σ2 = (σ21, σ22) . . . 80
5.9 M´edia geral da mistura . . . 80
5.10 Variˆancia geral da mistura . . . 81
5.11 M´edia das m´edias da mistura em cada r´eplica e valor real da m´edia da mistura (vermelho) . . . 81
5.12 Histograma da m´edia das variˆancias da mistura em cada r´eplica e valor real da variˆancia da mistura (vermelho) . . . 82
6.2 Diagrama de rosas com a dire¸c˜ao m´edia de cada mˆes em 2012, 2013 e 2014. . . 85
6.3 Histograma circular das dire¸c˜oes dos ventos em cada mˆes de 2012, 2013 e 2014 86 6.4 S´erie de dire¸c˜ao dos ventos observada e resposta m´edia (vermelho) . . . 89
A.1 Tra¸cos da cadeia de µ utilizando o m´etodo encontrado em Damien and Walker (1999) . . . 95
A.2 Tra¸cos da cadeia de κ utilizando o m´etodo encontrado em Damien and Walker (1999) . . . 95
A.3 Estima¸c˜ao dos parˆametros do modelo Von Mises em uma das r´eplicas utilizando o algoritmo proposto por Damien e Walker (1999).. . . 96
A.4 Estima¸c˜ao dos parˆametros do modelo Von Mises utilizando o m´etodo MCMC programado de forma independente. . . 97
A.5 Cadeias de µt, para t = 25, 50, 75, 100 . . . 100
A.6 Cadeia de κ . . . 101
Cap´ıtulo 1
Introdu¸
c˜
ao
Muitas vezes deseja-se trabalhar com medidas que s˜ao dire¸c˜oes. Um bi´ologo, por exemplo, pode ter interesse em analisar a dire¸c˜ao do voo de um p´assaro, enquanto que um meteorologista em estudar a dire¸c˜ao dos ventos numa certa regi˜ao. Um conjunto onde as observa¸c˜oes s˜ao dire¸c˜oes ´e chamado conjunto de dados direcionais.
Dire¸c˜oes bidimensionais podem ser representadas como ˆangulos com respeito a uma dire¸c˜ao zero e um sentido de rota¸c˜ao. Como uma dire¸c˜ao n˜ao tem magnitude, ela pode ser representada como um ponto na circunferˆencia de um c´ırculo unit´ario centrado na origem ou como vetores unit´arios. Devido a essa representa¸c˜ao circular, observa¸c˜oes deste tipo s˜ao chamadas de dados circulares. De forma similar, observa¸c˜oes tridimensionais s˜ao tamb´em chamadas de dados esf´ericos.
Al´em de dados direcionais, que parecem se adequar naturalmente a uma representa¸c˜ao na circunferˆencia, fenˆomenos peri´odicos, com per´ıodo conhecido, tamb´em podem ser representados em um c´ırculo, onde o comprimento da circunferˆencia corresponde ao per´ıodo. Pode-se ter interesse em estudar, por exemplo, a criminalidade em certa ci-dade ao longo de um dia ou a chegada de pacientes com ataque card´ıaco em um hospital em certo per´ıodo de tempo. Outro exemplo seria utilizar o c´ırculo para representar os 365 dias do ano e fazer uma an´alise da ocorrˆencia de acidentes de avi˜ao para avaliar
se os acidentes s˜ao uniformemente distribu´ıdos ao longo das esta¸c˜oes do ano. Devido `a poss´ıvel representa¸c˜ao destes dados em uma circunferˆencia, esses dados tamb´em podem ser chamados de dados circulares.
Para trabalhar com dados circulares, deve-se ter em mente que estes apresentam ca-racter´ısticas pr´oprias, tanto em termos de modelagem quanto em termos de tratamento estat´ıstico descritivo. A representa¸c˜ao num´erica de um ˆangulo, por exemplo, pode n˜ao ser ´unica, j´a que este valor depende tanto da escolha da origem quanto do sentido da rota¸c˜ao. Logo, ´e importante assegurar que as conclus˜oes obtidas atrav´es da an´alise destes tipos de dados levem em considera¸c˜ao essas particularidades, ou seja, deve-se chegar a conclus˜oes que n˜ao dependam da escolha da origem e do sentido de rota¸c˜ao. Nota-se, tamb´em, que a compara¸c˜ao da grandeza de duas observa¸c˜oes tamb´em depende da escolha da origem e do sentido de rota¸c˜ao. Al´em das particularidades apontadas anteriormente, deve-se observar que 0 e 2π representam o mesmo ponto no c´ırculo e a medida ´e peri´odica.
As caracter´ısticas desses tipos de observa¸c˜oes fazem com que a metodologia necess´aria para a an´alise de dados direcionais seja bem diferente da metodologia usual, utilizada para an´alise de dados lineares. A necessidade de m´etodos estat´ısticos e medidas invarian-tes com respeito ao sentido de rota¸c˜ao e `a escolha da origem fazem com que a aplica¸c˜ao de m´etodos usuais para a an´alise de dados leve a resultados sem sentido.
´
E poss´ıvel encontrar na literatura diferentes abordagens para se trabalhar com da-dos circulares. Em Mardia (1975) s˜ao apresentadas algumas distribui¸c˜oes para dados circulares, por exemplo, sugere-se a Von Mises-Fisher, uma das distribui¸c˜oes circulares mais utilizadas, caracterizada por dois parˆametros que descrevem dire¸c˜ao m´edia e con-centra¸c˜ao. Detalhes sobre a an´alise de dados circulares podem ser vistos em Mardia
(1975) e Jammalamadaka e Sengupta (2001). Para o caso em que se deseja trabalhar com dados bivariados onde uma componente ´e um ˆangulo e a outra um n´umero real,
Johnson e Wehrly (1978) sugerem algumas distribui¸c˜oes e modelos de regress˜ao. Em
mode-los de regress˜ao para respostas angulares. No contexto da Inferˆencia Bayesiana,Guttorp e Lockhart (1988) fornecem um m´etodo para se fazer inferˆencia Bayesiana utilizando a distribui¸c˜ao Von Mises. A proposta em Guttorp e Lockhart (1988) ´e elicitar prioris conjugadas para a estima¸c˜ao dos parˆametros da Von Mises nos caso em que se tem um ou ambos os parˆametros desconhecidos. Damien e Walker (1999) fornecem uma an´alise bayesiana completa para os casos em que se trabalha com a distribui¸c˜ao Von Mises e os parˆametros s˜ao supostos desconhecidos. O m´etodo sugerido se baseia nas prioris su-geridas por Guttorp e Lockhart (1988) e a ideia principal constitui-se na introdu¸c˜ao de vari´aveis latentes, fazendo com que as condicionais completas dos parˆametros de interesse sejam conhecidas, facilitando o esquema de inferˆencia no contexto de inferˆencia bayesiana para dados circulares. Ao mesmo tempo que este artigo se destaca por fazer inferˆencia Bayesiana completa, nota-se algumas limita¸c˜oes, como descrito no presente trabalho: di-ficuldade computacional para tratamento de s´eries temporais longas foram observadas ao se aplicar o algoritmo proposto. Do ponto de vista do modelo propriamente dito, tem-se unimodalidade e simetria na distribui¸c˜ao circular proposta, bem como pressuposto de independˆencia entre observa¸c˜oes. Ainda se tratando da distribui¸c˜ao Von Mises, Gill e Hangartner (2010) apresentam um procedimento para regress˜ao Bayesiana utilizando os m´etodos de Monte Carlo via cadeias de Markov (MCMC) para os casos em que sup˜oe-se que a distribui¸c˜ao da vari´avel resposta ´e Von Mises e deseja-se estimar os parˆametros desta distribui¸c˜ao, bem como os efeitos das covari´aveis na vari´avel resposta. Nestes casos, as vari´aveis explicativas s˜ao introduzidas no modelo atrav´es da dire¸c˜ao m´edia, o primeiro parˆametro da Von Mises. Como este parˆametro tem suporte no c´ırculo, ´e necess´ario que se utilize uma fun¸c˜ao de liga¸c˜ao, j´a que as regressoras tˆem suporte na reta real. Uma das desvantagens do m´etodo de estima¸c˜ao sugerido no artigo, ´e que a estima¸c˜ao de κ, o parˆametro de concentra¸c˜ao da Von Mises, ´e feita atrav´es do m´etodo de m´axima ve-rossimilhan¸ca, com estimativa pontual para tal parˆametro “plugada”a outras etapas do algoritmo, em que a estima¸c˜ao dos demais parˆametros ´e tratada. Para a estima¸c˜ao desses outros parˆametros do modelo, ´e utilizado o algoritmo de Metropolis-Hastings. Nos casos em que se tem uma s´erie circular observada temporalmente, Lan et al. (2013) sugerem o uso de filtro de part´ıculas na estima¸c˜ao do parˆametro de centralidade da distribui¸c˜ao Von
Mises, , que sup˜oe-se variar no tempo, mas ao mesmo tempo que ´e poss´ıvel estimar de forma Bayesiana este parˆametro, o autor n˜ao considera fazer a estima¸c˜ao das variˆancias de evolu¸c˜ao e observa¸c˜ao e esses ´ultimos parˆametros s˜ao supostos conhecidos. A contri-bui¸c˜ao do presente trabalho neste contexto, consiste na elabora¸c˜ao de um m´etodo que possibilite a estima¸c˜ao de todos os parˆametros de um modelo Von Mises dinˆamico.
Uma outra abordagem poss´ıvel para se trabalhar com dados circulares ´e utilizar os chamados Wrapped Models. Tais modelos s˜ao constru´ıdos a partir de distribui¸c˜oes com suporte na reta por meio de uma transforma¸c˜ao que leva os valores da reta ao c´ırculo. A vantagem na utiliza¸c˜ao desse tipo de abordagem prov´em do fato de ser poss´ıvel utilizar modelos com suporte que originalmente n˜ao seja no c´ırculo, proporcionando uma maior flexibilidade. Jona-Lasinio et al. (2012) constroem um modelo hier´arquico para lidar com dados circulares quando sup˜oe-se que a vari´avel resposta tem distribui¸c˜ao Wrapped Normal, e mostram que ´e poss´ıvel se fazer inferˆencia Bayesiana nesses casos utilizando m´etodos de Monte Carlo via Cadeias de Markov (MCMC). A ideia consiste em estimar “k”, o n´umero de voltas dadas no c´ırculo quando se faz a transforma¸c˜ao de valores da reta para o c´ırculo. Condicionalmente a “k”, as distribui¸c˜oes condicionais completas para os parˆametros da Wrapped Normal s˜ao conhecidos, o que faz com que esquemas MCMC funcionem de forma mais pr´atica e eficiente. A ideia de introdu¸c˜ao de “k”como uma vari´avel latente a ser estimada ser´a utilizada em todas as aplica¸c˜oes de modelos ”wrap-ped”no presente trabalho. Neste artigo, os autores trabalham com uma componente que trata da autocorrela¸c˜ao espacial, j´a que o conjunto de dados ´e observado no espa¸co, mas n˜ao s˜ao considerados casos em que uma s´erie temporal ´e observada e deseja-se trabalhar com modelos que tratem de autocorrela¸c˜ao temporal.
Holzmann et al. (2006) prop˜oe modelos para s´eries temporais circulares. Tanto em um modelo Von Mises quanto em um modelo Wrapped Normal, o autor assume que os parˆametros variem num espa¸co discreto e finito, com uma estrutura Markoviana, respons´avel pela autocorrela¸c˜ao temporal, dando conta da transi¸c˜ao entre estados. A estima¸c˜ao ´e feita por m´axima verossimilhan¸ca. Hughes (2007) considera, entre outras
propostas, vers˜oes “wrapped”de modelos cl´assicos para s´eries temporais como mode-los autoregressivos. Mais recentemente, Mastrantonio et al. (2015) prop˜oem proces-sos “wrapped”gaussianos espa¸co-temporais, especificando uma estrutura de covariˆancia espa¸co-temporal n˜ao separ´avel, mas preservam a dire¸c˜ao m´edia constante. Ainda com foco na estrutura de covariˆancia,Wang e Gelfand (2014) trata, num contexto espa¸co-temporal, tamb´em com m´edia fixa, a modelagem conjunta de uma vari´avel circular e uma vari´avel linear (como dire¸c˜ao de ventos e altura de ondas). Admitimos, no presente trabalho, observa¸c˜oes circulares em um contexto puramente temporal, em que a dire¸c˜ao m´edia evolua. A estrutura especificada para evolu¸c˜ao da dire¸c˜ao m´edia induz, simulta-neamente, o tratamento de autocorrela¸c˜ao temporal.
Nota-se que tanto a Von Mises quanto a Wrapped Normal s˜ao modelos unimodais e sim´etricos e que existe interesse em estruturas mais flex´ıveis que contemplem, por exem-plo, multimodalidade e assimetria no c´ırculo. Neste sentido, modelos de mistura s˜ao muito ´uteis, j´a que possibilitam a constru¸c˜ao de estruturas que podem se adequar bem a conjuntos e dados assim´etricos ou multimodais. Lan et al. (2013) consideram a mis-tura de distribui¸c˜oes Von Mises, em um modelo est´atico e que pressup˜oe independˆencia entre as observa¸c˜oes. O procedimento de estima¸c˜ao ´e feito por meio do algoritmo EM (Expectation-Maximization).
N˜ao encontramos, na literatura, nenhum artigo de referˆencia para os casos em que se deseja trabalhar com modelos wrapped mistura de normais utilizando inferˆencia Bayesi-ana. Portanto, na elabora¸c˜ao deste trabalho, foi necess´ario desenvolver uma metologia para esses casos. O m´etodo desenvolvido consiste na jun¸c˜ao de ideias do artigo de Jona-Lasinio et al. (2012) e dos m´etodos de estima¸c˜ao bayesianos para modelos de mistura encontrados em Fruhwirth-Schnatter (2006). Temos interesse em estruturas flex´ıveis sem, contanto, prescindir do tratamento da autocorrela¸c˜ao para dados observados tem-poralmente. Uma outra contribui¸c˜ao desta disserta¸c˜ao ´e fornecer um m´etodo de es-tima¸c˜ao bayesiano para modelos de mistura markovianos, mais especificamente, misturas de Wrapped Normal. A metodologia desenvolvida foi, mais uma vez, baseada na jun¸c˜ao
das ideias encontradas em Jona-Lasinio et al. (2012) e Fruhwirth-Schnatter (2006).
Este trabalho tem como objetivo, portanto, propor modelos dinˆamicos e modelos de misturas para dados circulares observados temporalmente, considerando-se formalmente tanto a autocorrela¸c˜ao inerente a esse tipo de dado, quanto a possibilidade de distribui¸c˜ao multimodal ou assim´etrica no c´ırculo. O trabalho est´a estruturado como segue.
Nos cap´ıtulo 2 ser˜ao apresentadas estat´ısticas descritivas utilizadas para a an´alise de dados circulares, j´a que pela natureza deste tipo de dado, as estat´ısticas descritivas usuais n˜ao podem ser aplicadas, pois levam a resultados muitas vezes incoerentes e errˆoneos. Ser˜ao apresentadas medidas circulares equivalentes `a m´edia, mediana e variˆancia na reta. Ser˜ao apresentados tamb´em, modelos usuais para dados circulares, sendo estes os mode-los com suporte natural no c´ırculo e os “Wraped Models”, que s˜ao obtidos a partir de um modelo com suporte na reta via uma opera¸c˜ao matem´atica que leva os valores da reta ao c´ırculo.
O cap´ıtulo 3 abordar´a conceitos e m´etodos de estima¸c˜ao utilizados no contexto de inferˆencia Bayesiana, em particular s˜ao apresentados, sumariamente, elementos sobre o m´etodo de Monte Carlo via cadeias de Markov(MCMC). Ser´a feita uma breve revis˜ao sobre modelos dinˆamicos e m´etodos para estima¸c˜ao de parˆametros nestes modelos, par-tircularmente, o Forward Filter Bacward Sampling (FFBS).
No cap´ıtulo 4, ser˜ao apresentados modelos dinˆamicos para dados circulares, como o modelo Von Mises dinˆamico e o modelo Wrapped Normal dinˆamico. Tais modelos naturalmente acomodam autocorrela¸c˜ao em s´eries temporais circulares. Apresenta-se, tamb´em, a metodologia desenvolvida para se trabalhar com estes modelos e os resultados obtidos em simula¸c˜oes com dados artificiais para cada modelo utilizado.
No cap´ıtulo 5, ser˜ao abordados modelos de mistura e modelos de misturas Marko-vianas para dados circulares. Ademais, ser˜ao apresentados os m´etodos de estima¸c˜ao
desenvolvidos para se trabalhar com estes modelos e os resultados obtidos a partir de exerc´ıcios simulados.
Uma aplica¸c˜ao dos modelos e m´etodos a dados reais de dire¸c˜ao dos ventos ser´a apre-sentada no cap´ıtulo 6.
Por fim, no Cap´ıtulo 7, ser˜ao apresentadas as conclus˜oes e poss´ıveis extens˜oes deste trabalho.
Cap´ıtulo 2
Estat´ısticas Descritivas Circulares
Como foi observado anteriormente, a an´alise estat´ıstica e medidas descritivas usuais n˜ao s˜ao adequadas para se trabalhar com dados circulares. Nesta se¸c˜ao ser˜ao apresenta-das mediapresenta-das que se adequam melhor ao estudo de dados desta natureza.
Dados circulares podem ser representados como ˆangulos ou como pontos na circun-ferˆencia de raio unit´ario, portanto, pode-se utilizar a representa¸c˜ao em coordenadas pola-res ou retangulapola-res. Dado que se tem a reppola-resenta¸c˜ao em uma das duas formas, ´e poss´ıvel converter a medida para outra forma equivalente.
Na an´alise de dados direcionais, usualmente se tem interessse na dire¸c˜ao e n˜ao na magnitude do vetor, logo, a fim de facilitar a an´alise, esses vetores ser˜ao representados como vetores com comprimento unit´ario.
2.1
Medidas de Posi¸
c˜
ao
2.1.1
Dire¸
c˜
ao M´
edia
Em conjuntos de dados circulares unimodais, muitas vezes deseja-se definir uma dire¸c˜ao m´edia. Para calcular a dire¸c˜ao m´edia, seria natural pensar na m´edia aritim´etica das observa¸c˜oes. Supondo, por exemplo, que se tem duas medidas, 15o e 345o, para dire¸c˜ao dos ventos em um certo dia em uma certa esta¸c˜ao de medi¸c˜ao no nordeste do Brasil e deseja-se calcular a dire¸c˜ao m´edia deste dia nesta esta¸c˜ao, a m´edia aritm´etica destes ˆangulos ´e 180o. Como se pode perceber pela figura2.1, a medida encontrada leva a uma conclus˜ao totalmente equivocada sobre a dire¸c˜ao m´edia dos ventos, pois esta medida aponta para a dire¸c˜ao errada.
O exemplo dado ´e apenas uma situa¸c˜ao entre v´arias que podem ocorrer, onde a uti-liza¸c˜ao da m´edia aritm´etica para este tipo de dado pode levar a conclus˜oes erradas. Uma medida apropriada da dire¸c˜ao m´edia para um conjunto de dados unimodal pode ser ob-tida considerando as observa¸c˜oes como vetores unit´arios e calculando a dire¸c˜ao do vetor resultante.
Sejam a1, a2, a3, . . . , anum conjunto de observa¸c˜oes de ˆangulos dados em coordenadas polares, e considere a transforma¸c˜ao polar para retangular para cada observa¸c˜ao:
(cos ai, sen ai), i = 1, . . . , n.
O vetor resultante R dos n vetores unit´arios ´e obtido da seguinte forma:
R = ( n X i=1 cos ai, n X i=1 sen ai) = (C, S).
O tamanho do vetor resultante ´e determinado por:
R = kRk =√C2+ S2
.
Prop˜oe-se que a dire¸c˜ao m´edia circular, que ser´a denotada por ¯α, seja dada pela dire¸c˜ao do vetor resultante R. Pode-se definir a dire¸c˜ao do vetor resultante pelas seguin-tes equa¸c˜oes:
cos ¯α = CR, sen ¯α = SR.
¯ α = arctan∗ S C onde; ¯ α = arctan∗ S C = arctan CS , se C > 0, S ≥ 0; π 2, se C = 0, S > 0; arctan CS + π, se C < 0; arctan CS + 2π, se C ≥ 0, S < 0; indefinido, se C = 0, S = 0. ¯
α ´e o centro do conjunto de dados e n˜ao depende do sentido de rota¸c˜ao ou da escolha da origem (proposi¸c˜ao 1.1,Jammalamadaka e Sengupta (2001, p´agina 14)).
Voltando ao exemplo dado, calculando a dire¸c˜ao m´edia circular obt´em-se o valor 0o. Pela figura 2.2, pode-se notar que este valor parece ser coerente com a interpreta¸c˜ao intuitiva e levar a conclus˜oes razo´aveis sobre o problema.
Figura 2.2: Representa¸c˜ao gr´afica da utiliza¸c˜ao da dire¸c˜ao m´edia circular
2.1.2
Dire¸
c˜
ao Mediana
Para se fazer uma estima¸c˜ao robusta da mediana populacional, ´e ´util obter uma vers˜ao circular da mediana. A dire¸c˜ao mediana ˜α dos ˆangulos a1, a2, a3, . . . , an pode ser definida como um ˆangulo φ, tal que:
• Metade das observa¸c˜oes esteja no arco [φ, φ + π)
Quando o tamanho amostral n ´e ´ımpar, a dire¸c˜ao mediana ´e uma das observa¸c˜oes, mais especificamente a n+12 -´esima observa¸c˜ao, sendo a primeira, a mais distante de φ pertencente a qualquer um dos dois arcos ([φ, φ + π) ou [φ − π, π)) . Quando n ´e par, ´e usual tomar a dire¸c˜ao m´edia como ponto m´edio das duas observa¸c˜oes apropriadas.
2.2
Medidas de Concentra¸
c˜
ao e Dispers˜
ao
2.2.1
Variˆ
ancia Circular
O tamanho do vetor resultante R foi definido anteriormente por:
R = p(C2+ S2)
.
Pode-se definir ¯R, o tamanho m´edio do vetor resultante, como:
¯ R = q ( ¯C2+ ¯S2) , onde; ¯ C = 1 n n X i=1 cosai
¯ S = 1 n n X i=1 senai.
Dado que as observa¸c˜oes a1, a2, a3, . . . , an s˜ao vetores unit´arios, tem-se que:
0 ≤ ¯R ≤ 1.
Se as dire¸c˜oes a1, a2, a3, . . . , an est˜ao muito concentradas em uma certa parte da cir-cunferˆencia, R ser´a pr´oximo de 1. Por outro lado, se as observa¸c˜oes estiverem dispersas, R ser´a pr´oximo de 0. Logo, R ´e uma medida de concentra¸c˜ao do conjunto de dados. Note que para qualquer conjunto de dados da forma a1, a2, a3, . . . , an, a1+ π, a2+ π, a3+ π, . . . , an+ π, R = 0. Logo, se ¯R ≈ 0 n˜ao necessariamente as observa¸c˜oes est˜ao dispersas ao redor da circunferˆencia. Ainda, ¯R ´e invariante sob rota¸c˜ao.
Na maior parte dos casos, o tamanho do vetor m´edio resultante ¯R ´e a medida de concentra¸c˜ao mais importante. Entretanto, por analogia a medidas para dados na reta, ´
e ´util considerar medidas de dispers˜ao circulares. Uma medida de dispers˜ao circular ´e a variˆancia circular amostral, definida como:
V = 1 − ¯R.
2.2.2
Desvio Padr˜
ao Circular
Al´em da variˆancia circular, pode ser ´util definir uma medida an´aloga ao desvio padr˜ao usual. Uma maneira de obter essa medida ´e fazendo uma transforma¸c˜ao da variˆancia amostral V. Define-se o desvio padr˜ao circular v como:
v={−2log(1 − V )}12 =−2log ¯R 1 2
2.3
Modelos Circulares
Uma distribui¸c˜ao circular ´e uma distribui¸c˜ao de probabilidade na qual a probabilidade total est´a concentrada na circunferˆencia de raio unit´ario. H´a algumas maneiras de definir essas distribui¸c˜oes, mas deve-se atentar para algumas caracter´ısticas peculiares. ´E im-portante, por exemplo, que o suporte da distribui¸c˜ao volte ao ponto inicial, `a medida que os valores aumentam. O suporte de uma vari´avel aleat´oria circular θ, medida em radia-nos, pode ser qualquer intervalo de comprimento 2π, geralmente sendo [0, 2π) ou [−π, π). Distribui¸c˜oes circulares podem ser essencialmente de dois tipos: discretas ou cont´ınuas. No caso cont´ınuo, a fun¸c˜ao densidade de probabilidade satisfaz `as seguintes propriedades:
• f (θ) ≥ 0;
• R2π
0 f (θ)dθ = 1;
• f (θ) = f (θ + k × 2π), para qualquer inteiro k.
Muitas distribui¸c˜oes circulares ´uteis podem ser geradas a partir de distribui¸c˜oes de probabilidade conhecidas atrav´es de uma s´erie de mecanismos. Dois exemplos bastante interessantes de tipos de distribi¸c˜oes obtidas desta forma s˜ao as “wrapped distributions”, que s˜ao obtidas “enrolando-se uma distribui¸c˜ao linear ao redor de um c´ırculo unit´ario e as “offset distributions”, que s˜ao obtidas atrav´es da tranforma¸c˜ao de uma vari´avel
aleat´oria bivariada linear para seu componente direcional. A seguir, s˜ao apresentadas sucintamente algumas distribui¸c˜oes circulares usuais.
2.3.1
Uniforme Circular
Se a probabilidade total est´a espalhada uniformemente sobre a circunferˆencia, temos uma distribui¸c˜ao Uniforme Circular:
f (θ) = 1
2π, 0 ≤ θ ≤ 2π.
Todas as dire¸c˜oes tˆem igual densidade e por isso esta distribui¸c˜ao ´e comumente co-nhecida como distribui¸c˜ao isotr´opica ou aleat´oria. Esta distribui¸c˜ao n˜ao tem m´edia bem definida e tem m´axima entropia. Ela ´e muito importante na an´alise de dados circulares, pois representa a falta de “dire¸c˜ao preferencial”.
Quando a distribui¸c˜ao n˜ao ´e uniforme, espera-se uma concentra¸c˜ao ao redor de uma ou mais dire¸c˜oes. Usualmente, tem-se uma concentra¸c˜ao maior ao redor de uma ´unica dire¸c˜ao e a distribui¸c˜ao ´e unimodal. As distribui¸c˜oes abordadas nos pr´oximos t´opicos s˜ao algumas das importantes distribui¸c˜oes circulares unimodais.
2.3.2
Distribui¸
c˜
ao Cardioide
Se θ tem distribui¸c˜ao cardioide, a sua fun¸c˜ao densidade de probabilidade ´e dada por:
f (θ | µ, ρ) = 1 2π{1 + 2ρcos(θ − µ)}, 0 ≤ µ < 2π, − 1 2 < ρ < 1 2,
em que µ ´e a dire¸c˜ao m´edia e ρ ´e parˆametro de concentra¸c˜ao. Essa distribui¸c˜ao ´e umimodal e sim´etrica ao redor de µ.
2.3.3
Von Mises
Essa distribui¸c˜ao foi introduzida como um modelo estat´ıstico por Von Mises (1918). EmGumbel et al.(1953), a Von Mises ´e tamb´em chamada de distribui¸c˜ao “Normal Cir-cular”para enfatizar sua importˆancia e semelhan¸ca com a distribui¸c˜ao normal na reta real. Esta ´e a distribui¸c˜ao circular mais comumente utilizada. Se θ ´e vari´avel aleat´oria com distribui¸c˜ao Von Mises (denota-se vM (µ, k)), θ tem suporte em qualquer intervalo de comprimento 2π e a sua fun¸c˜ao de densidade ´e da forma:
f (θ | µ, k) = 1 2πI0(k)
ek(cos(θ−µ)),
onde µ ´e a dire¸c˜ao m´edia, 0 ≤ µ < 2π e k ´e parˆametro de concentra¸c˜ao k ≥ 0. Aqui I0(k) na constante normalizadora representa a fun¸c˜ao Bessel Modificada de primeiro tipo e ordem zero, dada por:
I0(k) = 1 2π Z 2π 0 ekcosθdθ = ∞ X 0 k 2 2r 1 r! 2 . (2.2)
A densidade ´e unimodal e sim´etrica em torno da dire¸c˜ao m´edia µ (0 ≤ µ < 2π) e k ≥ 0 ´e um parˆametro de concentra¸c˜ao. Para fins computacionais, aproxima-se o so-mat´orio infinito em (2.2), de acordo com um n´umero de termos conveniente.
2.4
Wrapped Models
Outra alternativa para modelagem de dados circulares s˜ao os Wrapped Models, obti-dos ”enrolando-se”uma distribui¸c˜ao originalmente definida na reta sobre a circunferˆencia de raio unit´ario. De acordo com Mardia e Jupp (2009), se X ´e uma vari´avel aleat´oria definida na reta, obt´em-se uma vari´avel circular Y ao definir-se Y = X(mod 2π). Se X tem fun¸c˜ao de distribui¸c˜ao acumulada F , ent˜ao Y ter´a fun¸c˜ao de distribui¸c˜ao:
FY(y) = ∞ X k=−∞
{F (y + 2πk) − F (2πk)}, 0 ≤ y < 2π. (2.3)
Em particular, se X tem fun¸c˜ao densidade de probabilidade f , ent˜ao Y ter´a densidade:
fY(y) = ∞ X k=−∞ f (y + 2πk), 0 ≤ y < 2π. (2.4) ´
E poss´ıvel, portanto, contruir um “Wrapped Model” a partir de qualquer modelo que se queira.
De acordo com Jona-Lasinio et al. (2012), da equa¸c˜ao (2.4), pode-se perceber que a distribui¸c˜ao conjunta de (Y, K) ´e f (y + 2πk) com y ∈ [0, 2π) e K ∈ Z. Note que X determina (Y, K) e vice-versa e a marginaliza¸c˜ao com respeito a K produz (2.4). Da distribui¸c˜ao conjunta, a distribui¸c˜ao marginal de K ´e P (K = k) = R02πf (y + 2πk)dy. Al´em disso, K | Y = y ´e tal que P (K = k | Y = y) = P∞f (y+2πk)
j=−∞f (y+2πj) enquanto que
a condicional de Y | K = k ´e R2πf (y+2πk) 0 f (y+2πk)dy
. Logo, ´e f´acil trabalhar com distribui¸c˜oes enroladas, tratando K como vari´avel latente.
Um Wrapped Model bastante utilizado ´e a distribui¸c˜ao Wrapped Normal (µ, σ2),que ´e obtida “enrolando-se”a distribui¸c˜ao Normal(µ, σ2) no c´ırculo. Se Y ∼ Wrapped Normal(µ, σ2), ent˜ao a densidade de Y ´e dada por:
f (y | µ, σ2) = 1 σ√2π ∞ X k=−∞ exp −(y − µ + 2πk) 2 2σ2 . (2.5)
Outra representa¸c˜ao poss´ıvel para esta densidade ´e dada por:
f (y | µ, σ2) = 1 2π ( 1 + 2 ∞ X p=1 ρp2cos p(y − µ) ) , 0 ≤ ρ ≤ 1, (2.6)
onde p = exp−12σ2 . A distribui¸c˜ao ´e unimodal e sim´etrica em torno da dire¸c˜ao m´edia µ (mod 2π). Quando ρ → 0, a densidade aproxima-se da Uniforme no c´ırculo, enquanto quando ρ → 1, a densidade tende `a degenera¸c˜ao com massa concentrada em µ.
SeguindoJona-Lasinio et al.(2012), a express˜ao (2.5), que envolve uma soma infinita, pode ser bem aproximada utilizando-se poucos termos, sem que seja necess´ario explorar todo o suporte da quantidade latente k, {0, ±1, ±2, . . .}.
EmMardia e Jupp(2009), para fins pr´aticos, a densidade pode ser aproximada atrav´es do truncamento de k ∈ {−1, 0, 1} quando σ2 ≥ 2π, enquanto que para σ2 < 2π considerar apenas ”k=0”j´a gera uma aproxima¸c˜ao razo´avel. Segundo Jona-Lasinio et al. (2012), ´e poss´ıvel ser mais preciso. Suponha que translademos X para X0 = (X + π) mod 2π − π, resultando em um suporte sim´etrico [−π, π) , com a transla¸c˜ao correspondente de µ para µ0. Se ϕ denota a fun¸c˜ao de densidade da normal padr˜ao, pode-se escrever:
Z π −π ∞ X −∞ 1 σϕ x + 2kπ − µ σ dx = ∞ X −∞ Z π −π 1 σϕ x + 2kπ − µ σ dx = ∞ X −∞ Z (2k+1)π−µσ (2k−1)π−µ σ ϕ(z)dz.
C´alculos revelam que, se kU = 1 + 3σ
2π = −kL, (onde bac denota a parte inteira de a), ent˜ao (2kU + 1)π − µ > 3π e (2kU− 1)π − µ < 3π. Como resultado,
∞ X −∞ Z (2k+1)π−µσ (2k−1)π−µ σ ϕ(z)dz > kU X k=kL Z (2k+1)π−µσ (2k−1)π−µ σ ϕ(z)dz > Z 3 −3 ϕ(z)dz = 0.997 (2.7)
A express˜ao (2.7) permite determinar o n´umero necess´ario de termos para uma boa aproxima¸c˜ao em fun¸c˜ao de σ, por exemplo, se σ < 2π
3 , ent˜ao k ∈ {−1, 0, 1}; se 2π
3 σ < 4π
3 ent˜ao k ∈ {−2, −1, 0, 1, 2}. Ent˜ao K pode ser grande se e somente se σ2puder ser grande.
Cap´ıtulo 3
M´
etodos de Inferˆ
encia Bayesiana e
Modelos Dinˆ
amicos
3.1
Inferˆ
encia Bayesiana
3.1.1
Teorema de Bayes
Em problemas de inferˆencia param´etrica, tem-se interesse na estima¸c˜ao ou tomada de decis˜ao sobre quantidades n˜ao observ´aveis θ, ditas parˆametros, que indexam um mo-delo probabil´ıstico p(y|θ) subjacente ao comportamento de uma vari´avel aleat´oria Y sob observa¸c˜ao. Os procedimentos Bayesianos de inferˆencia param´etrica caracterizam-se por utilizar, como fonte de informa¸c˜ao para estima¸c˜ao ou tomada de decis˜ao sobre θ, n˜ao somente observa¸c˜oes y1, . . . , yn de Y | θ (como nos m´etodos c´assicos de inferˆencia), mas tamb´em informa¸c˜ao externa ao conjunto de dados observados, referentes a cren¸cas sub-jetivas sobre θ e refletindo a incerteza inicial do tomador de decis˜ao.
A informa¸c˜ao proveniente dos dados ´e traduzida pela fun¸c˜ao de verossimilhan¸ca, de-notada por l(θ; y), em que y representa o conjunto de dados observado e θ os parˆametros a serem estimados. A fun¸c˜ao de verossimilhan¸ca tem a mesma express˜ao que define o
modelo probabil´ıstico p(y | θ), por´em s˜ao objetos matem´aticos distintos. Do ponto de vista de estima¸c˜ao ou tomada de decis˜oes sobre θ passa-se a considerar p(y | θ) como fun¸c˜ao de θ, desconhecido, condicional a um vetor de observa¸c˜oes y e essa fun¸c˜ao, cujo argumento agora ´e o vetor param´etrico, ´e denominada verossimilhan¸ca. A informa¸c˜ao subjetiva, por sua vez, ´e incorporada ao modelo supondo uma distribui¸c˜ao (ou densi-dade) de probabilidade denotada por π(θ) a priori para o vetor de parˆametros θ. O grau de incerteza sobre cada parˆametro est´a relacionado `a variabilidade da respectiva priori: quanto maior a variabilidade, maior ´e a incerteza a priori (e consequentemente, menor o grau de subjetividade incorporado ao modelo).
O Teorema de Bayes, enunciado a seguir, estabelece a rela¸c˜ao entre priori e verossi-milhan¸ca na composi¸c˜ao da incerteza acerca dos parˆametros. Essa incerteza se traduz em termos probabil´ısticos atrav´es da distribui¸c˜ao `a posteriori, denotada por π(θ | y). A partir da posteriori s˜ao calculadas as estimativas dos parˆametros, as medidas de incer-teza, como por exemplo variˆancia, entre outras.
Teorema 3.1. (Teorema de Bayes): Sejam θ o vetor de parˆametros com suporte Θ e distribui¸c˜ao a priori π(θ), e y o vetor de observa¸c˜oes com verossimilhan¸ca p(y | θ). Ent˜ao a distribui¸c˜ao a posteriori ´e dada por:
π(θ | y) = p(y | θ)π(θ)
R p(y | θ)π(θ)dθ ∝ p(y | θ)π(θ), (3.1)
em que o produto p(y | θ)π(θ) ´e chamado n´ucleo da distribui¸c˜ao a posteriori.
De fato, qualquer fun¸c˜ao obtida de p(y | θ)π(θ) atrav´es da multiplica¸c˜ao de uma constante que n˜ao dependa de θ, mas que ocasionalmente dependa do vetor de dados y, pode ser chamada de n´ucleo da posteriori. Vale ressaltar que, sob o enfoque bayesiano na
atualiza¸c˜ao da incerteza associada ao parˆametro θ via Teorema de Bayes, as observa¸c˜oes y s˜ao consideradas valores num´ericos conhecidos.
O Teorema de Bayes tamb´em pode ser visto sob o aspecto sequencial, segundo o qual cada observa¸c˜ao ´e incorporada em sequˆencia `a informa¸c˜ao a priori para compor a incerteza a posteriori. Mais especificamente, denotando o vetor de observa¸c˜oes por y = (y1, y2, ..., yn), temos no instante zero a distribui¸c˜ao a priori π(θ). Incorporada a primeira observa¸c˜ao y1 `a informa¸c˜ao a priori, atualiza-se a incerteza a respeito de θ atrav´es do Teorema de Bayes, obtendo assim a distribui¸c˜ao a posteriori no tempo 1:
π(θ | y1) ∝ p(y1 | θ)π(θ).
Agora, no instante 2, toda a informa¸c˜ao pr´evia a respeito de θ (traduzida pela poste-riori no instante 1: π(θ | y1)) ´e considerada informa¸c˜ao a priori e, ao ser combinada com a observa¸c˜ao no tempo corrente, resulta na posteriori no instante 2:
π(θ | y1, y2) ∝ p(y2 | θ, y1)π(θ | y1) = p(y2 | θ)π(θ | y1),
onde a igualdade ocorre quando se sup˜oe independˆencia entre as observa¸c˜oes, dado o conhecimento do vetor param´etrico, o que significa assumir que o vetor param´etrico sin-tetiza toda a informa¸c˜ao necess´aria para determina¸c˜ao do comportamento probabil´ıstico do vetor y antes de se observar os dados.
Analogamente, no tempo n tem-se a rela¸c˜ao de recorrˆencia:
π(θ | y1, ..., yn) ∝ p(yn | θ)π(θ | yn−1, ..., y1).
Atrav´es dessa rela¸c˜ao, ´e poss´ıvel chegar `a f´ormula enunciada no Teorema de Bayes:
π(θ | y1, ..., yn) ∝ p(yn | θ)p(yn−1 | θ)...p(y1 | θ)π(θ)
onde a igualdade novamente ocorre quando se sup˜oe independˆecia entre as observa¸c˜oes condicionadas ao vetor param´etrico, e que toda informa¸c˜ao subjetiva sobre θ esteja re-sumida em π(θ) no instante 0.
Portanto, admitindo ausˆencia de informa¸c˜ao externa aos dados al´em da priori ini-cial, a distribui¸c˜ao a posteriori obtida sequencialmente ´e a mesma obtida em uma ´unica aplica¸c˜ao do Teorema de Bayes considerando o vetor completo y = (y1, ..., yn) (Neves e
Zanini (2013)).
3.1.2
Estima¸
c˜
ao Pontual
Um dos maiores problemas de inferˆencia estat´ıstica consiste na estima¸c˜ao dos parˆ ame-tros. A densidade a posteriori obtida via teorema de Bayes cont´em toda descri¸c˜ao pro-babil´ıstica da informa¸c˜ao dispon´ıvel a respeito da quantidade de interesse. O gr´afico da densidade a posteriori (ou sua express˜ao anal´ıtica) ´e a mais completa descri¸c˜ao do pro-cesso inferencial. Entretanto, pode ser ´util sumarizar a informa¸c˜ao contida na posteriori, mas esse processo deve ser feito com cuidado.
A forma mais simples de sumarizar a informa¸c˜ao ´e utilizar a estima¸c˜ao pontual, e, neste caso, toda informa¸c˜ao contida na distribui¸c˜ao a posteriori ´e resumida em um ´unico valor sobre a quantidade de interesse θ. A estima¸c˜ao pontual consiste em calcular uma estimativa ˆθ para o parˆametro θ a partir de valores da amostra y e fontes adicionais de informa¸c˜ao sobre θ. Geralmente, adota-se uma regra de decis˜ao δ para calcular esta estimativa do parˆametro: escolhe-se um estimador δ(Y ) que minimiza uma fun¸c˜ao perda L(δ(Y ), θ). Suponha que existe uma perda L(d, θ) para cada valor de θ e cada poss´ıvel estimativa d pentencente ao espa¸co param´etrico Θ. Desta forma, a perda esperada a posteriori ou risco a posteriori ´e calculado por:
r(d | y) = E[L(δ(Y ), θ)] = Z
Θ
Segundo Migon et al. (2014), uma regra de decis˜ao δ∗ ´e ´otima se tiver risco m´ınimo, ou seja, R(δ∗) < R(δ), ∀δ. Essa regra ´e chamada de regra de Bayes e seu risco ´e chamado de risco de Bayes. Os estimadores δ(Y ) obtidos minimizando-se o risco esperado a pos-teriori s˜ao chamados estimadores de Bayes.
As fun¸c˜oes de perda mais comumente utilizadas e seus respectivos estimadores de Bayes s˜ao:
• Fun¸c˜ao perda quadr´atica: L(δ(Y ), θ) = (θ − δ(Y ))0(θ − δ(Y )); M´edia a posteriori: ˆθ = E(θ | y);
• Fun¸c˜ao perda absoluta: L(δ(Y ), θ) = k(θ − δ(Y ))k; Mediana a posteriori: ˆθ tal queR−∞θˆ p(θ | y)dθ = 0.5;
• Fun¸c˜ao perda 0-1: L(δ(Y ), θ) = k, sek(θ − δ(Y ))k > 0, sek(θ − δ(Y ))k ≤ ; Moda a posteriori: ˆθ tal que p(ˆθ | y) = supθ∈Θp(θ | y);
3.1.3
Estima¸
c˜
ao Intervalar
Como obsevado anteriormente, deve-se ter cautela ao tentar sumarizar a informa¸c˜ao contida na distribui¸c˜ao a posteriori, j´a que a forma mais adequada de expressar essa in-forma¸c˜ao ´e atrav´es desta distribui¸c˜ao. Ao se fazer uma estima¸c˜ao pontual, a informa¸c˜ao est´a sendo resumida em um ´unico valor, o que muitas vezes pode n˜ao ser adequado. Al´em de calcular uma estimativa para o parˆametro, pode ser bastante ´util estimar o qu˜ao pre-cisa ´e esta estimativa. Uma possibilidade ´e associar estimativas pontuais a medidas de incerteza sobre elas. Pode-se, por exemplo, atrav´es da distribui¸c˜ao a posteriori, encontrar um intervalo para θ onde est´a concentrada a maior massa de probabilidade. Idealmente,
este intervalo deve ser o menor poss´ıvel, mas que contenha muita massa de probabili-dade. O tamanho deste intervalo informa a dispers˜ao dos valores de θ. Assim, quanto menor comprimento do intervalo, mais concentrada est´a a distribui¸c˜ao deste parˆametro e, quanto menor, mais dispersa est´a a distribui¸c˜ao. Este intervalo ´e chamado intervalo de credibilidade.
Defini¸c˜ao: Seja θ uma quantidade desconhecida definida em Θ. Um intervalo C ∈ Θ ´
e um intervalo 100(1 − α)% de credibilidade para θ se P (θ ∈ C | y) ≥ 1 − α. Nesse caso, 1 − α ´e chamado n´ıvel de credibilidade.
Uma caracter´ıstica importante dos intervalos de credibilidade ´e que eles s˜ao invari-antes a transforma¸c˜oes 1-a-1 do parˆametro, ou seja, se C ´e um intervalo de credibilidade 100(1−α)% para θ e φ = φ(θ) ´e uma transforma¸c˜ao 1-a-1 de θ, ent˜ao φ(C) ´e um intervalo de credibilidade 100(1 − α)% para φ.
3.1.4
Distribui¸
c˜
ao Preditiva
´
E interessante notar que o processo sequencial de inferˆencia est´a intimamente ligado `a distribui¸c˜ao preditiva, a partir da qual s˜ao realizadas as previs˜oes sob o enfoque inferen-cial bayesiano, no caso em que os dados constituem uma s´erie temporal. A distribui¸c˜ao preditiva ´e de grande importˆancia n˜ao s´o pela sua capacidade de fazer previs˜oes, como tamb´em para a avalia¸c˜ao da adequa¸c˜ao do modelo te´orico formulado pelo estat´ıstico aos dados reais.
A distribui¸c˜ao preditiva para uma observa¸c˜ao futura yn+k, k ∈ N a partir do con-junto de observa¸c˜oes y1, . . . , yn ´e a distribui¸c˜ao de probabilidade (ou fun¸c˜ao densidade) dada por
p(yn+k | yn, ..., y1) = Z
Θ
l(θ; yn+k)π(θ | yn, ..., y1)dθ = Eθ|y1,...,yn(l(θ; yn+k)).
Assim, o inverso da constante de proporcionalidade em (3.1) ´e justamente p(yn|y1, . . . , yn−1), isto ´e, a distribui¸c˜ao preditiva 1 passo `a frente, condicional a (y1, . . . , yn−1).
A distribui¸c˜ao preditiva para yn+k pode ser interpretada como uma m´edia dos valores de l(θ; yn+k) ponderados pela posteriori de θ | (yn, ..., y1). Neste ponto, ´e importante observar que a predi¸c˜ao sob o enfoque Bayesiano ´e condicionada apenas `a observa¸c˜ao do vetor de observa¸c˜oes, sem nenhuma dependˆencia do vetor param´etrico.
3.2
Procedimento de inferˆ
encia via MCMC
3.2.1
Introdu¸
c˜
ao
Nem sempre ´e poss´ıvel obter a distribui¸c˜ao a posteriori de forma anal´ıtica, devido `a integral presente no denominador de (3.1). Nesse caso, a posteriori deve ser aproximada computacionalmente. Uma possibilidade ´e o uso de M´etodos de Monte Carlo Via Cadeias de Markov.
Os m´etodos de Monte Carlo via Cadeias de Markov consistem em criar uma cadeia de Markov irredut´ıvel, recorrente positiva e aperi´odica cujo espa¸co de estados Θ seja o suporte do vetor param´etrico θ, de modo que esta cadeia convirja em distribui¸c˜ao para a densidade a posteriori π(θ | y), dado qualquer estado inicial em Θ da cadeia.
O que se faz ´e simular uma ou mais realiza¸c˜oes dessa cadeia e tomar os valores obser-vados ap´os um determinado n´umero de itera¸c˜oes m a partir do qual seja poss´ıvel assumir
que a distribui¸c˜ao estacion´aria, ou seja, a densidade a posteriori, tenha sido alcan¸cada. Dessa forma, os algoritmos MCMC fornecem uma amostra simulada da distribui¸c˜ao a posteriori e, a partir dela, pode-se estimar quaisquer medidas resumo (m´edia, variˆancia, quantis, enre outras) da posteriori atrav´es das respectivas medidas observadas na amos-tra obtida.
Uma forma emp´ırica de verificar a convergˆencia para a distribui¸c˜ao a posteriori de interesse ´e simular m´ultiplas cadeias independentemente, cada uma delas inicializada num ponto distinto no espa¸co param´etrico. Como a convergˆencia ´e garantida para qual-quer estado inicial, a partir do momento em que as cadeias se encontram e passam a apresentar um mesmo comportamento ao longo do tempo, tem-se um forte ind´ıcio de que a distribui¸c˜ao estacion´aria foi alcan¸cada. Denomina-se per´ıodo de aquecimento da cadeia o intervalo de tempo discreto transcorrido at´e se observar ind´ıcios da convergˆencia.
Por fim, recomenda-se que o tamanho da amostra final seja grande para que se possa ter boas estimativas das caracter´ısticas de interesse a posteriori. Por´em, tamb´em ´e de-sej´avel que os valores simulados n˜ao apresentem redundˆancia, isto ´e, que n˜ao sejam muito autocorrelacionados. Do contr´ario, uma an´alise precipitada levando em conta apenas o tamanho da amostra simulada pode fazer parecer que as estimativas foram obtidas com uma precis˜ao maior do que a realidade. O que se costuma fazer ´e, ap´os o per´ıodo de aquecimento, tomar apenas os valores espa¸cados de k unidades no tempo, de forma que as autocorrela¸c˜oes sejam pr´oximas de zero.
A seguir, s˜ao descritos os dois m´etodos MCMC que foram implementados neste tra-balho: Metropolis-Hastings e o Amostrador de Gibbs.
3.2.2
Metropolis-Hastings
Sejam Θ o suporte do vetor param´etrico θ e {Xt} uma cadeia de Markov (C.M.) irredut´ıvel e aperi´odica com fun¸c˜ao de transi¸c˜ao q : Θ → Θ. Costuma-se fazer referˆencia
`
a fun¸c˜ao de transi¸c˜ao q como densidade proposta.
Considere a distribui¸c˜ao a posteriori π?(θ) = π(θ | y) com n´ucleo n?(θ) e a C.M. com fun¸c˜ao de transi¸c˜ao p : Θ → Θ dada por:
p(θ1, θ2) = q(θ1, θ2)α(θ1, θ2), α(θ1, θ2) = min 1,π ?(θ 2)q(θ2, θ1) π?(θ 1)q(θ1, θ2) = min 1,n ?(θ 2)q(θ2, θ1) n?(θ 1)q(θ1, θ2) .
A fun¸c˜ao α garante que p e π? satisfa¸cam a condi¸c˜ao de reversibilidade
π?(θ1)p(θ1, θ2) = π?(θ2)p(θ2, θ1), ∀θ1, θ2 ∈ Θ.
Essa condi¸c˜ao implica π?ser distribui¸c˜ao invariante da cadeia com fun¸c˜ao de transi¸c˜ao p.
Portanto, fornecida a densidade proposta q, prossegue-se com a simula¸c˜ao da cadeia com fun¸c˜ao de transi¸c˜ao p da seguinte da forma:
1. Escolhe-se um valor inicial θ(0) ∈ Θ (i=0);
2. Dado θ(i), amostra-se um valor θ? de q(θ(i), •);
3. Com probabilidade α(θ(i), θ?), fazemos θ(i+1) = θ?e com probabilidade 1−α(θ(i), θ?) fazemos θ(i+1) = θ(i).
4. Atualiza-se o contador i para i+1 e repete-se os passos 2 e 3.
A teoria subjacente garante que a cadeia de Markov com fun¸c˜ao de transi¸c˜ao p con-verge para a distribui¸c˜ao π(θ | y) para qualquer densidade proposta q escolhida e qualquer valor inicial θ(0). Cabe ressaltar, por´em, que a escolha de q afeta bastante o tempo de con-vergˆencia da cadeia e, portanto, deve-se estudar boas propostas antes da implementa¸c˜ao dos m´etodos MCMC. Gamerman (1998) e Migon et al. (2013), por exemplo, tratam de
duas formas de especificar a proposta q visando justamente diminuir o tempo computa-cional necess´ario `a convergˆencia das cadeias.
3.2.3
Amostrador de Gibbs
O amostrador de Gibbs ´e um caso particular do algoritmo de Metropolis-Hastings em que a probabilidade de aceita¸c˜ao de cada valor gerado ´e sempre 1. Portanto, os argu-mentos que justificam a convergˆencia do m´etodo s˜ao os mesmos exibidos na se¸c˜ao anterior.
Seja θ = (θ1, . . . , θn) o vetor de parˆametros e, inicialmente, suponha conhecidas as n condicionais completas (θ1 | θ2, . . . , θn, y), . . . , (θn| θ1, . . . , θn−1, y). A seguir, descreve-se as etapas do algoritmo do amostrador de Gibbs:
1. Escolha n valores iniciais θ(0)1 , . . . , θ(0)n (i=0)
2. Sorteia-se um valor θ(i+1)1 de θ1 | θ (i) 2 , . . . , θ
(i) n ; Sorteia-se um valor θ(i+1)2 de θ2 | θ
(i+1) 1 , θ (i) 3 , . . . , θ (i) n ; .. .
Sorteia-se um valor θ(i+1)n de θn| θ (i+1) 1 , . . . , θ
(i+1) n−1 ;
3. Repete-se a etapa anterior para as itera¸c˜oes seguintes (i=1,2,3,..).
A suposi¸c˜ao inicial de que as condicionais completas s˜ao conhecidas n˜ao ´e estrita-mente necess´aria. Uma vez que o n´ucelo dessas distibui¸c˜oes ´e sempre conhecido, pode-se utilizar um passo de Metropolis-Hastings para gerar valores de cada condicional completa cuja forma anal´ıtica seja desconhecida durante a etapa 2 do algoritmo.
3.2.4
Resumo das etapas para implementa¸
c˜
ao dos m´
etodos MCMC
1. Estipula-se a fun¸c˜ao de verossimilhan¸ca l(y | θ) e especifica-se distribui¸c˜ao a priori para o vetor de parˆametros θ;
2. Obt´em-se o n´ucleo da posteriori π(θ | y) atrav´es do teorema de Bayes;
3. Obtida a densidade conjunta a posteriori, deve-se encontrar o n´ucleo de cada uma das condicionais completas e identificar quais correspondem a distribui¸c˜oes conhe-cidas;
4. Escolhe-se os valores iniciais no suporte do vetor param´etrico e a proposta q;
5. Aplica-se o algoritmo do amostrador de Gibbs, lembrando que, a cada vez que se fizer necess´ario amostrar de uma distribui¸c˜ao condicional completa cuja forma anal´ıtica seja desconhecida, convenciona-se utilizar um passo do algoritmo geral de Metropolis-Hastings;
6. Ap´os diagnosticar ind´ıcios de que a convergˆencia da cadeia foi alcan¸cada, considera-se os valores obtidos posteriormente pelo algoritmo como amostra da distribui¸c˜ao a posteriori;
7. Atrav´es da amostra final obtida ap´os escolher um espa¸camento adequado, estima-se as caracter´ısticas de interesse referentes `a distribui¸c˜ao a posteriori.
3.3
Modelos Dinˆ
amicos
N˜ao raramente, dados circulares s˜ao observados no tempo. Por exemplo, ´e t´ıpico ter-se esta¸c˜oes monitorando a dire¸c˜ao dos ventos ao longo do tempo. Extens˜oes dinˆamicas de modelos para dados circulares s˜ao muito ´uteis `a medida que possibilitam a modelagem de padr˜oes que evoluem no tempo e levam em conta a autocorrela¸c˜ao existente em uma s´erie temporal.
Considere uma s´erie temporal (Yt, t = 1, 2, 3, . . .), onde Yt ´e um vetor aleat´orio ob-serv´avel (m × 1). Para se fazer inferˆencia em s´eries temporais, em particular para prever o valor de Yt+1 dadas as observa¸c˜oes passadas (Y1, . . . , Yt), ´e preciso especificar a lei de probabilidade do processo {Yt}, ou seja, ´e preciso especificar a estrutura de dependˆencia entre as vari´aveis Yt0s (Petris et al. (2009)). Assuma-se que a lei de probabilidade asso-ciada a Yt dependa de um processo latente {θt}.
A.1 (θt, t = 0, 1, . . .) ´e uma cadeia de Markov, isto ´e, θt depende dos valores passados (θ0, θ1, . . . , θt−1) somente atrav´es de θt−1. Portanto, a lei de probabilidade do processo (θt, t = 0, 1, . . .) ´e especificada, atribuindo-se a densidade inicial p0(θ0) de θ0 e as densi-dades de transi¸c˜ao p(θt | θt−1) de θt condicionalmente a θt−1.
A.2 Condicionalmente a (θt, t = 0, 1, . . .) os Yt0s s˜ao independentes e Yt depende somente de θt. Ent˜ao, para qualquer n ≥ 1, (Y1, . . . , Yn) | (θ1, . . . , θn) tem densidade conjunta condicional Qn
t=1f (yt | θt).
A dependˆencia entre as vari´aveis pode ser deduzida a partir da lei de probabilidade do processo aleat´orio conjunto((θt, Yt), t = 1, 2, . . .) que ´e escrita a partir das suposi¸c˜oes (A1)-(A2). ´E importante ressaltar que Yt ´e condicionalmente independente das informa¸c˜oes passadas (Y1, . . . , Yt−1) dado o valor de θt, o que leva a uma outra interpreta¸c˜ao para θt: tal quantidade representa uma informa¸c˜ao quantitativa que sumariza o hist´orico passado
do processo observado e ajuda a prever o comportamento deste processo no futuro.
Uma classe muito importante de modelos de espa¸co de estados ´e dada pelos mode-los de espa¸co de estados lineares Gausssianos, tamb´em chamados de Modelos Lineares Dinˆamicos(MLD). Esta classe de modelos contempla os casos em que a resposta tem dis-tribui¸c˜ao normal. Para esses modelos em particular, o procedimento de inferˆencia pode ser encontrado em West e Harrison (1999, cap´ıtulo 4). H´a uma classe mais abrangente de modelos onde a resposta pertence `a fam´ılia exponencial e esta classe ´e chamada de modelos lineares dinˆamicos generalizados(MLDG). Esta classe engloba os modelos linea-res dinˆamicos, j´a que a distribui¸c˜ao normal pertence ´a fam´ılia exponencial. Um poss´ıvel esquema de inferˆencia neste contexto pode ser encontrado em West e Harrison (1999, cap´ıtulo 14).
3.3.1
Modelos Lineares Dinˆ
amicos (MLD)
A classe de Modelos Lineares Dinˆamicos (MLD) se aplica nos casos em que a distri-bui¸c˜ao da vari´avel resposta ´e normal. Esses modelos permitem explicar de forma dinˆamica a vari´avel resposta a partir de covari´aveis, blocos representando tendˆencia e sazonalidade e qualquer outra estrutura que possa ser ´util no estudo desta vari´avel dependente por meio de um preditor linear, quando se acredita que a rela¸c˜ao entre a resposta e as vari´aveis explicativas muda com o passar do tempo.
O MLD em sua forma geral ´e descrito por duas equa¸c˜oes, sendo elas a equa¸c˜ao de observa¸c˜ao, que descreve a rela¸c˜ao entre vari´aveis explicativas e a vari´avel resposta, e a equa¸c˜ao de evolu¸c˜ao, que descreve a forma com que os parˆametros do modelo variam conforme o tempo. Para cada t, um modelo linear dinˆamico univariado, representado pela qu´adrupla Ft, Gt, Vt, Wt´e definido por:
Equa¸c˜ao de Observa¸c˜ao: Yt= Ftθt+ νt, νt ∼ N [0, Vt] Equa¸c˜ao de Evolu¸c˜ao: θt= Gtθt−1+ wt, wt ∼ N [0, Wt]
Informa¸c˜ao Inical: (µ0 | D0) ∼ N [m0, C0]
onde as sequˆencias vt e wt s˜ao independentes e mutualmente independentes, al´em de serem independentes de (µ0 | D0). Para que se possa obter distribui¸c˜ao conjunta a pos-teriori de forma anal´ıtica, por meio do Filtro de Kalman, os valores de Vt e Wt podem ser desconhecidos, mas os valores de Gt e Ft s˜ao conhecidos.
Para os casos em que a distribui¸c˜ao da vari´avel resposta pertence `a fam´ılia exponen-cial, ´e poss´ıvel encontrar metodos para se fazer Inferˆencia Bayesiana em West e Harrison
(1999).
3.4
Esquemas de Amostragem em Modelos Dinˆ
amicos
Ao se trabalhar com modelos dinˆamicos em que a distribui¸c˜ao a posteriori n˜ao esteja dispon´ıvel analiticamente, ´e usual que se utilize os m´etodos MCMC decompondo o es-quema em amostragem dos estados condicional aos parˆametros est´aticos e amostragem dos parˆametros est´aticos condicional ao vetor de estados. No caso particular de mo-delos lineares dinˆamicos, os estados podem ser amostrados conjuntamente utilizando-se um tipo de amostrador de Gibbs chamado Foward Filtering Backward Sampling (FFBS) (Fruhwirth-Schnatter, 1994; Carter e Kohn, 1994).
3.4.1
Foward Filtering Backward Sampling
O esquema FFBS foi proposto em Fr¨uhwirth-Schnatter(1994) e Carter and Kohn (1994) com o objetivo de se obter amostras do vetor de estados em um Modelo Linear Dinˆamico(MLD) de forma eficiente. O algoritmo consiste em amostrar o vetor de estados conjuntamente utilizando as distribui¸c˜oes filtradas e suavizadas destes parˆametros. Para um MLD da forma:
Yt= F
0
tθt+ vt, vt N [0, Vt]
θt= Gtθt−1+ wt, wt N [0, Wt],
a amostragem do vetor de estados pode ser decomposta em dois passos e funciona da seguinte maneira:
Foward Filtering
Este passo consiste na obten¸c˜ao do vetor de m´edias mt e matriz de covariˆancias Ct atrav´es das equa¸c˜oes do filtro de Kalman(1960). O esquema para obten¸c˜ao destas quantidades se d´a da seguinte forma:
1. Posteriori em t-1: θt−1 | Dt−1 ∼ N [mt−1, Ct−1] 2. Priori em t: θt| Dt−1∼ N [at, Rt] onde: at= Gtmt−1 e Rt= GtCtG 0 t+ Wt
3. Preditiva: Yt| Dt−1∼ N [ft, Qt] onde: ft= F 0 tat−1 e Rt= FtRtF 0 t + Vt 4. Posteriori em t: θt | Dt ∼ N [mt, Ct] sendo: mt= at+ Atet e Ct= Rt− AtQtA 0 t onde: At = RtFtQ−1t e et= Yt− ft
Backward Sampling
O passo Backward Sampling do algoritmo ´e baseado na decomposi¸c˜ao da distribui¸c˜ao a posteriori conjunta dos parˆametros de estado da forma
p(θ1, ..., θT | DT) = p(θT | DT) T −1 Y t=1
p(θt | θt+1, Dt)
Pelo teorema de Bayes, para t=T-1,...,1,
p(θt | θt+1, Dt) ∝ p(θt+1| θt, Dt)p(θt | Dt)
representa a densidade de uma distribui¸c˜ao normal com m´edia
mst = mt+ CtG0t+1(Gt+1CtG0t+1+ Wt+1)−1(θt+1− Gt+1mt)
e variˆancia
Cts= Ct− CtG0t+1(Gt+1CtG0t+1+ Wt+1)−1Gt+1Ct
em que mt e Ct s˜ao o primeiro e segundo momentos obtidos atrav´es do Foward Filtering e ms
t e Cts s˜ao chamados momentos suavizados.
Algoritmo 3.1: Foward Filtering Backward Sampling
Usando o FFBS, a obten¸c˜ao de uma amostra do vetor param´etrico de estados na itera¸c˜ao i do algoritmo se d´a da seguinte forma:
1. Utiliza-se o Foward Filtering para calcular m(i)t e Ct(i), t=1,...,T, onde m(i)t e Ct(i) s˜ao o primeiro e segundo momentos da distribui¸c˜ao filtrada no tempo t.
2. Sorteia-se θT(i) da distribui¸c˜ao normal com vetor de m´edias m(i)T e matriz de co-variˆancia CT(i), onde θT(i) ´e o vetor de estados no tempo T.
3. Sorteia-se θ(i)t da distribui¸c˜ao normal com m´edia suavizada ms(i)t e variˆancia suavi-zada Cts(i), onde θt(i) ´e o vetor de estados no tempo t e ms(i)t e Cts(i) s˜ao o primeiro e segundo momentos da distribui¸c˜ao suavizada no tempo t.
Cap´ıtulo 4
Modelos Dinˆ
amicos para Dados
Circulares
No cap´ıtulo 3, foram abordados modelos e m´etodos de estima¸c˜ao usualmente utili-zados para se trabalhar com dados que assumam valores na reta. Por vezes, pode-se ter interesse em dados que sejam observados temporalmente e que possam assumir va-lores em um intervalo de comprimento 2π. Pode-se querer observar, por exemplo, como a dire¸c˜ao dos ventos muda ao longo de um dia em uma cidade, ou como o n´umero de pacientes que d˜ao entrada em certo hospital muda ao longo da semana. Para esses tipos de dados, os modelos e m´etodos de estima¸c˜ao estudados anteriormente podem n˜ao ser adequados.
O objetivo, neste cap´ıtulo, ´e trabalhar com modelos circulares sem prescindir do tra-tamento de autocorrela¸c˜ao temporal inerente a dados observados no tempo. Para isso, no presente trabalho, utilizou-se dois modelos base.
Modelo Von Mises Dinˆamico Yt∼ υM (µt, κ) µt= g(αt+ Ft0θt) αt ∼ υM (αt−1, κα) θt= Gtθt−1+ ωt, ωt ∼ N (0, Wt) Onde:
• θt ´e um vetor param´etrico associado a covari´aveis lineares;
• αt ´e um n´ıvel com evolu¸c˜ao dinˆamica;
• κ, κα e Wt s˜ao repectivamente parˆametros de concentra¸c˜ao observacional, concen-tra¸c˜ao da evolu¸c˜ao do n´ıvel e matriz de covariˆancia de evolu¸c˜ao;
• g(•) ´e uma fun¸c˜ao de liga¸c˜ao que mapeia valores da reta ao c´ırculo;
• Ft ´e um vetor de regressoras definidas na reta e supostas conhecidas;
• Gt´e a matriz de evolu¸c˜ao, cujas componentes s˜ao supostas conhecidas.
Uma extens˜ao natural para esse modelo seria considerar, ao inv´es de apenas um n´ıvel dinˆamico, um grupo de regressoras circulares com dinˆamica associada e fazer com que a evolu¸c˜ao do vetor de estados atrelado `as vari´aveis circulares tivesse uma distribui¸c˜ao Von Mises multivariada, como a proposta por Mardia et al. (2008). Uma dificuldade no uso dessa distribui¸c˜ao ´e o fato de que, para dimens˜oes superiores a 2, sua constante normalizadora n˜ao tem express˜ao anal´ıtica fechada.
Yt∼ W N (Ft0θt, σ2)
θt= Gtθt−1+ ωt,
ωt ∼ N (0, Wt)
onde:
• θt ´e o vetor de estados no tempo t;
• Ft ´e um vetor de regressoras definidas e/ou componentes sazonais, estruturais de tendˆencia e com todos os elementos supostos conhecidos;
• Gt´e a matriz de evolu¸c˜ao suposta conhecida.
4.1
Modelo Von Mises Est´
atico e Dinˆ
amico
O modelo Von Mises ´e um dos modelos mais utilizados ao se trabalhar com dados univariados de natureza circular. No contexto de inferˆencia Bayesiana, para um modelo est´atico da forma:
Yt∼ vM (µ, κ)
onde µ ´e est´atico,Guttorp e Lockhart(1988) sugerem prioris conjugadas para os casos em que um dos parˆametros da distribui¸c˜ao ou ambos s˜ao considerados desconhecidos.