Modelos para Séries Temporais de Dados Circulares

(1)

Modelos para s´

eries temporais de dados

circulares

Mariana Raniere Neves

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´etodos Estat´ısticos

2015

(2)

Modelos para s´

eries temporais de dados

circulares

Mariana Raniere Neves

Disserta¸cão de Mestrado submetida ao Programa de Pós-Gradua¸cão em Estat´ıstica do Instituto de Matemática da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obten¸cão do t´ıtulo de Mestre em Estat´ıstica.

Aprovada por:

Profa _{Mariane Branco Alves} D.Sc - IM - UFRJ - Orientadora.

Dani Gamerman PhD - IM - UFRJ.

Antonio Carlos Monteiro Ponce de Leon D.Sc - IME - UERJ.

Rio de Janeiro, RJ - Brasil 2015

(3)

`

(4)

“Nada do que foi será De novo do jeito que já foi um dia Tudo passa Tudo sempre passará

A vida vem em ondas Como um mar Num indo e vindo infinito

Tudo que se vê não é Igual ao que a gente Viu há um segundo Tudo muda o tempo todo No mundo

Não adianta fugir Nem mentir Pra si mesmo agora Há tanta vida lá fora Aqui dentro sempre Como uma onda no mar ”

(5)

Agradecimentos

Pela ajuda na conclusão deste trabalho, não poderia deixar de agradecer a algumas pessoas que foram essenciais para que eu conseguisse concluir mais esta etapa da minha vida. O término deste mestrado significa para mim não somente a conclusão de mais uma etapa da minha vida acadêmica, mas também mais uma vitória pessoal. O caminho até aqui foi árduo, mas o retorno é gratificante. Acredito hoje que posso tudo que quero, não por acreditar em for¸cas sobrenaturais ou m´ısticas, mas sim por saber que a maioria das coisas depende de esfor¸co e for¸ca de vontade. Esta disserta¸cão é motivo de muito orgulho para mim e espero que ela fa¸ca jus a todo incentivo que me foi dado.

Em primeiro lugar, agrade¸co a minha mãe que, apesar das diferen¸cas, sempre me garantiu uma educa¸cão de qualidade e que se preocupou em me incentivar a fazer uma pós-gradua¸cão já que segundo ela, gradua¸cão não é mais diferencial. Não foi preciso pagar para que eu tivesse acesso a um ensino médio, superior e a um mestrado de qualidade, mas sei que se necessário, eu teria incentivos e apoio financeiro, mesmo a grana sendo curta e compartilhada por cinco filhos. Mãe, esse trabalho é seu e é fruto de tudo que investiu em mim. Não há palavras para agradecer, mas retribuirei tudo com todo amor que puder dar.

Além da minha mãe, devo agradecer também aos meus irmãos e melhores amigos. Sou uma pessoa de muita sorte por possuir os la¸cos mais fortes com essas pessoas que amo tanto. Filipe, Gustavo, Miguel e Pedro muito obrigada por caminharem comigo nesta jornada, nada que eu disser será suficiente para expressar o meu amor por vocês.

Agrade¸co também ao meu pai e meus avós por me abrigarem enquanto eu estava estudando e não podia pagar por um lugar para mim.

(6)

Gostaria de agradecer também ao meu amigo Carlos pela maravilhosa companhia em todas horas nesta jornada e por toda ajuda com revisões, dúvidas, por estar sempre dis-pon´ıvel quando precisei. Ganhei o melhor presente no dia que por acaso me colocaram para trabalhar em conjunto com você. Devo agradecer também ao meu amigo Rafael pelas incontáveis revisões dos meus programas no R e por todo o incentivo que sempre me deu. Não posso esquecer de agradecer à Ingrid pela ajuda, incentivo e por me fazer companhia em todas as horas.

`

A minha amiga Lorena, agrade¸co pela revisão do texto, além de todo apoio e com-preensão sempre.

Agrade¸co muit´ıssimo `a Michelle, que apesar de ter um ritmo de vida muito diferente do meu, compreende as minhas necessidades e me d´a apoio incondicional.

Agrade¸co a Juliana, que um dia agradeci por ser minha melhor companhia, hoje agrade¸co por me ensinar de forma contradit´oria e emp´ırica que nada precisa ser na dor, tudo pode ser no amor.

Agrade¸co à Mariane por me orientar por tantos anos e por investir tempo em mim e no meu trabalho. Devo agradecer também pela paciência, incentivo, pelos conselhos na minha vida profissional e pessoal. Não posso deixar de dizer que te admiro e me sinto uma pessoa de sorte por ter um referencial de que tipo de professora quero ser.

`

A professora Alexandra, nunca posso deixar de agradecer por abrir tantas portas no meu caminho, pelas ótimas aulas de inferência na gradua¸cão e no mestrado.

Aos professores Antonio Carlos Monteiro Ponce de Leon, Dani Gamerman e Tha´ıs Cristina Oliveira da Fonseca, agrade¸co por aceitarem fazer parte da banca.

(7)

Resumo

Muitas vezes deseja-se trabalhar com observa¸c˜oes cujas medidas s˜ao expressas em ˆ

angulos. Para este tipo de dado, uma representa¸cão natural é o c´ırculo. Ademais, oberva¸cões periódicas também podem ser representadas no c´ırculo, onde a circunferência representa o per´ıodo . Para estes conjuntos de dados, a metodologia usual utilizada para se trabalhar com dados na reta leva a resultados errôneos. Pode-se ter interesse, ainda, em observar essse tipo de dado temporalmente. A metodologia para análises estat´ısticas nestes casos deve diferir daquelas usualmente utilizada para se trabalhar com dados na reta, levando-se em conta as particularidades inerentes à esse tipo de observa¸cão.

Dadas as limita¸cões dos métodos para análise de dados com representa¸cão no c´ırculo e a enxuta literatura a respeito de esquemas para estima¸cão em modelos para dados desta natureza, este trabalho se propõe a estudar diferentes modelos e métodos de estima¸cão para séries temporais de dados circulares. Os modelos abordados no presente trabalho tratam de problemas de diferentes naturezas. Os modelos dinâmicos abordados, por exemplo, se encarregam de tratar da autocorrela¸cão temporal de forma mais intuitiva, através da equa¸cão de evolu¸cão, e de poss´ıveis associa¸cões entre a variável resposta e ou-tras variáveis. Já os modelos de mistura, fazem o papel de aumentar a gama de aplica¸cões poss´ıveis, pois os mesmos podem ser assimétricos e multimodais. Por fim, os modelos de misturas markovianas abordados são utilizados para se ober estruturas flex´ıveis sem prescindir do tratamento de autocorrela¸cão temporal advinda da observa¸cão de variáveis temporalmente. Para se trabalhar com tais modelos, utilizam-se extensões de métodos com teoria já bem estabelecida.

(8)

A metodologia proposta neste trabalho é avaliada a partir de estudos simulados para cada um dos modelos abordados, por fim, através de uma aplica¸cão à dados reais.

Palavras-Chaves: modelos dinˆamicos, s´eries temporais, modelos de misturas, modelos de misturas markovianos, dados circulares e modelos circulares.

(9)

Abstract

It is known that observations which are depicted in angles are very often accom-plished. For this kind of data, the circle is a natural representation. Moreover, periodical observations can also be represented on the circle where the circumference corresponds to this period. The usual methodology used in the work with such data in the straight line can lead to misguided results. It is also possible to observe data of this nature in a time perspective. The methodology used in analytical statistics in these instances must differ from the ones usually found, taking into account the intrinsic singularities in this kind of observation.

Considering the limitation of methods of analysis of data in the representation on the circle, and also the bated literature on estimation schemes in models of data of this nature, the present paper aims at studying different models and methods of estimation for the time series of circular data.

The approached dynamic models, for instance are responsible for establishing tempo-ral autocorrelation in a more intuitive way through the evolution equation and through possible associations with the response variable and other variables. Meanwhile, the mix-ture models are responsible for enlarging the range of possible applications, for the former could be asymmetric and multimodal. Finally, the approached Markovs mixture models are used to obtain flexible structures without dispensing the temporal autocorrelation original from the observation of time variables.

In order to work with such models, there have been used extension methods with solid theoretical foundations. The proposed methodology is here tested through simulated

(10)

studies for each one of the models approached and, finally, through the application of actual data.

Keywords: dynamic models,temporal series, mixture models, markov mixture models, circular data, circular models.

(11)

Sum´

ario

1 Introdu¸c˜ao 1

2 Estat´ısticas Descritivas Circulares 8

2.1 Medidas de Posi¸c˜ao . . . 9

2.1.1 Dire¸c˜ao M´edia . . . 9

2.1.2 Dire¸c˜ao Mediana . . . 12

2.2 Medidas de Concentra¸c˜ao e Dispers˜ao . . . 13

2.2.1 Variˆancia Circular . . . 13

2.2.2 Desvio Padr˜ao Circular . . . 14

2.3 Modelos Circulares . . . 15 2.3.1 Uniforme Circular. . . 17 2.3.2 Distribui¸c˜ao Cardioide . . . 17 2.3.3 Von Mises . . . 18 2.4 Wrapped Models . . . 19 2.4.1 Wrapped Normal . . . 19

3 Métodos de Inferência Bayesiana e Modelos Dinâmicos 22 3.1 Inferência Bayesiana . . . 22

3.1.1 Teorema de Bayes . . . 22

3.1.2 Estima¸c˜ao Pontual . . . 25

3.1.3 Estima¸c˜ao Intervalar . . . 26

3.1.4 Distribui¸c˜ao Preditiva . . . 27

(12)

3.2.1 Introdu¸c˜ao. . . 28

3.2.2 Metropolis-Hastings. . . 29

3.2.3 Amostrador de Gibbs . . . 31

3.2.4 Resumo das etapas para implementa¸c˜ao dos m´etodos MCMC. . . 32

3.3 Modelos Dinˆamicos . . . 33

3.3.1 Modelos Lineares Dinˆamicos (MLD) . . . 34

3.4 Esquemas de Amostragem em Modelos Dinˆamicos . . . 35

3.4.1 Foward Filtering Backward Sampling . . . 35

4 Modelos Dinâmicos para Dados Circulares 40 4.1 Modelo Von Mises Estático e Dinâmico . . . 42

4.2 Modelo Wrapped Normal Dinˆamico . . . 45

4.2.1 Estudo Simulado . . . 51

5 Distribui¸c˜oes Circulares a partir de Misturas 55 5.1 Misturas de Distribui¸c˜oes: Fundamentos . . . 56

5.2 Estima¸c˜ao Bayesiana para modelos de mistura utilizando o MCMC . . . 58

5.3 Wrapped Misturas de Normais . . . 61

5.4 Modelos de Misturas Markovianas . . . 67

5.4.1 Estima¸c˜ao Bayesiana para modelos de misturas markovianas utili-zando o MCMC . . . 71

5.5 Wrapped Misturas Markovianas de Distribui¸c˜oes Normais . . . 77

6 Aplica¸cão a dados reais 83 7 Conclusões e trabalhos futuros 90 A Método Bayessiano de Estima¸cão para Modelos Von Mises 94 A.1 Modelo Von Mises Estático. . . 94

(13)

A.2.1 Condicionais Completas . . . 97

(14)

Lista de Figuras

2.1 Representa¸cão gráfica da utiliza¸cão da média aritmética em dados circulares . 9

2.2 Representa¸cão gráfica da utiliza¸cão da dire¸cão média circular . . . 12

4.1 Tra¸co da cadeia de σ2 e valor verdadeiro (vermelho) . . . 53

4.2 Dados × µ estimado (cinza) . . . 53

5.1 Tra¸co das cadeias de µ = (µ1, µ2) . . . 64

5.2 Tra¸co das cadeias de σ2 = (σ2₁, σ₂2) . . . 65

5.3 M´edia geral da mistura . . . 65

5.4 Variˆancia geral da mistura . . . 66

5.5 Média das médias da mistura em cada réplica e valor real da média da mistura (vermelho) . . . 66

5.6 Histograma da média das variâncias da mistura em cada réplica e valor real da variância da mistura (vermelho) . . . 67

5.7 Tra¸co das cadeias de µ = (µ1, µ2) . . . 79

5.8 Tra¸co das cadeias de σ2 = (σ2₁, σ₂2) . . . 80

5.9 M´edia geral da mistura . . . 80

5.10 Variˆancia geral da mistura . . . 81

5.11 Média das médias da mistura em cada réplica e valor real da média da mistura (vermelho) . . . 81

5.12 Histograma da média das variâncias da mistura em cada réplica e valor real da variância da mistura (vermelho) . . . 82

(15)

6.2 Diagrama de rosas com a dire¸cão média de cada mês em 2012, 2013 e 2014. . . 85

6.3 Histograma circular das dire¸cões dos ventos em cada mês de 2012, 2013 e 2014 86 6.4 Série de dire¸cão dos ventos observada e resposta média (vermelho) . . . 89

A.1 Tra¸cos da cadeia de µ utilizando o m´etodo encontrado em Damien and Walker (1999) . . . 95

A.2 Tra¸cos da cadeia de κ utilizando o m´etodo encontrado em Damien and Walker (1999) . . . 95

A.3 Estima¸cão dos parâmetros do modelo Von Mises em uma das réplicas utilizando o algoritmo proposto por Damien e Walker (1999).. . . 96

A.4 Estima¸cão dos parâmetros do modelo Von Mises utilizando o método MCMC programado de forma independente. . . 97

A.5 Cadeias de µt, para t = 25, 50, 75, 100 . . . 100

A.6 Cadeia de κ . . . 101

(16)

Cap´ıtulo 1

Introdu¸

c˜

ao

Muitas vezes deseja-se trabalhar com medidas que são dire¸cões. Um biólogo, por exemplo, pode ter interesse em analisar a dire¸cão do voo de um pássaro, enquanto que um meteorologista em estudar a dire¸cão dos ventos numa certa região. Um conjunto onde as observa¸cões são dire¸cões é chamado conjunto de dados direcionais.

Dire¸cões bidimensionais podem ser representadas como ângulos com respeito a uma dire¸cão zero e um sentido de rota¸cão. Como uma dire¸cão não tem magnitude, ela pode ser representada como um ponto na circunferência de um c´ırculo unitário centrado na origem ou como vetores unitários. Devido a essa representa¸cão circular, observa¸cões deste tipo são chamadas de dados circulares. De forma similar, observa¸cões tridimensionais são também chamadas de dados esféricos.

Além de dados direcionais, que parecem se adequar naturalmente a uma representa¸cão na circunferência, fenômenos periódicos, com per´ıodo conhecido, também podem ser representados em um c´ırculo, onde o comprimento da circunferência corresponde ao per´ıodo. Pode-se ter interesse em estudar, por exemplo, a criminalidade em certa ci-dade ao longo de um dia ou a chegada de pacientes com ataque card´ıaco em um hospital em certo per´ıodo de tempo. Outro exemplo seria utilizar o c´ırculo para representar os 365 dias do ano e fazer uma análise da ocorrência de acidentes de avião para avaliar

(17)

se os acidentes são uniformemente distribu´ıdos ao longo das esta¸cões do ano. Devido à poss´ıvel representa¸cão destes dados em uma circunferência, esses dados também podem ser chamados de dados circulares.

Para trabalhar com dados circulares, deve-se ter em mente que estes apresentam ca-racter´ısticas próprias, tanto em termos de modelagem quanto em termos de tratamento estat´ıstico descritivo. A representa¸cão numérica de um ângulo, por exemplo, pode não ser única, já que este valor depende tanto da escolha da origem quanto do sentido da rota¸cão. Logo, é importante assegurar que as conclusões obtidas através da análise destes tipos de dados levem em considera¸cão essas particularidades, ou seja, deve-se chegar a conclusões que não dependam da escolha da origem e do sentido de rota¸cão. Nota-se, também, que a compara¸cão da grandeza de duas observa¸cões também depende da escolha da origem e do sentido de rota¸cão. Além das particularidades apontadas anteriormente, deve-se observar que 0 e 2π representam o mesmo ponto no c´ırculo e a medida é periódica.

As caracter´ısticas desses tipos de observa¸cões fazem com que a metodologia necessária para a análise de dados direcionais seja bem diferente da metodologia usual, utilizada para análise de dados lineares. A necessidade de métodos estat´ısticos e medidas invarian-tes com respeito ao sentido de rota¸cão e à escolha da origem fazem com que a aplica¸cão de métodos usuais para a análise de dados leve a resultados sem sentido.

´

E poss´ıvel encontrar na literatura diferentes abordagens para se trabalhar com da-dos circulares. Em Mardia (1975) são apresentadas algumas distribui¸cões para dados circulares, por exemplo, sugere-se a Von Mises-Fisher, uma das distribui¸cões circulares mais utilizadas, caracterizada por dois parâmetros que descrevem dire¸cão média e con-centra¸cão. Detalhes sobre a análise de dados circulares podem ser vistos em Mardia

(1975) e Jammalamadaka e Sengupta (2001). Para o caso em que se deseja trabalhar com dados bivariados onde uma componente é um ângulo e a outra um número real,

Johnson e Wehrly (1978) sugerem algumas distribui¸c˜oes e modelos de regress˜ao. Em

(18)

mode-los de regressão para respostas angulares. No contexto da Inferência Bayesiana,Guttorp e Lockhart (1988) fornecem um método para se fazer inferência Bayesiana utilizando a distribui¸cão Von Mises. A proposta em Guttorp e Lockhart (1988) é elicitar prioris conjugadas para a estima¸cão dos parâmetros da Von Mises nos caso em que se tem um ou ambos os parâmetros desconhecidos. Damien e Walker (1999) fornecem uma análise bayesiana completa para os casos em que se trabalha com a distribui¸cão Von Mises e os parâmetros são supostos desconhecidos. O método sugerido se baseia nas prioris su-geridas por Guttorp e Lockhart (1988) e a ideia principal constitui-se na introdu¸cão de variáveis latentes, fazendo com que as condicionais completas dos parâmetros de interesse sejam conhecidas, facilitando o esquema de inferência no contexto de inferência bayesiana para dados circulares. Ao mesmo tempo que este artigo se destaca por fazer inferência Bayesiana completa, nota-se algumas limita¸cões, como descrito no presente trabalho: di-ficuldade computacional para tratamento de séries temporais longas foram observadas ao se aplicar o algoritmo proposto. Do ponto de vista do modelo propriamente dito, tem-se unimodalidade e simetria na distribui¸cão circular proposta, bem como pressuposto de independência entre observa¸cões. Ainda se tratando da distribui¸cão Von Mises, Gill e Hangartner (2010) apresentam um procedimento para regressão Bayesiana utilizando os métodos de Monte Carlo via cadeias de Markov (MCMC) para os casos em que supõe-se que a distribui¸cão da variável resposta é Von Mises e deseja-se estimar os parâmetros desta distribui¸cão, bem como os efeitos das covariáveis na variável resposta. Nestes casos, as variáveis explicativas são introduzidas no modelo através da dire¸cão média, o primeiro parâmetro da Von Mises. Como este parâmetro tem suporte no c´ırculo, é necessário que se utilize uma fun¸cão de liga¸cão, já que as regressoras têm suporte na reta real. Uma das desvantagens do método de estima¸cão sugerido no artigo, é que a estima¸cão de κ, o parâmetro de concentra¸cão da Von Mises, é feita através do método de máxima ve-rossimilhan¸ca, com estimativa pontual para tal parâmetro “plugada”a outras etapas do algoritmo, em que a estima¸cão dos demais parâmetros é tratada. Para a estima¸cão desses outros parâmetros do modelo, é utilizado o algoritmo de Metropolis-Hastings. Nos casos em que se tem uma série circular observada temporalmente, Lan et al. (2013) sugerem o uso de filtro de part´ıculas na estima¸cão do parâmetro de centralidade da distribui¸cão Von

(19)

Mises, , que supõe-se variar no tempo, mas ao mesmo tempo que é poss´ıvel estimar de forma Bayesiana este parâmetro, o autor não considera fazer a estima¸cão das variâncias de evolu¸cão e observa¸cão e esses últimos parâmetros são supostos conhecidos. A contri-bui¸cão do presente trabalho neste contexto, consiste na elabora¸cão de um método que possibilite a estima¸cão de todos os parâmetros de um modelo Von Mises dinâmico.

Uma outra abordagem poss´ıvel para se trabalhar com dados circulares é utilizar os chamados Wrapped Models. Tais modelos são constru´ıdos a partir de distribui¸cões com suporte na reta por meio de uma transforma¸cão que leva os valores da reta ao c´ırculo. A vantagem na utiliza¸cão desse tipo de abordagem provém do fato de ser poss´ıvel utilizar modelos com suporte que originalmente não seja no c´ırculo, proporcionando uma maior flexibilidade. Jona-Lasinio et al. (2012) constroem um modelo hierárquico para lidar com dados circulares quando supõe-se que a variável resposta tem distribui¸cão Wrapped Normal, e mostram que é poss´ıvel se fazer inferência Bayesiana nesses casos utilizando métodos de Monte Carlo via Cadeias de Markov (MCMC). A ideia consiste em estimar “k”, o número de voltas dadas no c´ırculo quando se faz a transforma¸cão de valores da reta para o c´ırculo. Condicionalmente a “k”, as distribui¸cões condicionais completas para os parâmetros da Wrapped Normal são conhecidos, o que faz com que esquemas MCMC funcionem de forma mais prática e eficiente. A ideia de introdu¸cão de “k”como uma variável latente a ser estimada será utilizada em todas as aplica¸cões de modelos ”wrap-ped”no presente trabalho. Neste artigo, os autores trabalham com uma componente que trata da autocorrela¸cão espacial, já que o conjunto de dados é observado no espa¸co, mas não são considerados casos em que uma série temporal é observada e deseja-se trabalhar com modelos que tratem de autocorrela¸cão temporal.

Holzmann et al. (2006) propõe modelos para séries temporais circulares. Tanto em um modelo Von Mises quanto em um modelo Wrapped Normal, o autor assume que os parâmetros variem num espa¸co discreto e finito, com uma estrutura Markoviana, responsável pela autocorrela¸cão temporal, dando conta da transi¸cão entre estados. A estima¸cão é feita por máxima verossimilhan¸ca. Hughes (2007) considera, entre outras

(20)

propostas, versões “wrapped”de modelos clássicos para séries temporais como mode-los autoregressivos. Mais recentemente, Mastrantonio et al. (2015) propõem proces-sos “wrapped”gaussianos espa¸co-temporais, especificando uma estrutura de covariância espa¸co-temporal não separável, mas preservam a dire¸cão média constante. Ainda com foco na estrutura de covariância,Wang e Gelfand (2014) trata, num contexto espa¸co-temporal, também com média fixa, a modelagem conjunta de uma variável circular e uma variável linear (como dire¸cão de ventos e altura de ondas). Admitimos, no presente trabalho, observa¸cões circulares em um contexto puramente temporal, em que a dire¸cão média evolua. A estrutura especificada para evolu¸cão da dire¸cão média induz, simulta-neamente, o tratamento de autocorrela¸cão temporal.

Nota-se que tanto a Von Mises quanto a Wrapped Normal são modelos unimodais e simétricos e que existe interesse em estruturas mais flex´ıveis que contemplem, por exem-plo, multimodalidade e assimetria no c´ırculo. Neste sentido, modelos de mistura são muito úteis, já que possibilitam a constru¸cão de estruturas que podem se adequar bem a conjuntos e dados assimétricos ou multimodais. Lan et al. (2013) consideram a mis-tura de distribui¸cões Von Mises, em um modelo estático e que pressupõe independência entre as observa¸cões. O procedimento de estima¸cão é feito por meio do algoritmo EM (Expectation-Maximization).

Não encontramos, na literatura, nenhum artigo de referência para os casos em que se deseja trabalhar com modelos wrapped mistura de normais utilizando inferência Bayesi-ana. Portanto, na elabora¸cão deste trabalho, foi necessário desenvolver uma metologia para esses casos. O método desenvolvido consiste na jun¸cão de ideias do artigo de Jona-Lasinio et al. (2012) e dos métodos de estima¸cão bayesianos para modelos de mistura encontrados em Fruhwirth-Schnatter (2006). Temos interesse em estruturas flex´ıveis sem, contanto, prescindir do tratamento da autocorrela¸cão para dados observados tem-poralmente. Uma outra contribui¸cão desta disserta¸cão é fornecer um método de es-tima¸cão bayesiano para modelos de mistura markovianos, mais especificamente, misturas de Wrapped Normal. A metodologia desenvolvida foi, mais uma vez, baseada na jun¸cão

(21)

das ideias encontradas em Jona-Lasinio et al. (2012) e Fruhwirth-Schnatter (2006).

Este trabalho tem como objetivo, portanto, propor modelos dinâmicos e modelos de misturas para dados circulares observados temporalmente, considerando-se formalmente tanto a autocorrela¸cão inerente a esse tipo de dado, quanto a possibilidade de distribui¸cão multimodal ou assimétrica no c´ırculo. O trabalho está estruturado como segue.

Nos cap´ıtulo 2 serão apresentadas estat´ısticas descritivas utilizadas para a análise de dados circulares, já que pela natureza deste tipo de dado, as estat´ısticas descritivas usuais não podem ser aplicadas, pois levam a resultados muitas vezes incoerentes e errôneos. Serão apresentadas medidas circulares equivalentes à média, mediana e variância na reta. Serão apresentados também, modelos usuais para dados circulares, sendo estes os mode-los com suporte natural no c´ırculo e os “Wraped Models”, que são obtidos a partir de um modelo com suporte na reta via uma opera¸cão matemática que leva os valores da reta ao c´ırculo.

O cap´ıtulo 3 abordará conceitos e métodos de estima¸cão utilizados no contexto de inferência Bayesiana, em particular são apresentados, sumariamente, elementos sobre o método de Monte Carlo via cadeias de Markov(MCMC). Será feita uma breve revisão sobre modelos dinâmicos e métodos para estima¸cão de parâmetros nestes modelos, par-tircularmente, o Forward Filter Bacward Sampling (FFBS).

No cap´ıtulo 4, serão apresentados modelos dinâmicos para dados circulares, como o modelo Von Mises dinâmico e o modelo Wrapped Normal dinâmico. Tais modelos naturalmente acomodam autocorrela¸cão em séries temporais circulares. Apresenta-se, também, a metodologia desenvolvida para se trabalhar com estes modelos e os resultados obtidos em simula¸cões com dados artificiais para cada modelo utilizado.

No cap´ıtulo 5, serão abordados modelos de mistura e modelos de misturas Marko-vianas para dados circulares. Ademais, serão apresentados os métodos de estima¸cão

(22)

desenvolvidos para se trabalhar com estes modelos e os resultados obtidos a partir de exerc´ıcios simulados.

Uma aplica¸cão dos modelos e métodos a dados reais de dire¸cão dos ventos será apre-sentada no cap´ıtulo 6.

Por fim, no Cap´ıtulo 7, serão apresentadas as conclusões e poss´ıveis extensões deste trabalho.

(23)

Cap´ıtulo 2

Estat´ısticas Descritivas Circulares

Como foi observado anteriormente, a análise estat´ıstica e medidas descritivas usuais não são adequadas para se trabalhar com dados circulares. Nesta se¸cão serão apresenta-das mediapresenta-das que se adequam melhor ao estudo de dados desta natureza.

Dados circulares podem ser representados como ângulos ou como pontos na circun-ferência de raio unitário, portanto, pode-se utilizar a representa¸cão em coordenadas pola-res ou retangulapola-res. Dado que se tem a reppola-resenta¸cão em uma das duas formas, é poss´ıvel converter a medida para outra forma equivalente.

Na análise de dados direcionais, usualmente se tem interessse na dire¸cão e não na magnitude do vetor, logo, a fim de facilitar a análise, esses vetores serão representados como vetores com comprimento unitário.

(24)

2.1 Medidas de Posi¸

c˜

ao

2.1.1 Dire¸

c˜

ao M´

edia

Em conjuntos de dados circulares unimodais, muitas vezes deseja-se definir uma dire¸cão média. Para calcular a dire¸cão média, seria natural pensar na média aritimética das observa¸cões. Supondo, por exemplo, que se tem duas medidas, 15o _{e 345}o_{, para} dire¸cão dos ventos em um certo dia em uma certa esta¸cão de medi¸cão no nordeste do Brasil e deseja-se calcular a dire¸cão média deste dia nesta esta¸cão, a média aritmética destes ângulos é 180o. Como se pode perceber pela figura2.1, a medida encontrada leva a uma conclusão totalmente equivocada sobre a dire¸cão média dos ventos, pois esta medida aponta para a dire¸cão errada.

(25)

O exemplo dado é apenas uma situa¸cão entre várias que podem ocorrer, onde a uti-liza¸cão da média aritmética para este tipo de dado pode levar a conclusões erradas. Uma medida apropriada da dire¸cão média para um conjunto de dados unimodal pode ser ob-tida considerando as observa¸cões como vetores unitários e calculando a dire¸cão do vetor resultante.

Sejam a1, a2, a3, . . . , anum conjunto de observa¸cões de ângulos dados em coordenadas polares, e considere a transforma¸cão polar para retangular para cada observa¸cão:

(cos ai, sen ai), i = 1, . . . , n.

O vetor resultante R dos n vetores unit´arios ´e obtido da seguinte forma:

R = ( n X i=1 cos ai, n X i=1 sen ai) = (C, S).

O tamanho do vetor resultante ´e determinado por:

R = kRk =√C2_{+ S}2

.

Propõe-se que a dire¸cão média circular, que será denotada por ¯α, seja dada pela dire¸cão do vetor resultante R. Pode-se definir a dire¸cão do vetor resultante pelas seguin-tes equa¸cões:

cos ¯α = C_R, sen ¯α = S_R.

(26)

¯ α = arctan∗ S C onde; ¯ α = arctan∗ S C =                            arctan _CS , se C > 0, S ≥ 0; π 2, se C = 0, S > 0; arctan _CS + π, se C < 0; arctan _CS + 2π, se C ≥ 0, S < 0; indefinido, se C = 0, S = 0. ¯

α é o centro do conjunto de dados e não depende do sentido de rota¸cão ou da escolha da origem (proposi¸cão 1.1,Jammalamadaka e Sengupta (2001, página 14)).

Voltando ao exemplo dado, calculando a dire¸cão média circular obtém-se o valor 0o. Pela figura 2.2, pode-se notar que este valor parece ser coerente com a interpreta¸cão intuitiva e levar a conclusões razoáveis sobre o problema.

(27)

Figura 2.2: Representa¸cão gráfica da utiliza¸cão da dire¸cão média circular

2.1.2 Dire¸

c˜

ao Mediana

Para se fazer uma estima¸cão robusta da mediana populacional, é útil obter uma versão circular da mediana. A dire¸cão mediana ˜α dos ângulos a1, a2, a3, . . . , an pode ser definida como um ângulo φ, tal que:

• Metade das observa¸c˜oes esteja no arco [φ, φ + π)

(28)

Quando o tamanho amostral n é ´ımpar, a dire¸cão mediana é uma das observa¸cões, mais especificamente a n+1₂ -ésima observa¸cão, sendo a primeira, a mais distante de φ pertencente a qualquer um dos dois arcos ([φ, φ + π) ou [φ − π, π)) . Quando n é par, é usual tomar a dire¸cão média como ponto médio das duas observa¸cões apropriadas.

2.2 Medidas de Concentra¸

c˜

ao e Dispers˜

ao

2.2.1 Variˆ

ancia Circular

O tamanho do vetor resultante R foi definido anteriormente por:

R = p(C2_{+ S}2₎

.

Pode-se definir ¯R, o tamanho m´edio do vetor resultante, como:

¯ R = q ( ¯C2_{+ ¯}_S2₎ , onde; ¯ C = 1 n n X i=1 cosai

(29)

¯ S = 1 n n X i=1 senai.

Dado que as observa¸cões a1, a2, a3, . . . , an são vetores unitários, tem-se que:

0 ≤ ¯R ≤ 1.

Se as dire¸cões a1, a2, a3, . . . , an estão muito concentradas em uma certa parte da cir-cunferência, R será próximo de 1. Por outro lado, se as observa¸cões estiverem dispersas, R será próximo de 0. Logo, R é uma medida de concentra¸cão do conjunto de dados. Note que para qualquer conjunto de dados da forma a1, a2, a3, . . . , an, a1+ π, a2+ π, a3+ π, . . . , an+ π, R = 0. Logo, se ¯R ≈ 0 não necessariamente as observa¸cões estão dispersas ao redor da circunferência. Ainda, ¯R é invariante sob rota¸cão.

Na maior parte dos casos, o tamanho do vetor médio resultante ¯R é a medida de concentra¸cão mais importante. Entretanto, por analogia a medidas para dados na reta, ´

e útil considerar medidas de dispersão circulares. Uma medida de dispersão circular é a variância circular amostral, definida como:

V = 1 − ¯R.

2.2.2 Desvio Padr˜

ao Circular

Além da variância circular, pode ser útil definir uma medida análoga ao desvio padrão usual. Uma maneira de obter essa medida é fazendo uma transforma¸cão da variância amostral V. Define-se o desvio padrão circular v como:

(30)

v={−2log(1 − V )}12 ₌−2log ¯_R 1 2

2.3 Modelos Circulares

Uma distribui¸cão circular é uma distribui¸cão de probabilidade na qual a probabilidade total está concentrada na circunferência de raio unitário. Há algumas maneiras de definir essas distribui¸cões, mas deve-se atentar para algumas caracter´ısticas peculiares. É im-portante, por exemplo, que o suporte da distribui¸cão volte ao ponto inicial, à medida que os valores aumentam. O suporte de uma variável aleatória circular θ, medida em radia-nos, pode ser qualquer intervalo de comprimento 2π, geralmente sendo [0, 2π) ou [−π, π). Distribui¸cões circulares podem ser essencialmente de dois tipos: discretas ou cont´ınuas. No caso cont´ınuo, a fun¸cão densidade de probabilidade satisfaz às seguintes propriedades:

• f (θ) ≥ 0;

• R2π

0 f (θ)dθ = 1;

• f (θ) = f (θ + k × 2π), para qualquer inteiro k.

Muitas distribui¸cões circulares úteis podem ser geradas a partir de distribui¸cões de probabilidade conhecidas através de uma série de mecanismos. Dois exemplos bastante interessantes de tipos de distribi¸cões obtidas desta forma são as “wrapped distributions”, que são obtidas “enrolando-se uma distribui¸cão linear ao redor de um c´ırculo unitário e as “offset distributions”, que são obtidas através da tranforma¸cão de uma variável

(31)

aleatória bivariada linear para seu componente direcional. A seguir, são apresentadas sucintamente algumas distribui¸cões circulares usuais.

(32)

2.3.1 Uniforme Circular

Se a probabilidade total está espalhada uniformemente sobre a circunferência, temos uma distribui¸cão Uniforme Circular:

f (θ) = 1

2π, 0 ≤ θ ≤ 2π.

Todas as dire¸cões têm igual densidade e por isso esta distribui¸cão é comumente co-nhecida como distribui¸cão isotrópica ou aleatória. Esta distribui¸cão não tem média bem definida e tem máxima entropia. Ela é muito importante na análise de dados circulares, pois representa a falta de “dire¸cão preferencial”.

Quando a distribui¸cão não é uniforme, espera-se uma concentra¸cão ao redor de uma ou mais dire¸cões. Usualmente, tem-se uma concentra¸cão maior ao redor de uma única dire¸cão e a distribui¸cão é unimodal. As distribui¸cões abordadas nos próximos tópicos são algumas das importantes distribui¸cões circulares unimodais.

2.3.2 Distribui¸

c˜

ao Cardioide

Se θ tem distribui¸cão cardioide, a sua fun¸cão densidade de probabilidade é dada por:

f (θ | µ, ρ) = 1 2π{1 + 2ρcos(θ − µ)}, 0 ≤ µ < 2π, − 1 2 < ρ < 1 2,

(33)

em que µ é a dire¸cão média e ρ é parâmetro de concentra¸cão. Essa distribui¸cão é umimodal e simétrica ao redor de µ.

2.3.3 Von Mises

Essa distribui¸cão foi introduzida como um modelo estat´ıstico por Von Mises (1918). EmGumbel et al.(1953), a Von Mises é também chamada de distribui¸cão “Normal Cir-cular”para enfatizar sua importância e semelhan¸ca com a distribui¸cão normal na reta real. Esta é a distribui¸cão circular mais comumente utilizada. Se θ é variável aleatória com distribui¸cão Von Mises (denota-se vM (µ, k)), θ tem suporte em qualquer intervalo de comprimento 2π e a sua fun¸cão de densidade é da forma:

f (θ | µ, k) = 1 2πI0(k)

ek(cos(θ−µ)),

onde µ é a dire¸cão média, 0 ≤ µ < 2π e k é parâmetro de concentra¸cão k ≥ 0. Aqui I0(k) na constante normalizadora representa a fun¸cão Bessel Modificada de primeiro tipo e ordem zero, dada por:

I0(k) = 1 2π Z 2π 0 ekcosθdθ = ∞ X 0 k 2 2r₁ r! 2 . (2.2)

A densidade é unimodal e simétrica em torno da dire¸cão média µ (0 ≤ µ < 2π) e k ≥ 0 é um parâmetro de concentra¸cão. Para fins computacionais, aproxima-se o so-matório infinito em (2.2), de acordo com um número de termos conveniente.

(34)

2.4 Wrapped Models

Outra alternativa para modelagem de dados circulares são os Wrapped Models, obti-dos ”enrolando-se”uma distribui¸cão originalmente definida na reta sobre a circunferência de raio unitário. De acordo com Mardia e Jupp (2009), se X é uma variável aleatória definida na reta, obtém-se uma variável circular Y ao definir-se Y = X(mod 2π). Se X tem fun¸cão de distribui¸cão acumulada F , então Y terá fun¸cão de distribui¸cão:

FY(y) = ∞ X k=−∞

{F (y + 2πk) − F (2πk)}, 0 ≤ y < 2π. (2.3)

Em particular, se X tem fun¸cão densidade de probabilidade f , então Y terá densidade:

fY(y) = ∞ X k=−∞ f (y + 2πk), 0 ≤ y < 2π. (2.4) ´

E poss´ıvel, portanto, contruir um “Wrapped Model” a partir de qualquer modelo que se queira.

De acordo com Jona-Lasinio et al. (2012), da equa¸cão (2.4), pode-se perceber que a distribui¸cão conjunta de (Y, K) ´_{e f (y + 2πk) com y ∈ [0, 2π) e K ∈ Z. Note que X} determina (Y, K) e vice-versa e a marginaliza¸cão com respeito a K produz (2.4). Da distribui¸cão conjunta, a distribui¸cão marginal de K é P (K = k) = R₀2πf (y + 2πk)dy. Além disso, K | Y = y é tal que P (K = k | Y = y) = P∞f (y+2πk)

j=−∞f (y+2πj) enquanto que

a condicional de Y | K = k ´e R2πf (y+2πk) 0 f (y+2πk)dy

. Logo, é fácil trabalhar com distribui¸cões enroladas, tratando K como variável latente.

(35)

Um Wrapped Model bastante utilizado é a distribui¸cão Wrapped Normal (µ, σ2),que é obtida “enrolando-se”a distribui¸cão Normal(µ, σ2_{) no c´ırculo. Se Y ∼ Wrapped Normal(µ, σ}2_), então a densidade de Y é dada por:

f (y | µ, σ2) = 1 σ√2π ∞ X k=−∞ exp −(y − µ + 2πk) 2 2σ2 . (2.5)

Outra representa¸c˜ao poss´ıvel para esta densidade ´e dada por:

f (y | µ, σ2) = 1 2π ( 1 + 2 ∞ X p=1 ρp2cos p(y − µ) ) , 0 ≤ ρ ≤ 1, (2.6)

onde p = exp−1₂σ2 . A distribui¸cão é unimodal e simétrica em torno da dire¸cão média µ (mod 2π). Quando ρ → 0, a densidade aproxima-se da Uniforme no c´ırculo, enquanto quando ρ → 1, a densidade tende à degenera¸cão com massa concentrada em µ.

SeguindoJona-Lasinio et al.(2012), a express˜ao (2.5), que envolve uma soma infinita, pode ser bem aproximada utilizando-se poucos termos, sem que seja necess´ario explorar todo o suporte da quantidade latente k, {0, ±1, ±2, . . .}.

EmMardia e Jupp(2009), para fins práticos, a densidade pode ser aproximada através do truncamento de k ∈ {−1, 0, 1} quando σ2 _{≥ 2π, enquanto que para σ}2 _{< 2π considerar} apenas ”k=0”já gera uma aproxima¸cão razoável. Segundo Jona-Lasinio et al. (2012), é poss´ıvel ser mais preciso. Suponha que translademos X para X0 = (X + π) mod 2π − π, resultando em um suporte simétrico [−π, π) , com a transla¸cão correspondente de µ para µ0. Se ϕ denota a fun¸cão de densidade da normal padrão, pode-se escrever:

Z π −π ∞ X −∞ 1 σϕ x + 2kπ − µ σ dx = ∞ X −∞ Z π −π 1 σϕ x + 2kπ − µ σ dx = ∞ X −∞ Z (2k+1)π−µ_σ (2k−1)π−µ σ ϕ(z)dz.

(36)

C´alculos revelam que, se kU = 1 + _3σ

2π = −kL, (onde bac denota a parte inteira de a), ent˜ao (2kU + 1)π − µ > 3π e (2kU− 1)π − µ < 3π. Como resultado,

∞ X −∞ Z (2k+1)π−µ_σ (2k−1)π−µ σ ϕ(z)dz > kU X k=kL Z (2k+1)π−µ_σ (2k−1)π−µ σ ϕ(z)dz > Z 3 −3 ϕ(z)dz = 0.997 (2.7)

A expressão (2.7) permite determinar o número necessário de termos para uma boa aproxima¸cão em fun¸cão de σ, por exemplo, se σ < 2π

3 , ent˜ao k ∈ {−1, 0, 1}; se 2π

3 σ < 4π

3 ent˜ao k ∈ {−2, −1, 0, 1, 2}. Ent˜ao K pode ser grande se e somente se σ2_{puder ser grande.}

(37)

Cap´ıtulo 3

M´

etodos de Inferˆ

encia Bayesiana e

Modelos Dinˆ

amicos

3.1 Inferˆ

encia Bayesiana

3.1.1 Teorema de Bayes

Em problemas de inferência paramétrica, tem-se interesse na estima¸cão ou tomada de decisão sobre quantidades não observáveis θ, ditas parâmetros, que indexam um mo-delo probabil´ıstico p(y|θ) subjacente ao comportamento de uma variável aleatória Y sob observa¸cão. Os procedimentos Bayesianos de inferência paramétrica caracterizam-se por utilizar, como fonte de informa¸cão para estima¸cão ou tomada de decisão sobre θ, não somente observa¸cões y1, . . . , yn de Y | θ (como nos métodos cássicos de inferência), mas também informa¸cão externa ao conjunto de dados observados, referentes a cren¸cas sub-jetivas sobre θ e refletindo a incerteza inicial do tomador de decisão.

A informa¸cão proveniente dos dados é traduzida pela fun¸cão de verossimilhan¸ca, de-notada por l(θ; y), em que y representa o conjunto de dados observado e θ os parâmetros a serem estimados. A fun¸cão de verossimilhan¸ca tem a mesma expressão que define o

(38)

modelo probabil´ıstico p(y | θ), porém são objetos matemáticos distintos. Do ponto de vista de estima¸cão ou tomada de decisões sobre θ passa-se a considerar p(y | θ) como fun¸cão de θ, desconhecido, condicional a um vetor de observa¸cões y e essa fun¸cão, cujo argumento agora é o vetor paramétrico, é denominada verossimilhan¸ca. A informa¸cão subjetiva, por sua vez, é incorporada ao modelo supondo uma distribui¸cão (ou densi-dade) de probabilidade denotada por π(θ) a priori para o vetor de parâmetros θ. O grau de incerteza sobre cada parâmetro está relacionado à variabilidade da respectiva priori: quanto maior a variabilidade, maior é a incerteza a priori (e consequentemente, menor o grau de subjetividade incorporado ao modelo).

O Teorema de Bayes, enunciado a seguir, estabelece a rela¸cão entre priori e verossi-milhan¸ca na composi¸cão da incerteza acerca dos parâmetros. Essa incerteza se traduz em termos probabil´ısticos através da distribui¸cão à posteriori, denotada por π(θ | y). A partir da posteriori são calculadas as estimativas dos parâmetros, as medidas de incer-teza, como por exemplo variância, entre outras.

Teorema 3.1. (Teorema de Bayes): Sejam θ o vetor de parâmetros com suporte Θ e distribui¸cão a priori π(θ), e y o vetor de observa¸cões com verossimilhan¸ca p(y | θ). Então a distribui¸cão a posteriori é dada por:

π(θ | y) = p(y | θ)π(θ)

R p(y | θ)π(θ)dθ ∝ p(y | θ)π(θ), (3.1)

em que o produto p(y | θ)π(θ) é chamado núcleo da distribui¸cão a posteriori.

De fato, qualquer fun¸cão obtida de p(y | θ)π(θ) através da multiplica¸cão de uma constante que não dependa de θ, mas que ocasionalmente dependa do vetor de dados y, pode ser chamada de núcleo da posteriori. Vale ressaltar que, sob o enfoque bayesiano na

(39)

atualiza¸cão da incerteza associada ao parâmetro θ via Teorema de Bayes, as observa¸cões y são consideradas valores numéricos conhecidos.

O Teorema de Bayes também pode ser visto sob o aspecto sequencial, segundo o qual cada observa¸cão é incorporada em sequência à informa¸cão a priori para compor a incerteza a posteriori. Mais especificamente, denotando o vetor de observa¸cões por y = (y1, y2, ..., yn), temos no instante zero a distribui¸cão a priori π(θ). Incorporada a primeira observa¸cão y1 à informa¸cão a priori, atualiza-se a incerteza a respeito de θ através do Teorema de Bayes, obtendo assim a distribui¸cão a posteriori no tempo 1:

π(θ | y1) ∝ p(y1 | θ)π(θ).

Agora, no instante 2, toda a informa¸cão prévia a respeito de θ (traduzida pela poste-riori no instante 1: π(θ | y1)) é considerada informa¸cão a priori e, ao ser combinada com a observa¸cão no tempo corrente, resulta na posteriori no instante 2:

π(θ | y1, y2) ∝ p(y2 | θ, y1)π(θ | y1) = p(y2 | θ)π(θ | y1),

onde a igualdade ocorre quando se supõe independência entre as observa¸cões, dado o conhecimento do vetor paramétrico, o que significa assumir que o vetor paramétrico sin-tetiza toda a informa¸cão necessária para determina¸cão do comportamento probabil´ıstico do vetor y antes de se observar os dados.

Analogamente, no tempo n tem-se a rela¸c˜ao de recorrˆencia:

π(θ | y1, ..., yn) ∝ p(yn | θ)π(θ | yn−1, ..., y1).

Através dessa rela¸cão, é poss´ıvel chegar à fórmula enunciada no Teorema de Bayes:

π(θ | y1, ..., yn) ∝ p(yn | θ)p(yn−1 | θ)...p(y1 | θ)π(θ)

(40)

onde a igualdade novamente ocorre quando se supõe independêcia entre as observa¸cões condicionadas ao vetor paramétrico, e que toda informa¸cão subjetiva sobre θ esteja re-sumida em π(θ) no instante 0.

Portanto, admitindo ausência de informa¸cão externa aos dados além da priori ini-cial, a distribui¸cão a posteriori obtida sequencialmente é a mesma obtida em uma única aplica¸cão do Teorema de Bayes considerando o vetor completo y = (y1, ..., yn) (Neves e

Zanini (2013)).

3.1.2 Estima¸

c˜

ao Pontual

Um dos maiores problemas de inferência estat´ıstica consiste na estima¸cão dos parˆ ame-tros. A densidade a posteriori obtida via teorema de Bayes contém toda descri¸cão pro-babil´ıstica da informa¸cão dispon´ıvel a respeito da quantidade de interesse. O gráfico da densidade a posteriori (ou sua expressão anal´ıtica) é a mais completa descri¸cão do pro-cesso inferencial. Entretanto, pode ser útil sumarizar a informa¸cão contida na posteriori, mas esse processo deve ser feito com cuidado.

A forma mais simples de sumarizar a informa¸cão é utilizar a estima¸cão pontual, e, neste caso, toda informa¸cão contida na distribui¸cão a posteriori é resumida em um único valor sobre a quantidade de interesse θ. A estima¸cão pontual consiste em calcular uma estimativa ˆθ para o parâmetro θ a partir de valores da amostra y e fontes adicionais de informa¸cão sobre θ. Geralmente, adota-se uma regra de decisão δ para calcular esta estimativa do parâmetro: escolhe-se um estimador δ(Y ) que minimiza uma fun¸cão perda L(δ(Y ), θ). Suponha que existe uma perda L(d, θ) para cada valor de θ e cada poss´ıvel estimativa d pentencente ao espa¸co paramétrico Θ. Desta forma, a perda esperada a posteriori ou risco a posteriori é calculado por:

r(d | y) = E[L(δ(Y ), θ)] = Z

Θ

(41)

Segundo Migon et al. (2014), uma regra de decisão δ∗ é ótima se tiver risco m´ınimo, ou seja, R(δ∗) < R(δ), ∀δ. Essa regra é chamada de regra de Bayes e seu risco é chamado de risco de Bayes. Os estimadores δ(Y ) obtidos minimizando-se o risco esperado a pos-teriori são chamados estimadores de Bayes.

As fun¸c˜oes de perda mais comumente utilizadas e seus respectivos estimadores de Bayes s˜ao:

• Fun¸cão perda quadrática: L(δ(Y ), θ) = (θ − δ(Y ))0(θ − δ(Y )); Média a posteriori: ˆθ = E(θ | y);

• Fun¸c˜ao perda absoluta: L(δ(Y ), θ) = k(θ − δ(Y ))k; Mediana a posteriori: ˆθ tal queR_−∞θˆ p(θ | y)dθ = 0.5;

• Fun¸c˜ao perda 0-1: L(δ(Y ), θ) =      k, sek(θ − δ(Y ))k > 0, sek(θ − δ(Y ))k ≤ ; Moda a posteriori: ˆθ tal que p(ˆθ | y) = supθ∈Θp(θ | y);

3.1.3 Estima¸

c˜

ao Intervalar

Como obsevado anteriormente, deve-se ter cautela ao tentar sumarizar a informa¸cão contida na distribui¸cão a posteriori, já que a forma mais adequada de expressar essa in-forma¸cão é através desta distribui¸cão. Ao se fazer uma estima¸cão pontual, a informa¸cão está sendo resumida em um único valor, o que muitas vezes pode não ser adequado. Além de calcular uma estimativa para o parâmetro, pode ser bastante útil estimar o quão pre-cisa é esta estimativa. Uma possibilidade é associar estimativas pontuais a medidas de incerteza sobre elas. Pode-se, por exemplo, através da distribui¸cão a posteriori, encontrar um intervalo para θ onde está concentrada a maior massa de probabilidade. Idealmente,

(42)

este intervalo deve ser o menor poss´ıvel, mas que contenha muita massa de probabili-dade. O tamanho deste intervalo informa a dispersão dos valores de θ. Assim, quanto menor comprimento do intervalo, mais concentrada está a distribui¸cão deste parâmetro e, quanto menor, mais dispersa está a distribui¸cão. Este intervalo é chamado intervalo de credibilidade.

Defini¸c˜ao: Seja θ uma quantidade desconhecida definida em Θ. Um intervalo C ∈ Θ ´

e um intervalo 100(1 − α)% de credibilidade para θ se P (θ ∈ C | y) ≥ 1 − α. Nesse caso, 1 − α ´e chamado n´ıvel de credibilidade.

Uma caracter´ıstica importante dos intervalos de credibilidade é que eles são invari-antes a transforma¸cões 1-a-1 do parâmetro, ou seja, se C é um intervalo de credibilidade 100(1−α)% para θ e φ = φ(θ) é uma transforma¸cão 1-a-1 de θ, então φ(C) é um intervalo de credibilidade 100(1 − α)% para φ.

3.1.4 Distribui¸

c˜

ao Preditiva

´

E interessante notar que o processo sequencial de inferência está intimamente ligado à distribui¸cão preditiva, a partir da qual são realizadas as previsões sob o enfoque inferen-cial bayesiano, no caso em que os dados constituem uma série temporal. A distribui¸cão preditiva é de grande importância não só pela sua capacidade de fazer previsões, como também para a avalia¸cão da adequa¸cão do modelo teórico formulado pelo estat´ıstico aos dados reais.

A distribui¸cão preditiva para uma observa¸cão futura yn+k, k ∈ N a partir do con-junto de observa¸cões y1, . . . , yn é a distribui¸cão de probabilidade (ou fun¸cão densidade) dada por

(43)

p(yn+k | yn, ..., y1) = Z

Θ

l(θ; yn+k)π(θ | yn, ..., y1)dθ = Eθ|y1,...,yn(l(θ; yn+k)).

Assim, o inverso da constante de proporcionalidade em (3.1) é justamente p(yn|y1, . . . , yn−1), isto é, a distribui¸cão preditiva 1 passo à frente, condicional a (y1, . . . , yn−1).

A distribui¸cão preditiva para yn+k pode ser interpretada como uma média dos valores de l(θ; yn+k) ponderados pela posteriori de θ | (yn, ..., y1). Neste ponto, é importante observar que a predi¸cão sob o enfoque Bayesiano é condicionada apenas à observa¸cão do vetor de observa¸cões, sem nenhuma dependência do vetor paramétrico.

3.2 Procedimento de inferˆ

encia via MCMC

3.2.1 Introdu¸

c˜

ao

Nem sempre é poss´ıvel obter a distribui¸cão a posteriori de forma anal´ıtica, devido à integral presente no denominador de (3.1). Nesse caso, a posteriori deve ser aproximada computacionalmente. Uma possibilidade é o uso de Métodos de Monte Carlo Via Cadeias de Markov.

Os métodos de Monte Carlo via Cadeias de Markov consistem em criar uma cadeia de Markov irredut´ıvel, recorrente positiva e aperiódica cujo espa¸co de estados Θ seja o suporte do vetor paramétrico θ, de modo que esta cadeia convirja em distribui¸cão para a densidade a posteriori π(θ | y), dado qualquer estado inicial em Θ da cadeia.

O que se faz é simular uma ou mais realiza¸cões dessa cadeia e tomar os valores obser-vados após um determinado número de itera¸cões m a partir do qual seja poss´ıvel assumir

(44)

que a distribui¸cão estacionária, ou seja, a densidade a posteriori, tenha sido alcan¸cada. Dessa forma, os algoritmos MCMC fornecem uma amostra simulada da distribui¸cão a posteriori e, a partir dela, pode-se estimar quaisquer medidas resumo (média, variância, quantis, enre outras) da posteriori através das respectivas medidas observadas na amos-tra obtida.

Uma forma emp´ırica de verificar a convergência para a distribui¸cão a posteriori de interesse é simular múltiplas cadeias independentemente, cada uma delas inicializada num ponto distinto no espa¸co paramétrico. Como a convergência é garantida para qual-quer estado inicial, a partir do momento em que as cadeias se encontram e passam a apresentar um mesmo comportamento ao longo do tempo, tem-se um forte ind´ıcio de que a distribui¸cão estacionária foi alcan¸cada. Denomina-se per´ıodo de aquecimento da cadeia o intervalo de tempo discreto transcorrido até se observar ind´ıcios da convergência.

Por fim, recomenda-se que o tamanho da amostra final seja grande para que se possa ter boas estimativas das caracter´ısticas de interesse a posteriori. Porém, também é de-sejável que os valores simulados não apresentem redundância, isto é, que não sejam muito autocorrelacionados. Do contrário, uma análise precipitada levando em conta apenas o tamanho da amostra simulada pode fazer parecer que as estimativas foram obtidas com uma precisão maior do que a realidade. O que se costuma fazer é, após o per´ıodo de aquecimento, tomar apenas os valores espa¸cados de k unidades no tempo, de forma que as autocorrela¸cões sejam próximas de zero.

A seguir, s˜ao descritos os dois m´etodos MCMC que foram implementados neste tra-balho: Metropolis-Hastings e o Amostrador de Gibbs.

3.2.2 Metropolis-Hastings

Sejam Θ o suporte do vetor paramétrico θ e {Xt} uma cadeia de Markov (C.M.) irredut´ıvel e aperiódica com fun¸cão de transi¸cão q : Θ → Θ. Costuma-se fazer referência

(45)

`

a fun¸c˜ao de transi¸c˜ao q como densidade proposta.

Considere a distribui¸cão a posteriori π?(θ) = π(θ | y) com núcleo n?(θ) e a C.M. com fun¸cão de transi¸cão p : Θ → Θ dada por:

p(θ1, θ2) = q(θ1, θ2)α(θ1, θ2), α(θ1, θ2) = min 1,π ?_(θ 2)q(θ2, θ1) π?_(θ 1)q(θ1, θ2) = min 1,n ?_(θ 2)q(θ2, θ1) n?_(θ 1)q(θ1, θ2) .

A fun¸c˜ao α garante que p e π? _{satisfa¸cam a condi¸c˜}_{ao de reversibilidade}

π?(θ1)p(θ1, θ2) = π?(θ2)p(θ2, θ1), ∀θ1, θ2 ∈ Θ.

Essa condi¸c˜ao implica π?_{ser distribui¸c˜}_{ao invariante da cadeia com fun¸c˜}_{ao de transi¸c˜}_ao p.

Portanto, fornecida a densidade proposta q, prossegue-se com a simula¸cão da cadeia com fun¸cão de transi¸cão p da seguinte da forma:

1. Escolhe-se um valor inicial θ(0) ∈ Θ (i=0);

2. Dado θ(i)_{, amostra-se um valor θ}? _{de q(θ}(i)_{, •);}

3. Com probabilidade α(θ(i), θ?), fazemos θ(i+1) = θ?e com probabilidade 1−α(θ(i), θ?) fazemos θ(i+1) _{= θ}(i)_.

4. Atualiza-se o contador i para i+1 e repete-se os passos 2 e 3.

A teoria subjacente garante que a cadeia de Markov com fun¸cão de transi¸cão p con-verge para a distribui¸cão π(θ | y) para qualquer densidade proposta q escolhida e qualquer valor inicial θ(0)_{. Cabe ressaltar, por´}_{em, que a escolha de q afeta bastante o tempo de} con-vergência da cadeia e, portanto, deve-se estudar boas propostas antes da implementa¸cão dos métodos MCMC. Gamerman (1998) e Migon et al. (2013), por exemplo, tratam de

(46)

duas formas de especificar a proposta q visando justamente diminuir o tempo computa-cional necessário à convergência das cadeias.

3.2.3 Amostrador de Gibbs

O amostrador de Gibbs é um caso particular do algoritmo de Metropolis-Hastings em que a probabilidade de aceita¸cão de cada valor gerado é sempre 1. Portanto, os argu-mentos que justificam a convergência do método são os mesmos exibidos na se¸cão anterior.

Seja θ = (θ1, . . . , θn) o vetor de parˆametros e, inicialmente, suponha conhecidas as n condicionais completas (θ1 | θ2, . . . , θn, y), . . . , (θn| θ1, . . . , θn−1, y). A seguir, descreve-se as etapas do algoritmo do amostrador de Gibbs:

1. Escolha n valores iniciais θ(0)₁ , . . . , θ(0)n (i=0)

2. Sorteia-se um valor θ(i+1)₁ de θ1 | θ (i) 2 , . . . , θ

(i) n ; Sorteia-se um valor θ(i+1)₂ de θ2 | θ

(i+1) 1 , θ (i) 3 , . . . , θ (i) n ; .. .

Sorteia-se um valor θ(i+1)n de θn| θ (i+1) 1 , . . . , θ

(i+1) n−1 ;

3. Repete-se a etapa anterior para as itera¸c˜oes seguintes (i=1,2,3,..).

A suposi¸cão inicial de que as condicionais completas são conhecidas não é estrita-mente necessária. Uma vez que o núcelo dessas distibui¸cões é sempre conhecido, pode-se utilizar um passo de Metropolis-Hastings para gerar valores de cada condicional completa cuja forma anal´ıtica seja desconhecida durante a etapa 2 do algoritmo.

(47)

3.2.4 Resumo das etapas para implementa¸

c˜

ao dos m´

etodos MCMC

1. Estipula-se a fun¸cão de verossimilhan¸ca l(y | θ) e especifica-se distribui¸cão a priori para o vetor de parâmetros θ;

2. Obtém-se o núcleo da posteriori π(θ | y) através do teorema de Bayes;

3. Obtida a densidade conjunta a posteriori, deve-se encontrar o n´ucleo de cada uma das condicionais completas e identificar quais correspondem a distribui¸c˜oes conhe-cidas;

4. Escolhe-se os valores iniciais no suporte do vetor param´etrico e a proposta q;

5. Aplica-se o algoritmo do amostrador de Gibbs, lembrando que, a cada vez que se fizer necess´ario amostrar de uma distribui¸c˜ao condicional completa cuja forma anal´ıtica seja desconhecida, convenciona-se utilizar um passo do algoritmo geral de Metropolis-Hastings;

6. Após diagnosticar ind´ıcios de que a convergência da cadeia foi alcan¸cada, considera-se os valores obtidos posteriormente pelo algoritmo como amostra da distribui¸cão a posteriori;

7. Através da amostra final obtida após escolher um espa¸camento adequado, estima-se as caracter´ısticas de interesse referentes à distribui¸cão a posteriori.

(48)

3.3 Modelos Dinˆ

amicos

Não raramente, dados circulares são observados no tempo. Por exemplo, é t´ıpico ter-se esta¸cões monitorando a dire¸cão dos ventos ao longo do tempo. Extensões dinâmicas de modelos para dados circulares são muito úteis à medida que possibilitam a modelagem de padrões que evoluem no tempo e levam em conta a autocorrela¸cão existente em uma série temporal.

Considere uma série temporal (Yt, t = 1, 2, 3, . . .), onde Yt é um vetor aleatório ob-servável (m × 1). Para se fazer inferência em séries temporais, em particular para prever o valor de Yt+1 dadas as observa¸cões passadas (Y1, . . . , Yt), é preciso especificar a lei de probabilidade do processo {Yt}, ou seja, é preciso especificar a estrutura de dependência entre as variáveis Y_t0s (Petris et al. (2009)). Assuma-se que a lei de probabilidade asso-ciada a Yt dependa de um processo latente {θt}.

A.1 (θt, t = 0, 1, . . .) é uma cadeia de Markov, isto é, θt depende dos valores passados (θ0, θ1, . . . , θt−1) somente através de θt−1. Portanto, a lei de probabilidade do processo (θt, t = 0, 1, . . .) é especificada, atribuindo-se a densidade inicial p0(θ0) de θ0 e as densi-dades de transi¸cão p(θt | θt−1) de θt condicionalmente a θt−1.

A.2 Condicionalmente a (θt, t = 0, 1, . . .) os Yt0s s˜ao independentes e Yt depende somente de θt. Ent˜ao, para qualquer n ≥ 1, (Y1, . . . , Yn) | (θ1, . . . , θn) tem densidade conjunta condicional Qn

t=1f (yt | θt).

A dependência entre as variáveis pode ser deduzida a partir da lei de probabilidade do processo aleatório conjunto((θt, Yt), t = 1, 2, . . .) que é escrita a partir das suposi¸cões (A1)-(A2). É importante ressaltar que Yt é condicionalmente independente das informa¸cões passadas (Y1, . . . , Yt−1) dado o valor de θt, o que leva a uma outra interpreta¸cão para θt: tal quantidade representa uma informa¸cão quantitativa que sumariza o histórico passado

(49)

do processo observado e ajuda a prever o comportamento deste processo no futuro.

Uma classe muito importante de modelos de espa¸co de estados é dada pelos mode-los de espa¸co de estados lineares Gausssianos, também chamados de Modelos Lineares Dinâmicos(MLD). Esta classe de modelos contempla os casos em que a resposta tem dis-tribui¸cão normal. Para esses modelos em particular, o procedimento de inferência pode ser encontrado em West e Harrison (1999, cap´ıtulo 4). Há uma classe mais abrangente de modelos onde a resposta pertence à fam´ılia exponencial e esta classe é chamada de modelos lineares dinâmicos generalizados(MLDG). Esta classe engloba os modelos linea-res dinâmicos, já que a distribui¸cão normal pertence á fam´ılia exponencial. Um poss´ıvel esquema de inferência neste contexto pode ser encontrado em West e Harrison (1999, cap´ıtulo 14).

3.3.1 Modelos Lineares Dinˆ

amicos (MLD)

A classe de Modelos Lineares Dinâmicos (MLD) se aplica nos casos em que a distri-bui¸cão da variável resposta é normal. Esses modelos permitem explicar de forma dinâmica a variável resposta a partir de covariáveis, blocos representando tendência e sazonalidade e qualquer outra estrutura que possa ser útil no estudo desta variável dependente por meio de um preditor linear, quando se acredita que a rela¸cão entre a resposta e as variáveis explicativas muda com o passar do tempo.

O MLD em sua forma geral é descrito por duas equa¸cões, sendo elas a equa¸cão de observa¸cão, que descreve a rela¸cão entre variáveis explicativas e a variável resposta, e a equa¸cão de evolu¸cão, que descreve a forma com que os parâmetros do modelo variam conforme o tempo. Para cada t, um modelo linear dinâmico univariado, representado pela quádrupla Ft, Gt, Vt, Wté definido por:

(50)

Equa¸cão de Observa¸cão: Yt= Ftθt+ νt, νt ∼ N [0, Vt] Equa¸cão de Evolu¸cão: θt= Gtθt−1+ wt, wt ∼ N [0, Wt]

Informa¸c˜ao Inical: (µ0 | D0) ∼ N [m0, C0]

onde as sequências vt e wt são independentes e mutualmente independentes, além de serem independentes de (µ0 | D0). Para que se possa obter distribui¸cão conjunta a pos-teriori de forma anal´ıtica, por meio do Filtro de Kalman, os valores de Vt e Wt podem ser desconhecidos, mas os valores de Gt e Ft são conhecidos.

Para os casos em que a distribui¸cão da variável resposta pertence à fam´ılia exponen-cial, é poss´ıvel encontrar metodos para se fazer Inferência Bayesiana em West e Harrison

(1999).

3.4 Esquemas de Amostragem em Modelos Dinˆ

amicos

Ao se trabalhar com modelos dinâmicos em que a distribui¸cão a posteriori não esteja dispon´ıvel analiticamente, é usual que se utilize os métodos MCMC decompondo o es-quema em amostragem dos estados condicional aos parâmetros estáticos e amostragem dos parâmetros estáticos condicional ao vetor de estados. No caso particular de mo-delos lineares dinâmicos, os estados podem ser amostrados conjuntamente utilizando-se um tipo de amostrador de Gibbs chamado Foward Filtering Backward Sampling (FFBS) (Fruhwirth-Schnatter, 1994; Carter e Kohn, 1994).

3.4.1 Foward Filtering Backward Sampling

O esquema FFBS foi proposto em Frühwirth-Schnatter(1994) e Carter and Kohn (1994) com o objetivo de se obter amostras do vetor de estados em um Modelo Linear Dinâmico(MLD) de forma eficiente. O algoritmo consiste em amostrar o vetor de estados conjuntamente utilizando as distribui¸cões filtradas e suavizadas destes parâmetros. Para um MLD da forma:

(51)

Yt= F

0

tθt+ vt, vt N [0, Vt]

θt= Gtθt−1+ wt, wt N [0, Wt],

a amostragem do vetor de estados pode ser decomposta em dois passos e funciona da seguinte maneira:

Foward Filtering

Este passo consiste na obten¸cão do vetor de médias mt e matriz de covariâncias Ct através das equa¸cões do filtro de Kalman(1960). O esquema para obten¸cão destas quantidades se dá da seguinte forma:

1. Posteriori em t-1: θt−1 | Dt−1 ∼ N [mt−1, Ct−1] 2. Priori em t: θt| Dt−1∼ N [at, Rt] onde: at= Gtmt−1 e Rt= GtCtG 0 t+ Wt

(52)

3. Preditiva: Yt| Dt−1∼ N [ft, Qt] onde: ft= F 0 tat−1 e Rt= FtRtF 0 t + Vt 4. Posteriori em t: θt | Dt ∼ N [mt, Ct] sendo: mt= at+ Atet e Ct= Rt− AtQtA 0 t onde: At = RtFtQ−1t e et= Yt− ft

(53)

Backward Sampling

O passo Backward Sampling do algoritmo é baseado na decomposi¸cão da distribui¸cão a posteriori conjunta dos parâmetros de estado da forma

p(θ1, ..., θT | DT) = p(θT | DT) T −1 Y t=1

p(θt | θt+1, Dt)

Pelo teorema de Bayes, para t=T-1,...,1,

p(θt | θt+1, Dt) ∝ p(θt+1| θt, Dt)p(θt | Dt)

representa a densidade de uma distribui¸c˜ao normal com m´edia

ms_t = mt+ CtG0t+1(Gt+1CtG0t+1+ Wt+1)−1(θt+1− Gt+1mt)

e variˆancia

C_ts= Ct− CtG0t+1(Gt+1CtG0t+1+ Wt+1)−1Gt+1Ct

em que mt e Ct s˜ao o primeiro e segundo momentos obtidos atrav´es do Foward Filtering e ms

t e Cts s˜ao chamados momentos suavizados.

Algoritmo 3.1: Foward Filtering Backward Sampling

Usando o FFBS, a obten¸cão de uma amostra do vetor paramétrico de estados na itera¸cão i do algoritmo se dá da seguinte forma:

(54)

1. Utiliza-se o Foward Filtering para calcular m(i)_t e C_t(i), t=1,...,T, onde m(i)_t e C_t(i) s˜ao o primeiro e segundo momentos da distribui¸c˜ao filtrada no tempo t.

2. Sorteia-se θ_T(i) da distribui¸cão normal com vetor de médias m(i)_T e matriz de co-variância C_T(i), onde θ_T(i) é o vetor de estados no tempo T.

3. Sorteia-se θ(i)_t da distribui¸cão normal com média suavizada ms(i)_t e variância suavi-zada C_ts(i), onde θ_t(i) é o vetor de estados no tempo t e ms(i)_t e C_ts(i) são o primeiro e segundo momentos da distribui¸cão suavizada no tempo t.

(55)

Cap´ıtulo 4

Modelos Dinˆ

amicos para Dados

Circulares

No cap´ıtulo 3, foram abordados modelos e métodos de estima¸cão usualmente utili-zados para se trabalhar com dados que assumam valores na reta. Por vezes, pode-se ter interesse em dados que sejam observados temporalmente e que possam assumir va-lores em um intervalo de comprimento 2π. Pode-se querer observar, por exemplo, como a dire¸cão dos ventos muda ao longo de um dia em uma cidade, ou como o número de pacientes que dão entrada em certo hospital muda ao longo da semana. Para esses tipos de dados, os modelos e métodos de estima¸cão estudados anteriormente podem não ser adequados.

O objetivo, neste cap´ıtulo, ´e trabalhar com modelos circulares sem prescindir do tra-tamento de autocorrela¸c˜ao temporal inerente a dados observados no tempo. Para isso, no presente trabalho, utilizou-se dois modelos base.

(56)

Modelo Von Mises Dinˆamico      Yt∼ υM (µt, κ) µt= g(αt+ Ft0θt) αt ∼ υM (αt−1, κα) θt= Gtθt−1+ ωt, ωt ∼ N (0, Wt) Onde:

• θt é um vetor paramétrico associado a covariáveis lineares;

• αt é um n´ıvel com evolu¸cão dinâmica;

• κ, κα e Wt são repectivamente parâmetros de concentra¸cão observacional, concen-tra¸cão da evolu¸cão do n´ıvel e matriz de covariância de evolu¸cão;

• g(•) é uma fun¸cão de liga¸cão que mapeia valores da reta ao c´ırculo;

• Ft ´e um vetor de regressoras definidas na reta e supostas conhecidas;

• Gté a matriz de evolu¸cão, cujas componentes são supostas conhecidas.

Uma extensão natural para esse modelo seria considerar, ao invés de apenas um n´ıvel dinâmico, um grupo de regressoras circulares com dinâmica associada e fazer com que a evolu¸cão do vetor de estados atrelado às variáveis circulares tivesse uma distribui¸cão Von Mises multivariada, como a proposta por Mardia et al. (2008). Uma dificuldade no uso dessa distribui¸cão é o fato de que, para dimensões superiores a 2, sua constante normalizadora não tem expressão anal´ıtica fechada.

(57)

Yt∼ W N (Ft0θt, σ2)

θt= Gtθt−1+ ωt,

ωt ∼ N (0, Wt)

onde:

• θt ´e o vetor de estados no tempo t;

• Ft ´e um vetor de regressoras definidas e/ou componentes sazonais, estruturais de tendˆencia e com todos os elementos supostos conhecidos;

• Gt´e a matriz de evolu¸c˜ao suposta conhecida.

4.1 Modelo Von Mises Est´

atico e Dinˆ

amico

O modelo Von Mises é um dos modelos mais utilizados ao se trabalhar com dados univariados de natureza circular. No contexto de inferência Bayesiana, para um modelo estático da forma:

Yt∼ vM (µ, κ)

onde µ é estático,Guttorp e Lockhart(1988) sugerem prioris conjugadas para os casos em que um dos parâmetros da distribui¸cão ou ambos são considerados desconhecidos.