• Nenhum resultado encontrado

Revisitando MLD para Família Exponencial P-Dimensional

N/A
N/A
Protected

Academic year: 2021

Share "Revisitando MLD para Família Exponencial P-Dimensional"

Copied!
94
0
0

Texto

(1)

Revisitando MLD para fam´ılia exponencial

p-dimensional

Ra´ıra Marotta Bastos Vieira

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´etodos Estat´ısticos

2018

(2)

Revisitando MLD para fam´ılia exponencial

p-dimensional

Disserta¸c˜ao de Mestrado submetida ao Programa de P´os-Gradua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do t´ıtulo de Mestre em Estat´ıstica.

Ra´ıra Marotta Bastos Vieira

Orientadores:

Mariane B. Alves

elio dos Santos Migon

Rio de Janeiro, RJ - Brasil 2018

(3)

Revisitando MLD para fam´ılia exponencial

p-dimensional

Ra´ıra Marotta Bastos Vieira

Disserta¸c˜ao de Mestrado submetida ao Programa de P´os-Gradua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios `a obten¸c˜ao do t´ıtulo de Mestre em Estat´ıstica.

Aprovada por:

Mariane Branco Alves DME/IM - UFRJ - Orientadora.

Dani Gamerman DME/IM - UFRJ.

Heudson Mirandola IM - UFRJ

Rio de Janeiro, RJ - Brasil 2018

(4)
(5)

Agradecimentos

`

A minha fam´ılia, por todo amor, suporte e compreens˜ao.

Aos meus amigos, por tornarem esta jornada mais leve e cheia de alegrias. Ao Matheus Rebelo, por todo carinho, cuidado e apoio.

Aos meus orientadores Mariane e Migon, por serem fonte inesgot´avel de inspira¸c˜ao. Al´em da paciˆencia e suporte durante essa jornada.

Ao professor Heudson Mirandola, por acreditar no trabalho e ser extramente sol´ıcito, nos ajudando a desenvolvˆe-lo.

(6)

Resumo

Os modelos lineares generalizados dinˆamicos s˜ao uma extens˜ao de modelos lineares dinˆamicos (no sentido de considerar respostas n˜ao gaussianas) e para modelos lineares generalizados, que consideram respostas na fam´ılia exponencial, mas presumem efeitos fixos ao longo do tempo. O presente trabalho revisita m´etodos de inferˆencia para essa classe de modelos n˜ao s´o no que concerne `a fam´ılia exponencial uniparam´etria como k-param´etrica. M´etodos como Conjugate Updating, Conjugate Updating Estendido e modelos n˜ao estruturados s˜ao apresentados. Neste trabalho apresenta-se uma extens˜ao do m´etodo Conjugate Updating Estendido para o caso Multinomial. Al´em do mais, uma nova abordagem via geometria da informa¸c˜ao para estima¸c˜ao de modelos lineares dinˆamicos generalizados ´e proposta. Conceitos como Divergˆencia de Kullback-Leibler e Teorema da Proje¸c˜ao s˜ao utilizados no desenvolvimento do m´etodo. Estudos simulados bem como aplica¸c˜ao a dados reais foram feitos e apresentaram resultados satisfat´orios.

Palavras-Chaves: inferˆencia bayesiana, modelos lineares dinˆamicos generalizados, ge-ometria da informa¸c˜ao, conjugate updating.

(7)

Abstract

Dynamic generalized linear models are an extension of dynamic linear models (in the sense of considering non-Gaussian responses) and for generalized linear models, which consider responses in the exponential family, but assume fixed effects over time. The present work revisits inference methods for this class of models, not only for the one-parameter exponential family but also for the k-one-parameter. Methods such as Conjugate Updating, Extended Conjugate Updating, and unstructured models are presented. In this work we extend the Extended Conjugate Updating method for the Multinomial case. Moreover, a new approach via information geometry is proposed for estimating dynamic generalized linear models. Concepts such as Kullback-Leibler Divergence and Projection Theorem are used in the development of the method. Simulation studies as well as application to real data were made and satisfactory results were obtained.

Keywords: bayesian inference, dynamic generalized linear models, information geo-metry, conjugate updating.

(8)

Sum´

ario

1 Introdu¸c˜ao 1

2 Conceitos B´asicos 5

2.1 Fam´ılia Exponencial . . . 5

2.1.1 Conjuga¸c˜ao na Fam´ılia Exponencial . . . 7

2.2 Geometria da Informa¸c˜ao. . . 10

2.2.1 Divergˆencias . . . 10

2.2.1.1 Divergˆencia de Bregman . . . 10

2.2.1.2 Divergˆencia de Kullback-Leibler . . . 11

2.2.2 Teoremas . . . 12

2.2.3 Exemplos de Proje¸c˜oes . . . 15

2.2.3.1 Projetando a Distribui¸c˜ao Log-Normal na Gama . . . . 15

2.2.3.2 Projetando a Distribui¸c˜ao Logito-Normal na Beta . . . . 18

3 Modelos Dinˆamicos Generalizados 20 3.1 Modelos Lineares Dinˆamicos . . . 22

3.2 Modelos Lineares Dinˆamicos Generalizados . . . 25

3.2.1 Conjugate Updating . . . 26

3.2.2 Modelos Dinˆamicos de N´ıvel Local . . . 30

4 MLDG via Geometria da Informa¸c˜ao 35 4.1 Introdu¸c˜ao . . . 35

(9)

4.2.1 Modelo Linear Dinˆamico Generalizado Poisson . . . 38

4.2.2 Modelo Linear Dinˆamico Generalizado Bernoulli/Binomial . . . . 41

4.2.3 Estudo de Simula¸c˜ao . . . 42

4.2.3.1 Modelo Poisson . . . 43

4.3 Compatibilizando diferentes modelos . . . 44

4.3.1 Modelo Linear Dinˆamico Generalizado Poisson . . . 46

4.3.2 Modelo Linear Dinˆamico Generalizado Bernoulli/Binomial . . . . 49

4.3.3 Aplica¸c˜ao . . . 50

5 Conjugate Updating estendido 58 5.1 Distribui¸c˜ao Gama . . . 61

5.2 Distribui¸c˜ao Normal . . . 63

5.3 Distribui¸c˜ao Multinomial . . . 65

5.3.1 Estudo Simulado . . . 72

5.4 Aplica¸c˜oes a dados reais . . . 75

6 Conclus˜ao 77 A Resultados secund´arios referentes `a s´erie de vendas 79 A.1 Tabela de resultados do modelo Poisson via Geometria da Informa¸c˜ao que compatibiliza modelos . . . 79

(10)

Lista de Tabelas

4.1 Resultados da estima¸c˜ao dos parˆametros do modelo de n´ıvel local . . . . 54

4.2 Tempo computacional gasto em cada um dos m´etodos . . . 54

4.3 Compara¸c˜ao dos modelos via geometria da informa¸c˜ao compatibilizando

modelos e sem compatibilizar, Conjugate Updating e modelo de n´ıvel local 57

A.1 Tabela com os resultados obtidos de acordo com os parˆametros s e ω para

(11)

Lista de Figuras

2.1 Exemplo do Teorema da Proje¸c˜ao . . . 13

2.2 Exemplo de Compatibiliza¸c˜ao de Vari´aveis . . . 14

2.3 Distribui¸c˜oes Log-Normal e Gama aproximadas atrav´es da minimiza¸c˜ao da

divergˆencia de Kullback-Leibler quando utilizados diferentes parˆametros

para as distribui¸c˜oes Log-Normal. . . 17

2.4 Distribui¸c˜oes Logito-Normal e Beta aproximadas atrav´es da minimiza¸c˜ao

da divergˆencia de Kullback-Leibler quando utilizados diferentes parˆametros para as distribui¸c˜oes Logito-Normal. . . 19

3.1 Ilustra¸c˜ao da evolu¸c˜ao do sistema . . . 23

4.1 Boxplots resultantes das r´eplicas para a m´edia a posteriori do parˆametro

natural e seus valores verdadeiros representados pela linha vermelha . . . 44

4.2 M´edia a posteriori da distribui¸c˜ao preditiva a um passo para diferentes

tamanhos de amostra junto ao seu intervalo de credibilidade. As escalas dos gr´aficos diferem para facilitar a visualiza¸c˜ao. . . 44

4.3 S´erie Observada . . . 51

4.4 Predi¸c˜ao 1 passo `a frente via geometria da informa¸c˜ao compatibilizando modelos e sem compatibilizar, Conjugate Updating e modelo de n´ıvel local junto a s´erie observada. Considerou-se que ap´os 10 passos todos os modelos

j´a tinham aprendido o comportamento da s´erie. . . 55

4.5 E(αt|DT) estimado por diferentes m´etodos . . . 55

(12)

5.1 Boxplots para as m´edias a posteriori dos parˆametros λ1t e λ2t junto aos

seus valores verdadeiros (linha vermelha).. . . 72

5.2 E(η1t|Dt) e E(η2t|Dt) (linha pontilhada azul) junto aos seus valores

verda-deiros (linha cont´ınua preta). . . 73

5.3 E(Y1t+1|Dt), E(Y2t+1|Dt) e E(Y3t+1|Dt) (linha pontilhada azul) junto a s´erie

observada (linha cont´ınua preta). . . 74

5.4 S´erie mensal do log-retorno da SP500 . . . 75

5.5 S´erie observada junto a predi¸c˜ao 1 passo a frente e seu respectivo intervalo de credibilidade.. . . 76

5.6 M´edia a posteriori filtrada e suavizada junto ao intervalo de credibilidade

da m´edia suavizada para o parˆametro da m´edia e de precis˜ao. . . 76

A.1 Cadeias resultantes obtidas pelo m´etodo MCMC para cada um dos parˆametros

(13)

Cap´ıtulo 1

Introdu¸

ao

Propostos por Nelder and Wedderburn (1972), os modelos lineares generalizados s˜ao uma extens˜ao dos modelos lineares que permitem que a vari´avel resposta tenha uma distribui¸c˜ao de probabilidade diferente da gaussiana, desde que sua distribui¸c˜ao perten¸ca `

a fam´ılia exponencial de distribui¸c˜oes. Entretanto, no contexto de s´eries temporais seu uso n˜ao ´e o mais adequado, pois ´e assumida a independˆencia entre as observa¸c˜oes, o que n˜ao ocorre em s´eries temporais.

Harrison and Stevens (1976) definiram a classe dos modelos lineares dinˆamicos e

desenvolveram uma abordagem bayesiana para tal tipo de modelagem e previs˜ao. A ideia ´e que os parˆametros possam variar no tempo. Desta forma, a rela¸c˜ao entre as covari´aveis e vari´avel resposta ´e dinˆamica, mantendo, condicionalmente aos estados a independˆencia dos observ´aveis.

Smith (1979) prop˜oe uma extens˜ao da metodologia de Harrison and Stevens (1976)

na qual considera a modelagem de dados com distribui¸c˜ao diferente da gaussiana. O autor busca encontrar formas alternativas para atualizar o n´ıvel da s´erie, uma vez que a simples adi¸c˜ao de termos de erro para infla¸c˜ao de incerteza acarreta intratabilidade para a priori, em contextos mais gen´ericos que o normal. ´E utilizado ent˜ao um processo de tomada de decis˜ao bayesiano, de forma que sejam satisfeitas as seguintes condi¸c˜oes: as decis˜oes relacionadas a uma determinada fun¸c˜ao perda dever˜ao permanecer constantes enquanto n˜ao houver informa¸c˜oes futuras, j´a perda esperada associada a essas decis˜oes aumentar´a no decorrer deste intervalo. A ideia ´e que a priori para os estados no tempo

(14)

t ´e proporcional `a priori do tempo t − 1 elevada a uma determinada potˆencia ω. Dessa forma, mant´em-se a m´edia da distribui¸c˜ao e a incerteza aumenta. Uma explica¸c˜ao mais detalhada sobre tal modelo poder´a ser encontrada na Se¸c˜ao 3.2.2.

Nessa linha de pensamento, Harvey and Fernandes(1989) apresentam uma forma de modelar a m´edia da s´erie para dados qualitativos e de contagem. Um hiperparˆametro ´e introduzido no modelo de forma que as observa¸c˜oes passadas s˜ao descontadas ao se fazer previs˜oes. O m´etodo de estima¸c˜ao escolhido para este hiperparˆametro foi o de m´axima verossimilhan¸ca. Vari´aveis explicativas podem ser inseridas atrav´es da fun¸c˜ao de liga¸c˜ao do Modelo Linear Generalizado (MLG). Tamb´em ´e permitido que efeitos sazonais e de tendˆencia sejam considerados na modelagem, contudo n˜ao ´e permitido que estes sejam estoc´asticos.

Gamerman et al.(2013) introduzem a classe dos Modelos Dinˆamicos da Fam´ılia Gama.

Tamb´em ´e apresentada uma especifica¸c˜ao expandida para a evolu¸c˜ao do sistema que, assim como emHarvey and Fernandes(1989), utiliza um hiperparˆametro na distribui¸c˜ao da componente do n´ıvel do modelo que atua como um fator de desconto. Como m´etodos de inferˆencia para tal, s˜ao utilizados o M´etodo de M´axima Verossimilhan¸ca e estimadores Bayesianos. Uma vantagem do m´etodo ´e que a forma anal´ıtica da verossimilhan¸ca ´e mantida.

Uma outra alternativa de inferˆencia para modelos lineares dinˆamicos generalizados ´e o m´etodo via compatibiliza¸c˜ao de momentos proposto porWest et al.(1985). Este utiliza m´etodos de aproxima¸c˜ao para obter as estimativas do modelo, uma vez que somente as distribui¸c˜oes do parˆametro canˆonico e da preditiva tˆem forma anal´ıtica fechada. Uma das dificuldades encontradas ´e que h´a duas distribui¸c˜oes a priori para o parˆametro natural da fam´ılia exponencial: uma induzida pelo vetor de estados e outra obtida por conjuga¸c˜ao da fam´ılia exponencial. A solu¸c˜ao encontrada por West et al. (1985), foi compatibilizar os momentos de tais prioris.

No que concerne `a compatibiliza¸c˜ao de prioris, Poole and Raftery(2000) e referˆencias citadas neste artigo prop˜oem uma metodologia denominada Bayesian Melding. S˜ao su-geridas duas formas de compatibiliza¸c˜ao: linear pooling e logarithm pooling. No primeiro caso, sugere-se uma combina¸c˜ao convexa de prioris, isto ´e, atribui-se pesos para cada

(15)

uma delas. J´a no segundo caso, ´e proposta uma multiplica¸c˜ao de prioris, de forma que cada uma ´e elevada a um determinado peso. Argumenta-se que o segundo caso ´e mais eficiente no sentido de que pode-se compatibilizar e depois atualizar a priori via Teorema de Bayes, ou atualizar e depois compatibilizar, obtendo-se a mesma posteriori, o que n˜ao acontece quando utilizada a metodologia linear pooling.

Nesta disserta¸c˜ao, ser´a proposta uma outra forma de compatibiliza¸c˜ao de prioris que utiliza conceitos de Geometria da Informa¸c˜ao tais como Teorema da Proje¸c˜ao e Divergˆencia de Kullback-Leibler. A ideia ´e projetar a priori induzida para o parˆametro canˆonico pelo vetor de estados no espa¸co da priori conjugada para este parˆametro e depois compatibiliz´a-las. Uma vez que as prioris s˜ao compatibilizadas, torna-se simples atualiz´ a-las. Duas distribui¸c˜oes a posteriori s˜ao obtidas para o preditor linear: uma induzida pela conjuga¸c˜ao do parˆametro canˆonico e outra induzida pela distribui¸c˜ao assumida para os estados. A solu¸c˜ao encontrada foi projetar a distribui¸c˜ao induzida pela conjuga¸c˜ao do parˆametro natural no espa¸co da distribui¸c˜ao induzida pelo vetor de estados. Uma vez que tal compatibiliza¸c˜ao seja feita, utilizamos o m´etodo Linear Bayes para obter os momentos do vetor de estados.

Souza et al. (2016) expandem a metodologia proposta por West et al. (1985) para a

fam´ılia exponencial biparam´etrica. Tal expans˜ao n˜ao ´e simples de ser feita, pois h´a de se resolver um sistema que conta, eventualmente, com mais equa¸c˜oes, referentes aos mo-mentos relacionados a m´edia e precis˜ao do vetor de preditores lineares, do que parˆametros provenientes da priori conjugada da fam´ılia exponencial. Como solu¸c˜ao, foi utilizado o M´etodo de Momentos Generalizado. Ser˜ao apresentado neste trabalho aplica¸c˜oes de tal metodologia, bem como uma solu¸c˜ao para o caso Multinomial, sendo esta uma extens˜ao do trabalho de Souza et al. (2016).

Este trabalho est´a organizado em 6 cap´ıtulos, incluindo este. O segundo cap´ıtulo cont´em conceitos b´asicos de fam´ılia exponencial e geometria da informa¸c˜ao para desen-volvimento das metodologias a serem propostas. O cap´ıtulo 3 revisita os m´etodos de estima¸c˜ao para MLDG sugeridos por West et al. (1985) e Gamerman et al. (2013). O quarto cap´ıtulo traz uma proposta de inferˆencia para os MLDG da fam´ılia exponencial uniparam´etrica via geometria da informa¸c˜ao. O cap´ıtulo 5 apresenta uma abordagem via

(16)

m´etodo Conjugate Updating estendido para a fam´ılia exponencial k-param´etrica, sugerida

por Souza et al. (2016). Por fim, o ´ultimo cap´ıtulo apresenta as conclus˜oes e trabalhos

(17)

Cap´ıtulo 2

Conceitos B´

asicos

Ao longo deste cap´ıtulo ser˜ao apresentados conceitos b´asicos que ser˜ao utilizados no desenvolvimento do modelo proposto. As se¸c˜oes deste cap´ıtulo est˜ao divididas entre Fam´ılia Exponencial e Geometria da Informa¸c˜ao.

2.1

Fam´ılia Exponencial

Uma distribui¸c˜ao ´e pertencente `a fam´ılia exponencial se a sua fun¸c˜ao densidade de probabilidade, p(y|η), pode ser escrita da seguinte forma (Bernardo and Smith (2001)):

p(y|η) = f (y)g(η)exp ( k X i=1 ciφihi(y) ) (2.1)

onde h = (h1, . . . , hk), φ(η) = (φ1, . . . , φk) e dadas as fun¸c˜oes f, h, φ e as constantes ci,

1 g(η) = Z Y f (y)exp ( k X i=1 ciφihi(y) ) dy < ∞. (2.2)

Ademais, se y1, . . . , yn ∈ Y ´e uma sequˆencia permut´avel tal que, dada a fam´ılia

exponencial regular k-param´etrica,

p(y1, . . . , yn) = Z H n Y i=1 p(y|η)dQ(η), (2.3)

(18)

para algum dQ(η), ent˜ao, Tn = Tn(y1, . . . , yn) = " n X i=1 h1(yi), . . . , n X i=1 hk(yi) # , n = 1, 2, . . . (2.4) ´

e uma sequˆencia de estat´ısticas suficientes.

Usualmente, a fam´ılia exponencial ´e apresentada em sua forma canˆonica. Tal repre-senta¸c˜ao pode ser obtida ap´os algumas tranforma¸c˜oes na defini¸c˜ao apresentada, resul-tando na seguinte express˜ao:

p(x|ψ) = c(x)expxtψ − b(ψ) . (2.5)

Em que x = (x1, . . . , xk), xi = hi(y), ψi = ciφi(η) e ψ = (ψ1, . . . , ψk) onde i = 1, . . . , k.

Utilizando elementos de sua representa¸c˜ao na forma canˆonica, podemos encontrar m´edia e variˆancia da distribui¸c˜ao em an´alise, isto ´e,

E(x|ψ) = ∇b(ψ), V (x|ψ) = ∇2b(ψ) (2.6) A seguir ser˜ao apresentados exemplos de distribui¸c˜oes pertencentes `a fam´ılia exponencial.

Exemplo 2.1.1 Poisson(η): p(y|η) = η ye−η y! = 1 y!exp {y log(η) − η}.

Dessa forma, a distribui¸c˜ao Poisson pertence `a fam´ılia exponencial uniparam´etrica com: x = h(y) = y, c(y) = 1/y!, ψ = log(η) e b(ψ) = η.

(19)

Exemplo 2.1.2 Normal(µ, σ2): p(y|µ, σ2) = √1 2πσ exp  −1 2σ2(y − µ) 2  = √1 2πσ exp  −1 2σ2(y 2− 2µy + µ2)  = √1 2π exp  −y2 2σ2 + µy σ2 − µ2 σ2 − 1 2log(σ 2 )  .

Portanto a distribui¸c˜ao Normal pertence `a fam´ılia exponencial biparam´etrica com vetor param´etrico η = (µ, σ2), onde: x

1 = h1(y) = y, x2 = h2(y) = y2, c(y) =

n 1 √ 2π o , ψ = [(−µ/σ2) , (−1/2σ2)] e b(ψ) = (1/2) {(µ22) + log(σ2)}. Exemplo 2.1.3 Bernoulli(η): p(y|η) = ηy(1 − η)1−y = exp  y log  η 1 − η  + log(1 − η)  .

Assim, a distribui¸c˜ao Bernoulli pertence `a fam´ılia exponencial uniparam´etrica onde: x = h(y) = y, c(y) = 1, ψ = log1−ηη  e b(ψ) = log(1 − η).

Exemplo 2.1.4 Multinomial com p categorias, assumindo Pp

i=1yi = n e Pp i=1ηi = 1: p(y|η) = Qpn! i=1yi! p Y i=1 ηyi i = Qpn! i=1yi! exp ( p X i=1 yilog(ηi) ) .

Portanto a distribui¸c˜ao Multinomial pertence `a fam´ılia exponencial p-param´etrica com vetor param´etrico η = (η1, . . . , ηk), onde: x1 = h1(y) = y1, x2 = h2(y) = y2, . . . , xp =

hp(y) = yp, c(y) = Qpn!

i=1yi! e ψ = (log(η1), . . . log(ηp)).

2.1.1

Conjuga¸

ao na Fam´ılia Exponencial

Uma caracter´ıstica importante da fam´ılia exponencial ´e que existe uma estat´ıstica suficiente para o vetor param´etrico com dimens˜ao fixa. Assim, torna-se simples encontrar

(20)

a distribui¸c˜ao a priori conjugada `a distribui¸c˜oes pertencentes a tal fam´ılia. A ideia ´

e que, uma vez atribu´ıda uma distribui¸c˜ao a priori para os parˆametros, e sendo esta pertencente `a fam´ılia exponencial, a distribui¸c˜ao a posteriori pertencer´a `a mesma classe de distribui¸c˜oes da priori havendo apenas uma mudan¸ca nos hiperparˆametros.

Seja y = (y1, . . . , yn) uma amostra de uma distribui¸c˜ao pertencente `a fam´ılia

expo-nencial tal que

p(y|η) = n Y i=1 f (yj) [g(η)] n exp ( k X i=1 ciφi(η) n X j=1 (yj) !) ,

ent˜ao a conjugada para η ter´a a seguinte forma (Bernardo and Smith (2001)):

p(η|τ ) = [K(τ )]−1[g(η)]τ0 exp ( k X i=1 ciφi(η)τi ) , η ∈ H,

onde τ ´e tal que K(τ ) =RH[g(η)]τ0

expnPk i=1ciφi(η)τi o dη < ∞. Exemplo 2.1.5 Poisson(η): p(y|η) = η Pn i=1yie−nη Qn i=1yi! = " n Y i=1 yi! #−1 exp {−nη} exp ( log(η) n X i=1 yi ) . Logo,

p(η|τ0, τ1) ∝ exp {−τ0η} exp {τ1log(η)}

= 1

K(τ0, τ1)

ητ1exp {−τ

0η} (2.7)

Sendo este o n´ucleo da distribui¸c˜ao Gama, pois ´e da forma ηae−bη. Assim, a priori

(21)

Exemplo 2.1.6 Bernoulli(p):

p(y|p) = pPni=1yi(1 − p)n−Pni=1yi

= (1 − p)nexp ( log(p) n X i=1 yi− log(1 − p) n X i=1 yi ) . Assim, p(p|τ0, τ1, τ2) ∝ (1 − p)τ0exp  τ1log  p 1 − p  = 1 K(τ0, τ1) pτ1(1 − p)τ0−τ2.

Dessa forma, o n´ucleo encontrado remete `a distribui¸c˜ao Beta.

Exemplo 2.1.7 Multinomial com k categorias, assumindo Pk

i=1yi = n, Pk i=1ηi = 1 e ηk= 1 − Pk−1 i=1ηi: p(y|η) = n! Qk−1 i=1 yi! k Y i=1 ηyi i ! η(n− Pk−1 i=1yi) k = n! Qk i=1yi! exp ( k X i=1 yilog  ηi ηk  + n log(ηk) ) . Deste modo, p(η|τ1, . . . , τp) ∝ exp ( k X i=1 τi  ηi ηk  + τ0log(ηk) ) = 1 K(τ0, . . . , τk) exp ( k X i=1 τi  ηi ηk  + τ0log(ηk) ) ,

(22)

2.2

Geometria da Informa¸

ao

2.2.1

Divergˆ

encias

No presente trabalho, a no¸c˜ao de divergˆencia ser´a aplicada da seguinte forma: ad-mitiremos que o vetor de estados que governam o preditor linear em um MDLG siga, a priori, distribui¸c˜ao gaussiana. Como veremos adiante, tal hip´otese induz uma distri-bui¸c˜ao de probabilidade para o parˆametro canˆonico da fam´ılia exponencial. Entretanto, como visto na subse¸c˜ao anterior, ´e poss´ıvel obter distribui¸c˜ao a priori conjugada para tal parˆametro. Buscaremos compatibilizar a distribui¸c˜ao conjugada e a distribui¸c˜ao induzida pelos estados por meio da minimiza¸c˜ao da divergˆencia entre estas.

A seguir, ser˜ao apresentadas as condi¸c˜oes para que uma determinada divergˆencia seja v´alida .

Sejam duas distribui¸c˜oes p(y) e q(y) em um espa¸co Y, que possuem como parˆametros ξP e ξQ, respectivamente. A divergˆencia entre estas, D[p : q], ´e uma fun¸c˜ao de tais

parˆametros que satisfazem os seguintes crit´erios:

1. D[p : q] ≥ 0.

2. D[p : q] = 0, se e somente se p = q.

3. Se p(y) e q(y) s˜ao distribui¸c˜oes suficientemente pr´oximas, denotando suas coorde-nadas como ξq = ξp + dξ, a expans˜ao de Taylor de D pode ser escrita como:

D[ξP : ξQ+ dξ] =

1 2

X

gij(ξP)dξidξj + O(|dξ|3),

e a matrix G = (gij) ´e positiva definida, dependendo de ξP.

2.2.1.1 Divergˆencia de Bregman

Sejam duas distribui¸c˜oes de probabilidade p(y) e q(y), parametrizadas por ξP e ξQ,

(23)

Dψ[p(y) : q(y)] = ψ(ξP) − ψ(ξQ) − ∇ψ(ξQ)T(ξP − ξQ), (2.8)

onde ∇ representa o gradiente da fun¸c˜ao. Se ψ(u) for definida como P

iuilog(ui), obt´em-se a divergˆencia de Kullback-Leibler a

ser apresentada a seguir.

2.2.1.2 Divergˆencia de Kullback-Leibler

Uma das m´etricas mais utilizadas para se medir dissimilaridades entre distribui¸c˜oes ´e a divergˆencia de Kullback-Leibler. Podemos defini-la da seguinte forma: sejam p(y) e q(y) duas distribui¸c˜oes de probabilidade da vari´avel aleat´oria Y , a divergˆencia de Kullback-Leibler ser´a dada por:

DKL[p(y) : q(y)] =

Z

p(y) logp(y)

q(y)dy (2.9)

Se Y for uma vari´avel discreta, a integral ´e substitu´ıda pelo somat´orio. A seguir encontra-se a prova de que a divergˆencia de KL ´e de fato uma divergˆencia.

Prova das condi¸c˜oes:

(a) DKL[p(y) : q(y)] ≥ 0:

Seja D = {Y : p(y) > 0} o espa¸co de p(y). Admita Y vari´avel aleat´oria cont´ınua,

−DKL[p(y) : q(y)] = −

Z

p(y) logp(y)

q(y)dy (2.10)

= Z

p(y) logq(y)

p(y)dy (2.11) ≤ log Z p(y)q(y) p(y)dy (2.12) = 0 (2.13)

Logo, DKL[p(y) : q(y)] ≥ 0. A equa¸c˜ao (2.12) ´e resultado obtido da Desigualdade de

(24)

(b) Se p(y) = q(y):

DKL[p(y) : p(y)] =

Z

p(y) logp(y) p(y)dy = 0

(c) Por expans˜ao de Taylor:

f (ξ) = f (ξ0) + fi(ξ)(ξ − ξ0)i+

1

2fij(ξ0)(ξ − ξ0)

i(ξ − ξ

0)j + O(|dξ|3)...

Onde fi(ξ) representa a primeira derivada e fij(ξ) a segunda derivada da fun¸c˜ao a

ser expandida em s´erie de Taylor; no caso em tela, a pr´opria Divergˆencia de KL. Conforme observado anteriormente, temos que f (ξ0) = 0 pois DKL[p(y) : p(y)] ´e

igual a zero por (a). Temos inclusive que fi(ξ) tamb´em ´e igual a zero, pois ´e a ponto

m´ınimo da fun¸c˜ao e a derivada do m´ınimo ´e zero.

Sejam as disribui¸c˜oes p(y) e q(y) parametrizadas por ξp e ξq+ dξ, respectivamente.

Assim, DKL[ξp : ξq+ dξ] = 1 2 X gij(ξp)dξidξj+ O(|dξ|3), onde, P gij(ξp) = fij(ξ0)(ξ − ξ0)i(ξ − ξ0)j

2.2.2

Teoremas

Os teoremas apresentados aqui servir˜ao como base para o desenvolvimento da metodo-logia proposta para a classe dos Modelos Lineares Dinˆamicos Generalizados. O teorema da proje¸c˜ao nos indica que a menor distˆancia entre duas distribui¸c˜oes vai ser equivalente a minimizar a Divergˆencia de KL entre elas, o que tamb´em equivale a igualar os momenos na fam´ılia exponencial. J´a o teorema seguinte nos auxilia no que concerne `a abordagem que compatibiliza modelos.

(25)

Teorema 2.2.1 (Teorema da proje¸c˜ao) Seja p(y) uma distribui¸c˜ao de probabilidade em um espa¸co Y. Considere S um modelo da fam´ılia exponencial em Y. O Teorema de Proje¸c˜ao afirma que a distribui¸c˜ao q(y) que minimiza a divergˆencia DKL[p : q] , q(y) ∈ S

´

e tal que Eq(hi(y)) = Ep(hi(y)) ∀i.

x x P Qp S M

Figura 2.1: Exemplo do Teorema da Proje¸c˜ao

Prova:

Seja τ = argminτDKL[p : q] = R p log p − R p log q . Observe que a primeira integral

n˜ao depende dos parˆametros em q(y), portanto focaremos na segunda integral. Temos que

− Z

p(y) log q(y) = − Z p(y) {h(y)η − b(η)} ∂ηi = Z p(y)hi(y) + ∂ηib(η) = −Ep(hi(y)) + µi = 0 µi = Ep(hi(y)) (2.14)

Teorema 2.2.2 Sejam R, Q e U distribui¸c˜oes de probabilidade equivalentes e pertencen-tes `a fam´ılia exponencial, parametrizadas respectivamente por ξr, ξq e ξu. Por defini¸c˜ao,

(26)

parˆametros de forma que ξx pode ser escrito da seguinte forma:

ξu = sξq+ (1 − s)ξr (2.15)

De forma que o uso dos teoremas (2.2.1) e (2.2.2) simultaneamente, resultam na compatibiliza¸c˜ao das distribui¸c˜oes em uma das abordagens propostas.

x x P Qp S S R x x U

(27)

2.2.3

Exemplos de Proje¸

oes

2.2.3.1 Projetando a Distribui¸c˜ao Log-Normal na Gama

Seja p(y) a distribui¸c˜ao Log-Normal. Queremos encontrar a distribui¸c˜ao Gama que melhor aproxima tal distribui¸c˜ao segundo a divergˆencia de Kullback-Leibler. Tal distri-bui¸c˜ao est´a representada aqui por q(y).

Pelo Teorema (2.2.1) apresentado, sabe-se que devemos encontrar a Gama que mini-miza a divergˆencia de Kullback Leibler.

Assim, deseja-se encontrar os parˆametros da Gama que minimizam a distˆancia de Kullback-Leibler. Ou seja, tem-se por objetivo encontrar o

minξ DKL(p : q) = min

Z

p(y) logp(y) q(y)dy

onde, p(y) ´e a distribui¸c˜ao Log-Normal(µ, σ2) e q(y) ´e a distribui¸c˜ao Gama(a, b).

Podemos reescrever a divergˆencia como

DKL(p : q) =

Z

p(y) log p(y)dy − Z

p(y) log q(y)dy. (2.16)

Observe que minimizar a divergˆencia de Kullback-Leibler ´e equivalente a maximizar a segunda integral, poisR p(y) log p(y)dy ´e uma constante que n˜ao depende dos parˆametros a e b.

Como,

log q(y) = a log b + (a − 1) log y − by − log Γ (a).

l(a, b) = Z

p(y) log q(y)dy = a log b + (a − 1)Ep(log y) − bEp(y) − log Γ (a)

= a log b + (a − 1)µ − b exp(µ + (1/2)σ2) − log Γ (a). (2.17)

Derivando e igualando a equa¸c˜ao (2.17) a zero ´e poss´ıvel encontrar os parˆametros da Gama que melhor aproxima uma distribui¸c˜ao Log-Normal.

(28)

Dessa forma,

∂l(a, b)

∂a = log b + µ − Ψ (a) (2.18)

∂l(a, b) ∂b =

a

b − exp(µ + (1/2)σ

2) (2.19)

onde Ψ (a) ´e a fun¸c˜ao digamma de a.

Igualando as derivadas acima a zero temos que:

b = exp(Ψ (a) − µ) (2.20)

a = b exp(µ + (1/2)σ2). (2.21)

Nas equa¸c˜oes (2.20) e (2.21), os parˆametros a e b ainda n˜ao puderam ser isolados de forma que um n˜ao dependesse mais do outro. Assim, o log foi aplicado nas equa¸c˜oes como forma de contornar esse problema. Al´em disso, aplicou-se uma aproxima¸c˜ao para Ψ (a) como proposto por Abramovitz:

Ψ (a) = log a − 1 2a + O  1 a2  , se a → ∞. Dessa forma, log b = log a − 1 2a− µ log a = log b + µ + (1/2)σ2. (2.22) Resolvendo esse sistema de equa¸c˜oes,

1

2a = (1/2)σ

2

a = 1

(29)

b = a exp(−µ − (1/2)σ2)

= 1

σ2exp(−µ − (1/2)σ

2). (2.24)

Foi poss´ıvel, portanto, encontrar os valores de a e b

a = σ−2 e b = σ−2exp−µ − (1/2)σ2 . (2.25) A Figura (2.3) exibe exemplos de aproxima¸c˜oes Gama para distribui¸c˜oes Log-Normal obtidas por meio da minimiza¸c˜ao da divergˆencia de Kullback-Leibler.

0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 Log−Normal(1,0.3) Gama Aprox 0 2 4 6 8 10 0.0 0.2 0.4 0.6

0.8 Log−Normal(0,1)Gama Aprox

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8 Log−Normal(0,2)Gama Aprox

0 5 10 15 20 0.00 0.04 0.08 Log−Normal(3,0.3) Gama Aprox

Figura 2.3: Distribui¸c˜oes Log-Normal e Gama aproximadas atrav´es da minimiza¸c˜ao da divergˆencia de Kullback-Leibler quando utilizados diferentes parˆametros para as distri-bui¸c˜oes Log-Normal.

(30)

2.2.3.2 Projetando a Distribui¸c˜ao Logito-Normal na Beta

Seja p(y) a distribui¸c˜ao Logito-Normal(µ, σ2). Queremos encontrar a distribui¸c˜ao Beta(a, b) que melhor aproxima tal distribui¸c˜ao segundo a distˆancia de Kullback-Leibler. Tal distribui¸c˜ao Beta est´a representada aqui por q(y).

DKL(p : q) =

Z

p(y) log p(y)dy − Z

p(y) log q(y)dy. (2.26)

Assim, basta maximizar a segunda integral, pois a primeira n˜ao depende dos parˆametros da Beta que se deseja obter.

log q(y) = (a − 1) log(y) + (b − 1) log(1 − y) + log Γ (a + b) Γ (a)Γ (b)

 .

l(a, b) = Z

p(y) log q(y)dy = (a − 1)Ep(log(y)) + (b − 1)Ep(log(1 − y)) + log

 Γ (a + b) Γ (a)Γ (b)



Os momentos da distribui¸c˜ao Logito-Normal n˜ao tˆem solu¸c˜ao anal´ıtica. Para contor-nar esse problema, foi utilizado o m´etodo de Monte-Carlo para encontrar E(log(y)) e E(log(1 − y)). Uma vez encontrado tais valores esperados, segue-se para o pr´oximo passo, que ´e encontrar os parˆametros a e b da Beta.

Dessa forma,

∂l(a, b)

∂a = E(log(y)) + Ψ (a + b) − Ψ (a) (2.27)

∂l(a, b)

∂b = E(log(1 − y)) + Ψ (a + b) − Ψ (b) (2.28) onde, Ψ (θ) representa a fun¸c˜ao digamma de θ. Aqui tamb´em utilizou-se como apro-xima¸c˜ao de Ψ (θ) como proposto por Abramovitz:

Ψ (θ) = log (θ) − 1 2θ.

(31)

log b − 1

2b = E(log(1 − y)) + Ψ (a + b); log a − 1

2a = E(log(y)) + Ψ (a + b). (2.29)

Observe que n˜ao ´e poss´ıvel isolar os parˆametros a e b analiticamente. Para que tais resultados pudessem ser encontrados, foi utilizado o m´etodo de Newton-Raphson.

A Figura(2.4) exibe exemplos de aproxima¸c˜oes Beta para distribui¸c˜oes Logito-Normal obtidas por meio da minimiza¸c˜ao da divergˆencia de Kullback-Leibler.

0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 Beta − Aproximada Logito−Normal(1,0.6) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 Beta − Aproximada Logito−Normal(0,1) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 Beta − Aproximada Logito−Normal(0,2.6) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 Beta − Aproximada Logito−Normal(0.6,1)

Figura 2.4: Distribui¸c˜oes Logito-Normal e Beta aproximadas atrav´es da minimiza¸c˜ao da divergˆencia de Kullback-Leibler quando utilizados diferentes parˆametros para as distri-bui¸c˜oes Logito-Normal.

(32)

Cap´ıtulo 3

Modelos Dinˆ

amicos Generalizados

´

E bastante usual ter-se interesse na modelagem de vari´aveis que n˜ao s˜ao acomodadas por uma distribui¸c˜ao normal. Por exemplo, vari´aveis bin´arias ou de contagem e vari´aveis com comportamento assim´etrico. Este cap´ıtulo tem por objetivo apresentar a classe dos modelos lineares generalizados tanto na sua forma est´atica quanto dinˆamica. No que se refere `a inferˆencia na classe dos modelos lineares dinˆamicos generalizados, ser˜ao apresentados os m´etodos de inferˆencia via Conjugate Updating e via modelos dinˆamicos que admitem evolu¸c˜ao somente da m´edia o qual denominaremos de modelos dinˆamicos n˜ao estruturados.

Os modelos dinˆamicos lineares generalizados podem ser vistos como uma generaliza¸c˜ao dos modelos lineares generalizados, no sentido de aliar `a flexibilidade de respostas n˜ao gaussianas, efeitos dinˆamicos associados a covari´aveis e outras componentes estruturais. Tal mecanismo de dinˆamica naturalmente acomoda a autocorrela¸c˜ao inerente a dados temporalmente observados.

Os modelos lineares generalizados s˜ao uma extens˜ao dos modelos lineares para res-posta gaussiana. Propostos por Nelder e Wedderburn (1972), estes permitem que a vari´avel que se deseja analisar tenha uma distribui¸c˜ao de probabilidade diferente da gaussiana, uma vez que sua distribui¸c˜ao perten¸ca `a fam´ılia exponencial de distribui¸c˜oes.

Os modelos lineares generalizados contˆem trˆes componentes, sendo:

(33)

distribui¸c˜ao pertencente `a fam´ılia exponencial na forma canˆonica.

(b) componente sistem´atica dada por um preditor linear λ constru´ıdo com base nas vari´aveis explicativas do modelo, x = (x1, . . . , xp);

(c) uma fun¸c˜ao g mon´otona e diferenci´avel que liga o valor esperado de T , µ = E(Y ), ao preditor linear λ denominada fun¸c˜ao de liga¸c˜ao. Embora a fun¸c˜ao de liga¸c˜ao possa ser especificada arbitrariamente, uma forma de se determinar g ´e atrav´es da parametriza¸c˜ao natural (canˆonica) da fam´ılia exponencial. Tem-se ent˜ao:

λi = g(µi) (3.1)

onde λi ´e o preditor linear, µi ´e a m´edia e g a fun¸c˜ao de liga¸c˜ao.

´

E assumido que a m´edia transformada segue um modelo linear, de forma que:

λi = xTi β. (3.2)

Como a fun¸c˜ao ´e um-a-um,

µi = g−1(xTi β). (3.3)

H´a diversas formas de se escolher a fun¸c˜ao de liga¸c˜ao a ser utilizada, sendo o m´etodo mais usual ´e considerar ψi = λi, onde ψi ´e chamado parˆametro canˆonico da

distri-bui¸c˜ao. Dessa forma, esse tipo de fun¸c˜ao de liga¸c˜ao ´e chamada de fun¸c˜ao de liga¸c˜ao canˆonica.

(34)

3.1

Modelos Lineares Dinˆ

amicos

Um caso particular dos modelos dinˆamicos lineares generalizados s˜a os modelos li-neares dinˆamicos, para os quais pressup˜oe-se resposta gaussiana. Harrison and Stevens

(1976) definiram a classe dos modelos lineares dinˆamicos e desenvolveram uma aborga-gem Bayesiana para tal tipo de modelaaborga-gem e previs˜ao. A ideia ´e que os parˆametros possam variar no tempo. Desta forma, a rela¸c˜ao entre as covari´aveis e a vari´avel resposta ´

e dinˆamica. ´E importante ressaltar que os MLG (e os Modelos Lineares normais, que s˜ao um de seus casos particulares) n˜ao d˜ao tratamento `a dependˆencia temporal inerente a da-dos observada-dos ao longo do tempo, o que ocorre no caso da-dos Modelos Lineares Dinˆamicos.

Sejam:

θt o vetor de estados de dimens˜ao p × 1;

Yt o vetor de observa¸c˜oes de dimens˜ao r × 1;

Ft a matriz que cont´em as covari´aveis no tempo t de dimens˜ao p × r;

Gt a matriz de evolu¸c˜ao param´etrica no tempo t de dimens˜ao p × p ;

Vt e Wt matrizes de covariˆancia, sendo a primeira relacionada ao erro observacional e a

segunda ao erro evolutivo.

Um modelo dinˆamico ´e caracterizado pela qu´adrupla {Ft, Gt, Vt, Wt} e sua estrutura

mais geral pode ser definida da seguinte forma:

Equa¸c˜ao Obs.: Yt = Ft0θt+ νt onde νt∼ N (0, Vt) (3.4)

Equa¸c˜ao Evol.: θt = Gtθt−1+ ωt onde ωt∼ N (0, Wt) (3.5)

onde a primeira equa¸c˜ao ´e a observacional e a segunda ´e a de evolu¸c˜ao.

Seja Dt o hist´orico das informa¸c˜oes at´e o tempo t e admita Dt= Dt−1∪ Yt, com D0

denotanto a informa¸c˜ao que se tem antes da primeira observa¸c˜ao. Assuma a informa¸c˜ao inicial como (θ0|D0) ∼ N (m0, C0).

(35)

asso-cia¸c˜ao entre θt e θt−1, explicitada na equa¸c˜ao de evolu¸c˜ao em 3.5. O tratamento da

autocorrela¸c˜ao temporal entre as quantidades observ´aveis y1, ..., yt ´e viabilizado por tal

rela¸c˜ao, como ilustra a figura 3.1:

yt−1 yt

θt−1 θt

Figura 3.1: Ilustra¸c˜ao da evolu¸c˜ao do sistema

Os erros observacionais e evolutivos s˜ao independentes ao longo do tempo e uns com os outros. Os erros ωt controlam a evolu¸c˜ao atrav´es de sua variˆancia, elementos da diagonal

principal de Wt. Quanto maior (menor) seu valor, mais err´atica (suave) a varia¸c˜ao da

m´edia ser´a e a m´edia zero dos erros garante constˆancia local. A rela¸c˜ao entre Wt e Vt

fornece ind´ıcios para avaliar de onde vem o movimento da s´erie. No caso W/V pequeno teremos que boa parte deste movimento se d´a devido `as observa¸c˜oes. Enquanto W/V grande implica que o movimento se d´a devido `as observa¸c˜oes, mas tamb´em `as varia¸c˜oes do n´ıvel da s´erie, sendo este Ft0θt.

Considere o caso Y escalar e a variˆancia observacional constante e conhecida igual a Vt = V = 1/φ. Assim, as distribui¸c˜oes a priori para o vetor de estados, posteriori e

previs˜ao um passo a frente ser˜ao dadas por:

(a) priori :

(θt|Dt−1) ∼ N (at, Rt) (3.6)

at = Gtmt−1,

Rt = GtCt−1G0t+ Wt.

(b) Previs˜ao 1 passo a frente:

(36)

ft = Ft0at, qt = Ft0RtFt+ V. (c) posteriori : (θt|Dt) ∼ N (mt, Ct) (3.8) mt = at+ RtFt(et)φ/(qtφ + 1), (3.9) Ct = Rt− RtFt(FtRt)0φ/(qtφ + 1) (3.10) et = Yt− ft

Harrison and Stevens (1976) indicam que a especifica¸c˜ao de Wt pode ser dif´ıcil de

ser feita, ent˜ao, uma alternativa que foi proposta por Ameen and Harrison (1984) ´e utilizada. Eles propuseram a utiliza¸c˜ao de fatores de desconto, sendo estes a porcentagem de informa¸c˜ao que passa de um per´ıodo a outro. Desta forma, a matriz Wt passa a ser

especificada a partir de uma matriz de fatores de desconto Bt e Rtpassa a ser dada por:

Rt = BtGtCt−1G0tBt,

sendo B a matriz diagonal r × r de descontos √1

δi com 0 < δi < 1 para i = 1, ..., p.

A id´eia de fator de desconto ´e a seguinte: `a medida que a informa¸c˜ao ”envelhece”, torna-se menos ´util e, portanto, seu peso deve diminuir. Ou seja, o fator de desconto δ pode ser pensado como a porcentagem de informa¸c˜ao passada, a cada tempo t, aos tempos posteriores. Quanto mais pr´oximo de 1 for o desconto, mais suave ser´a a evolu¸c˜ao dos estados, enquanto quanto menor, mais brusca ela ser´a, pois teremos mais incerteza para a predi¸c˜ao. Se o desconto for 1, desde que G seja a matriz identidade e os erros de evolu¸c˜ao tenham m´edia nula, o estado ser´a fixo no tempo, ou seja, o modelo ´e est´atico no tempo. Caso haja mais de uma componente no modelo, seja de tendˆencia ou sazonalidade, ´e im-portante ressaltar a aplica¸c˜ao pr´atica sugerida por (West and Harrison,1996, p. 193:202) de aplicar n˜ao aplicar desconto fora da diagonal de GtCt−1G0t.

(37)

3.2

Modelos Lineares Dinˆ

amicos Generalizados

Esta se¸c˜ao tem por objetivo discutir m´etodos de inferˆencia para a classe dos modelos lineares dinˆamicos generalizados (MLDG). Com o intuito de tornar mais claro o objetivo da discuss˜ao de tais m´etodos de inferˆencia, segue como exemplo o caso Poisson.

Seja yt|ηt∼ P oisson(ηt). Observe que a densidade desta distribui¸c˜ao pode ser escrita

na fam´ılia exponencial da seguinte forma:

p(yt|ηt) = ηyt t e−ηt yt! = 1 yt! exp {ytlog(ηt) − ηt}.

Vimos na Se¸c˜ao2.1.1que, uma vez que a distribui¸c˜ao ´e pertencente `a fam´ılia exponencial, torna-se simples encontrar a conjugada para seu parˆametro. Nessa mesma se¸c˜ao foi mostrado que a distribui¸c˜ao conjugada para o parˆametro ηt´e uma Gama.

Alguns m´etodos de inferˆencia para a classe dos MLDG como os propostos porSmith

(1979),Harvey and Fernandes (1989) eGamerman et al.(2013), atribuem uma evolu¸c˜ao

na m´edia a cada tempo t, utilizando propriedades de conjuga¸c˜ao. Desta forma, n˜ao ´

e necess´ario que se fa¸ca uso de nenhuma forma de aproxima¸c˜ao, uma vez que tanto a distribui¸c˜ao a posteriori para o parˆametro ηtcomo a distribui¸c˜ao preditiva, ter˜ao formas

anal´ıticas fechadas e conhecidas. Contudo, os modelos propostos por tais autores, embora permitam a presen¸ca de componentes sazonais e de tendˆencia, n˜ao permitem que estas sejam estoc´asticas.

Por outro lado,West et al. (1985) prop˜oe que a m´edia n˜ao seja modelada diretamente e sim atrav´es de uma fun¸c˜ao de liga¸c˜ao que relaciona a tais componentes de tendˆencia e sazonalidade. No caso da Poisson especificada anteriormente, ´e sabido que a m´edia ´e igual a ηt. Suponha que a fun¸c˜ao de liga¸c˜ao escolhida, seja a canˆonica, ou seja, log(ηt).

g(ηt) = log(ηt) = Ft0θt (3.11)

(38)

de estados que, conforme visto na equa¸c˜ao 3.5, est˜ao relacionados `as componentes de tendˆencia e sazonalidade. Observe que uma vez atribu´ıda uma distribui¸c˜ao a priori para θt, teremos uma distribui¸c˜ao a priori induzida para ηt. Contudo, a ado¸c˜ao de

distri-bui¸c˜ao a priori conjugada ´e conveniente, entre outros motivos, pela decorrente existˆencia de forma anal´ıtica fechada para a distribui¸c˜ao preditiva de futuras observa¸c˜oes.. Dessa forma, a solu¸c˜ao encontrada por West et al. (1985) foi igualar os momentos dessa dis-tribui¸c˜ao a priori induzida pelos estados aos momentos da priori conjugada. Observe inclusive que os autores n˜ao atribuem uma distribui¸c˜ao espec´ıfica para θt, sendo esta

especificada somente em termos de primeiro e segundo momentos. Uma vez definidos os momentos da priori conjugada para ηt, ´e poss´ıvel incorporar a nova informa¸c˜ao obtida

para que a posteriori para tal parˆametro seja definida. Veja que ηt ´e um escalar,

en-quanto θt ´e um vetor. Assim, a atualiza¸c˜ao dos estados a partir da posteriori de ηt n˜ao

´

e trivial, sendo necess´ario o uso de um m´etodo de aproxima¸c˜ao chamado Linear Bayes. Dessa forma, a distribui¸c˜ao a posteriori para θt ´e obtida. ´E importante relembrar que,

embora sejam utilizados m´etodos de aproxima¸c˜ao, o modelo permite que sejam atribu´ıdas componentes de tendˆencia e sazonalidade estocastimente e que a m´edia seja decomposta em termos de cada uma delas.

No m´etodo que proporemos no cap´ıtulo seguinte, sugerimos que seja atribu´ıda uma distribui¸c˜ao Normal para o vetor de estados e que a priori induzida, por essa especifica¸c˜ao, para o vetor canˆonico e sua priori conjugada sejam compatibilizadas a partir do uso de conceitos de Geometria da Informa¸c˜ao.

Ao longo desta se¸c˜ao ser˜ao apresentados os modelos citados nesta breve introdu¸c˜ao, de forma mais aprofundada.

3.2.1

Conjugate Updating

Modelos lineares dinˆamicos generalizados (MLDG) s˜ao uma extens˜ao para os modelos lineares dinˆamicos e para os modelos lineares generalizados. Os MLDG:

(39)

West et al.(1985) propuseram uma extens˜ao do tradicional modelo linear generalizado relacionando µta um preditor dinˆamico Ft0θt, atrav´es de uma fun¸c˜ao de liga¸c˜ao mon´otona

e diferenci´avel g(µt):

λt= g(µt) = Ft0θt. (3.12)

Admite-se, nesta classe de modelos, que Yt pertence `a fam´ılia exponencial e que o

parˆametro natural ψt tem priori conjugada da forma PC(αt, βt) para algum αt e βt,

podendo ser escrita da seguinte forma

p(ψt|Dt−1) = c(αt, βt) exp(αtψt− βta(ψt)).

O problema ´e que impor (3.12) traria muitas restri¸c˜oes para a priori ψt, ent˜ao, para

contornar o problema, foi sugerido que a rela¸c˜ao entre g(ψt) e λt seria usada somente

como guia para formar a priori ψt, sendo notada por g(ψt) ≈ λt

As distribui¸c˜oes `a priori e posteriori n˜ao ser˜ao normalmente distribu´ıdas, contudo, por analogia ao MLD, os primeiro e segundo momentos do vetor de estados θtser˜ao dados

por

(θt−1|Dt−1) ∼ (mt−1, Ct−1), (3.13)

(θt|Dt−1) ∼ (at, Rt), (3.14)

onde,

at= Gtmt−1 e Rt= BtGtCt−1G0tBt

com matriz de evolu¸c˜ao Gt e matriz de desconto Bt conhecidas.

De (3.12),

ft = E(λt|Dt−1) = Ft0at,

qt = V ar(λt|Dt−1) = Ft0RtFt.

(40)

tendo a forma

(ψt|Dt−1) ∼ P C(αt, βt)

sem nenhuma restri¸c˜ao a αt e βt. Esses valores ser˜ao escolhidos de acordo com a rela¸c˜ao

g(ψt) ≈ λt, de modo que fixando os dois primeiros momentos de g(ψt), ser´a poss´ıvel

determinar αt e βt atrav´es de ft e qt.

Dessa forma, fica claro que a preditiva tem forma

p(Yt|Dt−1) =

c(αt, βt)

c(αt+ φYt, βt+ φ)

(3.15)

Enquanto a posteriori para (ψt|Dt) tem forma conjugada

P C(αt+ φYt, βt+ φ)

Uma an´alise Bayesiana completa requere tamb´em a distribui¸c˜ao a posteriori para θt,

mas esta n˜ao est´a dispon´ıvel porque a priori (θt|Dt−1) ´e apenas parcialmente especificada

e o modelo n˜ao fornece uma verossimilhan¸ca para θt. Entretanto, conforme visto

anteri-ormente o modelo n˜ao precisa da especifica¸c˜ao completa da distribui¸c˜ao para passar para o tempo t + 1 e sim dos primeiros e segundo momentos. Estes podem ser encontrados da seguinte forma:

mt = E(E(θt|ψt, Dt)), (3.16)

Ct = V ar(E(θt|ψt, Dt)) + E(V ar(θt|ψt, Dt)). (3.17)

Como no caso normal, (θt|ψt, Dt) ´e condicionalmente independente de It = (Yt, Ft),

sabe-se que os momentos (3.16) e (3.17) s˜ao de (θt|ψt, Dt−1). Na maioria das vezes, esses

momentos n˜ao ser˜ao conhecidos e as ´unicas informa¸c˜oes dipon´ıveis ser˜ao os momentos da conjunta (g(ψt), θ0t|Dt−1),

(41)

  g(ψt) θt |Dt−1  ∼     ft at  ,   qt (RtFt)0 (RtFt) Rt    ,

onde a matriz de covariˆancia completa ´e singular. Assim, uma abordagem alternativa ´e necess´aria para que a informa¸c˜ao em It seja incorporada de de volta a θt.

O m´etodo Linear Bayes pode ser usado para fornecer o retorno da informa¸c˜ao em It

para θt. A densidade p(θt|ψt, Dt−1) ´e a distrbui¸c˜ao preditiva desconhecida de (θt|ψt). A

m´edia ´e o preditor no sentido de minimizar tra¸co do risco quadr´atico [At(d)] com respeito

a d onde

At(d) = E[(θt− d)(θt− d)0|ψt, Dt−1].

A matriz de covariˆancia da distribui¸c˜ao ´e o valor de At(d) na m´edia. Dado que a m´edia

´

e desconhecida, adota-se uma fun¸c˜ao linear g(ψt) como preditor de θt. Especificamente,

d deve ser escolhido de forma que d = d0+ d1g(ψt) para algum d0, d1 e d minimize a

soma de variˆancias dada por

rt(d) = tra¸co E(At(d)|Dt−1), (3.18)

com esperan¸ca em rela¸c˜ao a p(ψt|Dt−1).

Nesse modelo, os momentos da conjunta s˜ao suficientes para determinar o preditor requerido. Minimizando diretamente rt(d) com respeito a d0 e d1, mostra-se que o ponto

de m´ınimo ´e obtido em d = ˆat, onde

ˆ

at= at+

RtFt(g(ψt) − ft)

qt

. (3.19)

Assim, o resultado de E(At(d)|Dt−1 no ponto de m´ınimo ´e

ˆ

Rt= Rt−

RtFt(RtFt)0

qt

. (3.20)

Os valores ˆat e Rt fornecem um preditor linear ´otimo de p(θt|ψt, Dt−1). O retorno da

(42)

em (3.16) (3.17) por ˆate ˆRt para encontrar o preditor esperado e risco relativo dados por mt = at+ Rt(gt− ft)/qt, (3.21) Ct = Rt− RtFt(RtFt)0(1 − pt/qt) qt . (3.22)

onde gt = E(g(ψt|Dt) e pt = V ar(g(ψt)|Dt) podem ser calculados a partir da posteriori

(ψt|Dt).

3.2.2

Modelos Dinˆ

amicos de N´ıvel Local

Smith (1979) estende a metodologia de Harrison and Stevens (1976) no sentido de

considerar a modelagem de dados com distribui¸c˜ao diferente da gaussiana. A ideia pro-posta ´e pensar na evolu¸c˜ao dos estados como um processo de decis˜ao bayesiano de forma que as decis˜oes com respeito a uma certa fun¸c˜ao perda permane¸cam constantes enquanto n˜ao houver novas observa¸c˜oes e a perda esperada associada a essas decis˜oes aumente durante esse intervalo. Verificou-se que a fun¸c˜ao (de calibre b) que satisfaz esses crit´erios ´

e tal que s´o assume dois valores, ou seja:

Lb(θ − d) =

  

0, |θ − d| ≤ b, b > 0 1, caso contr´ario.

(3.23)

Smith(1979) demonstrou que a distribui¸c˜ao a priori de hoje (tempo t) para os estados

´

e proporcional a posteriori do tempo anterior (tempo t − 1) elevada a uma determinada potˆencia ω, tais crit´erios s˜ao satisfeitos. Assim,

f (θt|Dt−1) ∝ {f (θt−1|Dt−1)} ω

t , onde 0 < ω < 1. (3.24)

Dessa forma, garante-se que a m´edia da distribui¸c˜ao seja mantida e que a incerteza aumente a cada tempo t.

Seja θt−1|Dt−1 ∼ N (mt−1, Ct−1)

| {z }

ft−1(·)

(43)

Desse modo, ft−1(·) ∝ exp  −(θt− mt−1) 2 2Ct−1  . (3.25) De (3.24), θt|Dt−1 ≡ ctft−1(·) ω ; ∝ ft−1(·) ω . (3.26) De (3.25) e (3.26), f (θt|Dt−1) ∝ exp  −(θt− mt−1) 2 2Ct−1 ω ; ∝ exp  −(θ 2 t − 2mt−1θt)ω 2Ct−1  ; ∝ exp −1 2 θ2 t 1 ωCt−1 − θt mt−1 1 ωCt−1  . Assim, at = E(θt|Dt−1) = mt−1 = E(θt−1|Dt−1); Rt = V (θt|Dt−1) = 1 ωCt−1= 1 ωV (θt−1|Dt−1).

Verifica-se, portanto, que a m´edia da posteriori foi equivalente `a da priori enquanto a variˆancia foi inflacionada por um fator 1/ω

Uma vantagem desta forma de atualiza¸c˜ao proposta por Smith(1979) ´e a capacidade de se poder compatibilizar e depois atualizar a priori via Teorema de Bayes, ou atualizar e ent˜ao compatibilizar posterioris, preservando-se o mesmo resultado.. A distribui¸c˜ao a priori utilizada para formular o modelo de n´ıvel local com essas caracter´ısticas foi a conjugada natural da fam´ılia exponencial. Foi observado que seus procedimentos deram origem a previs˜oes do tipo m´edia m´ovel exponencial ponderada. Harvey and Fernandes

(1989), tamb´em interessados em modelagem de dados qualitativos e de contagem, se ba-seiam neste modelo. De forma an´aloga, introduzem hiperparˆametro que atua da mesma forma que um fator de desconto. A diferen¸ca se d´a na forma de estima¸c˜ao desse

(44)

hiper-parˆametro: enquanto o primeiro n˜ao menciona um m´etodo espec´ıfico, o segundo sugere o uso do estimador de m´axima verossimilhan¸ca. Smith and Miller (1986) generalizam a metodologia deSmith(1979); consideram a equa¸c˜ao de evolu¸c˜ao exata, de forma que n˜ao sejam necess´arias aproxima¸c˜oes para a obten¸c˜ao da distribui¸c˜ao preditiva e dos estados.

Gamerman et al. (2013) se baseiam em Smith and Miller (1986), introduzem a classe

dos Modelos Dinˆamicos da Fam´ılia Gama e apresentam uma forma de suaviza¸c˜ao para a componente do n´ıvel do modelo.

´

E importante salientar que os modelos propostos por tais autores, embora permitam a presen¸ca de componentes sazonais e de tendˆencia, n˜ao permitem que estas sejam es-toc´asticas. Os autores argumentem que esta n˜ao ´e uma grave limita¸c˜ao. Outro ponto que deve ser mencionado ´e que a modelagem proposta permite que a distribui¸c˜ao dos dados sejam tanto uniparam´etricas, como k param´etricas, sendo esta uma vantagem do m´etodo. Ser´a apresentada nesta se¸c˜ao uma breve descri¸c˜ao dos modelos mencionados. Mais detalhes podem ser encontrados em Smith(1979),Smith and Miller(1986),Harvey

and Fernandes(1989) e Gamerman et al.(2013).

Seja o Modelo Dinˆamico da Fam´ılia Gama (MDFG) como definido em Gamerman

et al. (2013):

p(yt|µt, φ) = a(yt, φ)µ b(yt,φ)

t exp {−µtc(yt, φ)} (3.27)

Onde, yt ∈ H(φ) ⊂ < e p(yt|µt, φ) = 0, caso contr´ario.

Vari´aveis explicativas, podem ser inseridas em vetor de covari´aveis xt. Este vetor se

relacionar´a com µt atrav´es da fun¸c˜ao de liga¸c˜ao, de forma que µt = λtg(x0tβ), onde β

se refere aos coeficientes da regress˜ao e λt ´e um parˆametro referente ao n´ıvel do modelo

dinˆamico. Tal parˆametro ´e definido atrav´es da equa¸c˜ao de evolu¸c˜ao λt= ω−1λt−1ζt, onde

ζt∼ Beta(ωat−1, (1 − ω)at−1), isto ´e,

ω λt (1 − λt)

∼ Beta(ωat−1, (1 − ω)st−1). (3.28)

As informa¸c˜oes iniciais acerca do n´ıvel s˜ao definidas atrav´es da priori λ0|D0 ∼

Gama(a0, b0).

(45)

A priori para λt|Dt−1 ´e uma distribui¸c˜ao Gama(at|t−1, bt|t−1), onde : at|t−1 = ωat−1; (3.29) bt|t−1 = ωbt−1; (3.30) 0 ≤ ω ≤ 1. Dessa forma, E(λt|Dt−1) = ωat−1/ωbt−1= at−1/bt−1, (3.31)

V ar(λt|Dt−1) = ωat−1/(ωbt−1)2 = ω−1V ar(λt−1|Dt−1). (3.32)

Nota-se, portanto, que a m´edia se mant´em e a variˆancia ´e inflacionada por um fator 1/ω a cada tempo t. Pode-se observar que ω atua conforme um fator de desconto.

Sendo µt = λtg(x0tβ), a distribui¸c˜ao µt|Dt−1 ´e uma Gama com parˆametros a∗t|t−1 e

b∗t|t−1, onde tais parˆametros podem ser definidos como:

at|t−1 = ωat−1; (3.33)

bt|t−1 = ωbt−1g(x0tβ). (3.34)

Dada uma nova observa¸c˜ao a distribui¸c˜ao a posteriori, µt|Dt, ´e uma Gama(a∗t, b ∗ t)

com parˆametros especificados por:

a∗t = a∗t|t−1+ b(yt, φ); (3.35)

b∗t = b∗t|t−1+ c(yt, φ). (3.36)

Desta maneira, a distribui¸c˜ao a posteriori para λt|Dt tamb´em ser´a uma Gama com

parˆametros at e bt, com

at = at|t−1+ b(yt, φ); (3.37)

(46)

A distribui¸c˜ao preditiva um passo `a frente, de forma que: p(yt|Dt−1) = Z ∞ 0 p(yt|µt)p(µt|Dt−1dµt) = Γa∗t|t−1+ b(yt, φ)  c(yt, φ)(b∗t|t−1) a∗ t|t−1 Γ  a∗t|t−1  h c(yt, φ) + b∗t|t−1 ib(yt,φ)+a∗t|t−1 (3.39)

(47)

Cap´ıtulo 4

MLDG via Geometria da Informa¸

ao

4.1

Introdu¸

ao

At´e o momento foram apresentados dois m´etodos de estima¸c˜ao para a classe de mo-delos lineares dinˆamicos generalizados: Conjugate Updating e Modelos de N´ıvel Local. O primeiro utiliza Linear Bayes para obter as estimativas do modelo, uma vez que somente as distribui¸c˜oes do parˆametro canˆonico e da preditiva tˆem forma anal´ıtica fechada. A evolu¸c˜ao dos estados ´e descrita somente pelos primeiro e segundo momentos. Uma das dificuldades encontradas ´e que h´a duas distribui¸c˜oes a priori para o parˆametro natural da fam´ılia exponencial: uma induzida pelo vetor de estados e outra vinda por conjuga¸c˜ao da fam´ılia exponencial. A solu¸c˜ao encontrada por West, Harrison e Migon, foi igualar os momentos de primeira e segunda ordem de tais prioris. Abre-se m˜ao de ter forma anal´ıtica fechada para as distribui¸c˜oes associadas ao vetor de estados, mas preserva-se a conveniˆencia das formas anal´ıticas fechadas para a distribui¸c˜ao a posteriori do parˆametro canˆonico e para a distribui¸c˜ao preditiva. Um dos objetivos do presente trabalho ´e pro-por uma forma alternativa de compatibiliza¸c˜ao de prioris. Para isso, s˜ao utilizados conceitos de Geometria da Informa¸c˜ao tais como teorema da Proje¸c˜ao e divergˆencia de Kullback-Leibler.No m´etodo proposto, assume-se evolu¸c˜ao gaussiana para os estados.´E importante ressaltar que, diferentemente dos modelos apresentados em 3.2.2, esta meto-dologia permite que componentes de sazonalidade e de tendˆencia possam ser incorporadas estocasticamente e que as regressores tenham parˆametros associados variando no tempo.

(48)

4.2

etodo proposto

O m´etodo a ser apresentado ´e muito similar ao proposto por West et. al (1985) e utiliza grande parte de sua estrutura. De forma an´aloga, ´e um m´etodo de inferˆencia proposto para a fam´ılia exponencial uniparam´etrica. A diferen¸ca aqui se d´a na forma com que duas prioris para o parˆametro canˆonico s˜ao compatibilizadas: a priori conjugada para tal parˆametro e a priori implicada pela suposi¸c˜ao de normalidade dos parˆametros de estado que controlam o preditor linear do modelo.

Sabe-se que,

λt= g(ηt) = Ft0θt; (4.1)

Onde, Ft´e uma matriz de forma de tamanho p×n, θt´e o vetor de estados de tamanho

o p × 1, ηt ´e o parˆametro da distribui¸c˜ao uniparam´etrica de interesse e g(ηt) ´e a fun¸c˜ao

de liga¸c˜ao escolhida.

Observe que uma vez atribu´ıda uma priori para θt, haver´a duas prioris para a mesma

quantidade ηt: de um lado a priori implicada pela conjuga¸c˜ao na fam´ılia exponencial e

de outro, a priori induzida pelo vetor de estados.

A metodologia proposta no presente trabalho funciona da seguinte forma: uma vez atribu´ıda uma distribui¸c˜ao a priori para o vetor de estados, obtenha a priori para o parˆametro natural induzida por tal vetor. Projete-a no espa¸co da distribui¸c˜ao conjugada da fam´ılia exponencial. Esta ser´a a priori utilizada no prosseguimento do m´etodo.

Como esta ´e conjugada da fam´ılia exponencial, sua posteriori pode ser facilmente encontrada. Contudo, observe que agora temos duas posterioris para o preditor linear: uma induzida pela conjuga¸c˜ao do parˆametro natural e outra Normal (j´a que o preditor ´

e uma fun¸c˜ao linear dos estador que, sob normalidade, tˆem distribui¸c˜ao a posteriori normal). A solu¸c˜ao adotada, para lidar com essa duplicidade, foi projetar a distribui¸c˜ao a posteriori induzida pela conjuga¸c˜ao do parˆametro natural no espa¸co da distribui¸c˜ao Normal. Dessa forma, gostar´ıamos de encontrar a Normal que melhor aproxima tal distribui¸c˜ao. Uma vez que tal compatibiliza¸c˜ao seja feita, utilizamos o m´etodo Linear Bayes para obter os momentos do vetor de estados. Observe que a normalidade ´e mantida.

(49)

O uso do m´etodo Linear Bayes se faz necess´ario porque, enquanto o preditor linear ´e um escalar, o vetor de estados ´e p-dimensional. Desta forma, escolhemos o esse m´etodo para que tal expans˜ao pudesse ser feita.

Um resumo da metodologia proposta ´e apresentado a seguir.

• Modelo    yt|ηt∼ F amExp(ηt) ηt|Dt−1∼ C − F amExp(τt−1) • Fun¸c˜ao de Liga¸c˜ao g(ηt) = Ft0θt= λt,

onde g ´e uma fun¸c˜ao cont´ınua, mon´otona e duas vezes diferenci´avel.

• Evolu¸c˜ao do Vetor de Estados

θt= Gtθt−1+ ωt, ωt∼ N (0, W ), o que implica em p(ηt|Dt−1) = pθt|Dt−1(g −1 (ηt)) ∂θt ∂ηtg −1 t)

• Distribui¸c˜oes a priori resultantes

ηt|Dt−1 ∼ C − F amExp(τt−1) p(ηt|Dt−1) = pθt|Dt−1(g −1 (ηt)) ∂θt ∂ηtg −1 t) • Metodologia Proposta

Seja q(x) a distribui¸c˜ao a priori conjugada e seja p(x) a priori induzida pelo vetor de estados. Obt´em-se parˆametros τ∗ tais que

(50)

Uma vez que esse vetor param´etrico seja definido,

ηt|Dt−1 ∼ C − F amExp(τt−1∗ ). (4.3)

Uma vez que obtemos a priori compatibilizada para ηt, podemos incorporar

facil-mente novas informa¸c˜oes atrav´es da conjuga¸c˜ao. Observe que agora, duas distri-bui¸c˜oes a posteriori para o preditor linear devem ser combinadas:

λt|Dt ∼ pηt|Dt(g(ηt)) ∂ηt ∂λtg(ηt) λt|Dt ∼ N (ht, pt)

Em seguida, projetamos a distribui¸c˜ao a posteriori obtida atrav´es da conjuga¸c˜ao no espa¸co da distribui¸c˜ao Normal, encontrando seus momentos. Observe que λt´e um

escalar, para cada tempo t, enquanto θt ´e um vetor param´etrico p − dimensional.

Uma vez que a distribui¸c˜ao a posteriori para λt ´e obtida, gostar´ıamos de obter

a posteriori para θt, levando em considera¸c˜ao a diferen¸ca de dimens˜oes para

es-sas quantidades. Usamos o m´etodo Linear Bayes para encontrar os momentos de (θt|Dt).

Nas subse¸c˜oes 4.2.1 e 4.2.2, detalha-se a metodologia descrita, considerando-se MLDGs para respostas Poisson e Binomial, respectivamente. Na subse¸c˜ao 4.2.3, aplica-se o m´etodo a dados artificialmente gerados, seguindo um MLDG para res-posta Poisson.

4.2.1

Modelo Linear Dinˆ

amico Generalizado Poisson

Seja (yt|ηt) ∼ Poisson (ηt): p(yt|ηt) = ηyt t e−ηt yt! . (4.4)

(51)

p(yt|ηt) =

1 yt!

exp {ytlog(ηt) − ηt} . (4.5)

Assim temos que a precis˜ao φ ´e igual a 1, o preditor linear λt ´e igual ao log(ηt),

que ´e o par˜ametro canˆonico, neste caso. Tem-se, ainda, b(λt) = ηt = eλt. Assim, a

m´edia e variˆancia da distribui¸c˜ao s˜ao dadas por ˙b(λt) = ηt = eλt e ¨b(λt) = ηt = eλt,

respectivamente.

No caso da distribui¸c˜ao Poisson, sabemos que a a priori conjugada para o parˆametro ηt´e a Gama(αt, βt) e portanto, a priori implicada para o preditor linear λt, adotando-se

a especifica¸c˜ao conjugada, ´e a Log-Gama.

(ηt|Dt−1) ∼ P C(αt, βt) ≡ Gama(αt, βt). (4.6)

Onde,

λt= log(ηt) = Ft0θt. (4.7)

Por outro lado, a informa¸c˜ao inicial (θ0|D0) tem distribui¸c˜ao Normal com parˆametros

(m0, C0) e usando θt= Gtθt− 1 + ωt, tem-se que

(θt|Dt−1) ∼ N (at, Rt) e (λt|Dt−1) ∼ N (ft, qt) (4.8)

em que ft= Ft0at e qt = Ft0RtFt.

Dessa forma, desejamos projetar a priori induzida pelo vetor de estados 4.8no espa¸co da distribui¸c˜ao conjugada. Sabendo que a priori induzida tem distribui¸c˜ao Log-Normal, gostar´ıamos de projet´a-la no espa¸co da distribui¸c˜ao Gama com o intuito de preservar a conveniˆencia de se trabalhar com a conjugada.

Temos portanto que

(ηt|Dt−1) ∼ Log − N ormal(ft, qt) e desejamos obter (ηt|Dt−1) ∼ Gama(αt, βt)

(52)

αt =

1 qt

(4.9)

βt= qt−1exp {−ft− 0.5qt} (4.10)

Uma vez encontrada a priori compatibilizada para ηt, pertencente `a fam´ılia de prioris

conjugadas, sua posteriori ´e facilmente obtida por conjuga¸c˜ao. Agora temos que

(λt|Dt) ∼ Log − Gama(α∗t, β ∗

t) e desejamos obter (λt|Dt) ∼ N ormal(µt, σt2).

Projeta-se ent˜ao a Log-Gama no espa¸co da distribui¸c˜ao Normal e aplica-se o m´etodo Li-near Bayes para encontrar os momentos de (θt|Dt). Tal distribui¸c˜ao ter´a como parˆametros

(mt, Ct). Sendo estes:

mt = mt−1+ RtFt(gt− ft)/qt,

Ct = Rt− RtFt(RtFt)0(1 − pt/qt)/qt,

onde gt= E(f (ηt)|Dt) e pt= V ar(f (ηt)|Dt) podem ser calculados a partir da posteriori

(ηt|Dt) j´a compatibilizada, onde f (ηt) = log(ηt).

Observe que no modelo Poisson via Conjugate Updating os parˆametros α e β s˜ao dados por:

αt =

1 qt

βt = qt−1exp {−ft} (4.11)

Dessa forma, nota-se que os parˆametros s˜ao bem similares nos dois m´etodos, havendo diferen¸ca somente no parˆametro β.

(53)

4.2.2

Modelo Linear Dinˆ

amico Generalizado Bernoulli/Binomial

Seja (yt|pt) ∼ Bernoulli (pt):

p(yt|pt) = pytt(1 − pt)(1−yt). (4.12)

Pode-se escrever a fun¸c˜ao de probabilidade acima na fam´ılia exponencial da seguinte forma: p(Yt|pt) = exp  yt  log(pt) log(1 − pt)  + log(1 − pt)  . (4.13)

Assim temos que a precis˜ao φ ´e igual a 1, o preditor linear λt´e igual ao log

n

pt

1−pt

o

, sendo este o par˜ametro natural ou canˆonico, e b(λt) = log(1 − pt). Assim, a m´edia e variˆancia

da distribui¸c˜ao s˜ao dadas por ˙b(λt) = pt =

 1 1+e−λt  e ¨b(λt) = pt(1 − pt) = n e−λt (1+e−λt)2 o , respectivamente.

No caso da distribui¸c˜ao Bernoulli, sabemos que a a priori conjugada para o parˆametro pt´e a Beta(αt, βt) e portanto, a priori implicada para o preditor linear λt´e a Logito-Beta.

(pt|Dt−1) ∼ P C(αt, βt) ≡ Beta(αt, βt), (4.14)

de forma que,

λt= logito(pt) = Ft0θt∼ Logito − Beta(αt, βt). (4.15)

Por outro lado a informa¸c˜ao inicial (θ0|D0) tem distribui¸c˜ao Normal com parˆametros

(m0, C0), tem-se que

(θt|Dt−1) ∼ N (at, Rt) e (λt|Dt−1) ∼ N (ft, qt) (4.16)

em que ft= Ft0at e qt = Ft0RtFt.

Conforme mencionado anteriormente, a ideia ´e projetar a priori induzida pelo vetor de estados no espa¸co da distribui¸c˜ao conjugada. Sabendo que a priori induzida ´e

(54)

Logito-Normal, deseja-se projet´a-la no espa¸co da distribui¸c˜ao Beta.

(pt|Dt−1) ∼ Logito − N ormal(ft, qt) e buscamos (pt|Dt−1) ∼ Beta(αt, βt).

Como visto na Se¸c˜ao (2.2), os parˆametros da Beta compatibilizada n˜ao tˆem solu¸c˜ao anal´ıtica, portanto foram utilizados m´etodos computacionais como Newton-Raphson e Monte Carlo para que esses pudessem ser obtidos. A cada tempo t, esses m´etodos devem ser utilizados para calcul´a-los.

Uma vez encontrada a priori compatibilizada para ptna fam´ılia de prioris

connjuga-das,, sua posteriori ´e facilmente obtida via Teorema de Bayes. Agora temos que

(λt|Dt) ∼ Logito − Beta(α∗t, β ∗

t) e desejamos obter (λt|Dt) ∼ N ormal(µt, σ2t).

Projeta-se ent˜ao a distribui¸c˜ao Logito-Beta no espa¸co da distribui¸c˜ao Normal e aplica-se o m´etodo Linear Bayes para encontrar os momentos de (θt|Dt). Tal distribui¸c˜ao ter´a

como parˆametros (mt, Ct). Sendo estes:

mt = mt−1+ RtFt(gt− ft)/qt,

Ct = Rt− RtFt(RtFt)0(1 − pt/qt)/qt,

onde gt= E(f (pt)|Dt) e pt= V ar(f (pt)|Dt) podem ser calculados a partir da posteriori

(pt|Dt) j´a compatibilizada, onde f (pt) = logito(pt).

4.2.3

Estudo de Simula¸

ao

Um estudo simulado ´e apresentado nesta se¸c˜ao com o intuito de verificar o compor-tameto da metodologia proposta no que concerne a estimativas pontuais e predi¸c˜ao a um passo. Visando avaliar a efic´acia do m´etodo quando comparado a outros que fazem inferˆencia para esta mesma classe de modelos, tamb´em ser´a apresentado o fator de Bayes comparando-os.

(55)

4.2.3.1 Modelo Poisson

Seja Yt|ηt∼ Poisson(ηt) em que:

λt = log(ηt) = Ft0θt,

θt = Gtθt−1+ t, t ∼ N (0, 0.0012).

Ft e Gt foram definidas da seguinte forma:

Ft = [1, 0, 1, 0] ∀t, t = 1, . . . , 80, Gt =         1 1 0 0 0 1 0 0 0 0 cos(w) sen(w) 0 0 −sen(w) cos(w)         , onde w = π/2.

Foram geradas 50 r´eplicas de um modelo Poisson com essa estrutura. No processo inferencial foram utilizados fatores de desconto tanto para as componentes de tendˆencia quanto de sazonalidade. Esses foram iguais a 0.95 e 0.99, respectivamente. A Figura 4.1

exibe os boxplots obtidos atrav´es de tais r´eplicas para a m´edia a posteriori do parˆametro natural ηt e seu valor verdadeiro (linha vermelha). Nota-se que o modelo ´e capaz de

captar bem a estrutura do dado, de forma que o E(ηt|Dt) ficou bem pr´oximo ao valor

verdadeiro em todo tempo t. E importante ressaltar que o custo computacional da´ metodologia proposta ´e muito baixo, com cada modelo levando em m´edia 0.2 segundos para ser estimado em um computador com processador Intel Core i5-6500, com 4GB de RAM e sistema operacional de 64 Bits.

Verifica-se, atrav´es da Figura 4.2, que o m´etodo proposto ´e capaz de fazer predi¸c˜oes a um passo que acompanham a estrutura dos dados observados independentemente do tamanho da amostra. Nota-se que a grande maioria dos valores observados encontram-se dentro do intervalo de credibilidade obtido. Nota-se, inclusive, que tanto a sazonalidade quanto a tendˆencia crescente, s˜ao captadas pelo modelo, resultado indicativo de um bom ajuste.

(56)

0 20 40 60 80 100

0

20

60

100

Figura 4.1: Boxplots resultantes das r´eplicas para a m´edia a posteriori do parˆametro natural e seus valores verdadeiros representados pela linha vermelha

0 20 40 60 80 100 0 10 20 30 40 50 yt Pred. 1 passo (a) T = 30 0 20 40 60 80 100 0 10 20 30 40 50 yt Pred. 1 passo (b) T = 60 0 20 40 60 80 100 0 20 40 60 80 yt Pred. 1 passo (c) T = 80 0 20 40 60 80 100 0 20 40 60 80 100 yt Pred. 1 passo (d) T = 100

Figura 4.2: M´edia a posteriori da distribui¸c˜ao preditiva a um passo para diferentes tamanhos de amostra junto ao seu intervalo de credibilidade. As escalas dos gr´aficos diferem para facilitar a visualiza¸c˜ao.

4.3

Compatibilizando diferentes modelos

Referências

Documentos relacionados

A EPE publica anualmente um relatório do balanço energético nacional apresentando dados referentes a contabilização histórica de energia gerada e consumo no Brasil para

Você pode até dar o furo, mas digo assim: você dar o furo on-line significa que você vai ter muito mais zelo para poder saber o que você está falando. Essa velocidade

Considerando que diferentes elementos do endividamento podem exercer influências no investimento, estabeleceu-se por objetivo verificar como os aspectos de

as práticas da eugenia de aperfeiçoamento não podem ser “normalizadas” de modo legítimo no âmbito de uma sociedade pluralista e democraticamente constituída,

No local onde forem instalados os monitores deverá ter pelo menos 2 (dois) painéis estruturais confeccionado em chapa de aço com espessura mínima de 1 mm, possuindo cada painel

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

CONCLUSÕES E PROPOSTAS PARA TRABALHOS FUTUROS Nesta dissertação, foi apresentada uma avaliação do desempenho das funções de proteção aplicadas em transformadores de potência,

Na Figura 4.9 tˆem-se os gr´aficos de ´ındices Lmax para os dados de perda de amˆonia sob perturbac¸a˜ o na resposta, nos quais, observamos que os modelos slash-el´ıpticos e o