• Nenhum resultado encontrado

TESE_Análise bayesiana do modelo fatorial dinâmico para um vetor de séries temporais utilizando a distribuição t multivariada

N/A
N/A
Protected

Academic year: 2021

Share "TESE_Análise bayesiana do modelo fatorial dinâmico para um vetor de séries temporais utilizando a distribuição t multivariada"

Copied!
149
0
0

Texto

(1)

Análise Bayesiana do modelo fatorial dinâmico para um

vetor de séries temporais utilizando a distribuição ttt

multivariada

LAVRAS - MG

2016

(2)

Análise Bayesiana do modelo fatorial dinâmico para um

vetor de séries temporais utilizando a distribuição ttt

multivariada

Tese apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Estatística e Experimentação Agropecuária, para a obtenção do título de Doutor.

Dr. Daniel Furtado Ferreira Orientador

Dra. Thelma Sáfadi Coorientadora

LAVRAS - MG 2016

(3)

Ficha Catalográfica Preparada pela Divisão de Processos Técnicos da Biblioteca da UFLA

Andrade, Larissa Ribeiro de.

Análise Bayesiana do modelo fatorial dinâmico para um vetor de séries temporais utilizando a distribuição t multivariada

Larissa Ribeiro de Andrade. – Lavras: UFLA, 2016. 149 p. : il.

Tese (doutorado) – Universidade Federal de Lavras, 2016. Orientador: Daniel Furtado Ferreira.

Bibliografia.

1. Modelos fatoriais. 2. Amostrador de Gibbs. 3. t multivariada. I. Universidade Federal de Lavras. II. Título.

(4)

ANÁLISE BAYESIANA DO MODELO FATORIAL

DINÂMICO PARA UM VETOR DE SÉRIES

TEMPORAIS UTILIZANDO A DISTRIBUIÇÃO T

MULTIVARIADA

Tese apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Estatística e Experimentação Agropecuária, para a obtenção do título de Doutor.

APROVADA em 29 de fevereiro de 2016.

Dr. Júlio Sílvio de Sousa Bueno Filho UFLA

Dr. Renato Ribeiro de Lima UFLA

Dra. Evelise Corbalán Góis Freire UFLA

Dra. Lúcia Pereira Barroso IME - USP

Dr. Daniel Furtado Ferreira Orientador

Dra. Thelma Sáfadi Coorientadora

LAVRAS - MG 2016

(5)

É com muita alegria que agradeço e dedico esta conquista àqueles que a fizeram possível.

Aos meus pais, Roberto e Jussara, deixo minha eterna gratidão pela confiança e pelo incentivo. À minha irmã Priscilla, meu cunhado Marcelo e minha (já tão amada) sobrinha Valentina, agradeço pela preocupação e carinho. À minha querida irmã Laís, obrigada pelo apoio, carinho e companheirismo. O amor de vocês, e o meu por vocês, me deram forças para obter esta conquista.

Às minhas amigas Dani, Jusça e Tábatam, que mesmo de longe se fizeram presentes e à minha amiga Marina que me fez mais forte para enfrentar esta batalha.

Às minhas companheiras de república, Danielle, Juscélia, Isabelle, Larissa, Fernanda, Franciella, Vanessa e Júlia, obrigada por tornarem esse momento mais leve e harmonioso.

Aos amigos de Lavras, em especial à turma "o que tem pra hoje", obrigada por tornarem este processo mais divertido.

Aos amigos de curso Adriana, Cristiane, Danielle, Elayne, Juliano, Juscélia, Naje, Tábata, Tales, Thalita e Wederson, obrigada pela companhia nos estudos e nos momentos de descontração.

Aos professores do Departamento de Ciências Exatas (DEX-UFLA) obrigada pelos ensinamentos.

Ao meu orientador, professor Dr. Daniel Furtado Ferreira obrigada pela dedicação e confiança. Sua orientação foi de grande importância para a realização desse trabalho e também para meu crescimento profissional.

À minha co-orientadora, professora Dra. Thelma Sáfadi obrigada pela paciência, dedicação e contribuições.

(6)

Barroso, Evelise Roman Corbalan Góis Freire, Renato Ribeiro de Lima, Lucas Monteiro Chaves e Devanil Jaques de Souza, obrigada pela disponibilidade em contribuir com este trabalho.

À Universidade Federal de Lavras (UFLA) e ao Departamento de Ciências Exatas (DEX), obrigada pela oportunidade de realizar o doutorado.

Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) pela concessão da bolsa de estudos.

(7)

is courage.”

(8)

Os modelos t multivariados são simétricos e com caudas mais pesadas que a distribuição normal, característica importante na análise de séries financeiras. A proposta deste trabalho é fazer a análise Bayesiana do modelo fatorial dinâmico, na classe de modelos t multivariados, em que a parte latente segue um modelo autorregressivo vetorial. Devido à complexidade da distribuição t multivariada, essa variável foi representada, neste trabalho, como uma mistura da distribuição normal multivariada com uma raiz de qui-quadrado. Este artifício permitiu o cálculo das distribuições a posteriori de interesse. A inferência sobre os parâmetros foi feita obtendo-se uma amostra da distribuição conjunta a posteriori, por meio do Amostrador de Gibbs. A determinação da convergência do processo foi feita por técnicas gráficas e pelos critérios de Geweke (1992) e de Raftery & Lewis (1992a). O método foi ilustrado utilizando dados simulados e reais, em que os dados reais são os índices das principais bolsas de valores do mundo.

(9)

The multivariate t models are symmetric and with heavier tail than the normal distribution, important feature in financial data. In this theses is presented the Bayesian estimation of a dynamic factor model, where the factors follow a multivariate autoregressive model, using multivariate t distribution. Since the multivariate t distribution is complex, it was represented in this work as a mix between a multivariate normal distribution and a square root of a chi-square distribution. This method allowed to define the posteriors. The inference on the parameters was made taking a sample of the posterior distribution, through the Gibbs Sampler. The convergence was verified through graphical analysis and the convergence tests Geweke (1992) and Raftery & Lewis (1992a). The method was applied in simulated data and in the indexes of the major stock exchanges in the world.

(10)

1 INTRODUÇÃO . . . 17

2 REFERENCIAL TEÓRICO . . . 20

2.1 Distribuição t de Student . . . 20

2.2 Distribuição t multivariada . . . 20

2.3 Modelo Fatorial Dinâmico . . . 21

2.4 Inferência Bayesiana . . . 23

2.4.1 Inferência bayesiana para o modelo fatorial dinâmico . . . 26

2.4.2 Modelo fatorial dinâmico para o caso de erros normais - Sáfadi e Peña (2007) . . . 26

2.4.3 Modelo fatorial dinâmico para o caso de erros t multivariados -Borges (2008) . . . 34

2.5 Dados aumentados (data augmentation) . . . 35

2.6 Métodos Monte Carlo via Cadeias de Markov . . . 36

2.6.1 Amostrador de Gibbs . . . 37

2.7 Verificação da convergência . . . 39

2.7.1 Critério de Raftery e Lewis (1992a) . . . 39

2.7.2 Critério de Geweke . . . 40

2.8 Fator de Bayes . . . 41

3 METODOLOGIA . . . 43

3.1 Simulação dos dados . . . 44

3.1.1 Algoritmo para simulação de dados . . . 46

3.2 Aplicação em dados reais . . . 47

3.3 Análise bayesiana do modelo proposto . . . 48

4 RESULTADOS . . . 51

4.1 Resultados teóricos . . . 51

4.1.1 Obtenção da t multivariada como mistura . . . 51

4.1.2 Obtenção das distribuições a posteriori . . . 54

4.1.2.1 Posteriores para Cenário 1 . . . 55

4.1.2.2 Posteriores para Cenário 2 . . . 67

4.1.2.3 Posteriores para Cenário 3 . . . 77

4.2 Resultados práticos . . . 87

(11)

4.2.1.3 Resultados do Cenário 3 . . . 96

4.2.2 Análise de dados financeiros . . . 97

4.2.2.1 Resultados da análise para dados financeiros . . . 101

5 CONCLUSÃO . . . 104

REFERÊNCIAS . . . 105

APÊNDICE A . . . 108

(12)

Tabela 1 Escala de interpretação do fator de Bayes. . . 42

Tabela 2 Configurações para os graus de liberdade em que foram aplicadas a metodologia do cenário 1 para dados simulados. . . 87

Tabela 3 Resultados sobre o tamanho das cadeias, tamanho do burn-in e do thin . . . 88

Tabela 4 Valores fixados, médias, erros e desvios padrões a posteriori, Intervalos HPD para os parâmetros e valor-p do teste de Geweke (1992) para convergência das cadeias, no cenário 1 e configuração 1, para dados simulados. . . 89

Tabela 5 Valores fixados, médias, erros e desvios padrões a posteriori, Intervalos HPD para os parâmetros e valor-p do teste de Geweke (1992) para convergência das cadeias, no cenário 1 e configuração 2, para dados simulados. . . 91

Tabela 6 Valores fixados, médias, erros e desvios padrões a posteriori, Intervalos HPD para os parâmetros e valor-p do teste de Geweke (1992) para convergência das cadeias, no cenário 1 e configuração 3, para dados simulados. . . 92

Tabela 7 Valores fixados, médias, erros e desvios padrões a posteriori, Intervalos HPD para os parâmetros e valor-p do teste de Geweke (1992) para convergência das cadeias, no cenário 1 e configuração 4, para dados simulados. . . 94

Tabela 8 Valores fixados, médias, erros e desvios padrões a posteriori, Intervalos HPD para os parâmetros e valor-p do teste de Geweke (1992) para convergência das cadeias, no cenário 2, para dados simulados. . . 95

(13)

Intervalos HPD para os parâmetros e valor-p do teste de Geweke (1992) para convergência das cadeias, no cenário 3, para dados simulados. . . 96

Tabela 10 Valor do fator de Bayes e seu logaritmo para comparação entre os modelos M0e M1. . . 101

Tabela 11 Médias e desvios padrões a posteriori, Intervalos HPD para os parâmetros, valor-p do teste de Geweke (1992) para convergência das cadeias, no cenário 2, para as séries dos retornos dos índices das bolsas de valores. . . 103

(14)

Figura 1 Retornos diários dos índices de bolsas de valores. . . 97

Figura 2 Gráfico scree plot. . . 98

Figura 3 Histogramas dos retornos diários dos índices de bolsas de valores e as respectivas densidades estimadas. . . 99

Figura 4 Gráficos Q-Q normais dos retornos diários dos índices de bolsas de valores. . . 100

Figura 5 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro β, no cenário 1 e configuração 1, para dados simulados. . . 123

Figura 6 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro C, no cenário 1 e configuração 1, para dados simulados. . . 123

Figura 7 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro Σ, no cenário 1 e configuração 1, para dados simulados. . . 124

Figura 8 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro ρ, no cenário 1 e configuração 1, para dados simulados.125

Figura 9 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro β, no cenário 1 e configuração 2, para dados simulados. . . 126

Figura 10 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro C, no cenário 1 e configuração 2, para dados simulados. . . 126

(15)

Figura 11 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro Σ, no cenário 1 e configuração 2, para dados simulados. . . 127

Figura 12 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro ρ, no cenário 1 e configuração 2, para dados simulados.128

Figura 13 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro β, no cenário 1 e configuração 3, para dados simulados. . . 129

Figura 14 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro C, no cenário 1 e configuração 3, para dados simulados. . . 129

Figura 15 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro Σ, no cenário 1 e configuração 3, para dados simulados. . . 130

Figura 16 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro ρ, no cenário 1 e configuração 3, para dados simulados.131

Figura 17 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro β, no cenário 1 e configuração 4, para dados simulados. . . 132

Figura 18 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro C, no cenário 1 e configuração 4, para dados simulados. . . 132

Figura 19 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro Σ, no cenário 1 e configuração 4, para dados simulados. . . 133

(16)

Figura 20 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro ρ, no cenário 1 e configuração 4, para dados simulados.134

Figura 21 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro β, no cenário 2, para dados simulados. . . 135

Figura 22 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro C, no cenário 2, para dados simulados. . . 135

Figura 23 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro Σ, no cenário 2, para dados simulados. . . 136

Figura 24 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro ρ, no cenário 2, para dados simulados. . . 137

Figura 25 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro β, no cenário 3, para dados simulados. . . 138

Figura 26 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro C, no cenário 3, para dados simulados. . . 138

Figura 27 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro Σ, no cenário 3, para dados simulados. . . 139

Figura 28 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro ρ, no cenário 3, para dados simulados. . . 140

Figura 29 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro β, no cenário 2, para dados reais - parte 1. . . 141

Figura 30 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro β, no cenário 2, para dados reais - parte 2. . . 142

Figura 31 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro C, no cenário 2, para dados reais - parte 1. . . 143

Figura 32 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro C, no cenário 2, para dados reais - parte 2. . . 144

(17)

o parâmetro C, no cenário 2, para dados reais - parte 3. . . 145

Figura 34 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro Σ, no cenário 2, para dados reais - parte 1. . . 146

Figura 35 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro Σ, no cenário 2, para dados reais - parte 2. . . 147

Figura 36 Traço das cadeias e densidade das distribuições a posteriori para o parâmetro ρ, no cenário 2, para dados reais. . . 148

(18)

1 INTRODUÇÃO

O principal problema na construção de um modelo para ajustar um vetor de séries temporais é que o número de parâmetros cresce com o quadrado da dimensão do vetor. Portanto, quando a dimensão do vetor de séries temporais é grande, recomenda-se a utilização de modelos de redução de variáveis, como é o caso dos modelos fatoriais.

O objetivo da análise fatorial é reduzir as dimensões de modo que a informação contida nas variáveis que são mais correlacionadas possa ser analisada por apenas uma variável latente denominada fator.

A análise fatorial foi utilizada inicialmente para tratar dados relacionados ao comportamento humano, como no estudo de inteligência humana ou outras variáveis na área de psicologia (Spearman 1904; Thurstone, 1944). Atualmente, a análise fatorial tem sido aplicada a outras áreas da ciência, por exemplo, para analisar quantidades econômicas, testes de atitudes e comportamentos, medidas físicas, etc.

Esse aumento da aplicação da análise fatorial em outras áreas se deve basicamente ao aparecimento de ferramentas computacionais adequadas e acessíveis. No contexto bayesiano, o surgimento de técnicas como o método Monte Carlo via Cadeias de Markov, representou um avanço importante na implementação de algoritmos de inferência para modelos com muitos parâmetros, incluindo o modelo fatorial.

Sáfadi e Peña (2007) utilizaram um modelo fatorial dinâmico, para analisar um vetor de q séries temporais, de modo que os fatores seguissem um modelo autorregressivo vetorial (V AR(p)). Os autores realizaram a análise bayesiana do modelo, considerando erros independentes e normalmente distribuídos. A inferência sobre os parâmetros foi feita obtendo-se uma amostra da distribuição

(19)

conjunta a posteriori, por meio do Amostrador de Gibbs, e a convergência foi verificada utilizando-se o critério de Gelman e Rubin (1992). Nesse trabalho, as condicionais completas a posteriori foram todas obtidas.

A maior parte da teoria de inferência estatística para variáveis contínuas está desenvolvida em torno do modelo normal. Contudo, em muitas situações, esse modelo é impróprio, como por exemplo, quando os dados provêm de uma distribuição com caudas mais pesadas que a normal ou quando há influência de outliers.

Nas últimas décadas tem-se observado na literatura estatística um crescente interesse pela distribuição t multivariada, que tem sido aceita como alternativa robusta à distribuição normal.

Frente a isso, Borges (2008) tratou o modelo apresentado por Sáfadi e Peña (2007) com erros t multivariados. Todavia, não foi possível calcular as condicionais completas a posteriori, devido à complexidade da função de densidade da distribuição t multivariada.

A solução obtida por Borges (2008) foi utilizar o Amostrador Griddy-Gibbs, que utiliza um método de integração numérica para gerar variáveis aleatórias da função de distribuição, ainda que a densidade condicional a posteriori não seja uma densidade conhecida.

Uma solução alternativa, proposta nesta tese, seria expressar a distribuição t multivariada como uma mistura da distribuição normal multivariada com uma raiz de qui-quadrado. Dessa forma, as distribuições condicionais a posteriori podem ser obtidas e consequentemente as amostras destas distribuições podem ser formadas sem a necessidade de um método numérico.

O objetivo geral desta tese é desenvolver a abordagem bayesiana completa no ajuste do modelo fatorial dinâmico por meio da análise de cadeias de Markov

(20)

obtidas pelo Amostrador de Gibbs. Os objetivos específicos são:

• desenvolver uma forma alternativa de expressar a distribuição t multivariada, que possibilite a obtenção das distribuições condicionais a posterioridos parâmetros do modelo fatorial dinâmico;

• calcular as distribuições condicionais a posteriori para os parâmetros do modelo;

• analisar um conjunto de dados simulados por meio da metodologia proposta na tese, para comparar as estimativas com os verdadeiros valores dos parâmetros e avaliar a eficiência da metodologia;

• aplicar a metodologia em dados financeiros, que, em geral, apresentam comportamento distante do caso normal;

(21)

2 REFERENCIAL TEÓRICO

Nesta seção, serão sistematizadas as informações relevantes para o estudo. Abordaremos, portanto, alguns aspectos sobre a distribuição t multivariada, o modelo fatorial dinâmico e a análise bayesiana.

2.1 Distribuição t de Student

Segundo Ferreira (2005), a distribuição t de Student é definida pela razão entre uma variável aleatória normal padronizada N (0,1), por outra originada da raiz quadrada de uma variável aleatória independente qui-quadrado dividida pelos seus graus de liberdade. Nesse caso, se Z for uma variável N (0,1) e Q uma variável aleatória independente qui-quadrado com ν graus de liberdade, a variável aleatória

X = Z

pQ/ν (2.1)

possui distribuição t de Student, com função densidade dada por

f (x) = Γ( ν+1 2 ) √ νπΓ ν2 1  1 +xν2 ν+1 2 . (2.2) 2.2 Distribuição t multivariada

A distribuição t multivariada pertence à família de distribuições elípticas. A função densidade de probabilidade de um vetor aleatório X = [X1,X2, . . . ,Xq]>com X ∼ tq(µ,Σ,ν), é geralmente dada por

fX(x,µ,Σ,ν) = Γ ν+q2  (πν)q2Γ ν 2 |Σ| 1 2  1 + 1 ν(x − µ) TΣ−1(x − µ) −ν+q2 . (2.3)

(22)

O vetor aleatório X tem média µ e matriz de covariâncias νΣ/(ν − 2) no caso de ν > 2 (Ferreira, 2011).

Neste estudo, utiliza-se a distribuição t multivariada como um modelo hierárquico, baseado na mistura de variáveis com distribuição normal multivariada e qui-quadrado. Dessa forma, os cálculos para a obtenção das condicionais a posteriori se tornam possíveis. Essa forma alternativa da distribuição t multivariada será apresentada na seção 4.1.1.

2.3 Modelo Fatorial Dinâmico

Sáfadi e Peña (2007) realizaram a análise bayesiana de um modelo fatorial dinâmico para avaliar a associação entre poluição do ar e mortalidade na cidade de São Paulo, de 1994 a 1997, assumindo que os vetores de erros no modelo fossem independentes e suas distribuições fossem normais.

Para definir o modelo utilizado por Sáfadi e Peña (2007), considere uma amostra de tamanho n denotada por {yt,t = 1,...,n}, sendo ytum vetor de q séries

temporais. Para qualquer inteiro positivo k < q o modelo k-fatorial relaciona cada yta um vetor de fatores comuns ftvia:

yt=β + Cft+ et; ft= p X i=1 ρift−i+ wt, (2.4) em que:

• ft são vetores (k × 1) de variáveis latentes, ou seja, não observáveis, os

quais seguem um modelo auto-regressivo vetorial de ordem p (V AR(p)), em que as matrizes ρisão diagonais com ρi = diag(ρi1,...,ρik), i = 1,...,p

(23)

e {ρ1j,ρ2j,...,ρpj}, j = 1,2,...,k, satisfazem a condição de estacionariedade;

• C é uma matriz (q × k) de cargas fatoriais, que contém as covariâncias entre os fatores comuns e as variáveis observadas;

• β é o vetor (q × 1) de médias das observações yt;

• et são vetores independentes (q × 1) com et ∼ Nq(0,Σ), sendo Σ uma

matriz diagonal positiva definida, Σ = diag(σ12,σ2

2,...,σq2);

• wtsão vetores independentes (k × 1) com wt∼ Nk(0,Ik);

• ete wssão mutuamente independentes para todo t e s tal que t,s = 1,2,...,n.

Desse modelo, tem-se que ft∼ Nk(0,Λ) com Λ =Ppi=1ρiΛρ>i + Ike

yt∼ Nq(β,Γ), em que Γ = CΛC>+ Σ.

Em problemas práticos, especialmente com grandes valores de q, o número de fatores k deve ser menor em relação a q de maneira que a estrutura de variância é explicada pelos fatores comuns. É usual impor restrições ao modelo k-fatorial, com a finalidade de se obter um modelo único, livre de problemas de identificabilidade. A solução adotada em Sáfadi e Peña (2007) foi restringir a matriz de cargas fatoriais C, de maneira que esta seja uma matriz triangular inferior, de posto completo, ou seja,

C =                   1 0 0 . . . 0 c21 1 0 . . . 0 c31 c32 1 . . . 0 .. . ... ... . .. ... ck1 ck2 ck3 . . . 1 .. . ... ... . .. ... cq1 cq2 cq3 . . . cqk                   .

(24)

Essa forma é utilizada em Geweke e Zhou (1996), Aguilar e West (2000) e Lee e Shi (2000) e permite a identificação dos fatores, bem como uma boa interpretação dos mesmos. Do ponto de vista bayesiano isto é equivalente a atribuir valores para estes parâmetros (parte superior da matriz triangular C) com probabilidade um, de modo que na análise eles não são estimados.

O número de fatores pode ser definido por meio da análise dos autovalores e autovetores da matriz de autocovariância (Peña e Box, 1987). Uma outra forma de obter o número de fatores, é através de um critério de seleção do modelo que se aproxima da probabilidade a posteriori, como o Critério de Informação Bayesiano (BIC).

Frequentemente, assume-se normalidade para os vetores de erros aleatórios. Borges (2008) estudou o modelo fatorial dinâmico apresentado nesta seção, assumindo que os vetores dos erros seguem distribuições t multivariadas, ou seja, et ∼ tq(0,Σ,νe), em que νe são os graus de liberdade de et, e wt ∼

tk(0,U ,νw) em que νw são os graus de liberdade de wt.

2.4 Inferência Bayesiana

Na teoria bayesiana, admite-se que a descrição da incerteza deve ser feita por meio de probabilidades e, por esta razão, descreve probabilisticamente toda quantidade desconhecida, sendo os procedimentos de inferência bayesiana baseados em simples propriedades da teoria de probabilidade.

Considere θ um vetor de parâmetros a ser estimado. O enfoque bayesiano incorpora o conhecimento sobre θ à análise por meio de uma função de probabilidade P(θ) ou função de densidade de probabilidade f (θ), denominada distribuição a priori, que recebe este nome por se tratar da distribuição de probabilidade de θ antes que se observem os dados representados pelo vetor

(25)

y. Neste texto, tratamos θ como um vetor de variáveis contínuas, por isso sua distribuição a priori é denotada por f (θ).

A inferência bayesiana trabalha na presença de observações y cujos valores, inicialmente incertos, são descritos por uma distribuição de probabilidade com função densidade ou de probabilidade f (y|θ), da qual deriva L(θ|y), denominada função de verossimilhança, sendo função de θ dada a amostra y efetivamente observada.

A inferência sobre θ é baseada na sua função densidade de probabilidade depois que os dados são observados. Esta função é denominada função densidade de probabilidade a posteriori, representada por f (θ|y) e obtida por meio do Teorema de Bayes dado por:

f (θ|y) = f (y|θ)f (θ)

f (y) , (2.5)

sendo f (y) a função densidade marginal de Y , que pode ser obtida por f (y) = R f (y|θ)f (θ)dθ. Pode-se reescrever o Teorema de Bayes como,

f (θ|y) = L(θ|y)f (θ)

R L(θ|y)f (θ)dθ. (2.6)

Uma vez queR L(θ|y)f (θ)dθ não é função de θ, pode-se escrever

f (θ|y) ∝ L(θ|y)f (θ). (2.7)

Pode-se dizer que a inferência bayesiana implica em processo de aprendizagem sobre algo desconhecido (parâmetros de um modelo), dado o que é conhecido (os dados). O Teorema de Bayes pode ser entendido como uma regra de atualização na qual os dados permitem atualizar o conhecimento a priori sobre θ, e o resultado do processo de atualização é a distribuição a posteriori, que combina

(26)

a informação amostral e a informação não amostral.

Podem ocorrer situações em que exista muito pouca ou nenhuma informação disponível a priori sobre os parâmetros do modelo, ou mesmo situações em que se deseja omitir a opinião do pesquisador. Neste caso, a distribuição a priori considerada é do tipo não informativa.

Portanto, a inferência bayesiana exige o estabelecimento da verossimilhança e de uma densidade a priori, informativa ou não informativa. Estas são, então, utilizadas para encontrar a densidade a posteriori dos parâmetros do modelo.

O’Hagan (1994) comenta o porquê de usar a inferência bayesiana ao invés da inferência clássica. Ele diz que, em termos gerais, alguns dos argumentos a favor do enfoque bayesiano são os de que a análise bayesiana é fundamentalmente completa, muito flexível, produz conclusões claras e diretas e faz uso de toda informação disponível. Em contraste, o enfoque clássico ignora a informação a priori.

Broemeling (1985) afirma que a base da inferência bayesiana é a distribuição a posteriori de θ, pois qualquer conclusão é feita a partir dessa distribuição.

Caso se considerem vários modelos, o pesquisador pode selecioná-los ou compará-los utilizando as probabilidades a posteriori dos modelos, as razões de chances a posteriori ou o fator de Bayes, no caso de densidades a priori informativas. No caso de priori não informativa, pode-se utilizar o pseudo-fator de Bayes.

(27)

2.4.1 Inferência bayesiana para o modelo fatorial dinâmico

Como em Lee e Shi (2000), a análise bayesiana utilizada por Sáfadi e Peña (2007) e por Borges (2008), foi baseada no conceito de dados aumentados. A ideia essencial foi determinar a distribuição a posteriori de cada um dos parâmetros desconhecidos condicionada às obervações e aos fatores latentes, e então determinar a distribuição dos fatores latentes condicionada às observações e aos parâmetros do modelo.

As distribuições condicionais de θ = (β, C, ρ,Σ) e dos fatores F = (fp+1,...,fn), são representadas por f (θ|F ,Y ) e f (F |θ,Y ) em que Y =

(yp+1, . . . ,yn) e p é a ordem do modelo V AR(p). Os parâmetros do vetor θ e

os escores fatoriais do modelo de análise fatorial são estimados conjuntamente por meio de uma aproximação bayesiana.

Nas próximas seções, abordaremos alguns aspectos da análise bayesiana do modelo fatorial dinâmico para o caso de erros normais (Sáfadi e Peña, 2007), e para o caso de erros t multivariados (Borges, 2008).

2.4.2 Modelo fatorial dinâmico para o caso de erros normais - Sáfadi e Peña (2007)

A condicional completa é obtida pelo teorema de Bayes, por meio da função de verossimilhança, que, pelo conceito de dados aumentados, pode ser

(28)

aproximada por: f (Y ,F |θ,y1,...,yp,f1,...,fp) ∝ n Y t=p+1 f (yt|β,C,Σ,ft)f (ft|ρ,f1,...,fp) ∝ n Y t=p+1 |Σ|−1/2exp  −1 2(yt− β − Cft) > Σ−1(yt− β − Cft)  × exp ( −1 2(ft− p X i=1 ρift−i)>(ft− p X i=1 ρift−i) ) . (2.8)

Sendo assim, pelo teorema de Bayes, a condicional a posteriori completa pode ser aproximada por:

f (θ,F |Y ) ∝ f (Y ,F |θ,y1,...,yp,f1,...,fp)f (θ,F ) ∝ n Y t=p+1 f (yt|β,C,Σ,ft)f (ft|ρ,f1,...,fp)f (θ,F ) ∝ n Y t=p+1 |Σ|−1/2exp  −1 2(yt− β − Cft) > Σ−1(yt− β − Cft)  × exp ( −1 2(ft− p X i=1 ρift−i)>(ft− p X i=1 ρift−i) ) f (θ,F ). (2.9)

em que as distribuições a priori são independentes e são dadas por f (β)f (C)f (Σ)f (ρ)f (F ) ∝ constante, e γi = σi−2 ∼ Γ(α0,β0), de modo que a

distribuição de σi2é uma Gama Inversa, para cada componente de Σ.

Para implementar o Amostrador de Gibbs, Sáfadi e Peña (2007) definiram a distribuição condicional a posteriori completa de cada parâmetro. Os cálculos e as distribuições serão apresentados a seguir.

(29)

(a) Posteriori para o vetor de médias β|C,Σ,ρ,Y ,F f (β|C,Σ,ρ,Y ,F ) ∝ n Y t=p+1 f (yt|β,C,Σ,ft)f (β) ∝ exp ( −1 2 n X t=p+1 (yt− β − Cft)>Σ−1(yt− β − Cft) ) ∝ exp ( −1 2 " −β>Σ−1 n X t=p+1 (yt− Cft) − n X t=p+1 (yt− Cft)>Σ−1β + β>(n − p)Σ−1β #) ∝ exp ( −1 2  β − (n − p)Σ−1−1  Σ−1 n X t=p+1 (yt− Cft)     > (n − p)Σ−1 ×  β − (n − p)Σ−1−1  Σ−1 n X t=p+1 (yt− Cft)     ) . (2.10)

Então, a distribuição a posteriori de β é uma Normal Multivariada dada por: β|C,Σ,ρ,Y ,F ∼ Nq   1 n − p n X t=p+1 (yt− Cft), Σ n − p  . (2.11)

(b) Posteriori para a matriz de cargas fatoriais C|β,Σ,ρ,Y ,F Seja Ci∗>a i-ésima linha de C.

f (C|β,Σ,ρ,Y ,F ) ∝ n Y t=p+1 f (yt|β,C,Σ,ft)f (C) ∝ exp    −1 2 n X t=p+1 (yt− β − Cft)>Σ−1(yt− β − Cft)   

(30)

∝ exp    −1 2 n X t=p+1 q X i=1 σ−2i (yit− βi− Ci∗>ft)>(yit− βi− Ci∗>ft)    ∝ q Y i=1 exp    −σ −2 i 2 n X t=p+1 (yit− βi− Ci∗>ft)>(yit− βi− Ci∗>ft)    ∝ q Y i=1 exp ( − 1 2σ2i " − n X t=p+1 (yit− βi)ft>Ci∗− Ci∗ n X t=p+1 ft(yit− βi)> + Ci∗> n X t=p+1 ftft>C ∗ i #) ∝ q Y i=1 exp ( − 1 2σ2 i  Ci∗−   n X t=p+1 ftft>   −1  n X t=p+1 ft(yit− βi)     > × n X t=p+1 ftft>  Ci∗−   n X t=p+1 ftft>   −1  n X t=p+1 ft(yit− βi)     ) . (2.12)

Então, para cada i = 1, . . . ,q,

Ci∗|β,Σ,ρ,Y ,F ∼ Nk  H−1 n X t=p+1 ft(yit− βi); σ2iH −1  , (2.13) em que, H = n X t=p+1 ftft>.

(c) Posteriori para a matriz de covariância Σ|β,C,ρ,Y ,F

Para Σ = diag(σ21, . . . ,σ2q) consideramos a priori γi = σi−2∼ Γ(α0,β0),

de modo que σi2possui distribuição Gama Inversa.

f (Σ|β,C,ρ,Y ,F ) ∝

n

Y

t=p+1

(31)

∝|Σ|−n−p2 exp    −1 2 n X t=p+1 (yt− β − Cft)>Σ−1(yt− β − Cft)    f (Σ) ∝|Σ|−n−p2 exp    −1 2 n,q X t,i σ−2i (yit− βi− Ci∗>ft)>(yit− βi− Ci∗>ft)    f (Σ) ∝ q Y i=1 γ n−p 2 i exp    −γi 2 n X t=p+1 (yit− βi− Ci∗>ft)>(yit− βi− Ci∗>ft)    × γ(α0−1) i exp{−β0γi} ∝ q Y i=1 exp    −γi 2  2β0+ n X t=p+1 (yit− βi− Ci∗>ft)>(yit− βi− Ci∗>ft)      × γ(n−p+2α0)2 −1 i . (2.14)

Então, para cada i = 1, . . . ,q tem-se

γi|β,C,ρ,Y ,F ∼ Γ  α 2, δi 2  , (2.15) em que: αi= n − p + 2α0; δi = 2β0+ n X t=p+1 (yit− βi− Ci∗>ft)>(yit− βi− Ci∗>ft).

(d) Posteriori para os elementos de ρ|β,C,Σ,Y ,F .

Seja Bt= [diag(ft−1),diag(ft−2), . . . ,diag(ft−p)] matriz (k × kp) com

diag(ft−i) =         f1t−i 0 . . . 0 0 f2t−i . . . 0 .. . ... . .. ... 0 0 . . . fkt−i        

(32)

e ρν = (ρ11, . . . ,ρ1k,ρ21, . . . ,ρpk)>um vetor (kp × 1).

Note quePp

i=1ρift−i= Btρν. Então:

f (ρ|β,C,Σ,Y ,F ) ∝ n Y t=p+1 f (ft|ρ,f1,...,fp)f (ρ) ∝ exp    −1 2 n X t=p+1 (ft− p X i=1 ρift−i)>(ft− p X i=1 ρift−i)    ∝ exp    −1 2 n X t=p+1 (ft− Btρν)>(ft− Btρν)    ∝ exp    −1 2 n X t=p+1 h −ft>Btρν− ρ>νBt>ft+ ρ>νBt>Btρν i    ∝ exp ( −1 2  ρν−   n X t=p+1 Bt>Bt   −1  n X t=p+1 Bt>ft     > × n X t=p+1 Bt>Bt  ρν −   n X t=p+1 B>t Bt   −1  n X t=p+1 Bt>ft     ) . (2.16) Então, ρν|β,C,Σ,Y ,F ∼ Nkp  H−1 n X t=p+1 Bt>ft; H−1  ; (2.17) em que, H = n X t=p+1 Bt>Bt.

(II) Posteriores para os fatores F |θ,Y

(e) Posteriori para os fatores F |β,C,Σ,ρ,Y ,Λ

(33)

note que os fatores não seguem o modelo autorregressivo. Temos então que: f (ft|β,C,Σ,Y ,Λ) ∝ p X t=1 f (yt|β,C,Σ,ft)f (ft|Λ)f (F ) ∝ p Y t=1 exp  −1 2(yt− β − Cft) >Σ−1(y t− β − Cft)  × exp  −1 2f > t Λ−1ft  ∝ p Y t=1 exp ( −1 2 h −(yt− β)>Σ−1Cft− ft>C>Σ−1(yt− β) + ft>C>Σ−1Cft i −1 2f > t Λ−1ft ) ∝ p Y t=1 exp ( −1 2 h ft>(C>Σ−1C + Λ−1)ft − ft>(C>Σ−1(yt− β)) − ((yt− β)>Σ−1C)ft i ) ∝ p Y t=1 exp ( −1 2 h ft− (C>Σ−1C + Λ−1)−1(C>Σ−1(yt− β)) i> × (C>Σ−1Ca21+ Λ−1) ×hft− (C>Σ−1C + Λ−1)−1(C>Σ−1(yt− β)) i ) . (2.18)

Então, para todo ft, com t = 1,...,p temos

ft|β,C,Σ,Y ∼ Nk(H−1C>Σ−1(yt− β); H−1), (2.19)

em que:

(34)

E para cada t = p + 1, . . . ,n; f (ft|C,β,ρ,Σ,Y ) ∝ n Y t=p+1 f (yt|β,C,Σ,ft)f (ft|ρ,f1,...,fp)f (F ) ∝ n Y t=p+1 exp  −1 2(yt− β − Cft) > Σ−1(yt− β − Cft)  × exp ( −1 2(ft− p X i=1 ρift−i)>(ft− p X i=1 ρift−i) ) ∝ n Y t=p+1 exp ( −1 2 h −(yt− β)>Σ−1Cft− ft>C >Σ−1(y t− β) + ft>C>Σ−1Cft i ) × exp ( −1 2 " ft>ft− ft> p X i=1 ρift−i− p X i=1 ft−i> ρ>i ft #) ∝ n Y t=p+1 exp  −1 2  ft>(C>Σ−1C + Ik)ft − ft> C>Σ−1(yt− β) + p X i=1 ρift−i ! − (yt− β)>Σ−1C + p X i=1 ft−i> ρ>i ! ft  ∝ n Y t=p+1 exp  −1 2 h ft− (C>Σ−1C + Ik)−1(C>Σ−1(yt− β) + p X i=1 ρift−i) i> (C>Σ−1C + Ik) h ft− (C>Σ−1C + Ik)−1(C>Σ−1(yt− β) + p X i=1 ρift−i) i . (2.20)

(35)

Então, para cada t = p + 1, . . . ,n ft|ft−1, . . . ,ft−p,ρ,β,Σ,C,Y ∼ Nk(H−1a,H−1), (2.21) em que: a = (C>Σ−1(yt− β) + p X i=1 ρift−i); H = (C>Σ−1C + Ik).

2.4.3 Modelo fatorial dinâmico para o caso de erros t multivariados - Borges (2008)

A verossimilhança aumentada para o modelo fatorial dinâmico, para erros t multivariados, é dada em Borges (2008) por:

f (Y ,F |θ,y1,...,yp,f1,...,fp) ∝ n Y t=p+1 f (yt|β,C,Σ,ft)f (ft|ρ,f1,...,fp) ∝ n Y t=p+1 |Σ|−1/2hνe+ (yt− β − Cft)>Σ−1(yt− β − Cft) i−νe+q2 × |U |−1/2 " νw+ (ft− p X i=1 ρift−i)>U−1(ft− p X i=1 ρift−i) #−νw +k2 . (2.22)

Sendo assim, pelo teorema de Bayes, a condicional a posteriori completa pode ser aproximada por:

(36)

∝ n Y t=p+1 f (yt|β,C,Σ,ft)f (ft|ρ,f1,...,fp)f (θ,F ) ∝ n Y t=p+1 |Σ|−1/2hνe+ (yt− β − Cft)>Σ−1(yt− β − Cft) i−νe+q 2 × |U |−1/2 " νw+ (ft− p X i=1 ρift−i)>U−1(ft− p X i=1 ρift−i) #−νw +k 2 × f (θ,F ). (2.23)

em que f (θ,F ) é a distribuição a priori conjunta dos parâmetros desconhecidos e dos fatores latentes.

Note que a condicional completa a posteriori definida em (2.23) é intratável algebricamente de forma que as condicionais a posteriori, para cada um dos parâmetros e para os fatores latentes, não puderam ser obtidas, como no caso normal. Nesse trabalho, as cadeias de Markov foram obtidas numericamente, por meio do Amostrador Griddy-Gibbs

Nesta tese, será apresentada uma alternativa para expressar a função de densidade da t multivariada, de modo que os cálculos para a obtenção das distribuições condicionais a posteriori se assemelhem ao que foi apresentado no caso de erros normais por Sáfadi e Peña (2007). Obtidas as condicionais a posteriori, não se faz necessário o uso de um método numérico para a obtenção das cadeias de Markov. Assim, utilizamos o Amostrador de Gibbs para obtenção das cadeias de Markov.

2.5 Dados aumentados (data augmentation)

Como já foi mencionado, o formato usual da função densidade da t multivariada dificulta a obtenção das distribuições à posteriori. Por isso,

(37)

utilizou-se para a metodologia desta teutilizou-se, o resultado que utilizou-será apreutilizou-sentado na utilizou-seção 4.1.1. Esse resultado consiste em utilizar a t multivariada como a mistura de uma normal multivariada com uma raiz de qui-quadrado. O conceito de dados aumentados é que permite a utilização desse resultado.

O conceito de dados aumentados se refere a uma forma de aumentar o conjunto de dados observados de modo que simplifique a análise. Essa ferramenta é frequentemente utilizada na aplicação do algoritmo EM para simplificar a obtenção da máxima verossimilhança (Dempster, Laird e Rubin, 1977). Em Inferência Bayesiana, esse conceito é aplicado para obter uma função de verossimilhança que simplifique a obtenção das distribuições a posteriori.

Para entender a aplicação de dados aumentados, considere que o conjunto de dados observados y é aumentado por uma variável auxiliar z, comumente chamada de variável latente (não observável). Assumindo que y e z são conhecidos, a posteriori aumentada f (θ|y,z) pode ser calculada. Porém, a posteriorique desejamos obter é f (θ|y), que pode ser difícil de tratar diretamente. Se, no entanto, pudermos gerar múltiplos valores {zi : i = 1,...,m} de z, de

uma distribuição f (z|y), então podemos aproximar f (θ|y) pela média dos valores {f (θ|y,zi) : i = 1,...m} (Tanner e Wong, 1987).

2.6 Métodos Monte Carlo via Cadeias de Markov

Na análise bayesiana, a inferência sobre os parâmetros é baseada em sua distribuição a posteriori. As distribuições marginais de interesse podem ser obtidas da distribuição a posteriori conjunta dos parâmetros, mas, na maioria das vezes, não conseguimos obter analiticamente essas distribuições marginais e o pesquisador tem que recorrer a métodos numéricos. Os mais utilizados são os métodos de Monte Carlo via Cadeias de Markov (MCMC) que são métodos

(38)

de simulação através dos quais geram-se amostras aleatórias de uma distribuição marginal sem que se conheça sua densidade.

Os métodos MCMC permitem obter uma amostra da distribuição a posteriori de interesse, que não poderia ser simulada diretamente. Os valores são gerados de forma iterativa, baseados em cadeias de Markov. A ideia geral dos métodos MCMC é simular um passeio aleatório no espaço do parâmetro θ, que converge para uma distribuição estacionária, que é a distribuição a posteriori f (θ|y), onde y é o vetor de observações.

O método de simulação Monte Carlo via cadeias de Markov, utilizado neste trabalho, é o Amostrador de Gibbs.

2.6.1 Amostrador de Gibbs

Amostrador de Gibbs é essencialmente um esquema iterativo de amostragem de uma cadeia de Markov cujo núcleo de transição é formado pelas distribuições condicionais completas. É uma técnica para gerar variáveis aleatórias de uma distribuição (marginal) sem que se conheça a sua densidade. A ideia do método de Monte Carlo via Cadeia de Markov (MCMC) é simular um passeio aleatório no espaço do parâmetro θ, o qual converge para uma distribuição estacionária que, em estatística Bayesiana, é a distribuição a posteriori f (θ|Y ).

O Amostrador de Gibbs tem sido extremamente útil na resolução de problemas multidimensionais e é definido em termos de subvetores de θ. Seja o vetor de parâmetros θ dividido em p subvetores, (θ1, θ2,..., θp), e suponha

que as distribuições condicionais de cada subvetor (que pode ser um parâmetro escalar ou um vetor) θi, dado todos os outros, sejam conhecidas. Essas

distribuições são denotadas por f (θ1|θ2,θ3,..., θp, Y ), f (θ2|θ1, θ3,..., θp, Y ),...,

(39)

são denominadas distribuições condicionais completas.

Segundo Gamerman (1996), o Amostrador de Gibbs pode ser descrito da seguinte forma:

1. Dados os valores iniciais θ(0)= (θ1(0), θ2(0), ..., θp(0))>para os parâmetros;

2. Gera a primeira das M + N iterações,

θ1(1)def (θ1|θ2(0), θ (0) 3 , ..., θ (0) p , Y ), θ2(1)def (θ2|θ1(1), θ3(0), ..., θp(0), Y ), .. . θp(1)def (θp|θ1(1), θ2(1), ..., θp−1(1) , Y ),

obtendo-se na primeira iteração θ(1)= (θ1(1), θ2(1), ..., θp(1))>;

3. O passo 2 é repetido substituindo o vetor de valores iniciais por θ(1) para gerar θ(2);

4. Os passos 2 e 3 são repetidos M + N vezes, produzindo assim {θ(1), θ(2), ..., θ(M +N )};

5. Descartando as primeiras M realizações no passo 4, as N realizações restantes são utilizadas para formar uma amostra aleatória {(θ1(i), θ(i)2 , ..., θ(i)p )M +Ni=M +1} e estima-se a posteriori usando esta amostra

aleatória.

À medida que o número de iterações aumenta (N → ∞), a sequência se aproxima de sua condição de equilíbrio, ou seja, ela atinge a característica de estacionariedade com um comportamento assintótico. Assim, assume-se que a convergência é atingida em uma iteração cuja distribuição esteja arbitrariamente próxima da distribuição de equilíbrio, ou seja, a marginal desejada, e não no sentido formal e inatingível do número de iterações tendendo para o infinito.

(40)

Gamerman (1996) comenta que apesar de os resultados teóricos garantirem a convergência do Amostrador de Gibbs, sua utilização na prática pode ser bastante complicada quando se têm modelos muito complexos. Essa complexidade faz com que a convergência do Amostrador de Gibbs seja de difícil caracterização.

2.7 Verificação da convergência

Um ponto importante da aplicação dos métodos MCMC é a verificação da convergência da cadeia para a distribuição de equilíbrio. Em casos de modelos mais complexos, a inferência bayesiana exige um grande esforço computacional que, segundo Nogueira (2004), pode ser minimizado com o monitoramento da convergência, evitando que iterações além das necessárias sejam executadas.

A próxima seção aborda os principais aspectos de dois critérios de convergência presentes no pacote B.O.A (Bayesian Output Analysis) do software R, que foram utilizados para fazer o monitoramento da convergência neste estudo.

2.7.1 Critério de Raftery e Lewis (1992a)

O critério sugerido por Raftery e Lewis (1992a) é um método que estima quantas iterações são necessárias para que o Amostrador de Gibbs apresente convergência à distribuição estacionária, propondo especificações de quantidades necessárias para isto. Deve-se ter uma sequência do Amostrador de Gibbs com um N mínimo, que é o número mínimo de iterações requeridas para se obter a precisão necessária de estimação. O método fornece as estimativas do “burn-in” (M ), que é o número de iterações que devem ser descartadas, o número de iterações que devem ser computadas N T = N + M e o k, que é a distância mínima de uma iteração à outra para se obter a subamostra aproximadamente independente

(41)

(“thin”). Esses valores serão calculados mediante especificações para garantir que um quantil u de uma determinada função f (θ) seja estimada com precisão pré definida.

A presença de inúmeras variáveis possibilita resultados dessa análise para cada uma delas; assim, deve-se tomar os maiores valores de M, N T e k, pois a convergência só se dará quando todas as variáveis convergirem.

Outra saída importante é o Fator de Dependência que é responsável pelo acréscimo multiplicativo ao número de iterações necessárias para se alcançar a convergência, devido à autocorrelação dentro de sequência. Segundo Raftery e Lewis (1992b), se este fator for maior que 5, pode-se dizer que a convergência ainda não foi obtida, necessitando reparametrizar o modelo em estudo.

2.7.2 Critério de Geweke

Seja g(θ) a função do parâmetro cujo valor esperado se pretende estimar. Para isso, o amostrador de Gibbs simula valores θ(1),θ(2),... de uma cadeia de

Markov. Obtemos em seguida os valores gj = g(θ(j)) que definem a série temporal g1,g2,... .

O método de Geweke (1992) baseia-se na aplicação de técnicas usuais de séries temporais para verificar a convergência da cadeia de Markov obtida pelo amostrador de Gibbs. Observa-se a série ao longo de um número N suficientemente grande de iterações e calcula-se a média das naprimeiras iterações

bem como das nbúltimas iterações dadas por ga= n1a Ptgte gb = n1b

P

tgt.

Assim, se a cadeia é estacionária, então a média da primeira parte da cadeia gadeve ser semelhante à média da última parte da cadeia gb. Admitindo que na/N

(42)

e nb/N são fixos e N → ∞ pode-se mostrar que ga− gb q (s2 a/na) + (s2b/nb) ∼ N (0,1),

em que s2a/nae s2b/nbsão estimativas independentes das variâncias de gae gb.

Assim, um teste para uma sequência pode ser construído. Se a diferença padronizada entre as médias for grande, existe indicação de ausência de convergência. As médias devem ser construídas após algumas iterações iniciais terem sido descartadas, e que sejam usados os valores de na= 0,1N e nb = 0,5N

(Geweke, 1992).

Na prática, deve-se notar que esta tentativa de diagnóstico para verificar uma necessária, mas não suficiente condição de convergência, informa ao pesquisador somente se a convergência não foi alcançada, e não se realmente convergiu.

2.8 Fator de Bayes

É comum o interesse em escolher, entre dois ou mais modelos, aquele que melhor se ajusta a um conjunto de dados. Um critério comumente utilizado para esse fim é o fator de Bayes. A título de ilustração, considere duas hipóteses, H0 sob o modelo M0 e H1 sob o modelo M1, e uma sequência de observações

y = (y1, . . . ,yn), com n > 1.

O fator de Bayes B(y), é a razão das verossimilhanças marginais

B(y) = f (y|H0) f (y|H1)

(43)

com,

f (y|Hk) =

Z

Θk

f (y|θ,Hk)f (θ|Hk)dθ, k = 0,1,

em que f (y|θ,Hk) é a função de verossimilhança para o modelo Hke f (θ|Hk) é

a função densidade a priori para θ sob o modelo Hk.

Pode-se interpretar o fator de Bayes como sendo uma medida da evidência em favor do modelo M0. Jeffreys (1961) sugeriu dividir os possíveis valores do

cálculo do fator de Bayes em quatro intervalos, como descrito na Tabela 1.

Tabela 1 Escala de interpretação do fator de Bayes.

B(y) log10(B(y)) Interpretação a favor de H0

< 1 < 0 Negativa (a favor de H1)

1 a 3,2 0 a 0,5 Insignificante 3,2 a 10 0,5 a 1 Significativa

10 a 100 1 a 2 Forte

> 100 > 2 Decisiva

Na Tabela 1, o logaritmo do fator de Bayes é aplicado a fim de obter números com intervalos menores.

(44)

3 METODOLOGIA

Nesta tese consideramos o modelo fatorial dinâmico dado pelas seguintes equações: yt=β + Cft+ et; ft= p X i=1 ρift−i+ wt, (3.1) em que:

• yté um vetor de q séries temporais observáveis;

• fté um vetor de k variáveis latentes, que seguem um modelo V AR(p);

• ρié uma matriz de coeficientes autorregressivos, com ρi= diag(ρi1,...,ρik)

para todo i = 1,...,p; e {ρ1j,ρ2j,...,ρpj}, satisfazem a condição de

estacionariedade para todo j = 1,2,...,k;

• β é o vetor de q médias das observações yt;

• C é uma matriz (q × k) de cargas fatoriais;

• etsão vetores independentes (q × 1) que definem os erros da parte fatorial

do modelo;

• wtsão vetores independentes (k × 1) que definem os erros da parte

auto-regressiva do modelo;

• ete wssão mutuamente independentes para todo t,s = 1,2,...,n.

Com a finalidade de obter um modelo único, assim como Sáfadi e Peña (2007), a matriz de cargas fatoriais C, foi restringida a uma matriz triangular inferior, de posto completo, ou seja,

(45)

C =                   1 0 0 . . . 0 c21 1 0 . . . 0 c31 c32 1 . . . 0 .. . ... ... . .. ... ck1 ck2 ck3 . . . 1 .. . ... ... . .. ... cq1 cq2 cq3 . . . cqk                   .

Definindo C dessa forma, permite-se a identificação dos fatores, bem como uma boa interpretação dos mesmos.

O objetivo geral deste trabalho é ajustar o modelo fatorial dinâmico a um conjunto de séries temporais financeiras que, em geral, tem comportamento distante do caso normal, de modo que o uso da distribuição t multivariada é mais adequado.

Sendo assim, serão consideradas duas estratégias: a primeira utilizará dados simulados, com os valores dos parâmetros conhecidos e a segunda, dados reais.

3.1 Simulação dos dados

Ao simular os dados, a partir do modelo (3.1), devemos inserir uma perturbação ao caso normal, através da distribuição t multivariada.

Inicialmente, isso foi feito na simulação, assumindo que os dois erros do modelo (ete wt) tinham distribuição t multivariada. Contudo, o estudo desse caso,

variando os graus de liberdade, de forma que esses erros se aproximassem do caso normal em alguns casos, indicou que a perturbação da normalidade poderia ser atribuída a apenas um dos erros do modelo.

(46)

É natural pensar que no caso de séries distantes do caso normal, o erro geral do modelo etseria responsável por esta perturbação à normalidade. Contudo, para

estudar as possíveis origens do afastamento do caso normal, no caso de séries financeiras, decidiu-se por simular os dados em três casos distintos:

• 1o¯ Caso: et∼ tq(0,Σ,νe) e wt∼ tk(0,I,νw).

• 2o¯ Caso: et∼ tq(0,Σ,νe) e wt∼ Nk(0,I).

• 3o¯ Caso: et∼ Nq(0,Σ) e wt∼ tk(0,I,νw).

Para simular os dados nos três casos, foram definidas arbitrariamente, a ordem do modelo autorregressivo vetorial p = 1, a dimensão do vetor de observações q = 5 e a dimensão do vetor de fatores latentes k = 2.

Uma vez que se trata de um modelo V AR(1), para os fatores, o modelo proposto se resume a:

yt=β + Cft+ et;

ft=ρft−1+ wt. (3.2)

Definiram-se, ainda para efeito de simulação, valores fixos para parâmetros do modelo acima, como:

β =            0,2 0,3 0,5 0,4 0,1            , C =            1 0 0,2 1 0,7 0,3 0,1 0,9 0,2 0,8            , e ρ =   0,5 0 0 0,3  .

(47)

Para os casos 1 e 3, em que wt ∼ tk(0,Ik,νw), assumimos que ft ∼

tk(0,Λ,νw), e para o caso 2, em que wt ∼ Nk(0,Ik), assumimos que ft ∼

Nk(0,Λ), para todo t = 1, . . . ,n.

Será mostrado nas seções 4.1.2.1, 4.1.2.2 e 4.1.2.3 que, para p = 1, Λ = ρ>1Λρ1+ Ik, nos três casos.

Como o modelo foi restringido ao caso de p = 1 e k = 2, então Λ = diag(λ1,λ2) e ρ = diag(ρ1,ρ2), de modo que λi = 1/(1 − ρ2i), para i = 1,2.

Os graus de liberdade para os erros, nos casos em que estes tenham distribuição t multivariada, foram νe= 3 e νw = 4.

Feitas as considerações acima, foram simuladas n = 2000 observações q-variadas de Y , para cada caso, como será descrito a seguir, de forma geral.

3.1.1 Algoritmo para simulação de dados

Escolhido o caso a ser estudado (1, 2, ou 3), e definidas as distribuições dos fatores e dos erros do modelo (normal ou t multivariada), os dados devem ser simulados seguindo os seguintes passos:

1. Gerar o primeiro (p = 1) fator latente f1a partir da distribuição pré definida.

2. Gerar os demais fatores {f2, . . . ,fn}, de forma iterativa, seguindo a parte

autorregressiva do modelo (3.2), de modo que, para cada t = 2, . . . ,n:

• gerar wtaleatoriamente da distribuição pré definida;

• uma vez que são conhecidos os valores de wt, ρ e ft−1, obter ftda

expressão ft= ρft−1+ wt.

3. Gerar os n valores observados {y1,...,yn}, seguindo a parte fatorial do

(48)

• gerar etaleatoriamente de uma distribuição pré definida;

• uma vez que são conhecidos os valores de et, β, C e ft, obtém-se yt

da expressão yt= β + Cft+ et.

3.2 Aplicação em dados reais

A distribuição t multivariada foi escolhida, neste estudo, por ser bastante utilizada em modelos de séries temporais financeiras. O uso dessa distribuição, na análise clássica de séries temporais, é comum, mas na análise bayesiana ainda é restrita, sendo a distribuição normal mais utilizada.

As séries consideradas foram valores diários dos índices das bolsas de valores: S&P500 (EUA), Shanghai Comp Index (China), FTSE100 (Reino Unido), CAC40 (França), DAX (Alemanha), S&P/TSX (Canadá), Bovespa (Brasil), Merval (Argentina) e Nikkei 225 (Japão); no período de 2008 a 2011. Trata-se, portanto, da análise de q = 9 séries temporais com n = 650 observações

Optamos, neste trabalho, por trabalhar com os retornos, que segundo Morettin (2008), são preferíveis de se trabalhar, pois são livres de escala e têm propriedades estatísticas mais interessantes, como estacionariedade e ergodicidade.

Sendo It o índice da bolsa no instante t, o retorno é definido por ri =

log(It) − log(It−1).

Calculados os retornos, foram analisados os gráficos dos retornos e das funções de autocorrelação e autocorrelação parcial para definir possíveis valores para a ordem do modelo V AR(p).

A escolha do número de fatores foi feita através da análise do gráfico dos autovalores versus o número de fatores (scree plot).

(49)

para identificar um possível afastamento da distribuição normal, como é esperado, já que se trata de dados financeiros.

Confirmado o afastamento dos dados, da distribuição normal, considera-se que os erros et e wtseguem a distribuição de acordo com o caso 1, 2 ou 3 para

proceder com a estimação bayesiana dos parâmetros do modelo.

3.3 Análise bayesiana do modelo proposto

Uma vez que o conjunto de dados foi definido (simulados ou reais), podemos prosseguir com a análise bayesiana do modelo proposto. Como o conjunto de dados se afasta do comportamento normal, podemos assumir três cenários para a distribuição dos erros do modelo.

• Cenário 1: et∼ tq(0,Σ,νe) e wt∼ tk(0,I,νw).

• Cenário 2: et∼ tq(0,Σ,νe) e wt∼ Nk(0,I).

• Cenário 3: et∼ Nq(0,Σ) e wt∼ tk(0,I,νw).

Para obter as condicionais a posteriori dos parâmetros de interesse no modelo, deve-se obter a função de verossimilhança que é dada pelo produto das verossimilhanças de yte ft.

Como foi visto em Borges (2008), essa função de verossimilhança é intratável para o cálculo das posteriores no caso de erros t multivariados.

Para contornar essa dificuldade, utilizamos a função densidade da t multivariada como uma mistura das distribuições normal multivariada e raiz de qui-quadrado. A obtenção dessa forma alternativa de expressar a t multivariada pode ser vista na seção 4.1.1.

(50)

Dessa forma, foi possível obter as distribuições a posteriori de cada um dos parâmetros do modelo θ = (β,C,ρ,Σ), dos fatores latentes {ft: t = 1,...,n}

e ainda das variáveis auxiliares A1e A2 (ver seção 4.1.1).

Os números de graus de liberdade poderiam ser considerados desconhecidos e serem também estimados. Segundo Lange et al. (1989), valores baixos fixados têm apresentado boa performance para pequenas amostras. Preferimos fixar valores baixos de graus de liberdade, pois valores altos levariam a distribuições aproximadamente normais e o que estamos procurando é uma alternativa a essa distribuição.

Os cálculos para obtenção das posteriores de interesse, para cada um dos cenários, podem ser vistos na seção 4.1.2.

De posse das distribuições a posteriori de cada um dos parâmetros do modelo, dos fatores latentes e das variáveis auxiliares, é possível implementar o Amostrador de Gibbs.

Utilizamos o Amostrador de Gibbs para gerar uma cadeia de Markov para cada um dos parâmetros, fatores e variáveis auxiliares, a partir de sua distribuição condicional a posteriori.

Geramos inicialmente uma cadeia de tamanho N = 5000 para cada parâmetro pelo Amostrador de Gibbs. O critério de Raftery e Lewis (1992a) foi utilizado para estimar o tamanho total (N T ) necessário para as cadeias.

Geramos então novas cadeias, com o tamanho N T indicado e utilizamos o critério Raftery e Lewis (1992a) nas novas cadeias para estimar o tamanho do “burn-in”, para eliminar o efeito inicial da cadeia, e o tamanho dos intervalos entre observações (“thin”), para obter uma amostra aproximadamente não correlacionada para cada parâmetro. Para verificar a convergência das cadeias, foi utilizado o critério de Geweke (1992).

(51)

Feito apropriadamente o “burn-in” e o “thin”, e verificada a convergência das cadeias, a estimativa para cada parâmetro foi obtida pela média dos valores da respectiva cadeia de Markov. Foram estimados também os intervalos de maior densidade a posteriori (HPD - highest probability density) e foram analisados os gráficos dos traços das cadeias e da estimativa da densidade a posteriori dos parâmetros.

No caso de simulação, as estimativas foram comparadas com seus valores reais, utilizados para a simulação dos dados.

No caso de dados reais, a estimação bayesiana dos parâmetros foi feita, considerando-se apenas o cenário que mostrou melhor resultado para dados simulados.

A implementação dessa metodologia foi feita utilizando-se o software R, cuja rotina encontra-se no APÊNDICE A.

(52)

4 RESULTADOS

Nesta seção, apresentamos os resultados teóricos e práticos da tese. Os resultados teóricos consistem nos cálculos necessários para a implementação da metodologia. Os resultados que chamamos de práticos consistem nos resultados obtidos na aplicação da metodologia a um conjunto de dados.

4.1 Resultados teóricos

Para a implementação da metodologia, foi necessário definir a variável t multivariada como uma mistura de variáveis normais e qui-quadrado, de forma que os cálculos para a obtenção das distribuições a posteriori fossem possíveis. Nesta seção, apresentamos detalhadamente os cálculos para a obtenção da t multivariada como mistura e, ainda, os cálculos para a obtenção das condicionais a posteriori nos três cenários para as distribuições dos erros.

4.1.1 Obtenção da t multivariada como mistura

Para definir essa nova função densidade de probabilidade da t multivariada, considere Z ∼ Nq(0,I), com função densidade dada por

fZ(z) = (2π)−q/2exp  −1 2z Tz  , (4.1) e A ∼ pχ2

ν/ν, sendo χ2ν uma variável aleatória com distribuição qui-quadrado

com ν > 0 graus de liberdade, e função densidade de probabilidade dada por

fA(a; ν) =

νν/2 Γ(ν/2)2ν/2−1a

ν−1e−νa2/2

(53)

para a > 0.

Então, quando Z e A são independentemente distribuídas, a variável aleatória

W = Z

A, (4.3)

possui distribuição t multivariada com ν graus de liberdade, vetor de médias 0 e matriz de covariâncias νI/(ν − 2) quando ν > 2.

Como Z e A são independentemente distribuídos, a distribuição conjunta dessas variáveis é dada pelo produto das densidades individuais. Logo,

fZ,A(z, a; ν) =fZ(z)fA(a; ν) =(2π)−q/2exp  −1 2z > z  × ν ν/2 Γ(ν/2)2ν/2−1a ν−1e−νa2/2 . (4.4)

Se a transformação (4.3) for realizada juntamente com A = A, a função densidade conjunta de W e A deriva da função densidade conjunta de Z e A com o uso do Jacobiano da transformação. O Jacobiano da transformação é dado por

J = ∂z1 ∂w1 ∂z1 ∂w2 . . . ∂z1 ∂wq ∂z1 ∂a ∂z2 ∂w1 ∂z2 ∂w2 . . . ∂z2 ∂wq ∂z2 ∂a .. . ... . .. ... ... ∂zq ∂w1 ∂zq ∂w2 . . . ∂zq ∂wq ∂zq ∂a ∂a ∂w1 ∂a ∂w2 . . . ∂a ∂wq ∂a ∂a = a 0 . . . 0 w1 0 a . . . 0 w2 .. . ... . .. ... ... 0 0 . . . a wq 0 0 0 0 1 = aq.

Assim, a distribuição conjunta de W e A é

fW ,A(w, a; ν) =(2π)−q/2exp  −1 2a 2w>w  × ν ν/2 Γ(ν/2)2ν/2−1a ν−1e−νa2/2 |aq| =(2π)−q2|Ω|− 1 2 exp  −1 2w >−1w  × ν ν/2 Γ(ν/2)2ν/2−1a ν−1e−νa2 2 , em que Ω = a−2I, |Ω| = a−2qe Ω−1= a2I.

(54)

Se forem consideradas as transformações A = A e

X =Σ1/2W , (4.5)

cujo Jacobiano da transformação é J = |Σ|−1/2, então a distribuição conjunta de X e A é dada por fX,A(x, a; ν, Σ) =(2π)−q/2|Ω|−1/2exp  −1 2x >Σ−1/2−1Σ−1/2x  × ν ν/2 Γ(ν/2)2ν/2−1a ν−1e−νa2/2 |Σ|−1/2 =(2π)−q/2|Γ|−1/2exp  −1 2x > Γ−1x  × ν ν/2 Γ(ν/2)2ν/2−1a ν−1e−νa2/2 , (4.6)

sendo Γ = Σ/a2, uma vez que

Σ−1/2Ω−1Σ−1/2= a2Σ−1= Γ−1, e |Ω|−1/2|Σ|−1/2= aq|Σ|−1/2= Σ a2 −1/2 = Γ−1/2.

Reescrevendo a distribuição conjunta:

fX,A(x, a; ν, Σ) =(2π)−q/2aq|Σ|−1/2exp  −1 2a 2x> Σ−1x  × ν ν/2 Γ(ν/2)2ν/2−1a ν−1e−νa2/2 . (4.7)

Note que a variável X tem distribuição t multivariada com média 0 e matriz de covariâncias νΣ/(ν − 2), quando ν > 2.

(55)

A, de modo que Y ∼ tq(β,Σ,ν), é fácil ver que a distribuição conjunta de Y e A é dada por fY ,A(y, a; ν, Σ) =(2π)−q/2aq|Σ|−1/2exp  −1 2a 2(y − β)>Σ−1(y − β)  × ν ν/2 Γ(ν/2)2ν/2−1a ν−1e−νa2/2 . (4.8)

Portanto, a distribuição marginal de Y representa uma forma alternativa de expressar a t multivariada, e é obtida integrando a equação (4.8), da seguinte forma: fY(y; ν, Σ) = Z ∞ 0 (2π)−q/2aq|Σ|−1/2exp  −1 2a 2(y − β)> Σ−1(y − β)  × ν ν/2 Γ(ν/2)2ν/2−1a ν−1e−νa2/2 da. (4.9)

Para evitar cálculos envolvendo as integrais da densidade marginal (4.9), utilizamos o conceito de dados aumentados para utilizar a densidade conjunta (4.8) na função de verossimilhança aumentada, que pode ser utilizada como uma aproximação da função de verossimilhança.

4.1.2 Obtenção das distribuições a posteriori

Considere o modelo fatorial definido na seção 3.1 dado pelas seguintes equações: yt=β + Cft+ et ft= p X i=1 ρift−i+ wt. (4.10)

(56)

Segundo Ferreira (2011), em geral, são feitas algumas suposições sobre as variáveis envolvidas no modelo fatorial, tais como E(yt) = β, E(ft) = E(et) =

0, Cov(ft,et) = 0 (k × q) e os erros etsão não correlacionados.

Para estudar o ajuste de um conjunto de séries temporais, através do modelo fatorial dinâmico, envolvendo a distribuição t multivariada, abordaremos três cenários descritos a seguir.

• Cenário 1: et∼ tq(0,Σ,νe) e wt∼ tk(0,I,νw).

• Cenário 2: et∼ tq(0,Σ,νe) e wt∼ Nk(0,I).

• Cenário 3: et∼ Nq(0,Σ) e wt∼ tk(0,I,νw).

Os cálculos para a obtenção das distribuições a posteriori para os três cenários serão apresentados nas seções a seguir.

4.1.2.1 Posteriores para Cenário 1

Neste caso, foi assumido que et ∼ tq(0,Σ,νe) e wt ∼ tk(0,I,νw).

Assumiu-se ainda que ft ∼ tk(0, Λ,νw) para todo t, de modo que Cov(ft) =

νwΛ/(νw− 2).

O vetor de fatores latentes segue um modelo autorregressivo vetorial, como foi indicado na segunda parte do modelo (4.10). Em particular para p = 1, a matriz de covariâncias do vetor de fatores latentes é dada por:

ft= ρ1ft−1+ wt

⇒Cov(ft) = ρ1Cov(ft−1)ρ>1 + Cov(wt)

⇒ νw νw− 2 Λ = ρ1 νw νw− 2 Λρ>1 + νw νw− 2 Ik ⇒ νw νw− 2 Λ = νw νw− 2  ρ1Λρ>1 + Ik 

(57)

⇒Λ = ρ1Λρ>1 + Ik.

Definidas as distribuições das variáveis de interesse do modelo, podemos calcular as distribuições a posteriori. Porém, se utilizarmos a função de densidade da t multivariada no formato usual, apresentado em (2.3), a função de verossimilhança obtida fica intratável, impossibilitando os cálculos das posteriores, como foi visto em Borges (2008).

A alternativa adotada neste estudo foi utilizar a distribuição t multivariada como um modelo hierárquico, baseado na mistura de distribuições normais e qui-quadrado. Foram aplicados conceitos de dados aumentados para utilizar a distribuição conjunta da t multivariada com uma raiz qui-quadrado, da forma apresentada na equação (4.7).

Dessa forma a função de verossimilhança passa a ser um produto de exponenciais e os cálculos se assemelham ao caso de erros normais.

Sendo assim, para t = 1, . . . , n, definimos as variáveis auxiliares A1t ∼

pχ2 νe/νee A2t∼pχ 2 νw/νw, de modo que: f (yt, a1t) =(2π)− q 2a(q+νe−1) 1t |Σ| −1 2 ν νe 2 e e− νea21t 2 Γ(νe 2)2 νe 2−1 × exp  −a 2 1t 2 (yt− β − Cft) >Σ−1(y t− β − Cft)  , (4.11) e ainda, f (ft, a2t) =(2π)− k 2a(k+νw−1) 2t |Ik|−1/2 ννw/2 w e−νwa 2 2t/2 Γ(νw/2)2νw/2−1 × exp ( −a 2 2t 2 (ft− p X i=1 ρift−i)>(ft− p X i=1 ρift−i) ) . (4.12)

(58)

Como Lee e Shi (2000), desenvolvemos o procedimento baseando, novamente, no conceito de dados aumentados de modo que obtemos as posteriores para os parâmetros em θ = (β,C,ρ,Σ), condicionadas ao conjunto de observações aumentado (Y ,F ,A1,A2) em que Y = {yt; t = 1, . . . ,n}, F =

{ft; t = 1, . . . ,n}, A1 = {a1t; t = 1, . . . ,n} e A2 = {a2t; t = 1, . . . ,n}.

A ideia essencial é: (I) determinar as distribuições a posteriori para as variáveis auxiliares f (A1|θ,Y ,F ) e f (A2|θ,Y ,F ); (II) determinar a distribuição

a posteriori para cada um dos parâmetros em θ = (β,C,ρ,Σ); (III) determinar a distribuição a posteriori dos fatores latentes f (F |Y ,A1,A2,θ).

A condicional completa é obtida da função de verossimilhança pelo teorema de Bayes que, pelo conceito de dados aumentados, pode ser aproximada por: f (Y ,F ,A1,A2|β,C,Σ,ρ) ∝ n Y t=p+1 f (yt,a1t|β,C,Σ,ft)f (ft,a2t|ρ), (4.13)

em que as densidades conjuntas são definidas pelas expressões (4.11) e (4.12), de modo que a função de verossimilhança aumentada pode ser expressa por:

f (Y ,F ,A1,A2|β,C,Σ,ρ) ∝ n Y t=p+1 |Σ|−1/2exp  −a 2 1t 2 (yt− β − Cft) >Σ−1(y t− β − Cft)  aq+νe−1 1t × exp ( −a 2 2t 2 (ft− p X i=1 ρift−i)>Ik−1(ft− p X i=1 ρift−i) ) ak+νw−1 2t × ν νe/2 e e−νea 2 1t/2 Γ(νe/2)2νe/2−1 ννw/2 w e−νwa 2 2t/2 Γ(νw/2)2νw/2−1 . (4.14)

(59)

teorema de Bayes, por:

f (β,C,Σ,ρ,F ,A1,A2|Y )

∝f (Y , F , A1,A2|β,C,Σ,ρ)f (β,C,Σ,ρ,F ,A1,A2). (4.15)

Assumimos, nesta tese, que as distribuições a priori são independentes e dadas por f (A1)f (A2)f (C)f (ρ)f (β)f (F ) ∝ constante, e γi = σ−2i ∼

Γ(α0,β0), de modo que a distribuição de σi2 é uma Gama Inversa, para cada

componente de Σ = diag(σ12,...,σq2).

Vale ressaltar que a função de verossimilhança é calculada considerando o modelo fatorial dinâmico, definido em (4.10) em que os fatores latentes ftsó estão

definidos, na parte auto-regressiva, para t = p + 1, . . . ,n.

Seguem, portanto, os cálculos para obtenção das distribuições a posteriori, (I) Posteriores para as variáveis auxiliares A1e A2

(a) Posteriori para A1|θ,Y ,F ,A2

f (A1|θ,Y ,F ,A2) ∝ n Y t=1 f (yt,a1t|β,C,Σ,ft)f (A1) ∝ n Y t=1 exp  −a 2 1t 2 (yt− β − Cft) > Σ−1(yt− β − Cft)  e −a21tνe 2 aq+νe−1 1t ∝ n Y t=1 exp  −a 2 1t 2 h (yt− β − Cft)>Σ−1(yt− β − Cft) + νe i × (a21t)q+νe+12 −1. (4.16)

Então a posteriori para A21t, t = 1, . . . ,n, é uma Gama dada por

A21t|θ,Y ,F ,A2∼ Γ  α 2, δ 2  , (4.17)

Referências

Documentos relacionados

Para Souza (2004, p 65), os micros e pequenos empresários negligenciam as atividades de planejamento e controle dos seus negócios, considerando-as como uma

A acção do assistente social não se fundamenta em intuições ou suposições sobre a leitura e diagnóstico do problema em análise /estudo, suporta-se no método que orienta

O CES é constituído por 54 itens, destinados a avaliar: (a) cinco tipos de crenças, a saber: (a1) Estatuto de Emprego - avalia até que ponto são favoráveis, as

• A falta de registro do imóvel no CAR gera multa, impossibilidade de contar Áreas de Preservação Permanente (APP) na Reserva Legal (RL), restrição ao crédito agrícola em 2018

• Não garantir condições dignas e saudáveis para os trabalhadores pode gerar graves consequências para o empregador, inclusive ser enquadrado como condições análogas ao

• Quando o navegador não tem suporte ao Javascript, para que conteúdo não seja exibido na forma textual, o script deve vir entre as tags de comentário do HTML. &lt;script Language

Nos tempos atuais, ao nos referirmos à profissão docente, ao ser professor, o que pensamos Uma profissão indesejada por muitos, social e economicamente desvalorizada Podemos dizer que

The present study evaluated the potential effects on nutrient intake, when non- complying food products were replaced by Choices-compliant ones, in typical Daily Menus, based on