An´alise Bayesiana de Referˆencia para a classe
de Distribui¸c˜oes Hiperb´olicas Generalizadas
Tha´ıs C. O. da Fonseca
Orientadores: Helio S. Migon e Marco A. R. Ferreira
Sum´
ario
1 Introdu¸c˜ao 4
1.1 Distribui¸c˜ao Hiperb´olica Generalizada. . . 7
1.2 Parˆametros da distribui¸c˜ao . . . 10
1.3 Subclasses e distribui¸c˜oes limite . . . 13
1.4 Momentos . . . 15
1.5 Sum´ario da disserta¸c˜ao . . . 17
2 Inferˆencia 19 2.1 Estima¸c˜ao por M´axima Verossimilhan¸ca . . . 19
2.2 Inferˆencia Bayesiana . . . 24
2.2.1 Distribui¸c˜ao a priori . . . 24
2.2.2 Prioris n˜ao informativas . . . 25
2.2.4 M´etodos de Monte Carlo . . . 28
3 Distribui¸c˜ao t-Student 32
3.1 Priori de Jeffreys . . . 32 3.2 Estudo simulado . . . 38
4 Modelos de Regress˜ao t-Student 44
4.1 Priori de Jeffreys . . . 45 4.2 Estudo simulado . . . 51
5 Distribui¸c˜ao Hiperb´olica 66
5.1 Priori de Jeffreys . . . 66 5.2 Aplica¸c˜ao a dados simulados . . . 76 5.3 Aplica¸c˜ao a dados reais . . . 79
6 O caso geral 85
6.1 A priori de Jeffreys . . . 86 6.2 Aplica¸c˜ao a dados simulados . . . 94
7 Conclus˜oes e trabalhos futuros 99
Cap´ıtulo 1
Introdu¸c˜
ao
A classe de Distribui¸c˜oes Hiperb´olicas Generalizadas (GHD) foi originalmente introduzida por Barndorff-Nielsen (1977). Ele utilizou uma subclasse dessa distribui¸c˜ao para modelar o tamanho de gr˜aos de areia sujeitos a ventos cont´ınuos. Uma vantagem dessa classe de distribui¸c˜oes ´e englobar muitos casos particulares e distribui¸c˜oes limites. Por exemplo, a Hiperb´olica, a Normal Inversa Gaussiana (NIG), a t-Student, a Normal e a Laplace As-sim´etrica. Para maiores detalhes e outros casos limites veja Barndorff-Nielsen (1978). Uma outra grande vantagem que pode ser bastante ´util em algumas aplica¸c˜oes ´e o fato dessa distribui¸c˜ao permitir assimetrias. Al´em disto, esta distribui¸c˜ao pode ser obtida como uma mistura na m´edia e na variˆancia da normal.
Desde o seu desenvolvimento, a GHD tem sido usada em diferentes ´areas do conhecimento. Inicialmente, era usada na f´ısica, biologia e astrono-mia. Em 1982, por exemplo, Barndorff-Nielsen utiliza a subclasse Hiperb´olica na modelagem da energia de uma part´ıcula de um g´as ideal em substitui¸c˜ao
as distribui¸c˜oes Gaussianas. Mais recentemente, as GHD vˆem sendo uti-lizadas tamb´em para modelar dados do mercado financeiro. Eberllin e Keller (1995) foram os primeiros a utilizar a GHD neste contexto. Em seu trabalho, utilizaram a subclasse Hiperb´olica para modelar dados do mercado alem˜ao. Jaschke (1997) mostra que a GHD ´e um limite fraco de um processo de volati-lidade estoc´astica que ´e modelado como um Garch(1,1). Barndorff-Nielsen (1997) reporta as vantagens da utiliza¸c˜ao da subclasse Normal Inversa Gaus-siana na modelagem da dados de finan¸cas e tamb´em de turbulˆencia. Segundo ele, a distribui¸c˜ao Normal Inversa Gaussiana ´e capaz de capturar regimes caracter´ısticos entre per´ıodos de pequenas flutua¸c˜oes aleat´orias e per´ıodos de alta atividade. Em finan¸cas, esse fenˆomeno ´e chamado volatilidade es-toc´astica e em turbulˆencia, ´e chamado intermitˆencia (para mais detalhes veja Frisch 1995, cap´ıtulo 8). Bibby e Sorensen (1997) utilizam a GHD como distribui¸c˜ao limite para difus˜oes. Prause (1999) utiliza a GHD para mode-lagem de dados da Alemanha e EUA. Fajardo et al. (2002) analisam dados do mercado brasileiro utilizando a GHD.
Apesar das boas propriedades da classe de distribui¸c˜oes hiperb´olicas generalizadas, problemas s˜ao encontrados na inferˆencia para esse modelo. Isso n˜ao se deve apenas a dificuldades num´ericas de estima¸c˜ao mas tamb´em a dificuldades te´oricas relacionadas com a verossimilhan¸ca do modelo. Barndorff-Nielsen e Blæsild (1981) mencionam as caudas pesadas da verossimilhan¸ca j´a para uma subclasse da distribui¸c˜ao hiperb´olica generalizada. Um dos problemas encontrados para o modelo geral ´e a estima¸c˜ao do parˆametro de subclasse. Prause (1999) sugere com um estudo de simula¸c˜ao que so-mente para tamanhos de amostra grande a estimativa desse parˆametro ´e razo´avel. Desses resultados ele conclui que pelo menos 250 observa¸c˜oes s˜ao necess´arias para obten¸c˜ao de um ajuste adequado. Ele reporta tamb´em
que em muitos casos o algor´ıtmo desenvolvido por ele converge para dis-tribui¸c˜oes limites. Mostramos nessa disserta¸c˜ao que esta dificuldade existe porque h´a uma probabilidade positiva do estimador de m´axima verossimi-lhan¸ca n˜ao assumir valores finitos e isso ocorre quando certas combina¸c˜oes dos parˆametros levam a modelos limites. Al´em disso, os algor´ıtmos de maxi-miza¸c˜ao da verossimilhan¸ca at´e hoje desenvolvidos n˜ao possuem convergˆencia anal´ıtica provada, a convergˆencia para um m´aximo global ´e obtida apenas empiricamente. Um problema num´erico encontrado no desenvolvimento de algor´ıtmos de estima¸c˜ao ´e o n´umero de fun¸c˜oes modificadas de Bessel que devem ser calculadas na avalia¸c˜ao da densidade. Prause (1999) utiliza uma aproxima¸c˜ao num´erica para essas fun¸c˜oes (Teukolsky, Vetterling e Flannery 1992, p´agina 236 a 252). Uma outra solu¸c˜ao para esse problema seria con-siderar o parˆametro de subclasse fixo e utilizar algum crit´erio de compara¸c˜ao de modelos para escolher o mais adequado, pois com a subclasse previa-mente escolhida os problemas num´ericos se reduzem bastante. Um programa de computador para estima¸c˜ao por m´axima verossimilhan¸ca para subclasses da distribui¸c˜ao, baseado em observa¸c˜oes independentes e identicamente dis-tribu´ıdas, foi desenvolvido por Blaesied e Sorensen (1992, 1996).
O fato da verossimilhan¸ca ter muitas dificuldades associadas sugere que devemos procurar uma maneira de calibrar a informa¸c˜ao obtida dos dados. Uma solu¸c˜ao ´e utilizar uma distribui¸c˜ao a priori que funcionaria como peso para a informa¸c˜ao fornecida pela verossimilhan¸ca. Mas, a elicita¸c˜ao de pri-oris subjetivas para os parˆametros ´e uma dificuldade devido `a mudan¸ca de interpreta¸c˜ao dos parˆametros para as diferentes subclasses. Assim, desen-volvemos uma an´alise Bayesiana utilizando MCMC baseada na priori n˜ao informativa de Jeffreys, sob fun¸c˜ao de perda absoluta, e portanto, a mediana ser´a o estimador pontual ´otimo. Alguns resultados interessantes s˜ao obtidos:
a priori desenvolvida permite uma an´alise satisfat´oria mesmo para amostras pequenas; as propriedades do estimador proposto s˜ao bem melhores que os do EMV. Inicialmente, utiliza-se subclasses e casos particulares e posterior-mente, desenvolve-se a priori para o caso geral. Um estudo simulado para an´alise do efeito do tamanho da amostra na inferˆencia tamb´em ´e realizado. Toda metodologia apresentada foi implementada na linguagem Ox (Doornik, 2002) que ´e uma linguagem matricial orientada a objeto.
No restante deste cap´ıtulo, apresentamos uma revis˜ao da GHD. Na Se¸c˜ao 1.1, apresenta-se a densidade do modelo hiperb´olico generalizado. Na se¸c˜ao 1.2, apresentam-se algumas propriedades relativas aos parˆametros da distribui¸c˜ao. Na se¸c˜ao 1.3, temos algumas subclasses e distribui¸c˜oes limite e na se¸c˜ao 1.4, a fun¸c˜ao geradora de momentos.
1.1
Distribui¸c˜
ao Hiperb´
olica Generalizada
As propriedades matem´aticas da GHD mostradas neste cap´ıtulo s˜ao esta-belecidas em Barndorff-Nielsen (1977).
Defini¸c˜ao 1.1 (Distribui¸c˜ao univariada) Uma quantidade aleat´oria Y ´e
dita ter distribui¸c˜ao Hiperb´olica Generalizada se possui fun¸c˜ao densidade de probabilidade dada por:
f (y|λ, α, β, δ, µ) = a(λ, α, β, δ) [δ2+(y −µ)2](λ−1
2)/2K(y; λ, α, β, δ, µ) (1.1) onde y ∈ < e (i) a(λ, α, β, δ) = (α2−β2) λ 2 √ 2παλ−0.5δλK λ(δ √ α2−β2)
(ii) K(y; λ, α, β, δ, µ) = Kλ−0.5(α
q
δ2 + (y − µ)2)exp{β(y − µ)}
(iii) Kλ(.) ´e a fun¸c˜ao modificada de Bessel de 3a ordem com ´ındice λ e
´e representada na forma de integral por: Kλ(z) = 0.5
Z ∞
0 x
λ−1exp{−0.5z(x + x−1)} dx
A nota¸c˜ao utilizada aqui para a Distribui¸c˜ao Hiperb´olica Generalizada ´e a seguinte: Y ∼ GHD(λ, α, β, δ, µ)
Proposi¸c˜ao 1.1 (Mistura) A distribui¸c˜ao Hiperb´olica Generalizada pode
ser obtida atrav´es de uma mistura na m´edia e na variˆancia da Normal. Seja Y |W ∼ N(µ + βW, W ) e W ∼ GIG1(λ,√α2− β2, δ). Ent˜ao, Y possui
distribui¸c˜ao hiperb´olica generalizada que ´e obtida por: f (y|λ, α, β, δ, µ) =
Z ∞
0 g(y|µ, β, w)h(w|λ, δ, α, β)dw, (1.2)
onde g ´e a densidade da Normal com m´edia µ + βW e variˆancia W e h ´e a densidade da Inversa Gaussiana Generalizada (GIG) com parˆametros λ, √ α2− β2 e δ. Prova: f (y|λ, α, β, δ, µ) = Z ∞ 0 (2πw) −1/2exp ½ − 1 2w[y − (µ + βw)] 2 ¾ × c(λ, q α2− β2, δ)wλ−1exp ½ −1 2[w −1δ2+ w(α2− β2)] ¾ dw
1Se W ∼ GIG(ρ, γ, κ) ent˜ao sua densidade ´e dada por:
c(ρ, γ, κ) wρ−1exp ½ −1 2(κ 2w−1+ γ2w) ¾ , κ, γ ≥ 0, ρ ∈ <, w > 0, onde c(ρ, γ, κ) = 2K(γ/κ)ρ
ρ(γκ). Jørgensen (1982) apresenta mais detalhes sobre essa fam´ılia de
= (2π)−1/2c(λ, q α2− β2, δ) × exp{β(y − µ)} × Z ∞ 0 w (λ−0.5)−1exp ½ −1 2[w −1(δ2+ (y − µ)2)] + wα2 ¾ dw = (2π)−1/2 c(λ, √ α2− β2, δ) c(λ − 0.5, α,qδ2+ (y − µ)2) × exp{β(y − µ)} = (α2− β2) λ 2 √ 2παλ−0.5δλK λ(δ √ α2− β2) (δ 2+ (y − µ)2)(λ−1 2)/2× Kλ−0.5(α q δ2+ (y − µ)2)exp{β(y − µ)} 2
Uma outra propriedade interessante ´e que o modelo hiperb´olico gene-ralizado ´e um modelo de loca¸c˜ao e escala.
Proposi¸c˜ao 1.2 (Modelo loca¸c˜ao-escala) O modelo hiperb´olico
genera-lizado ´e um modelo de loca¸c˜ao e escala.
Prova: f (y|λ, α, β, δ, µ) = √ (α2 − β2)λ/2 2παλ−0.5δλK λ(δ √ α2− β2)(δ 2+ (y − µ)2)(λ−0.5)/2 × Kλ−0.5(α q δ2+ (y − µ)2)exp{β(y − µ)} Seja ¯α = αδ e ¯β = βδ, ent˜ao: f (y|λ, α, β, δ, µ) = 1 δ (¯α2− ¯β2)λ/2 √ 2π ¯α1/2K λ( q ¯ α2− ¯β2) " 1 + µ y − µ δ ¶2#(λ−0.5)/2 × Kλ−0.5 α¯ s 1 + µy − µ δ ¶2 exp ½ ¯ β µy − µ δ ¶¾ = 1 δf µy − µ δ ¶ onde f (x) = √ (¯α2− ¯β2)λ/2 2π ¯α1/2Kλ(√α¯2− ¯β2)(1 + x 2)(λ−0.5)/2K λ−0.5 ³ ¯ α√1 + x2´expnβx¯ o
Proposi¸c˜ao 1.3 (Transforma¸c˜ao linear) A classe GHD ´e fechada para
transforma¸c˜oes lineares. Se X ∼ GHD(λ, α, β, δ, µ) ent˜ao, Y = aX + b ∼ GHD(λ+, α+, β+, δ+, µ+) onde λ+ = λ, α+ = α
|a|, β+ = |a|β , δ+ = δ|a| e
µ+ = aµ + b.
Prova:
Em Blæsild (1981,teorema I).
1.2
Parˆ
ametros da distribui¸c˜
ao
A distribui¸c˜ao hiperb´olica generalizada possui cinco parˆametros que per-mitem descrever assimetrias e caudas semi-pesadas2. Como exemplo temos a
GHD(1,1,0,1,0) que possui caudas mais pesadas que a t-Student com 3 graus de liberdade por´em possui variˆancia finita dada por K2K1(1)(1). Lembre-se que a t-Student com 3 graus de liberdade ´e a t-Student com cauda mais pesada e variˆancia bem definida.
No gr´afico (1.1) apresentamos a densidade e a log-densidade da dis-tribui¸c˜ao normal, t-Student e hiperb´olica generalizada. Note que enquanto a fun¸c˜ao log-densidade da normal padr˜ao tem a forma de uma par´abola, a log-densidade para a GHD(1,1,0,1,0) tem a forma de uma hip´erbole, o que originou seu nome.
2O termo caudas semi-pesadas indica que a densidade se comporta da seguinte forma
quando y → ±∞:
f (y; λ, α, β, δ, µ) ∼ |y|λ−1exp{(∓α + β)y}
.
Figura 1.1: Densidade e log-densidade: Normal(0,1); t-Student(3); GHD(1,1,0,1,0)
Os dom´ınios de varia¸c˜ao dos parˆametros do modelo s˜ao mostrados na tabela (1.1).
Parˆametro Fun¸c˜ao Dom´ınio
λ subclasses/caudas pesadas <
α forma <+
β assimetria (−α, α)
δ escala <+
µ loca¸c˜ao <
Tabela 1.1: Descri¸c˜ao dos parˆametros da Distribui¸c˜ao Hiperb´olica General-izada.
Os parˆametros δ e µ s˜ao respons´aveis pela escala e loca¸c˜ao, respectiva-mente. Como visto na se¸c˜ao anterior, atrav´es de uma reparametriza¸c˜ao obte-mos um modelo de loca¸c˜ao e escala. O parˆametro λ ´e respons´avel pelo peso das caudas e pelas subclasses da distribui¸c˜ao. Quanto maior esse parˆametro
mais pesada ´e a cauda. O parˆametro β ´e respons´avel pela assimetria da distribui¸c˜ao, para β = 0 temos uma distribui¸c˜ao sim´etrica em torno de µ e quanto maior o valor de |β| mais assim´etrica ´e a distribui¸c˜ao. Para valores positivos de β temos assimetria `a direita e para valores negativos de β temos assimetria `a esquerda. Essas propriedades s˜ao ilustradas na figura (1.2).
−2 0 2 4 6 0.0 0.2 0.4 0.6 0.8 y densidade λ = −2 λ = −1 λ =0 λ =1 λ =2 −2 0 2 4 6 0.0 0.2 0.4 0.6 y densidade α =0.1 α =0.5 α =1 α =2 α =3
(a) Densidade GH(λ,2,0,1,2) (b) Densidade GH(1,α,0,1,2)
−15 −5 0 5 10 15 20 0.0 0.1 0.2 0.3 0.4 y densidade β = −1.8 β = −1.4 β =0 β =1.4 β =1.8 −2 0 2 4 6 0.0 0.2 0.4 0.6 0.8 y densidade δ =0.01 δ =0.5 δ =1 δ =1.5 δ =3 (c) Densidade GH(1,2,β,1,2) (d) Densidade GH(1,2,0,δ,2) Figura 1.2: Varia¸c˜ao dos parˆametros do modelo hiperb´olico generalizado.
1.3
Subclasses e distribui¸c˜
oes limite
Usando propriedades da fun¸c˜ao Bessel pode-se obter subclasses da GHD. Algumas propriedades s˜ao apresentadas no apˆendice.
Defini¸c˜ao 1.2 (Distribui¸c˜ao Hiperb´olica) Para λ = 1 temos a subclasse
de distribui¸c˜oes hiperb´olicas (HIP) com densidade dada por: g(y; α, β, δ, µ) = √ α2 − β2 2αδK1(δ √ α2− β2)exp ½ −α q δ2+ (y − µ)2 + β(y − µ) ¾ (1.3) onde, y, µ ∈ <, δ > 0 e |β| < α
Defini¸c˜ao 1.3 (Distribui¸c˜ao Normal Inversa Gaussiana) Para
λ = −0.5 temos a subclasse de distribui¸c˜oes Normal Inversa Gaussiana (NIG) com densidade dada por:
g(y; α, β, δ, µ) = αδ π exp ½ δ q α2− β2+ β(y − µ) ¾K 1(α q δ2+ (y − µ)2) q δ2+ (y − µ)2 (1.4) onde, y, µ ∈ <, δ > 0 e |β| ≤ α
As subclasses acima s˜ao obtidas utilizando a seguinte propriedade:
K1/2(x) = K−1/2(x) =
q
π
2x−1/2e−x.
A distribui¸c˜ao Normal Inversa Gaussiana pode aproximar a maioria das Distribui¸c˜oes Hiperb´olicas de maneira bastante eficiente. Al´em disso, pode descrever observa¸c˜oes com um comportamento de cauda consideravelmente pesado. Outras subclasses de interesse s˜ao a Distribui¸c˜ao Hip´erbola, obtida quando λ = 0 e a Distribui¸c˜ao Hiperbol´oide, obtida quando λ = 0.5.
Muitas distribui¸c˜oes s˜ao obtidas como limite da GHD, tais como a Nor-mal, a t-Student, a Normal Rec´ıproca Inversa Gaussiana, a Gama Variˆancia, a Inversa Gaussiana Generalizada e a Laplace Assim´etrica.
Defini¸c˜ao 1.4 (Distribui¸c˜ao Normal) A distribui¸c˜ao Normal resulta como
um caso limite da GHD para δ → ∞ e δ/α → σ2.
Proposi¸c˜ao 1.4 (Distribui¸c˜ao t-Student) A distribui¸c˜ao t-Student resulta
de uma mistura da normal com a distribui¸c˜ao gama inversa. A t-St(η, µ, σ2)
´e obtida para λ = −η/2, α = β = 0 e δ2 = ησ2.
Prova:
A distribui¸c˜ao Hiperb´olica Generalizada ´e expressa atrav´es de uma mis-tura por (1.2) que pode ser escrita como:
f (y; λ, α, β, δ, µ) = Z ∞ 0 (2πw) −1/2exp ½ − 1 2w[y − (µ + βw)] 2 ¾ × c(λ, q α2− β2, δ)wλ−1exp ½ −1 2[w −1δ2 + w(α2− β2)] ¾ dw, onde c(λ,√α2− β2, δ) = (α2−β2)λ/2 2δλK λ(δ √ α2−β2)
Das propriedades da fun¸c˜ao Bessel temos que Kλ(x) ∼ Γ(λ)2λ−1x−λ,
quando x → 0 e tamb´em Kλ(x) = K−λ(x). Dessa forma, para α → β temos
que c(λ,√α2− β2, δ) se reduz a 2λ δ2λΓ(−λ) Para β → 0 temos: f (y; λ, δ, µ) = √ 2λ 2πδ2λΓ(−λ) Z ∞ 0 w (λ−1/2)−1exp ( −1 w " δ2+ (y − µ)2 2 #) dw = Γ(−λ + 1/2)√ πδ2λΓ(−λ) h δ2+ (y − µ)2i−(−λ+1/2)
Fazendo λ = −η 2 e δ2 = ησ2 obtemos: f (y; ν, µ) = Γ ³ η+1 2 ´ ηη/2 √ πσ2Γ³η 2 ´ " η + µy − µ σ ¶2#−(η+12 ) , y ∈ < Resultando na t-St(η, µ, σ2). 2
Uma outra maneira de obter a t-Student ´e utilizando λ = −η/2, α → β e µ = 0. Neste caso, obtemos a t-St(η, 0, δ2). A t-Student n˜ao central3 n˜ao
resulta como caso limite ou particular da distribui¸c˜ao Hiperb´olica Genera-lizada. Isso ocorre porque a t-Student n˜ao central ´e uma mistura somente na variˆancia com m´edia constante, enquanto a GHD ´e uma mistura na m´edia e na variˆancia.
Defini¸c˜ao 1.5 (Distribui¸c˜ao GIG) A distribui¸c˜ao Inversa Gaussiana
Ge-neralizada resulta como um caso limite da GH quando αδ2 → τ , α − β = ψ
2
e µ = 0. Obtemos ent˜ao a GIG(λ, ψ, τ ).
1.4
Momentos
Proposi¸c˜ao 1.5 (Fun¸c˜ao Geradora de Momentos) A fun¸c˜ao geradora
de momentos da GHD ´e dada por: M(t) = eµt à α2− β2 α2− (β + t)2 !λ/2 Kλ(δ q α2− (β + t)2) δ√α2− β2) , |β + t| < α (1.5)
3A densidade da t n˜ao central ´e dada por:
f (x) = η η/2Γ(η + 1) 2ηeλ2/2Γ(η/2)(η + x 2)−η/2 √ 2λxF³η2+ 1;3 2; λ 2x2 2(η+x2) ´ (η + x2)Γ ((η + 1)/2) + F³η+12 ;1 2; λ 2x2 2(η+x2) ´ p η + x2Γ (η/2 + 1), onde F (a; b; z) = 1 +a bz + a(a+1) b(b+1)z 2 2! + a(a+1)(a+2) b(b+1)(b+2)z 3 3! + · · ·
Prova: M(t) = Ehetyi= Z ∞ −∞f (y; λ, α, β, δ, µ) e tydy = Z ∞ −∞a(λ, α, β, δ)(δ 2+(y−µ)2)(λ−0.5)/2K λ−0.5 µ α q δ2+ (y − µ)2 ¶ e{β(y−µ)+ty}dy = a(λ, α, β, δ)eµt Z ∞ −∞(δ 2+(y−µ)2)(λ−0.5)/2K λ−0.5 µ α q δ2+ (y − µ)2 ¶ e{(β+t)(y−µ)}dy = eµt a(λ, α, β, δ) a(λ, α, β + t, δ) = e µt à α2− β2 α2− (β + t)2 !λ/2 Kλ(δ q α2− (β + t)2) Kλ(δ √ α2− β2) , |β+t| < α
Podemos calcular a m´edia e a variˆancia da GHD atrav´es das derivadas da fun¸c˜ao de momentos.
Corol´ario 1.1 (M´edia da GHD) A distribui¸c˜ao hiperb´olica generalizada
tem a seguinte m´edia:
E[Y ] = µ +βδ2 ρ Kλ+1(ρ) Kλ(ρ) (1.6) onde ρ = δ√α2− β2.
Note que para β = 0 temos uma distribui¸c˜ao sim´etrica em torno de µ. Prova: M0(t) = (α2− β2)λ/2 Kλ ³ δpα2− β2´ e µtK λ ³ δpα2− (β + t)2´ (α2− (β + t)2)λ/2 0 Usando propriedade K0 λ(x) = ∂x∂ Kλ(x) = λxKλ(x) − Kλ+1 obtemos: M0(t) = (α2− β2)λ/2 Kλ ³ δpα2− β2´ e µt µKλ ³ δpα2− (β + t)2´ (α2− (β + t)2)λ/2 + (β + t)δKλ+1 ³ δpα2− (β + t)2´ (α2− (β + t)2)(λ+1)/2 M0(0) = µ +p βδ α2− β2 Kλ+1 ³ δpα2− β2´ Kλ ³ δpα2− β2 ´ 2
Corol´ario 1.2 (Variˆancia da GHD) A distribui¸c˜ao hiperb´olica generalizada
tem a seguinte variˆancia: V ar[Y ] = δ2 Kλ+1(ρ) ρKλ(ρ) +β 2δ2 ρ2 Kλ+2(ρ) Kλ(ρ) − Ã Kλ+1(ρ) Kλ(ρ) !2 (1.7) onde ρ = δ√α2− β2. Prova: M00(t) = µM0(t)+(α2−β2)λ/2 Kλ(ρ) e µt ( µ µ Kλ ¡ δ√α2−(β+t)2¢ (α2−(β+t)2)λ/2 ¶0 + δ µ (β+t)Kλ+1 ¡ δ√α2−(β+t)2¢ (α2−(β+t)2)(λ+1)/2 ¶0) µ Kλ ¡ δ√α2−(β+t)2¢ (α2−(β+t)2)λ/2 ¶0 = δ(β+t)Kλ+1(δ √ α2−(β+t)2) (α2−(β+t)2)(λ+1)/2 µ (β+t)Kλ+1 ¡ δ√α2−(β+t)2¢ (α2−(β+t)2)(λ+1)/2 ¶0 = Kλ+1 ¡ δ√α2−(β+t)2¢ (α2−(β+t)2)(λ+1)/2 − (β+t)2δK λ+2 ¡ δ√α2−(β+t)2¢ (α2−(β+t)2)(λ+2)/2
Dessa forma, obtemos o 2o momento da distribui¸c˜ao:
E[Y2] = M00(0) = µE[Y ] +pµδβKλ+1(ρ) α2− β2Kλ(ρ)+ δKλ+1(ρ) p α2− β2Kλ(ρ) + δ2β2K λ+2(ρ) (α2− β2)K λ(ρ)
V ar(Y ) = E[Y2] − (E[Y ])2 = ( µE[Y ] + pµδβKλ+1(ρ) α2− β2Kλ(ρ)+ δKλ+1(ρ) p α2− β2Kλ(ρ) + δ2β2K λ+2(ρ) (α2− β2)K λ(ρ) ) − ( µE[X] +pβδµKλ+1(ρ) α2− β2Kλ(ρ) + β2δ2(K λ+1(ρ))2 (α2− β2)(K λ(ρ))2 ) = δ2 ( Kλ+1(ρ) ρKλ(ρ) + β2 α2− β2 " Kλ+2(ρ) Kλ(ρ) − µ Kλ+1(ρ) Kλ(ρ) ¶2#) 2
1.5
Sum´
ario da disserta¸c˜
ao
No cap´ıtulo 2, s˜ao apresentados os procedimentos de inferˆencia sobre o mo-delo hiperb´olico generalizado. Para isso, descreve-se alguma teoria para a
obten¸c˜ao de estimadores de m´axima verossimilhan¸ca e da priori de Jeffreys. Al´em disso, apresentamos alguns conceitos b´asicos relacionados a prioris n˜ao informativas.
No Cap´ıtulo 3, temos inferˆencia em modelos t-Student, onde desenvolve-se a priori de Jeffreys para o modelo e apredesenvolve-senta-desenvolve-se um estudo simulado. O estudo simulado inclui uma an´alise frequentista de estimadores pontuais Bayesianos (m´edia e mediana a posteriori) com objetivo de comparar esses estimadores com o estimador de m´axima verossimilhan¸ca.
No cap´ıtulo 4, apresentamos an´alise de regress˜ao utilizando erros t-Student. Neste cap´ıtulo ´e realizado um estudo simulado com o objetivo de comparar a priori desenvolvida com outras prioris propostas na literatura.
No Cap´ıtulo 5, ´e feita inferˆencia em modelos hiperb´olicos. Desenvolve-se a priori de Jeffreys para o modelo e apreDesenvolve-senta-Desenvolve-se aplica¸c˜oes: uma utilizando dados gerados artificialmente e outra utilizando dados reais. S˜ao feitas com-para¸c˜oes com estimadores de m´axima verossimilhan¸ca obtidos por alguns m´etodos de maximiza¸c˜ao.
No Cap´ıtulo 6, temos inferˆencia para o modelo geral. Desenvolve-se a priori de Jeffreys para o modelo e apresenta-se uma aplica¸c˜ao a dados gerados artificialmente.
No Cap´ıtulo 7, ser˜ao apresentadas as conclus˜oes da disserta¸c˜ao e algu-mas propostas para trabalhos futuros.
Cap´ıtulo 2
Inferˆ
encia
Neste cap´ıtulo abordamos a inferˆencia sobre modelos hiperb´olicos generaliza-dos. Como dito anteriormente, problemas s˜ao encontrados na estima¸c˜ao dos parˆametros desse modelo. Os problemas s˜ao tanto num´ericos como te´oricos. Inicialmente mostra-se alguns problemas na obten¸c˜ao de estimadores de m´axima verossimilhan¸ca para o modelo hiperb´olico generalizado. A seguir apresenta-se algumas quest˜oes relevantes no tratamento de dados utilizando este modelo sob o ponto de vista bayesiano.
2.1
Estima¸c˜
ao por M´
axima Verossimilhan¸ca
Defini¸c˜ao 2.1 Considere Y = (Y1, ..., Yn) independentes e identicamente
distribu´ıdos com densidade p(y|θ). O estimador de m´axima verossimilhan¸ca (EMV) de θ ´e o valor ˆθ ∈ Θ que maximiza L(θ; y) =Qn
Maximizar L(θ; y) ´e equivalente a maximizar l(θ; y) = log(L(θ; y)). O EMV ´e obtido encontrando os zeros das equa¸c˜oes de verossimilhan¸ca que s˜ao dadas por ∂
∂θl(θ; y).
Considere Y1, ..., Ynobserva¸c˜oes independentes e identicamente
distribu´ı-das da GHD com parˆametros λ, α, β, δ e µ.
Defini¸c˜ao 2.2 A fun¸c˜ao log-verossimilhan¸ca para o modelo hiperb´olico
ge-neralizado ´e dada por:
l(λ, α, β, δ, µ; y) = n log(a(λ, α, β, δ, µ)) + (λ − 0.5) n X i=1 log(δ2+ (yi− µ)2) + n X i=1 log(Kλ−0.5 µ αqδ2+ (y i− µ)2 ¶ + β n X i=1 (yi− µ) (2.1) onde λ, µ ∈ <, δ > 0 e |β| < α
As equa¸c˜oes de verossimilhan¸ca s˜ao mostradas numa forma especial que ser´a ´util mais a frente.
Proposi¸c˜ao 2.1 (Equa¸c˜oes de verossimilhan¸ca) Defina kλ(x) = ∂λ∂ Kλ(x),
Rλ(x) = KKλ+1λ(x)(x). As equa¸c˜oes de verossimilhan¸ca para o modelo hiperb´olico
generalizado s˜ao dadas por:
∂ ∂λl = PN i=1 n kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) − E h kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) io ∂ ∂αl = −α1 PN i=1{ϑiRλ−0.5(ϑi) − E[ϑiRλ−0.5(ϑi)]} ∂ ∂βl = PN i=1{yi− E[yi]} ∂ ∂δl = −α2δ PN i=1 n 1 ϑi 1 Rλ−1.5(ϑi) − E h 1 ϑi 1 Rλ−1.5(ϑi) io ∂ ∂µl = α2 PN i=1 n yi−µ ϑi 1 Rλ−1.5(ϑi) − E h yi−µ ϑi 1 Rλ−1.5(ϑi) io Onde ρ = δ√α2 − β2, ϑ i = α q δ2+ (y
a propriedade: ln(Kλ(x))0 = ∂x∂ln(Kλ(x)) = λx− Rλ(x). As esperan¸cas acima
s˜ao calculadas na distribui¸c˜ao dos dados e s˜ao dadas por: Ehkλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) i = kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) E[ϑiRλ−0.5(ϑi)] = α 2δ2 ρ Rλ(ρ) − 1 E[yi] = βδ 2 ρ Rλ(ρ) + µ Eh1 ϑi 1 Rλ−1.5(ϑi) i = ρ α2δ2 ³ Rλ(ρ) −λ2 ´ Ehyi−µ ϑi 1 Rλ−1.5(ϑi) i = β α2 Prova:
Para obter as equa¸c˜oes de verossimilhan¸ca basta derivar2.2, resultando em: ∂ ∂λl = PN i=1 n kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) − ³ kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) ´o ∂ ∂αl = − 1 α PN i=1{ϑiRλ−0.5(ϑi) − ³ α2δ2 ρ Rλ(ρ) − 1 ´ } ∂ ∂βl = PN i=1 n yi− ³ βδ2 ρ Rλ(ρ) + µ ´o ∂ ∂δl = −α2δ PN i=1 n 1 ϑi 1 Rλ−1.5(ϑi) − ³ ρ α2δ2 ³ Rλ(ρ) −λ2 ´´o ∂ ∂µl = α2 PN i=1 n yi−µ ϑi 1 Rλ−1.5(ϑi) − ³ β α2 ´o Seja θ = (λ, α, β, δ, µ). Eh ∂ ∂θjl(θ) i = 0, j = 1, 2, ..., 5, prova em Migon e Gamerman. Ent˜ao, E " ∂ ∂λl # = N X i=1 E "( kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) − Ã kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) !)# = N X i=1 E "( kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) # − N Ã kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) !) = NE "( kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) # − N Ã kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) !) = 0
Logo, Ehnkλ−0.5(ϑi) Kλ−0.5(ϑi)+ ln(ϑi) i =³kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) ´o . Os
resul-tados para os outros parˆametros s˜ao obtidos analogamente. 2
Para β e µ os estimadores de m´axima verossimilhan¸ca s˜ao obtidos di-retamente das equa¸c˜oes de verossimilhan¸ca. Para os outros parˆametros, ´e necess´ario utilizar um m´etodo num´erico de maximiza¸c˜ao da verossimilhan¸ca perfilada. O fato da verossimilhan¸ca ter muitas dificuldades associadas torna dif´ıcil a obten¸c˜ao de m´etodos de maximiza¸c˜ao que tragam resultados satis-fat´orios. Isso ´e exemplificado nas figuras (2.1) e (2.2), referentes a verossimi-lhan¸ca condicional1 para o modelo HG(1,2,0,1,2) e uma amostra de tamanho
30.
Figura 2.1: Curva de contorno da verossimilhan¸ca condicional do modelo
GHD(λ, α, β, δ, µ) para λ, α = 2, β = 0, δ = 1, µ = 2 e N=30.
1A verossimilhan¸ca condicional ´e dada por: l(θk|θ−k, y), onde θk ´e um subvetor de θ e
Figura 2.2: Curva de contorno da verossimilhan¸ca condicional do modelo
GHD(λ, α, β, δ, µ) para λ, α = 2, β = 0, δ = 1, µ = 2 e N=30.
Observa-se que para algumas combina¸c˜oes dos parˆametros a verossimi-lhan¸ca condicional tende para uma constante diferente de zero, como por exemplo quando α → ∞ e δ → ∞. Isso acontece quando temos uma com-bina¸c˜ao de parˆametros que leva a um modelo limite. No exemplo anterior,
para α → ∞, δ → ∞ e α
δ = σ2, temos como caso limite a distribui¸c˜ao
N(µ, σ2), como definido em (1.4). Isso acontece para muitas combina¸c˜oes
Para esses casos, temos que l(θ∗) → c, onde θ∗ ´e um subconjunto do espa¸co
dos parˆametros que implica num modelo limite. Neste contexto, um pro-cedimeto usual de maximiza¸c˜ao da verossimilhan¸ca n˜ao levar´a a resultados adequados. Essas caracter´ısticas da verossimilhan¸ca sugerem que devemos procurar uma maneira de calibrar a informa¸c˜ao obtida dos dados. Uma maneira de fazer isso ´e atrav´es da An´alise Bayesiana que permite, atrav´es da distribui¸c˜ao a priori, uma penaliza¸c˜ao da fun¸c˜ao de verossimilhan¸ca.
2.2
Inferˆ
encia Bayesiana
Ap´os a atribui¸c˜ao de um modelo para os dados em estudo, uma quest˜ao essencial envolve a especifica¸c˜ao de densidades a priori para os parˆametros do modelo.
2.2.1
Distribui¸c˜
ao a priori
A distribui¸c˜ao a priori representa o conhecimento a respeito do parˆametro de interesse antes de observar o conjunto de dados. A elicita¸c˜ao de prioris ´e uma quest˜ao mais problem´atica pois envolve descrever cren¸cas por uma forma matem´atica. Existem algumas maneiras de atribuir distribui¸c˜oes a priori tais como prioris subjetivas, conjugadas e n˜ao-informativas.
Se algum conhecimento a respeito de θ est´a dispon´ıvel isto pode ser usado para especificar a densidade a priori. Uma fam´ılia param´etrica de densidades pode ser definida. Deve-se ser bastante cuidadoso ao selecionar uma fam´ılia de distribui¸c˜oes, pois ela deve realmente representar a informa¸c˜ao dispon´ıvel. Por exemplo, n˜ao devemos atribuir probabilidade nula para um
evento se n˜ao temos certeza que ele ´e imposs´ıvel.
A atribui¸c˜ao de prioris conjugadas ´e uma maneira de proceder uma an´alise Bayesiana simples (que n˜ao exige integra¸c˜oes) por´em pode n˜ao ser adequada em muitos casos.
Uma outra quest˜ao importante na atribui¸c˜ao de distribui¸c˜oes a priori ´e que em alguns casos ´e complicado a atribui¸c˜ao de prioris subjetivas ou deseja-se encontrar uma maneira de repredeseja-sentar cren¸cas individuais de forma que essa informa¸c˜ao seja m´ınima quando comparada com a informa¸c˜ao fornecida pelos dados. Neste contexto, temos as distribui¸c˜oes a priori n˜ao informativas ou de referˆencia.
2.2.2
Prioris n˜
ao informativas
A id´eia da utiliza¸c˜ao de prioris n˜ao informativas ´e o desejo de fazer inferˆencia estat´ıstica baseada no m´ınimo de informa¸c˜ao subjetiva a priori quanto seja poss´ıvel. Uma outra justificativa ´e a expectativa de que as evidˆencias vindas do experimento sejam mais fortes que a priori.
Inicialmente, prioris uniformes foram propostas neste contexto. Para Θ ⊂ <, p(θ) ∝ c significa que nenhum valor de θ ´e mais prov´avel (Bayes, 1763). Mas algumas dificuldades s˜ao encontradas na utiliza¸c˜ao desta priori. Por exemplo, esta priori ´e impr´opria se o intervalo de defini¸c˜ao do parˆametro for ilimitado e n˜ao ´e invariante a transforma¸c˜oes um a um.
A classe de prioris n˜ao informativas propostas por Jeffreys (1961) ´e invariante a transforma¸c˜oes um a um, mas tem a desvantagem de, em muitos casos, levar a prioris impr´oprias.
Defini¸c˜ao 2.3 (Priori de Jeffreys) Considere Y com fun¸c˜ao de
probabi-lidade (densidade) p(y|θ). A priori n˜ao informativa de Jeffreys ´e dada por: p(θ) ∝ |I(θ)|1/2, θ ∈ Θ ⊂ <k (2.2)
onde I(θ) ´e a medida de Informa¸c˜ao de Fisher esperada de θ em Y.
Entender e medir a informa¸c˜ao contida nos dados ´e um aspecto muito importante na atividade estat´ıstica. A medida mais comum de informa¸c˜ao ´e a medida de informa¸c˜ao de Fisher.
Defini¸c˜ao 2.4 (Informa¸c˜ao de Fisher) Seja Y um vetor aleat´orio com
densidade p(y|θ). A medida de Informa¸c˜ao de Fisher esperada de θ em Y ´e definida por: I(θ) = EY |θ " − ∂ 2 ∂θTθlog(p(y|θ)) # (2.3) onde Iij(θ) = EY |θ h − ∂2 ∂θiθjlog(p(y|θ)) i , i, j = 1, 2, ..., k
A medida de informa¸c˜ao de Fisher definida dessa maneira est´a rela-cionada com o valor m´edio da curvatura da verossimilhan¸ca. Quanto maior essa curvatura, maior a informa¸c˜ao contida na verossimilhan¸ca e maior ser´a
I(θ). A informa¸c˜ao de Fisher observada ´e obtida quanto utilizamos a amostra
dispon´ıvel ao inv´es de tomar a esperan¸ca na distribui¸c˜ao dos dados. Esta ´e uma medida local de informa¸c˜ao enquanto a informa¸c˜ao esperada ´e uma medida global.
Seja Y = (Y1, ..., Yn) uma cole¸c˜ao de vari´aveis aleat´orias independentes
com distribui¸c˜ao pi(y|θ). Seja I(θ) e Ii(θ) a medida de informa¸c˜ao de Fisher
em Y e Yi, respectivamente. Ent˜ao, I(θ) = n X i=1 Ii(θ) (2.4)
Defini¸c˜ao 2.5 (Fun¸c˜ao Escore) A fun¸c˜ao escore de Y, denotada por U(Y ; θ)
´e definida por:
U(Y ; θ) = ∂
∂θlog(p(y|θ))
Sob certas condi¸c˜oes de regularidade2, I(θ) = EY |θ
h
U(Y ; θ)UT(Y ; θ)i
2.2.3
Distribui¸c˜
ao a posteriori
Dada a verossimilhan¸ca l(θ; y) e uma distribui¸c˜ao a priori para o vetor de parˆametros p(θ), para qualquer inferˆencia param´etrica ou decis˜ao a respeito de θ o passo inicial ´e a obten¸c˜ao da densidade a posteriori que ´e definida por:
Defini¸c˜ao 2.6 (Distribui¸c˜ao a posteriori) A distribui¸c˜ao a posteriori de
θ ´e obtida utilizando o Teorema de Bayes, a verossimilhan¸ca l(θ; y) e a in-forma¸c˜ao a priori p(θ)
p(θ|y) = R l(θ; y)p(θ)
l(θ; y)p(θ)dθ (2.5)
E para obter informa¸c˜oes sobre observa¸c˜oes futuras x geradas pelo modelo param´etrico condicional a θ e y, o elemento fundamental ´e a densidade pre-ditiva dada por:
p(x|y) =
Z
p(x|θ)p(θ|y)dθ, x⊥y|θ
2As condi¸c˜oes de regularidade s˜ao basicamente: (i) a diferencia¸c˜ao da fun¸c˜ao de
verossimilhan¸ca pode ser feita em todo espa¸co do parˆametro; (ii) integra¸c˜ao e diferen-cia¸c˜ao podem ser trocadas. Para maiores detalhes veja Migon e Gamerman (1999).
Para obten¸c˜ao de densidades a posteriori e preditivas ´e necess´ario integrar no dom´ınio de θ. E para obten¸c˜ao de mais informa¸c˜oes (momentos e quantis, por exemplo) ´e necess´ario um n´umero ainda maior de integra¸c˜oes. No caso em que θ ´e univariado o problema de integra¸c˜ao tem, em geral, f´acil solu¸c˜ao. Mas no caso em que θ tem k componentes o problema de integra¸c˜ao pode se tornar bastante complexo. Neste contexto, t´ecnicas de aproxima¸c˜oes de integrais s˜ao necess´arias para implementa¸c˜ao do m´etodo bayesiano. Uma t´ecnica que facilita muito a inferˆencia Bayesiana ´e a simula¸c˜ao estoc´astica, particularmente, os M´etodos de Monte Carlo via Cadeias de Markov.
2.2.4
M´
etodos de Monte Carlo
Um m´etodo bastante simples e de f´acil implementa¸c˜ao quando o espa¸co de parˆametros n˜ao possui muitas dimens˜oes ´e o M´etodo de Reamostragem Pon-derada.
M´etodo de reamostragem ponderada
Suponha que g(θ) seja a densidade da qual desejamos amostrar e que s´o sabemos avaliar p(θ), onde:
g(θ) = cp(θ), para c > 0
Passo1: Escolha uma proposta q(.) que cubra p(.) pelo menos nas caudas.
Passo2: Gera-se θ1, θ2, ..., θM ∼ q(.)
Passo4: Padroniza-se os pesos w∗
i = PMwi j=1wj
Passo5: Reamostra-se θ(1), θ(2), ..., θ(m) a partir de (θ
1, θ2, ..., θM) com
probabilidades (w∗
1, w∗2, ..., wM∗ )
(θ(1), θ(2), ..., θ(m)) ´e uma amostra de g(θ). Observe que m pode ser
diferente de M.
M´etodo de MCMC
• Algoritmo de Metropolis Hastings
O algoritmo de Metropolis Hastings se baseia em gera¸c˜oes consecutivas de uma cadeia de Markov cuja distribui¸c˜ao limite ´e a distribui¸c˜ao de interesse,
φ(ω). Assumindo que ω(0) ´e o valor inicial da cadeia de Markov, o algoritmo
se desenvolve da seguinte forma:
I. No passo i, gera-se ωprop∼ q(.|ω(i−1))
II. Posi¸c˜ao final da cadeia em i:
ω(i) ← ωprop com probabilidade α
ω(i) ← ω(i−1) com probabilidade 1 − α
onde α = min{1,φ(ωφ(ωpropi−1)q(ω)q(ωpropi−1|ω|ωpropi−1))}
III. Repita I e II at´e a convergˆencia da cadeia.
• Algoritmo de Metropolis
Hastings quando a distribui¸c˜ao proposta ´e centrada no valor do parˆametro na itera¸c˜ao anterior.
• Amostrador de Gibbs
O algoritmo de Gibbs ´e obtido como caso particular do Metropolis Hast-ings quando a distribui¸c˜ao proposta ´e a distribui¸c˜ao condicional completa do parˆametro que est´a sendo gerado.
• Convergˆencia das cadeias geradas
A convergˆencia da cadeia para a distribui¸c˜ao limite ocorre quando o n´umero de itera¸c˜oes tende a infinito. Na pr´atica, o valor gerado ´e conside-rado proveniente da distribui¸c˜ao limite ap´os um n´umero (M0) suficientemente
grande de itera¸c˜oes. Uma quest˜ao importante ´e qu˜ao grande deve ser M0.
Em geral, utilizam-se formas emp´ıricas de verifica¸c˜ao da convergˆencia que estudam as propriedades estat´ısticas das s´eries geradas. Entre as principais t´ecnicas de verifica¸c˜ao da convergˆencia temos:
(i) Trajet´oria de uma cadeia
Se o gr´afico da cadeia gerada ap´os um per´ıodo inicial apresenta o mesmo comportamento qualitativo e quantitativo ent˜ao h´a indica¸c˜ao de con-vergˆencia.
(ii) Cadeias m´ultiplas
Podemos utilizar v´arias cadeias inicializadas em valores diferentes. A convergˆencia ´e obtida quando todas as cadeias tem o mesmo
comporta-mento qualitativo e quantitativo. Gelman e Rubin (1992) prop˜oe um m´etodo baseado em an´alise de variˆancia para verificar a similaridade entre as cadeias.
(iii) M´edias erg´odicas Definimos ¯θj = 1j
Pj
i=1θ(j), para j = 1, 2, 3, .... A sequˆencia (¯θj)
con-verge quase que certamente para E[θ] quando j → ∞. Para mais detalhes veja Geman e Geman (1984). Na pr´atica, podemos olhar o gr´afico das m´edias erg´odicas da cadeia gerada e observar em que ponto a cadeia apresenta um comportamento assint´otico.
(iv) An´alise espectral
Utiliza t´ecnicas de an´alise de s´eries temporais para verificar a con-vergˆencia da cadeia. Geweke (1992) sugere uma estat´ıstica baseada na variˆancia assint´otica de estimadores para a m´edia da cadeia gerada. A estat´ıstica pro-posta ´e comparada com valores da N(0,1).
Cap´ıtulo 3
Distribui¸c˜
ao t-Student
Como visto anteriormente, a distribui¸c˜ao t-Student com η graus de liber-dade, parˆametro de loca¸c˜ao µ e parˆametro de escala σ2 ´e obtida como um
caso particular da GHD com α = β = 0, λ = −η2 e δ = √ησ. Neste
cap´ıtulo, desenvolve-se a priori de Jeffreys para um caso mais simples, o caso t-St(η, 0, 1).
3.1
Priori de Jeffreys
Defini¸c˜ao 3.1 Uma quantidade aleat´oria Y ´e dita ter distribui¸c˜ao t-Student
com η graus de liberdade, loca¸c˜ao µ e escala σ2 quando possui densidade
p(y|η) = c(η, σ2) " η + µy − µ σ ¶2#−(η+1)/2 , y ∈ < (3.1) onde c(η, σ2) = Γ((η+1)/2)ηη/2 Γ(η/2)√πσ2
Sejam Y1, ..., Yn n replica¸c˜oes independentes de uma vari´avel aleat´oria
com fun¸c˜ao de densidade (3.1), com µ = 0 e σ = 1. A nota¸c˜ao utilizada ´e t-St(η) para a t-St(η, 0, 1).
Defini¸c˜ao 3.2 A fun¸c˜ao log-verossimilhan¸ca para o modelo t-St(η) ´e dada
por: l(η; y) = log ( Γ Ã (η + 1) 2 !) − log ½ Γ µη 2 ¶¾ +η 2log(η) − (η + 1) 2 log ³ η + y2´, (3.2) onde η ∈ <+
As caudas da fun¸c˜ao de verossimilhan¸ca associada ao modelo t-Student n˜ao tendem para zero quando η tende para infinito. Esse problema ´e e-xemplificado no gr´afico (3.1) da verossimilhan¸ca para dois conjuntos de dados de tamanho 50 gerado da t-St(9) e t-St(20), respectivamente. A constante mostrada no gr´afico ´e o produto da densidade normal padr˜ao apresentada em (3.3) que decorre do modelo limite obtido quando η → ∞. Alguns problemas relacionados com a verossimilhan¸ca do modelo t-Student multivariado sob o ponto de vista Bayesiano s˜ao apresentados em Fernandez e Steel (1999). Em seu trabalho Fernandez e Steel utilizam inferˆencia Bayesiana e reportam que m´etodos de estima¸c˜ao tais como m´axima verossimilhan¸ca e algoritmo EM podem convergir para m´aximos locais. Para uma an´alise cl´assica, sugere-se utiliza¸c˜ao de m´etodos eficientes (Lehmann, 1983), verossimilhan¸ca agru-pada (Beckman e Johnson, 1987) e verossimilhan¸ca modificada (Cheng e Iles, 1987).
Note que para o primeiro caso dependendo de onde o algoritmo de maximiza¸c˜ao da verossimilhan¸ca for inicializado este n˜ao convergir´a para o
(a) Verossimilhan¸ca do modelo t-Student com η = 9 e valor da constante em (3.3).
(b) Verossimilhan¸ca do modelo t-Student com η = 20 e valor da constante em (3.3). Figura 3.1: Fun¸c˜ao de verossimilhan¸ca para uma amostra de tamanho 50
gerada da t-St(η).
m´aximo global. Para o segundo exemplo, n˜ao h´a um m´aximo, invibializando algoritmos de maximiza¸c˜ao dessa fun¸c˜ao.
Proposi¸c˜ao 3.1 Se a priori utilizada para η no modelo t-St(η) for impr´opria
Prova:
Sabemos que se y|λ ∼ N(0, λ−1) e λ ∼ Ga³η
2,
η
2
´
ent˜ao, y ∼ t-St(η). Fazendo η → ∞, temos que a distribui¸c˜ao de λ se degenera no valor 1. Resultando em y ∼ N(0, 1). Dessa forma, lim inf η→∞ l(η; y) = c = n Y i=1 φ(yi), (3.3)
onde φ(.) ´e a densidade da normal padr˜ao.
Isso quer dizer que ∀² > 0 ∃b tal que η > b implica |l(η; y) − c| < ². Considere p(η) impr´opria, isto ´e, R0∞p(η)dη = ∞. Ent˜ao, Ra∞p(η)dη = ∞, ∀a > 0.
Assim, Ra∞p(η)l(η; y)dη = Raη∗p(η)l(η; y)dη + Rη∞∗ p(η)l(η; y)dη, onde
η∗ > b. Mas ∞ = (c − ²)Rη∞∗ p(η)dη < R∞ η∗ p(η)dη < (c + ²) R∞ η∗ p(η)dη = ∞
Ent˜ao, Rη∞∗ p(η)l(η; y)dη = ∞ que implica
R∞
a p(η)l(η; y)dη = ∞.
Re-sultando numa posteriori impr´opria. 2
Neste trabalho, propomos a utiliza¸c˜ao da priori n˜ao informativa de Jeffreys, que leva em conta a curvatura da verossimilhan¸ca e utiliza essa informa¸c˜ao para atribuir pesos aos valores de η.
Proposi¸c˜ao 3.2 A priori de Jeffreys associada ao modelo t-Student ´e dada
por: p(η) ∝ ( 2 h(η) − ψ(2) µη + 1 2 ¶ + ψ(2) µη 2 ¶ − 2 η )1/2 (3.4) onde ψ(2)(z) = d2
tomada na distribui¸c˜ao dos dados, definida por: h(η) = EY " 2 η + y2 − η + 1 (η + y2)2 # = 2 η + 1 − η + 2 η(η + 3) (3.5) Prova:
Derivando duas vezes (3.2) obtemos:
N 4 ( ψ(2) µ η + 1 2 ¶ − ψ(2) µ η 2 ¶ + 2 η ) + 1 2 N X i=1 ( η + 1 (η + y2 i)2 − 2 η + y2 i )
Calculando esperan¸cas na distribui¸c˜ao dos dados (3.1):
Ey " 1 (η + y2)k # = Z ∞ −∞c(η, 1)[η + y 2]−(η+2k+1)/2dy, onde c(η, 1) = Γ((η+1)/2)Γ(η/2) ηη/2 √ π . Ent˜ao, Ey " 1 (η + y2)k # = c(η, 1) c(η + 2k, η/(η + 2k)) Ã η η + 2k !−(η+2k+1)/2 , onde c(η + 2k, η/(η + 2k)) = Γ((η+2k+1)/2)Γ(η+2k/2) (η+2k)√ (η+2k)/2 η/(η+2k)π . Simplificando obtemos: Ey " 1 (η + y2)k # = Γ((η + 1)/2) Γ(η/2) Γ((η + 2k)/2) Γ((η + 2k + 1)/2) η −k Para k=1 Ey " 1 η + y2 # = 1 η + 1 Para k=2 Ey " 1 (η + y2)2 # = (η + 2) (η + 3)(η + 1)η Resultando em EY " 2 η + y2 − η + 1 (η + y2)2 # = 2 η + 1− η + 2 η(η + 3) 2
(a) Verossimilhan¸ca. (b) Priori. (c) Condicional completa. Figura 3.2: Fun¸c˜ao de verossimilhan¸ca, distribui¸c˜ao a priori e condicional completa para dados de tamanho N=50 gerados da t-St(15).
A figura (3.2) mostra a forma e o efeito da priori na forma da posteriori. A priori obtida deve ser pr´opria, caso contr´ario a posteriori seria impr´opria, como foi provado na proposi¸c˜ao (3.1). Para mostrar que a priori obtida ´e pr´opria basta que ela tenha a seguinte propriedade:
lim
η→∞p(η) = O(η
−k), para k > 1
Proposi¸c˜ao 3.3 As caudas de p(η) s˜ao de ordem O(η−2).
Prova:
A priori para η ´e dada por (3.4). Para provar o resultado basta mostrar que ψ(2)³η 2 ´ + ψ(2)³η+1 2 ´ + 4 η+1 −η2 − 2(η+2)
η(η+3) possui ordem O(η−4).
De Abramowitz e Stegun (1968) temos a f´ormula assint´otica:
ψ(2) µη 2 ¶ ∼ 2 η + 2 η2 + 4 3η3 + ∞ X k=2 B2k à 2 η !2k+1 ψ(2) µη + 1 2 ¶ ∼ 2 η + 1+ 2 (η + 1)2 + 4 3(η + 1)3 + ∞ X k=2 B2k à 2 (η + 1) !2k+1
ψ(2) µη 2 ¶ − ψ(2) µη + 1 2 ¶ + 4 η + 1− 2 η − 2(η + 2) η(η + 3) = 2A + B A = 1 η2 + 2 3η3 + 1 η + 1− 1 (η + 1)2 − 2 3(η + 1)3 − η + 2 η(η + 3) = 21η3+ 48η2+ 29η + 6 3η3(η + 1)3(η + 3) = O(η −4) B = ∞ X k=2 B2k22k+1 ( 1 η2k+1 − 1 (η + 1)2k+1 ) = ∞ X k=2 B2k22k+1 ( cη2k η2k+1(η + 1)2k+1 + O(η 2k+1) ) = ∞ X k=2 B2k22k+1 n
O(η2(k+1)) + O(η2k+1)o= O(η−5)
Logo, 2A+B ´e de ordem O(η−4) que implica que p(η) tem caudas de
ordem O(η−2). 2
3.2
Estudo simulado
Nesta se¸c˜ao, s˜ao apresentados os resultados de um estudo de simula¸c˜ao uti-lizando a priori de Jeffreys desenvolvida na se¸c˜ao anterior. Foram gerados conjuntos de dados artificiais com distribui¸c˜ao t-St(η) para diferentes va-lores de η (η = 1, 2, 4, 9, 15, 20). Foram utilizados tamb´em dois tamanhos amostrais (N = 50, 250) para verificarmos o efeito que o tamanho do con-junto de dados tem sobre a inferˆencia.
As amostras a posteriori do parˆametro η foram obtidas atrav´es do pro-cedimento de reamostragem ponderada. Esse m´etodo foi utilizado por ser de simples implementa¸c˜ao quando o problema de estima¸c˜ao ´e univariado. A distribui¸c˜ao proposta utilizada foi a U(0,500). As amostras geradas da distribui¸c˜ao a posteriori de η possuem tamanho 10000. Para cada cen´ario (N, η) foram calculadas estimativas para as seguintes quantidades: m´edia a posteriori (E[η|y]), desvio padr˜ao a posteriori (SD[η|y]), mediana a posteri-ori (MED[η|y]) e quantis 0.025 e 0.975 a posteriposteri-ori. Al´em disso, obteve-se tamb´em o estimador de m´axima verossimilhan¸ca (ˆη). Este foi obtido por
maximiza¸c˜ao num´erica atrav´es do m´etodo da bissec¸c˜ao que utiliza a primeira derivada e busca o m´aximo da fun¸c˜ao num intervalo especificado (o intervalo utilizado foi (0.1,300)). A tabela (3.1) cont´em o sum´ario dessas informa¸c˜oes. A figura (3.3) mostra uma amostra da posteriori de η obtida para dados de tamanho N=50 gerados da t-St(9).
Figura 3.3: Amostra da posteriori de η para dados de tamanho N=50 gerados da t-St(9), curva de densidade a posteriori exata e reta vertical em η = 9.
N η E[η|y] SD[η|y] MED[η|y] Q 0.025 Q 0.975 ηˆ 50 1 1.2952 0.3033 1.2650 0.7889 1.9802 1.2851 2 1.7893 0.5001 1.676 1.0996 2.8862 1.7593 4 7.3701 7.6216 5.4078 2.5506 24.8976 6.3406 9 21.6500 27.3702 10.7848 2.9567 116.8921 18.1636 15 27.5333 36.6484 14.7018 3.5757 149.3739 300.0000 20 37.5899 43.2721 20.6881 5.3216 177.2996 300.0000 250 1 0.9453 0.0815 0.9458 0.7938 1.0929 1.2379 2 2.5038 0.3167 2.4648 1.9764 3.2478 2.5263 4 3.9773 0.6442 3.7935 2.7904 5.3930 3.7839 9 10.5724 5.9506 9.1788 5.1037 23.9685 9.3655 15 16.6966 16.6067 12.8446 5.8470 52.7890 12.9609 20 20.7400 20.6897 14.9660 6.6600 78.6246 15.9342
Tabela 3.1: Estat´ısticas descritivas das amostras a posteriori para o Modelo t-Student(η) e estimadores de m´axima verossimilhan¸ca para N=50 e N=250. A estimativa da mediana a posteriori est´a sempre bem pr´oxima do valor verdadeiro de η quando N=50, enquanto o estimador de m´axima verossim-ilhan¸ca tem um comportamento muito ruim, assumindo valores muito dis-tantes do valor verdadeiro do parˆametro. Para N=250, a estimativa da m´edia a posteriori se comporta melhor que a estimativa da mediana a posteriori, a qual tem um comportamento similar ao estimador de m´axima verossimil-han¸ca.
Observamos que para N=50 o estimador de m´axima verossimilhan¸ca obtido para η pode assumir o limite superior do intervalo de busca do es-timador quando η = 15, 20 indicando que este n˜ao assume um valor finito.
O que sugere que h´a uma probabilidade positiva do estimador de m´axima verossimilhan¸ca ser infinito, que depende de η e do tamanho do conjunto de dados. Esse comportamanto do estimador de m´axima verossimilhan¸ca se deve ao fato da verossimilhan¸ca de η possuir caudas muito pesadas que tendem para uma constante diferente de zero. Como foi exemplificado na figura (3.1). Ou seja, h´a uma probabilidade positiva do modelo selecionado pelo m´etodo de m´axima verossimilhan¸ca ser o normal quando os dados foram gerados do modelo t-Student.
Com o objetivo de estudar as propriedades frequentistas de alguns es-timadores (m´edia a posteriori, mediana a posteriori e estimador de m´axima verossimilhan¸ca), repetiu-se o procedimento de estima¸c˜ao para 500 conjuntos de dados. As amostras da distribui¸c˜ao a posteriori de η possuem tamanho 1000. Os valores utilizados para η foram: 1, 2, 4, 9, 15, 18 e 20.
A tabela (3.2) apresenta a probabilidade estimada do estimador de m´axima verossimilhan¸ca ser infinito (P (ˆη = ∞)), que ´e obtida pela
pro-por¸c˜ao de vezes que a estimativa de m´axima verossimilhan¸ca encontrada pelo m´etodo de estima¸c˜ao foi maior que 80 no intervalo de busca (0.1,300). S˜ao calculados o vi´es e o erro quadr´atico m´edio do estimador da m´edia a posteriori, do estimador da mediana a posteriori e do estimador de m´axima verossimilhan¸ca. Essas quantidades foram calculadas condicionais ao esti-mador de m´axima verossimilhan¸ca ser finito. Os resultados s˜ao mostrados no gr´afico (3.4). Para evitar o efeito da escala no gr´afico, mostramos o m´odulo do vi´es dividido por η e a ra´ız quadrada do erro quadr´atico m´edio dividido por η. Na tabela (3.3) temos a cobertura frequentista do intervalo de 95% de credibilidade, que ´e calculada com base na propor¸c˜ao de vezes que o valor verdadeiro do parˆametro caiu dentro do intervalo.
η 1 2 4 9 15 18 20
N=50 0.000 0.000 0.038 0.234 0.370 0.402 0.434
N=250 0.000 0.000 0.000 0.014 0.114 0.150 0.196 Tabela 3.2: P (ˆη = ∞) para N=50 e N=250 para diferentes valores de η.
Podemos observar que h´a uma probabilidade bastante alta do estimador de m´axima verossimilhan¸ca n˜ao assumir um valor finito quando N = 50 j´a para η igual a 4. Por exemplo, temos uma probabilidade de aproximadamente 23% que o modelo selecionado para os dados por m´axima verossimilhan¸ca seja o normal quando os dados forem gerados de uma t-St(9). J´a para N=250, essa probabilidade s´o ´e razoavelmente grande para η = 15.
η 1 2 4 9 15 18 20
N=50 0.92 0.94 0.96 0.96 0.98 0.98 0.97
N=250 0.96 0.96 0.95 0.95 0.96 0.98 0.97
Tabela 3.3: cobertura frequentista do intervalo de 95% de credibilidade para N=50 e N=250.
A cobertura a posteriori obtida ´e aproximadamente a esperada, indi-cando que a an´alise Bayesiana usando a priori proposta ´e bastante adequada para o modelo t-Student.
A m´edia e a mediana a posteriori tem erro quadr´atico m´edio bem menor que o estimador de m´axima verossimilhan¸ca. Entre esses dois estimadores, a mediana quase sempres possui vi´es menor exceto para η ≥ 15 (N=50) e
η = 20 (N=250). Conclu´ımos que a mediana a posteriori deve ser utilizada
(a) Vi´es para N=50. (b) EQM para N=50.
(c) Vi´es para N=250. (d) EQM para N=250.
Figura 3.4: Vi´es e erro quadr´atico m´edio condicionais para η = 1, 2, 4, 9, 15, 20 e N=50,250.
Cap´ıtulo 4
Modelos de Regress˜
ao
t-Student
Um importante aspecto na an´alise de regress˜ao ´e o uso de distribui¸c˜oes n˜ao gaussianas para a componente de erro. Em alguns casos, ´e necess´ario a utiliza¸c˜ao de distribui¸c˜oes com caudas mais pesadas como a t-Student. O primeiro trabalho nessa ´area ´e o de Zellner (1976), no qual examina-se as consequˆencias de adotarmos a distribui¸c˜ao t-Student multivariada em subs-titui¸c˜ao a normal multivariada. Extens˜oes s˜ao consideradas em Osiewalski e Steel (1993). Uma an´alise Bayesiana foi desenvolvida em Geweke (1993), onde reporta-se que uma an´alise n˜ao informativa pode ser complicada e por esse motivo utiliza-se apenas prioris pr´oprias para os graus de liber-dade. Branco et al (1998) aconselham a utiliza¸c˜ao de prioris pr´oprias para os parˆametros do modelo, caso contr´ario a posteriori encontrada pode n˜ao ser pr´opria. Neste trabalho, utilizamos an´alise Bayesiana n˜ao-informativa de Jeffreys para fazer inferˆencia sobre modelos lineares cuja componente de erro
s˜ao vari´aveis aleat´orias independentes e com distribui¸c˜ao t-Student. A dis-tribui¸c˜ao t-Student ´e um caso particular da GHD como mostrado em (3.1). Neste cap´ıtulo tratamos do modelo t-St(η, µ, σ2), onde µ pode ser fun¸c˜ao de
regressores.
4.1
Priori de Jeffreys
Considere observa¸c˜oes (x, y) onde x = (x1, . . . , xN)T ´e uma matriz N × k de
k covari´aveis e y = (y1, . . . , yN)T ´e um vetor N × 1.
Condicional aos x0
is, os yi0s s˜ao independentes e possuem distribui¸c˜ao
yi|x ∼t-St(η, xTi β, σ2), onde β = (β1, . . . , βk) ´e um vetor k × 1 de coeficientes,
η ´e o parˆametro dos graus de liberdade e σ2 ´e o parˆametro de escala. Todos
os parˆametros s˜ao considerados desconhecidos.
Defini¸c˜ao 4.1 A fun¸c˜ao log-verossimilhan¸ca para o modelo t-St(η, xT i β, σ2)
´e dada por:
l(η, β, σ2; y) = N ½ ψ µη + 1 2 ¶ − ψ µη 2 ¶ + η 2 log(η) − log(σ) ¾ − η + 1 2 N X i=1 log η + Ã y − xTβ σ !2 , onde ψ(x) = log(Γ(x)), η, σ2 ∈ < + e β ∈ Rk.
A verossimilhan¸ca apresenta problemas an´alogos aos citados no cap´ıtulo 3. A figura (4.1) ilustra alguns dos problemas. Observamos que para η × σ a verossimilhan¸ca condicional n˜ao possui uma moda, o que torna a estima¸c˜ao por m´axima verossimilhan¸ca invi´avel. Zellner (1976) mostra que se os graus
de liberdade s˜ao considerados desconhecidos o m´etodo de m´axima verossi-milhan¸ca n˜ao deve ser utilizado. Singh (1988) sugere a utiliza¸c˜ao do m´etodo dos momentos nesse caso.
(a) Verossimilhan¸ca para η e β0. (b) Verossimilhan¸ca para η e β1.
(c) Verossimilhan¸ca para η e σ. (d) Verossimilhan¸ca para β0 e β1.
(e) Verossimilhan¸ca para β0 e σ. (f) Verossimilhan¸ca para β1 e σ.
Figura 4.1: Fun¸c˜ao de verossimilhan¸ca condicional para uma amostra de tamanho 30 gerada da t-St(η,xTβ,σ2), onde η = 4, β = (2, 1)T e σ = 1.5. X
1
Sugerimos a utiliza¸c˜ao da priori n˜ao informativa de Jeffreys para o modelo. Para isso encontramos a matriz de informa¸c˜ao de Fisher atrav´es da 2a derivada da fun¸c˜ao log-verossimilhan¸ca.
Proposi¸c˜ao 4.1 A matriz de informa¸c˜ao de Fisher para θ = (η, σ2, µ) no
modelo de regress˜ao t-Student ´e dada por:
A1 . . A2 A3 . 0 0 A4 A1 = N 4 ( 2 " 2 η + 1 − η + 2 η(η + 3) # − ψ(2) µη + 1 2 ¶ + ψ(2) µη 2 ¶ − 2 η ) A2 = − 2N σ 1 (η + 1)(η + 3) A3 = 2N σ2 η η + 3 A4 = η + 1 σ2(η + 3) N X i=1 XiXiT
Note que A1, A2 e A3 s˜ao escalares enquanto A4 ´e uma matriz k × k.
Assim, 0 ´e k × 1 e M ´e bloco diagonal com dimens˜ao (k + 2) × (k + 2). Prova:
(i) X ∼ t − St(η, 0, 1) ⇒ E[Xk] = 0 se k ´ımpar e E[Xk] = ηkΓ(12+k)Γ(
η
2−k)
Γ(12)Γ(η2) se
k para; Para maiores detalhes veja Wilks (1963) pp 185.
(ii) Y = µ + σX ⇒ Y ∼ t − St(η, µ, σ2) e E[Yk] = 0 se k ´ımpar e E[Yk] =
(iii) Ey (· η +³y−µσ ´2 ¸−k) = Γ((η+1)/2)Γ(η/2) Γ((η+2k+1)/2)Γ((η+2k)/2) η−k Considere c(η, σ2) = Γ((η+1)/2)ηη/2 Γ(η/2)√πσ2 como na defini¸c˜ao (3.1). Ey " η + µ y − µ σ ¶2#−k = Z ∞ −∞ c(η, 1) " η + µ y − µ σ ¶2#−(η+2k+1)/2 dy = c(η, 1) c(η + 2k, η/(η + 2k)) µ η η + 2k ¶−(η+2k+1)/2 = Γ((η + 1)/2) Γ(η/2) Γ((η + 2k)/2) Γ((η + 2k + 1)/2) η −k Para k=1 Ey h 1 η+y2 i = 1 η+1 e para k=2 Ey h 1 (η+y2)2 i = (η+3)(η+1)η(η+2) . (iv) Ey ( (y − µ)q · η +³y−µσ ´2 ¸−1) = 1 η+1Ey[(y−µ)q], y ∼ t−St ³ η + 2, µ, σ2 η η+2 ´ Ey (y − µ) q " η + µ y − µ σ ¶2#−1 = Z ∞ −∞ (y − µ)qc(η, 1) " η + µ y − µ σ ¶2#−(η+2+1)/2 dy = c(η, 1) c(η + 2, η/(η + 2)) µ η η + 2 ¶−(η+2+1)/2 Ey[(y − µ)q] = 1 η + 1Ey[(y − µ) q], y ∼ t − St µ η + 2, µ, σ2 η η + 2 ¶ (v) Ey ( (y − µ)q · η +³y−µ σ ´2¸−2) = η+2 η(η+1)(η+3)Ey[(y−µ)q], y ∼ t−St ³ η + 4, µ, σ2 η η+4 ´ Ey (y − µ) q " η + µ y − µ σ ¶2#−2 = Z ∞ −∞ (y − µ)qc(η, 1) " η + µ y − µ σ ¶2#−(η+4+1)/2 dy = c(η, 1) c(η + 4, η/(η + 4)) µ η η + 4 ¶−(η+4+1)/2 Ey[(y − µ)q] = (η + 2) (η + 3)(η + 1)ηEy[(y − µ) q], y ∼ t − St µ η + 4, µ, σ2 η η + 4 ¶