Análise Bayesiana de Referência para a Classe de Distribuições Hiperbólicas Generalizadas

(1)

An´alise Bayesiana de Referˆencia para a classe

de Distribui¸c˜oes Hiperb´olicas Generalizadas

Tha´ıs C. O. da Fonseca

Orientadores: Helio S. Migon e Marco A. R. Ferreira

(2)

Sum´

ario

1 Introdu¸c˜ao 4

1.1 Distribui¸c˜ao Hiperb´olica Generalizada. . . 7

1.2 Parˆametros da distribui¸c˜ao . . . 10

1.3 Subclasses e distribui¸c˜oes limite . . . 13

1.4 Momentos . . . 15

1.5 Sum´ario da disserta¸c˜ao . . . 17

2 Inferência 19 2.1 Estima¸cão por Máxima Verossimilhan¸ca . . . 19

2.2 Inferˆencia Bayesiana . . . 24

2.2.1 Distribui¸c˜ao a priori . . . 24

2.2.2 Prioris n˜ao informativas . . . 25

(3)

2.2.4 M´etodos de Monte Carlo . . . 28

3 Distribui¸c˜ao t-Student 32

3.1 Priori de Jeffreys . . . 32 3.2 Estudo simulado . . . 38

4 Modelos de Regress˜ao t-Student 44

4.1 Priori de Jeffreys . . . 45 4.2 Estudo simulado . . . 51

5 Distribui¸c˜ao Hiperb´olica 66

5.1 Priori de Jeffreys . . . 66 5.2 Aplica¸c˜ao a dados simulados . . . 76 5.3 Aplica¸c˜ao a dados reais . . . 79

6 O caso geral 85

6.1 A priori de Jeffreys . . . 86 6.2 Aplica¸c˜ao a dados simulados . . . 94

7 Conclus˜oes e trabalhos futuros 99

(4)

(5)

Cap´ıtulo 1

Introdu¸c˜

ao

A classe de Distribui¸cões Hiperbólicas Generalizadas (GHD) foi originalmente introduzida por Barndorff-Nielsen (1977). Ele utilizou uma subclasse dessa distribui¸cão para modelar o tamanho de grãos de areia sujeitos a ventos cont´ınuos. Uma vantagem dessa classe de distribui¸cões é englobar muitos casos particulares e distribui¸cões limites. Por exemplo, a Hiperbólica, a Normal Inversa Gaussiana (NIG), a t-Student, a Normal e a Laplace As-simétrica. Para maiores detalhes e outros casos limites veja Barndorff-Nielsen (1978). Uma outra grande vantagem que pode ser bastante útil em algumas aplica¸cões é o fato dessa distribui¸cão permitir assimetrias. Além disto, esta distribui¸cão pode ser obtida como uma mistura na média e na variância da normal.

Desde o seu desenvolvimento, a GHD tem sido usada em diferentes áreas do conhecimento. Inicialmente, era usada na f´ısica, biologia e astrono-mia. Em 1982, por exemplo, Barndorff-Nielsen utiliza a subclasse Hiperbólica na modelagem da energia de uma part´ıcula de um gás ideal em substitui¸cão

(6)

as distribui¸cões Gaussianas. Mais recentemente, as GHD vêm sendo uti-lizadas também para modelar dados do mercado financeiro. Eberllin e Keller (1995) foram os primeiros a utilizar a GHD neste contexto. Em seu trabalho, utilizaram a subclasse Hiperbólica para modelar dados do mercado alemão. Jaschke (1997) mostra que a GHD é um limite fraco de um processo de volati-lidade estocástica que é modelado como um Garch(1,1). Barndorff-Nielsen (1997) reporta as vantagens da utiliza¸cão da subclasse Normal Inversa Gaus-siana na modelagem da dados de finan¸cas e também de turbulência. Segundo ele, a distribui¸cão Normal Inversa Gaussiana é capaz de capturar regimes caracter´ısticos entre per´ıodos de pequenas flutua¸cões aleatórias e per´ıodos de alta atividade. Em finan¸cas, esse fenômeno é chamado volatilidade es-tocástica e em turbulência, é chamado intermitência (para mais detalhes veja Frisch 1995, cap´ıtulo 8). Bibby e Sorensen (1997) utilizam a GHD como distribui¸cão limite para difusões. Prause (1999) utiliza a GHD para mode-lagem de dados da Alemanha e EUA. Fajardo et al. (2002) analisam dados do mercado brasileiro utilizando a GHD.

Apesar das boas propriedades da classe de distribui¸cões hiperbólicas generalizadas, problemas são encontrados na inferência para esse modelo. Isso não se deve apenas a dificuldades numéricas de estima¸cão mas também a dificuldades teóricas relacionadas com a verossimilhan¸ca do modelo. Barndorff-Nielsen e Blæsild (1981) mencionam as caudas pesadas da verossimilhan¸ca já para uma subclasse da distribui¸cão hiperbólica generalizada. Um dos problemas encontrados para o modelo geral é a estima¸cão do parâmetro de subclasse. Prause (1999) sugere com um estudo de simula¸cão que so-mente para tamanhos de amostra grande a estimativa desse parâmetro é razoável. Desses resultados ele conclui que pelo menos 250 observa¸cões são necessárias para obten¸cão de um ajuste adequado. Ele reporta também

(7)

que em muitos casos o algor´ıtmo desenvolvido por ele converge para dis-tribui¸cões limites. Mostramos nessa disserta¸cão que esta dificuldade existe porque há uma probabilidade positiva do estimador de máxima verossimi-lhan¸ca não assumir valores finitos e isso ocorre quando certas combina¸cões dos parâmetros levam a modelos limites. Além disso, os algor´ıtmos de maxi-miza¸cão da verossimilhan¸ca até hoje desenvolvidos não possuem convergência anal´ıtica provada, a convergência para um máximo global é obtida apenas empiricamente. Um problema numérico encontrado no desenvolvimento de algor´ıtmos de estima¸cão é o número de fun¸cões modificadas de Bessel que devem ser calculadas na avalia¸cão da densidade. Prause (1999) utiliza uma aproxima¸cão numérica para essas fun¸cões (Teukolsky, Vetterling e Flannery 1992, página 236 a 252). Uma outra solu¸cão para esse problema seria con-siderar o parâmetro de subclasse fixo e utilizar algum critério de compara¸cão de modelos para escolher o mais adequado, pois com a subclasse previa-mente escolhida os problemas numéricos se reduzem bastante. Um programa de computador para estima¸cão por máxima verossimilhan¸ca para subclasses da distribui¸cão, baseado em observa¸cões independentes e identicamente dis-tribu´ıdas, foi desenvolvido por Blaesied e Sorensen (1992, 1996).

O fato da verossimilhan¸ca ter muitas dificuldades associadas sugere que devemos procurar uma maneira de calibrar a informa¸cão obtida dos dados. Uma solu¸cão é utilizar uma distribui¸cão a priori que funcionaria como peso para a informa¸cão fornecida pela verossimilhan¸ca. Mas, a elicita¸cão de pri-oris subjetivas para os parâmetros é uma dificuldade devido à mudan¸ca de interpreta¸cão dos parâmetros para as diferentes subclasses. Assim, desen-volvemos uma análise Bayesiana utilizando MCMC baseada na priori não informativa de Jeffreys, sob fun¸cão de perda absoluta, e portanto, a mediana será o estimador pontual ótimo. Alguns resultados interessantes são obtidos:

(8)

a priori desenvolvida permite uma análise satisfatória mesmo para amostras pequenas; as propriedades do estimador proposto são bem melhores que os do EMV. Inicialmente, utiliza-se subclasses e casos particulares e posterior-mente, desenvolve-se a priori para o caso geral. Um estudo simulado para análise do efeito do tamanho da amostra na inferência também é realizado. Toda metodologia apresentada foi implementada na linguagem Ox (Doornik, 2002) que é uma linguagem matricial orientada a objeto.

No restante deste cap´ıtulo, apresentamos uma revisão da GHD. Na Se¸cão 1.1, apresenta-se a densidade do modelo hiperbólico generalizado. Na se¸cão 1.2, apresentam-se algumas propriedades relativas aos parâmetros da distribui¸cão. Na se¸cão 1.3, temos algumas subclasses e distribui¸cões limite e na se¸cão 1.4, a fun¸cão geradora de momentos.

1.1 Distribui¸c˜

ao Hiperb´

olica Generalizada

As propriedades matem´aticas da GHD mostradas neste cap´ıtulo s˜ao esta-belecidas em Barndorff-Nielsen (1977).

Defini¸cão 1.1 (Distribui¸c˜ao univariada) Uma quantidade aleatória Y é

dita ter distribui¸cão Hiperbólica Generalizada se possui fun¸cão densidade de probabilidade dada por:

f (y|λ, α, β, δ, µ) = a(λ, α, β, δ) [δ2_{+(y −µ)}2_](λ−1

2)/2K(y; λ, α, β, δ, µ) (1.1) onde y ∈ < e (i) a(λ, α, β, δ) = (α2−β2) λ 2 √ 2παλ−0.5_δλ_K λ(δ √ α2_−β2₎

(9)

(ii) K(y; λ, α, β, δ, µ) = Kλ−0.5(α

q

δ2 _{+ (y − µ)}2_{)exp{β(y − µ)}}

(iii) Kλ(.) ´e a fun¸c˜ao modificada de Bessel de 3a ordem com ´ındice λ e

´e representada na forma de integral por: Kλ(z) = 0.5

Z _∞

0 x

λ−1_{exp{−0.5z(x + x}−1_{)} dx}

A nota¸cão utilizada aqui para a Distribui¸cão Hiperbólica Generalizada é a seguinte: Y ∼ GHD(λ, α, β, δ, µ)

Proposi¸c˜ao 1.1 (Mistura) A distribui¸c˜ao Hiperb´olica Generalizada pode

ser obtida através de uma mistura na média e na variância da Normal. Seja Y |W ∼ N(µ + βW, W ) e W ∼ GIG1_(λ,√_α2_{− β}2_{, δ). Então, Y possui}

distribui¸cão hiperbólica generalizada que é obtida por: f (y|λ, α, β, δ, µ) =

Z _∞

0 g(y|µ, β, w)h(w|λ, δ, α, β)dw, (1.2)

onde g é a densidade da Normal com média µ + βW e variância W e h é a densidade da Inversa Gaussiana Generalizada (GIG) com parâmetros λ, √ α2_{− β}2 _{e δ.} Prova: f (y|λ, α, β, δ, µ) = Z _∞ 0 (2πw) −1/2_exp ½ − 1 2w[y − (µ + βw)] 2 ¾ × c(λ, q α2_{− β}2_{, δ)w}λ−1_exp ½ −1 2[w −1_δ2_{+ w(α}2_{− β}2_)] ¾ dw

1_{Se W ∼ GIG(ρ, γ, κ) ent˜ao sua densidade ´e dada por:}

c(ρ, γ, κ) wρ−1_exp ½ −1 2(κ 2_w−1_{+ γ}2_w) ¾ , κ, γ ≥ 0, ρ ∈ <, w > 0, onde c(ρ, γ, κ) = _2K(γ/κ)ρ

ρ(γκ). Jørgensen (1982) apresenta mais detalhes sobre essa fam´ılia de

(10)

= (2π)−1/2c(λ, q α2_{− β}2_{, δ) × exp{β(y − µ)} ×} Z _∞ 0 w (λ−0.5)−1_exp ½ −1 2[w −1_(δ2_{+ (y − µ)}2_{)] + wα}2 ¾ dw = (2π)−1/2 c(λ, √ α2_{− β}2_{, δ)} c(λ − 0.5, α,qδ2_{+ (y − µ)}2₎ × exp{β(y − µ)} = (α2− β2) λ 2 √ 2παλ−0.5_δλ_K λ(δ √ α2_{− β}2₎ (δ 2_{+ (y − µ)}2₎₍λ−1 2)/2× Kλ−0.5(α q δ2_{+ (y − µ)}2_{)exp{β(y − µ)}} ₂

Uma outra propriedade interessante é que o modelo hiperbólico gene-ralizado é um modelo de loca¸cão e escala.

Proposi¸c˜ao 1.2 (Modelo loca¸c˜ao-escala) O modelo hiperb´olico

genera-lizado ´e um modelo de loca¸c˜ao e escala.

Prova: f (y|λ, α, β, δ, µ) = √ (α2 − β2)λ/2 2παλ−0.5_δλ_K λ(δ √ α2_{− β}2₎(δ 2_{+ (y − µ)}2₎(λ−0.5)/2 × Kλ−0.5(α q δ2_{+ (y − µ)}2_{)exp{β(y − µ)}} Seja ¯α = αδ e ¯β = βδ, ent˜ao: f (y|λ, α, β, δ, µ) = 1 δ (¯α2_{− ¯}_β2₎λ/2 √ 2π ¯α1/2_K λ( q ¯ α2_{− ¯}_β2₎ " 1 + µ y − µ δ ¶₂#(λ−0.5)/2 × Kλ−0.5  _α_¯ s 1 + µ_{y − µ} δ ¶₂ _exp ½ ¯ β µ_{y − µ} δ ¶¾ = 1 δf µ_{y − µ} δ ¶ onde f (x) = √ (¯α2− ¯β2)λ/2 2π ¯α1/2_K_λ₍√_α_¯2_{− ¯}_β2₎(1 + x 2₎(λ−0.5)/2_K λ−0.5 ³ ¯ α√1 + x2´_expn_βx¯ o

(11)

Proposi¸c˜ao 1.3 (Transforma¸c˜ao linear) A classe GHD ´e fechada para

transforma¸c˜oes lineares. Se X ∼ GHD(λ, α, β, δ, µ) ent˜ao, Y = aX + b ∼ GHD(λ+_{, α}+_{, β}+_{, δ}+_{, µ}+_{) onde λ}+ _{= λ, α}+ ₌ α

|a|, β+ = |a|β , δ+ = δ|a| e

µ+ _{= aµ + b.}

Prova:

Em Blæsild (1981,teorema I).

1.2 Parˆ

ametros da distribui¸c˜

ao

A distribui¸cão hiperbólica generalizada possui cinco parâmetros que per-mitem descrever assimetrias e caudas semi-pesadas2_{. Como exemplo temos a}

GHD(1,1,0,1,0) que possui caudas mais pesadas que a t-Student com 3 graus de liberdade porém possui variância finita dada por K2_K1(1)₍₁₎. Lembre-se que a t-Student com 3 graus de liberdade é a t-Student com cauda mais pesada e variância bem definida.

No gráfico (1.1) apresentamos a densidade e a log-densidade da dis-tribui¸cão normal, t-Student e hiperbólica generalizada. Note que enquanto a fun¸cão log-densidade da normal padrão tem a forma de uma parábola, a log-densidade para a GHD(1,1,0,1,0) tem a forma de uma hipérbole, o que originou seu nome.

2_{O termo caudas semi-pesadas indica que a densidade se comporta da seguinte forma}

quando y → ±∞:

f (y; λ, α, β, δ, µ) ∼ |y|λ−1_{exp{(∓α + β)y}}

(12)

.

Figura 1.1: Densidade e log-densidade: Normal(0,1); t-Student(3); GHD(1,1,0,1,0)

Os dom´ınios de varia¸cão dos parâmetros do modelo são mostrados na tabela (1.1).

Parˆametro Fun¸c˜ao Dom´ınio

λ subclasses/caudas pesadas <

α forma <+

β assimetria (−α, α)

δ escala <+

µ loca¸c˜ao <

Tabela 1.1: Descri¸cão dos parâmetros da Distribui¸cão Hiperbólica General-izada.

Os parâmetros δ e µ são responsáveis pela escala e loca¸cão, respectiva-mente. Como visto na se¸cão anterior, através de uma reparametriza¸cão obte-mos um modelo de loca¸cão e escala. O parâmetro λ é responsável pelo peso das caudas e pelas subclasses da distribui¸cão. Quanto maior esse parâmetro

(13)

mais pesada é a cauda. O parâmetro β é responsável pela assimetria da distribui¸cão, para β = 0 temos uma distribui¸cão simétrica em torno de µ e quanto maior o valor de |β| mais assimétrica é a distribui¸cão. Para valores positivos de β temos assimetria à direita e para valores negativos de β temos assimetria à esquerda. Essas propriedades são ilustradas na figura (1.2).

−2 0 2 4 6 0.0 0.2 0.4 0.6 0.8 y densidade λ = −2 λ = −1 λ =0 λ =1 λ =2 −2 0 2 4 6 0.0 0.2 0.4 0.6 y densidade α =0.1 α =0.5 α =1 α =2 α =3

(a) Densidade GH(λ,2,0,1,2) (b) Densidade GH(1,α,0,1,2)

−15 −5 0 5 10 15 20 0.0 0.1 0.2 0.3 0.4 y densidade β = −1.8 β = −1.4 β =0 β =1.4 β =1.8 −2 0 2 4 6 0.0 0.2 0.4 0.6 0.8 y densidade δ =0.01 δ =0.5 δ =1 δ =1.5 δ =3 (c) Densidade GH(1,2,β,1,2) (d) Densidade GH(1,2,0,δ,2) Figura 1.2: Varia¸cão dos parâmetros do modelo hiperbólico generalizado.

(14)

1.3 Subclasses e distribui¸c˜

oes limite

Usando propriedades da fun¸cão Bessel pode-se obter subclasses da GHD. Algumas propriedades são apresentadas no apêndice.

Defini¸c˜ao 1.2 (Distribui¸c˜ao Hiperb´olica) Para λ = 1 temos a subclasse

de distribui¸c˜oes hiperb´olicas (HIP) com densidade dada por: g(y; α, β, δ, µ) = √ α2 _{− β}2 2αδK1(δ √ α2_{− β}2₎exp ½ −α q δ2_{+ (y − µ)}2 _{+ β(y − µ)} ¾ (1.3) onde, y, µ ∈ <, δ > 0 e |β| < α

Defini¸c˜ao 1.3 (Distribui¸c˜ao Normal Inversa Gaussiana) Para

λ = −0.5 temos a subclasse de distribui¸c˜oes Normal Inversa Gaussiana (NIG) com densidade dada por:

g(y; α, β, δ, µ) = αδ π exp ½ δ q α2_{− β}2_{+ β(y − µ)} ¾_K 1(α q δ2_{+ (y − µ)}2₎ q δ2_{+ (y − µ)}2 (1.4) onde, y, µ ∈ <, δ > 0 e |β| ≤ α

As subclasses acima s˜ao obtidas utilizando a seguinte propriedade:

K1/2(x) = K−1/2(x) =

q

π

2x−1/2e−x.

A distribui¸cão Normal Inversa Gaussiana pode aproximar a maioria das Distribui¸cões Hiperbólicas de maneira bastante eficiente. Além disso, pode descrever observa¸cões com um comportamento de cauda consideravelmente pesado. Outras subclasses de interesse são a Distribui¸cão Hipérbola, obtida quando λ = 0 e a Distribui¸cão Hiperbolóide, obtida quando λ = 0.5.

(15)

Muitas distribui¸cões são obtidas como limite da GHD, tais como a Nor-mal, a t-Student, a Normal Rec´ıproca Inversa Gaussiana, a Gama Variância, a Inversa Gaussiana Generalizada e a Laplace Assimétrica.

Defini¸c˜ao 1.4 (Distribui¸c˜ao Normal) A distribui¸c˜ao Normal resulta como

um caso limite da GHD para δ → ∞ e δ/α → σ2_.

Proposi¸c˜ao 1.4 (Distribui¸c˜ao t-Student) A distribui¸c˜ao t-Student resulta

de uma mistura da normal com a distribui¸c˜ao gama inversa. A t-St(η, µ, σ2₎

´e obtida para λ = −η/2, α = β = 0 e δ2 _{= ησ}2_.

Prova:

A distribui¸cão Hiperbólica Generalizada é expressa através de uma mis-tura por (1.2) que pode ser escrita como:

f (y; λ, α, β, δ, µ) = Z _∞ 0 (2πw) −1/2_exp ½ − 1 2w[y − (µ + βw)] 2 ¾ × c(λ, q α2_{− β}2_{, δ)w}λ−1_exp ½ −1 2[w −1_δ2 _{+ w(α}2_{− β}2_)] ¾ dw, onde c(λ,√α2_{− β}2_{, δ) =} (α2−β2)λ/2 2δλ_K λ(δ √ α2_−β2₎

Das propriedades da fun¸c˜ao Bessel temos que Kλ(x) ∼ Γ(λ)2λ−1x−λ,

quando x → 0 e tamb´em Kλ(x) = K−λ(x). Dessa forma, para α → β temos

que c(λ,√α2_{− β}2_{, δ) se reduz a} 2λ δ2λ_Γ(−λ) Para β → 0 temos: f (y; λ, δ, µ) = √ 2λ 2πδ2λ_Γ(−λ) Z _∞ 0 w (λ−1/2)−1_exp ( −1 w " δ2_{+ (y − µ)}2 2 #) dw = Γ(−λ + 1/2)√ πδ2λ_Γ(−λ) h δ2_{+ (y − µ)}2i−(−λ+1/2)

(16)

Fazendo λ = −η 2 e δ2 = ησ2 obtemos: f (y; ν, µ) = Γ ³ η+1 2 ´ ηη/2 √ πσ2_Γ³η 2 ´ " η + µ_{y − µ} σ ¶₂#−(η+1₂ ) , y ∈ < Resultando na t-St(η, µ, σ2_). ₂

Uma outra maneira de obter a t-Student é utilizando λ = −η/2, α → β e µ = 0. Neste caso, obtemos a t-St(η, 0, δ2_{). A t-Student não central}3 _não

resulta como caso limite ou particular da distribui¸cão Hiperbólica Genera-lizada. Isso ocorre porque a t-Student não central é uma mistura somente na variância com média constante, enquanto a GHD é uma mistura na média e na variância.

Defini¸c˜ao 1.5 (Distribui¸c˜ao GIG) A distribui¸c˜ao Inversa Gaussiana

Ge-neralizada resulta como um caso limite da GH quando αδ2 _{→ τ , α − β =} ψ

2

e µ = 0. Obtemos ent˜ao a GIG(λ, ψ, τ ).

1.4 Momentos

Proposi¸c˜ao 1.5 (Fun¸c˜ao Geradora de Momentos) A fun¸c˜ao geradora

de momentos da GHD ´e dada por: M(t) = eµt Ã α2_{− β}2 α2_{− (β + t)}2 !_λ/2 Kλ(δ q α2_{− (β + t)}2₎ δ√α2_{− β}2₎ , |β + t| < α (1.5)

3_{A densidade da t n˜ao central ´e dada por:}

f (x) = η η/2_{Γ(η + 1)} 2η_eλ2_/2Γ(η/2)(η + x 2₎−η/2    √ 2λxF³η₂+ 1;3 2; λ 2_x2 2(η+x2₎ ´ (η + x2_{)Γ ((η + 1)/2)} + F³η+1₂ ;1 2; λ 2_x2 2(η+x2₎ ´ p η + x2_{Γ (η/2 + 1)},    onde F (a; b; z) = 1 +a bz + a(a+1) b(b+1)z 2 2! + a(a+1)(a+2) b(b+1)(b+2)z 3 3! + · · ·

(17)

Prova: M(t) = Ehetyi= Z _∞ −∞f (y; λ, α, β, δ, µ) e ty_dy = Z _∞ −∞a(λ, α, β, δ)(δ 2_+(y−µ)2₎(λ−0.5)/2_K λ−0.5 µ α q δ2_{+ (y − µ)}2 ¶ e{β(y−µ)+ty}dy = a(λ, α, β, δ)eµt Z _∞ −∞(δ 2_+(y−µ)2₎(λ−0.5)/2_K λ−0.5 µ α q δ2_{+ (y − µ)}2 ¶ e{(β+t)(y−µ)}dy = eµt a(λ, α, β, δ) a(λ, α, β + t, δ) = e µt Ã α2_{− β}2 α2_{− (β + t)}2 !_λ/2 Kλ(δ q α2_{− (β + t)}2₎ Kλ(δ √ α2_{− β}2₎ , |β+t| < α

Podemos calcular a média e a variância da GHD através das derivadas da fun¸cão de momentos.

Corolário 1.1 (M´edia da GHD) A distribui¸cão hiperbólica generalizada

tem a seguinte m´edia:

E[Y ] = µ +βδ2 ρ Kλ+1(ρ) Kλ(ρ) (1.6) onde ρ = δ√α2_{− β}2_.

Note que para β = 0 temos uma distribui¸c˜ao sim´etrica em torno de µ. Prova: M0_{(t) =} (α2− β2)λ/2 Kλ ³ δpα2_{− β}2´  e µt_K λ ³ δpα2_{− (β + t)}2´ (α2_{− (β + t)}2₎λ/2   0 Usando propriedade K0 λ(x) = ∂x∂ Kλ(x) = λxKλ(x) − Kλ+1 obtemos: M0_{(t) =} (α2− β2)λ/2 Kλ ³ δpα2_{− β}2´ e µt  µKλ ³ δpα2_{− (β + t)}2´ (α2_{− (β + t)}2₎λ/2 + (β + t)δKλ+1 ³ δpα2_{− (β + t)}2´ (α2_{− (β + t)}2₎(λ+1)/2   M0(0) = µ +p βδ α2_{− β}2 Kλ+1 ³ δpα2_{− β}2´ Kλ ³ δpα2_{− β}2 ´ 2

(18)

Corolário 1.2 (Variˆancia da GHD) A distribui¸cão hiperbólica generalizada

tem a seguinte variˆancia: V ar[Y ] = δ2    Kλ+1(ρ) ρKλ(ρ) +β 2_δ2 ρ2  Kλ+2(ρ) Kλ(ρ) − Ã Kλ+1(ρ) Kλ(ρ) !₂     (1.7) onde ρ = δ√α2_{− β}2_. Prova: M00_{(t) = µM}0_(t)+(α2_−β2₎λ/2 Kλ(ρ) e µt ( µ µ Kλ ¡ δ√α2_−(β+t)2¢ (α2_−(β+t)2₎λ/2 ¶0 + δ µ (β+t)Kλ+1 ¡ δ√α2_−(β+t)2¢ (α2_−(β+t)2₎(λ+1)/2 ¶0) µ Kλ ¡ δ√α2_−(β+t)2¢ (α2_−(β+t)2₎λ/2 ¶0 = δ(β+t)Kλ+1(δ √ α2_−(β+t)2₎ (α2_−(β+t)2₎(λ+1)/2 µ (β+t)Kλ+1 ¡ δ√α2_−(β+t)2¢ (α2_−(β+t)2₎(λ+1)/2 ¶0 = Kλ+1 ¡ δ√α2_−(β+t)2¢ (α2_−(β+t)2₎(λ+1)/2 − (β+t)2_δK λ+2 ¡ δ√α2_−(β+t)2¢ (α2_−(β+t)2₎(λ+2)/2

Dessa forma, obtemos o 2o _{momento da distribui¸c˜ao:}

E[Y2] = M00(0) = µE[Y ] +pµδβKλ+1(ρ) α2_{− β}2_K_λ_(ρ)+ δKλ+1(ρ) p α2_{− β}2_K_λ_(ρ) + δ2_β2_K λ+2(ρ) (α2_{− β}2_)K λ(ρ)

V ar(Y ) = E[Y2] − (E[Y ])2 = ( µE[Y ] + pµδβKλ+1(ρ) α2_{− β}2_K_λ_(ρ)+ δKλ+1(ρ) p α2_{− β}2_K_λ_(ρ) + δ2_β2_K λ+2(ρ) (α2_{− β}2_)K λ(ρ) ) − ( µE[X] +pβδµKλ+1(ρ) α2_{− β}2_K_λ_(ρ) + β2_δ2_(K λ+1(ρ))2 (α2_{− β}2_)(K λ(ρ))2 ) = δ2 ( Kλ+1(ρ) ρKλ(ρ) + β2 α2_{− β}2 " Kλ+2(ρ) Kλ(ρ) − µ Kλ+1(ρ) Kλ(ρ) ¶₂#) 2

1.5 Sum´

ario da disserta¸c˜

ao

No cap´ıtulo 2, são apresentados os procedimentos de inferência sobre o mo-delo hiperbólico generalizado. Para isso, descreve-se alguma teoria para a

(19)

obten¸cão de estimadores de máxima verossimilhan¸ca e da priori de Jeffreys. Além disso, apresentamos alguns conceitos básicos relacionados a prioris não informativas.

No Cap´ıtulo 3, temos inferência em modelos t-Student, onde desenvolve-se a priori de Jeffreys para o modelo e apredesenvolve-senta-desenvolve-se um estudo simulado. O estudo simulado inclui uma análise frequentista de estimadores pontuais Bayesianos (média e mediana a posteriori) com objetivo de comparar esses estimadores com o estimador de máxima verossimilhan¸ca.

No cap´ıtulo 4, apresentamos análise de regressão utilizando erros t-Student. Neste cap´ıtulo é realizado um estudo simulado com o objetivo de comparar a priori desenvolvida com outras prioris propostas na literatura.

No Cap´ıtulo 5, é feita inferência em modelos hiperbólicos. Desenvolve-se a priori de Jeffreys para o modelo e apreDesenvolve-senta-Desenvolve-se aplica¸cões: uma utilizando dados gerados artificialmente e outra utilizando dados reais. São feitas com-para¸cões com estimadores de máxima verossimilhan¸ca obtidos por alguns métodos de maximiza¸cão.

No Cap´ıtulo 6, temos inferˆencia para o modelo geral. Desenvolve-se a priori de Jeffreys para o modelo e apresenta-se uma aplica¸c˜ao a dados gerados artificialmente.

No Cap´ıtulo 7, serão apresentadas as conclusões da disserta¸cão e algu-mas propostas para trabalhos futuros.

(20)

Cap´ıtulo 2

Inferˆ

encia

Neste cap´ıtulo abordamos a inferência sobre modelos hiperbólicos generaliza-dos. Como dito anteriormente, problemas são encontrados na estima¸cão dos parâmetros desse modelo. Os problemas são tanto numéricos como teóricos. Inicialmente mostra-se alguns problemas na obten¸cão de estimadores de máxima verossimilhan¸ca para o modelo hiperbólico generalizado. A seguir apresenta-se algumas questões relevantes no tratamento de dados utilizando este modelo sob o ponto de vista bayesiano.

2.1 Estima¸c˜

ao por M´

axima Verossimilhan¸ca

Defini¸c˜ao 2.1 Considere Y = (Y1, ..., Yn) independentes e identicamente

distribu´ıdos com densidade p(y|θ). O estimador de m´axima verossimilhan¸ca (EMV) de θ ´e o valor ˆθ ∈ Θ que maximiza L(θ; y) =Qn

(21)

Maximizar L(θ; y) é equivalente a maximizar l(θ; y) = log(L(θ; y)). O EMV é obtido encontrando os zeros das equa¸cões de verossimilhan¸ca que são dadas por ∂

∂θl(θ; y).

Considere Y1, ..., Ynobserva¸c˜oes independentes e identicamente

distribu´ı-das da GHD com parˆametros λ, α, β, δ e µ.

Defini¸c˜ao 2.2 A fun¸c˜ao log-verossimilhan¸ca para o modelo hiperb´olico

ge-neralizado ´e dada por:

l(λ, α, β, δ, µ; y) = n log(a(λ, α, β, δ, µ)) + (λ − 0.5) n X i=1 log(δ2+ (yi− µ)2) + n X i=1 log(Kλ−0.5 µ αqδ2_{+ (y} i− µ)2 ¶ + β n X i=1 (yi− µ) (2.1) onde λ, µ ∈ <, δ > 0 e |β| < α

As equa¸cões de verossimilhan¸ca são mostradas numa forma especial que será útil mais a frente.

Proposi¸c˜ao 2.1 (Equa¸c˜oes de verossimilhan¸ca) Defina kλ(x) = _∂λ∂ Kλ(x),

Rλ(x) = K_Kλ+1_λ_(x)(x). As equa¸c˜oes de verossimilhan¸ca para o modelo hiperb´olico

generalizado s˜ao dadas por:

∂ ∂λl = P_N i=1 n kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) − E h kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) io ∂ ∂αl = −α1 P_N i=1{ϑiRλ−0.5(ϑi) − E[ϑiRλ−0.5(ϑi)]} ∂ ∂βl = P_N i=1{yi− E[yi]} ∂ ∂δl = −α2δ P_N i=1 n 1 ϑi 1 Rλ−1.5(ϑi) − E h 1 ϑi 1 Rλ−1.5(ϑi) io ∂ ∂µl = α2 P_N i=1 n yi−µ ϑi 1 Rλ−1.5(ϑi) − E h yi−µ ϑi 1 Rλ−1.5(ϑi) io Onde ρ = δ√α2 _{− β}2_{, ϑ} i = α q δ2_{+ (y}

(22)

a propriedade: ln(Kλ(x))0 = _∂x∂ln(Kλ(x)) = λ_x− Rλ(x). As esperan¸cas acima

são calculadas na distribui¸cão dos dados e são dadas por: Ehkλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) i = kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) E[ϑiRλ−0.5(ϑi)] = α 2_δ2 ρ Rλ(ρ) − 1 E[yi] = βδ 2 ρ Rλ(ρ) + µ Eh1 ϑi 1 Rλ−1.5(ϑi) i = ρ α2_δ2 ³ Rλ(ρ) −_λ2 ´ Ehyi−µ ϑi 1 Rλ−1.5(ϑi) i = β α2 Prova:

Para obter as equa¸cões de verossimilhan¸ca basta derivar2.2, resultando em: ∂ ∂λl = P_N i=1 n kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) − ³ kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) ó ∂ ∂αl = − 1 α P_N i=1{ϑiRλ−0.5(ϑi) − ³ α2_δ2 ρ Rλ(ρ) − 1 ´ } ∂ ∂βl = P_N i=1 n yi− ³ βδ2 ρ Rλ(ρ) + µ ó ∂ ∂δl = −α2δ P_N i=1 n 1 ϑi 1 Rλ−1.5(ϑi) − ³ ρ α2_δ2 ³ Rλ(ρ) −_λ2 ´ó ∂ ∂µl = α2 P_N i=1 n yi−µ ϑi 1 Rλ−1.5(ϑi) − ³ β α2 ó Seja θ = (λ, α, β, δ, µ). Eh ∂ ∂θjl(θ) i = 0, j = 1, 2, ..., 5, prova em Migon e Gamerman. Então, E " ∂ ∂λl # = N X i=1 E "( kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) − Ã kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) !)# = N X i=1 E "( kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) # − N Ã kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) !) = NE "( kλ−0.5(ϑi) Kλ−0.5(ϑi) + ln(ϑi) # − N Ã kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) !) = 0

(23)

Logo, Ehnkλ−0.5(ϑi) Kλ−0.5(ϑi)+ ln(ϑi) i =³kλ(ρ) Kλ(ρ) − ln(ρ) + 2ln(αδ) ´o . Os

resul-tados para os outros parˆametros s˜ao obtidos analogamente. 2

Para β e µ os estimadores de máxima verossimilhan¸ca são obtidos di-retamente das equa¸cões de verossimilhan¸ca. Para os outros parâmetros, é necessário utilizar um método numérico de maximiza¸cão da verossimilhan¸ca perfilada. O fato da verossimilhan¸ca ter muitas dificuldades associadas torna dif´ıcil a obten¸cão de métodos de maximiza¸cão que tragam resultados satis-fatórios. Isso é exemplificado nas figuras (2.1) e (2.2), referentes a verossimi-lhan¸ca condicional1 _{para o modelo HG(1,2,0,1,2) e uma amostra de tamanho}

30.

Figura 2.1: Curva de contorno da verossimilhan¸ca condicional do modelo

GHD(λ, α, β, δ, µ) para λ, α = 2, β = 0, δ = 1, µ = 2 e N=30.

1_{A verossimilhan¸ca condicional ´e dada por: l(θ}k_|θ−k_{, y), onde θ}k _{´e um subvetor de θ e}

(24)

Figura 2.2: Curva de contorno da verossimilhan¸ca condicional do modelo

GHD(λ, α, β, δ, µ) para λ, α = 2, β = 0, δ = 1, µ = 2 e N=30.

Observa-se que para algumas combina¸cões dos parâmetros a verossimi-lhan¸ca condicional tende para uma constante diferente de zero, como por exemplo quando α → ∞ e δ → ∞. Isso acontece quando temos uma com-bina¸cão de parâmetros que leva a um modelo limite. No exemplo anterior,

para α → ∞, δ → ∞ e α

δ = σ2, temos como caso limite a distribui¸c˜ao

N(µ, σ2_{), como definido em (1.4). Isso acontece para muitas combina¸c˜oes}

(25)

Para esses casos, temos que l(θ∗_{) → c, onde θ}∗ _{´e um subconjunto do espa¸co}

dos parâmetros que implica num modelo limite. Neste contexto, um pro-cedimeto usual de maximiza¸cão da verossimilhan¸ca não levará a resultados adequados. Essas caracter´ısticas da verossimilhan¸ca sugerem que devemos procurar uma maneira de calibrar a informa¸cão obtida dos dados. Uma maneira de fazer isso é através da Análise Bayesiana que permite, através da distribui¸cão a priori, uma penaliza¸cão da fun¸cão de verossimilhan¸ca.

2.2 Inferˆ

encia Bayesiana

Após a atribui¸cão de um modelo para os dados em estudo, uma questão essencial envolve a especifica¸cão de densidades a priori para os parâmetros do modelo.

2.2.1 Distribui¸c˜

ao a priori

A distribui¸cão a priori representa o conhecimento a respeito do parâmetro de interesse antes de observar o conjunto de dados. A elicita¸cão de prioris é uma questão mais problemática pois envolve descrever cren¸cas por uma forma matemática. Existem algumas maneiras de atribuir distribui¸cões a priori tais como prioris subjetivas, conjugadas e não-informativas.

Se algum conhecimento a respeito de θ está dispon´ıvel isto pode ser usado para especificar a densidade a priori. Uma fam´ılia paramétrica de densidades pode ser definida. Deve-se ser bastante cuidadoso ao selecionar uma fam´ılia de distribui¸cões, pois ela deve realmente representar a informa¸cão dispon´ıvel. Por exemplo, não devemos atribuir probabilidade nula para um

(26)

evento se n˜ao temos certeza que ele ´e imposs´ıvel.

A atribui¸cão de prioris conjugadas é uma maneira de proceder uma análise Bayesiana simples (que não exige integra¸cões) porém pode não ser adequada em muitos casos.

Uma outra questão importante na atribui¸cão de distribui¸cões a priori é que em alguns casos é complicado a atribui¸cão de prioris subjetivas ou deseja-se encontrar uma maneira de repredeseja-sentar cren¸cas individuais de forma que essa informa¸cão seja m´ınima quando comparada com a informa¸cão fornecida pelos dados. Neste contexto, temos as distribui¸cões a priori não informativas ou de referência.

2.2.2 Prioris n˜

ao informativas

A idéia da utiliza¸cão de prioris não informativas é o desejo de fazer inferência estat´ıstica baseada no m´ınimo de informa¸cão subjetiva a priori quanto seja poss´ıvel. Uma outra justificativa é a expectativa de que as evidências vindas do experimento sejam mais fortes que a priori.

Inicialmente, prioris uniformes foram propostas neste contexto. Para Θ ⊂ <, p(θ) ∝ c significa que nenhum valor de θ é mais provável (Bayes, 1763). Mas algumas dificuldades são encontradas na utiliza¸cão desta priori. Por exemplo, esta priori é imprópria se o intervalo de defini¸cão do parâmetro for ilimitado e não é invariante a transforma¸cões um a um.

A classe de prioris não informativas propostas por Jeffreys (1961) é invariante a transforma¸cões um a um, mas tem a desvantagem de, em muitos casos, levar a prioris impróprias.

(27)

Defini¸c˜ao 2.3 (Priori de Jeffreys) Considere Y com fun¸c˜ao de

probabi-lidade (densidade) p(y|θ). A priori n˜ao informativa de Jeffreys ´e dada por: p(θ) ∝ |I(θ)|1/2_{, θ ∈ Θ ⊂ <}k _(2.2)

onde I(θ) ´e a medida de Informa¸c˜ao de Fisher esperada de θ em Y.

Entender e medir a informa¸cão contida nos dados é um aspecto muito importante na atividade estat´ıstica. A medida mais comum de informa¸cão é a medida de informa¸cão de Fisher.

Defini¸c˜ao 2.4 (Informa¸c˜ao de Fisher) Seja Y um vetor aleat´orio com

A medida de informa¸cão de Fisher definida dessa maneira está rela-cionada com o valor médio da curvatura da verossimilhan¸ca. Quanto maior essa curvatura, maior a informa¸cão contida na verossimilhan¸ca e maior será

I(θ). A informa¸c˜ao de Fisher observada ´e obtida quanto utilizamos a amostra

dispon´ıvel ao invés de tomar a esperan¸ca na distribui¸cão dos dados. Esta é uma medida local de informa¸cão enquanto a informa¸cão esperada é uma medida global.

Seja Y = (Y1, ..., Yn) uma cole¸cão de variáveis aleatórias independentes

com distribui¸c˜ao pi(y|θ). Seja I(θ) e Ii(θ) a medida de informa¸c˜ao de Fisher

em Y e Yi, respectivamente. Ent˜ao, I(θ) = n X i=1 Ii(θ) (2.4)

(28)

Defini¸c˜ao 2.5 (Fun¸c˜ao Escore) A fun¸c˜ao escore de Y, denotada por U(Y ; θ)

´e definida por:

U(Y ; θ) = ∂

∂θlog(p(y|θ))

Sob certas condi¸c˜oes de regularidade2_, I(θ) = EY |θ

h

U(Y ; θ)UT_{(Y ; θ)}i

2.2.3 Distribui¸c˜

ao a posteriori

Dada a verossimilhan¸ca l(θ; y) e uma distribui¸cão a priori para o vetor de parâmetros p(θ), para qualquer inferência paramétrica ou decisão a respeito de θ o passo inicial é a obten¸cão da densidade a posteriori que é definida por:

Defini¸c˜ao 2.6 (Distribui¸c˜ao a posteriori) A distribui¸c˜ao a posteriori de

θ ´e obtida utilizando o Teorema de Bayes, a verossimilhan¸ca l(θ; y) e a in-forma¸c˜ao a priori p(θ)

p(θ|y) = R l(θ; y)p(θ)

l(θ; y)p(θ)dθ (2.5)

E para obter informa¸cões sobre observa¸cões futuras x geradas pelo modelo paramétrico condicional a θ e y, o elemento fundamental é a densidade pre-ditiva dada por:

p(x|y) =

Z

p(x|θ)p(θ|y)dθ, x⊥y|θ

2_{As condi¸cões de regularidade são basicamente: (i) a diferencia¸cão da fun¸cão de}

verossimilhan¸ca pode ser feita em todo espa¸co do parâmetro; (ii) integra¸cão e diferen-cia¸cão podem ser trocadas. Para maiores detalhes veja Migon e Gamerman (1999).

(29)

Para obten¸cão de densidades a posteriori e preditivas é necessário integrar no dom´ınio de θ. E para obten¸cão de mais informa¸cões (momentos e quantis, por exemplo) é necessário um número ainda maior de integra¸cões. No caso em que θ é univariado o problema de integra¸cão tem, em geral, fácil solu¸cão. Mas no caso em que θ tem k componentes o problema de integra¸cão pode se tornar bastante complexo. Neste contexto, técnicas de aproxima¸cões de integrais são necessárias para implementa¸cão do método bayesiano. Uma técnica que facilita muito a inferência Bayesiana é a simula¸cão estocástica, particularmente, os Métodos de Monte Carlo via Cadeias de Markov.

2.2.4 M´

etodos de Monte Carlo

Um método bastante simples e de fácil implementa¸cão quando o espa¸co de parâmetros não possui muitas dimensões é o Método de Reamostragem Pon-derada.

M´etodo de reamostragem ponderada

Suponha que g(θ) seja a densidade da qual desejamos amostrar e que s´o sabemos avaliar p(θ), onde:

g(θ) = cp(θ), para c > 0

Passo1: Escolha uma proposta q(.) que cubra p(.) pelo menos nas caudas.

Passo2: Gera-se θ1, θ2, ..., θM ∼ q(.)

(30)

Passo4: Padroniza-se os pesos w∗

i = PMwi j=1wj

Passo5: Reamostra-se θ(1)_{, θ}(2)_{, ..., θ}(m) _{a partir de (θ}

1, θ2, ..., θM) com

probabilidades (w∗

1, w∗2, ..., wM∗ )

(θ(1)_{, θ}(2)_{, ..., θ}(m)_{) ´e uma amostra de g(θ). Observe que m pode ser}

diferente de M.

M´etodo de MCMC

• Algoritmo de Metropolis Hastings

O algoritmo de Metropolis Hastings se baseia em gera¸cões consecutivas de uma cadeia de Markov cuja distribui¸cão limite é a distribui¸cão de interesse,

φ(ω). Assumindo que ω(0) _{´e o valor inicial da cadeia de Markov, o algoritmo}

se desenvolve da seguinte forma:

I. No passo i, gera-se ωprop_{∼ q(.|ω}(i−1)₎

II. Posi¸c˜ao final da cadeia em i:

ω(i) _{← ω}prop _{com probabilidade α}

ω(i) _{← ω}(i−1) _{com probabilidade 1 − α}

onde α = min{1,φ(ω_φ(ωpropi−1_)q(ω)q(ωpropi−1|ω_|ωpropi−1₎)}

III. Repita I e II at´e a convergˆencia da cadeia.

• Algoritmo de Metropolis

(31)

Hastings quando a distribui¸cão proposta é centrada no valor do parâmetro na itera¸cão anterior.

• Amostrador de Gibbs

O algoritmo de Gibbs é obtido como caso particular do Metropolis Hast-ings quando a distribui¸cão proposta é a distribui¸cão condicional completa do parâmetro que está sendo gerado.

• Convergˆencia das cadeias geradas

A convergência da cadeia para a distribui¸cão limite ocorre quando o número de itera¸cões tende a infinito. Na prática, o valor gerado é conside-rado proveniente da distribui¸cão limite após um número (M0) suficientemente

grande de itera¸cões. Uma questão importante é quão grande deve ser M0.

Em geral, utilizam-se formas emp´ıricas de verifica¸cão da convergência que estudam as propriedades estat´ısticas das séries geradas. Entre as principais técnicas de verifica¸cão da convergência temos:

(i) Trajet´oria de uma cadeia

Se o gráfico da cadeia gerada após um per´ıodo inicial apresenta o mesmo comportamento qualitativo e quantitativo então há indica¸cão de con-vergência.

(ii) Cadeias m´ultiplas

Podemos utilizar várias cadeias inicializadas em valores diferentes. A convergência é obtida quando todas as cadeias tem o mesmo

(32)

comporta-mento qualitativo e quantitativo. Gelman e Rubin (1992) propõe um método baseado em análise de variância para verificar a similaridade entre as cadeias.

(iii) M´edias erg´odicas Definimos ¯θj = 1_j

P_j

i=1θ(j), para j = 1, 2, 3, .... A sequˆencia (¯θj)

con-verge quase que certamente para E[θ] quando j → ∞. Para mais detalhes veja Geman e Geman (1984). Na prática, podemos olhar o gráfico das médias ergódicas da cadeia gerada e observar em que ponto a cadeia apresenta um comportamento assintótico.

(iv) An´alise espectral

Utiliza técnicas de análise de séries temporais para verificar a con-vergência da cadeia. Geweke (1992) sugere uma estat´ıstica baseada na variância assintótica de estimadores para a média da cadeia gerada. A estat´ıstica pro-posta é comparada com valores da N(0,1).

(33)

Cap´ıtulo 3

Distribui¸c˜

ao t-Student

Como visto anteriormente, a distribui¸cão t-Student com η graus de liber-dade, parâmetro de loca¸cão µ e parâmetro de escala σ2 _{é obtida como um}

caso particular da GHD com α = β = 0, λ = −η₂ e δ = √ησ. Neste

cap´ıtulo, desenvolve-se a priori de Jeffreys para um caso mais simples, o caso t-St(η, 0, 1).

3.1 Priori de Jeffreys

Defini¸c˜ao 3.1 Uma quantidade aleatória Y é dita ter distribui¸cão t-Student

com η graus de liberdade, loca¸c˜ao µ e escala σ2 _{quando possui densidade}

p(y|η) = c(η, σ2₎ " η + µ_{y − µ} σ ¶₂#−(η+1)/2 , y ∈ < (3.1) onde c(η, σ2_{) =} Γ((η+1)/2)ηη/2 Γ(η/2)√πσ2

(34)

Sejam Y1, ..., Yn n replica¸cões independentes de uma variável aleatória

com fun¸cão de densidade (3.1), com µ = 0 e σ = 1. A nota¸cão utilizada é t-St(η) para a t-St(η, 0, 1).

Defini¸c˜ao 3.2 A fun¸c˜ao log-verossimilhan¸ca para o modelo t-St(η) ´e dada

por: l(η; y) = log ( Γ Ã (η + 1) 2 !) − log ½ Γ µ_η 2 ¶¾ +η 2log(η) − (η + 1) 2 log ³ η + y2´_, (3.2) onde η ∈ <+

As caudas da fun¸cão de verossimilhan¸ca associada ao modelo t-Student não tendem para zero quando η tende para infinito. Esse problema é e-xemplificado no gráfico (3.1) da verossimilhan¸ca para dois conjuntos de dados de tamanho 50 gerado da t-St(9) e t-St(20), respectivamente. A constante mostrada no gráfico é o produto da densidade normal padrão apresentada em (3.3) que decorre do modelo limite obtido quando η → ∞. Alguns problemas relacionados com a verossimilhan¸ca do modelo t-Student multivariado sob o ponto de vista Bayesiano são apresentados em Fernandez e Steel (1999). Em seu trabalho Fernandez e Steel utilizam inferência Bayesiana e reportam que métodos de estima¸cão tais como máxima verossimilhan¸ca e algoritmo EM podem convergir para máximos locais. Para uma análise clássica, sugere-se utiliza¸cão de métodos eficientes (Lehmann, 1983), verossimilhan¸ca agru-pada (Beckman e Johnson, 1987) e verossimilhan¸ca modificada (Cheng e Iles, 1987).

Note que para o primeiro caso dependendo de onde o algoritmo de maximiza¸cão da verossimilhan¸ca for inicializado este não convergirá para o

(35)

(a) Verossimilhan¸ca do modelo t-Student com η = 9 e valor da constante em (3.3).

(b) Verossimilhan¸ca do modelo t-Student com η = 20 e valor da constante em (3.3). Figura 3.1: Fun¸c˜ao de verossimilhan¸ca para uma amostra de tamanho 50

gerada da t-St(η).

máximo global. Para o segundo exemplo, não há um máximo, invibializando algoritmos de maximiza¸cão dessa fun¸cão.

Proposi¸c˜ao 3.1 Se a priori utilizada para η no modelo t-St(η) for impr´opria

(36)

Prova:

Sabemos que se y|λ ∼ N(0, λ−1_{) e λ ∼ Ga}³η

2,

η

2

´

ent˜ao, y ∼ t-St(η). Fazendo η → ∞, temos que a distribui¸c˜ao de λ se degenera no valor 1. Resultando em y ∼ N(0, 1). Dessa forma, lim inf η→∞ l(η; y) = c = n Y i=1 φ(yi), (3.3)

onde φ(.) ´e a densidade da normal padr˜ao.

Isso quer dizer que ∀² > 0 ∃b tal que η > b implica |l(η; y) − c| < ². Considere p(η) imprópria, isto é, R₀∞p(η)dη = ∞. Então, R_a∞p(η)dη = ∞, ∀a > 0.

Assim, R_a∞p(η)l(η; y)dη = R_aη∗p(η)l(η; y)dη + R_η∞∗ p(η)l(η; y)dη, onde

η∗ _{> b.} Mas ∞ = (c − ²)R_η∞∗ p(η)dη < R_∞ η∗ p(η)dη < (c + ²) R_∞ η∗ p(η)dη = ∞

Ent˜ao, R_η∞∗ p(η)l(η; y)dη = ∞ que implica

R_∞

a p(η)l(η; y)dη = ∞.

Re-sultando numa posteriori impr´opria. 2

Neste trabalho, propomos a utiliza¸cão da priori não informativa de Jeffreys, que leva em conta a curvatura da verossimilhan¸ca e utiliza essa informa¸cão para atribuir pesos aos valores de η.

Proposi¸c˜ao 3.2 A priori de Jeffreys associada ao modelo t-Student ´e dada

por: p(η) ∝ ( 2 h(η) − ψ(2) µ_{η + 1} 2 ¶ + ψ(2) µ_η 2 ¶ − 2 η )_1/2 (3.4) onde ψ(2)_{(z) =} d2

(37)

tomada na distribui¸c˜ao dos dados, definida por: h(η) = EY " 2 η + y2 − η + 1 (η + y2₎2 # = 2 η + 1 − η + 2 η(η + 3) (3.5) Prova:

Derivando duas vezes (3.2) obtemos:

N 4 ( ψ(2) µ η + 1 2 ¶ − ψ(2) µ η 2 ¶ + 2 η ) + 1 2 N X i=1 ( η + 1 (η + y2 i)2 − 2 η + y2 i )

Calculando esperan¸cas na distribui¸c˜ao dos dados (3.1):

Ey " 1 (η + y2₎k # = Z _∞ −∞c(η, 1)[η + y 2_]−(η+2k+1)/2_dy, onde c(η, 1) = Γ((η+1)/2)_Γ(η/2) ηη/2 √ π . Ent˜ao, Ey " 1 (η + y2₎k # = c(η, 1) c(η + 2k, η/(η + 2k)) Ã η η + 2k !_{−(η+2k+1)/2} , onde c(η + 2k, η/(η + 2k)) = Γ((η+2k+1)/2)_Γ(η+2k/2) (η+2k)√ (η+2k)/2 η/(η+2k)π . Simplificando obtemos: Ey " 1 (η + y2₎k # = Γ((η + 1)/2) Γ(η/2) Γ((η + 2k)/2) Γ((η + 2k + 1)/2) η −k Para k=1 Ey " 1 η + y2 # = 1 η + 1 Para k=2 Ey " 1 (η + y2₎2 # = (η + 2) (η + 3)(η + 1)η Resultando em EY " 2 η + y2 − η + 1 (η + y2₎2 # = 2 η + 1− η + 2 η(η + 3) 2

(38)

(a) Verossimilhan¸ca. (b) Priori. (c) Condicional completa. Figura 3.2: Fun¸c˜ao de verossimilhan¸ca, distribui¸c˜ao a priori e condicional completa para dados de tamanho N=50 gerados da t-St(15).

A figura (3.2) mostra a forma e o efeito da priori na forma da posteriori. A priori obtida deve ser própria, caso contrário a posteriori seria imprópria, como foi provado na proposi¸cão (3.1). Para mostrar que a priori obtida é própria basta que ela tenha a seguinte propriedade:

lim

η→∞p(η) = O(η

−k_{), para k > 1}

Proposi¸c˜ao 3.3 As caudas de p(η) s˜ao de ordem O(η−2_).

Prova:

A priori para η ´e dada por (3.4). Para provar o resultado basta mostrar que ψ(2)³η 2 ´ + ψ(2)³η+1 2 ´ + 4 η+1 −η2 − 2(η+2)

η(η+3) possui ordem O(η−4).

De Abramowitz e Stegun (1968) temos a f´ormula assint´otica:

ψ(2) µ_η 2 ¶ ∼ 2 η + 2 η2 + 4 3η3 + ∞ X k=2 B2k Ã 2 η !_2k+1 ψ(2) µ_{η + 1} 2 ¶ ∼ 2 η + 1+ 2 (η + 1)2 + 4 3(η + 1)3 + ∞ X k=2 B2k Ã 2 (η + 1) !_2k+1

(39)

ψ(2) µ_η 2 ¶ − ψ(2) µ_{η + 1} 2 ¶ + 4 η + 1− 2 η − 2(η + 2) η(η + 3) = 2A + B A = 1 η2 + 2 3η3 + 1 η + 1− 1 (η + 1)2 − 2 3(η + 1)3 − η + 2 η(η + 3) = 21η3_{+ 48η}2_{+ 29η + 6} 3η3_{(η + 1)}3_{(η + 3)} = O(η −4₎ B = ∞ X k=2 B2k22k+1 ( 1 η2k+1 − 1 (η + 1)2k+1 ) = ∞ X k=2 B2k22k+1 ( cη2k η2k+1_{(η + 1)}2k+1 + O(η 2k+1₎ ) = ∞ X k=2 B2k22k+1 n

O(η2(k+1)) + O(η2k+1)o= O(η−5)

Logo, 2A+B ´e de ordem O(η−4_{) que implica que p(η) tem caudas de}

ordem O(η−2_). ₂

3.2 Estudo simulado

Nesta se¸cão, são apresentados os resultados de um estudo de simula¸cão uti-lizando a priori de Jeffreys desenvolvida na se¸cão anterior. Foram gerados conjuntos de dados artificiais com distribui¸cão t-St(η) para diferentes va-lores de η (η = 1, 2, 4, 9, 15, 20). Foram utilizados também dois tamanhos amostrais (N = 50, 250) para verificarmos o efeito que o tamanho do con-junto de dados tem sobre a inferência.

(40)

As amostras a posteriori do parâmetro η foram obtidas através do pro-cedimento de reamostragem ponderada. Esse método foi utilizado por ser de simples implementa¸cão quando o problema de estima¸cão é univariado. A distribui¸cão proposta utilizada foi a U(0,500). As amostras geradas da distribui¸cão a posteriori de η possuem tamanho 10000. Para cada cenário (N, η) foram calculadas estimativas para as seguintes quantidades: média a posteriori (E[η|y]), desvio padrão a posteriori (SD[η|y]), mediana a posteri-ori (MED[η|y]) e quantis 0.025 e 0.975 a posteriposteri-ori. Além disso, obteve-se também o estimador de máxima verossimilhan¸ca (ˆη). Este foi obtido por

maximiza¸cão numérica através do método da bisseçcão que utiliza a primeira derivada e busca o máximo da fun¸cão num intervalo especificado (o intervalo utilizado foi (0.1,300)). A tabela (3.1) contém o sumário dessas informa¸cões. A figura (3.3) mostra uma amostra da posteriori de η obtida para dados de tamanho N=50 gerados da t-St(9).

Figura 3.3: Amostra da posteriori de η para dados de tamanho N=50 gerados da t-St(9), curva de densidade a posteriori exata e reta vertical em η = 9.

(41)

N η E[η|y] SD[η|y] MED[η|y] Q 0.025 Q 0.975 ηˆ 50 1 1.2952 0.3033 1.2650 0.7889 1.9802 1.2851 2 1.7893 0.5001 1.676 1.0996 2.8862 1.7593 4 7.3701 7.6216 5.4078 2.5506 24.8976 6.3406 9 21.6500 27.3702 10.7848 2.9567 116.8921 18.1636 15 27.5333 36.6484 14.7018 3.5757 149.3739 300.0000 20 37.5899 43.2721 20.6881 5.3216 177.2996 300.0000 250 1 0.9453 0.0815 0.9458 0.7938 1.0929 1.2379 2 2.5038 0.3167 2.4648 1.9764 3.2478 2.5263 4 3.9773 0.6442 3.7935 2.7904 5.3930 3.7839 9 10.5724 5.9506 9.1788 5.1037 23.9685 9.3655 15 16.6966 16.6067 12.8446 5.8470 52.7890 12.9609 20 20.7400 20.6897 14.9660 6.6600 78.6246 15.9342

Tabela 3.1: Estat´ısticas descritivas das amostras a posteriori para o Modelo t-Student(η) e estimadores de máxima verossimilhan¸ca para N=50 e N=250. A estimativa da mediana a posteriori está sempre bem próxima do valor verdadeiro de η quando N=50, enquanto o estimador de máxima verossim-ilhan¸ca tem um comportamento muito ruim, assumindo valores muito dis-tantes do valor verdadeiro do parâmetro. Para N=250, a estimativa da média a posteriori se comporta melhor que a estimativa da mediana a posteriori, a qual tem um comportamento similar ao estimador de máxima verossimil-han¸ca.

Observamos que para N=50 o estimador de m´axima verossimilhan¸ca obtido para η pode assumir o limite superior do intervalo de busca do es-timador quando η = 15, 20 indicando que este n˜ao assume um valor finito.

(42)

O que sugere que há uma probabilidade positiva do estimador de máxima verossimilhan¸ca ser infinito, que depende de η e do tamanho do conjunto de dados. Esse comportamanto do estimador de máxima verossimilhan¸ca se deve ao fato da verossimilhan¸ca de η possuir caudas muito pesadas que tendem para uma constante diferente de zero. Como foi exemplificado na figura (3.1). Ou seja, há uma probabilidade positiva do modelo selecionado pelo método de máxima verossimilhan¸ca ser o normal quando os dados foram gerados do modelo t-Student.

Com o objetivo de estudar as propriedades frequentistas de alguns es-timadores (média a posteriori, mediana a posteriori e estimador de máxima verossimilhan¸ca), repetiu-se o procedimento de estima¸cão para 500 conjuntos de dados. As amostras da distribui¸cão a posteriori de η possuem tamanho 1000. Os valores utilizados para η foram: 1, 2, 4, 9, 15, 18 e 20.

A tabela (3.2) apresenta a probabilidade estimada do estimador de m´axima verossimilhan¸ca ser infinito (P (ˆη = ∞)), que ´e obtida pela

pro-por¸cão de vezes que a estimativa de máxima verossimilhan¸ca encontrada pelo método de estima¸cão foi maior que 80 no intervalo de busca (0.1,300). São calculados o viés e o erro quadrático médio do estimador da média a posteriori, do estimador da mediana a posteriori e do estimador de máxima verossimilhan¸ca. Essas quantidades foram calculadas condicionais ao esti-mador de máxima verossimilhan¸ca ser finito. Os resultados são mostrados no gráfico (3.4). Para evitar o efeito da escala no gráfico, mostramos o módulo do viés dividido por η e a ra´ız quadrada do erro quadrático médio dividido por η. Na tabela (3.3) temos a cobertura frequentista do intervalo de 95% de credibilidade, que é calculada com base na propor¸cão de vezes que o valor verdadeiro do parâmetro caiu dentro do intervalo.

(43)

η 1 2 4 9 15 18 20

N=50 0.000 0.000 0.038 0.234 0.370 0.402 0.434

N=250 0.000 0.000 0.000 0.014 0.114 0.150 0.196 Tabela 3.2: P (ˆη = ∞) para N=50 e N=250 para diferentes valores de η.

Podemos observar que há uma probabilidade bastante alta do estimador de máxima verossimilhan¸ca não assumir um valor finito quando N = 50 já para η igual a 4. Por exemplo, temos uma probabilidade de aproximadamente 23% que o modelo selecionado para os dados por máxima verossimilhan¸ca seja o normal quando os dados forem gerados de uma t-St(9). Já para N=250, essa probabilidade só é razoavelmente grande para η = 15.

η 1 2 4 9 15 18 20

N=50 0.92 0.94 0.96 0.96 0.98 0.98 0.97

N=250 0.96 0.96 0.95 0.95 0.96 0.98 0.97

Tabela 3.3: cobertura frequentista do intervalo de 95% de credibilidade para N=50 e N=250.

A cobertura a posteriori obtida é aproximadamente a esperada, indi-cando que a análise Bayesiana usando a priori proposta é bastante adequada para o modelo t-Student.

A média e a mediana a posteriori tem erro quadrático médio bem menor que o estimador de máxima verossimilhan¸ca. Entre esses dois estimadores, a mediana quase sempres possui viés menor exceto para η ≥ 15 (N=50) e

η = 20 (N=250). Conclu´ımos que a mediana a posteriori deve ser utilizada

(44)

(a) Vi´es para N=50. (b) EQM para N=50.

(c) Vi´es para N=250. (d) EQM para N=250.

Figura 3.4: Viés e erro quadrático médio condicionais para η = 1, 2, 4, 9, 15, 20 e N=50,250.

(45)

Cap´ıtulo 4

Modelos de Regress˜

ao

t-Student

Um importante aspecto na análise de regressão é o uso de distribui¸cões não gaussianas para a componente de erro. Em alguns casos, é necessário a utiliza¸cão de distribui¸cões com caudas mais pesadas como a t-Student. O primeiro trabalho nessa área é o de Zellner (1976), no qual examina-se as consequências de adotarmos a distribui¸cão t-Student multivariada em subs-titui¸cão a normal multivariada. Extensões são consideradas em Osiewalski e Steel (1993). Uma análise Bayesiana foi desenvolvida em Geweke (1993), onde reporta-se que uma análise não informativa pode ser complicada e por esse motivo utiliza-se apenas prioris próprias para os graus de liber-dade. Branco et al (1998) aconselham a utiliza¸cão de prioris próprias para os parâmetros do modelo, caso contrário a posteriori encontrada pode não ser própria. Neste trabalho, utilizamos análise Bayesiana não-informativa de Jeffreys para fazer inferência sobre modelos lineares cuja componente de erro

(46)

são variáveis aleatórias independentes e com distribui¸cão t-Student. A dis-tribui¸cão t-Student é um caso particular da GHD como mostrado em (3.1). Neste cap´ıtulo tratamos do modelo t-St(η, µ, σ2_{), onde µ pode ser fun¸cão de}

regressores.

4.1 Priori de Jeffreys

Considere observa¸c˜oes (x, y) onde x = (x1, . . . , xN)T ´e uma matriz N × k de

k covari´aveis e y = (y1, . . . , yN)T ´e um vetor N × 1.

Condicional aos x0

is, os yi0s s˜ao independentes e possuem distribui¸c˜ao

yi|x ∼t-St(η, xTi β, σ2), onde β = (β1, . . . , βk) ´e um vetor k × 1 de coeficientes,

η é o parâmetro dos graus de liberdade e σ2 _{é o parâmetro de escala. Todos}

os parˆametros s˜ao considerados desconhecidos.

Defini¸c˜ao 4.1 A fun¸c˜ao log-verossimilhan¸ca para o modelo t-St(η, xT i β, σ2)

´e dada por:

l(η, β, σ2_{; y) = N} ½ ψ µ_{η + 1} 2 ¶ − ψ µ_η 2 ¶ + η 2 log(η) − log(σ) ¾ − η + 1 2 N X i=1 log  _{η +} Ã y − xT_β σ !₂ _, onde ψ(x) = log(Γ(x)), η, σ2 _{∈ <} + e β ∈ Rk.

A verossimilhan¸ca apresenta problemas análogos aos citados no cap´ıtulo 3. A figura (4.1) ilustra alguns dos problemas. Observamos que para η × σ a verossimilhan¸ca condicional não possui uma moda, o que torna a estima¸cão por máxima verossimilhan¸ca inviável. Zellner (1976) mostra que se os graus

(47)

de liberdade são considerados desconhecidos o método de máxima verossi-milhan¸ca não deve ser utilizado. Singh (1988) sugere a utiliza¸cão do método dos momentos nesse caso.

(a) Verossimilhan¸ca para η e β0. (b) Verossimilhan¸ca para η e β1.

(c) Verossimilhan¸ca para η e σ. (d) Verossimilhan¸ca para β0 e β1.

(e) Verossimilhan¸ca para β0 e σ. (f) Verossimilhan¸ca para β1 e σ.

Figura 4.1: Fun¸c˜ao de verossimilhan¸ca condicional para uma amostra de tamanho 30 gerada da t-St(η,xT_β,σ2_{), onde η = 4, β = (2, 1)}T _{e σ = 1.5. X}

1

(48)

Sugerimos a utiliza¸cão da priori não informativa de Jeffreys para o modelo. Para isso encontramos a matriz de informa¸cão de Fisher através da 2a _{derivada da fun¸cão log-verossimilhan¸ca.}

Proposi¸c˜ao 4.1 A matriz de informa¸c˜ao de Fisher para θ = (η, σ2_{, µ) no}

modelo de regress˜ao t-Student ´e dada por:

       A1 . . A2 A3 . 0 0 A4        A1 = N 4 ( 2 " 2 η + 1 − η + 2 η(η + 3) # − ψ(2) µ_{η + 1} 2 ¶ + ψ(2) µ_η 2 ¶ − 2 η ) A2 = − 2N σ 1 (η + 1)(η + 3) A3 = 2N σ2 η η + 3 A4 = η + 1 σ2_{(η + 3)} N X i=1 XiXiT

Note que A1, A2 e A3 s˜ao escalares enquanto A4 ´e uma matriz k × k.

Assim, 0 é k × 1 e M é bloco diagonal com dimensão (k + 2) × (k + 2). Prova:

(i) X ∼ t − St(η, 0, 1) ⇒ E[Xk_{] = 0 se k ´ımpar e E[X}k_{] =} ηkΓ(12+k)Γ(

η

2−k)

Γ(1₂)Γ(η₂) se

k para; Para maiores detalhes veja Wilks (1963) pp 185.

(ii) Y = µ + σX ⇒ Y ∼ t − St(η, µ, σ2_{) e E[Y}k_{] = 0 se k ´ımpar e E[Y}k_{] =}

(49)

(iii) Ey (· η +³y−µ_σ ´2 ¸_−k) = Γ((η+1)/2)_Γ(η/2) _{Γ((η+2k+1)/2)}Γ((η+2k)/2) η−k Considere c(η, σ2_{) =} Γ((η+1)/2)ηη/2 Γ(η/2)√πσ2 como na defini¸c˜ao (3.1). Ey    " η + µ y − µ σ ¶2#−k  = Z ∞ −∞ c(η, 1) " η + µ y − µ σ ¶2#−(η+2k+1)/2 dy = c(η, 1) c(η + 2k, η/(η + 2k)) µ η η + 2k ¶−(η+2k+1)/2 = Γ((η + 1)/2) Γ(η/2) Γ((η + 2k)/2) Γ((η + 2k + 1)/2) η −k Para k=1 Ey h 1 η+y2 i = 1 η+1 e para k=2 Ey h 1 (η+y2₎2 i = _{(η+3)(η+1)η}(η+2) . (iv) Ey ( (y − µ)q · η +³y−µ_σ ´2 ¸₋₁) = 1 η+1Ey[(y−µ)q], y ∼ t−St ³ η + 2, µ, σ2 η η+2 ´ Ey   (y − µ) q " η + µ y − µ σ ¶2#−1  = Z _∞ −∞ (y − µ)qc(η, 1) " η + µ y − µ σ ¶2#−(η+2+1)/2 dy = c(η, 1) c(η + 2, η/(η + 2)) µ η η + 2 ¶−(η+2+1)/2 Ey[(y − µ)q] = 1 η + 1Ey[(y − µ) q_{], y ∼ t − St} µ η + 2, µ, σ2 η η + 2 ¶ (v) Ey ( (y − µ)q · η +³y−µ σ ´₂¸−2) = η+2 η(η+1)(η+3)Ey[(y−µ)q], y ∼ t−St ³ η + 4, µ, σ2 η η+4 ´ Ey   (y − µ) q " η + µ y − µ σ ¶2#−2  = Z ∞ −∞ (y − µ)q_{c(η, 1)} " η + µ y − µ σ ¶2#−(η+4+1)/2 dy = c(η, 1) c(η + 4, η/(η + 4)) µ η η + 4 ¶−(η+4+1)/2 Ey[(y − µ)q] = (η + 2) (η + 3)(η + 1)ηEy[(y − µ) q_{], y ∼ t − St} µ η + 4, µ, σ2 η η + 4 ¶