Capítulo 3
Curva de Correlação
3 . 1 C u r v a d e C o r r e l a ç ã o C r u z a d a C o n t e m p o r â n e a 3 . 1 . 1 I n t r o d u ç ã oConsidere {(Xt,Yt), t∈Z} um processo estacionário estrito com Xt a valores contínuos, tal que Xt e t
Y possuem segundos momentos finitos e valores em S. Sejam
] / [ ) (x EY X x m = t t = , ] / [ ) ( 2 x VarY X x t t = = σ ,
respectivamente, a esperança e a variância condicional de Yt dado que Xt =x, com x∈S, as quais estão bem definidas. Como em geral a função m(x) não é necessariamente linear e a variância condicional σ2(x) não é necessariamente homoscedástica, iremos considerar o modelo
t t t
t m X X
Y = ( )+σ( )ε , com εt ~ iid(0,1) e εt ⊥Xs, s< , t (3.1) sendo m(.) o “drift” e σ(.) a “volatilidade” (Fan e Yao, 1998).
Vejamos então como fica a expressão da curva de correlação (1.2).
Como o processo é estacionário estrito, então a distribuição de (Xt,Yt)é invariante sob translações do tempo, portanto, f / (y/x)
t t X
Y (com fXt(x)>0) e fXt(x) são invariantes no tempo, ∀ ,x y∈S. Então, ] / [ / ) (x =∂ ∂x EYt Xt =x β =∂/∂x
∫
yfYt/Xt(y/x)dy , σ2(x)=Var[Yt /Xt =x] =∫
y− f y x dy t t X Y Y) ( / ) ( µ 2 / e = 0γ Var[Xt] são invariantes no tempo.
Então, a curva de correlação (1.2) pode ser escrita como
) ( ) ( ) ( ) ( 2 0 0 2 0 0 0 0 x x x x
σ
γ
β
γ
β
ρ
+ = , ∀x∈S com f(x)>0, ∀t∈ Z , (3.2)em que β0(x)=β(x) e
σ
02(x)=σ
2(x) são como acima, e f(x) f (x) t X= .
Denominamos (3.2) de curva de correlação cruzada contemporânea.
3 . 1 . 2 P r o p r i e d a d e s
Para o processo em estudo, a curva de correlação cruzada contemporânea (3.2) satisfaz às seguintes propriedades:
prova:
Se Yt =g(Xt), então a variância condicional é nula (veja a propriedade (iii) a seguir), e
)) ´( ( sinal 1 ) ( 0 x = × g x
ρ . Caso contrário, −1<ρ0(x)<+1, que pode ser observado diretamente da expressão de
) ( 0 x
ρ reescrita como ρ0(x)= β02(x)γ0/(β02(x)γ0+σ02(x)).
(ii) ρ0(x)=0, ∀x∈S, se Xt e Yt são independentes, com σ02(x)>0;
prova:
Se Xt e Yt são independentes, então β0(x)=∂∂xE[Yt/Xt =x]=∂∂xE[Yt]=0, portanto, ρ0(x)=0.
(iii) ρ0(x)≡±1, ∀x∈S, se Yt =g(Xt); prova:
Suponha que Yt =g(Xt). Então, E[Yt/Xt =x]=E[g(Xt)/Xt =x]=g(x) e Var[Yt /Xt = ]x = 0 ] / ) ( [g X X = x = Var t t . Portanto, 1 ) ( ) ( ) ( 0 2 0 0 =± ′ ′ = γ γ ρ x g x g
x para g ′(x) e γ não nulos, sendo 0 ρ0(x)=1
quando g′ x( )>0, e ρ0(x)=−1 quando g′ x( )<0. Para g′ x( )=0, iremos considerar 0/0=1.
(iv) ρ0(x)=±1 para quase todo x, implica que Yt =g(x); prova:
Se ρ0(x)=±1 para quase todo x, então σ02(x)=0, que implica em Yt =g(x) para quase todo x, para alguma função g. (v) Ut =a+bXt e Vt =c+dYt com bd≠0, então ) ( ) ( sinal ) (u bd x t t t tV XY U ρ ρ = , ∀u∈S em que b a u x= − . Notação: (x) t tY X
ρ indica ρ0(x) para (Xt,Yt) com o condicionamento Yt /Xt =x; prova: Imediata. (vi) (x) (x) t t t tY Y X X ρ ρ ≠ , x∈S, t∈Z , de modo geral; prova: Imediata.
(vii) ρ0(x)=ρXY , ∀x∈S no caso normal bivariado. prova: Se (Xt,Yt)~N2, então Yt /Xt =x ~N (µY +γXY(x−µX)/γ0 , σY2(1−ρ2XY )) e ρXY =γXY / γ0σY. Portanto, = = = ∂ ∂ = 0 0( ) [ / ] γ γ β XY t t X x Y E x x 0 γ σ ρ Y XY . Então,
XY XY Y Y XY Y XY x x x x ρ ρ σ γ γ σ ρ γ γ σ ρ σ γ β γ β ρ = − + = + = ) 1 ( ) ( ) ( ) ( ) ( 2 2 0 0 2 0 0 2 0 0 2 0 0 0 0 .
Observamos que um modelo MGARCH(r,s) bivariado possui esperança condicional nula, implicando em coeficiente angular local nulo e, portanto, em curva de correlação cruzada contemporânea nula. Já os modelos VAR(p,q)-MGARCH(r,s) possuem o termo de esperança condicional resultando em correlação local não nula, de modo geral.
3 . 1 . 3 E s t i m a d o r
Modelos não lineares para séries temporais podem ser estimados por meio de uma abordagem não paramétrica. O ajuste polinomial local é uma técnica de regressão não paramétrica conveniente para estimar a k-ésima derivada m(k)(x) da função de regressão m(x)=E[Yt /Xt =x]. A forma da função m(.) não é conhecida, porém, precisamos supor que ela tenha um certo grau de suavidade, ou seja, m(x) possui um certo número de derivadas no ponto x0. Além disso, considerando o enfoque local, um ponto distante de x0
fornece pouca informação sobre m(x). Então, supondo que m(x) tenha p+1 derivadas no ponto x0, a
expansão de Taylor para x numa vizinhança local de x0, é dada por
} ) {( ! ) ( ) ( ! 2 ) ( ) ( ) )( ( ) ( ) ( ( ) 0 0 0 1 2 0 0 ) 2 ( 0 0 ) 1 ( 0 ) 0 ( + − + − + + − + − + = p p O x x p p x x x m x x x m x x x m x m x m K .
Em termos de modelagem estatística, localmente ao redor de x0, m(x) é modelada como
∑
= − ≈ p k k k x x x m 0 ( 0) ) ( αcom αk =m(k)(x0)/k!. Então, observados {(Xt,Yt), t=1,K,T}, este modelo é ajustado utilizando-se o método de mínimos quadrados ponderados, minimizando-se
∑
=∑
= − − − T t h t p k k t k t X x K X x Y T 1 0 2 0α ( 0) ( )em que K é uma função kernel e hT é a largura de faixa que controla o tamanho da vizinhança local. A solução deste método é dada por αˆk =mˆ(k)(x0)/k!, ou seja, mˆ(k)(x0)=αˆk×k!, k=0 K, ,p.
Utilizando a notação matricial, temos a seguinte representação:
) ( ( min y Xα) Wy Xα α − ′ − , em que = T Y Y M 1 y , − − − − = p T T p x X x X x X x X ) ( ) ( 1 ) ( ) ( 1 0 0 0 1 0 1 K M M M K X , α=(α0,K,αp)′ , )} ( {K X x0 diag hT t− =
W : matriz diagonal (T×T) de pesos,
Vejamos como estimar a derivada (de ordem k=1) da esperança condicional, β(x0), com x0∈G, sendo G o conjunto dos pontos de uma grade (univariada). Considerando um kernel K1 e uma largura de faixa h1=hˆT(X1,K,XT;Y1,K,YT), ajustamos um polinômio de grau p=2 (p= k+1 - mais detalhes no final desta seção), ou seja, minimizamos
− − − − − −
∑
=1 1 1 1 0 2 2 0 0 ) 2 ( 0 0 ) 1 ( 0 ) 0 ( 1 2 ) ( ) ( ) )( ( ) ( h x X K h x X x m x X x m x m Y t T t t t t , e, então, βˆ(x0)=mˆ(1)(x0).Agora, vejamos como estimar a variância condicional σ2(x0). Sabemos que σ2(x) pode ser escrita como Var[Yt /Xt =x]=E[Yt2/Xt =x]−E2[Yt /Xt =x], que naturalmente motiva o estimador
2 0 0 2/ ] (ˆ[ / ]) [ ˆY X x EY X x
E t t = − t t = . Mas, segundo Fan e Yao (1998) este estimador nem sempre é não
negativo, principalmente quando diferentes larguras de faixa são utilizadas para estimar cada uma das componentes. Então, tanto Bjerve e Doksum (1993) quanto Fan e Yao (2005), dentre outros, utilizam um estimador com base em resíduos ao quadrado, ou seja, σˆ2(x0)=Eˆ[rˆt2/Xt =x0]= Eˆ[{Yt−mˆ(Xt)}2/Xt =x0]
(veja detalhes a seguir). Pode-se mostrar que este estimador é completamente adaptativo em regressão, isto é, sem conhecer m(.), podemos estimar assintoticamente a variância condicional σ2(.) tão bem quanto se m(.)
fosse conhecida. De fato, pode-se provar que E[rt2/Xt]≈σ2(Xt) (veja Fan e Yao, 2005 – página 375). Então, para estimarmos σ2(x0)=E[{Yt −m(Xt)}2/Xt =x0], inicialmente calculamos mˆ(Xt), t=1 K, ,T, usando a largura de faixa h1 dada anteriormente, e então calculamos rˆt2=(Yt−mˆ(Xt ))2, t=1 K, ,T . Por fim, obtemos σˆ2(x0) através da minimização do seguinte polinômio linear, o qual utiliza um kernel K2 e uma
nova largura de faixa h2=hˆT(X1,K,XT;rˆ12,K,rˆT2):
∑
= − − − − T t t t t h x X K h x X x m x m r 1 2 0 2 2 2 0 0 ) 1 ( 0 ) 0 ( 2 ( ) ( )( )} 1 ˆ { . Então, σˆ2(x0)=mˆ(0)(x0).Neste algorítmo, o método de seleção da largura de faixa é flexível.
Portanto, observados {(Xt,Yt), t=1,K,T}, a estimação da curva de correlação cruzada contemporânea (3.2) pode ser feita através do seguinte estimador:
) ( ˆ ) ( ˆ ) ( ˆ ) ( ˆ 2 0 0 2 0 0 0 0 x c x c x x
σ
β
β
ρ
+ = , (3.3) em que∑
= − = = T t Xt X T c 1 2 0 0 γˆ 1 ( ) , ) ( ˆ ) ( ˆ (1) 0 x =m xβ utilizando um polinômio quadrático local com kernel K1, largura de faixa h1 e o
) ( ˆ ) ( ˆ02 x =m(0) x
σ
utilizando um polinômio linear local, um kernel K2, uma largura de faixa h2 e oconjunto de dados {(Xt,rˆt2), t=1,...,T}, sendo rˆt =Yt −mˆ(Xt) com mˆ(Xt) sendo previsto após o ajuste de um polinômio linear local nos pontos de grade x∈G, que utiliza o kernel K1, a largura de faixa h1 e o conjunto de dados {(Xt,Yt), t=1,K,T}.
Vejamos algumas considerações referentes à implementação do estimador polinomial local.
Precisamos escolher a largura de faixa hT, o kernel K e a ordem p do polinômio, sendo que estes parâmetros são naturalmente relacionados entre si.
A largura de faixa hT controla a complexidade do ajuste polinomial local (quando hT =∞, este ajuste
torna-se um ajuste polinomial global). Para seqüências estacionárias de dados sob certas condições mixing, a suavização no domínio do espaço apresenta desempenho similar à regressão não paramétrica para dados independentes. Aqui, a largura de faixa pode ser escolhida, por exemplo, através dos seguintes critérios: validação cruzada, método de substituição pré-assintótico de Fan e Gijbels (1995) e método de substituição assintótico de Ruppert et al. (1995).
Quanto ao kernel, é mostrado por Fan et al. (1996) que, para todas as escolhas de p e k, o kernel ótimo é o de Epanechnikov e, como mostrado em Fan e Yao (2005, §5.5), outros kernels têm aproximadamente a mesma eficiência para uso prático de p e k. Portanto, esta escolha não é crítica.
Finalmente, a ordem do polinômio p= k+1 é recomendada por Fan e Gijbels (1996), com base em considerações teóricas e práticas. Portanto, se o objetivo principal é estimar a função de regressão m(x), optamos pelo ajuste linear local, se o objetivo é estimar m(1)(x), o ajuste quadrático local é o recomendado, e assim sucessivamente.
3 . 1 . 4 C o n s i s t ê n c i a d o e s t i m a d o r
Sejam as seguintes condições de regularidade:
(C1)
∑
+∞ −∞ = − + = j j t j t e X µ α , em que et ~iid(0,σ2), [ 4]=ησ4 t e E ,∑
+∞ −∞ = <∞ j |αj| e∑
+∞ −∞ = <∞ k |γk | ; (C2) O kernel K1 é uma função limitada e com suporte limitado;(C3) h1=O{T−1/(2p+3)}, sendo p a ordem do polinômio;
(C4) A densidade condicional ≤ <∞ + + / , 1 2 1 2 1 , (x ,x /y,y ) A f k t t k t t X Y Y X , ∀ t∈ Z , ∀k≥1; (C5) Para processos ρ-mixing é suposto que
∑
<∞k kρ e [ ]<∞ 2 t
Y
E , ∀ t∈ Z . Para processos α-mixing é
suposto que
∑
− <∞ k a k k [α( )]1 2/λ , | |λ<∞ t Y E e f / (x/y)≤A2 <∞ t t Y X , para algum λ>2 e λ / 2 1− > a , ∀ t∈ Z ;(C6) Para processos ρ-mixing e α-mixing é suposto, respectivamente, que (T/h1)1/2ρ(sT)→0 e
0 ) ( ) /
(C7)σ02(.) e f(.) são contínuas no ponto x, e f(x)>0;
(C8) Para um dado ponto x, f(x)>0, σ02(x)>0 e as funções E[Ytk/Xt =x], ∀ t∈ Z , são contínuas em x para k=3,4. Além disso, m&&(z)≡∂2m(z)/∂z2 e σ&&02(z)≡∂2{σ02(z)}/∂z2 são uniformemente contínuas num conjunto aberto contendo o ponto x;
(C9) E[Yt4(1+δ)]<∞, ∀ t∈ Z , em que δ∈[0,1) é uma constante ;
(C10) As funções kernels K1 e K2 são funções densidades simétricas, cada uma com suporte limitado. Mais ainda, |K1(x1)−K1(x2)|≤c|x1−x2|, |K2(x1)−K2(x2)|≤c|x1−x2|, e também | | | ) ( ) ( |f x1 − f x2 ≤c x1−x2 para x1,x2∈R;
(C11) O processo (Xt,Yt) é absolutamente regular, isto é
0 } | ] [ ] / [ | sup { sup ) ( 1 1 → − ≡ ∞ + ∈ ≥ E P A P A k i A i Fi k F β , conforme k→∞,
em que Fuv é a σ-álgebra gerada por {(Xt,Yt):t=u,K,v} (v≥u). Mais ainda, para o mesmo δ da condição (C9),
∑
∞ = + <∞ 1 ) 1 /( 2 ( ) k k k δ δ β . Convenção: 00 =0;(C12) Conforme T→∞, hi →0 e liminfThi4 >0, i=1,2.
Teorema 3.1. Considere um processo {(Xt,Yt), t∈ Z} estritamente estacionário, com Xt e Yt possuindo
segundos momentos finitos, e com Xt a valores contínuos. Satisfeitas as condições (C1) a (C12), temos que
) ( ) ( ˆ 0 T 0 x P
ρ
xρ
∞ → → , para cada x∈S fixado.
prova:
Por (C1) e pelo Teorema 6.2.2 de Fuller (1976), cτ é consistente para γ , portanto, τ 0 γ0 ∞ → → T P c .
Agora, vamos verificar a convergência de βˆ0(x). Pelo Teorema 6.3 de Fan e Yao (2005), temos que sob as condições de regularidade (C2) a (C7), para T →∞,
→ + − −
∫
+ + + −∫
+ ) ( ) ( ) ( ) ! ( , 0 )! 1 ( ) ( ! ) ( ) ( ) ( ˆ 2 2 0 2 1 1 ) 1 ( 1 ) ( ) ( 1 2 1 * * x f du u K x v N h p x m v du u K u x m x m Th v v v p v p p v D v σ , com K*(u) T 1 1(1,u, ,up)TK(u) vv =e + S− K , sendo ev+1 o vetor unitário com 1 na (v+1)-ésima posição e S uma matriz (p+1)×(p+1) cujo elemento ( ji, ) é
∫
+∞∞ − − + − +j = ui j K u du i 2 2 ( ) µ . E quando T→∞, h1p+ v1− →0.
Portanto, utilizando o Teorema 2.3.4. de Lehmann (1999), temos que mˆ(1)(x) m(1)(x) T P ∞ → → , ou seja, ) ( ) ( ˆ0 x 0 x T P β β ∞ → → .
Satisfeitas as condições de regularidade (C8) a (C12), o Teorema 8.5 de Fan e Yao (2005) é válido, ou seja, para T→∞,
→ − −
∫
K u du x f x x N x x Th T D ( ) ) ( ) ( ) ( , 0 ) ) ( ) ( ˆ ( 22 2 4 0 2 0 2 0 2 λ σ θ σ σ , com θT =(h22/2)σ&&02(x)∫
u2K2(u)du+o(h12+h22), λ2(x)=E[(et2−1)2/Xt =x] e et =(Yt−m(Xt))/σ0(Xt). Como para T→∞, h22→0, novamente pelo Teorema 2.3.4. de Lehmann (1999), temos que) ( ) ( ˆ02 x 02 x T P σ σ ∞ → → .
Considere θˆ=(βˆ0(x),σˆ02(x),c0)′=(θˆ1,θˆ2,θˆ3)′ e θ=(β0(x),σ02(x),γ0)′=(θ1,θ2,θ3)′. Verificamos, para cada x∈S com f(x)>0, que θˆj →P θj, j=1,2,3, com hi →0 e liminfThi4 >0, i=1,2, conforme
∞ →
T . Portanto, usando o Lema 5.1.3 e o Teorema 5.1.4 de Fuller (1976), temos que ρˆ0(x)→P ρ0(x), conforme T→∞, para cada x∈S fixado.
Fan e Yao (2005, página 395) observam que as condições dos suportes de K1(.) e K2(.) serem limitados, facilitam as provas dos teoremas. Na prática, o kernel Gaussiano pode ser utilizado. Além disso, a suposição sobre a taxa de convergência de β(k) é para conveniência técnica, sendo que o resultado também pode ser estabelecido para outros tipos de coeficientes mixing. Finalmente, as taxas de convergência de h1 e
2
h da condição (C12) não são as menores possíveis.
3 . 1 . 5 S i m u l a ç õ e s
O comportamento da curva de correlação cruzada contemporânea foi avaliado considerando-se se um modelo VAR(1)-MGARCH(1,1) estacionário dado por
t t t Φ Φ Z ε
Z = 0+ 1 −1+ ,
em que Zt =(Xt,Yt)′, Φ0 =(1,1)′, vec(Φ1)=(0,25;0,2;0,2;0,75)′ e εt =(ε1t,ε2t)′, que representado na forma BEKK é tal que εt =∑1t/2vt com ∑t =C′C+A′εt−1εt′−1A+B′∑t−1B em que vec(C)=(0,34;0,17;0 ;0,23)′,
) 4 , 0 ; 1 , 0 ; 1 , 0 ; 5 , 0 ( ) (A = ′
vec e vec(B)=(0,35;0,22;0,22;0,12)′, e vt é uma seqüência bidimensional normal padrão. Consideramos 200 réplicas de Monte Carlo com diferentes tamanhos de séries (100, 200 e 500), grade com 199 pontos, 90% dos dados centrais, kernel Gaussiano e largura de faixa igual ótima de Ruppert et al. (1995).
Para a simulação com 200 séries de tamanho 500, obtivemos a estimação da curva de correlação cruzada contemporânea média. O comportamento desta apresenta-se na Figura 3.1 a qual indica um decréscimo da correlação local entre os pontos de grade 4 e 6, aproximadamente. Na Tabela 3.1 temos a variância do estimador em relação à curva média, e o p-valor do teste de normalidade de Jarque Bera que não rejeitou a normalidade do estimador para três pontos de grade avaliados. Na Figura 3.2 vemos os histogramas das estimativas calculadas.
No Apêndice C (Figura C.1), temos os resultados das simulações também para séries de tamanho 100 e 200. Comparando as três simulações, vemos que a variância diminui com o aumento do tamanho da série, e a rejeição da normalidade diminui da amostra menor para a amostra maior.
Figura 3.1 – Curva de correlação cruzada contemporânea estimada, utilizando 200 séries de tamanho 500, observadas de um modelo VAR(1)-MGARCH(1,1).
Tabela 3.1 – Variância e p-valor do teste de normalidade de Jarque Bera de ρˆ0(x), considerando 200 séries de tamanho 500, observadas de um modelo VAR(1)-MGARCH(1,1).
Medidas 1,37 2,47 3,58 4,68 5,79 6,89 8,00
Variância 0,053 0,031 0,021 0,053 0,147 0,320 0,657
P-valor 0,351 0,000 0,247 0,000 0,504 0,024 0,006
Figura 3.2 – Histogramas em pontos de grade de ρˆ0(x), considerando 200 séries de tamanho 500, observadas do modelo VAR(1)-MGARCH(1,1).
2 3 4 5 6 7 8 -1 .0 -0 .5 0 .0 0 .5 1. 0 x 0 ˆ ρ 1.37 -0.4 0.0 0.4 0.8 0. 0 1.0 2. 0 3. 0 2.47 -1.0 -0.5 0.0 0.5 01 2 3 4 3.58 0.0 0.2 0.4 0.6 01 23 4 4.68 -0.5 0.0 0.5 0. 0 1.0 2.0 3.0 5.79 -0.5 0.0 0.5 0. 0 0.5 1. 0 1. 5 2. 0 6.89 -1.5 -0.5 0.5 0. 0 0. 4 0. 8 8 -2 -1 0 1 0. 0 0. 4 0. 8
3 . 1 . 6 A p l i c a ç õ e s a s é r i e s r e a i s
A seguir analisamos a curva de correlação cruzada contemporânea considerando os retornos diários da Petrobrás e do Ibovespa, e também do Banespa e Ibovespa, no período de 2/jan/95 a 27/dez/00 (1.498 dados). Os parâmetros utilizados nestas simulações são os mesmos da seção anterior, porém agora com grade de 401 pontos e largura de faixa igual ao desvio padrão da série condicionada (Bjerve e Doksum, 1993).
Na seção 2.2.2 vimos que os retornos da Petrobrás (Xt) e do Ibovespa (Yt) apresentaram correlação linear
de Pearson 0,83. No gráfico (a) da Figura 3.3, observamos o gráfico de dispersão dos retornos da Petrobrás (Xt) do Ibovespa (Yt). Nesta mesma figura, o gráfico (b) refere-se ao coeficiente angular local estimado o qual
apresenta-se positivo, porém, com tendência decrescente até aproximadamente o valor de grade 0.03, a partir de onde se inicia uma tendência crescente. A variância condicional local (gráfico (c)) apresenta-se maior nos extremos da grade. Por fim, a curva de correlação (gráfico (d)) que possui valores entre 0,79 e 0,87, indica um pequeno decréscimo a partir do valor de grade -0,01, aproximadamente. Tal fato deve-se ao comportamento decrescente do coeficiente angular local. Portanto, a correlação entre os retornos da Petrobrás e do Ibovespa, passa a ser ligeiramente menor com o aumento dos possíveis valores de retornos da Petrobrás, a partir do valor -0,01. Para estas duas séries, vimos na Figura 2.38 que o gráfico de curvas de nível de Hˆ0 apresenta dependência positiva e simétrica, e que a densidade cópula empírica cˆ também apresenta dependência positiva mas com uma pequena assimetria, no caso, menor dependência entre os maiores valores dos postos normalizados. Na Figura 3.3, vimos que ρ apresenta um leve decréscimo ao longo dos valores ˆ0 de x.
Correlação linear de Pearson 0,54 foi obtida para os retornos do Banespa (Xt) e do Ibovespa (Yt).
Observando o gráfico (b) da Figura 3.4, vemos que o coeficiente angular local é positivo (mas com valores menores que o caso acima), apresentando tendência decrescente ao longo da grade. Já a variância condicional local (gráfico (c)), apresenta valores maiores nos pontos de grade maiores quando comparado com os menores. Finalmente, no gráfico (d) vemos a curva de correlação cruzada contemporânea (com valores entre 0,31 e 0,67) a qual apresenta tendência decrescente também a partir do ponto de grade -0,01, aproximadamente, porém, esta tendência é mais acentuada que no caso acima devido a maior variância nos valores de grade maiores. Ou seja, a correlação entre os retornos do Banespa e do Ibovespa passa a ser menor quanto maior for o possível valor do retorno do Banespa, a partir de -0,01. Para estas séries, a Figura 2.40 apresenta Hˆ0 com dependência positiva simétrica, e cˆ com dependência positiva ligeiramente assimétrica (menor para os maiores valores). Já na Figura 3.4, ρ indica considerável decréscimo da correlação. ˆ0
Figura 3.3 – (a) Gráfico de dispersão dos retornos do Petrobrás (Xt) e da Ibovespa (Yt) no período de 2/jan/95 a 27/dez/00 (correlação 0,83), (b) coeficiente
angular local estimado βˆ0(x), (c) variância condicional local estimada σˆ02(x) e (d) curva de correlação cruzada contemporânea estimada ρˆ0(x).
-0.2 -0.1 0.0 0.1 0.2 -0 .1 0. 0 0.1 0. 2 0.3 Xt Yt -0.04 -0.02 0.00 0.02 0.04 0. 0 0.2 0. 4 0.6 0. 8 1.0 x -0.04 -0.02 0.00 0.02 0.04 0. 00 00 0. 00 05 0. 00 10 0. 0015 x -0.04 -0.02 0.00 0.02 0.04 -1 .0 -0 .5 0. 0 0. 5 1. 0 x (d) (b) (c) (a) 0 ˆ β 2 0 ˆ σ ρˆ0
Figura 3.4 – (a) Gráfico de dispersão dos retornos do Banespa (Xt) e do Ibovespa (Yt) no período de 2/jan/95 a 27/dez/00 (correlação 0,54), (b) coeficiente
angular local estimado βˆ0(x), (c) variância condicional local estimada ˆ2( ) 0 x
σ e (d) curva de correlação cruzada contemporânea estimada ρˆ0(x).
-0.2 -0.1 0.0 0.1 0.2 0.3 -0 .1 0. 0 0.1 0. 2 0.3 Xt Yt -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0. 0 0.2 0. 4 0.6 0. 8 1.0 x -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0. 00 00 0. 00 05 0. 00 10 0. 0015 x -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 -1 .0 -0 .5 0. 0 0. 5 1. 0 x 0 ˆ β 2 0 ˆ σ ρˆ0 (d) (b) (c) (a)
3 . 2 C u r v a d e A u t o c o r r e l a ç ã o
Considere o seguinte modelo utilizado em séries financeiras:
t p t t p t t t m X X X X X = ( −1 ,K, − )+σ( −1,K, − )ε , εt ~iid(0,1) e εt ⊥Xt−k, k≥1,
em que m(.) e σ2(.) representam, respectivamente, a esperança e a variância condicional de Xt dado
p t
t X
X −1,K, − . Este modelo pode ser denominado CHARN (de “conditional heteroscedastic autoregressive nonlinear” segundo Yang et al., 1999) ou modelo tipo ARCH (Masry e Tjøstheim, 1995).
Se utilizarmos modelos paramétricos para estimar as funções m(.) e σ , temos que um modelo (.)
particular é o ARCH. Para ver isto, considere m(.) linear e σ2(Xt−1,K,Xt−p)=α0+α1Xt2−1+K+αpXt2−p,
então, o modelo resultante é o ARCH(p) definido por Engle (1982). Outra abordagem é utilizar técnicas não paramétricas para estimar estas funções, e então este modelo pode ser denominado NARCH (de “nonparametric autoregressive conditional heteroscedastic”, conforme Fan e Yao, 2005).
Sob certas condições no crescimento de m(.) e σ , o processo {X(.) t} gerado pelo modelo 1 1 1 1 ( , , ) ( , , ) + + + + + + + +ip = t i t ip + t i t ip t ip t m X X X X X K σ K ε , 0≤i1 <i2<K<ip+1,
(que é um modelo que possibilita uma quantidade menor de variáveis aleatórias defasadas para a mesma ordem p do modelo anterior) é estritamente estacionário e α-mixing, com coeficiente mixing apresentando decaimento exponencial (Masry e Tjøstheim, 1995 – Lema 3.1).
Observamos que um processo GARCH(p,q) representado por Xt =σtεt,
∑
∑
= − + = − + = q j j t j p i i t i t2 α0 1α X2 1β σ2σ , em que εt ~IID(0,1), αi ≥0, βj ≥0, é α-mixing com coeficiente mixing apresentando decaimento exponencial se (i) 1
1 1 +
∑
<∑
= = q j j pi αi β e (ii) a função de densidade de ε t é positiva num intervalo contendo o zero (Fan e Yao, 2005 – página 70).
Sabemos que se m(.) é linear e σ é constante, então recaímos no modelo AR(p). E se o processo é (.)
Gaussiano estacionário com média zero, então m(.) é linear e σ é constante (Fan e Yao, 2005). Além (.)
disso, um processo linear usual é α-mixing com coeficiente mixing apresentando decaimento geométrico (Bosq, 1998 – páginas 18 e 46).
A partir de agora, iremos nos concentrar na subclasse dos sistemas não lineares tipo ARCH em que m(.)
e σ são funções de uma única variável aleatória defasada. (.)
Seja {Xt , t∈Z} um processo estacionário estrito e de segunda ordem a valores contínuos, que pode ser
considerado gerado a partir do modelo (3.1) em que Yt =Xt+τ, ou seja τ
τ σ ε +
+ = t + t t
t m X X
X ( ) ( ) , com εt ~ iid(0,1) e εt+k ⊥Xt, k≥1, (3.4) sendo que m(x)=E[Xt+τ /Xt =x] e σ2(x)=Var[Xt+τ /Xt =x] estão bem definidas.
A seguir, vamos derivar a expressão da curva de correlação (1.2).
Como o processo é estacionário estrito, vimos na seção 2.1 que a distribuição de (Xt,Xt+τ) só depende da defasagem τ , e então β(x)=∂/∂x E[Xt+τ /Xt =x] e σ2(x)=Var[Xt+τ /Xt =x] também só dependem da defasagem τ .
Portanto, a curva de correlação (1.2) pode ser escrita da seguinte forma ) ( ) ( ) ( ) ( 2 0 2 0 x x x x τ τ τ τ
σ
γ
β
γ
β
ρ
+ = , ∀x∈S com f(x)>0, ∀ t,τ∈Z, (3.5)em que βτ(x) e
σ
τ2(x) são como β(x) e σ2(x) acima, e γ0 =Var[Xt]. Denominamos esta medida local de curva de autocorrelação.As seguintes propriedades são válidas para a curva de autocorrelação (3.5):
(i) −1≤ρτ(x)≤+1, ∀τ∈Z , ∀x∈S; prova: Imediata.
(ii) ρ−τ(x)=ρτ(x), ∀τ∈Z , ∀x∈S; prova:
Como o processo é estacionário estrito, então fXt,Xt+τ (x1,x2)= fXt−τ,Xt(x1,x2) que implica em
] / [ ] / [X X x E X X x
E t+τ t = = t t−τ = e Var[Xt+τ /Xt =x]=Var[Xt /Xt−τ =x]. Portanto, ρτ(x)=ρ−τ(x).
(iii) ρτ(x)=ρτ , ∀τ∈Z , ∀x∈S se {Xt} é um processo Gaussiano. prova:
Se o processo é Gaussiano, então Xt+τ /Xt =x ~N(µ+ρτ(x−µ), γ0(1−ρτ2)), ∀ t,τ∈Z . Portanto, τ τ ρ β (x)= , e então τ τ τ τ τ τ τ τ ρ ρ γ γ ρ γ ρ σ γ β γ β ρ = − + = + = ) 1 ( ) ( ) ( ) ( ) ( 2 0 0 2 0 2 0 2 0 x x x x .
A seguir encontram-se as expressões de ρτ(x), ∀x∈S e ∀τ∈Z , para alguns modelos simples.
(i) Modelo AR(1)
Considere um processo {Xt , t∈Z} estacionário estrito e de segunda ordem, seguindo um modelo AR(1)
representado por Xt =φ0 +φ1Xt−1+at, at ~iid(0,σa2). Pode-se verificar que ρτ(x)=ρτ, ∀x∈S, τ∈Z (veja prova no Apêndice B). Portanto, neste modelo, a curva de autocorrelação reduz-se à função de autocorrelação.
(ii) Modelo MA(1)
Considere um processo {Xt , t∈Z} estacionário estrito e de segunda ordem, seguindo um modelo MA(1)
com a seguinte representação: Xt =θ0−θ1at−1+at, at ~iid(0,σa2). A curva de autocorrelação para este modelo é dada por (veja Apêndice B):
≥ = + + + − = = 2 | | , 0 1 | | , 1 2 ) 1 ( 0 , 1 ) ( 2 1 4 1 2 1 2 1 τ τ θ θ θ θ τ ρτ x , ∀x∈S,
que é constante em relação a x.
(iii) Modelo ARCH(1)
Considere um processo {Xt, t∈Z} estacionário estrito e de segunda ordem, seguindo um modelo
ARCH(1) representado por Xt =σtεt, σt2 =α0+α1Xt2−1 e εt ~ iid(0,1). Como neste modelo a componente da esperança condicional é nula, então a derivada desta em relação a x (coeficiente angular) também será nula. Portanto, a curva de autocorrelação será nula.
Para o processo em estudo, sugerimos um estimador similar ao estimador (3.3), em que consideramos τ
+ = t
t X
Y , t=1 K, ,T−τ, τ =0,K,T−1.
Portanto, observados (X K1, ,XT), a curva de autocorrelação (3.5) pode ser estimada através de:
) ( ˆ ) ( ˆ ) ( ˆ ) ( ˆ 2 0 2 0 x c x c x x τ τ τ τ
σ
β
β
ρ
+ = (3.6) em que∑
= − = = T t Xi X T c 1 2 0 0γ
ˆ 1 ( ) , ) ( ˆ ) ( ˆ x =m(1) x τβ utilizando um polinômio quadrático local com kernel K1, largura de faixa h1 e o
conjunto de dados {(Xt,Xt+τ), t=1,K,T−τ}, ) ( ˆ ) ( ˆτ2 x =m(0) x
σ
utilizando um polinômio linear local, um kernel K2, uma largura de faixa h2 e oconjunto de dados {(Xt,rˆt2), t=1,K,T−τ}, sendo rˆt =Xt+τ −mˆ(Xt) com mˆ(Xt) sendo previsto após o ajuste de um polinômio linear local nos pontos de grade x∈G, que utiliza o kernel K1, a
largura de faixa h1 e o conjunto de dados {(Xt,Xt+τ), t=1,K,T−τ}.
Considere as condições de regularidade (C1) a (C12) da seção 3.1.4 devidamente adptadas.
Teorema 3.2. Considere um processo {Xt , t∈ Z} estritamente estacionário e de segunda ordem, a valores
contínuos. Satisfeitas as condições (C1) a (C12), então ) ( ) ( ˆ T x x P τ τ ρ ρ ∞ → →
, para cada x∈ fixado. S prova: Similar à do Teorema 3.1.
3 . 2 . 1 S i m u l a ç õ e s
Avaliamos o comportamento da curva de autocorrelação utilizando o modelo AR(1)-ARCH(1) dado por t t t X a X =φ1 −1+ , t t t a =σ ε , 2 1 1 0 2 − + = t t α α a σ ,
em que εt ~ N(0,1), φ0=0, φ1=0,8, α0 =0,1 e α1=0,8. Para tanto, utilizamos 200 repetições de séries de tamanho 200, 500 e 1.000. A grade, o percentual de dados e a largura de faixa utilizados foram iguais aos da seção 3.1.5.
Referente a simulação com séries de tamanho 1.000, observamos na Figura 3.5 a curva de autocorrelação média estimada para os lags 1 a 4. Com o aumento do lag, vemos que a curva de autocorrelação diminui de intensidade (possivelmente devido à redução da dependência da parte autoregressiva do modelo) e torna-se mais linear (devido à suavização da componente da volatidade do modelo). Na Tabela 3.2, vemos que com o aumento da defasagem, a variância do estimador aumenta e a rejeição da normalidade permanece inalterada. Na Figura 3.6, apresentam-se os histogramas do estimador no lag 2 em alguns pontos de grade, os quais indicam afastamento da normalidade.
A variância do estimador diminui com o aumento do tamanho da série para todas as defasagens, enquanto que o nível descritivo (nulo) permanece inalterado, conforme podemos observar através da comparação da simulação anterior com as simulações contendo séries de tamanho 200 e 500 (Figura C.2 do Apêndice C).
Tabela 3.2 – Variância e p-valor do teste de normalidade de Jarque Bera de ρˆ xτ( ), considerando 200 séries de tamanho 1.000, observadas do modelo AR(1)-ARCH(1), com inovações Gaussianas.
Medidas Lag -1,53 -1,02 -0,51 0,00 0,51 1,02 1,53 Variância 1 0,042 0,008 0,005 0,002 0,009 0,039 0,080 Variância 2 0,066 0,055 0,034 0,013 0,026 0,050 0,101 Variância 3 0,095 0,091 0,037 0,017 0,032 0,056 0,120 Variância 4 0,136 0,084 0,055 0,038 0,041 0,095 0,124 P-valor 1 0,000 0,000 0,000 0,000 0,000 0,000 0,000 P-valor 2 0,000 0,000 0,000 0,000 0,000 0,000 0,000 P-valor 3 0,000 0,000 0,000 0,000 0,000 0,000 0,000 P-valor 4 0,000 0,000 0,000 0,000 0,000 0,000 0,000
Figura 3.5 – Curva de autocorrelação média para os lags 1 a 4, considerando 200 séries de tamanho 1.000, observadas
de um modelo AR(1)-ARCH(1) com φ0=0, 8φ1=0, , 1α0=0, e α1=0,8, e inovações Gaussianas.
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1 .0 -0 .5 0 .0 0 .5 1 .0 x Ro (x ) tau=1 τ ρˆ -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1 .0 -0 .5 0 .0 0 .5 1 .0 x Ro (x ) tau=3 τ ρˆ -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1 .0 -0 .5 0 .0 0.5 1. 0 x Ro (x ) tau=2 τ ρˆ -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1 .0 -0 .5 0. 0 0 .5 1 .0 x Ro (x ) tau=4 τ ρˆ
Figura 3.6 – Histogramas em pontos de grade de ρˆ x( ) para o lag 2, considerando 200 séries de tamanho 1.000, observadas do modelo AR(1)-ARCH(1) com φ0=0, 8φ1=0, , 1α0=0, e α1=0,8, e inovações Gaussianas.
-1.16 -0.5 0.0 0.5 1.0 01 23 4 -0.78 -1.0 -0.5 0.0 0.5 1.0 01 23 4 5 -0.39 -0.5 0.0 0.5 1.0 0 246 0 -0.4 0.0 0.4 0.8 024 6 0.39 -0.4 0.0 0.4 0.8 0246 0.78 -0.5 0.0 0.5 1.0 01 23 45 1.16 -1.0 -0.5 0.0 0.5 1.0 01 23 4
3 . 2 . 2 A p l i c a ç õ e s a s é r i e s r e a i s
A seguir analisamos a curva de autocorrelação considerando os retornos diários da Petrobrás e do Banespa (2/jan/95 a 27/dez/00), considerando a série adiantada em 1, 2 ou 3 dias dado a série. Os parâmetros utilizados nestas simulações são os mesmos da seção 3.1.6.
Considerando os retornos da Petrobrás, para o lag 1, vemos no último gráfico da Figura 3.7 que há indicações da correlação local positiva apresentar inicialmente uma tendência crescente. Já a curva de autocorrelação no lag 2 (gráfico (d) da Figura 3.8) apresenta inicialmente valores negativos e com uma leve tendência crescente, permanecendo constante e positiva para os valores de grade próximos de zero, e então ocorre uma tendência decrescente atingindo novamente valores negativos. Por fim, para a defasagem 3, vemos que a curva de autocorrelação (último gráfico da Figura 3.9) apresenta uma suave oscilação em torno do valor zero ao longo da grade.
Nas figuras 3.10 a 3.12, para as defasagens 1 a 3, respectivamente, apresentam-se as curvas de autocorrelação (gráfico (d)), dentre outros, para os retornos diários do Banespa. No lag 1, a curva de autocorrelação positiva apresenta uma leve tendência crescente para os maiores valores da grade. Já no lag 2, a correlação local apresenta inicialmente valores negativos alcançando valores positivos, pois há tendência crescente a partir de valores de grade -0,01 aproximadamente. A curva de autocorrelação apresenta-se praticamente constante no lag 3.
Figura 3.7 – Para os retornos da Petrobrás (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 1 (correlação 0,111), temos: (a) gráfico de dispersão, (b) coeficiente angular local estimado βˆ xτ( ), (c) variância condicional local estimada σˆτ2(x), e (d) curva de autocorrelação estimada ρˆ xτ( ).
-0.2 -0.1 0.0 0.1 0.2 -0. 2 -0. 1 0. 0 0. 1 0. 2 Xt Xt+ 1 -0.04 -0.02 0.00 0.02 0.04 -0 .3 -0 .1 0. 1 0.3 x -0.04 -0.02 0.00 0.02 0.04 0. 00 0 0. 002 0. 00 4 x -0.04 -0.02 0.00 0.02 0.04 -1 .0 -0 .5 0. 0 0.5 1. 0 x (d) (c) (b) (a) τ βˆ 2 ˆτ σ ρˆτ
Figura 3.8 – Para os retornos da Petrobrás (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 2 (correlação -0,020), temos: (a) gráfico de dispersão, (b) coeficiente angular local estimado βˆ xτ( ), (c) variância condicional local estimada ˆ2(x)
τ
σ , e (d) curva de autocorrelação estimada ρˆ xτ( ).
-0.2 -0.1 0.0 0.1 0.2 -0 .2 -0 .1 0. 0 0.1 0. 2 Xt Xt+ 2 -0.04 -0.02 0.00 0.02 0.04 -0. 3 -0. 1 0. 1 0. 3 x -0.04 -0.02 0.00 0.02 0.04 0. 000 0. 002 0. 004 x -0.04 -0.02 0.00 0.02 0.04 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆτ (d) (c) (b) (a)
Figura 3.9 – Para os retornos da Petrobrás (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 3 (correlação -0,065), temos: (a) gráfico de dispersão (b) coeficiente angular local estimado βˆ xτ( ), (c) variância condicional local estimada ˆ2(x)
τ
σ , e (d) curva de autocorrelação estimada ρˆ xτ( ).
-0.2 -0.1 0.0 0.1 0.2 -0. 2 -0. 1 0. 0 0. 1 0. 2 Xt Xt+ 3 -0.04 -0.02 0.00 0.02 0.04 -0 .3 -0 .1 0. 1 0.3 x -0.04 -0.02 0.00 0.02 0.04 0. 00 0 0. 002 0. 00 4 x -0.04 -0.02 0.00 0.02 0.04 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆτ (d) (c) (b) (a)
Figura 3.10 – Para os retornos do Banespa (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 1 (correlação 0,125), temos: (a) gráfico de dispersão (b) coeficiente angular local estimado βˆ xτ( ), (c) variância condicional local estimada ˆ2(x)
τ
σ , e (d) curva de autocorrelação estimada ρˆ xτ( ).
-0.2 -0.1 0.0 0.1 0.2 0.3 -0 .2 0. 0 0.2 Xt Xt+ 1 -0.06 -0.02 0.00 0.02 0.04 0.06 -0 .3 -0 .1 0. 1 0.3 x -0.06 -0.02 0.00 0.02 0.04 0.06 0. 00 0 0. 002 0. 00 4 x -0.06 -0.02 0.00 0.02 0.04 0.06 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆτ (d) (c) (b) (a)
Figura 3.11 – Para os retornos do Banespa (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 2 (correlação 0,011), temos: (a) gráfico de dispersão, (b) coeficiente angular local estimado βˆ xτ( ), (c) variância condicional local estimada ˆ2(x)
τ
σ , e (d) curva de autocorrelação estimada ρˆ xτ( ).
-0.2 -0.1 0.0 0.1 0.2 0.3 -0. 2 0. 0 0. 2 Xt Xt+ 2 -0.06 -0.02 0.00 0.02 0.04 0.06 -0. 3 -0. 1 0. 1 0. 3 x -0.06 -0.02 0.00 0.02 0.04 0.06 0. 000 0. 002 0. 004 x -0.06 -0.02 0.00 0.02 0.04 0.06 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆτ (d) (c) (b) (a)
Figura 3.12 – Para os retornos do Banespa (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 3 (correlação 0,017), temos: gráfico de dispersão, (b) coeficiente angular local estimado βˆ xτ( ), (c) variância condicional local estimada ˆ2(x)
τ
σ , e (d) curva de autocorrelação estimada ρˆ xτ( ).
-0.2 -0.1 0.0 0.1 0.2 0.3 -0. 2 0. 0 0. 2 Xt Xt+ 3 -0.06 -0.02 0.00 0.02 0.04 0.06 -0. 3 -0. 1 0. 1 0. 3 x -0.06 -0.02 0.00 0.02 0.04 0.06 0. 000 0. 002 0. 004 x -0.06 -0.02 0.00 0.02 0.04 0.06 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆτ (d) (c) (b) (a)