Capítulo 3. Curva de Correlação. não é necessariamente homoscedástica, iremos considerar o modelo

(1)

Capítulo 3

Curva de Correlação

3 . 1 C u r v a d e C o r r e l a ç ã o C r u z a d a C o n t e m p o r â n e a 3 . 1 . 1 I n t r o d u ç ã o

Considere {(X_t,Y_t), t∈Z} um processo estacionário estrito com X_t a valores contínuos, tal que X_t e t

Y possuem segundos momentos finitos e valores em S. Sejam

] / [ ) (x EY X x m = _t _t = , ] / [ ) ( 2 _x _Var_Y _X _x t t = = σ ,

respectivamente, a esperança e a variância condicional de Y_t dado que X_t =x, com x∈S, as quais estão bem definidas. Como em geral a função m(x) não é necessariamente linear e a variância condicional σ2(x) não é necessariamente homoscedástica, iremos considerar o modelo

t t t

t m X X

Y = ( )+σ( )ε , com ε_t ~ iid(0,1) e ε_t ⊥X_s, s< , t (3.1) sendo m(.) o “drift” e σ(.) a “volatilidade” (Fan e Yao, 1998).

Vejamos então como fica a expressão da curva de correlação (1.2).

Como o processo é estacionário estrito, então a distribuição de (X_t,Y_t)é invariante sob translações do tempo, portanto, f _/ (y/x)

t t X

Y (com fXt(x)>0) e fXt(x) são invariantes no tempo, ∀ ,x y∈S. Então, ] / [ / ) (x =∂ ∂x EY_t X_t =x β =∂/∂x _

∫

yf_Y_t_/_X_t(y/x)dy_ , σ2(x)=Var[Y_t /X_t =x] =

∫

y− f y x dy t t X Y Y) ( / ) ( µ 2 _/ e = 0

γ Var[X_t] são invariantes no tempo.

Então, a curva de correlação (1.2) pode ser escrita como

) ( ) ( ) ( ) ( 2 0 0 2 0 0 0 0 x x x x

σ

γ

β

γ

β

ρ

+ = _,∀x∈S com f(x)>0, ∀t∈ Z , (3.2)

em que β₀(x)=β(x) e

σ

₀2(x)=

σ

2(x) são como acima, e f(x) f (x) t X

= .

Denominamos (3.2) de curva de correlação cruzada contemporânea.

3 . 1 . 2 P r o p r i e d a d e s

Para o processo em estudo, a curva de correlação cruzada contemporânea (3.2) satisfaz às seguintes propriedades:

(2)

prova:

Se Y_t =g(X_t), então a variância condicional é nula (veja a propriedade (iii) a seguir), e

)) ´( ( sinal 1 ) ( 0 x = × g x

ρ . Caso contrário, −1<ρ₀(x)<+1, que pode ser observado diretamente da expressão de

) ( 0 x

ρ reescrita como ρ₀(x)= β₀2(x)γ₀/(β₀2(x)γ₀+σ₀2(x)).

(ii) ρ₀(x)=0, ∀x∈S, se Xt e Yt são independentes, com σ₀2(x)>0;

prova:

Se Xt e Yt são independentes, então β0(x)=_∂∂_xE[Yt/Xt =x]=_∂∂_xE[Yt]=0, portanto, ρ₀(x)=0.

(iii) ρ₀(x)≡±1, ∀x∈S, se Y_t =g(X_t); prova:

Suponha que Y_t =g(X_t). Então, E[Y_t/X_t =x]=E[g(X_t)/X_t =x]=g(x) e Var[Y_t /X_t = ]x = 0 ] / ) ( [g X X = x = Var _t _t . Portanto, 1 ) ( ) ( ) ( 0 2 0 0 =± ′ ′ = γ γ ρ x g x g

x para g ′(x) e γ não nulos, sendo 0 ρ₀(x)=1

quando g′ x( )>0, e ρ₀(x)=−1 quando g′ x( )<0. Para g′ x( )=0, iremos considerar 0/0=1.

(iv) ρ₀(x)=±1 para quase todo x, implica que Y_t =g(x); prova:

Se ρ₀(x)=±1 para quase todo x, então σ₀2(x)=0, que implica em Y_t =g(x) para quase todo x, para alguma função g. (v) U_t =a+bX_t e Vt =c+dYt com bd≠0, então ) ( ) ( sinal ) (u bd x t t t tV XY U ρ ρ = , ∀u∈S em que b a u x= − . Notação: (x) t tY X

ρ indica ρ₀(x) para (X_t,Y_t) com o condicionamento Y_t /X_t =x; prova: Imediata. (vi) (x) (x) t t t tY Y X X ρ ρ ≠ , x∈S, t∈Z , de modo geral; prova: Imediata.

(vii) ρ₀(x)=ρ_XY , ∀x∈S no caso normal bivariado. prova: Se (Xt,Yt)~N2, então Yt /Xt =x ~N (µY +γXY(x−µX)/γ0 , σY2(1−ρ2XY )) e ρXY =γXY / γ0σY. Portanto, = = = ∂ ∂ = 0 0( ) [ / ] _γ γ β XY t t X x Y E x x 0 γ σ ρ Y XY . Então,

(3)

XY XY Y Y XY Y XY x x x x ρ ρ σ γ γ σ ρ γ γ σ ρ σ γ β γ β ρ = − + = + = ) 1 ( ) ( ) ( ) ( ) ( 2 2 0 0 2 0 0 2 0 0 2 0 0 0 0 .

Observamos que um modelo MGARCH(r,s) bivariado possui esperança condicional nula, implicando em coeficiente angular local nulo e, portanto, em curva de correlação cruzada contemporânea nula. Já os modelos VAR(p,q)-MGARCH(r,s) possuem o termo de esperança condicional resultando em correlação local não nula, de modo geral.

3 . 1 . 3 E s t i m a d o r

Modelos não lineares para séries temporais podem ser estimados por meio de uma abordagem não paramétrica. O ajuste polinomial local é uma técnica de regressão não paramétrica conveniente para estimar a k-ésima derivada m(k)(x) da função de regressão m(x)=E[Y_t /X_t =x]. A forma da função m(.) não é conhecida, porém, precisamos supor que ela tenha um certo grau de suavidade, ou seja, m(x) possui um certo número de derivadas no ponto x₀. Além disso, considerando o enfoque local, um ponto distante de x₀

fornece pouca informação sobre m(x). Então, supondo que m(x) tenha p+1 derivadas no ponto x0, a

expansão de Taylor para x numa vizinhança local de x0, é dada por

} ) {( ! ) ( ) ( ! 2 ) ( ) ( ) )( ( ) ( ) ( ( ) ₀ 0 ₀ 1 2 0 0 ) 2 ( 0 0 ) 1 ( 0 ) 0 ( ₊ ₋ ₊ − ₊ ₊ − ₊ ₋ + = p p _O _x _x p p x x x m x x x m x x x m x m x m K .

Em termos de modelagem estatística, localmente ao redor de x0, m(x) é modelada como

∑

= − ≈ p k k k x x x m 0 ( 0) ) ( α

com α_k =m(k)(x₀)/k!. Então, observados {(X_t,Y_t), t=1,K,T}, este modelo é ajustado utilizando-se o método de mínimos quadrados ponderados, minimizando-se

∑

=

∑

= _ −     ₋ ₋ T t h t p k k t k t X x K X x Y _T 1 0 2 0α ( 0) ( )

em que K é uma função kernel e h_T é a largura de faixa que controla o tamanho da vizinhança local. A solução deste método é dada por αˆ_k =mˆ(k)(x₀)/k!, ou seja, mˆ(k)(x₀)=αˆ_k×k!, k=_{0 K}, ,p.

Utilizando a notação matricial, temos a seguinte representação:

) ( ( min y Xα) Wy Xα α − ′ − , em que           = T Y Y M 1 y ,             − − − − = p T T p x X x X x X x X ) ( ) ( 1 ) ( ) ( 1 0 0 0 1 0 1 K M M M K X , α=(α₀,_K,α_p)′ , )} ( {K X x₀ diag _h_T _t− =

W : matriz diagonal (T×T) de pesos,

(4)

Vejamos como estimar a derivada (de ordem k=1) da esperança condicional, β(x₀), com x₀∈G, sendo G o conjunto dos pontos de uma grade (univariada). Considerando um kernel K₁ e uma largura de faixa h₁=hˆ_T(X₁,K,X_T;Y₁,K,Y_T), ajustamos um polinômio de grau p=2 (p= k+1 - mais detalhes no final desta seção), ou seja, minimizamos

      −         ₋ − − − −

∑

=1 ₁ 1 ₁ 0 2 2 0 0 ) 2 ( 0 0 ) 1 ( 0 ) 0 ( 1 2 ) ( ) ( ) )( ( ) ( h x X K h x X x m x X x m x m Y t T t t t t , e, então, βˆ(x₀)=mˆ(1)(x₀).

Agora, vejamos como estimar a variância condicional σ2(x₀). Sabemos que σ2(x) pode ser escrita como Var[Y_t /X_t =x]=E[Y_t2/X_t =x]−E2[Y_t /X_t =x], que naturalmente motiva o estimador

2 0 0 2_/ _] ₍ˆ_[ _/ _]₎ [ ˆ_Y _X _x _E_Y _X _x

E _t _t = − _t _t = . Mas, segundo Fan e Yao (1998) este estimador nem sempre é não

negativo, principalmente quando diferentes larguras de faixa são utilizadas para estimar cada uma das componentes. Então, tanto Bjerve e Doksum (1993) quanto Fan e Yao (2005), dentre outros, utilizam um estimador com base em resíduos ao quadrado, ou seja, σˆ2(x₀)=Eˆ[rˆ_t2/X_t =x₀]= Eˆ[{Y_t−mˆ(X_t)}2/X_t =x₀]

(veja detalhes a seguir). Pode-se mostrar que este estimador é completamente adaptativo em regressão, isto é, sem conhecer m(.), podemos estimar assintoticamente a variância condicional σ2(.) tão bem quanto se m(.)

fosse conhecida. De fato, pode-se provar que E[r_t2/X_t]≈σ2(X_t) (veja Fan e Yao, 2005 – página 375). Então, para estimarmos σ2(x₀)=E[{Y_t −m(X_t)}2/X_t =x₀], inicialmente calculamos mˆ(X_t), t=_{1 K}, ,T, usando a largura de faixa h₁ dada anteriormente, e então calculamos rˆ_t2=(Y_t−mˆ(X_t ))2, t=_{1 K}, ,T . Por fim, obtemos σˆ2(x₀) através da minimização do seguinte polinômio linear, o qual utiliza um kernel K2 e uma

nova largura de faixa h₂=hˆ_T(X₁,_K,X_T;rˆ₁2,_K,rˆ_T2):

∑

= _     − − − − T t t t t _h x X K h x X x m x m r 1 ₂ 0 2 2 2 0 0 ) 1 ( 0 ) 0 ( 2 ₍ ₎ ₍ ₎₍ _)} 1 ˆ { . Então, σˆ2(x₀)=mˆ(0)(x₀).

Neste algorítmo, o método de seleção da largura de faixa é flexível.

Portanto, observados {(X_t,Y_t), t=1,K,T}, a estimação da curva de correlação cruzada contemporânea (3.2) pode ser feita através do seguinte estimador:

) ( ˆ ) ( ˆ ) ( ˆ ) ( ˆ 2 0 0 2 0 0 0 0 x c x c x x

σ

β

ρ

+ = _, _(3.3) em que

∑

= − = = T t Xt X T c 1 2 0 0 γˆ 1 ( ) , ) ( ˆ ) ( ˆ (1) 0 x =m x

β utilizando um polinômio quadrático local com kernel K₁, largura de faixa h1 e o

(5)

) ( ˆ ) ( ˆ₀2 x =m(0) x

σ

utilizando um polinômio linear local, um kernel K2, uma largura de faixa h2 e o

conjunto de dados {(X_t,rˆ_t2), t=1,...,T}, sendo rˆ_t =Y_t −mˆ(X_t) com mˆ(X_t) sendo previsto após o ajuste de um polinômio linear local nos pontos de grade x∈G, que utiliza o kernel K₁, a largura de faixa h1 e o conjunto de dados {(Xt,Yt), t=1,K,T}.

Vejamos algumas considerações referentes à implementação do estimador polinomial local.

Precisamos escolher a largura de faixa h_T, o kernel K e a ordem p do polinômio, sendo que estes parâmetros são naturalmente relacionados entre si.

A largura de faixa hT controla a complexidade do ajuste polinomial local (quando hT =∞, este ajuste

torna-se um ajuste polinomial global). Para seqüências estacionárias de dados sob certas condições mixing, a suavização no domínio do espaço apresenta desempenho similar à regressão não paramétrica para dados independentes. Aqui, a largura de faixa pode ser escolhida, por exemplo, através dos seguintes critérios: validação cruzada, método de substituição pré-assintótico de Fan e Gijbels (1995) e método de substituição assintótico de Ruppert et al. (1995).

Quanto ao kernel, é mostrado por Fan et al. (1996) que, para todas as escolhas de p e k, o kernel ótimo é o de Epanechnikov e, como mostrado em Fan e Yao (2005, §5.5), outros kernels têm aproximadamente a mesma eficiência para uso prático de p e k. Portanto, esta escolha não é crítica.

Finalmente, a ordem do polinômio p= k+1 é recomendada por Fan e Gijbels (1996), com base em considerações teóricas e práticas. Portanto, se o objetivo principal é estimar a função de regressão m(x), optamos pelo ajuste linear local, se o objetivo é estimar m(1)(x), o ajuste quadrático local é o recomendado, e assim sucessivamente.

3 . 1 . 4 C o n s i s t ê n c i a d o e s t i m a d o r

Sejam as seguintes condições de regularidade:

(C1)

∑

+∞ −∞ = − + = j j t j t e X µ α , em que e_t ~iid(0,σ2), _[ 4_]₌_ησ4 t e E ,

∑

+∞ −∞ = <∞ j |αj| e

∑

+∞ −∞ = <∞ k |γk | ; (C2) O kernel K1 é uma função limitada e com suporte limitado;

(C3) _h₁=_O{_T−1/(2p+3)}_{, sendo}_p_{a ordem do polinômio;}

(C4) A densidade condicional ≤ <∞ + + / , 1 2 1 2 1 , (x ,x /y,y ) A f k t t k t t X Y Y X , ∀ t∈ Z , ∀k≥1; (C5) Para processos ρ-mixing é suposto que

∑

<∞

k kρ e [ ]<∞ 2 t

Y

E , ∀ t∈ Z . Para processos α-mixing é

suposto que

∑

− <∞ k a _k k _[α₍ _)]1 2/λ _, _| _|λ_<_∞ t Y E e f _/ (x/y)≤A₂ <∞ t t Y X , para algum λ>2 e λ / 2 1− > a , ∀ t∈ Z ;

(C6) Para processos ρ-mixing e α-mixing é suposto, respectivamente, que (T/h₁)1/2ρ(s_T)→0 e

0 ) ( ) /

(6)

(C7)σ₀2(.) e f(.) são contínuas no ponto x, e f(x)>0;

(C8) Para um dado ponto x, f(x)>0, σ₀2(x)>0 e as funções E[Y_tk/X_t =x], ∀ t∈ Z , são contínuas em x para k=3,4. Além disso, m&&(z)≡∂2m(z)/∂z2 e σ&&₀2(z)≡∂2{σ₀2(z)}/∂z2 são uniformemente contínuas num conjunto aberto contendo o ponto x;

(C9) E[Y_t4(1+δ)]<∞, ∀ t∈ Z , em que δ∈[0,1) é uma constante ;

(C10) As funções kernels K₁ e K₂ são funções densidades simétricas, cada uma com suporte limitado. Mais ainda, |K₁(x₁)−K₁(x₂)|≤c|x₁−x₂|, |K₂(x₁)−K₂(x₂)|≤c|x₁−x₂|, e também | | | ) ( ) ( |f x₁ − f x₂ ≤c x₁−x₂ para x₁,x₂∈R;

(C11) O processo (X_t,Y_t) é absolutamente regular, isto é

0 } | ] [ ] / [ | sup { sup ) ( ₁ 1 → − ≡ ∞ + ∈ ≥ E P A P A k i A i F_i _k F β , conforme k→∞,

em que F_uv é a σ-álgebra gerada por {(X_t,Y_t):t=u,K,v} (v≥u). Mais ainda, para o mesmo δ da condição (C9),

∑

∞ = + _<_∞ 1 ) 1 /( 2 ₍ ₎ k k k δ δ β . Convenção: 00 =0;

(C12) Conforme T→∞, h_i →0 e liminfTh_i4 >0, i=1,2.

Teorema 3.1. Considere um processo {(Xt,Yt), t∈ Z} estritamente estacionário, com Xt e Yt possuindo

segundos momentos finitos, e com Xt a valores contínuos. Satisfeitas as condições (C1) a (C12), temos que

) ( ) ( ˆ ₀ T 0 x P

ρ

x

ρ

∞ → →

 , para cada x∈S fixado.

prova:

Por (C1) e pelo Teorema 6.2.2 de Fuller (1976), cτ é consistente para γ , portanto, τ 0 γ0 ∞ → →  T P c .

Agora, vamos verificar a convergência de βˆ₀(x). Pelo Teorema 6.3 de Fan e Yao (2005), temos que sob as condições de regularidade (C2) a (C7), para T →∞,

          →          + − −

∫

+ + + −

∫

+ ) ( ) ( ) ( ) ! ( , 0 )! 1 ( ) ( ! ) ( ) ( ) ( ˆ 2 2 0 2 1 1 ) 1 ( 1 ) ( ) ( 1 2 1 * * x f du u K x v N h p x m v du u K u x m x m Th v v v p _v p p v D v σ , com _K*(_u) T ₁ 1(1,_u, ,_up)T_K(_u) v

v =e ₊ S− K , sendo ev+1 o vetor unitário com 1 na (v+1)-ésima posição e S uma matriz (p+1)×(p+1) cujo elemento ( ji, ) é

∫

+∞

∞ − − + − +j = ui j K u du i 2 2 ( ) µ . E quando T→∞, h₁p+ v1− →0.

Portanto, utilizando o Teorema 2.3.4. de Lehmann (1999), temos que mˆ(1)(x) m(1)(x) T P ∞ → →  , ou seja, ) ( ) ( ˆ₀ _x ₀ _x T P _β β ∞ → →  .

Satisfeitas as condições de regularidade (C8) a (C12), o Teorema 8.5 de Fan e Yao (2005) é válido, ou seja, para T→∞,

(7)

        →  − −

∫

K u du x f x x N x x Th _T D ( ) ) ( ) ( ) ( , 0 ) ) ( ) ( ˆ ( ₂2 2 4 0 2 0 2 0 2 λ σ θ σ σ , com θ_T =(h₂2/2)σ&&₀2(x)

∫

u2K₂(u)du+o(h₁2+h₂2), λ2(x)=E[(e_t2−1)2/X_t =x] e e_t =(Y_t−m(X_t))/σ₀(X_t). Como para T→∞, h₂2→0, novamente pelo Teorema 2.3.4. de Lehmann (1999), temos que

) ( ) ( ˆ₀2 x ₀2 x T P _σ σ ∞ → →  .

Considere θˆ=(βˆ₀(x),σˆ₀2(x),c₀)′=(θˆ₁,θˆ₂,θˆ₃)′ e θ=(β₀(x),σ₀2(x),γ₀)′=(θ₁,θ₂,θ₃)′. Verificamos, para cada x∈S com f(x)>0, que θˆ_j →P θ_j, j=1,2,3, com h_i →0 e liminfTh_i4 >0, i=1,2, conforme

∞ →

T . Portanto, usando o Lema 5.1.3 e o Teorema 5.1.4 de Fuller (1976), temos que ρˆ₀(x)→P ρ₀(x), conforme T→∞, para cada x∈S fixado.

Fan e Yao (2005, página 395) observam que as condições dos suportes de K₁(.) e K₂(.) serem limitados, facilitam as provas dos teoremas. Na prática, o kernel Gaussiano pode ser utilizado. Além disso, a suposição sobre a taxa de convergência de β(k) é para conveniência técnica, sendo que o resultado também pode ser estabelecido para outros tipos de coeficientes mixing. Finalmente, as taxas de convergência de h1 e

2

h da condição (C12) não são as menores possíveis.

3 . 1 . 5 S i m u l a ç õ e s

O comportamento da curva de correlação cruzada contemporânea foi avaliado considerando-se se um modelo VAR(1)-MGARCH(1,1) estacionário dado por

t t t Φ Φ Z ε

Z = 0+ 1 −1+ ,

em que Z_t =(X_t,Y_t)′, Φ₀ =(1,1)′, vec(Φ₁)=(0,25;0,2;0,2;0,75)′ e ε_t =(ε₁_t,ε₂_t)′, que representado na forma BEKK é tal que ε_t =∑1_t/2v_t com ∑_t =C′C+A′ε_t₋₁ε_t′₋₁A+B′∑_t₋₁B em que vec(C)=(0,34;0,17;0 ;0,23)′,

) 4 , 0 ; 1 , 0 ; 1 , 0 ; 5 , 0 ( ) (A = ′

vec e vec(B)=(0,35;0,22;0,22;0,12)′, e v_t é uma seqüência bidimensional normal padrão. Consideramos 200 réplicas de Monte Carlo com diferentes tamanhos de séries (100, 200 e 500), grade com 199 pontos, 90% dos dados centrais, kernel Gaussiano e largura de faixa igual ótima de Ruppert et al. (1995).

Para a simulação com 200 séries de tamanho 500, obtivemos a estimação da curva de correlação cruzada contemporânea média. O comportamento desta apresenta-se na Figura 3.1 a qual indica um decréscimo da correlação local entre os pontos de grade 4 e 6, aproximadamente. Na Tabela 3.1 temos a variância do estimador em relação à curva média, e o p-valor do teste de normalidade de Jarque Bera que não rejeitou a normalidade do estimador para três pontos de grade avaliados. Na Figura 3.2 vemos os histogramas das estimativas calculadas.

No Apêndice C (Figura C.1), temos os resultados das simulações também para séries de tamanho 100 e 200. Comparando as três simulações, vemos que a variância diminui com o aumento do tamanho da série, e a rejeição da normalidade diminui da amostra menor para a amostra maior.

(8)

Figura 3.1 – Curva de correlação cruzada contemporânea estimada, utilizando 200 séries de tamanho 500, observadas de um modelo VAR(1)-MGARCH(1,1).

Tabela 3.1 – Variância e p-valor do teste de normalidade de Jarque Bera de ρˆ₀(x), considerando 200 séries de tamanho 500, observadas de um modelo VAR(1)-MGARCH(1,1).

Medidas 1,37 2,47 3,58 4,68 5,79 6,89 8,00

Variância 0,053 0,031 0,021 0,053 0,147 0,320 0,657

P-valor 0,351 0,000 0,247 0,000 0,504 0,024 0,006

Figura 3.2 – Histogramas em pontos de grade de ρˆ₀(x), considerando 200 séries de tamanho 500, observadas do modelo VAR(1)-MGARCH(1,1).

2 3 4 5 6 7 8 -1 .0 -0 .5 0 .0 0 .5 1. 0 x 0 ˆ ρ 1.37 -0.4 0.0 0.4 0.8 0. 0 1.0 2. 0 3. 0 2.47 -1.0 -0.5 0.0 0.5 01 2 3 4 3.58 0.0 0.2 0.4 0.6 01 23 4 4.68 -0.5 0.0 0.5 0. 0 1.0 2.0 3.0 5.79 -0.5 0.0 0.5 0. 0 0.5 1. 0 1. 5 2. 0 6.89 -1.5 -0.5 0.5 0. 0 0. 4 0. 8 8 -2 -1 0 1 0. 0 0. 4 0. 8

(9)

3 . 1 . 6 A p l i c a ç õ e s a s é r i e s r e a i s

A seguir analisamos a curva de correlação cruzada contemporânea considerando os retornos diários da Petrobrás e do Ibovespa, e também do Banespa e Ibovespa, no período de 2/jan/95 a 27/dez/00 (1.498 dados). Os parâmetros utilizados nestas simulações são os mesmos da seção anterior, porém agora com grade de 401 pontos e largura de faixa igual ao desvio padrão da série condicionada (Bjerve e Doksum, 1993).

Na seção 2.2.2 vimos que os retornos da Petrobrás (Xt) e do Ibovespa (Yt) apresentaram correlação linear

de Pearson 0,83. No gráfico (a) da Figura 3.3, observamos o gráfico de dispersão dos retornos da Petrobrás (Xt) do Ibovespa (Yt). Nesta mesma figura, o gráfico (b) refere-se ao coeficiente angular local estimado o qual

apresenta-se positivo, porém, com tendência decrescente até aproximadamente o valor de grade 0.03, a partir de onde se inicia uma tendência crescente. A variância condicional local (gráfico (c)) apresenta-se maior nos extremos da grade. Por fim, a curva de correlação (gráfico (d)) que possui valores entre 0,79 e 0,87, indica um pequeno decréscimo a partir do valor de grade -0,01, aproximadamente. Tal fato deve-se ao comportamento decrescente do coeficiente angular local. Portanto, a correlação entre os retornos da Petrobrás e do Ibovespa, passa a ser ligeiramente menor com o aumento dos possíveis valores de retornos da Petrobrás, a partir do valor -0,01. Para estas duas séries, vimos na Figura 2.38 que o gráfico de curvas de nível de Hˆ0 apresenta dependência positiva e simétrica, e que a densidade cópula empírica cˆ também apresenta dependência positiva mas com uma pequena assimetria, no caso, menor dependência entre os maiores valores dos postos normalizados. Na Figura 3.3, vimos que ρ apresenta um leve decréscimo ao longo dos valores ˆ0 de x.

Correlação linear de Pearson 0,54 foi obtida para os retornos do Banespa (Xt) e do Ibovespa (Yt).

Observando o gráfico (b) da Figura 3.4, vemos que o coeficiente angular local é positivo (mas com valores menores que o caso acima), apresentando tendência decrescente ao longo da grade. Já a variância condicional local (gráfico (c)), apresenta valores maiores nos pontos de grade maiores quando comparado com os menores. Finalmente, no gráfico (d) vemos a curva de correlação cruzada contemporânea (com valores entre 0,31 e 0,67) a qual apresenta tendência decrescente também a partir do ponto de grade -0,01, aproximadamente, porém, esta tendência é mais acentuada que no caso acima devido a maior variância nos valores de grade maiores. Ou seja, a correlação entre os retornos do Banespa e do Ibovespa passa a ser menor quanto maior for o possível valor do retorno do Banespa, a partir de -0,01. Para estas séries, a Figura 2.40 apresenta Hˆ0 com dependência positiva simétrica, e cˆ com dependência positiva ligeiramente assimétrica (menor para os maiores valores). Já na Figura 3.4, ρ indica considerável decréscimo da correlação. ˆ0

(10)

Figura 3.3 – (a) Gráfico de dispersão dos retornos do Petrobrás (Xt) e da Ibovespa (Yt) no período de 2/jan/95 a 27/dez/00 (correlação 0,83), (b) coeficiente

angular local estimado βˆ0(x), (c) variância condicional local estimada σˆ02(x) e (d) curva de correlação cruzada contemporânea estimada ρˆ0(x).

-0.2 -0.1 0.0 0.1 0.2 -0 .1 0. 0 0.1 0. 2 0.3 Xt Yt -0.04 -0.02 0.00 0.02 0.04 0. 0 0.2 0. 4 0.6 0. 8 1.0 x -0.04 -0.02 0.00 0.02 0.04 0. 00 00 0. 00 05 0. 00 10 0. 0015 x -0.04 -0.02 0.00 0.02 0.04 -1 .0 -0 .5 0. 0 0. 5 1. 0 x (d) (b) (c) (a) 0 ˆ β 2 0 ˆ σ ρˆ₀

(11)

Figura 3.4 – (a) Gráfico de dispersão dos retornos do Banespa (Xt) e do Ibovespa (Yt) no período de 2/jan/95 a 27/dez/00 (correlação 0,54), (b) coeficiente

angular local estimado βˆ₀(x), (c) variância condicional local estimada ˆ2( ) 0 x

σ e (d) curva de correlação cruzada contemporânea estimada ρˆ₀(x).

-0.2 -0.1 0.0 0.1 0.2 0.3 -0 .1 0. 0 0.1 0. 2 0.3 Xt Yt -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0. 0 0.2 0. 4 0.6 0. 8 1.0 x -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0. 00 00 0. 00 05 0. 00 10 0. 0015 x -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 -1 .0 -0 .5 0. 0 0. 5 1. 0 x 0 ˆ β 2 0 ˆ σ ρˆ₀ (d) (b) (c) (a)

(12)

3 . 2 C u r v a d e A u t o c o r r e l a ç ã o

Considere o seguinte modelo utilizado em séries financeiras:

t p t t p t t t m X X X X X = ( ₋₁ ,K, ₋ )+σ( ₋₁,K, ₋ )ε , ε_t ~iid(0,1) e ε_t ⊥X_t₋_k, k≥1,

em que m(.) e σ2(.) representam, respectivamente, a esperança e a variância condicional de X_t dado

p t

t X

X ₋₁,K, ₋ . Este modelo pode ser denominado CHARN (de “conditional heteroscedastic autoregressive nonlinear” segundo Yang et al., 1999) ou modelo tipo ARCH (Masry e Tjøstheim, 1995).

Se utilizarmos modelos paramétricos para estimar as funções m(.) e σ , temos que um modelo (.)

particular é o ARCH. Para ver isto, considere m(.) linear e σ2(X_t₋₁,K,X_t₋_p)=α₀+α₁X_t2₋₁+K+α_pX_t2₋_p,

então, o modelo resultante é o ARCH(p) definido por Engle (1982). Outra abordagem é utilizar técnicas não paramétricas para estimar estas funções, e então este modelo pode ser denominado NARCH (de “nonparametric autoregressive conditional heteroscedastic”, conforme Fan e Yao, 2005).

Sob certas condições no crescimento de m(.) e σ , o processo {X(.) t} gerado pelo modelo 1 1 1 1 ( , , ) ( , , ) + + + + + + + +ip = t i t ip + t i t ip t ip t m X X X X X _K σ _K ε , 0≤i₁ <i₂<_K<i_p₊₁,

(que é um modelo que possibilita uma quantidade menor de variáveis aleatórias defasadas para a mesma ordem p do modelo anterior) é estritamente estacionário e α-mixing, com coeficiente mixing apresentando decaimento exponencial (Masry e Tjøstheim, 1995 – Lema 3.1).

Observamos que um processo GARCH(p,q) representado por X_t =σ_tε_t,

∑

= − + = − + = q j j t j p i i t i t2 α0 ₁α X2 ₁β σ2

σ , em que ε_t ~IID(0,1), α_i ≥0, β_j ≥0, é α-mixing com coeficiente mixing apresentando decaimento exponencial se (i) 1

1 1 +

∑

<

∑

= = q j j p

i αi β e (ii) a função de densidade de ε t é positiva num intervalo contendo o zero (Fan e Yao, 2005 – página 70).

Sabemos que se m(.) é linear e σ é constante, então recaímos no modelo AR(p). E se o processo é (.)

Gaussiano estacionário com média zero, então m(.) é linear e σ é constante (Fan e Yao, 2005). Além (.)

disso, um processo linear usual é α-mixing com coeficiente mixing apresentando decaimento geométrico (Bosq, 1998 – páginas 18 e 46).

A partir de agora, iremos nos concentrar na subclasse dos sistemas não lineares tipo ARCH em que m(.)

e σ são funções de uma única variável aleatória defasada. (.)

Seja {Xt , t∈Z} um processo estacionário estrito e de segunda ordem a valores contínuos, que pode ser

considerado gerado a partir do modelo (3.1) em que Yt =Xt+_τ, ou seja τ

τ σ ε +

+ = t + t t

t m X X

X ( ) ( ) , com ε_t ~ iid(0,1) e εt+k ⊥Xt, k≥1, (3.4) sendo que m(x)=E[X_t₊_τ /X_t =x] e σ2(x)=Var[X_t₊_τ /X_t =x] estão bem definidas.

A seguir, vamos derivar a expressão da curva de correlação (1.2).

Como o processo é estacionário estrito, vimos na seção 2.1 que a distribuição de (X_t,X_t₊_τ) só depende da defasagem τ , e então β(x)=∂/∂x E[X_t₊_τ /X_t =x] e σ2(x)=Var[X_t₊_τ /X_t =x] também só dependem da defasagem τ .

(13)

Portanto, a curva de correlação (1.2) pode ser escrita da seguinte forma ) ( ) ( ) ( ) ( 2 0 2 0 x x x x τ τ τ τ

σ

γ

β

γ

β

ρ

+ = , ∀x∈S com f(x)>0, ∀ t,τ∈Z, (3.5)

em que β_τ(x) e

σ

_τ2(x) são como β(x) e σ2(x) acima, e γ₀ =Var[X_t]. Denominamos esta medida local de curva de autocorrelação.

As seguintes propriedades são válidas para a curva de autocorrelação (3.5):

(i) −1≤ρ_τ(x)≤+1, ∀τ∈Z , ∀x∈S; prova: Imediata.

(ii) ρ₋_τ(x)=ρ_τ(x), ∀τ∈Z , ∀x∈S; prova:

Como o processo é estacionário estrito, então f_X_t_,_X_t₊_τ (x₁,x₂)= f_X_t₋_τ_,_X_t(x₁,x₂) que implica em

] / [ ] / [X X x E X X x

E _t₊_τ _t = = _t _t₋_τ = e Var[X_t₊_τ /X_t =x]=Var[X_t /X_t₋_τ =x]. Portanto, ρ_τ(x)=ρ₋_τ(x).

(iii) ρ_τ(x)=ρ_τ , ∀τ∈Z , ∀x∈S se {X_t} é um processo Gaussiano. prova:

Se o processo é Gaussiano, então X_t₊_τ /X_t =x ~N(µ+ρ_τ(x−µ), γ₀(1−ρ_τ2)), ∀ t,τ∈Z . Portanto, τ τ ρ β (x)= , e então τ τ τ τ τ τ τ τ ρ ρ γ γ ρ γ ρ σ γ β γ β ρ = − + = + = ) 1 ( ) ( ) ( ) ( ) ( 2 0 0 2 0 2 0 2 0 x x x x .

A seguir encontram-se as expressões de ρ_τ(x), ∀x∈S e ∀τ∈Z , para alguns modelos simples.

(i) Modelo AR(1)

Considere um processo {Xt , t∈Z} estacionário estrito e de segunda ordem, seguindo um modelo AR(1)

representado por X_t =φ₀ +φ₁X_t₋₁+a_t, a_t ~iid(0,σ_a2). Pode-se verificar que ρ_τ(x)=ρ_τ, ∀x∈S, τ∈Z (veja prova no Apêndice B). Portanto, neste modelo, a curva de autocorrelação reduz-se à função de autocorrelação.

(ii) Modelo MA(1)

Considere um processo {Xt , t∈Z} estacionário estrito e de segunda ordem, seguindo um modelo MA(1)

com a seguinte representação: X_t =θ₀−θ₁a_t₋₁+a_t, a_t ~iid(0,σ_a2). A curva de autocorrelação para este modelo é dada por (veja Apêndice B):

(14)

       ≥ = + + + − = = 2 | | , 0 1 | | , 1 2 ) 1 ( 0 , 1 ) ( 2 1 4 1 2 1 2 1 τ τ θ θ θ θ τ ρ_τ x , ∀x∈S,

que é constante em relação a x.

(iii) Modelo ARCH(1)

Considere um processo {Xt, t∈Z} estacionário estrito e de segunda ordem, seguindo um modelo

ARCH(1) representado por X_t =σ_tε_t, σ_t2 =α₀+α₁X_t2₋₁ e ε_t ~ iid(0,1). Como neste modelo a componente da esperança condicional é nula, então a derivada desta em relação a x (coeficiente angular) também será nula. Portanto, a curva de autocorrelação será nula.

Para o processo em estudo, sugerimos um estimador similar ao estimador (3.3), em que consideramos τ

+ = _t

t X

Y , t=_{1 K}, ,T−τ, τ =0,_K,T−1.

Portanto, observados (_{X K}₁, ,X_T), a curva de autocorrelação (3.5) pode ser estimada através de:

) ( ˆ ) ( ˆ ) ( ˆ ) ( ˆ 2 0 2 0 x c x c x x τ τ τ τ

σ

β

ρ

+ = _(3.6) em que

∑

= − = = T t Xi X T c 1 2 0 0

γ

ˆ 1 ( ) , ) ( ˆ ) ( ˆ _x ₌_m(1) _x τ

β utilizando um polinômio quadrático local com kernel K1, largura de faixa h1 e o

conjunto de dados {(X_t,X_t₊_τ), t=1,_K,T−τ}, ) ( ˆ ) ( ˆ_τ2 x =m(0) x

σ

utilizando um polinômio linear local, um kernel K2, uma largura de faixa h2 e o

conjunto de dados {(X_t,rˆ_t2), t=1,K,T−τ}, sendo rˆ_t =X_t_+τ −mˆ(X_t) com mˆ(X_t) sendo previsto após o ajuste de um polinômio linear local nos pontos de grade x∈G, que utiliza o kernel K1, a

largura de faixa h1 e o conjunto de dados {(X_t,X_t₊τ), t=1,K,T−τ}.

Considere as condições de regularidade (C1) a (C12) da seção 3.1.4 devidamente adptadas.

Teorema 3.2. Considere um processo {Xt , t∈ Z} estritamente estacionário e de segunda ordem, a valores

contínuos. Satisfeitas as condições (C1) a (C12), então ) ( ) ( ˆ T x x P _τ τ ρ ρ ∞ → →

 , para cada x∈ fixado. S prova: Similar à do Teorema 3.1.

(15)

3 . 2 . 1 S i m u l a ç õ e s

Avaliamos o comportamento da curva de autocorrelação utilizando o modelo AR(1)-ARCH(1) dado por t t t X a X =φ₁ ₋₁+ , t t t a =σ ε , 2 1 1 0 2 − + = _t t α α a σ ,

em que ε_t ~ N(0,1), φ₀=0, φ₁=0,8, α₀ =0,1 e α₁=0,8. Para tanto, utilizamos 200 repetições de séries de tamanho 200, 500 e 1.000. A grade, o percentual de dados e a largura de faixa utilizados foram iguais aos da seção 3.1.5.

Referente a simulação com séries de tamanho 1.000, observamos na Figura 3.5 a curva de autocorrelação média estimada para os lags 1 a 4. Com o aumento do lag, vemos que a curva de autocorrelação diminui de intensidade (possivelmente devido à redução da dependência da parte autoregressiva do modelo) e torna-se mais linear (devido à suavização da componente da volatidade do modelo). Na Tabela 3.2, vemos que com o aumento da defasagem, a variância do estimador aumenta e a rejeição da normalidade permanece inalterada. Na Figura 3.6, apresentam-se os histogramas do estimador no lag 2 em alguns pontos de grade, os quais indicam afastamento da normalidade.

A variância do estimador diminui com o aumento do tamanho da série para todas as defasagens, enquanto que o nível descritivo (nulo) permanece inalterado, conforme podemos observar através da comparação da simulação anterior com as simulações contendo séries de tamanho 200 e 500 (Figura C.2 do Apêndice C).

Tabela 3.2 – Variância e p-valor do teste de normalidade de Jarque Bera de ρˆ x_τ( ), considerando 200 séries de tamanho 1.000, observadas do modelo AR(1)-ARCH(1), com inovações Gaussianas.

Medidas Lag -1,53 -1,02 -0,51 0,00 0,51 1,02 1,53 Variância 1 0,042 0,008 0,005 0,002 0,009 0,039 0,080 Variância 2 0,066 0,055 0,034 0,013 0,026 0,050 0,101 Variância 3 0,095 0,091 0,037 0,017 0,032 0,056 0,120 Variância 4 0,136 0,084 0,055 0,038 0,041 0,095 0,124 P-valor 1 0,000 0,000 0,000 0,000 0,000 0,000 0,000 P-valor 2 0,000 0,000 0,000 0,000 0,000 0,000 0,000 P-valor 3 0,000 0,000 0,000 0,000 0,000 0,000 0,000 P-valor 4 0,000 0,000 0,000 0,000 0,000 0,000 0,000

(16)

Figura 3.5 – Curva de autocorrelação média para os lags 1 a 4, considerando 200 séries de tamanho 1.000, observadas

de um modelo AR(1)-ARCH(1) com φ₀=0, 8φ₁=0, , 1α₀=0, e α₁=0,8, e inovações Gaussianas.

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1 .0 -0 .5 0 .0 0 .5 1 .0 x Ro (x ) tau=1 τ ρˆ -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1 .0 -0 .5 0 .0 0 .5 1 .0 x Ro (x ) tau=3 τ ρˆ -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1 .0 -0 .5 0 .0 0.5 1. 0 x Ro (x ) tau=2 τ ρˆ -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1 .0 -0 .5 0. 0 0 .5 1 .0 x Ro (x ) tau=4 τ ρˆ

(17)

Figura 3.6 – Histogramas em pontos de grade de ρˆ x( ) para o lag 2, considerando 200 séries de tamanho 1.000, observadas do modelo AR(1)-ARCH(1) com φ₀=0, 8φ₁=0, , 1α₀=0, e α₁=0,8, e inovações Gaussianas.

-1.16 -0.5 0.0 0.5 1.0 01 23 4 -0.78 -1.0 -0.5 0.0 0.5 1.0 01 23 4 5 -0.39 -0.5 0.0 0.5 1.0 0 246 0 -0.4 0.0 0.4 0.8 024 6 0.39 -0.4 0.0 0.4 0.8 0246 0.78 -0.5 0.0 0.5 1.0 01 23 45 1.16 -1.0 -0.5 0.0 0.5 1.0 01 23 4

(18)

3 . 2 . 2 A p l i c a ç õ e s a s é r i e s r e a i s

A seguir analisamos a curva de autocorrelação considerando os retornos diários da Petrobrás e do Banespa (2/jan/95 a 27/dez/00), considerando a série adiantada em 1, 2 ou 3 dias dado a série. Os parâmetros utilizados nestas simulações são os mesmos da seção 3.1.6.

Considerando os retornos da Petrobrás, para o lag 1, vemos no último gráfico da Figura 3.7 que há indicações da correlação local positiva apresentar inicialmente uma tendência crescente. Já a curva de autocorrelação no lag 2 (gráfico (d) da Figura 3.8) apresenta inicialmente valores negativos e com uma leve tendência crescente, permanecendo constante e positiva para os valores de grade próximos de zero, e então ocorre uma tendência decrescente atingindo novamente valores negativos. Por fim, para a defasagem 3, vemos que a curva de autocorrelação (último gráfico da Figura 3.9) apresenta uma suave oscilação em torno do valor zero ao longo da grade.

Nas figuras 3.10 a 3.12, para as defasagens 1 a 3, respectivamente, apresentam-se as curvas de autocorrelação (gráfico (d)), dentre outros, para os retornos diários do Banespa. No lag 1, a curva de autocorrelação positiva apresenta uma leve tendência crescente para os maiores valores da grade. Já no lag 2, a correlação local apresenta inicialmente valores negativos alcançando valores positivos, pois há tendência crescente a partir de valores de grade -0,01 aproximadamente. A curva de autocorrelação apresenta-se praticamente constante no lag 3.

(19)

Figura 3.7 – Para os retornos da Petrobrás (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 1 (correlação 0,111), temos: (a) gráfico de dispersão, (b) coeficiente angular local estimado βˆ x_τ( ), (c) variância condicional local estimada σˆ_τ2(x), e (d) curva de autocorrelação estimada ρˆ x_τ( ).

-0.2 -0.1 0.0 0.1 0.2 -0. 2 -0. 1 0. 0 0. 1 0. 2 Xt Xt+ 1 -0.04 -0.02 0.00 0.02 0.04 -0 .3 -0 .1 0. 1 0.3 x -0.04 -0.02 0.00 0.02 0.04 0. 00 0 0. 002 0. 00 4 x -0.04 -0.02 0.00 0.02 0.04 -1 .0 -0 .5 0. 0 0.5 1. 0 x (d) (c) (b) (a) τ βˆ 2 ˆτ σ ρˆτ

(20)

Figura 3.8 – Para os retornos da Petrobrás (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 2 (correlação -0,020), temos: (a) gráfico de dispersão, (b) coeficiente angular local estimado βˆ x_τ( ), (c) variância condicional local estimada ˆ2(_x)

τ

σ , e (d) curva de autocorrelação estimada ρˆ x_τ( ).

-0.2 -0.1 0.0 0.1 0.2 -0 .2 -0 .1 0. 0 0.1 0. 2 Xt Xt+ 2 -0.04 -0.02 0.00 0.02 0.04 -0. 3 -0. 1 0. 1 0. 3 x -0.04 -0.02 0.00 0.02 0.04 0. 000 0. 002 0. 004 x -0.04 -0.02 0.00 0.02 0.04 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆτ (d) (c) (b) (a)

(21)

Figura 3.9 – Para os retornos da Petrobrás (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 3 (correlação -0,065), temos: (a) gráfico de dispersão (b) coeficiente angular local estimado βˆ x_τ( ), (c) variância condicional local estimada ˆ2(_x)

τ

-0.2 -0.1 0.0 0.1 0.2 -0. 2 -0. 1 0. 0 0. 1 0. 2 Xt Xt+ 3 -0.04 -0.02 0.00 0.02 0.04 -0 .3 -0 .1 0. 1 0.3 x -0.04 -0.02 0.00 0.02 0.04 0. 00 0 0. 002 0. 00 4 x -0.04 -0.02 0.00 0.02 0.04 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆτ (d) (c) (b) (a)

(22)

Figura 3.10 – Para os retornos do Banespa (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 1 (correlação 0,125), temos: (a) gráfico de dispersão (b) coeficiente angular local estimado βˆ x_τ( ), (c) variância condicional local estimada ˆ2(_x)

τ

-0.2 -0.1 0.0 0.1 0.2 0.3 -0 .2 0. 0 0.2 Xt Xt+ 1 -0.06 -0.02 0.00 0.02 0.04 0.06 -0 .3 -0 .1 0. 1 0.3 x -0.06 -0.02 0.00 0.02 0.04 0.06 0. 00 0 0. 002 0. 00 4 x -0.06 -0.02 0.00 0.02 0.04 0.06 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆτ (d) (c) (b) (a)

(23)

Figura 3.11 – Para os retornos do Banespa (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 2 (correlação 0,011), temos: (a) gráfico de dispersão, (b) coeficiente angular local estimado βˆ x_τ( ), (c) variância condicional local estimada ˆ2(_x)

τ

-0.2 -0.1 0.0 0.1 0.2 0.3 -0. 2 0. 0 0. 2 Xt Xt+ 2 -0.06 -0.02 0.00 0.02 0.04 0.06 -0. 3 -0. 1 0. 1 0. 3 x -0.06 -0.02 0.00 0.02 0.04 0.06 0. 000 0. 002 0. 004 x -0.06 -0.02 0.00 0.02 0.04 0.06 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆ_τ (d) (c) (b) (a)

(24)

Figura 3.12 – Para os retornos do Banespa (Xt) no período de 2/jan/95 a 27/dez/00 com defasagem 3 (correlação 0,017), temos: gráfico de dispersão, (b) coeficiente angular local estimado βˆ x_τ( ), (c) variância condicional local estimada ˆ2(_x)

τ

-0.2 -0.1 0.0 0.1 0.2 0.3 -0. 2 0. 0 0. 2 Xt Xt+ 3 -0.06 -0.02 0.00 0.02 0.04 0.06 -0. 3 -0. 1 0. 1 0. 3 x -0.06 -0.02 0.00 0.02 0.04 0.06 0. 000 0. 002 0. 004 x -0.06 -0.02 0.00 0.02 0.04 0.06 -1 .0 -0 .5 0. 0 0.5 1. 0 x τ βˆ 2 ˆτ σ ρˆ_τ (d) (c) (b) (a)