• Nenhum resultado encontrado

A.14 Previsões "fora" da amostra SARIMA PAX Totais

2.4 Testes de Raiz Unitária

2.4.2 Teste Dickey-Fuller Aumentado (ADF)

O problema do teste anterior é que Dickey & Fuller (1979) consideraram o erro como sendo um ruído branco. Mas, com frequência, o erro é um processo estacionário AR, MA ou ARMA qualquer. Sendo assim, esse problema pode causar distorções no poder do teste.

A ideia do teste de Dickey-Fuller Aumentado é tratar a série como sendo um processo autorregressivo de ordem p, com raiz unitária, na forma:

yt= µ + φ1yt−1+ ... + φp−1yt−p+1+ φpyt−p+ εt (2.190)

Essa é uma forma de corrigir o desvio do valor da estatística, encontrando o desvio de ytem relação à sua média, a m de deslocar a distribuição de α em direção a zero, caso

a hipótese nula seja verdadeira.

Sendo assim, adiciona-se tantas variáveis autorregressivas quantas forem necessárias até que o teste de resíduos não rejeite a hipótese nula de que se trata de um ruído branco. Consequentemente, pode-se reescrever a Equação 2.190 como:

∆yt= αyt−1+ p−1 X i=1 λi∆yt−i+ εi (2.191) em que: α = − 1 − p X i=1 φi ! (2.192) e λ = − p−1 X j=i φj+1 (2.193)

Portanto, se o polinômio autorregressivo 2.190 possuir uma raiz unitária, logo λ = 0. Sendo assim, o teste pode ser feito, usando-se os mesmos valores críticos encontrados por Dickey e Fuller.

Como um modelo MA(q) pode ser transformado em um AR(∞) surge um problema em como estimar um modelo com innitas defasagens, para isso Said & Dickey (1984) pro- varam que um modelo ARIMA(m, 1, n) pode ser bem aproximado por um ARIMA(p, 1, 0)

em que p ≤ T1 3.

Seguindo a mesma lógica de Said & Dickey (1984), MacKinnon (1991, 1994, 1996) desenvolveu uma metodologia bem mais abrangente para obter a estatística t do teste de Dickey e Fuller. Assim, o autor indica que deve-se realizar uma defasagem p ideal para que os resíduos estimados se tornem um ruído branco. MacKinnon informa que poucas defasagens não tornam os resíduos um ruído branco, e excesso de defasagens diminuem sobremaneira o poder do teste em direção da rejeição da hipótese nula, afetando a distribuição de α.

Assim, para denir p, existem duas possibilidades:

ˆ A primeira é acrescentar o número de defasagens sucientes para encontrar resíduos que sejam isentos de autocorrelação, para isso pode-se usar o teste de Ljung-Box denido na Equação 2.110.

ˆ A segunda é xar um pmax relativamente alto. Em seguida estima-se o modelo

por MQO para pmax, pmax − 1, ..., 0 e coletam-se os valores de algum critério de

informação como HQ, AIC ou BIC, denidos pelas Equações 2.114, 2.113 e 2.112, respectivamente, até que se rejeite a hipótese nula de correlação nos erros.

Para o primeiro caso, deve-se escolher o valor de defasagens que resulta no menor critério de informação.

Para o segundo caso o valor de pmax ideal foi proposto por Schwert (1989) conforme:

pmax = int " 12  T 100 14# (2.194) em que int (x) é a parte inteira de x, ou seja, numa série com T = 200 tem-se 14 defasagens, no máximo.

Assim como no teste DF, o teste ADF pode ser realizado conjuntamente para dois ou três coecientes conforme Dickey & Fuller (1981). Considere as seguinte especicações:

∆yt= µ + δt + αyt−1+ p−1 X i=1 λi∆yt−i+ εi (2.195) ∆yt= µ + αyt−1+ p−1 X i=1 λi∆yt−i+ εi (2.196) ∆yt= αyt−1+ p−1 X i=1 λi∆yt−i+ εi (2.197)

Os valores críticos desses testes seguem os mesmos valores tabulados por Dickey & Fuller (1981) e Fuller (1996) e avaliados por MacKinnon (1991), MacKinnon (1994) e MacKinnon (1996).

Em Pattersson (2000) e Enders (2015), é exibido um roteiro para a realização dos testes de raiz unitária. A Figura 2.8 informa o panorama com esse procedimento.

Figura 2.8: Procedimento para teste de raiz unitária Fonte: Adaptado de Enders (2015)

Informações adicionais do teste ADF são discutidas em Hamilton (1994), Fuller (1996), Moryson (1998), Maddala & Kim (1998), Lutkepohl & Kratizig (2004), Morettin & Toloi (2006), Cryer & Chan (2008) e Box et al. (2016).

2.4.3 Teste DF-GLS ou ERS

Elliott et al. (1996) argumentam que o teste ADF apresentava um baixo poder e cometia muitos erros do tipo II quando α → 1, porém α < 1; e quando as séries possuíam termos determinísticos. Inclusive, Perron & Ng (1996) chegam a esta mesma conclusão.

Sendo assim, Elliot, Rothemberg e Stock (1996) argumentam que o poder do teste poderia ser melhorado se, de alguma forma, os termos determinísticos fossem expurgados da regressão do teste. Sendo assim, os autores sugerem uma modicação do teste ADF, rebatizando-o como DF-GLS com hipótese nula de raiz unitária. A sigla GLS remete ao método estatístico Generalized Least Squares, ou Mínimos Quadrados Generalizados.

Considere o seguinte modelo:

yt = y0+ δt + ψ (B) εt (2.198)

ψ (B) são os componentes de um processo ARMA estacionário descrito na Equação 2.98.

Elliott et al. (1996) consideram subtrair uma constante α dos termos ARMA, logo a sequência defasada αyt−1 será dada por:

e

yt = y0+ δt − αµ − αδ (t − 1) + εt t = 2, 3, ..., T (2.199)

onde yet = yt − αyt−1. Para algum α ≡ 1 −

c

T, em que o valor de c é decorrente

de experimentos de Monte Carlo realizado pelos autores a m de maximizar o poder do teste, sendo (7; 13, 5). Elliott et al. (1996) relatam que o valor de α que parece fornecer a melhor potência global é α = 1−7

T para o caso de um intercepto; e α = 1−13,5

T se houver

uma intercepção e tendência.

Para simplicar, colete termos com y0 e δ para obter:

e

yt= (1 − α) y0+ δ [(1 − α) t + α] + εt (2.200)

Criando as variáveis zt para (1 − α) que é o termo constante e xt para (1 − α) t + α

que é o termo de tendência, pode ser obtido os valores de y0 e δ por uma regressão de

mínimos quadrados ordinários, caso os erros sejam ruído branco. Caso haja correlação serial nos erros, deve-se usar o método dos mínimos quadrados generalizados.

Isso posto, a Equação 2.200 é reescrita como:

e

Note que o valor do teste é condicionado ao valor inicial de {yt}e que y1 = y0+ δ + ε1.

Em seguida, pode-se encontrar uma nova série expurgando os termos determinísticos:

ytd= yt− ˆy0− ˆδt (2.202)

em que o sobrescrito d representa detrended7.

Na próxima etapa do procedimento, estima-se a regressão de Dickey-Fuller usando a nova sequência. Assim, estima-se a equação de regressão:

∆ydt = ϕyt−1d + εt (2.203)

em que ϕ é o coeciente da série sem os termos determinísticos.

Se houver correlação serial nos resíduos, a forma aumentada do teste pode ser estimada como:

∆ytd= ϕyt−1d +Xλi∆ydt−i+ εt (2.204)

Elliott et al. (1996) recomendam que para localizar o valor ideal de defasagens (p) pode-se lançar mão dos critérios de informação HQ, AIC ou BIC.

Caso haja intercepto, mas não uma tendência, os valores críticos são os mesmos tabe- lados por Dickey-Fuller e MacKinnon. Se houver uma intercepção e tendência os valores críticos estão tabulados por Schmidt & Phillips (1992) e Elliott et al. (1996), e pode-se encontrar os mesmos também nas obras de Maddala & Kim (1998) e Enders (2015).

2.4.4 Teste Phillips-Perron (PP)

Outro teste de raiz unitária adotado na literatura de séries temporais é o teste desen- volvido por Phillips (1987), Phillips & Perron (1988) e Perron & Ng (1996). Esse teste possibilita especicar independentemente as ordens do modelo p e q. O teste de Phillips- Perron faz uma correção não-paramétrica ao teste de Dickey-Fuller, permitindo que seja consistente mesmo que haja variáveis defasadas dependentes, correlação ou heterocedas- ticidade nos erros.

Não havendo a necessidade de especicação de um modelo AR como nos testes DF e ADF, pode-se proceder com o procedimento estimando as seguintes regressões 2.205, 2.206 e 2.207 semelhantes às regressões do teste DF e com interpretação análoga.

∆yt= αyt−1+ ξt−→ zt (2.205)

∆yt = µ + αyt−1+ ξt −→ zt,µ (2.206)

∆yt= µ + δt + αyt−1+ ξt−→ zt,τ (2.207)

em que ξté um processo estacionário, e zt, zt,µe zt,τ são as estatísticas das distribuições

dos coecientes e com hipótese nula de raiz unitária. Para estimar as estatísticas, segue: ˆ Estime as seguintes médias:

¯ y = PT t=1yt T , y¯−1 = PT t=1yt−1 T (2.208)

ˆ Estime o parâmetro de maior interesse:

ˆ α = PT t=1(yt−1− ¯y−1) (yt− ¯y) PT t=1(yt−1− ¯y−1) 2 − 1 (2.209)

ˆ Estime a constante ou drift: ˆ

µ = ¯y − ( ˆα + 1) ¯y−1 (2.210)

ˆ Estime a variância populacional da regressão:

ˆ σ2 = PT t=1ξˆt2 T = PT t=1  ∆yt− ˆξ − ˆαyt−1 2 T (2.211)

ˆ Calcule o desvio-padrão do parâmetro de interesse:

s ( ˆα) = q σˆ PT

t=1yt−12

(2.212)

ˆ Calcule a estatística de Dickey e Fuller:

ˆ τµ=

ˆ α

s ( ˆα) (2.213)

ˆ Calcule a variância de longo-prazo:

Para o cálculo da variância de longo-prazo, deve-se atentar que em uma série temporal estacionária e ergódica, pelo teorema do limite central ¯y ∼ N µ,T1 P∞

j=−∞γj em que T é

o tamanho da amostra, ¯y é a média amostral de y e γj são as autocovariâncias, a variância

de longo-prazo (υ2) de y

t é dada pela multiplicação de T pela variância assintótica (%2)

da média amostral. Logo:

υ2(yt) = T %2 (¯y) = ∞

X

j=−∞

γj (2.214)

Dado que γ−j = γj a estimativa da variância de longo-prazo (ˆυ2) de ytpode ser escrita

ˆ υ2(yt) = γ0+ 2 ∞ X j=1 γj (2.215)

Se yt é um processo linear, tem-se: ∞ X j=−∞ γj = σ2 ∞ X j=0 ψj !2 = σ2ψ (B)2 (2.216)

onde ψ (B) são os componentes de um processo ARMA estacionário descrito na Equa- ção 2.98.

Nos termos υ2e ˆυ2 estão incluídas todas as autocovariâncias do processo ξ

tdescrito nas

Equações 2.205, 2.206 e 2.207. Seria ideal calcular P∞

j=−∞γj, entretanto, é sabido que

numa série de tempo não existem observações innitas, dessa forma, é preciso truncar j em algum ponto. Por consequência, incluindo os termos ARMA a Equação 2.216 é reescrita como: M X j=−M ˆ γj = PT t=1ξˆt2 T + 2 T M X j=1 T X t=j+1 ˆ ξtξˆt−j (2.217)

Sabe-se que, quanto mais distante é a autocovariância, menos informação ela produz, a custa de muito ruído. Por isso, é necessário ponderar as observações mais distantes das observações mais recentes. Sendo assim, pode-se escrever a Equação 2.217 como:

ˆ υ2(yt) = ˆσ2+ 2 T M X j=1 ω  j M + 1  T X t=j+1 ˆ ξtξˆt−j (2.218) O termo ω j M +1 

é conhecido como como função janela, onde ω é o peso e M é um parâmetro de truncamento da defasagem.

Newey & West (1986), Newey & West (1994), Andrews (1991), Andrews & Monahan (1992) e Perron & Ng (1996) estudam as propriedades de cada função janela e denem que ω pode ser especicado de várias manerias, as mais comuns são:

Bartlett: ω (z) =    1 − |z| , se |z| < 1; 0, se | z| ≥ 1. (2.219) Parzen: ω (z) =          1 − 6z2+ 6z3, se 0 ≤ z ≤ 1 2; 2 (1 − z)3, se 12 ≤ z ≤ 1; 0, caso contr´ario.

Quadrática: ω (z) = 3 6π 5 z 2 " sin 6π5 z 6π 5 z − cos 6π 5 z # (2.221)

Já o componente M pode ser encontrado das seguintes maneiras:

M = " q  T 100 29#2 (2.222) M = " q  T 100 14# (2.223) com q = 4 ou q = 12, para uma janela de curto-prazo ou a longo-prazo, respectiva- mente.

Com os valores de ω e M, pode-se realizar o cálculo da Equação 2.218 e encontrar a variância de longo-prazo.

Perron recomenda o uso da janela de Parzen, entretanto, em muitos trabalhos empí- ricos é usado a janela de Bartlett.

ˆ O último passo, enm, é calcular a estatística de Phillips e Perron que é dada por:

ˆ zt,µ = ˆτu  ˆσ ˆ υ  −1 2   ˆ υ2 − ˆσ2 ˆ υ q T−2PT t=1y 2 t−1   (2.224)

É interessante que se observe que, na ausência de autocovariância serial, isto é, quando PT

t=j+1ξˆtξˆt−j = 0, o teste de PP é idêntico ao teste ADF, pois ˆυ2 = ˆσ2 =⇒ ˆzt,µ = ˆτµ.

Os valores críticos das estatísticas são os mesmos que o teste ADF. Para mais infor- mação do teste PP consultar Hamilton (1994), Lutkepohl & Kratizig (2004) ou Enders (2015).

2.4.5 Teste KPSS

Outro teste utilizado em trabalhos empíricos de séries temporais é o teste KPSS (mnemônico de seus autores Kwiatkowski, Phillips, Schmidt e Shin) proposto por Kwiat- kowski et al. (1992), cuja principal característica é a inversão das hipóteses em avaliação, sendo H0 : yt∼ I(0) e H1 : yt∼ I(1).

Esse procedimento é visto como uma análise conrmatória, aumentando a eciência da análise e garantindo resultados mais robustos na identicação da ordem de integração das séries.

Seguindo Kwiatkowski et al. (1992), Moryson (1998), Maddala & Kim (1998), Pat- tersson (2000) e Lutkepohl & Kratizig (2004), ao supor que uma série temporal observada

com componentes de nível e um erro aleatório, sem uma tendência claramente denida, tem-se:

yt= xt+ ξt (2.225)

em que xt é o componente com nível e ξt é um componente irregular, do tipo ruído

branco com variância σ2 ξ.

Supondo ainda que xt = x, isto é, uma constante, e de forma mais realística com as

séries empíricas, supondo que o nível mude aleatoriamente ao longo do tempo, tem-se:

xt = xt−1+ ϑt (2.226)

em que ϑt é um processo i.i.d(0, σ2).

Os componentes irregulares ϑt e ξt não são correlacionados nem dependentes, então,

se σ2

ξ = 0, não existe componente irregular em yt, de modo que yté um passeio aleatório.

Se σ2

ϑ = 0 o nível é constante e yt só se desloca em razão de ξt.

Generalizando o modelo, é possível supor uma inclinação para a tendência de xt e, a

partir da especicação anterior, há uma pertubação ao nível, do tipo:

xt= µ + δt =⇒ xt= xt−1+ δ (2.227)

= µ + δt =⇒ xt−1+ δ + ϑt (2.228)

Se a inclinação torna-se em um passeio aleatório, obtêm-se um modelo mais rico, do tipo:

yt= xt+ ξt (2.229)

xt= xt−1+ δt+ ϑt (2.230)

δt= δt−1+ ζt (2.231)

em que ζt é um ruído branco independente de ϑt e ξt.

Portanto, a ideia central por trás do teste é vericar a variância de passeio aleatório de xt. Se xt= 0, o processo é estacionário. Logo, a hipótese a ser testada é:

H0 : σ2ϑ= 0 H1 : σ2ϑ> 0

yt = xt+ ξt= xt−1+ δ + ϑt+ ξt (2.232)

Consequentemente:

∆yt= δ + ϑt+ ∆ξt (2.233)

Sendo assim, é possível vericar que:

V ar (∆yt) ≡ γ0 = σϑ2 + 2σ 2 ξ (2.234) γ1 = −2σξ2 =⇒ ρ1 = − σ2ξ σ2 ϑ+ 2σξ2 (2.235) Logo: γj = 0, j > 1 (2.236)

É mencionado na literatura que os valores encontrados nas Equações 2.234 e 2.236 seguem os mesmo padrão de um processo ARIMA(0,1,1), de modo que:

∆yt= δ + εt+ θεt−1=⇒ γ0 = σ2 1 + θ2  (2.237) Portanto: γ1 = σ2θ (2.238) γj = 0, j > 1 (2.239)

Ou seja, o processo é a forma reduzida de uma estrutura nível-local, com inclinação constante, de forma que as perturbações ϑt e ξt estão incorporadas aos erros εt. De fato,

tem-se:    σ2(1 + θ2) = σ2 ϑ+ 2σ2ξ σ2θ = −σ2 ξ (2.240)

Assim sendo, obtêm-se a solução que:    σ2 = −σ 2 ξ θ θ = √ z2+4z−z−2 2 , z ≡ σ2 ϑ σ2 ξ (2.241)

É percebido que o valor de θ na Equação 2.241 deve ser negativo para que σ2 seja

Denidos esses componentes, para o teste KPSS, considere yt = ξ + δt+ xt+ ξt, com

xt= xt−1+ ϑt e denido ηt ≡ xt+ ξt, procede-se:

ˆ Estime a série contra as variáveis determinísticas:

yt= µ + δt+ ηt (2.242)

ˆ Calcule os resíduos da regressão 2.242, em todo t: ˆ

ηt = yt− ˆµ − ˆδt (2.243)

ˆ Dena a soma parcial dos resíduos como:

St= t X j=1 ˆ ηt (2.244)

ˆ Utilizando o teste de multiplicador de Lagrange, o teste KPSS é assim estabelecido:

KP SS = T X t=1 St2 T2υˆ2 (2.245)

em que ˆυ2 é a variância de longo-prazo denia como no teste de Phillips-Perron na

Equação 2.218, mas ˆσ2 é dado por:

ˆ σ2 = PT t=1ηˆ 2 t T (2.246)

O teste KPSS é denido da mesma forma que os demais, contendo uma distribuição para o modelo sem contante ou tendência, outra com constante e outra com constante e tendência.

Os valores críticos para o teste estão em Kwiatkowski et al. (1992), Sephton (1995) e Maddala & Kim (1998).

Para complemento de informações, consultar Moryson (1998) e Lutkepohl & Kratizig (2004).

2.5 Testes de Normalidade

Como dito até o momento, os ruídos gerados por uma regressão de uma série temporal devem ter o comportamento de um ruído branco N (0, 1). Entretanto, depois de estimado o modelo, é importante averiguar como os resíduos se comportam, analisando se os mesmos são normalmente distribuídos.

Os testes de função de distribuição empírica, ou Empirical Distribution Function (EDF) na sigla em inglês, são aqueles testes de ajuste baseados em uma comparação das funções de distribuição empírica e hipotética. Nas subseções abaixo serão discutidos alguns dos testes que serão utilizados neste trabalho e suas características.

2.5.1 Teste Jarque-Bera (JB)

O teste de Jarque-Bera, anunciado em Jarque & Bera (1981) e publicado em Jarque & Bera (1987), é amplamente utilizado na análise de séries de tempo. Trata-se de um teste para vericar se os momentos da série estimada são iguais aos da normal. Sob essa hipótese, o coeciente de assimetria é igual a zero e o coeciente de curtose é igual a 3.

Seja ytuma variável aleatória qualquer, com média µ e variância σ2, então a assimetria

de yt é denida por: A = E " (yt− µ)3 σ3 # (2.247) Enquanto que a curtose de yt é denida por:

K = E " (yt− µ)4 σ4 # (2.248)

Sabendo que a ˆµ = ¯yt e que ˆσ2 = T −11 PTt=1(yt− ˆµ)2, a assimetria e curtose amostrais

serão dadas por:

ˆ A = 1 (T − 1) ˆσ3 T X t=1 (yt− ˆµ) 3 (2.249) ˆ K = 1 (T − 1) ˆσ4 T X t=1 (yt− ˆµ) 4 (2.250)

Sendo assim, o teste de Jarque-Bera consiste em testar a hipótese conjunta:

H0 : E (A) = 0 ∧ E (K) = 3 H1 : E (A) 6= 0 ∧ E (K) 6= 3 Para implementá-lo, usa-se a estatística:

J B = T 6  ˆA2 + T 24  ˆK − 32 → χ22 (2.251)

Logo, se não for rejeitada H0, conclui-se que a série é normal, convergindo para uma distribuição assintótica qui-quadrada com dois graus de liberdade.

Detalhes do desenvolvimento e aplicação desse teste podem ser encontrados em Ale- xander (2001), Brockwell & Davis (2002), Lutkepohl & Kratizig (2004), Diebold (2006), Farrell & Rogers-Stewart (2006), Morettin & Toloi (2006), Cryer & Chan (2008) ou Razali & Wah (2011).

2.5.2 Teste Shapiro-Wilk (SW)

Um teste de grande aceitação para comparar distribuições foi criado por Shapiro & Wilk (1965), para pequenas amostras (T < 50). Posteriormente, o teste foi ampliado para grandes amostras por Royston (1982) e tornou-se popular devido às suas boas propriedades de potência.

Dada uma sequência aleatória y1, y2, ...yT, o teste consiste em vericar a estatística:

SW =  PT t=1atyt 2 PT t=1(yt− ¯y) 2 (2.252) onde: at = (a1, a2, ..., aT) = msV−1 (msV−1V−1m)12 (2.253) com m = (m1, m2, ...ms) sendo os valores esperados das estatísticas de variáveis alea-

tórias independentes e identicamente distribuídas (i.i.d) a partir da distribuição normal, e V é a matriz de covariância correspondente.

As hipóteses do teste são:

H0 : yt= N (0, 1) =⇒ (i.i.d)

H1 : yt6= N (0, 1)

O valor de SW está entre zero e um. Pequenos valores de SW indicam a presença de não normalidade, logo, valores maiores de SW indica a normalidade dos dados.

Royston (1982) amplia a restrição do tamanho da amostra com o algoritmo AS 181. Mais tarde, Royston (1995) observa que a aproximação de Shapiro & Wilk (1965) para os pesos utilizados nos algoritmos anteriores é inadequada, e fornece uma aproximação melhorada aos pesos com o algoritmo AS R94 que pode ser usado para qualquer T no intervalo 3 ≤ T ≤ 5000.

Em Thode (2002), Farrell & Rogers-Stewart (2006) ou Razali & Wah (2011), pode ser encontrado com maior riqueza de detalhes e rigor matemático os conceitos aqui apresen- tados.

Documentos relacionados