Capítulo 5
MÉTODOS DE DETECÇÃO
ALTERNATI-VOS
5.1 INTRODUÇÃO
Neste capítulo são apresentados métodos de detecção de outliers, alternativos ao mé-todo baseado no teste das razões de verosimilhanças referido no capítulo anterior. A primeira estratégia de diagnóstico consiste no estudo do comportamento dos resíduos em presença de contaminação segundo uma metodologia desenvolvida por Rosado (1984). Lee e Hui (1993), no contexto de um modelo AR(p), propuseram uma estra-tégia de detecção de outliers aditivos com base nos elementos da diagonal da matriz de projecção, designadas como medidas de alavanca ("leverages"). A técnica de diagnós-tico consegue ainda identificar outliers inovadores e é particularmente eficaz quando estão presentes múltiplos e consecutivos outliers.
Outro método de detecção no quadro dos modelos autoregressivos AR(p), relati-vamente simples de implementar consiste nas estatísticas Q, propostas por Abraham e Chuang (1989), as quais constituem uma medida do efeito da eliminação das observa-ções outlier no valor estimado dos resíduos. Uma vantagem destas estatísticas traduz-se na possibilidade não só de detectar mas também distinguir um AO de um IO. Os autores propuseram ainda um procedimento, em quatro etapas, para modelar as séries temporais em presença de outliers, no qual um processo ARMA(p,q) é aproximado por um AR(p+q).
Uma outra perspectiva directamente relacionada com a anterior, embora diferente, consiste na detecção de outliers influentes. Isto porque um outlier pode ou não afectar consideravelmente as estimativas dos parâmetros do modelo, como sejam os coeficien-tes ARMA e a variância do ruído. Nesse sentido, apresentamos um conjunto de méto-dos e medidas de diagnóstico de observações influentes.
Como vimos no capítulo 2, a presença de outliers numa série pode ter efeitos dra-máticos no valor estimado das autocorrelações, particularmente em séries temporais de curta duração, o que pode ter implicações nefastas na fase de identificação do modelo da metodologia de Box e Jenkins. Nessas circunstâncias, Chernick, Downing e Pike (1982) propuseram, antes de iniciada a metodologia, o cálculo da matriz da função de influência das autocorrelações de modo a identificar outliers influentes.
Peña (1990) no quadro dos modelos ARMA, apresentou estatísticas indicadoras de AO e IO que têm forte influência no valor dos coeficientes estimados, as quais se ba-seiam na substituição das observações discordantes por valores interpolados. Estas medidas de diagnósticos são particularmente eficazes na detecção de outliers isolados. No entanto a existência de múltiplos e consecutivos outliers coloca problemas aos métodos de detecção. Isto porque o efeito de um único outlier num grupo pode ser ocultado pelo efeito de outros outliers situados na vizinhança. Este comportamento pode ser visto como uma forma de "masking". Nesse sentido, Yatawara e Lin (1994) propuseram uma estatística de diagnóstico de observações influentes que permite de-tectar múltiplos outliers.
Num extenso artigo Bruce e Martin (1989) propuseram duas medidas de diagnós-tico para os modelos ARMA, baseadas na eliminação de observações e medição da al-teração nas estimativas dos parâmetros. O diagnóstico DV mede as alterações na va-riância estimada do ruído, e o diagnóstico DC mede a alteração nos coeficientes ARMA estimados em presença de outliers. É ainda proposto uma estratégia de
detec-consecutivos outliers. Por último, Ledolter (1990) aplicou às séries temporais as medi-das de deslocamento da verosimilhança introduzimedi-das por Cook (1986, 1987), as quais medem a influência das perturbações nas estimativas dos parâmetros pela alteração provocada no logaritmo da função de verosimilhança. Com base nelas Ledolter (1990) propôs uma estatística simples de diagnóstico das observações influentes.
5.2 UM TESTE SIMPLES DE DISCORDÂNCIA
Como vimos anteriormente, o comportamento dos resíduos, obtidos a partir da estima-ção pelo método dos MQ dos parâmetros do modelo subjacente à série temporal, pode ser um indicador da presença de outliers, numa etapa preliminar de diagnóstico.
Um critério introduzido por Rosado (1984) designado por Método GAN (método baseado no Modelo Generativo com Alternativa Natural como modelo de discordân-cia) permite introduzir um alto grau de objectividade na resolução de problemas com outliers, em particular nos testes de homogeneidade que, em última análise, podem conduzir à rejeição ou aceitação de uma observação da amostra. Nesse trabalho, o au-tor aborda o estudo das observações discordantes com formulação do problema de detecção de outliers para uma distribuição especificada à priori baseado em critérios de máxima verosimilhança.
No caso de uma amostra de observações x ,..., x1 n pertencentes a uma população
X com distribuição normal em que se supõe conhecido o parâmetro µ podemos for-mular as seguintes hipóteses em termos de modelo de discordância por σ:
- H0 é a hipótese de homogeneidade, isto é, as observações x ,..., x1 n são provenientes
- Hj é a hipótese alternativa com xj observação discordante, ou seja, xj tem
distribui-ção N ( ,µ σ′) para algum j=1,...., . n
O autor estudou os casos em que os parâmetros σ e σ′ são ou não conhecidos
(i) σ e σ′ conhecidos
Considerando σ e σ′ e conhecidos, sob a hipótese nula de homogeneidade das obser-vações, teremos,
(
)
(
)
(
)
L f i n i n i i n 0 1 2 2 1 1 2 1 2 = = − − =∑
= Π x,µ σ, exp x σ π σ µ (5.1.1)e, sob a hipótese alternativa Hj,
(
)
(
)
(
)
Lj f f i j i j n n i j i j = ′ = ′ − − + −′ ≠ −∑
≠ Π x ,µ σ, x ,µ σ, exp x x σ σ π µ σ µ σ 1 2 1 2 1 2 2 . (5.1.2)O método GAN propõe então, a estatística de detecção de outliers,
S
(
)
j j = ′ − − maxσ σ µ σ 2 2 2 x se σ σ< ′ (5.1.3) ou S(
)
j j = − ′ − minσ σ µ σ 2 2 2 x se σ σ′ < . (5.1.4)Sendo no primeiro caso S >c a região de regeição do teste de homogeneidade nas observações x ,..., x1 n e no segundo caso S<c. Os pontos críticos são obtidos a partir
de c′ = Fχ−
(
( −α) n)
12 1 1 1 se σ σ< ′ e c′ = Fχ−(
− −( α) n)
12 1 1 1 1 se σ σ′ < .É de referir que este modelo vai salientar como candidato a outlier uma observação vulgarmente não considerada. Trata-se de x( )µ , a observação mais próxima de µ, no
caso em que σ σ′ < . Quando σ σ′ > os candidatos a outlier são os usualmente estu-dados x( )1 e x( )n .
(ii) σ conhecido e σ′ desconhecido
Sob estas condições para os parâmetros de dispersão e sob H0 temos,
(
)
(
)
L n i i n 0 2 2 1 1 2 1 2 = − − =∑
σ π exp σ x µ , (5.1.5)e, o máximo da função de verosimilhança sob Hj,
(
)
exp Lj n n i j i j = ′ − − − − ′ −∑
≠ 1 2 1 2 1 2 1 2 2 σ σ π µ σ µ σ x x , (5.1.6)com σ∃′ = xj−µ estimador de máxima verosimilhança para σ′ sob Hj.
S j j j = − − max σ exp µ µ σ x x 1 2 2 . (5.1.7)
Sendo S>c a região de regeição. Neste caso, somos novamente conduzidos ao estudo da observação x( )µ , para além das observações tradicionalmente estudadas x( )1
e x( )n .
(ii) σ e σ′ desconhecidos
Este é o caso mais próximo da realidade no estudo de discordância de outliers por σ. Assim sob a hipótese nula teremos que estimar σ2
por, σ2
(
µ)
2( )
µ 1 2 1 = − = =∑
n i i s n x (5.1.8)e sob a hipótese alternativa estimamos σ2
por, σ2 1
(
µ)
2 2( )
µ 1 = −∑
≠ − = n i j i s j x (5.1.9) e σ′2 por, σ′ =2(
− µ)
2 xj . (5.1.10)Os máximos da função de verosimilhança sob a hipótese nula e alternativa, são res-pectivamente,
( )
(
)
exp L s n n 0 1 2 2 = − µ π (5.1.11) e( )
(
)
(
)
exp L s n j j j n n = − − − 1 2 2 1 x µ µ π . (5.1.12)Deste modo, obtemos a estatística,
(
)
(
)
(
)
(
)
S j j i i j i i n = − − − − − ∑
∑
− min x x x x µ µ µ µ 2 2 1 2 2 2 1 2 1 (5.1.13)Sendo S<c a respectiva região de rejeição. Mendes (1993) construiu tabelas dos pontos críticos para a estatística. Neste caso as observações candidatas a outlier são
x( )µ , x( )1 e x( )n .
Considerando que numa série temporal xt
(
t=1, ... ,n)
, cujo modelo subjacente é um ARMA(p,q), os et são variáveis aleatórias independentes identicamente distribuídas(
)
N 0,σ2 , podemos assim numa primeira fase de diagnóstico identificar outliers através do estudo da série dos resíduos aplicando o Método GAN. Há no entanto que ter em atenção que um outlier pode afectar o valor de mais do que um resíduo, dada a correlação que existe entre as observações, como vimos nos capítulos 2 e 3. Nomeadamente no caso de múltiplos e consecutivos outliers, esta distorção poderá ser significativa afectando a análise.
Exemplo 5.1
No intuito de ilustrar a aplicação do Método, consideremos o seguinte exemplo em que o processo subjacente à série segue um modelo AR(1):
xt =0 5. xt−1+et,
e os et´s são variáveis aleatórias iid N 0 01
(
, . 2)
.Foi simulada uma série de dados com n=100 na qual foi introduzido um outlier aditivo com efeito ω =1 em T =50. Na figura 5.1 temos a série dos residuos que se obtem da estimação dos parâmetros do modelo.
Fig. 5.1 - Série dos resíduos
Aplicando o programa (veja-se ponto 7.2.1) que nos permite calcular o valor da estatística (5.1.13) obtemos o seguinte "output":
*********************************************** DETECÇÃO DE OUTLIERS
**********************************************
OBSERVAÇÃO RESÍDUO ESTATÍSTICA
50 1.107 .000002
30 -.001 .000871
16 .003 .003610
VALOR CRITICO A 5% .00006
VALOR CRITICO A 1% .00001
Assim no resíduo correspondente à observação T =50, obtemos como era de espe-rar um valor bastante reduzido. Neste caso, como o valor da estatística é inferior ao valor crítico, considerando quer um nível de confiança a 5% ou a 1%, temos uma indi-cação que o resíduo é proveniente de uma observação outlier.
5.3 MEDIDAS DE ALAVANCA DA AMOSTRA
Vimos no capítulo 2 que dada uma colecção de observações z z1, 2,..., , considerando zn
que zt segue um modelo AR(p), pode-se representar o processo como
zt = t +et ′ x φ . (5.3.1) com xt =
(
zt zt zt p)
′ −1, −2, ... , − e φ =(
)
′ φ1,... ,φp . Considerando as n observações, temos(
n− p)
equações Z = Xφ+e, (5.3.2) onde Z=(
z + ,... ,z)
′, e=(
e + , ... ,e)
′ eX x x x = = − + − − − + ′ + ′ ′ z z z z z z z z z p p p p n n n p p p n 1 1 1 2 1 2 1 2 ... ... ... 0 0 / 0 0 .
Então o estimador dos mínimos quadrados de φ é dado por
φ = (X X′ )−1X Z′ , (5.3.3)
e os valores ajustados são dados por
Z=Xφ=X X X( ′ )−1X Z′ =HZ, (5.3.4)
com H=X X X( ′ )−1X′. A matriz dos resíduos é obtida considerando R= −(I H Z) . Vamos chamar a H matriz de projecção, análoga àquela considerada na regressão linear. Designamos o elemento da diagonal da matriz H, htt, por ht em que
ht = ′ ′t( ) t
−
x X X 1x (5.3.5)
Os elementos fora da diagonal de H, são designados por hij.
Lee e Hui (1993) no contexto de um modelo AR(p), sugeriram um procedimento de detecção de outliers com base no estudo dos elementos da diagonal da matriz de projecção, conhecidas como medidas de alavanca da amostra.
Os elementos da diagonal da matriz H apresentam as seguintes propriedades im-portantes:
(i) 0≤ ≤ht 1
(ii) Supondo que ht é elevado (próximo de 1 ). Como
ht ht htj t j = + ≠
∑
2 2 , então htj t j 2 0 ≠∑
→ ou htj →0, ∀ ≠j t , quando ht →1. Na forma escalar, pode-se escreverz∃t h zt t h ztj t j j = + ≠
∑
.Segue-se que z∃t é dominado pelo termo h zt t quando ht →1. Então, ht pode ser
interpretado como uma medida do efeito alavanca induzido em z∃t por zt.
(iii) Considerando que quando n→ ∞, n ( )
p −1 ′ → ∑ X X , em que ∑ é a matriz de covariâncias de xt. Defina-se dt = ′ ∑t t − x 1x , t= +p 1,..., (5.3.6) n
em que dt corresponde à distância de Mahalanobis entre xt e o vector nulo (ou no
caso geral o vector média dos xt`s). Como,
nh n d t t t p t = ′ ′ → − x X X x 1 quando n→ ∞.
Então com n elevado, examinar os ht`s equivale a examinar os dt`s. Deste modo,
ht pode ser considerado uma escala aproximada (dividindo por n) da distância de
Mahalanobis entre xt e o vector nulo.
Para a detecção de outliers em processos AR(p), dada a dependência que se veri-fica entre as observações, é a o posição relativa de z zt, t−1,...,zt p− +1 no espaço de
di-mensão p que nos interessa e não apenas a posição de zt. Consequentemente,
deve-mos estudar o afastamento do vector xt =
(
zt zt zt p)
′
−1, −2, ... , − , como base de detecção das observações outlier.
A discussão do ponto (ii) sugere que se utilize ht para detectar o vector outlier xt. Recorde-se que ht = ′ ′x X Xt( )−1xt. Supondo que zt−1 é discordante, essa observação afectará x xt, t+1,...,xt p+ −1 e como tal h ht, t+1,...,ht p+ −1 serão empolados. Então, se ht−1
apresenta um valor reduzido (zt−2,zt−3,...,zt p− −1 não são outliers) e ht é elevado,
pode-se identificar zt−1 como um possível outlier.
No caso de outliers consecutivos, uma sequência de ht`s terá valores distorcidos. O número exacto de outliers será no entanto difícil de determinar por inspecção.
Dado que dt tem uma distribuição χ( )2p
quando a distribuição do ruído é Gaussiana, Hau e Hau e Tong citados por Lee e Hui (1993) sugeriram, como instrumento de de-tecção de outliers, a construção do gráfico da série temporal dos nht`s e a sua compa-ração com o valor critico a 5% da distribuição de referência.
Contudo, segundo Lee e Hui (1993), o gráfico da série temporal dos nht`s é inade-quado para avaliar com precisão o efeito alavanca. Deste modo, sugeriram um proce-dimento de detecção de outliers com base num simples exame dos ht`s.
No entanto, ht não pode ser quantificado pela distribuição de referência χ( )2p
Lee e Hui (1993) propuseram um dispositivo gráfico que permite identificar as obser-vações outliers com base nas estatísticas ordenadas dos ht`s em conjunto com um
en-velope construído por simulação. O procedimento de diagnóstico consiste nas seguin-tes etapas:
(i) Estimar φ∃ e σ∃2 a partir da série observada (contaminada) e calcular as medidas de alavanca da amostra;
(ii) Simular m pseudo colecções de dados (de Z) baseados nos φ∃ e σ∃2 estimados; (iii) Para cada colecção, calcular os
(
n− p)
valores ordenados das estatísticas ala-vanca h( )i ;(iv) Colocar num gráfico o máximo e o mínimo de cada estatística de ordem das
m réplicas em conjunto com os valores da amostra ordenados.
O envelope simulado formado pelos dois vectores
(
n− p)
de estatísticas de ordem de máximos e mínimos é construído para ajudar na interpretação das alavancas da amostra. Na ausência de outliers, espera-se que os valores da amostra se situem dentro dos limites do envelope. Outliers potenciais surgirão à direita, no gráfico, como distan-tes pontos isolados. Se algum dos valores observados cair fora dos limidistan-tes do enve-lope, rejeitamos a hipótese de que não existem outliers. Normalmente são necessários valores de m=19 simulações para testar o máximo efeito alavanca observado a um ní-vel de significância de aproximadamente 5% .Num modelo AR(p) com k outliers consecutivos nos períodos T T, +1,...,T+k, a sequência hT+1,hT+2,...,hT k+ + −p 1 será considerada significativa pelo envelope.
Conse-quentemente, o número exacto de outliers, k , e a sua localização T T, +1,...,T+k po-de ser po-determinada.
Segundo Lee e Hui (1993), o procedimento é eficaz na detecção de outliers aditi-vos em modelos autoregressiaditi-vos, embora a técnica proposta se aplique também a
ou-tliers inovadores. O método, segundo os autores, é particularmente eficaz quando es-tão presentes múltiplos e consecutivos outliers.
Para testar as medidas de alavanca, nomeadamente verificar o seu comportamento em presença de múltiplos AO e de um IO, consideremos os seguintes exemplos em que o processo subjacente à série segue o modelo AR(1) do exemplo 5.1:
Exemplo 5.2
Foi simulada uma série de dados com n=100 na qual foram introduzidos dois outliers aditivos com efeito ω =1 em T =50 e T =51.
Na figura 5.2 temos a série contaminada resultante da introdução dos dois AO. Os estimadores dos mínimos quadrados são φ =∃ 0 523 e . σ =∃ 0 087 . Na figura 5.3 temos o . gráfico dos resíduos. Como se pode ver temos três resíduos com valores elevados r50,
r51, r52. Assim, poderíamos concluir erradamente que z52 é um outlier, se apenas consi-derássemos os resíduos como método de diagnóstico. Este efeito é o chamado efeito de "smearing".
Fig. 5.3 - Resíduos estimados Resíduos estimados t resíduos 45 -.023779 46 -.003035 47 .052419 48 .213965 49 -.100583 50 1.164655 51 .537776 52 -.555507 53 .030746 54 .066102 55 .003463
Examinando as medidas de alavanca da amostra, ht, na figura 5.4, verificamos que o período 52 contribui com o valor mais elevado h52 =0 34. , ocorrendo o segundo
mais elevado em h51 =0 28. . Deste modo, x52 =z e 51 x51 =z poderão ser considera-50 dos outliers.
Fig. 5.4 - Medidas de alavanca
O gráfico do envelope simulado é dado na figura 5.5. Confirma-se que h51 e h52
apresentam valores significativos comparativamente aos máximos obtidos nas 19 simu-lações. Finalmente, como os ht`s são reduzidos para t ≤50 e t ≥53, identificamos com
sucesso por este método, duas observações outlier consecutivas, z50 e z51.
Exemplo 5.3
No caso da série simulada contaminada com um outlier inovador, o seu efeito corres-ponde também a 1 introduzido em T =50 (veja-se a figura 5.6).
Os estimadores dos mínimos quadrados são φ =∃ 0 52 e . σ =∃ 0 086. Na figura 5.7 . temos o gráfico dos resíduos, como se pode verificar temos apenas um valor elevado r50. Repare-se que neste caso não se verifica o efeito de "smearing".
Fig. 5.6 - Série contaminada
Resíduos estimados t resíduos 45 .090897 46 .064747 47 -.088082 48 .096685 49 -.100465 50 1.048394 51 -.001448 52 -.102744 53 .031166 54 .065620 55 -.003416
Examinando as medidas de alavanca, ht, na figura 5.8, verificamos que o período
51 contribui com o valor mais elevado, h52 =0 1752. , no entanto temos ainda o período 52 com um valor bastante significativo, h52 =0 17. . Deste modo, x51 =z poderá 50
eventualmente ser considerado uma observação outlier, e ficamos na dúvida acerca de
x52 =z . 51
Fig. 5.8 - Medidas de alavanca
O gráfico do envelope simulado é dado na figura 5.9. Confirma-se que h51 pode ser
lado, poderíamos ainda concluir erradamente que z51 é também um outlier dado que h52 apresenta um valor significativo.
Fig. 5.9 - Envelope simulado
Em conclusão o método das medidas de alavanca funciona relativamente bem na detecção de múltiplos e consecutivos AO e de um IO isolado. Embora neste último ca-so com algumas reservas.
5.4 ESTATÍSTICAS Q
5.4.1 Construção das estatísticas Q
Na regressão linear assume-se que as observações zt são independentes. Uma
observa-ção pode ser eliminada sem afectar as seguintes e a eliminaobserva-ção de uma equaobserva-ção em (5.3.2) equivale a eliminar uma observação. No contexto das séries temporais, isso já não é verdade. Uma observação suspeita, zT, está envolvida não só numa equação mas
nas p+1 equações consecutivas de (5.3.2). Então pode ser necessário eliminar não só uma mas p+1 equações.
Suponha-se que existe uma observação suspeita em t=T. A matriz X e os vecto-res Z e R podem-se decompor como se segue:
(
)
( ) X X X X = − × × − − × 1 2 3 T p p k p n T k p ,(
)
( ) Z Z Z Z = − × × − − × 1 2 3 1 1 1 T p k n T k ,(
)
( ) R R R R = − × × − − × 1 2 3 1 1 1 T p k n T k ,onde k é o numero de equações a eliminar. Os resíduos, R, podem-se exprimir na forma decomposta como
R I H H H H I H H H H H Z Z Z = − − − − − − − − − 11 12 13 21 22 23 31 32 33 1 2 3 I , (5.4.1) em que Hij =X X Xi( ′ ) X′j i j= −1 1 2 3 , , , . (5.4.2)
Seguindo a sugestão de Drapper e John (1981) para situações de regressão, os au-tores consideram as estatísticas
Qk T( ) = ′ −
(
)
− R I H2 22 R 1 2 (5.4.3) e APk T( ) = −(
1 Qk T( ) RSS)
I H− 22 , (5.4.4)onde RSS é a soma do quadrado dos resíduos. Quando k =1, R2′ =rT, e quando
k = +p 1, R′ =2
(
rT, ... ,rT+p)
. Qk T( ) pode ser decomposto em dois termos:Qk T( ) = ′ + −
(
*)
′ R R2 2 φ φ × ′(
X X1 1+ ′X X3 3)(
φ φ − *)
=Qk1( )T +Qk2( )T, (5.4.5)onde φ =*
(
X X′ + ′1 1 X X3 3) (
−1 X Z1′ + ′1 X Z3 3)
é o estimador de φ após a eliminação de k equações.Por simulação os autores concluíram que as estatísticas Qk, Qk 1, e Qk 2 são
indica-dores úteis dos outliers. Dado que o comportamento amostral de AP é difícil de in-terpretar, consideraram apenas as estatísticas Q.
Em situações práticas a posição de outlier pode não ser conhecida. Deste modo, o procedimento de detecção sugerido requer que Qk t( ), Qk1( )t e Qk2( )t sejam calculados
para todos os t= +p 1,p+2, ... ,(n− +k 1), e isto implica
(
n− − +k p 1 inversões da)
matriz(
I H− 22)
, o que pode constituir um problema. Se os elementos fora da diagonal da matriz(
I H− 22)
, −hij, são reduzidos em valor absoluto, os autores propõem que seconsidere a seguinte aproximação, na qual não é exigida nenhuma inversão da matriz:
Qk t ri
(
hi)
i t t k ( ) ≈ − = + −∑
2 1 1 . (5.4.6)Esta aproximação é geralmente adequada para grandes amostras. Uma vez obtido Qk t( ), Qk2( )t pode ser calculado subtraindo Qk1( )t = ′R R2 2 de Qk t( ). Veja-se que quando
k =1 (eliminando uma observação) o valor exacto e a aproximação são os mesmos.
5.4.2 Comportamentos das estatísticas Q em presença de outliers
Consideremos os modelos paramétricos geradores de outliers. Para um outlier aditivo temos
(AO) zt xt t T
= +ωξ( )
, (5.4.7)
onde ω é uma constante e xt segue um modelo AR(p). Alternativamente pode-se
con-siderar o modelo para um outlier inovador
(IO) zt =φ−1( )B e
(
t+ωξt( )T)
(5.4.8)As estatísticas definidas em (5.4.3) e (5.4.4) são funções dos rt`s e dos
( )
[
]
h ii =t, ... , t+ −k 1 . O seu comportamento é diferente para os outliers aditivos e inovadores. Assim, podem ser usadas não apenas para detectar mas também para dis-tinguir um AO de um IO.
Um AO suspeito no período t=T afectará zT através de ω em (5.4.3) e
conse-quentemente rT i+ por φ ωi
(
i=0 1, , ..., ;p φo =1)
. Um IO afectará rT por ω em (5.4.7) e assim zT i+ por ψ ωi(
i=0 1, , ... , onde)
ψi é o coeficiente de Bi
em ψ( )B =φ( )B −1 = −1 ψ1B−ψ2B2−Λ .
Consideremos um processo AR(1). Supondo k =1; então
H = = 2
∑
2h z n z , Q r2
(
z2 n z2)
11
= −
∑
− , Q =r2(
)
(
)
Q12T r zT T t Tzt r hT T hT 2 1 2 1 2 2 1( ) = −
∑
≠ − = − . Q11 depende apenas de rT, enquanto queQ1 e Q12 dependem de rT e de hT, contudo hT é relativamente reduzido comparado
com 1, e o comportamento de Q1 é dominado por rT. Por outro lado, hT
(
1−hT)
é uma função monótona de hT e é uma medida da distância de X2 ao centro do elipsóideformado por
(
X X′1 1+ ′X X3 3)
. Assim o comportamento de Q12 depende de r zT2 T2−1. Se o outlier em t =T é um AO, então rT e rT+1 são afectados, e assim Q11( )T ,Q11(T+1), Q1( )T e Q1(T+1) são mais elevados comparados com os restantes. Por outro lado,
Q12( )T e Q12(T+1) são influenciados pelo outlier em t=T, embora muitas vezes o mais
elevado seja o último, dado que rT+1 e zT são afectados pelo outlier.
Se o outlier é do tipo IO, então apenas rT é afectado, o que implica que Q1( )T e
Q11( )T são mais elevados comparados com os outros. O comportamento de Q12( )T é
menos fiável, dado que as observações zT,...,zn são todas afectadas.
O comportamento das estatísticas para processos de ordem superior (p〉1 é similar ) e está sumariado na Tabela 5.1. Em geral, segundo Abraham e Chuang (1989), expe-riências de simulação indicam que Qk (ou Qk1) é mais útil para detectar outliers do que
Estatísticas IO AO Q11, Q1 eliminando uma equação (k =1). Valores elevados em t=T e reduzidos os res-tantes. Os valores em t=T T, +1,...,T+p são afec-tados.
Q12, eliminando uma equa-ção (k=1).
Os valores em
t=T T, +1,... são afec-tados (pouco fiáveis).
Os valores em t=T T, +1,...,T+p são afec-tados. Q(p+1 1) , Q(p+1), eliminando p+1 equações
(
k= +p 1)
. Valores elevados em t= −T p T, − +p 1,..., ,T e reduzidos os restantes. Os valores em t= −T p T, − +p 1,...,T+psão afectados, com o maior valor em t =T.
Q(p+1 2) , eliminando p+1
equações
(
k = +p 1)
.Os valores em
t= −T p,..., ,...T são afectados (pouco fiáveis).
Os valores em
t= −T p T, − +p 1,...,T+p
são afectados, com o maior valor em t =T.
Tabela 5.1 - Comportamentos das estatísticas Q considerando um outlier em t=T
Exemplo 5.4
Consideremos o exemplo de Abraham e Chuang (1989) em que o modelo de base é um AR(1)
xt =0 5. xt−1+et,
e os et´s são variáveis aleatórias iid N 0 1
( )
, .Simulámos duas séries de dados com n=100, e foram introduzidos respectiva-mente um AO e um IO no momento T=80 de efeito ω =4 5. . Calculámos então as estatísticas Q, respectivamente, Qk T( ) e Qk2(T), correspondendo à eliminação de uma
(AO)
´ Fig. 5.10 - Estatística Q1( )t
Fig. 5.12 - Estatística Q2( )t
Fig. 5.13 - Estatística Q22( )t
No caso da série contaminada pelo AO, Q1 80( ) e Q1 81( ) apresentam valores elevados (figura 5.10). Por outro lado, Q12 80( ) tem um valor reduzido e Q12 81( ) é bastante elevado (figura 5.11). Segundo os autores, este comportamento indicia a presença de um AO. É de notar ainda que com k =2 , ou seja eliminando 2 observações, Q2 79( ), Q2 80( ) e Q2 81( ) apresentam valores elevados (figura 5.12), bem como Q22 80( ) e Q22 81( ) (figura 5.13).
(IO)
Fig. 5.14 - Estatística Q1( )t
Fig. 5.16 - Estatística Q2( )t
Fig. 5.17 - Estatística Q22( )t
Na série contaminada com um IO, como seria de esperar, Q1 80( ) e Q12 80( ) apresentam valores elevados. No entanto, Q12( )t apresenta outros valores elevados o que indica que este gráfico é menos fiável na identificação de outliers (como aliás é referido pelos autores). Com k =2 temos Q2 79( ) e Q2 80( ) elevados. Este é um comportamento típico dos IO.
5.4.3 Distribuições assintóticas
Para identificar a localização dos outliers, Abraham e Chuang (1989) introduziram as estatísticas maxtQk t( ), maxtQk1( )t e maxtQk2( )t , dai que seja necessário identificar as
suas propriedades amostrais. As distribuições exactas da amostra são difíceis de identificar, deste modo apela-se à teoria das grandes amostras.
Se não houver outliers, φ∃ converge em probabilidade para φ φ
(
→p φ)
e ∃σ2 →p σ2
, com σ2 =
∑
t p= +1(
zt −z)
2(
n− p)
n
. Os resíduos rt convergem em
proba-bilidade para et e os elementos da matriz H convergem para 0 à medida que n
aumen-ta. Então Qk t Q e p k t i i t t k k 1 2 1 2 2 ( ) ( ) * ( ) → = ≈ = + −
∑
σ χ (5.4.9) e Qk t Q p k t ( ) ( ) * → , Qk t p 2( ) → 0, max ( ) max ( ) * t k t p t k t Q1 → Q , e max ( ) max ( ) * t k t p t k t Q → Q , (5.4.10) onde χ( )k 2representa a distribuição do qui-quadrado com k graus de liberdade. Se k =1, então
{ }
Qk t( )*
é uma sequência de variáveis χ( )21 iid, e é uma sequência de variá-veis dependentes χ( )k
2
para k≥2.
Caso 1: k =1. Considere-se F1( ). como a função de distribuição acumulada de
σ χ2 1 2
( ) e τ =m
[
1−F C1(
m( )τ)
]
, com m= −n p e Cm( )τ é um valor critico. EntãoDado um nível de significância α, o valor critico C( )τ pode ser obtido considerando
Cm( )τ = Fk−1
(
1+(
ln(1−α))
m)
. (5.4.12) Também max ( )t Q11t e maxt Q1( )t têm a mesma distribuição assintótica que max ( ) * t Q1t .
Caso 2: k≥2. Seja Fk( ). a função de distribuição acumulada de σ χ 2 2 ( )k . Então Pr max *( ) ( ) exp( ) t Qk t ≤Cm v τ → − τ , (5.4.13)
onde, para algum v(0< ≤v 1) e para cada τ >0 , m
[
1−F C(
m( )τ)
]
→τ à medida que m= − − + → ∞n p k 1 . Dado um nível de significância α, temos τ = −ln 1( −α) v , e o valor critico Cm( )τ pode ser obtido porCm( )τ = F
(
+(
( −α))
( )vm)
− 1 1 1 ln1 . (5.4.14) Agora max ( )t Qk1t e maxt Qk t( ) têm a mesma distribuição assintótica que max ( ) * t Qk t em
(5.4.13).
5.4.4 Com p desconhecido
As estatísticas de diagnóstico foram obtidas sob a hipótese de que a ordem p do pro-cesso é conhecida. Contudo na prática, pode não ser este o caso. Então uma estratégia bastante comum é ajustar um processo de ordem superior. Vejamos então qual o com-portamento das estatísticas Q quando um AR p
( )
* ,p*〉p é ajustado aos dados.X 0 0 B C * = e V A 0 0 C = − , onde B= − − + + − − − − z z z z z z z z z p p p p p p p p n n n p * * * * * * ... ... ... ... 1 1 1 1 2 0 0 0 , C= − − + − − − z z z z z z p p p p n p n p * * * ... ... ... ... 1 1 2 1 0 0 , e A= − − z z z z p p p p ... ... ... * * 1 1 0 0 .
Então os estimadores dos MQ de φ =
(
φ1, ... ,φp)
′ obtêm-se como em (5.3.3) , e osestimadores dos MQ de φ* =
(
φ1, ... ,φ φp p+1, ... ,φp*)
= ′ ′(
φ φ, 2)
são dados porφ =*
(
X X*′ *)
−1X Z*′ . (5.4.15) Seja agora φ(N) = ′ ′(
φ)
′
0 , onde 0 é um vector (p*−p)×1 de zeros. Então
(
)
* ( ) * * φ =φ − ′ − ′ N X X V R 1, com o vector de resíduos do verdadeiro modelo dado por
R = − ∃Z Xφ. Segue-se que zt* = +zt t*
(
* *)
* ′′ ′ − ′
(
)
rt* = +rt xt*′ X X*′ * −1X R*′ (t p〉 *), onde z∃t* é o valor ajustado e rt* é resíduo corres-pondente à estimativa φ∃*, e x*t =
(
zt ,... ,zt p*)
′
−1 − . Segundo os autores, pose
de-monstrar que rt rt p
(
n)
* = +Ο −1 2/
para t> p*. Espera-se então que os resíduos do ver-dadeiro e do modelo estimado se comportem da mesma maneira para t> p*.
O comportamento das estatísticas Q depende, neste caso, de rt *
e de H22 *
(ou de ht *
quando são usadas aproximações). Então Qk, Qk1, e Qk 2 têm basicamente o mesmo
comportamento que aquela da tabela 5.1, com p substituído por p*.
5.4.5 Um procedimento iterativo de estimação
Abraham e Chuang (1989) propõem ainda um procedimento iterativo em quatro etapas para modelar séries temporais na presença de outliers na qual um processo ARMA é aproximado por um processo AR, com detecção e ajustamento dos outliers.
Se zt segue um processo ARMA(p,q), este processo pode ser representado por
uma aproximação autoregressiva
zt i t iz e i p t = − + =
∑
π 1 * , (5.4.16)para um qualquer desfasamento p*. Se o processo é puramente autoregressivo p* = p. Caso contrário os coeficientes π são obtidos a partir de
π( ) φ( )( ) θ
B B
B =
e, por causa da invertibilidade de θ( )B , estes coeficientes decaem e tornam-se prati-camente 0 para algum desfasamento p*.
Deste modo, supondo que o modelo subjacente à série temporal é um ARMA(p,q) esse processo pode ser aproximado por um AR(p+q). Na prática, para detecção de outliers, os autores descobriram que esta pode ser uma boa aproximação.
Assim a estratégia de construção do modelo, proposto pelos autores, começa com a estimação de um processo AR de ordem suficientemente elevada, propondo os se-guintes procedimentos de construção do modelo, baseados nos métodos de detecção de outliers referidos anteriormente:
Etapa 1
Usar uma qualquer técnica de selecção de modelos para identificar uma primeira tenta-tiva de ordem
(
p q′ ′,)
, a qual pode não coincidir com a verdadeira ordem ( , )p q . Esco-lha-se p*〉 ′ + ′p q .Etapa 2: Detecção dos outliers.
Estime-se π =
(
,..., *)
′
π1 πp pelo método dos MQ e calcule-se Qk (e/ou Qk 2) para
k =1 e k = p*+1. Determine-se o outlier e o seu tipo baseado nos gráficos de Qk
(e/ou Qk1, Qk 2). Os testes de significância baseados no máximo destas estatísticas
podem também ser usadas. Se não houver outliers vamos para a etapa 4; caso contrário vamos para a etapa 3.
Etapa 3: Limpando a série.
Seja T a posição do outlier identificado na etapa 2. Se o outlier é do tipo AO, elimine-se
(
T−p*)
equações até T de (5.1.2) para obter as estimativas π%. Ajustemos então aT -ésima observação, considerando-a um valor omisso, usando a média estimada de zT
condicional a todas as outras observações, E z z t
(
T t, ≠T)
; ou seja, substituímos zt porz%t =zt, t ≠T =
(
+ + −)
=∑
~ * ηj t j t j j p z z 1 , t=T, (5.4.17) com ~(
)
~ ~ ~ ~ , ... , * * * η π π π π j j i i i j p i i p j p = − + = + = =∑
∑
1 2 1 1 1 .Por outro lado, se o outlier for do tipo IO, elimine-se a T -ésima equação de (5.4.) para estimar π%, e ajustar as observações como se segue:
z%t =zt, t T〈
= −zt r%t , t=T
= −zt ψ% %t T T− r , t T〉 , (5.4.18)
onde r%t é o resíduo correspondente à estimativa π% e ψ%j é o coeficiente de Bj em
(
)
1 1 2 2 1 1 1 − ~ − ~ − = − ~ − −~ − * * ψ B ψ B / π B / πp Bp . Etapa 4: Especificação5.5 DIAGNÓSTICO BASEADO NA FUNÇÃO DE INFLUÊNCIA DAS AUTO-CORRELAÇÕES
Chernick, Downing e Pike (1982) sugeriram que deveriam ser procurados outliers in-fluentes examinando a matriz da função de influência das autocorrelações estimadas. O parâmetro, S , pode ser considerado dependente da função de distribuição F , S F( ). A função de influência de um estimador depende do parâmetro a estimar, do vector de observações cuja influência está a ser medida e da sua função de distribuição de pro-babilidades, e é dada segundo Hampel (1974), pela equação seguinte quando o limite da direita existe I F S F x
(
, ( ),)
=lim[
S(
( − )F+ x)
−S F( )]
→ ε ε εδ ε 0 1 . (5.5.1)Neste equação, x é o ponto de interesse no espaço das observações, ε é um número real positivo e δx é a função de distribuição que tem toda a sua massa de probabilida-des concentrada no ponto x.
Consideremos uma série temporal discreta z z1, 2,..., . Seja zn
{ }
Ij k, a matriz dafun-ção de influência das autocorrelações do tipo n m× , em que n é o número de observa-ções e m é o desfasamento (m deverá ser consideravelmente menor que n), cujo ele-mento de ordem
( )
j k, é uma função deI H
(
,ρk,(
y yj, j k+)
)
, (5.5.2)
em que yi é a observação estandardizada yi =
(
zi− µ σ)
, µ e σ são a média e odes-vio padrão de zi, ρk é a autocorrelação de ordem k e H é a função de distribuição
bi-variada de
(
yj,yj k+)
com média nula, variância unitária e covariância ρk. Os autoresy y
(
)
y y j j k k j j k + + − ρ + 2 2 2 , (5.5.3)Deste modo com base na expressão anterior, pode-se calcular a influência de qualquer par de observações, desfasadas k períodos, na estimativa de ρk. Quando ρk, σ, e µ
não são conhecidos, podem ser usadas estimativas. Definindo Uj k y y y y j j k k j j k k , = + + + − − + + 1 ρ 1 ρ 2 (5.5.4) e Vj k y y y y j j k k j j k k , = + + − − − + + 1 ρ 1 ρ 2 . (5.5.5)
É fácil de ver que
(
1)
(
)
2 2 2 2 − ρk j k j k = j j k+ − ρ + + k j j k U V y y y y , , e portanto I H(
,ρk,(
y yj, j k+)
)
= −(
1 ρk)
U Vj k, j k, 2 . (5.5.6)Para um processo Gaussiano estacionário com µ, σ e ρk todos conhecidos, Uj k, e Vj k,
são independentes N 0 1
( )
, . Deste modo a distribuição de I H(
,ρk,(
y yj, j k+)
)
é de fáciltratamento pois resulta de uma constante por um produto de variáveis aleatórias nor-mais. Esta distribuição pode então ser usada para determinar quais os valores da
fun-ção de influência invulgarmente elevados em termos absolutos face a um determinado valor crítico.
Com base na forma como o outlier influencia as autocorrelações, os autores propu-seram então um procedimento visual de detecção. Assim, na matriz da função de in-fluência
{ }
Ij k, as estimativas da função excedendo em valor absoluto o valor críticodeverão substituídas por ( )+ ou ( )− dependendo do sinal da estimativa. As outras ob-servações são deixadas em branco.
Fig. 5.18 - Matriz da função de influência das autocorrelações
Considere-se o exemplo da figura 5.18. A observação yt influencia várias estimativas
da autocorrelação com desfasamentos diferentes. Surge no cálculo de cada elemento na linha t da matriz e também nos elementos da diagonal das linhas anteriores come-çando na coluna 1 da linha t−1 e continuando para cima e para a direita. Um outlier terá, pois, uma influência positiva ou negativa muito grande em cada estimativa da autocorrelação. Em consequência, se muitas das observações na linha t e na diagonal superior
[
(
t−11, ,) (
t−2 2, .... são elevados em valor absoluto, concluímos que y)
]
t é um5.6 MEDIDAS DE INFLUÊNCIA DE PEÑA
Peña (1982, 1990) construiu estatísticas indicadoras das observações, nomeadamente outliers aditivos e inovadores, que têm forte influência no valor dos coeficientes ARMA estimados. Estatísticas essas que se baseiam na substituição das observações discordantes por valores interpolados. No artigo de Peña (1982) é considerado um processo AR(p), no artigo de (1990) as estatísticas propostas são generalizadas a um modelo ARMA(p,q).
5.6.1 Para outliers aditivos
Suponha-se que xt segue um processo ARMA(p,q) e considere-se a aproximação
au-toregressiva dada por
xt ixt i e i p t = − + =
∑
π 1 * ,para um qualquer desfasamento p*.
Assumindo agora que ocorre um outlier aditivo no período T , como vimos ante-riormente, o modelo paramétrico para um AO é dado por
zt xt t T
= +ωξ( )
Seja π( )T =
(
,( )T , ... , p*,( )T)
′
π1 π o vector de parâmetros considerando que está
sente um outlier, ou seja, retirando a cada observação o efeito provocado pela sua pre-sença. Uma estimativa de π(T), assumindo a aproximação autoregressiva, é dada por
π( )T =
(
X X ′y y)
− X Y ′y 1 , (5.6.1) com ... ... * * * Xy p p n n n p x x x x x x = − − − − 1 1 1 2 0 0 / 0 e * Y= + x x p n 1 0 , onde x∃t =zt para t ≠T e x∃(T) =zT −ω∃.Considerando xT como um valor omisso, a sua estimativa é dada por
( )
(
)
* xT j zT j zT j j p = + + − =∑
η 1 , (5.6.2) onde ∃ ∃ ∃ ∃ ∃ ,( ) ,( ) ,( ) ,( ) * * η π π π π j j T i T i j T i p i T i p = − + + = =∑
∑
1 2 1 1 . (5.6.3)Da relação ω = −∃ zT x∃(T) pode-se concluir que, dados os parâmetros, uma estimativa do
outlier aditivo é dada pela diferença entre os dados observados e o seu óptimo de in-terpolação, x∃( )T , o qual pode ser interpretado como a melhor estimativa de xT usando
toda a informação amostral. É de notar que o cálculo de x∃(T) é efectuado aplicando
s j
( )
=zT+j +zT−j. (5.6.4)Estas ponderações são tais que −ηj é o j -ésimo coeficiente da função geradora
(
πj)
π( ) ( )Bπ F2 1
∑
−e, então, pode ser interpretado como o coeficiente da função de autocorrelação inversa do processo.
O sistema de equações dado por (5.6.1) e (5.6.2) tem de ser resolvido iterativa-mente. Começando com um valor inicial π( )T ( )0 para π∃(T), as ponderações ηj podem
então ser calculadas obtendo-se
ω
( )
0 . Este valor é usado para calcular ( ) ( )( )
x T 0 =zT −ω 0 , o que conduz a uma nova estimativa π( )T ( )1 . O processo é
repeti-do até à convergência.
Seja π∃ o estimador de π, assumindo que não existem outliers . Então
π =
(
X X′z z)
−1X Z′z ,onde a matriz Xz e o vector Z correspondem aos dados observados e têm a mesma
estrutura de X∃y e Y∃ e os mesmos valores excepto no período T . Claro que as
colec-ções de dados são idênticas se x∃( )T =zT. Então,
Xz =X∃y+ω∃M, (5.6.5)
onde a matriz M é dada por
M′ = 0p*× −(T p*);Ip*×p*;0p*× − −(n p* T) , (5.6.6)
Z = +Y∃ ∃ωV, (5.6.7) onde a matriz V pode-se decompor em
V′ = 0′(T p− − ×* 1) 1; ;10′(n p− − ×* T) 1 . (5.6.8)
Para relacionar π∃(T) e π∃, vamos decompor as matrizes Xz e X∃y e os vectores Z e ∃
Y de mesmo modo que em (5.6.6) e (5.6.8). Se considerarmos que ( ) ( ) ( )
[
]
X′z = X′z 1X′z 2 Xz′ 3 onde Xz p T T p z z z z ′ − − = ( ) ... ... * * 1 1 1 0 / 0 , Xz T T p T p T z z z z ′ − + + − = ( ) ... ... * * 2 1 1 0 / 0 , e Xz T p T n n p z z z z ′ + + − − = ( ) ... ... * * 3 1 1 0 / 0 , então(
X X y y)
X Xz z I(
Xz( ) Xz( ))
′ = ′ +ω2 −ω + ′ 2 2 =X Xz′ z −ω∃AT, (5.6.9)onde AT = Xz( )2 +X′z( )2 −ωI é uma matriz simétrica com aij =aji =s i( )= zT i+ +zT i−
e aii =zT + ∃x(T). Além do mais, decompondo o vector Z em
Z = zp*+1,...,z zT; T+1,...,zT p+ *;zT p+ +* 1,...,zn ′ = Z′( )1 Z′( )2 Z′( )3 ′. Então, de (5.6.5) e (5.6.7), X Y y
(
Xz M)
(Z V) ′ = −ω ′ −ω e, como M V′ =0, M Z′ =Z( )2 e X Vz zT zT p ′ − − = 1,..., * , X Y∃ ∃y′ = X Zz′ −ω∃ST, (5.6.10)onde ST′ =
(
s( )1 , ... ,s p( )
*)
e s j são dados por (5.6.4). Exprimindo os parâmetros es-( )
timados π∃(T) como uma função dos dados observados, pelas equações anteriores,(
X X′z z −ωAT)
π( )T =X Z′z −ωST, o que nos leva aπ( )T = −π ω
(
X X′z z)
−1(
ST −ATπ( )T)
. (5.6.11) Sendo a∃T i+ os resíduos da estimação (5.6.1),aT i+ =zT i+ −π1,TzT i+ −1− −/ πi T,
(
zT − − −ω)
/ πp*zT i p+ − *e b∃T i− os resíduos para trás
Se considerarmos E∃T a∃T b∃T ,...,a∃T p* b∃T p*
′
+ − + −
= 1+ 1 + , então E∃T =ST − ππAT∃(T) é um
vector de pseudo-resíduos e como tal (5.6.11) pode ser escrito como
π( )T = −π
(
z z)
T′ −
ω X X 1E . (5.6.12)
Uma maneira de medir a influência da observação zT é relacioná-la com a alteração
na estimativa dos parâmetros quando se assume que a observação é um outlier. Como ∃
π e π∃(T) são vectores, a forma usual de medir a sua distância é construir uma métrica usando uma matriz semidefinida positiva relevante. Nomeadamente, a matriz de va-riância de ambos os vectores estimados e construir uma distância de Mahalanobis. En-tão D ( )T
(
)
(
)
(
)
p AO T z z T = − − ′ ′ ( ) ( ) * π π X X π π σ2 , (5.6.13)onde a distância é dividida pela dimensão dos vectores envolvidos, p*, e pela variância do ruído de modo a estandardizar a medida.
A estatística (5.6.13) pode ser também interpretada como medindo a alteração no vector de previsão em um passo adiante. Usando os parâmetros estimados assumindo que não existem outliers, o vector previsão é dado por Z∃=Xzπ∃, e usando os parâme-tros estimados assumindo que existe um outlier aditivo em T , Z∃T =Xzππ∃( )T . A
dis-tância Euclidiana entre os dois vectores de previsão é
(
Z −Z) (
Z −Z)
=(
− ( ))
(
X X)
(
− ( ))
′ ′ ′
então DAO( )T pode ser interpretada como uma medida estandardizada da distância entre os vectores de previsão em um passo adiante construída com os vectores π∃ e
∃( ) π T .
Usando (5.6.12), a estatística pode ser escrita como
D ( )T
(
)
p AO T z z T = ′ ′ * ω σ 2 2 E X X E , (5.6.15)deste modo a estatística de influência depende de dois factores; o primeiro mede o efeito do outlier relativo ao desvio padrão do ruído, o segundo mede o valor relativo da observação antes e depois do outlier.
A razão de verosimilhança para testar outlier aditivos, referida no capítulo 4, é as-sintóticamente equivalente a
(
)
λ ω σ π AO T i , 2 2 2 2 1 =∑
− ,então DAO( )T pode ser escrita como função desta estatística,
( )
(
)
(
)
D T p AO AO T i T z z T =∑
′ ′ λ π , * 2 2 E X X E . (5.6.16)5.6.3 Para outliers inovadores
Considerando que existe um IO no período T , o modelo para outliers inovadores pode ser representado por uma aproximação autoregressiva
z =x′π +ωξ(T)+e
em que π( )I =
(
,( )I , .. . , p*,( )I)
′
π1 π representa o vector de parâmetros assumindo que
existe um outlier inovador com um efeito ω e xt =
(
zt zt p)
′−1,... , − * . Este é um modelo
linear com uma variável "dummy". Sendo π∃ o usual estimador com ω =0, então
π( )I = +π
(
z z)
T ′ − ω X X 1x (5.6.18) e ω =∃ rT, (5.6.19) onde rT =zT −xT′π∃.A alteração na estimativa dos parâmetros provocada pela presença de um IO no período T pode ser medida por
D ( )T
(
)
(
)
(
)
p IO I z z I = − ′ − ′ ( ) ( ) * π π X X π π σ2 , (5.6.20)a estatística pode ainda ser escrita como
( )
(
)
D T p r h h h IO T T T T = − − 1 1 1 2 2 * σ , (5.6.21) onde hT = T(
z z)
T ′ ′ −x X X 1x é a medida da distância entre o vector no período da inter-venção xT e o vector nulo, é pois a medida de alavanca referida no capítulo 5. Esta estatística pode ser interpretada como o produto de dois termos; o primeiro
(
)
rT hT
2 2 1
1
(
)
hT 1−hT −1, representa a distância de xT à origem. DIO( )T pode-se também exprimir como uma função da razão de verosimilhança, usada para testar os outliers inovadores:
( )
(
)
D T p h h IO IO T T T = − λ , * 2 2 1 , (5.6.22)onde λIO T, =ω σ∃ ∃ é a razão para testar se a T -ésima observação é um outlier inovador. É de notar que DIO( )T depende apenas dos valores relativos de p
*
observações antes da intervenção [os regressores em t =T, xT =
(
zT zT p)
′
−1, ... , − * ] em contraste com
( )
DAO T que depende também das observações depois da perturbação.
5.7 AS ESTATÍSTICAS Ci j( )
Yatawara e Lin (1994) propuseram uma estatística de diagnóstico de observações in-fluentes que permite detectar conjuntos de observações. Estatística essa, construída de modo a evitar o efeito "masking" provocado pela existência de múltiplos e consecuti-vos outliers.
Lawrance citado por Yatawara e Lin (1994), no quadro dos modelos de regressão, propôs a seguinte medida da influência do i -ésimo caso após a eliminação do j -ésimo caso
Ci j( ) =
(
β( , )i j −β( )j)(
X X′( )j ( )j)(
β( , )i j −β( )j)
/ ps2, (5.7.1) onde β∃( , )i j é uma estimativa dos parâmetros de regressão linear β após a eliminaçãodo i -ésimo e j -ésimo caso, s2 é a variância dos resíduos e X( )j é a matriz de
Os autores adoptaram o esquema sugerido por Lawrance, aplicando-o às séries temporais, no quadro dos modelos autoregressivos AR(p). Após simplificações, Ci j( )
pode-se representar, recorrendo aos elementos da matriz H referida no capítulo 5, como Ci j( )
(
hij)
{
[
hi(
hi)
]
hij}
~ / ~ = −1 2 − 1− + 2 2 × ′ +ri[
h rij( )
′ ′j ri]
p 2 2 1 ~ / / (5.7.2)onde h~ij =hij /
(
1−hi)
( )
1−hj (alavanca conjunta), hij = i( ′ ) j−
x X X 1x [( , )i j -ésimo elemento fora da diagonal de H], ri′=ri / s 1−hi (i -ésimo resíduo estandardizado) e
(
)
xi = zi zi zi p
′ −1, −2, ... , − .
A estatística Ci j( ) é uma função dos rt`s e de hij. Deste modo, múltiplos AO em
t =T T1, 2,..., , Tl
(
l=1 2, , ... afectarão os resíduos r)
T1+1,...,rT2+1,...,rTl+1,rTl+2,... por ω[veja-se (5.4.7)] . De modo similar, múltiplos IO afectarão eT1,eT2,...,eTl por ω e como
tal as observações zT1+1,...,zT2+1,...,zTl+1,zTl+2,... [veja-se (5.4.8)]. Então Ci j( ) é afectado
pelos outliers.
Em situações práticas a posição dos outliers pode não ser conhecida. Então Ci j( )
deverá ser calculada para todos os t= +p 1,p+2, ... ,
(
n− +p 1)
. Para identificar a po-sição dos outliers deverá considerar-se a estatística maxCi j( ), dada por