MÉTODOS DE DETECÇÃO ALTERNATI- VOS

(1)

Capítulo 5

MÉTODOS DE DETECÇÃO

ALTERNATI-VOS

5.1 INTRODUÇÃO

Neste capítulo são apresentados métodos de detecção de outliers, alternativos ao mé-todo baseado no teste das razões de verosimilhanças referido no capítulo anterior. A primeira estratégia de diagnóstico consiste no estudo do comportamento dos resíduos em presença de contaminação segundo uma metodologia desenvolvida por Rosado (1984). Lee e Hui (1993), no contexto de um modelo AR(p), propuseram uma estra-tégia de detecção de outliers aditivos com base nos elementos da diagonal da matriz de projecção, designadas como medidas de alavanca ("leverages"). A técnica de diagnós-tico consegue ainda identificar outliers inovadores e é particularmente eficaz quando estão presentes múltiplos e consecutivos outliers.

Outro método de detecção no quadro dos modelos autoregressivos AR(p), relati-vamente simples de implementar consiste nas estatísticas Q, propostas por Abraham e Chuang (1989), as quais constituem uma medida do efeito da eliminação das observa-ções outlier no valor estimado dos resíduos. Uma vantagem destas estatísticas traduz-se na possibilidade não só de detectar mas também distinguir um AO de um IO. Os autores propuseram ainda um procedimento, em quatro etapas, para modelar as séries temporais em presença de outliers, no qual um processo ARMA(p,q) é aproximado por um AR(p+q).

(2)

Uma outra perspectiva directamente relacionada com a anterior, embora diferente, consiste na detecção de outliers influentes. Isto porque um outlier pode ou não afectar consideravelmente as estimativas dos parâmetros do modelo, como sejam os coeficien-tes ARMA e a variância do ruído. Nesse sentido, apresentamos um conjunto de méto-dos e medidas de diagnóstico de observações influentes.

Como vimos no capítulo 2, a presença de outliers numa série pode ter efeitos dra-máticos no valor estimado das autocorrelações, particularmente em séries temporais de curta duração, o que pode ter implicações nefastas na fase de identificação do modelo da metodologia de Box e Jenkins. Nessas circunstâncias, Chernick, Downing e Pike (1982) propuseram, antes de iniciada a metodologia, o cálculo da matriz da função de influência das autocorrelações de modo a identificar outliers influentes.

Peña (1990) no quadro dos modelos ARMA, apresentou estatísticas indicadoras de AO e IO que têm forte influência no valor dos coeficientes estimados, as quais se ba-seiam na substituição das observações discordantes por valores interpolados. Estas medidas de diagnósticos são particularmente eficazes na detecção de outliers isolados. No entanto a existência de múltiplos e consecutivos outliers coloca problemas aos métodos de detecção. Isto porque o efeito de um único outlier num grupo pode ser ocultado pelo efeito de outros outliers situados na vizinhança. Este comportamento pode ser visto como uma forma de "masking". Nesse sentido, Yatawara e Lin (1994) propuseram uma estatística de diagnóstico de observações influentes que permite de-tectar múltiplos outliers.

Num extenso artigo Bruce e Martin (1989) propuseram duas medidas de diagnós-tico para os modelos ARMA, baseadas na eliminação de observações e medição da al-teração nas estimativas dos parâmetros. O diagnóstico DV mede as alterações na va-riância estimada do ruído, e o diagnóstico DC mede a alteração nos coeficientes ARMA estimados em presença de outliers. É ainda proposto uma estratégia de

(3)

detec-consecutivos outliers. Por último, Ledolter (1990) aplicou às séries temporais as medi-das de deslocamento da verosimilhança introduzimedi-das por Cook (1986, 1987), as quais medem a influência das perturbações nas estimativas dos parâmetros pela alteração provocada no logaritmo da função de verosimilhança. Com base nelas Ledolter (1990) propôs uma estatística simples de diagnóstico das observações influentes.

5.2 UM TESTE SIMPLES DE DISCORDÂNCIA

Como vimos anteriormente, o comportamento dos resíduos, obtidos a partir da estima-ção pelo método dos MQ dos parâmetros do modelo subjacente à série temporal, pode ser um indicador da presença de outliers, numa etapa preliminar de diagnóstico.

Um critério introduzido por Rosado (1984) designado por Método GAN (método baseado no Modelo Generativo com Alternativa Natural como modelo de discordân-cia) permite introduzir um alto grau de objectividade na resolução de problemas com outliers, em particular nos testes de homogeneidade que, em última análise, podem conduzir à rejeição ou aceitação de uma observação da amostra. Nesse trabalho, o au-tor aborda o estudo das observações discordantes com formulação do problema de detecção de outliers para uma distribuição especificada à priori baseado em critérios de máxima verosimilhança.

No caso de uma amostra de observações x ,..., x₁ n pertencentes a uma população

X com distribuição normal em que se supõe conhecido o parâmetro µ podemos for-mular as seguintes hipóteses em termos de modelo de discordância por σ:

- H0 é a hipótese de homogeneidade, isto é, as observações x ,..., x1 n são provenientes

(4)

- Hj é a hipótese alternativa com xj observação discordante, ou seja, xj tem

distribui-ção N ( ,µ σ′) para algum j=1,...., . n

O autor estudou os casos em que os parâmetros σ e σ′ são ou não conhecidos

(i) σ e σ′ conhecidos

Considerando σ e σ′ e conhecidos, sob a hipótese nula de homogeneidade das obser-vações, teremos,

(

)

(

)

(

)

L f i n i n i i n 0 1 2 2 1 1 2 1 2 = = − −     =

∑

₌ Π x,µ σ, exp x σ π σ µ (5.1.1)

e, sob a hipótese alternativa Hj,

(

)

(

)

(

)

Lj f f i j i j n n i j i j = ′ = ′ − −    _ + −_′   _    _         ≠ −

∑

_≠ Π x ,µ σ, x ,µ σ, exp x x σ σ π µ σ µ σ 1 2 1 2 1 2 2 . (5.1.2)

O método GAN propõe então, a estatística de detecção de outliers,

S

(

)

j j = ′ −  −   _ maxσ σ µ σ 2 2 2 x se σ σ< ′ (5.1.3) ou S

(

)

j j = − ′  −   _ minσ σ µ σ 2 2 2 x se σ σ′ < . (5.1.4)

(5)

Sendo no primeiro caso S >c a região de regeição do teste de homogeneidade nas observações x ,..., x1 n e no segundo caso S<c. Os pontos críticos são obtidos a partir

de c′ = F_χ−

(

( −α) n

)

12 1 1 1 se σ σ< ′ e c′ = F_χ−

(

− −( α) n

)

12 1 1 1 1 se σ σ′ < .

É de referir que este modelo vai salientar como candidato a outlier uma observação vulgarmente não considerada. Trata-se de x( )µ , a observação mais próxima de µ, no

caso em que σ σ′ < . Quando σ σ′ > os candidatos a outlier são os usualmente estu-dados x( )1 e x( )n .

(ii) σ conhecido e σ′ desconhecido

Sob estas condições para os parâmetros de dispersão e sob H₀ temos,

(

)

(

)

L n i i n 0 2 2 1 1 2 1 2 = − −     =

∑

σ π exp σ x µ , (5.1.5)

e, o máximo da função de verosimilhança sob Hj,

(

)

exp Lj n n i j i j = ′ − −       − − ′          _         −

∑

_≠ 1 2 1 2 1 2 1 2 2 σ σ π µ σ µ σ x x , (5.1.6)

com σ∃′ = xj−µ estimador de máxima verosimilhança para σ′ sob Hj.

(6)

S j j j = − −    _       max σ exp µ µ σ x x 1 2 2 . (5.1.7)

Sendo S>c a região de regeição. Neste caso, somos novamente conduzidos ao estudo da observação x( )µ , para além das observações tradicionalmente estudadas x( )1

e x( )n .

(ii) σ e σ′ desconhecidos

Este é o caso mais próximo da realidade no estudo de discordância de outliers por σ. Assim sob a hipótese nula teremos que estimar σ2

por, σ2

(

µ

)

2

( )

µ 1 2 1 = − = =

∑

n i i s n x (5.1.8)

e sob a hipótese alternativa estimamos σ2

por, σ2 1

(

µ

)

2 2

( )

µ 1 = −

∑

≠ − = n i j i s j x (5.1.9) e σ′2 por, σ′ =2

(

− µ

)

2 xj . (5.1.10)

Os máximos da função de verosimilhança sob a hipótese nula e alternativa, são res-pectivamente,

(7)

( )

(

)

_exp L s n n 0 1 2 2 = −     µ π (5.1.11) e

( )

(

)

(

)

_exp L s n j j j n n = − −       − 1 2 2 1 x µ µ π . (5.1.12)

Deste modo, obtemos a estatística,

(

)

(

)

(

)

(

)

S j j i i j i i n = − −           − − −          

∑

− min x x x x µ µ µ µ 2 2 1 2 2 2 1 2 1 _(5.1.13)

Sendo S<c a respectiva região de rejeição. Mendes (1993) construiu tabelas dos pontos críticos para a estatística. Neste caso as observações candidatas a outlier são

x_{( )}_µ , x_{( )}₁ e x_{( )}_n .

Considerando que numa série temporal x_t

(

t=1, ... ,n

)

, cujo modelo subjacente é um ARMA(p,q), os et são variáveis aleatórias independentes identicamente distribuídas

(

)

N 0,σ2 , podemos assim numa primeira fase de diagnóstico identificar outliers através do estudo da série dos resíduos aplicando o Método GAN. Há no entanto que ter em atenção que um outlier pode afectar o valor de mais do que um resíduo, dada a correlação que existe entre as observações, como vimos nos capítulos 2 e 3. Nomeadamente no caso de múltiplos e consecutivos outliers, esta distorção poderá ser significativa afectando a análise.

(8)

Exemplo 5.1

No intuito de ilustrar a aplicação do Método, consideremos o seguinte exemplo em que o processo subjacente à série segue um modelo AR(1):

xt =0 5. xt−1+et,

e os e_t´s são variáveis aleatórias iid N 0 01

(

, . 2

)

.

Foi simulada uma série de dados com n=100 na qual foi introduzido um outlier aditivo com efeito ω =1 em T =50. Na figura 5.1 temos a série dos residuos que se obtem da estimação dos parâmetros do modelo.

Fig. 5.1 - Série dos resíduos

Aplicando o programa (veja-se ponto 7.2.1) que nos permite calcular o valor da estatística (5.1.13) obtemos o seguinte "output":

(9)

*********************************************** DETECÇÃO DE OUTLIERS

**********************************************

OBSERVAÇÃO RESÍDUO ESTATÍSTICA

50 1.107 .000002

30 -.001 .000871

16 .003 .003610

VALOR CRITICO A 5% .00006

VALOR CRITICO A 1% .00001

Assim no resíduo correspondente à observação T =50, obtemos como era de espe-rar um valor bastante reduzido. Neste caso, como o valor da estatística é inferior ao valor crítico, considerando quer um nível de confiança a 5% ou a 1%, temos uma indi-cação que o resíduo é proveniente de uma observação outlier.

5.3 MEDIDAS DE ALAVANCA DA AMOSTRA

Vimos no capítulo 2 que dada uma colecção de observações z z1, 2,..., , considerando zn

que zt segue um modelo AR(p), pode-se representar o processo como

zt = t +et ′ x φ . (5.3.1) com xt =

(

zt zt zt p

)

′ −1, −2, ... , − e φ =

(

)

′ φ1,... ,φp . Considerando as n observações, temos

(

n− p

)

equações Z = Xφ+e, (5.3.2) onde Z=

(

z ₊ ,... ,z

)

′, e=

(

e ₊ , ... ,e

)

′ e

(10)

X x x x =             =             − + − − − + ′ + ′ ′ z z z z z z z z z p p p p n n n p p p n 1 1 1 2 1 2 1 2 ... ... ... 0 0 / 0 0 .

Então o estimador dos mínimos quadrados de φ é dado por

φ = (X X′ )−1X Z′ , (5.3.3)

e os valores ajustados são dados por

Z=Xφ=X X X( ′ )−1X Z′ =HZ, (5.3.4)

com H=X X X( ′ )−1X′. A matriz dos resíduos é obtida considerando R= −(I H Z) . Vamos chamar a H matriz de projecção, análoga àquela considerada na regressão linear. Designamos o elemento da diagonal da matriz H, htt, por ht em que

ht = ′ ′t( ) t

−

x X X 1x (5.3.5)

Os elementos fora da diagonal de H, são designados por hij.

Lee e Hui (1993) no contexto de um modelo AR(p), sugeriram um procedimento de detecção de outliers com base no estudo dos elementos da diagonal da matriz de projecção, conhecidas como medidas de alavanca da amostra.

Os elementos da diagonal da matriz H apresentam as seguintes propriedades im-portantes:

(11)

(i) 0≤ ≤ht 1

(ii) Supondo que ht é elevado (próximo de 1 ). Como

ht ht htj t j = + ≠

∑

2 2 , então h_tj t j 2 0 ≠

∑

→ ou h_tj →0, ∀ ≠j t , quando h_t →1. Na forma escalar, pode-se escrever

z∃_t h z_t _t h z_tj t j j = + ≠

∑

.

Segue-se que z∃t é dominado pelo termo h zt t quando ht →1. Então, ht pode ser

interpretado como uma medida do efeito alavanca induzido em z∃t por zt.

(iii) Considerando que quando n→ ∞, n ( )

p −1 _{′ → ∑} X X , em que ∑ é a matriz de covariâncias de xt. Defina-se dt = ′ ∑t t − x 1x , t= +p 1,..., (5.3.6) n

em que dt corresponde à distância de Mahalanobis entre xt e o vector nulo (ou no

caso geral o vector média dos xt`s). Como,

nh n d t t t p t = ′_ ′ _ → − x X X x 1 quando n→ ∞.

(12)

Então com n elevado, examinar os ht`s equivale a examinar os dt`s. Deste modo,

ht pode ser considerado uma escala aproximada (dividindo por n) da distância de

Mahalanobis entre xt e o vector nulo.

Para a detecção de outliers em processos AR(p), dada a dependência que se veri-fica entre as observações, é a o posição relativa de z zt, t−1,...,zt p− +1 no espaço de

di-mensão p que nos interessa e não apenas a posição de zt. Consequentemente,

deve-mos estudar o afastamento do vector xt =

(

zt zt zt p

)

′

−1, −2, ... , − , como base de detecção das observações outlier.

A discussão do ponto (ii) sugere que se utilize h_t para detectar o vector outlier x_t. Recorde-se que h_t = ′ ′x X X_t( )−1x_t. Supondo que z_t₋₁ é discordante, essa observação afectará x xt, t₊1,...,xt p_{+ −}1 e como tal h ht, t₊1,...,ht p_{+ −}1 serão empolados. Então, se ht−1

apresenta um valor reduzido (zt₋2,zt₋3,...,zt p_{− −}1 não são outliers) e ht é elevado,

pode-se identificar z_t₋₁ como um possível outlier.

No caso de outliers consecutivos, uma sequência de h_t`s terá valores distorcidos. O número exacto de outliers será no entanto difícil de determinar por inspecção.

Dado que d_t tem uma distribuição χ_{( )}2_p

quando a distribuição do ruído é Gaussiana, Hau e Hau e Tong citados por Lee e Hui (1993) sugeriram, como instrumento de de-tecção de outliers, a construção do gráfico da série temporal dos nh_t`s e a sua compa-ração com o valor critico a 5% da distribuição de referência.

Contudo, segundo Lee e Hui (1993), o gráfico da série temporal dos nh_t`s é inade-quado para avaliar com precisão o efeito alavanca. Deste modo, sugeriram um proce-dimento de detecção de outliers com base num simples exame dos h_t`s.

No entanto, h_t não pode ser quantificado pela distribuição de referência χ_{( )}2_p

(13)

Lee e Hui (1993) propuseram um dispositivo gráfico que permite identificar as obser-vações outliers com base nas estatísticas ordenadas dos ht`s em conjunto com um

en-velope construído por simulação. O procedimento de diagnóstico consiste nas seguin-tes etapas:

(i) Estimar φ∃ e σ∃2 a partir da série observada (contaminada) e calcular as medidas de alavanca da amostra;

(ii) Simular m pseudo colecções de dados (de Z) baseados nos φ∃ e σ∃2 estimados; (iii) Para cada colecção, calcular os

(

n− p

)

valores ordenados das estatísticas ala-vanca h( )i ;

(iv) Colocar num gráfico o máximo e o mínimo de cada estatística de ordem das

m réplicas em conjunto com os valores da amostra ordenados.

O envelope simulado formado pelos dois vectores

(

n− p

)

de estatísticas de ordem de máximos e mínimos é construído para ajudar na interpretação das alavancas da amostra. Na ausência de outliers, espera-se que os valores da amostra se situem dentro dos limites do envelope. Outliers potenciais surgirão à direita, no gráfico, como distan-tes pontos isolados. Se algum dos valores observados cair fora dos limidistan-tes do enve-lope, rejeitamos a hipótese de que não existem outliers. Normalmente são necessários valores de m=19 simulações para testar o máximo efeito alavanca observado a um ní-vel de significância de aproximadamente 5% .

Num modelo AR(p) com k outliers consecutivos nos períodos T T, +1,...,T+k, a sequência hT+1,hT+2,...,hT k+ + −p 1 será considerada significativa pelo envelope.

Conse-quentemente, o número exacto de outliers, k , e a sua localização T T, +1,...,T+k po-de ser po-determinada.

Segundo Lee e Hui (1993), o procedimento é eficaz na detecção de outliers aditi-vos em modelos autoregressiaditi-vos, embora a técnica proposta se aplique também a

(14)

ou-tliers inovadores. O método, segundo os autores, é particularmente eficaz quando es-tão presentes múltiplos e consecutivos outliers.

Para testar as medidas de alavanca, nomeadamente verificar o seu comportamento em presença de múltiplos AO e de um IO, consideremos os seguintes exemplos em que o processo subjacente à série segue o modelo AR(1) do exemplo 5.1:

Exemplo 5.2

Foi simulada uma série de dados com n=100 na qual foram introduzidos dois outliers aditivos com efeito ω =1 em T =50 e T =51.

Na figura 5.2 temos a série contaminada resultante da introdução dos dois AO. Os estimadores dos mínimos quadrados são φ =∃ 0 523 e . σ =∃ 0 087 . Na figura 5.3 temos o . gráfico dos resíduos. Como se pode ver temos três resíduos com valores elevados r50,

r₅₁, r₅₂. Assim, poderíamos concluir erradamente que z₅₂ é um outlier, se apenas consi-derássemos os resíduos como método de diagnóstico. Este efeito é o chamado efeito de "smearing".

(15)

Fig. 5.3 - Resíduos estimados Resíduos estimados t resíduos 45 -.023779 46 -.003035 47 .052419 48 .213965 49 -.100583 50 1.164655 51 .537776 52 -.555507 53 .030746 54 .066102 55 .003463

Examinando as medidas de alavanca da amostra, h_t, na figura 5.4, verificamos que o período 52 contribui com o valor mais elevado h52 =0 34. , ocorrendo o segundo

mais elevado em h₅₁ =0 28. . Deste modo, x₅₂ =z e ₅₁ x₅₁ =z poderão ser considera-₅₀ dos outliers.

(16)

Fig. 5.4 - Medidas de alavanca

O gráfico do envelope simulado é dado na figura 5.5. Confirma-se que h51 e h52

apresentam valores significativos comparativamente aos máximos obtidos nas 19 simu-lações. Finalmente, como os ht`s são reduzidos para t ≤50 e t ≥53, identificamos com

sucesso por este método, duas observações outlier consecutivas, z₅₀ e z₅₁.

(17)

Exemplo 5.3

No caso da série simulada contaminada com um outlier inovador, o seu efeito corres-ponde também a 1 introduzido em T =50 (veja-se a figura 5.6).

Os estimadores dos mínimos quadrados são φ =∃ 0 52 e . σ =∃ 0 086. Na figura 5.7 . temos o gráfico dos resíduos, como se pode verificar temos apenas um valor elevado r₅₀. Repare-se que neste caso não se verifica o efeito de "smearing".

Fig. 5.6 - Série contaminada

(18)

Resíduos estimados t resíduos 45 .090897 46 .064747 47 -.088082 48 .096685 49 -.100465 50 1.048394 51 -.001448 52 -.102744 53 .031166 54 .065620 55 -.003416

Examinando as medidas de alavanca, ht, na figura 5.8, verificamos que o período

51 contribui com o valor mais elevado, h₅₂ =0 1752. , no entanto temos ainda o período 52 com um valor bastante significativo, h₅₂ =0 17. . Deste modo, x51 =z poderá 50

eventualmente ser considerado uma observação outlier, e ficamos na dúvida acerca de

x52 =z . 51

Fig. 5.8 - Medidas de alavanca

O gráfico do envelope simulado é dado na figura 5.9. Confirma-se que h51 pode ser

(19)

lado, poderíamos ainda concluir erradamente que z₅₁ é também um outlier dado que h₅₂ apresenta um valor significativo.

Fig. 5.9 - Envelope simulado

Em conclusão o método das medidas de alavanca funciona relativamente bem na detecção de múltiplos e consecutivos AO e de um IO isolado. Embora neste último ca-so com algumas reservas.

5.4 ESTATÍSTICAS Q

5.4.1 Construção das estatísticas Q

Na regressão linear assume-se que as observações zt são independentes. Uma

observa-ção pode ser eliminada sem afectar as seguintes e a eliminaobserva-ção de uma equaobserva-ção em (5.3.2) equivale a eliminar uma observação. No contexto das séries temporais, isso já não é verdade. Uma observação suspeita, zT, está envolvida não só numa equação mas

nas p+1 equações consecutivas de (5.3.2). Então pode ser necessário eliminar não só uma mas p+1 equações.

(20)

Suponha-se que existe uma observação suspeita em t=T. A matriz X e os vecto-res Z e R podem-se decompor como se segue:

(

)

( ) X X X X =           − × × − − × 1 2 3 T p p k p n T k p ,

(

)

( ) Z Z Z Z =           − × × − − × 1 2 3 1 1 1 T p k n T k ,

(

)

( ) R R R R =           − × × − − × 1 2 3 1 1 1 T p k n T k ,

onde k é o numero de equações a eliminar. Os resíduos, R, podem-se exprimir na forma decomposta como

R I H H H H I H H H H H Z Z Z = − − − − − − − − −                     11 12 13 21 22 23 31 32 33 1 2 3 I , (5.4.1) em que Hij =X X Xi( ′ ) X′j i j= −1 1 2 3 , , , . (5.4.2)

Seguindo a sugestão de Drapper e John (1981) para situações de regressão, os au-tores consideram as estatísticas

(21)

Qk T( ) = ′ −

(

)

− R I H2 22 R 1 2 (5.4.3) e APk T( ) = −

(

1 Qk T( ) RSS

)

I H− 22 , (5.4.4)

onde RSS é a soma do quadrado dos resíduos. Quando k =1, R2′ =rT, e quando

k = +p 1, R′ =₂

(

rT, ... ,rT₊p

)

. Qk T( ) pode ser decomposto em dois termos:

Qk T( ) = ′ + −

(

*

)

′ R R₂ ₂ φ φ × ′

(

X X₁ ₁+ ′X X₃ ₃

)(

φ φ − _*

)

=Qk1( )T +Qk2( )T, (5.4.5)

onde φ =_*

(

X X′ + ′₁ ₁ X X₃ ₃

) (

−1 X Z₁′ + ′₁ X Z₃ ₃

)

é o estimador de φ após a eliminação de k equações.

Por simulação os autores concluíram que as estatísticas Qk, Qk 1, e Qk 2 são

indica-dores úteis dos outliers. Dado que o comportamento amostral de AP é difícil de in-terpretar, consideraram apenas as estatísticas Q.

Em situações práticas a posição de outlier pode não ser conhecida. Deste modo, o procedimento de detecção sugerido requer que Qk t( ), Qk1( )t e Qk2( )t sejam calculados

para todos os t= +p 1,p+2, ... ,(n− +k 1), e isto implica

(

n− − +k p 1 inversões da

)

matriz

(

I H− ₂₂

)

, o que pode constituir um problema. Se os elementos fora da diagonal da matriz

(

I H− ₂₂

)

, −hij, são reduzidos em valor absoluto, os autores propõem que se

considere a seguinte aproximação, na qual não é exigida nenhuma inversão da matriz:

Qk t ri

(

hi

)

i t t k ( ) ≈ − = + −

∑

2 1 1 . (5.4.6)

(22)

Esta aproximação é geralmente adequada para grandes amostras. Uma vez obtido Qk t( ), Qk2( )t pode ser calculado subtraindo Qk1( )t = ′R R2 2 de Qk t( ). Veja-se que quando

k =1 (eliminando uma observação) o valor exacto e a aproximação são os mesmos.

5.4.2 Comportamentos das estatísticas Q em presença de outliers

Consideremos os modelos paramétricos geradores de outliers. Para um outlier aditivo temos

(AO) zt xt t T

= +ωξ( )

, (5.4.7)

onde ω é uma constante e xt segue um modelo AR(p). Alternativamente pode-se

con-siderar o modelo para um outlier inovador

(IO) z_t =φ−1( )B e

(

_t+ωξ_t( )T

)

(5.4.8)

As estatísticas definidas em (5.4.3) e (5.4.4) são funções dos rt`s e dos

( )

[

]

h ii =t, ... , t+ −k 1 . O seu comportamento é diferente para os outliers aditivos e inovadores. Assim, podem ser usadas não apenas para detectar mas também para dis-tinguir um AO de um IO.

Um AO suspeito no período t=T afectará zT através de ω em (5.4.3) e

conse-quentemente r_{T i}₊ por φ ω_i

(

i=0 1, , ..., ;p φ_o =1

)

. Um IO afectará r_T por ω em (5.4.7) e assim zT i+ por ψ ωi

(

i=0 1, , ... , onde

)

ψi é o coeficiente de B

i

em ψ( )B =φ( )B −1 = −1 ψ₁B−ψ₂B2−Λ .

Consideremos um processo AR(1). Supondo k =1; então

H = = 2

∑

2

h z n z , Q r2

(

z2 n z2

)

1

= −

∑

− , Q =r2

(23)

(

)

(

)

Q12T r zT T t Tzt r hT T hT 2 1 2 1 2 2 1

( ) = −

∑

_≠ − = − . Q11 depende apenas de rT, enquanto que

Q₁ e Q12 dependem de rT e de hT, contudo hT é relativamente reduzido comparado

com 1, e o comportamento de Q₁ é dominado por r_T. Por outro lado, h_T

(

1−h_T

)

é uma função monótona de hT e é uma medida da distância de X2 ao centro do elipsóide

formado por

(

X X′₁ ₁+ ′X X₃ ₃

)

. Assim o comportamento de Q₁₂ depende de r z_T2 _T2₋₁. Se o outlier em t =T é um AO, então rT e rT+1 são afectados, e assim Q11( )T ,

Q11(T+1), Q1( )T e Q1(T+1) são mais elevados comparados com os restantes. Por outro lado,

Q12( )T e Q12(T+1) são influenciados pelo outlier em t=T, embora muitas vezes o mais

elevado seja o último, dado que rT+1 e zT são afectados pelo outlier.

Se o outlier é do tipo IO, então apenas rT é afectado, o que implica que Q1( )T e

Q11( )T são mais elevados comparados com os outros. O comportamento de Q12( )T é

menos fiável, dado que as observações zT,...,zn são todas afectadas.

O comportamento das estatísticas para processos de ordem superior (p〉1 é similar ) e está sumariado na Tabela 5.1. Em geral, segundo Abraham e Chuang (1989), expe-riências de simulação indicam que Qk (ou Qk1) é mais útil para detectar outliers do que

(24)

Estatísticas IO AO Q₁₁, Q₁ eliminando uma equação (k =1). Valores elevados em t=T e reduzidos os res-tantes. Os valores em t=T T, +1,...,T+p são afec-tados.

Q₁₂, eliminando uma equa-ção (k=1).

Os valores em

t=T T, +1,... são afec-tados (pouco fiáveis).

Os valores em t=T T, +1,...,T+p são afec-tados. Q(p+1 1) , Q(p+1), eliminando p+1 equações

(

k= +p 1

)

. Valores elevados em t= −T p T, − +p 1,..., ,T e reduzidos os restantes. Os valores em t= −T p T, − +p 1,...,T+p

são afectados, com o maior valor em t =T.

Q(p+1 2) , eliminando p+1

equações

(

k = +p 1

)

.

Os valores em

t= −T p,..., ,...T são afectados (pouco fiáveis).

Os valores em

t= −T p T, − +p 1,...,T+p

são afectados, com o maior valor em t =T.

Tabela 5.1 - Comportamentos das estatísticas Q considerando um outlier em t=T

Exemplo 5.4

Consideremos o exemplo de Abraham e Chuang (1989) em que o modelo de base é um AR(1)

xt =0 5. xt−1+et,

e os et´s são variáveis aleatórias iid N 0 1

( )

, .

Simulámos duas séries de dados com n=100, e foram introduzidos respectiva-mente um AO e um IO no momento T=80 de efeito ω =4 5. . Calculámos então as estatísticas Q, respectivamente, Qk T( ) e Qk2(T), correspondendo à eliminação de uma

(25)

(AO)

´ Fig. 5.10 - Estatística Q1( )t

(26)

Fig. 5.12 - Estatística Q_{2( )}_t

Fig. 5.13 - Estatística Q22( )t

No caso da série contaminada pelo AO, Q_{1 80}₍ ₎ e Q_{1 81}₍ ₎ apresentam valores elevados (figura 5.10). Por outro lado, Q_{12 80}₍ ₎ tem um valor reduzido e Q_{12 81}₍ ₎ é bastante elevado (figura 5.11). Segundo os autores, este comportamento indicia a presença de um AO. É de notar ainda que com k =2 , ou seja eliminando 2 observações, Q_{2 79}₍ ₎, Q_{2 80}₍ ₎ e Q_{2 81}₍ ₎ apresentam valores elevados (figura 5.12), bem como Q_{22 80}₍ ₎ e Q_{22 81}₍ ₎ (figura 5.13).

(27)

(IO)

Fig. 5.14 - Estatística Q1( )t

(28)

Na série contaminada com um IO, como seria de esperar, Q_{1 80}₍ ₎ e Q_{12 80}₍ ₎ apresentam valores elevados. No entanto, Q_{12( )}_t apresenta outros valores elevados o que indica que este gráfico é menos fiável na identificação de outliers (como aliás é referido pelos autores). Com k =2 temos Q_{2 79}₍ ₎ e Q_{2 80}₍ ₎ elevados. Este é um comportamento típico dos IO.

(29)

5.4.3 Distribuições assintóticas

Para identificar a localização dos outliers, Abraham e Chuang (1989) introduziram as estatísticas maxtQk t( ), maxtQk1( )t e maxtQk2( )t , dai que seja necessário identificar as

suas propriedades amostrais. As distribuições exactas da amostra são difíceis de identificar, deste modo apela-se à teoria das grandes amostras.

Se não houver outliers, φ∃ converge em probabilidade para φ φ

(

 →p φ

)

e ∃

σ2 _{ →}_p σ2

, com σ2 =

∑

t p_{= +}₁

(

zt −z

)

2

(

n− p

)

n

. Os resíduos rt convergem em

proba-bilidade para et e os elementos da matriz H convergem para 0 à medida que n

aumen-ta. Então Qk t Q e p k t i i t t k k 1 2 1 2 2 ( ) ( ) * ( )  → = ≈ = + −

∑

σ χ (5.4.9) e Qk t Q p k t ( ) ( ) *  → , Qk t p 2( )  → 0, max ( ) max ( ) * t k t p t k t Q1  → Q , e max ( ) max ( ) * t k t p t k t Q  → Q , (5.4.10) onde χ( )k 2

representa a distribuição do qui-quadrado com k graus de liberdade. Se k =1, então

{ }

Qk t( )

*

é uma sequência de variáveis χ_{( )}2₁ iid, e é uma sequência de variá-veis dependentes χ( )k

2

para k≥2.

Caso 1: k =1. Considere-se F1( ). como a função de distribuição acumulada de

σ χ2 1 2

( ) e τ =m

[

1−F C1

(

m( )τ

)

]

, com m= −n p e Cm( )τ é um valor critico. Então

(30)

Dado um nível de significância α, o valor critico C( )τ pode ser obtido considerando

C_m( )τ = F_k−1

(

1+

(

ln(1−α)

)

m

)

. (5.4.12) Também max ( )

t Q11t e maxt Q1( )t têm a mesma distribuição assintótica que max ( ) * t Q1t .

Caso 2: k≥2. Seja Fk( ). a função de distribuição acumulada de σ χ 2 2 ( )k . Então Pr max *_{( )} ( ) exp( ) t Qk t ≤Cm v   τ  → − τ , (5.4.13)

onde, para algum v(0< ≤v 1) e para cada τ >0 , m

[

1−F C

(

_m( )τ

)

]

→τ à medida que m= − − + → ∞n p k 1 . Dado um nível de significância α, temos τ = −ln 1( −α) v , e o valor critico C_m( )τ pode ser obtido por

Cm( )τ = F

(

+

(

( −α)

)

( )vm

)

− 1 1 1 ln1 . (5.4.14) Agora max ( )

t Qk1t e maxt Qk t( ) têm a mesma distribuição assintótica que max ( ) * t Qk t em

(5.4.13).

5.4.4 Com p desconhecido

As estatísticas de diagnóstico foram obtidas sob a hipótese de que a ordem p do pro-cesso é conhecida. Contudo na prática, pode não ser este o caso. Então uma estratégia bastante comum é ajustar um processo de ordem superior. Vejamos então qual o com-portamento das estatísticas Q quando um AR p

( )

* ,p*〉p é ajustado aos dados.

(31)

X 0 0 B C * =    e V A 0 0 C = ₋   , onde B=             − − + + − − − − z z z z z z z z z p p p p p p p p n n n p * * * * * * ... ... ... ... 1 1 1 1 2 0 0 0 , C=             − − + − − − z z z z z z p p p p n p n p * * * ... ... ... ... 1 1 2 1 0 0 , e A=           − − z z z z p p p p ... ... ... * * 1 1 0 0 .

Então os estimadores dos MQ de φ =

(

φ1, ... ,φp

)

′ obtêm-se como em (5.3.3) , e os

estimadores dos MQ de φ* =

(

φ1, ... ,φ φp p+1, ... ,φ_p*

)

= ′ ′

(

φ φ, 2

)

são dados por

φ =*

(

X X*′ *

)

−1X Z*′ . (5.4.15) Seja agora φ₍N₎ = ′ ′

(

φ

)

′

0 , onde 0 é um vector (p*−p)×1 de zeros. Então

(

)

* ( ) * * φ =φ − ′ − ′ N X X V R 1

, com o vector de resíduos do verdadeiro modelo dado por

R = − ∃Z Xφ. Segue-se que zt* = +zt t*

(

* *

)

* ′

′ ′ − ′

(32)

(

)

r_t* = +r_t x_t*′ X X*′ * −1X R*′ (t p〉 *), onde z∃_t* é o valor ajustado e r_t* é resíduo corres-pondente à estimativa φ∃*, e x*_t =

(

z_t ,... ,z_{t p}*

)

′

−1 ₋ . Segundo os autores, pose

de-monstrar que rt rt p

(

n

)

* = +Ο −1 2/

para t> p*. Espera-se então que os resíduos do ver-dadeiro e do modelo estimado se comportem da mesma maneira para t> p*.

O comportamento das estatísticas Q depende, neste caso, de rt *

e de H22 *

(ou de ht *

quando são usadas aproximações). Então Qk, Qk1, e Qk 2 têm basicamente o mesmo

comportamento que aquela da tabela 5.1, com p substituído por p*.

5.4.5 Um procedimento iterativo de estimação

Abraham e Chuang (1989) propõem ainda um procedimento iterativo em quatro etapas para modelar séries temporais na presença de outliers na qual um processo ARMA é aproximado por um processo AR, com detecção e ajustamento dos outliers.

Se zt segue um processo ARMA(p,q), este processo pode ser representado por

uma aproximação autoregressiva

z_t _{i t i}z e i p t = − + =

∑

π 1 * , (5.4.16)

para um qualquer desfasamento p*. Se o processo é puramente autoregressivo p* = p. Caso contrário os coeficientes π são obtidos a partir de

π( ) φ( )_{( )} θ

B B

B =

e, por causa da invertibilidade de θ( )B , estes coeficientes decaem e tornam-se prati-camente 0 para algum desfasamento p*.

(33)

Deste modo, supondo que o modelo subjacente à série temporal é um ARMA(p,q) esse processo pode ser aproximado por um AR(p+q). Na prática, para detecção de outliers, os autores descobriram que esta pode ser uma boa aproximação.

Assim a estratégia de construção do modelo, proposto pelos autores, começa com a estimação de um processo AR de ordem suficientemente elevada, propondo os se-guintes procedimentos de construção do modelo, baseados nos métodos de detecção de outliers referidos anteriormente:

Etapa 1

Usar uma qualquer técnica de selecção de modelos para identificar uma primeira tenta-tiva de ordem

(

p q′ ′,

)

, a qual pode não coincidir com a verdadeira ordem ( , )p q . Esco-lha-se p*〉 ′ + ′p q .

Etapa 2: Detecção dos outliers.

Estime-se π =

(

,..., *

)

′

π1 πp pelo método dos MQ e calcule-se Qk (e/ou Qk 2) para

k =1 e k = p*+1. Determine-se o outlier e o seu tipo baseado nos gráficos de Qk

(e/ou Qk1, Qk 2). Os testes de significância baseados no máximo destas estatísticas

podem também ser usadas. Se não houver outliers vamos para a etapa 4; caso contrário vamos para a etapa 3.

Etapa 3: Limpando a série.

Seja T a posição do outlier identificado na etapa 2. Se o outlier é do tipo AO, elimine-se

(

T−p*

)

equações até T de (5.1.2) para obter as estimativas π%. Ajustemos então a

(34)

T -ésima observação, considerando-a um valor omisso, usando a média estimada de zT

condicional a todas as outras observações, E z z t

(

T t, ≠T

)

; ou seja, substituímos zt por

z%t =zt, t ≠T =

(

₊ + ₋

)

=

∑

~ * ηj t j t j j p z z 1 , t=T, (5.4.17) com ~

(

)

~ ~ ~ ~ , ... , * * * η π π π π j j i i i j p i i p j p = − + = + = =

∑

1 2 1 1 1 .

Por outro lado, se o outlier for do tipo IO, elimine-se a T -ésima equação de (5.4.) para estimar π%, e ajustar as observações como se segue:

z%t =zt, t T〈

= −z_t r%_t , t=T

= −z_t ψ% %_{t T T}₋ r , t T〉 , (5.4.18)

onde r%_t é o resíduo correspondente à estimativa π% e ψ%_j é o coeficiente de Bj em

(

)

1 ₁ ₂ 2 1 ₁ 1 − ~ − ~ − = − ~ − −~ − * * ψ B ψ B / π B / π_p Bp . Etapa 4: Especificação

(35)

5.5 DIAGNÓSTICO BASEADO NA FUNÇÃO DE INFLUÊNCIA DAS AUTO-CORRELAÇÕES

Chernick, Downing e Pike (1982) sugeriram que deveriam ser procurados outliers in-fluentes examinando a matriz da função de influência das autocorrelações estimadas. O parâmetro, S , pode ser considerado dependente da função de distribuição F , S F( ). A função de influência de um estimador depende do parâmetro a estimar, do vector de observações cuja influência está a ser medida e da sua função de distribuição de pro-babilidades, e é dada segundo Hampel (1974), pela equação seguinte quando o limite da direita existe I F S F x

(

, ( ),

)

=lim

[

S

(

( − )F+ x

)

−S F( )

]

→ ε ε εδ ε 0 1 . (5.5.1)

Neste equação, x é o ponto de interesse no espaço das observações, ε é um número real positivo e δx é a função de distribuição que tem toda a sua massa de probabilida-des concentrada no ponto x.

Consideremos uma série temporal discreta z z₁, ₂,..., . Seja z_n

{ }

Ij k, a matriz da

fun-ção de influência das autocorrelações do tipo n m× , em que n é o número de observa-ções e m é o desfasamento (m deverá ser consideravelmente menor que n), cujo ele-mento de ordem

( )

j k, é uma função de

I H

(

,ρk,

(

y yj, j k+

)

, (5.5.2)

em que yi é a observação estandardizada yi =

(

zi− µ σ

)

, µ e σ são a média e o

des-vio padrão de zi, ρk é a autocorrelação de ordem k e H é a função de distribuição

bi-variada de

(

yj,yj k+

)

com média nula, variância unitária e covariância ρk. Os autores

(36)

y y

(

)

y y j j k k j j k + + − ρ + 2 2 2 , (5.5.3)

Deste modo com base na expressão anterior, pode-se calcular a influência de qualquer par de observações, desfasadas k períodos, na estimativa de ρk. Quando ρk, σ, e µ

não são conhecidos, podem ser usadas estimativas. Definindo Uj k y y y y j j k k j j k k , = + + + − −       + + 1 ρ 1 ρ 2 (5.5.4) e Vj k y y y y j j k k j j k k , = + + − − −       + + 1 ρ 1 ρ 2 . (5.5.5)

É fácil de ver que

(

1

)

(

)

2 2 2 2 − ρk j k j k = j j k₊ − ρ + + k j j k U V y y y y , , e portanto I H

(

,ρk,

(

y yj, j k+

)

= −

(

1 ρk

)

U Vj k, j k, 2 . (5.5.6)

Para um processo Gaussiano estacionário com µ, σ e ρ_k todos conhecidos, Uj k, e Vj k,

são independentes N 0 1

( )

, . Deste modo a distribuição de I H

(

,ρk,

(

y yj, j k+

)

é de fácil

tratamento pois resulta de uma constante por um produto de variáveis aleatórias nor-mais. Esta distribuição pode então ser usada para determinar quais os valores da

(37)

fun-ção de influência invulgarmente elevados em termos absolutos face a um determinado valor crítico.

Com base na forma como o outlier influencia as autocorrelações, os autores propu-seram então um procedimento visual de detecção. Assim, na matriz da função de in-fluência

{ }

Ij k, as estimativas da função excedendo em valor absoluto o valor crítico

deverão substituídas por ( )+ ou ( )− dependendo do sinal da estimativa. As outras ob-servações são deixadas em branco.

Fig. 5.18 - Matriz da função de influência das autocorrelações

Considere-se o exemplo da figura 5.18. A observação yt influencia várias estimativas

da autocorrelação com desfasamentos diferentes. Surge no cálculo de cada elemento na linha t da matriz e também nos elementos da diagonal das linhas anteriores come-çando na coluna 1 da linha t−1 e continuando para cima e para a direita. Um outlier terá, pois, uma influência positiva ou negativa muito grande em cada estimativa da autocorrelação. Em consequência, se muitas das observações na linha t e na diagonal superior

[

(

t−11, ,

) (

t−2 2, .... são elevados em valor absoluto, concluímos que y

)

]

t é um

(38)

5.6 MEDIDAS DE INFLUÊNCIA DE PEÑA

Peña (1982, 1990) construiu estatísticas indicadoras das observações, nomeadamente outliers aditivos e inovadores, que têm forte influência no valor dos coeficientes ARMA estimados. Estatísticas essas que se baseiam na substituição das observações discordantes por valores interpolados. No artigo de Peña (1982) é considerado um processo AR(p), no artigo de (1990) as estatísticas propostas são generalizadas a um modelo ARMA(p,q).

5.6.1 Para outliers aditivos

Suponha-se que xt segue um processo ARMA(p,q) e considere-se a aproximação

au-toregressiva dada por

x_t _ix_{t i} e i p t = − + =

∑

π 1 * ,

para um qualquer desfasamento p*.

Assumindo agora que ocorre um outlier aditivo no período T , como vimos ante-riormente, o modelo paramétrico para um AO é dado por

zt xt t T

= +ωξ( )

(39)

Seja π_{( )}T =

(

_{,( )}T , ... , p*_{,( )}T

)

′

π1 π o vector de parâmetros considerando que está

sente um outlier, ou seja, retirando a cada observação o efeito provocado pela sua pre-sença. Uma estimativa de π₍_T₎, assumindo a aproximação autoregressiva, é dada por

π_{( )}_T =

(

X X ′_y _y

)

− X Y ′_y 1 , (5.6.1) com ... ... * * * X_y p p n n n p x x x x x x =           − − − ₋ 1 1 1 2 0 0 / 0 e * Y=           + x x p n 1 0 , onde x∃t =zt para t ≠T e x∃(T) =zT −ω∃.

Considerando xT como um valor omisso, a sua estimativa é dada por

( )

(

)

* xT j zT j zT j j p = ₊ + ₋ =

∑

η 1 , (5.6.2) onde ∃ ∃ ∃ ∃ ∃ ,( ) ,( ) ,( ) ,( ) * * η π π π π j j T i T i j T i p i T i p = − + + = =

∑

1 2 1 1 . (5.6.3)

Da relação ω = −∃ zT x∃(T) pode-se concluir que, dados os parâmetros, uma estimativa do

outlier aditivo é dada pela diferença entre os dados observados e o seu óptimo de in-terpolação, x∃_{( )}T , o qual pode ser interpretado como a melhor estimativa de xT usando

toda a informação amostral. É de notar que o cálculo de x∃(T) é efectuado aplicando

(40)

s j

( )

=zT+j +zT−j. (5.6.4)

Estas ponderações são tais que −η_j é o j -ésimo coeficiente da função geradora

(

πj

)

π( ) ( )Bπ F

2 1

∑

−

e, então, pode ser interpretado como o coeficiente da função de autocorrelação inversa do processo.

O sistema de equações dado por (5.6.1) e (5.6.2) tem de ser resolvido iterativa-mente. Começando com um valor inicial π_{( )}T ( )0 para π∃(T), as ponderações ηj podem

então ser calculadas obtendo-se

ω

( )

0 . Este valor é usado para calcular ( ) ( )

( )

x T 0 =zT −ω 0 , o que conduz a uma nova estimativa π( )T ( )1 . O processo é

repeti-do até à convergência.

Seja π∃ o estimador de π, assumindo que não existem outliers . Então

π =

(

X X′_z _z

)

−1X Z′_z ,

onde a matriz Xz e o vector Z correspondem aos dados observados e têm a mesma

estrutura de X∃y e Y∃ e os mesmos valores excepto no período T . Claro que as

colec-ções de dados são idênticas se x∃_{( )}T =zT. Então,

Xz =X∃y+ω∃M, (5.6.5)

onde a matriz M é dada por

M′ = 0_p*_{× −}₍_{T p}*₎;I_p*_×_p*;0_p*_{× − −}₍_{n p}* _T₎ , (5.6.6)

(41)

Z = +Y∃ ∃ωV, (5.6.7) onde a matriz V pode-se decompor em

V′ = 0′(_{T p}− − ×* ₁) ₁; ;10′(_{n p}− − ×* _T) ₁ . (5.6.8)

Para relacionar π∃₍_T₎ e π∃, vamos decompor as matrizes X_z e X∃_y e os vectores Z e ∃

Y de mesmo modo que em (5.6.6) e (5.6.8). Se considerarmos que ( ) ( ) ( )

[

]

X′_z = X′_z 1X′_z 2 X_z′ 3 onde Xz p T T p z z z z ′ − ₋ =           ( ) ... ... * * 1 1 1 0 / 0 , Xz T T p T p T z z z z ′ − + + − =           ( ) ... ... * * 2 1 1 0 / 0 , e Xz T p T n n p z z z z ′ + + − − =           ( ) ... ... * * 3 1 1 0 / 0 , então

(

X X y y

)

X Xz z I

(

Xz( ) Xz( )

)

′ ₌ ′ ₊_ω2 ₋_ω ₊ ′ 2 2 =X X_z′ _z −ω∃A_T, (5.6.9)

(42)

onde A_T = X_z( )2 +X′_z( )2 −ωI é uma matriz simétrica com aij =aji =s i( )= zT i+ +zT i−

e aii =zT + ∃x(T). Além do mais, decompondo o vector Z em

Z = z_p*₊₁,...,z zT; T₊1,...,zT p₊ *;zT p_{+ +}* 1,...,zn ′ = Z′( )1 Z′( )2 Z′( )3 ′. Então, de (5.6.5) e (5.6.7), X Y y

(

Xz M

)

(Z V) ′ ₌ ₋_ω ′ ₋_ω e, como M V′ =0, M Z′ =Z( )2 e X Vz zT zT p ′ − ₋ = 1,..., * , X Y∃ ∃_y′ = X Z_z′ −ω∃S_T, (5.6.10)

onde S_T′ =

(

s( )1 , ... ,s p

( )

*

)

e s j são dados por (5.6.4). Exprimindo os parâmetros es-

( )

timados π∃₍_T₎ como uma função dos dados observados, pelas equações anteriores,

(

X X′_z _z −ωA_T

)

π_{( )}_T =X Z′_z −ωS_T, o que nos leva a

π_{( )}_T = −π ω

(

X X′_z _z

)

−1

(

S_T −A_Tπ_{( )}_T

)

. (5.6.11) Sendo a∃T i+ os resíduos da estimação (5.6.1),

aT i+ =zT i+ −π1,TzT i+ −1− −/ πi T,

(

zT − − −ω

)

/ π_p*z_{T i p}_{+ −} *

e b∃T i− os resíduos para trás

(43)

Se considerarmos E∃T a∃T b∃T ,...,a∃T p* b∃T p*

′

+ − ₊ ₋

= 1+ 1 + , então E∃T =ST − ππAT∃(T) é um

vector de pseudo-resíduos e como tal (5.6.11) pode ser escrito como

π( )T = −π

(

z z

)

T

′ −

ω X X 1E . (5.6.12)

Uma maneira de medir a influência da observação zT é relacioná-la com a alteração

na estimativa dos parâmetros quando se assume que a observação é um outlier. Como ∃

π e π∃₍_T₎ são vectores, a forma usual de medir a sua distância é construir uma métrica usando uma matriz semidefinida positiva relevante. Nomeadamente, a matriz de va-riância de ambos os vectores estimados e construir uma distância de Mahalanobis. En-tão D ( )T

(

)

(

)

(

)

p AO T z z T = − − ′ _′ ( ) ( ) * π π X X π π σ2 , (5.6.13)

onde a distância é dividida pela dimensão dos vectores envolvidos, p*, e pela variância do ruído de modo a estandardizar a medida.

A estatística (5.6.13) pode ser também interpretada como medindo a alteração no vector de previsão em um passo adiante. Usando os parâmetros estimados assumindo que não existem outliers, o vector previsão é dado por Z∃=X_zπ∃, e usando os parâme-tros estimados assumindo que existe um outlier aditivo em T , Z∃T =Xzππ∃( )T . A

dis-tância Euclidiana entre os dois vectores de previsão é

(

Z −Z

) (

Z −Z

)

=

(

− ( )

)

(

X X

)

(

− ( )

)

′ ′ _′

(44)

então DAO( )T pode ser interpretada como uma medida estandardizada da distância entre os vectores de previsão em um passo adiante construída com os vectores π∃ e

∃₍ ₎ π T .

Usando (5.6.12), a estatística pode ser escrita como

D ( )T

(

)

p AO T z z T = ′ ′ * ω σ 2 2 E X X E , (5.6.15)

deste modo a estatística de influência depende de dois factores; o primeiro mede o efeito do outlier relativo ao desvio padrão do ruído, o segundo mede o valor relativo da observação antes e depois do outlier.

A razão de verosimilhança para testar outlier aditivos, referida no capítulo 4, é as-sintóticamente equivalente a

(

)

λ ω σ π AO T i , 2 2 2 2 1 =

∑

− ,

então DAO( )T pode ser escrita como função desta estatística,

( )

(

)

(

)

D T p AO AO T i T z z T =

∑

′ ′ λ π , * 2 2 E X X E . (5.6.16)

5.6.3 Para outliers inovadores

Considerando que existe um IO no período T , o modelo para outliers inovadores pode ser representado por uma aproximação autoregressiva

z =x′π +ωξ(T)+e

(45)

em que π_{( )}I =

(

_{,( )}I , .. . , p*_{,( )}I

)

′

π1 π representa o vector de parâmetros assumindo que

existe um outlier inovador com um efeito ω e x_t =

(

z_t z_{t p}

)

′

−1,... , ₋ * . Este é um modelo

linear com uma variável "dummy". Sendo π∃ o usual estimador com ω =0, então

π( )I = +π

(

z z

)

T ′ − ω X X 1x (5.6.18) e ω =∃ rT, (5.6.19) onde r_T =z_T −x_T′π∃.

A alteração na estimativa dos parâmetros provocada pela presença de um IO no período T pode ser medida por

D ( )T

(

)

(

)

(

)

p IO I z z I = − ′ − ′ ( ) ( ) * π π X X π π σ2 , (5.6.20)

a estatística pode ainda ser escrita como

( )

(

)

D T p r h h h IO T T T T = − −    _ 1 1 1 2 2 * σ , (5.6.21) onde hT = T

(

z z

)

T ′ ′ −

x X X 1x é a medida da distância entre o vector no período da inter-venção x_T e o vector nulo, é pois a medida de alavanca referida no capítulo 5. Esta estatística pode ser interpretada como o produto de dois termos; o primeiro

(

)

rT hT

2 2 1

1

(46)

(

)

h_T 1−h_T −1, representa a distância de x_T à origem. D_IO( )T pode-se também exprimir como uma função da razão de verosimilhança, usada para testar os outliers inovadores:

( )

(

)

D T p h h IO IO T T T = − λ , * 2 2 1 , (5.6.22)

onde λ_{IO T}_, =ω σ∃ ∃ é a razão para testar se a T -ésima observação é um outlier inovador. É de notar que DIO( )T depende apenas dos valores relativos de p

*

observações antes da intervenção [os regressores em t =T, xT =

(

zT zT p

)

′

−1, ... , ₋ * ] em contraste com

( )

DAO T que depende também das observações depois da perturbação.

5.7 AS ESTATÍSTICAS Ci j( )

Yatawara e Lin (1994) propuseram uma estatística de diagnóstico de observações in-fluentes que permite detectar conjuntos de observações. Estatística essa, construída de modo a evitar o efeito "masking" provocado pela existência de múltiplos e consecuti-vos outliers.

Lawrance citado por Yatawara e Lin (1994), no quadro dos modelos de regressão, propôs a seguinte medida da influência do i -ésimo caso após a eliminação do j -ésimo caso

C_{i j}_{( )} =

(

β_{( , )}_{i j} −β_{( )}_j

)(

X X′_{( )}_j _{( )}_j

)(

β_{( , )}_{i j} −β_{( )}_j

)

/ ps2, (5.7.1) onde β∃( , )i j é uma estimativa dos parâmetros de regressão linear β após a eliminação

do i -ésimo e j -ésimo caso, s2 é a variância dos resíduos e X( )j é a matriz de

(47)

Os autores adoptaram o esquema sugerido por Lawrance, aplicando-o às séries temporais, no quadro dos modelos autoregressivos AR(p). Após simplificações, Ci j( )

pode-se representar, recorrendo aos elementos da matriz H referida no capítulo 5, como Ci j( )

(

hij

)

{

[

hi

(

hi

)

]

hij

}

~ / ~ = −1 2 − 1− + 2 2 × ′ +ri

[

h rij

( )

′ ′j ri

]

p 2 2 1 ~ / / (5.7.2)

onde h~ij =hij /

(

1−hi

)

( )

1−hj (alavanca conjunta), hij = i( ′ ) j

−

x X X 1x [( , )i j -ésimo elemento fora da diagonal de H], ri′=ri / s 1−hi (i -ésimo resíduo estandardizado) e

(

)

xi = zi zi zi p

′ −1, −2, ... , − .

A estatística Ci j( ) é uma função dos rt`s e de hij. Deste modo, múltiplos AO em

t =T T1, 2,..., , Tl

(

l=1 2, , ... afectarão os resíduos r

)

T₁+1,...,rT₂+1,...,rT_l+1,rT_l+2,... por ω

[veja-se (5.4.7)] . De modo similar, múltiplos IO afectarão eT₁,eT₂,...,eT_l por ω e como

tal as observações zT₁+1,...,zT₂+1,...,zT_l+1,zT_l+2,... [veja-se (5.4.8)]. Então Ci j( ) é afectado

pelos outliers.

Em situações práticas a posição dos outliers pode não ser conhecida. Então Ci j( )

deverá ser calculada para todos os t= +p 1,p+2, ... ,

(

n− +p 1

)

. Para identificar a po-sição dos outliers deverá considerar-se a estatística maxCi j_{( )}, dada por

(

)

(

) ( )

max / ~ ( ) ( ) ( ) ( ) i i j i i ij jj i j i jj i j C h h h p h h r h r = − + − − × + 1 1 1 2 2 2 2 2 σ . (5.7.3) Em que h_{kl i}_{( )} =x_k

(

X X′_{( )}_i _{( )}_i

)

−1x_l.