Métodos Não-Paramétricos - Estatística de Teste

2.3 Estatística de Teste

2.3.2 Métodos Não-Paramétricos

Nos testes não-paramétricos, supõe-se que a distribuição de seus dados ex- perimentais não seja normal, ou que não tenha elementos suficientes para poder afirmar que seja.

O critério estatístico não-paramétrico examina então a ordem (rank) da se- quência dos valores estatísticos da série temporal original e seus dados sub-rogados gerados. Supõe-se que a estatística da série temporal original é Q0 e que os va-

lores de sub-rogados são {Qi}N_i=1s determinadas por Nsdados sub-rogados. Então,

se o fator estatístico de teste da série temporal original e os sub-rogados seguirem a mesma distribuição, a probabilidade será de 1/(Ns + 1) para Q0 seja menor

ou maior dentre todos os valores Q1, . . . , QNs

. Assim, quando encontramos

Q0 menor ou maior que a sequência de valores das estatíscas de testes {Qi}_i=1Ns ,

é muito provável que Q0 siga uma distribuição diferente do conjunto dos dados

sub-rogados, isso só é possível se Nsfor grande.

Conseqüentemente o critério rejeita a hipótese nula sempre que a estatística original Q0 for menor ou maior que Q1, . . . , QNs

_{. A falsa taxa de rejeição ou a} probabilidade em rejeitar a H0é considerada como 1/(Ns+1) para testes unilate-

rais e 2/(Ns+1) para testes bilaterais.

A seguir são descritas algumas testes utilizadas nos métodos não-paramétricos. Gráfico Quantil-Quantil

Os gráficos Quantis-quantis são usados para determinar se duas amostras vêm da mesma família de distribuição. São gráficos espalhados de quantis computados de cada amostra, com uma linha desenhada entre o primeiro e terceiro quantil. Se

2.3 Estatística de Teste 25 as quedas de dados próximos da linha forem pouco destorcidas (ou seja, retas), assumi-se que as duas amostras vêm da mesma distribuição. O método é robusto com respeito a mudanças locais e escalares de qualquer distribuição.

Essa relação linear aproximada sugere que as duas amostras possam vir da mesma família de distribuição. Portanto, um gráfico quantil-quantil linear é fre- qüentemente suficiente para tal afirmação, com respeito apenas a distribuição dos dados.

Função de Autocorrelação (FAC)

A função de correlação entre dois sinais é uma medida da dependência temporal entre eles, isto é, uma estimativa da correlação linear dos dados. Se tais sinais forem independentes diz-se que os sinais são não correlacionados, ou em outras palavras, é uma medida de quão relacionados (no tempo) estão os sinais. A função de autocorrelação (FAC) é definida como,

rxx(τ, t) = E[x(t)x∗(t + τ)] (2.11)

se x(t) for considerado real x∗_{(t + τ) = x(t + τ), ergódico}9_.

No caso discreto, a definição da equação anterior torna-se

rxx(k) = lim N→∞ 1 2N + 1 N X i=−N x(i)x(i + k). (2.12)

Como aplicar o FAC como teste estatístico de H0: a estatística de teste é feita

construindo o gráfico da função de autocorrelação da série temporal original e dos

Ns dados sub-rogados gerados. Se a função de auto-correlação da série tempo-

ral original cair dentro do conjunto da estatística de teste (FAC) dos dados sub- rogados gerados não se pode rejeitar H0. Caso algum ponto saia do conjunto da

estatística de teste a hipótese nula pode ser rejeitada. Quando a estatística da série temporal original cair dentro da distribuição do conjunto de dados sub-rogados, considera-se que a série temporal original e os sub-rogados podem vir da mesma população.

26 2 Testes de Hipóteses Estatísticas Informação Mútua Média (IMM)

Diferentemente da função de autocorrelação, a informação mútua considera também interdependências não-lineares. A informação mútua captura informações de momentos superiores, diferente da correlação linear que somente captura in- formações de segunda ordem. Portanto, a teoria da informação provê uma medida para a dependência não-linear dentro e entre séries temporais. Quando uma sucessão de medidas de uma variável é tomada durante um certo tempo, pode-se calcular a incerteza na predição da próxima medida dada as medidas precedentes.

Pode-se defini-la da seguinte forma: dada uma série temporal {x(t)}N

t=1, a média

mútua sobre uma medida xt+τ dada uma medida xt no tempo t,∀t, é a informação

mútua média I(τ),

I(τ) = 1 N N X t=1 p(xt, xt+τ)log2 " p(xt, xt+τ) p(xt)p(xt+τ) # (2.13) em que τ é o atraso, p(xt) é a probabilidade de observar xt na série temporal e p(xt, xt+τ) é a probabilidade conjunta de observar xt e xt+τna série temporal.

A função de informação mútua aplicada dentro de uma única série temporal é muito similar à função de auto-correlação que é uma medida do grau de dependência. A FAC também requer que as distribuições de xt e xt+τsejam jun-

tamente normais para que tenha um cálculo preciso de dependência, sendo que a função IMM não requer tal suposição. A vantagem da FAC é que pode ser calcu- lada rapidamente e descreve muito bem um sistema linear. A desvantagem é que a FAC sempre assume que o processo subjacente é linear e calcula um valor para esta dependência; se o processo subjacente for não-linear, o valor poderia estar incorreto. A IMM é muito utilizada para análises não-lineares. Pode-se dizer que a IMM é uma versão em geral não-linear da FAC em uma série temporal Small e Nakamura (2006b).

O método testa e confere, conforme visto na FAC, se o calculo estatístico IMM da série temporal original cai dentro ou fora da distribuição estatística IMM dos dados sub-rogados. Quando a estatística da série temporal original cair dentro da distribuição do conjunto de dados sub-rogados, considera-se que a série temporal original e os sub-rogados podem vir da mesma população e então H0 não pode

ser rejeitada. Caso contrário, se cair fora da distribuição estatística dos dados sub-rogados a H0pode ser rejeitada.

2.3 Estatística de Teste 27 Dimensão de correlação (dc)

A dimensão de correlação (dc) é uma medida estatística para avaliar a auto-

similaridade da geometria de um conjunto de pontos no espaço fase Fielder- Ferrara e Prado (1994). Esta quantidade define o número de variáveis independentes que seriam necessárias para descobrir a dimensão de um sistema, isto é, os graus de liberdade do mesmo.

A dimensão de correlação dc é um dos primeiros parâmetros utilizados para

descrever atratores. Basicamente, fornece uma medida da complexidade do sistema em relação ao número de graus de liberdade do mesmo. Considerando o fato que dcconverge a um valor finito, no caso de sistemas determinísticos, e que não

converge no caso de sistemas estocásticos, pode ser útil para avaliar a natureza determinística ou estocástica de um sistema. Grassberger e Procaccia (1983) pro- puseram um método para definir dc de maneira experimental.

Usando uma série temporal Ytsão construídos N pontos num espaço fase com de dimensões (de é chamada de dimensão de imersão) de acordo com o teorema

de Takens (Takens, 1981), onde {zt}_t=1N é o conjunto de vetores de-dimensionas do

espaço de fase ℜde. A função de correlação C

N(ǫ) é definida por: CN(ǫ) = N 2 !−1 X 0≤i≤ j≤N Θ zi− zj < ǫ (2.14) onde Θ(X) é uma função de Heaviside cujo valor é 1 quando a condição X é satisfeita (X > ǫ) e 0 caso contrário (X < ǫ), e k·k é a função da distância em ℜde.

A soma P_iΘ( zi− zj

< ǫ ) é o número de pontos dentro de uma distância ǫ de zj. Espera-se que

CN(ǫ) ∝ ǫdc (2.15)

em que dc é a dimensão do objeto. É natural definir a dimensão de correlação

como

dc =lim

ǫ→0N→∞lim

log(CN(ǫ))

log(ǫ) (2.16)

A estimativa da dimensão de correlação utilizada é descrita por Judd (1992, 1994). Judd mostra que, para alguma constante ǫ0 pequena, tem-se para todo

ǫ < ǫ0,

CN(ǫ) ∝ ǫdcp(ǫ) (2.17)

onde dc(ǫ0) é a dimensão de correlação do objeto e p(ǫ) é um polinômio de ordem

28 2 Testes de Hipóteses Estatísticas

dc como uma função da observação escalar ǫ0, e conseqüentemente os resulta-

dos apresentados neste trabalho são curvas de dc(ǫ). Ao aplicar a dimensão de

correlação (dc), precisa-se determinar uma dimensão de imersão de e o atraso de

imersão τ. Devem ser selecionados valores ótimos de de e τ para o teste dos

dados e então emprega-se também estes mesmos valores (de e τ) nos dados sub-

rogados, assim é selecionada efetivamente uma estatística de teste. Selecionou-se τcomo o primeiro zero do autocorrelação dos dados (o mesmo para os dados e sub-rogados).

No documento Métodos de dados sub-rogados aplicados a séries temporais (páginas 48-52)