2.3 Estatística de Teste
2.3.2 Métodos Não-Paramétricos
Nos testes não-paramétricos, supõe-se que a distribuição de seus dados ex- perimentais não seja normal, ou que não tenha elementos suficientes para poder afirmar que seja.
O critério estatístico não-paramétrico examina então a ordem (rank) da se- quência dos valores estatísticos da série temporal original e seus dados sub-rogados gerados. Supõe-se que a estatística da série temporal original é Q0 e que os va-
lores de sub-rogados são {Qi}Ni=1s determinadas por Nsdados sub-rogados. Então,
se o fator estatístico de teste da série temporal original e os sub-rogados seguirem a mesma distribuição, a probabilidade será de 1/(Ns + 1) para Q0 seja menor
ou maior dentre todos os valores Q1, . . . , QNs
. Assim, quando encontramos
Q0 menor ou maior que a sequência de valores das estatíscas de testes {Qi}i=1Ns ,
é muito provável que Q0 siga uma distribuição diferente do conjunto dos dados
sub-rogados, isso só é possível se Nsfor grande.
Conseqüentemente o critério rejeita a hipótese nula sempre que a estatística original Q0 for menor ou maior que Q1, . . . , QNs
. A falsa taxa de rejeição ou a probabilidade em rejeitar a H0é considerada como 1/(Ns+1) para testes unilate-
rais e 2/(Ns+1) para testes bilaterais.
A seguir são descritas algumas testes utilizadas nos métodos não-paramétricos. Gráfico Quantil-Quantil
Os gráficos Quantis-quantis são usados para determinar se duas amostras vêm da mesma família de distribuição. São gráficos espalhados de quantis computados de cada amostra, com uma linha desenhada entre o primeiro e terceiro quantil. Se
2.3 Estatística de Teste 25 as quedas de dados próximos da linha forem pouco destorcidas (ou seja, retas), assumi-se que as duas amostras vêm da mesma distribuição. O método é robusto com respeito a mudanças locais e escalares de qualquer distribuição.
Essa relação linear aproximada sugere que as duas amostras possam vir da mesma família de distribuição. Portanto, um gráfico quantil-quantil linear é fre- qüentemente suficiente para tal afirmação, com respeito apenas a distribuição dos dados.
Função de Autocorrelação (FAC)
A função de correlação entre dois sinais é uma medida da dependência tempo- ral entre eles, isto é, uma estimativa da correlação linear dos dados. Se tais sinais forem independentes diz-se que os sinais são não correlacionados, ou em outras palavras, é uma medida de quão relacionados (no tempo) estão os sinais. A função de autocorrelação (FAC) é definida como,
rxx(τ, t) = E[x(t)x∗(t + τ)] (2.11)
se x(t) for considerado real x∗(t + τ) = x(t + τ), ergódico9.
No caso discreto, a definição da equação anterior torna-se
rxx(k) = lim N→∞ 1 2N + 1 N X i=−N x(i)x(i + k). (2.12)
Como aplicar o FAC como teste estatístico de H0: a estatística de teste é feita
construindo o gráfico da função de autocorrelação da série temporal original e dos
Ns dados sub-rogados gerados. Se a função de auto-correlação da série tempo-
ral original cair dentro do conjunto da estatística de teste (FAC) dos dados sub- rogados gerados não se pode rejeitar H0. Caso algum ponto saia do conjunto da
estatística de teste a hipótese nula pode ser rejeitada. Quando a estatística da série temporal original cair dentro da distribuição do conjunto de dados sub-rogados, considera-se que a série temporal original e os sub-rogados podem vir da mesma população.
9
26 2 Testes de Hipóteses Estatísticas Informação Mútua Média (IMM)
Diferentemente da função de autocorrelação, a informação mútua considera também interdependências não-lineares. A informação mútua captura informações de momentos superiores, diferente da correlação linear que somente captura in- formações de segunda ordem. Portanto, a teoria da informação provê uma me- dida para a dependência não-linear dentro e entre séries temporais. Quando uma sucessão de medidas de uma variável é tomada durante um certo tempo, pode-se calcular a incerteza na predição da próxima medida dada as medidas precedentes.
Pode-se defini-la da seguinte forma: dada uma série temporal {x(t)}N
t=1, a média
mútua sobre uma medida xt+τ dada uma medida xt no tempo t,∀t, é a informação
mútua média I(τ),
I(τ) = 1 N N X t=1 p(xt, xt+τ)log2 " p(xt, xt+τ) p(xt)p(xt+τ) # (2.13) em que τ é o atraso, p(xt) é a probabilidade de observar xt na série temporal e p(xt, xt+τ) é a probabilidade conjunta de observar xt e xt+τna série temporal.
A função de informação mútua aplicada dentro de uma única série tempo- ral é muito similar à função de auto-correlação que é uma medida do grau de dependência. A FAC também requer que as distribuições de xt e xt+τsejam jun-
tamente normais para que tenha um cálculo preciso de dependência, sendo que a função IMM não requer tal suposição. A vantagem da FAC é que pode ser calcu- lada rapidamente e descreve muito bem um sistema linear. A desvantagem é que a FAC sempre assume que o processo subjacente é linear e calcula um valor para esta dependência; se o processo subjacente for não-linear, o valor poderia estar incorreto. A IMM é muito utilizada para análises não-lineares. Pode-se dizer que a IMM é uma versão em geral não-linear da FAC em uma série temporal Small e Nakamura (2006b).
O método testa e confere, conforme visto na FAC, se o calculo estatístico IMM da série temporal original cai dentro ou fora da distribuição estatística IMM dos dados sub-rogados. Quando a estatística da série temporal original cair dentro da distribuição do conjunto de dados sub-rogados, considera-se que a série temporal original e os sub-rogados podem vir da mesma população e então H0 não pode
ser rejeitada. Caso contrário, se cair fora da distribuição estatística dos dados sub-rogados a H0pode ser rejeitada.
2.3 Estatística de Teste 27 Dimensão de correlação (dc)
A dimensão de correlação (dc) é uma medida estatística para avaliar a auto-
similaridade da geometria de um conjunto de pontos no espaço fase Fielder- Ferrara e Prado (1994). Esta quantidade define o número de variáveis indepen- dentes que seriam necessárias para descobrir a dimensão de um sistema, isto é, os graus de liberdade do mesmo.
A dimensão de correlação dc é um dos primeiros parâmetros utilizados para
descrever atratores. Basicamente, fornece uma medida da complexidade do sis- tema em relação ao número de graus de liberdade do mesmo. Considerando o fato que dcconverge a um valor finito, no caso de sistemas determinísticos, e que não
converge no caso de sistemas estocásticos, pode ser útil para avaliar a natureza determinística ou estocástica de um sistema. Grassberger e Procaccia (1983) pro- puseram um método para definir dc de maneira experimental.
Usando uma série temporal Ytsão construídos N pontos num espaço fase com de dimensões (de é chamada de dimensão de imersão) de acordo com o teorema
de Takens (Takens, 1981), onde {zt}t=1N é o conjunto de vetores de-dimensionas do
espaço de fase ℜde. A função de correlação C
N(ǫ) é definida por: CN(ǫ) = N 2 !−1 X 0≤i≤ j≤N Θ zi− zj < ǫ (2.14) onde Θ(X) é uma função de Heaviside cujo valor é 1 quando a condição X é satisfeita (X > ǫ) e 0 caso contrário (X < ǫ), e k·k é a função da distância em ℜde.
A soma PiΘ( zi− zj
< ǫ ) é o número de pontos dentro de uma distância ǫ de zj. Espera-se que
CN(ǫ) ∝ ǫdc (2.15)
em que dc é a dimensão do objeto. É natural definir a dimensão de correlação
como
dc =lim
ǫ→0N→∞lim
log(CN(ǫ))
log(ǫ) (2.16)
A estimativa da dimensão de correlação utilizada é descrita por Judd (1992, 1994). Judd mostra que, para alguma constante ǫ0 pequena, tem-se para todo
ǫ < ǫ0,
CN(ǫ) ∝ ǫdcp(ǫ) (2.17)
onde dc(ǫ0) é a dimensão de correlação do objeto e p(ǫ) é um polinômio de ordem
28 2 Testes de Hipóteses Estatísticas
dc como uma função da observação escalar ǫ0, e conseqüentemente os resulta-
dos apresentados neste trabalho são curvas de dc(ǫ). Ao aplicar a dimensão de
correlação (dc), precisa-se determinar uma dimensão de imersão de e o atraso de
imersão τ. Devem ser selecionados valores ótimos de de e τ para o teste dos
dados e então emprega-se também estes mesmos valores (de e τ) nos dados sub-
rogados, assim é selecionada efetivamente uma estatística de teste. Selecionou-se τcomo o primeiro zero do autocorrelação dos dados (o mesmo para os dados e sub-rogados).