• Nenhum resultado encontrado

4 ESTAT´ISTICA GAP TEMPORAL

4.1 VIS ˜ AO GERAL

Conforme discutido no decorrer deste documento, n˜ao foi encontrado na literatura um ´ındice de valida¸c˜ao interno espec´ıfico para dados com dependˆencia temporal. Visando solucionar esse problema, este mestrado prop˜oe uma adapta¸c˜ao da estat´ıstica Gap para s´eries temporais, denominado estat´ıstica Gap Temporal. Para alcan¸car esse objetivo, essa se¸c˜ao apresenta a metodologia adotada para realiza¸c˜ao desta disserta¸c˜ao de mestrado. 4.2 METODOLOGIA

A falta de mecanismos para validar resultados de agrupamento em conjuntos de dados temporais motivou o desenvolvimento de uma nova abordagem, denominada estat´ıstica Gap Temporal. Vale ressaltar que, como prova de conceito, esta abordagem ´e base- ada na suposi¸c˜ao de que a natureza da regra geradora que define o comportamento das s´eries temporais possui influˆencia determin´ıstica. Se as observa¸c˜oes das s´eries tempo- rais s˜ao produzidas considerando apenas influˆencias estoc´asticas, os m´etodos tradicionais dedicados a an´alises no dom´ınio temporal podem ser usados para distinguir suas dife- rentes distribui¸c˜oes de probabilidade. No entanto, no caso de presen¸ca de influˆencias determin´ısticas, mesmo apresentando ru´ıdos aditivos ou multiplicativos, a adapta¸c˜ao do m´etodo de estat´ıstica Gap com Sistemas Dinˆamicos permite melhor modelar o compor- tamento n˜ao-linear e ca´otico da s´erie.

A nova abordagem apresentada nessa disserta¸c˜ao foi obtida ap´os trˆes modifica¸c˜oes da estat´ıstica Gap original. A primeira foi a substitui¸c˜ao da medida usada para calcu- lar a distˆancia entre pares de s´eries temporais, exigida n˜ao apenas pelos algoritmos de agrupamento, mas tamb´em pela dispers˜ao Wk apresentada na Equa¸c˜ao .. Conforme

discutido por v´arios autores, as medidas baseadas na m´etrica de Minkowski tendem a produzir resultados insatisfat´orios quando padr˜oes semelhantes em s´eries temporais s˜ao deslocados ao longo do tempo. Uma medida alternativa ´e o Dynamic Time Warping (DTW), que foi detalhado na Se¸c˜ao 2.3.

26 ESTAT´ISTICA GAP TEMPORAL

Um aspecto importante relacionado ao DWT ´e a falta de suporte `a desigualdade triangular, conforme esperado pelas m´etricas de distˆancia (DING et al., 2008), e.g., DT W (xj, xn) + DT W (xn, xk) ≥ DT W (xj, xk), tal que xj, xn e xk s˜ao diferentes s´eries

temporais. Isso ´e especialmente importante como requisito b´asico para algoritmos de agrupamento. Com base em experimentos realizados nesta pesquisa, cujas conclus˜oes tamb´em foram confirmadas por Niennattrakul e Ratanamahatana (2007), foi poss´ıvel observar que essa desvantagem afeta diretamente a execu¸c˜ao do algoritmo K-means (LLOYD, 1982), originalmente adotado pela estat´ıstica Gap. Uma vez que esse algo- ritmo se baseia na minimiza¸c˜ao da varia¸c˜ao intra-cluster, esse problema de desigualdade triangular levou `a produ¸c˜ao de grupos vazios, sem respeitar a primeira propriedade de agrupamento (Ci 6= ∅, ∀i = {1, . . . k})1.

Para entender melhor esse problema, ´e preciso descrever brevemente o algoritmo K- means. Esse algoritmo come¸ca selecionando k instˆancias aleat´orias no conjunto de dados, chamadas centroides, que podem ser instˆancias reais (existentes na base de dados) ou novas, criadas aleatoriamente no espa¸co de caracter´ısticas do conjunto de dados. O valor de k refere-se ao n´umero esperado de grupos. Em seguida, medidas de distˆancia s˜ao usadas para agrupar instˆancias pr´oximas aos centroides. A seguir, todos os centroides s˜ao atualizados por meio do c´alculo da m´edia entre todas as instˆancias do mesmo grupo. Portanto, o novo centroides pode representar uma instˆancia completamente nova. Uma vez que nossos dados possuem dependˆencias temporais e DTW n˜ao garante a desigualdade triangular, ap´os a etapa de atualiza¸c˜ao, as instˆancias em um determinado grupo podem estar mais pr´oximas de outros centroides do que do centroide atualizado do seu grupo. Como consequˆencia, grupos vazios podem ser produzidos.

Para resolver esse problema, uma segunda modifica¸c˜ao na estat´ıstica Gap foi reali- zada alterando o algoritmo K-means por K-medoid (tamb´em conhecidos como Partition Around Medoids – PAM) (KAUFMAN; ROUSSEEUW, 1990). Esse algoritmo de agrupa- mento ´e uma varia¸c˜ao do K-means que substitui o conceito de centroide por med´oide. Ao contr´ario do centroide, o med´oide ´e sempre uma instˆancia real escolhida para representar um ponto central em um grupo. Nesse caso, haver´a pelo menos uma instˆancia real por grupo, que pode ser o pr´oprio med´oide.

O pr´oximo desafio foi a gera¸c˜ao de valores aleat´orios usando uma dada distribui¸c˜ao de probabilidade. De acordo com os autores da estat´ıstica Gap, quando os dados s˜ao iid, uma distribui¸c˜ao uniforme pode ser usada para gerar dados aleat´orios e calcular a dispers˜ao. No conjunto de dados temporais, por´em, as s´eries podem ser criadas a partir de comportamentos desconhecidos e diferentes. Portanto, foi realizada a terceira modifica¸c˜ao para criar s´eries temporais aleat´orias, garantindo que os novos valores aleat´orios respeitem o espa¸co de caracter´ısticas que realmente compreende o comportamento esperado do conjunto de dados. Em resumo, analisado o conjunto de dados no dom´ınio temporal, os valores aleat´orios s˜ao criados sem considerar o espa¸co de caracter´ıstica da s´erie temporal real, gerando apenas as observa¸c˜oes aleat´orias entre seus valores m´ınimo e m´aximo.

A solu¸c˜ao apresentada neste mestrado ´e baseada nas ferramentas do Sistemas Dinˆamicos (AL- LIGOOD; SAUER; YORKE, 1997), que transformam s´eries temporais do dom´ınio tem-

4.2 METODOLOGIA 27

poral para o espa¸co fase, cujo conceito foi introduzido na Se¸c˜ao 2.4.1.

Considerando as ferramentas de Sistemas Dinˆamicos, pode-se reconstruir uma s´erie temporal {x0, x1, ..., xn−1} no espa¸co fase xn(m, τ ) = {xn, xn+τ, ..., xn+(m−1)τ}, sendo m

dimens˜ao embutida e τ representa a dimens˜ao de separa¸c˜ao.

Para realiza¸c˜ao da estima¸c˜ao da dimens˜ao embutida, optou-se por utilizar o m´etodo FNN (Se¸c˜ao 2.4.1). Em rela¸c˜ao `a dimens˜ao de separa¸c˜ao, existem v´arios m´etodos na literatura quem permitem estim´a-la. Neste trabalho, foram considerados os resultados apresentados por Fraser e Swinney (1986), que utilizaram o m´etodo Average Mutual Information (AMI). Em resumo, esse m´etodo analisa s´eries temporais usando diferentes valores de atraso. Posteriormente, uma curva ´e produzida com os resultados dos diferentes atrasos e o primeiro valor m´ınimo ´e adotado como a dimens˜ao de separa¸c˜ao (ALLIGOOD; SAUER; YORKE, 1996; RIOS, 2013).

Ap´os reconstruir uma s´erie temporal em seu espa¸co fase, os relacionamentos tempo- rais s˜ao removidos e todas as dimens˜oes podem ser usadas para gerar valores aleat´orios seguindo alguma distribui¸c˜ao de probabilidade. Finalmente, ap´os gerar observa¸c˜oes ale- atoriamente em diferentes dimens˜oes, as mesmas s˜ao reconstru´ıdas novamente para o dom´ınio do tempo. Esse processo ´e repetido para produzir todas as s´eries temporais aleat´orias necess´arias para gerar conjuntos de dados de referˆencia. As etapas restantes seguem o m´etodo original da estat´ıstica Gap.

A fim de entender melhor o fluxo de execu¸c˜ao do novo ´ındice de valida¸c˜ao interno desenvolvido neste mestrado, a Figura 4.1 ilustra todos os processos necess´arios para o desenvolvimento da estat´ıstica Gap utilizando os m´etodos de Sistemas Dinˆamicos. Ini- cialmente, conjuntos de s´eries temporais s˜ao organizados em uma matriz atributo-valor (cada s´erie temporal ´e organizada como uma linha da tabela). Em seguida, atrav´es da Etapa (a), ´e realizado o agrupamento do conjunto de s´eries temporais utilizando o al- goritmo K-medoid. Em seguida, calcula-se a dispers˜ao na Etapa (b) utilizando DTW, conforme a Equa¸c˜ao.. O agrupamento e c´alculo da dispers˜ao s˜ao realizados k vezes e armazenados na vari´avel Wk, onde k representa o n´umero de grupos. Na sequˆencia, con-

siderando o conjunto de s´eries temporais da base de dados, ´e realizada a transforma¸c˜ao das s´eries para o espa¸co fase com a dimens˜ao m´axima estabelecida, como mostra a Etapa (c). Sendo assim, admitindo que o conjunto de s´eries temporais geradas no espa¸co fase est˜ao igualmente representadas em uma mesma dimens˜ao, ´e realizada a cria¸c˜ao de ob- serva¸c˜oes aleat´orias, usando uma distribui¸c˜ao uniforme, por exemplo, e sua reconstru¸c˜ao para o dom´ınio temporal. Em seguida, um novo agrupamento ´e realizado na Etapa (e), do mesmo modo que ´e feito em (a), entretanto, utilizando um conjunto de s´eries temporais com obsera¸c˜oes distribu´ıdas uniformemente. Ap´os o agrupamento, ´e efetuado o c´alculo da dispers˜ao na Etapa (f). O agrupamento em (e) e a fun¸c˜ao de dispers˜ao em (f) s˜ao executados b vezes para cada k grupos, e os valores m´edios resultantes s˜ao armazenados na vari´avel Wkb. Por fim, tendo em vista as fun¸c˜oes de dispers˜ao Wk e Wkb, pode-se

obter o valor de Gap para cada k grupos conforme consta na Equa¸c˜ao ., onde compa- rado `a Equa¸c˜ao . n˜ao h´a a utiliza¸c˜ao da fun¸c˜ao logar´ıtmica. O c´alculo das dispers˜oes para dados temporais, considerando a distˆancia DTW normalizada, resultam em valores pequenos entre 0 e 1. Consequentemente, tais valores aplicados `as fun¸c˜oes logar´ıtmicas retornam valores negativos, o que torna-se inconsistente com a equa¸c˜ao da estat´ıstica

28 ESTAT´ISTICA GAP TEMPORAL

Gap original. Sendo assim, a fun¸c˜ao logar´ıtmica deixa de ser utilizada nos valores das dispers˜oes, tendo em vista que sua remo¸c˜ao n˜ao afeta a caracter´ıstica da equa¸c˜ao original.

GAP (k) = 1 B  X b Wkb∗ − Wk (.) AGRUPAMENTO DISPERSÃO Wk SÉRIE NO ESPAÇO FASE RECONSTRUÇÃO DA ŚERIE AGRUPAMENTO DISPERSÃOWkb (a) (b) (c) (d) (e) (f)

Figura 4.1 Fluxo da estat´ıstica Gap Temporal utilizando Sistemas Dinˆamicos

A tarefa mais desafiadora da nova abordagem ´e a Etapa (c), que transforma todas as s´eries temporais em seu espa¸co de fase para serem usadas posteriormente para produzir observa¸c˜oes aleat´orias. Como mencionado anteriormente, essa transforma¸c˜ao utiliza os m´etodos FNN e AMI, que permitem estimar dimens˜oes diferentes para cada s´erie tempo- ral. A dimens˜ao do atraso est´a intrinsecamente relacionada `as s´eries temporais e valores diferentes n˜ao afetar˜ao nossa an´alise.

Em rela¸c˜ao aos diferentes valores para a dimens˜ao embutida, nossa abordagem foi projetada com base nas pesquisas de Whitney e Takens (WHITNEY, 1936b; TAKENS, 1981), que afirmam a escolha da dimens˜ao embutida mais alta n˜ao afeta a modelagem de s´eries temporais. Por exemplo, se a dimens˜ao embutida esperada for igual a m, qualquer valor maior produzir´a a mesma an´alise, exigindo apenas mais tempo computacional. Com o objetivo de ilustrar esta etapa, a Figura 4.2 mostra duas s´eries temporais, TS-1 e TS-2 (tabela superior), com 10 observa¸c˜oes. Seja m = 2 e τ = 1 a dimens˜ao embutida e de atraso estimadas para o TS-1. Da mesma forma, a dimens˜ao embutida e de atraso estimadas para TS-2 foram m = 3 e τ = 2, respectivamente. A nova abordagem combina todas as s´eries temporais em uma ´unica tabela de dados usando a dimens˜ao m´axima embutida entre elas (m = 3), mas respeitando todas as dimens˜oes de atraso, conforme

4.2 METODOLOGIA 29

mostrado na tabela inferior nessa figura. Embora o TS-1 tenha sido desdobrado com m = 3, sua dimens˜ao de separa¸c˜ao original (τ = 1) foi mantida. Portanto, usando essa tabela inferior, a abordagem cria uma nova tabela de dados gerando valores aleat´orios dentro dos valores m´ınimo e m´aximo em todas as dimens˜oes (D1, D2 e D3 em nosso exemplo). A nova tabela de dados ´e, ent˜ao, convertida no dom´ınio do tempo (usando uma vers˜ao inversa do processo de desdobramento) produzindo novas s´eries temporais aleat´orias que respeitam mais precisamente o comportamento original da s´erie temporal.

Figura 4.2 Desdobramento de um conjunto de s´eries temporais na mesma dimens˜ao embutida.

O processo completo de gera¸c˜ao de uma s´erie aleat´oria proposto pela nova abordagem ´e apresentado na Figura 4.3. Neste exemplo, foi selecionada uma s´erie temporal produzida pelo sistema de Lorenz, cuja representa¸c˜ao no dom´ınio do tempo ´e mostrada na Figura 4.3 (a). Ent˜ao, com base em suas dimens˜oes embutidas estimadas e de separa¸c˜ao, essas s´eries s˜ao desdobradas no espa¸co fase, como mostrado na Figura 4.3 (b). Como se pode notar, neste exemplo, foi usada a dimens˜ao embutida igual a m = 3. Considerando o espa¸co formado pelas 3 dimens˜oes, a abordagem gera valores aleat´orios, como mostra a Figura 4.3 (c). Finalmente, esses valores aleat´orios s˜ao transformados no dom´ınio do tempo, produzindo uma nova s´erie - Figura 4.3 (d). Este processo ´e repetido dentro da etapa de Monte Carlo para gerar v´arias s´eries temporais aleat´orias.

Com base no que j´a foi explicado, o Algoritmo 1 demonstra o fluxo completo da estat´ıstica Gap Temporal. Sendo assim, o algoritmo recebe o conjunto de s´eries temporais ca´oticas e retorna um n´umero espec´ıfico de grupos. Por exemplo, caso seja utilizados as s´eries de Lorenz e Rossler2, espera-se que o novo ´ındice interno estime o n´umero de grupos

igual a dois. Para estimar corretamente o n´umero de grupos, faz-se necess´ario criar uma matriz de distˆancia dos dados de entrada. Logo ap´os, para cada k grupos, ´e realizado o

30 ESTAT´ISTICA GAP TEMPORAL

agrupamento utilizando K-medoid e a partir deste agrupamento ´e calculado o valor de dispers˜ao Wk. Os valores de dispers˜ao para cada k grupos s˜ao armazenados. Ap´os essa

etapa utilizando os dados reais de entrada, estima-se um n´umero B de simula¸c˜oes que representa o m´etodo de Monte Carlo. A cada B simula¸c˜oes ´e coletado o n´umero m´aximo de dimens˜ao e separa¸c˜ao das s´eries ca´oticas utilizadas. Em seguida, essas s´eries s˜ao desdobradas no espa¸co fase, na dimens˜ao m´axima estimada, onde ´e realizado o processo de gera¸c˜ao de valores aleat´orios. Com a reconstru¸c˜ao das s´eries originais e as produzidas aleatoriamente, ´e criada a nova matriz distˆancia. Com essa matriz, repete-se o processo de c´alculo de dispers˜ao para k grupos e, em seguida, retorna-se `a etapa de Monte Carlo para uma nova simula¸c˜ao. Desta forma, esta etapa do processo consiste em gerar os valores de dispers˜ao WKB dos k grupos para B simula¸c˜oes. Ao final, ´e realizada a m´edia

desses valores que s˜ao subtra´ıdos dos valores WK, gerando valores de Gap. Por fim, o

melhor n´umero de grupos ´e referente ao valor de Gap maximizado. Algorithm 1: Temporal Gap Statistic

Data: S´eries Temporais = Lorenz, Rossler, Logistic, Henon Result: N´umero de Grupos

1 numeroGrupos = n´umero m´aximo de grupos 2 distMatriz = distˆancia(S´eries Temporais) 3 forall K in numeroGrupos do

4 KmedoideK = agrupamento(K, distM atriz) 5 WK = dispersao(KmedoideK)

6 end

7 MonteCarlo = n´umero de simula¸c˜oes Monte Carlo 8 forall B in MonteCarlo do

9 maxDimensao = S´erie Temporal

10 tsEspacoFase = espacoFase(S´erie Temporal, maxDimensao) 11 tsUniforme = reconstrucao(tsEspacoFase)

12 distMatrizUniforme = distˆancia(tsUniforme) 13 forall K in numeroGrupos do

14 KmedoideK = agrupamento(K, distM atrizU nif orme) 15 WKB = dispersao(KmedoideK)

16 end 17 end

18 GAP = WKB− WK

4.2 METODOLOGIA 31

Documentos relacionados