Mineração de Séries Temporais

(1)

Mineração de Séries Temporais

Carlos Andres Ferrero

Orientadora: Profa. Vania Bogorny

(2)

Conteúdo



Motivação



Visualizando de Séries Temporais no R



Introdução à Mineração



Representação



Outras Aplicações



Tarefas de Pré-processamento



Conclusões

(3)

Motivação



Crescente interesse na análise de dados de

observações realizadas ao longo do tempo:

– Indústria;

– Economia;

– Medicina;

– Segurança.

(4)

Motivação



Crescente interesse na análise de dados de

observações realizadas ao longo do tempo:

– Indústria;

– Economia;

– Medicina;

– Segurança.

4

“O

tempo

é o fator que possibilita que

os fatos da natureza não ocorram

(5)

Motivação

5

Clustering Classificação

Recuperação por Conteúdo Extração de

Regras



s = 0.5

c = 0.3

Identificação de

Motifs

(6)

Motivação



Definição: é uma coleção de observações

realizadas sequencialmente ao longo do tempo e

pode ser denotada como:

(7)

Motivação



Por exemplo, uma série de dados apresentado em

referente à mortalidade vascular semanal na cidade

de Los Angeles

—

CA, USA, no período de 10 anos

compreendido entre os anos 1970 e 1979.

(8)

Motivação



Por exemplo, uma série de dados apresentado em

referente à mortalidade vascular semanal na cidade

de Los Angeles

—

CA, USA, no período de 10 anos

compreendido entre os anos 1970 e 1979.

8 [1] 98

[2] 105 [3] 94 [4] 98 [5] 96 [6] 96 [7] 89 [8] 91 [9] 92 [10] 89 [11] 95 [12] 93 [13] 98 [14] 88 [15] 97

[16] 83 [17] 87 [18] 91 [19] 83 [20] 99 [21] 81 [22] 93 [23] 87 [24] 89 [25] 87 [26] 88 [27] 85 [28] 84 [29] 85 [30] 87

[31] 85 [32] 95 [33] 91 [34] 88

…. ….

(9)

Visualizando Séries Temporais no R



Entrar em Jupyter:

https://try.jupyter.org/

(10)

Visualizando Séries Temporais no R

1. Entrar no site:

https://sites.google.com/site/anfer86/disciplinas/mineracaost

2. Baixar os arquivos: ECG200_TRAIN e ECG200_TEST 3. Fazer Upload de ambos os arquivos no ambiente Jupyter 4. Ler os dados no R

(11)

Visualizando Séries Temporais no R

(12)

Introdução à Mineração

12

 Construindo um modelo simples no Weka

1. Salvar dados do R:

2. Procurar o arquivo no ambiente do Jupyter

3. Clicar no arquivo para visualizar o conteúdo

4. Clicar em File / Download

(13)

Representação

13

 Como representar a informação contida nas séries:

– Domínio da frequência:

Transformar os dados do domínio do tempo para o domínio da frequência (análise de Fourier e análise via wavelets)

– Ajustar modelo: e usar os parâmetros do modelo de cada série

– Extração de características:

• Estatísticas

• Complexidade

• Atributos próprios da área de domínio, entre outras

– Padrões Morfológicos:

(14)

Representação

14



Domínio da frequência:

0 20 40 60 80 100 120 140

0 1 2 3 X Y' 4 5 6 Jean Fourier 1768-1830

Idéia Básica: Representar séries temporais por uma combinação de

(15)

Representação



Domínio do tempo Vs. domínio da freqüência:

(16)

Representação



Ajuste de Modelos:

– Tendência;

– Sazonalidade;

– Resíduos.

(17)

Representação



Tendência:

– A tendência corresponde à trajetória geral dos valores observados em uma série temporal;

– A característica principal dessa componente é o quase

constante e suave movimento ao longo da série, que pode ser influenciado por vários fatores;

– Tipos:

• Linear;

• Quadrática;

• Cúbica;

• Entre outras.

(18)

Representação



Tendência Linear:

(19)

Representação



Tendência Quadrática:

(20)

Representação



Tendência Cúbica:

(21)

Representação



Tendência:

– Qual das tendências observadas é mais adequada para ser ajustada a esses dados: linear, quadrática ou cúbica?

(22)

Representação



Tendência:

– Qual das tendências observadas é mais adequada para ser ajustada a esses dados: linear, quadrática ou cúbica?

(23)

Representação



Sazonalidade:

– A componente de sazonalidade de uma série temporal representa as flutuações de acordo com alguma

característica ao longo da linha de tendência;

– Relações:

• Observações entre meses sucessivos de um ano particular:

Por exemplo, temperatura em Florianópolis.

• Observações em um mesmo mês durante anos sucessivos:

Por exemplo, fluxo de carros perto da praia durante o verão.

(24)

Representação



Sazonalidade:

– Qual a sazonalidade observada nos dados?

(25)

Representação



Sazonalidade:

– Como modelar essa sazonalidade?

(26)

Componentes de ST



Sazonalidade:

– Como modelar essa sazonalidade?

(27)

Representação



Resíduos:

– Muitas vezes, é considerado como o ruído da série temporal;

– Tem grande importância, pois a sua presença pode influenciar na identificação da tendência e da

sazonalidade;

27

(28)

Representação



Resíduos:

– Por exemplo, para a série temporal de mortalidade cardiovascular:

(29)

Representação



Resíduos:

– Por exemplo, para a série temporal de mortalidade cardiovascular:

(30)

Representação



Resíduos:

– Como analisar os resíduos?

(31)

Representação



Resíduos:

– Como analisar os resíduos?

(32)

Representação

32



Extração de Características:

– Estatísticas:

• Média

• Desvio padrão

• Mínimo

• Máximo

• Coeficiente de variação

(33)

Representação

33



Colocar essa estratégia em prática



Após, abrir “featuresTrain.csv” no Weka, tornar a

(34)

Representação

34



Complexidade:

– Dimensão Fractal:

• Katz

• Boxcounting

– Complexity Estimate

– Shannon Entropy

(35)

Representação

35

(36)

Representação

36



Katz



Salvar e abrir “features2Train.csv” no Weka, tornar a

(37)

Representação

37

(38)

0 1 2 3 4 5 6 7 8 x 10 5 0

Azul: “God” – Bíblia em inglês

Vermelho: “Dios” – Bíblia em espanhol

Cinza: “El Senor” – Bíblia em espanhol

Freqüência local das palavras na Bíblia

Outras Aplicações

(39)

George Washington Manuscript

George Washington 1732-1799

0 50 100 150 200 250 300 350 400 450

0 0.5 1

Outras Aplicações

(40)

Outras Aplicações

40

(41)

41

Outras Aplicações

Eletrocardiograma Imagens

(42)

42

Tarefas de Pré-processamento



Importante:

– Os dados brutos podem conter distorções, as quais devem ser tratadas antes de realizar tarefas de

mineração;

– Obviamente que algumas vezes essas distorções podem ser interessantes, portanto não deve-se considerar isso como uma regra geral;

(43)

43

Tarefas de Pré-processamento

0 50 100 150 200 250 300

0 0.5 1 1.5 2 2.5 3

0 50 100 150 200 250 300

0 0.5 1 1.5 2 2.5 3

0 50 100 150 200 250 300

Q = Q - média(Q)

C = C - média(C) D(Q,C)

D(Q,C)

(44)

44

Tarefas de Pré-processamento



Invariância de Amplitude:

0 100 200 300 400 500 600 700 800 900 1000 0 100 200 300 400 500 600 700 800 900 1000

Q = (Q - média(Q)) / desvP(Q)

C = (C – média(C)) / desvP(C)

(45)

45

Tarefas de Pré-processamento



Análise e Remoção de Tendência:

0 20 40 60 80 100 120 140 160 180 200 -4 -2 0 2 4 6 8 10 12

0 20 40 60 80 100 120 140 160 180 200 -3 -2 -1 0 1 2 3 4 5

2. Translação removida;

3. Mudança de escala realizada.

1. Tendência Linear removida; A lógica para remover a tendência

linear é:

(46)

46

Tarefas de Pré-processamento



Remoção de Ruído:

0 20 40 60 80 100 120 140 -4 -2 0 2 4 6 8

1. Q = suavização(Q) 2. C = suavização(C) 3. D(Q,C)

A lógica por trás da remoção de ruído é a seguinte:

Calcular a média para cada unidade de informação com sue

(47)

Conclusões

• Pesquisadores tem optado por trabalhar com

múltiplas visões de extração de características e

padrões morfológicos:

(48)

Conclusões

• Como contornar a dificuldade dos algoritmos

tradicionais de não considerarem o fator temporal;

• O problema da alta dimensionalidade dos dados:

discretização;

• Os mais novos trabalhos tem focado na extração de

padrões morfológicos;

• Procurar sempre ser coerente com a representação

que se usa, não apenas em ST mas em outros tipos

de dados não-convencionais.

(49)

49

EHLERS, R.S. Análise de Séries Temporais. Departamento de Estatística,UFPR. Disponível em http://leg.est.ufpr.br/~ehlers/notas. Acesso em: 21 nov.2005.

KEOGH E.; KASETTY S. On the Need for Time Series Data Mining Benchmarks: A Survey and Empirical Demonstration. In Data Min. Knowl. Discov, volume 7, pages 349 – 371, 2003.

KEOGH E. A Decade of Progress in Indexing and Mining Time Series Data. In VLDB 2006.

MORETTIN, P. A.; TOLOI, C. M. C. Análise de séries temporais. 2 ed. São Paulo, Brasil: Edgard Blücher, 2006.

LAST M.; KLEIN Y.; KANDEL A. Knowledge Discovery in Time Series Databases. In IEEE Transactions on Systems, 2001.

LAVRAC, N.; FLACH, P.; ZUPAN, B. Rule evaluation measures: a unifying view. In Proc. of the Ninth International Workshop on Inductive Logic Programming, volume 1634, pages 74–185.

LIN J.; KEOGH E.; LONARDI S. CHIU B. A symbolic representation of time series, with implications for streaming algorithms. In Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery. 2003.

WANG X.; SMITH K.; HYNDMAN R. Characteristic-Based Clustering for Time Series Data. In: Data Mining Knowledge Discovery, volume 13, pg. 335 – 364, 2006.