• Nenhum resultado encontrado

3.6 Tarefas de Minera¸c˜ao de S´eries Temporais

3.6.3 Consulta por Conte´ udo

A partir das medidas de dissimilaridade apresentadas na Se¸c˜ao 3.5, uma tarefa interessante chamada consulta por conte´udo ´e achar, em um conjunto de s´eries temporais, quais se assemelham a uma s´erie de consulta Q, de acordo com alguns parˆametros definidos pelo usu´ario. Existem dois m´etodos de busca adequados para realizar consulta por conte´udo em um conjunto de s´eries temporais: busca por alcance e busca pelos k-vizinhos mais pr´oximos. A defini¸c˜ao desses m´etodos, segundo Vlachos (2004), ´e apresentada a seguir. Defini¸c˜ao 3.18 . Busca por alcance: Dado um conjunto de s´eries temporais S e uma s´erie de consulta Q, uma busca por alcance ir´a retornar um subconjunto T ⊂ S, tal que D(Q, Tj) < ε, onde D ´e uma medida de dissimilaridade e ε ´e uma tolerˆancia (alcance)

A escolha do valor da tolerˆancia ε pode ser um problema, j´a que esse parˆametro afeta o resultado da busca. Em Buono et al. (2005), os autores contornam este problema definindo a tolerˆancia como uma porcentagem de erro m´axima permitida, depois de normalizar as distˆancias obtidas para que seus valores fiquem entre 0 e 1.

Defini¸c˜ao 3.19 . K-Vizinhos Mais Pr´oximos: Dado um conjunto de s´eries temporais S, uma s´erie de consulta Q e uma medida de dissimilaridade D, uma busca pelos k- vizinhos mais pr´oximos ir´a retornar um subconjunto T ⊂ S com cardinalidade k, tal que, se max(Tj, Q) = ρ para j = 1, . . . , k, T′ ⊂ S, e T′∩ T = ∅, ent˜ao D(Q, Ti′) ≥ ρ.

Ainda existem duas varia¸c˜oes dos m´etodos acima:

• Casamento Inteiro: Todas as s´eries de S a serem comparadas tem o mesmo tamanho da s´erie de consulta Q.

• Casamento de Subseq¨uˆencias: A s´erie de consulta Q possui um tamanho menor do que as s´eries em S. Dessa forma, a consulta ´e feita deslizando-se e comparando-se Q contra as subseq¨uˆencias das s´eries em S (ver Figura 3.18).

Figura 3.18: Casamento de subseq¨uˆencias (Vlachos, 2004).

No entanto, um importante fenˆomeno ´e observado no casamento de subseq¨uˆencias. Como abordado em Keogh et al. (2003), quando procura-se por subseq¨uˆencias similares em um conjunto de dados, tipicamente os melhores casamentos para uma subseq¨uˆencia Cp tendem a ser as subseq¨uˆencias ..., Cp−2, Cp−1, Cp+1, Cp+2, .... Em outras palavras, os

melhores casamentos tendem a ser vers˜oes levemente deslocadas da subseq¨uˆencia de in- teresse, conhecidas como casamentos triviais. Uma defini¸c˜ao mais exata de casamento trivial foi fornecida por Keogh et al. (2003):

Defini¸c˜ao 3.20 . Casamento Trivial (trivial match): Dada uma s´erie temporal T , con- tendo uma subseq¨uˆencia C come¸cando na posi¸c˜ao p, e uma subseq¨uˆencia M que casa com C, come¸cando em q, diz-se que M ´e um casamento trivial de C se p = q, ou se n˜ao existe

uma subseq¨uˆencia M′ come¸cando em qtal que D(C, M) > D(C, M ), e q < q< p ou

p < q′

< q.

Figura 3.19: Para quase toda subseq¨uˆencia C em uma s´erie temporal, as subseq¨uˆencias mais similares s˜ao as subseq¨uˆencias imediatamente `a esquerda e `a direita de C (Keogh

et al., 2003).

Esses casamentos triviais devem ser exclu´ıdos quando realiza-se casamento de sub- seq¨uˆencias. Essa exclus˜ao ´e cr´ıtica, pois como discutido no trabalho de Keogh et al. (2003), casamentos triviais n˜ao tˆem sentido e podem levar a interpreta¸c˜oes erradas.

Definidos os interesses em cada uma das buscas surge a quest˜ao em como resolver estas consultas. A abordagem bruta seria uma busca seq¨uencial, que requer a compara¸c˜ao da s´erie temporal de consulta Q contra todas as s´eries ou subseq¨uˆencias no conjunto de dados, mantendo-se um registro dos melhores casamentos. No entanto, tal abordagem ´e inapropriada para grandes conjuntos de dados.

Uma abordagem mais eficiente ´e utilizar uma estrutura de indexa¸c˜ao. Esses ´ındices s˜ao estruturas hier´arquicas que direcionam a busca para a parte mais promissora do conjunto de dados, eliminando a necessidade de examinar uma grande por¸c˜ao dos objetos. Existem v´arios tipos dessas estruturas, sendo que as mais usadas s˜ao as ´arvores-R (Guttman, 1984), uma varia¸c˜ao das ´arvores-B para dados multidimensionais, e suas variantes. No entanto, a maioria dessas estruturas degrada rapidamente para um n´umero maior do que 8 dimens˜oes, passando a fazer busca seq¨uencial. Para resolver este problema adota- se uma etapa anterior de segmenta¸c˜ao para reduzir a dimensionalidade dos dados de um valor n para um valor N , que possa ser eficientemente manipulado pela estrutura de indexa¸c˜ao escolhida. Tal abordagem, que usa uma t´ecnica de redu¸c˜ao de dimensionalidade para representar as s´eries e indexa essas representa¸c˜oes em uma estrutura, foi explorada eficientemente no arcabou¸co GEMINI (GEneric Multimedia INdexIng) (Faloutsos et al., 1994).

3.7

Considera¸c˜oes Finais

Neste cap´ıtulo discutiu-se a aplica¸c˜ao de minera¸c˜ao para s´eries temporais, focando nas diferentes etapas deste processo: estudo do dom´ınio de interesse, as atividades de pr´e- processamento, defini¸c˜ao medidas de dissimilaridade necess´arias a tarefas cl´assicas de minera¸c˜ao para s´eries temporais. No pr´oximo cap´ıtulo ser´a apresentada a ferramenta desenvolvida durante este projeto, que utiliza parte dos conceitos apresentados at´e o momento. Tamb´em ser˜ao apresentados os resultados obtidos.

4

Temporal-PEx: Ferramenta e Resultados

4.1

Considera¸c˜oes Iniciais

Uma vez definidas medidas de dissimilaridade apropriadas ´e poss´ıvel aplicar t´ecnicas de proje¸c˜ao multidimensional para gerar representa¸c˜oes visuais de grandes cole¸c˜oes de dados. Essas representa¸c˜oes fornecem uma vis˜ao geral dos dados que favorece a identifica¸c˜ao de elementos com padr˜oes similares/dissimilares, provendo um ponto de partida para uma explora¸c˜ao mais detalhada. A aplica¸c˜ao de tarefas de minera¸c˜ao de dados que extraiam automaticamente informa¸c˜oes ´uteis dos dados ´e outro campo promissor. Desta forma, estudamos a aplica¸c˜ao de t´ecnicas de proje¸c˜ao multidimensional em conjunto com tarefas de minera¸c˜ao para a minera¸c˜ao visual de conjuntos de s´eries temporais. Com este intuito, propomos e desenvolvemos uma ferramenta que implementasse recursos de minera¸c˜ao visual de s´eries: a ferramenta Temporal-Projection Explorer (Temporal-PEx).

Na Se¸c˜ao 4.2 s˜ao apresentadas as caracter´ısticas e funcionalidade da Temporal-PEx. J´a na Se¸c˜ao 4.3 s˜ao apresentados alguns cen´arios de an´alise de conjuntos de s´eries, e os resultados correspondentes obtidos. A Se¸c˜ao 4.4 exibe uma vis˜ao geral das t´ecnicas de proje¸c˜ao e das medidas de dissimilaridade dispon´ıveis, estabelecendo suas vantagens e desvantagens. Por fim, a Se¸c˜ao 4.5 fornece os tempos de processamento necess´arios para a gera¸c˜ao das proje¸c˜oes exibidas na se¸c˜ao de resultados.

Documentos relacionados