Dados temporais - Tratamento de tempo e dinamicidade em dados representados em espaços métricos

O suporte à ideia de evolu¸cão temporal em bases de dados apresenta diversos aspectos conceituais no que se refere à maneira como o tempo deve ser tratado. Dois dos aspectos mais importantes são a maneira como o tempo deve ser modelado e a possibilidade de se registrar o tempo sob diversas dimensões. Esses aspectos afetam tanto a maneira como os dados devem ser modelados e armazenados, quanto os aspectos de representa¸cão de consultas envolvendo tempo, que devem expressar a semântica das consultas.

Apesar de o tempo ser naturalmente cont´ınuo, sua visão em bases de dados temporais pode ser discreta ou cont´ınua, sendo a interpreta¸cão discreta mais comumente adotada em bases de dados temporais devido a simplicidade e facilidade de implementa¸cão [Tansel et al., 1993]. Na interpreta¸cão discreta, o tempo é visto como uma sequência de intervalos consecutivos. Esses intervalos são chamados de Chronon e são a menor por¸cão de tempo representada (que não pode ser decomposta) e é dependente da aplica¸cão.

Um fator importante a ser analisado na representa¸cão de dados temporais refere-se a ordem do tempo. A forma mais comumente adotada é a ordem linear. Dessa forma, dois pontos no tempo podem sempre ser ordenados. Outro exemplo de ordem que pode ser adotada na representa¸cão do tempo trata-se da ordem circular, que é utilizada quando pretende-se representar per´ıodos de tempo que se repetem periodicamente, como por exemplo meses do ano, ou dias da semana. Outra diferencia¸cão que pode ser feita nos modelos de representa¸cão de tempo refere-se à maneira como o tempo é representado, seja na forma de instantes de tempo ou intervalos de tempo associados aos dados.

A associa¸cão de tempo aos dados de uma base pode ser interpretada de diferentes maneiras. O ‘tempo da transa¸cão’ registra o momento em que a informa¸cão é manipulada pelo SGBD. Já o ‘tempo válido’ representa o per´ıodo em que a informa¸cão é considerada correta no dom´ınio da aplica¸cão. Essas duas interpreta¸cões de tempo são as mais comuns, e são chamadas de dimensões de tempo [Elmasri & Navathe, 2006].

As bases de dados podem ser classificadas pela forma que as dimensões de tempo são utilizadas [Edelweiss, 1998]. Vale ressaltar aqui que muitos dos termos e classifica¸cões referentes a bases de dados temporais foram atualizados e modificados no decorrer do

4.2 Dados temporais

tempo [Jensen et al., 1997].

As bases de dados chamadas de ‘bases de dados instantâneas’ não utilizam nenhuma dimensão de tempo, armazenando apenas os dados correntes. Nas ‘bases de dados de tempo de transa¸cão’ (anteriormente chamadas de ‘rollback ’), os dados são rotulados apenas com seus tempos de transa¸cão. Quando algum dado da base é alterado, o valor anterior não é destru´ıdo, sendo armazenados todos os estados passados. As ‘bases de dados de tempo válido’ (anteriormente chamadas de ‘históricas’) armazenam somente o tempo válido juntamente com os dados, não se tendo associada ao dado a informa¸cão do tempo de transa¸cão.

A partir da Linguagem TSQL2 [Snodgrass, 1995], introduzida como uma extensão ao padrão SQL-92, passou a ser aceita a representa¸cão do tempo em um modelo conceitual Bi-temporal (‘base de dados bi-temporais’), que incorpora tanto a representa¸cão do ‘tempo da transa¸cão’ quanto a representa¸cão do ‘tempo válido’. Além dessas duas dimensões de tempo, uma dimensão de tempo adicional pode ser definida caso a aplica¸cão necessite, chamada de ‘tempo definido pelo usuário’. Em uma base de dados bi-temporal existe a possibilidade do acesso a todos os estados passados da base, seja pelo histórico de transa¸cões ou de validade, e valores futuros podem ser obtidos pelo tempo de validade [Snodgrass, 1995].

Em TSQL2 o tempo sempre é representado através de per´ıodos de tempo com in´ıcio e fim, em oposi¸cão à representa¸cão de instantes de tempo. Nessa linguagem não existe a necessidade de se representar o tempo explicitamente, em alguma coluna ‘tempo’ nas rela¸cões, pois o suporte a tempo é estabelecido pelo proprio gerenciador em todas as rela¸cões declaradas como dependentes do tempo [Chen & Zaniolo, 1999]. Dessa maneira, um SGBD pode utilizar estruturas apropriadas ao gerenciamento dos dados considerando sua varia¸cão temporal, incluindo métodos de acesso que considerem a evolu¸cão dos dados indexados evitando, na maioria das situa¸cões, a necessidade de realizar a cara opera¸cão de interseçcão de resultados intermediários para conhecer dados oriundos de instantes de tempo diversos [Sellis, 1999]. Em [Manica et al., 2009b, Manica et al., 2009a] foi apresentada uma ferramenta que possibilita a execu¸cão de consultas na linguagem

TSQL2 sobre SGBD convencionais.

Diversas estruturas de indexa¸cão têm sido criadas para permitir representar e recuperar dados com v´ınculo temporal. Um levantamento interessante das estruturas de indexa¸cão para dados espa¸co-temporais pode ser encontrado em [Mokbel et al., 2003], classificadas de acordo com o tipo e o tempo (passado, corrente e futuro) da consulta. Isso inclui a necessidade de indexar tanto a dimensão tempo de transa¸cão quanto o tempo de validade, o que é exemplificado pelo método BT-tree, que permite a navega¸cão alternando as dimensões temporais [Jiang et al., 2000].

O gerenciamento eficiente de conjuntos de intervalos de tempo é um requisito fundamental para essas estruturas. Uma estrutura voltada especialmente para tratar esse problema é a RI-tree [Kriegel et al., 2004, Kriegel et al., 2002], que processa a intereseçcão dos resultados de consultas, codificados como sequências de intervalos representados pelas tuplas de uma rela¸cão em um SGBD objeto-relational [Kriegel et al., 2000]. A RI-tree é interessante especialmente para aplica¸cões que trabalham com dados espa¸co-temporais, uma vez que os intervalos podem ser tanto temporais quanto faixas de valores para as dimensões espaciais.

Outro ponto importante é que a taxa de atualiza¸cão nas estruturas de indexa¸cão para dados que evoluem pode ser alta. Visando tratar desse problema, em [Kwon et al., 2002] é apresentada a LUR-tree, baseada na R-tree. Essa técnica atualiza a estrutura de indexa¸cão somente se um objeto se move para fora de seu MBR (minimum bounding rectangle) original. Se a nova posi¸cão do objeto ainda é coberta por seu MBR, apenas é alterada sua posi¸cão no nó-folha. Com isso a opera¸cão de atualiza¸cão torna-se muito mais rápida. Em [Lee et al., 2003] é apresentada uma estratégia de atualiza¸cão bottom-up para R-trees. Um ´ındice compacto que permite o acesso direto aos nós-´ındice da R-Tree é mantido em memória, o qual é usado em conjunto com algoritmos de navega¸cão bottom-up. Em [Xiong & Aref, 2006, Silva et al., 2009b] foi proposta a RUM-tree, que utiliza anota¸cões para distinguir dados atuais dos obsoletos (não removidos imediatamente da estrutura, mas marcados para remo¸cão posterior), visando agilizar o processo de atualiza¸cão.

No documento Tratamento de tempo e dinamicidade em dados representados em espaços métricos (páginas 60-63)