Sobreposi¸cão em árvores métricas

3.3 Slim-tree

3.3.4 Sobreposi¸cão em árvores métricas

A divisão dos espa¸cos métricos de quase todos os MAM dinâmicos não garante regiões disjuntas, produzindo sobreposi¸cão entre os nós de um mesmo n´ıvel da árvore, que reduz a capacidade de podar subárvores.

Em [Traina Jr. et al., 2002a], juntamente com o MAM Slim-tree, foi proposto o fat- factor para avaliar o grau de sobreposi¸cão entre os nós da estrutura. A sobreposi¸cão entre

dois nós foi definida como o número de elementos em suas subárvores que são cobertos

por ambos os nós, dividido pelo número total de elementos nas subárvores.

O fat-factor absoluto (F at(T )) de uma Slim-tree T com altura H, armazenando N elementos em M p´aginas de disco ´e dado por:

F at(T ) = IC − H ∗ N

N ∗

(M − H) (3.3)

onde IC representa o total de n´os acessados necess´arios para reponder consultas pontuais

para cada um dos N elementos armazenados na ´arvore m´etrica.

Os valores do fat-factor absoluto de uma estrutura podem variar no intervalo [0, 1], e valores maiores representam estruturas com maior grau de sobreposi¸cão, e F at(T ) = 0 indica uma árvore ideal onde não existe sobreposi¸cão entre os nós.

O fat-factor absoluto é uma medida da quantidade de elementos que ocupam regiões de interseçcão de nós em um mesmo n´ıvel de um MAM. Porém, se duas árvores armazenando

valores de fat-factor absoluto não pode ser feita. Para permitir a compara¸cão das duas árvores diferentes que armazenam o mesmo conjunto de dados, foi proposto o fat-factor

relativo, que “penaliza” árvores que usam mais do que o n´umero m´ınimo de nós necessários

para armazenar os elementos do conjunto de dados. No c´alculo do fat-factor relativo s˜ao

considerados os número de nós e a altura da árvore ideal, e não da árvore real.

rF at(T ) = IC − Hmin∗ N

N ∗

(Mmin− Hmin)

(3.4)

onde Hmin = ⌈logCN ⌉ é a altura m´ınima da árvore, e o número m´ınimo de nós para

um conjunto de dados ´e dado por Mmin =

PHmin

i=1 ⌈N/C

⌉, onde C ´e a capacidade dos n´os.

O valor de rF at(T ) varia entre 0 e um n´umero real positivo, sendo que quanto menor

o valor, menor o n´umero de acessos a disco necess´arios para responder uma consulta.

Em [Traina Jr. et al., 2002a] tamb´em foi proposta uma t´ecnica para minimizar a

sobreposi¸cão entre nós em árvores métricas, chamado Slim-down. Esse algoritmo é

executado sobre a árvore já constru´ıda. Os valores do fat-factor podem ser monitorados para indicar a necessidade do processo de otimiza¸cão.

Quando existe sobreposi¸cão entre nós-folha, o Slim-down realiza a “migra¸cão” do elemento mais distance do representante do nó para um nó irmão que também já cubra o elemento. Com essa migra¸cão, o raio de cobertura do nó que “exporta” o elemento pode ser reduzido, sem que seja necessário aumentar o raio de cobertura do nó que recebe o elemento. Com isso, a sobreposi¸cão entre os nós tende a diminuir. Este procedimento é repetido até que não existam mais migra¸cões de elementos entre os nós irmãos. Um exemplo da aplica¸cão do método Slim-down pode ser visto na Figura 3.5.

O Slim-down realiza a redu¸cão dos raios de cobertura comparando apenas os nós- folha irmãos, ou seja, aqueles que estão ligados a um mesmo nó-´ındice. Assim, nenhuma opera¸cão é realizada no caso de sobreposi¸cão de dois nós-folhas que não sejam irmãos. Em [Skopal et al., 2003] foi proposto o algoritmo Generalized Slim-down, que percorre a árvore otimizando os nós, não se restringindo apenas aos nós-folha. Procura-se uma melhor localiza¸cão para cada uma das entradas dos nós percorridos, redistribuindo-as no mesmo n´ıvel da árvore. Porém, como pode-se inferir pelos experimentos do autor, essa

3.4 Considera¸c˜oes Finais

antes do Slim-down

depois do Slim-down

Figura 3.5: Exemplos de otimiza¸c˜ao realizada pelo m´etodo Slim-down.

otimiza¸cão chega a ser até duzentas vezes mais custosa do que a constru¸cão inicial da árvore.

Na Se¸cão 5.3 é apresentada uma nova técnica de otimiza¸cão [Bueno et al., 2008a] que permite a movimenta¸cão de elementos entre subárvores, sendo menos custoso que o Generalized Slim-down.

3.4 Considera¸c˜oes Finais

Neste cap´ıtulo foi apresentado um levantamento bibliográfico do desenvolvimentos dos MAM, apresentando com mais detalhes alguns trabalhos de maior interesse para este doutorado. Muitas estruturas de indexa¸cão foram propostas com o objetivo de agilizar as buscas por similaridade, especialmente em dom´ınios métricos.

Nos MAM, normalmente o espa¸co de busca é particionado de acordo com técnicas espec´ıficas de particionamento, e são criadas estruturas hierárquicas para o armazenamento e manipula¸cão dos elementos, geralmente árvores.

As primeiras estruturas propostas eram estáticas, sendo a M-Tree [Ciaccia et al., 1997] o primeiro MAM dinâmico proposto na literatura. No presente cap´ıtulo foi apresentada mais detalhadamente a Slim-tree [Traina Jr. et al., 2000b, Traina Jr. et al., 2002a], que foi base para a implementa¸cão dos algoritmos de remo¸cão, atualiza¸cão e otimiza¸cão desenvolvidos durante este doutorado, apresentados no Cap´ıtulo 5.

No próximo cap´ıtulo são apresentados alguns conceitos e trabalhos sobre o tratamento de informa¸cões temporais em bases de dados.

Cap´ıtulo

4 Tempo em Bases de Dados

4.1 Considera¸c˜oes Iniciais

A

maioria das aplica¸c˜oes `as quais os SGBD atualmente devem dar suporte

manipulam, de alguma maneira, dados com caracter´ısticas de tempo, seja para informa¸c˜oes hist´oricas, atuais ou futuras.

De uma forma geral, o termo ‘bases de dados temporais’ engloba toda base de dados que utiliza algum aspecto de tempo na organiza¸cão de dados [Elmasri & Navathe, 2006]. As Bases de dados temporais permitem o armazenamento de dados do passado, presente e futuro da aplica¸cão, mantendo registrada a sua evolu¸cão temporal [Edelweiss, 1998, Tansel et al., 1993].

Em bases de tados temporais, a representa¸cão do tempo pode ser discreta ou cont´ınua. No caso de representa¸cão cont´ınua, especialmente em espa¸cos de baixa dimensionalidade, os objetos são frequentemente chamados de “objetos móveis”.

Na se¸cão 4.2 são apresentados os conceitos básicos no desenvolvimento de bases de dados temporais. Em seguida, na se¸cão 4.3 são discutidos objetos móveis, que podem ser vistos como uma especializa¸cão de dados espa¸co-temporais.

No documento Tratamento de tempo e dinamicidade em dados representados em espaços métricos (páginas 55-60)