Consultas por similaridade - Tratamento de tempo e dinamicidade em dados representados em espaç

Em dom´ınios métricos, existem dois operadores principais de consulta por similaridade: a consulta por abrangência (“range queries”, RQ), que considera os elementos que estejam até uma distância limite do elemento de referência; e a consulta aos vizinhos mais próximos (“k-nearest neighbor queries”, k − NNQ) [Yianilos, 1993] [Korn et al., 1996] [Braunmüller et al., 2000], que limita os elementos do conjunto resposta a um número máximo.

Considerando um conjunto de elementos S = {s1, s2, ..., sn} de um dom´ınio S, S ⊂ S,

uma fun¸cão de distância (métrica) d entre esses elementos, são apresentados a seguir os principais operadores de sele¸cão por similaridade.

2.5.1 Consulta por abrangˆencia

Uma consulta por abrangˆencia recebe como parˆametros um elemento do dom´ınio de

dados sq ∈ S (chamado de elemento central da consulta ou elemento de referˆencia) e

um grau de dissimilaridade rq ≥ 0, e obt´em todos os elementos da base de dados S que

diferem do elemento da consulta sq por no m´aximo a dissimilaridade indicada rq.

Formalmente,tem-se:

range(sq,rq)={si|si ∈ S, d(si, sq) ≤ rq}

Um exemplo de consulta por abrangência em uma base com dados geográficos seria “selecione as cidades que estejam a uma distância de até 100 quilometros da cidade apresentada como referência”. Na Figura 2.3 pode-se ver uma ilustra¸cão desse exemplo.

2.5.2 Consulta aos vizinhos mais pr´oximos

Uma consulta aos vizinhos mais pr´oximos recebe como parˆametros um elemento do

dom´ınio de dados sq ∈ S (o elemento de referˆencia, tamb´em chamado de elemento central

da consulta) e uma quantidade k > 0, e obt´em os k-elementos da base de dados mais pr´oximos do elemento da consulta.

Formalmente,tem-se:

2.5 Consultas por similaridade

s

_r

Figura 2.3: Consulta por abrangˆencia.

Um exemplo de consulta de vizinhos mais próximos em uma base de dados com imagens seria “selecione as 4 imagens mais similares à imagem apresentada como referência para a consulta”, como ilustrado na Figura 2.4

s

K=4

Figura 2.4: Consulta pelos vizinhos mais pr´oximos

2.5.3 Algoritmos para consultas por similaridade

Os algoritmos de consulta por abrangência e aos k-vizinhos mais próximos são aplicáveis em todas as árvores métricas e espaciais [Roussopoulos et al., 1995]. Em ambos os algoritmos, a resposta é ordenada pela distância dos elementos encontrados para o elemento de referência da consulta.

Algoritmos de consultas por abrangência range(sq,rq) têm o raio limitante rqconhecido durante todo o processo de busca. Assim, o algoritmo de consulta por abrangência

percorre a estrutura e calcula a distˆancia entre o elemento de referˆencia sq com os

elementos armazenados si, e inclui na resposta todos aqueles que est˜ao a uma distˆancia

inferior ou igual ao raio de consulta rq.

J´a na consulta por vizinhos mais pr´oximos k-NN (sq,k), o raio limitante final da

resposta da consulta não é conhecido desde o in´ıcio da busca. Portanto, o raio limitante é dinâmico, definido inicialmente com valor infinito. Da mesma maneira que o algoritmo de consultas por abrangência, o algoritmo de consulta percorre a estrutura e calcula

a distância entre o elemento de referência sq com os elementos armazenados si. Se é

encontrado um elemento com distância inferior ao raio limitante, este elemento é inserido na resposta. No caso de já haver k elementos na resposta, o elemento encontrado é inserido e então o elemento mais distante da resposta anterior é cortado. Ao se preencher a resposta com k elementos, o raio limitante passa a ser atualizado a cada inser¸cão com a distância do k-ésimo elemento do conjunto resposta.

Em estruturas baseadas em árvores, uma subárvore somente é percorrida se seus elementos de controle (representantes) e o elemento central da consulta atenderem à propriedade de desigualdade triangular da maneira determinada pelo algoritmo de busca de cada estrutura em particular [Traina Jr. et al., 2002b].

A ordem em que a estrutura de indexa¸cão é percorrida não influencia o desempenho das consultas por abrangência, mas pode influenciar muito o desempenho dos algoritmos de consultas aos vizinhos mais próximos: encontrando os elementos mais próximos no in´ıcio da execu¸cão da consulta, o raio limitante dinâmico será reduzido mais rapidamente, aumentando as possibilidades de poda.

Muitos trabalhos foram propostos com o objetivo de acelerar o processo de

consultas por similaridade, principalmente k-NNQ [Roussopoulos et al., 1995,

Berchtold et al., 1998, Hjaltason & Samet, 1999, Samet, 2003, Chen et al., 2007,

Tao et al., 2009, Bustos & Navarro, 2009].

2.5 Consultas por similaridade

para estimar o raio da resposta da consulta foi proposto em [Arantes et al., 2003]. Em [Bueno et al., 2005a] são utilizados algoritmos genéticos para encontrar respostas aproximadas para k-NNQ e RQ. Em [Patella & Ciaccia, 2009] é apresentada uma revisão bibliográfica das várias propostas para consultas por similaridade aproximadas.

Algoritmos para buscas incrementais aos vizinhos mais próximos são discutidas em [Hjaltason & Samet, 1999]. Tais algoritmos baseiam-se no fato que após a realiza¸cão de uma consulta aos k vizinhos mais próximos,o vizinho k + 1 pode ser obtido sem a necessidade de reiniciar a busca, tornando-os mais eficientes. Em [Park & Kim, 2003] é apresentada uma nova versão do algoritmo incremental para consultas com atributos não-espaciais em seu predicado, utilizando-os para podas.

V´arios trabalhos propuseram algoritmos k-NN para aplicac˜oes espec´ıficas. Em

[Koudas et al., 2004] são apresentadas consultas aproximadas de k-NN para aplica¸cões de “data-stream”, em que os dados chegam continuamente e podem ser acessados somente uma vez . Em [Papadias et al., 2003] são apresentados algoritmos para consultas em redes espaciais (spatial network databases). Já em [Ku et al., 2006] é apresentado o protótipo de um sistema baseado em informa¸cões de tráfego com algoritmos de k-NN desenvolvidos para “travel time networks” (TTN) , que utilizam o tempo de viagem ao invés da distância, utilizada nas “spatial networks”.

Outros algoritmos baseados nas consultas ao vizinhos mais pr´oximos s˜ao chamados

de consultas k-NN cont´ınuas [Song & Roussopoulos, 2001, Huang et al., 2009]. Em

[Tao et al., 2002] é proposta a consulta “continuous nearest-neighbor” (CNN), que recupera os elementos mais próximos de todos os pontos de um segmento de linha. Em [Hu & Lee, 2006] é proposta a consulta “range nearest-neighbor”(RNN), que dado um conjunto de dados de dimensão d, recupera os elementos mais próximos de todos os pontos de um hyper-retângulo de dimensão d.

Varia¸cões que levam a algoritmos bem mais custosos são as consultas aos vizinhos mais próximos reversos (“reverse nearest neighbor queries” [Tao et al., 2006, Lee et al., 2008, Achtert et al., 2009, Tran et al., 2009]. Essas consultas retornam quais são os elementos do conjunto de dados que têm o elemento central da consulta como o vizinho mais

próximo, com as correspondentes varia¸cões que permitem retornar os elementos que têm o elemento central da consulta como um dos seus até k elementos mais próximos [Tao et al., 2006, Xia et al., 2005]. Embora essas consultas sejam opera¸cões de sele¸cão, as consultas por similaridade reversas têm complexidade de execu¸cão quadrática, semelhante aos operadores de jun¸cão por similaridade.

No documento Tratamento de tempo e dinamicidade em dados representados em espaços métricos (páginas 36-40)