Fundamentos e Complexidade dos Algoritmos

4.4 Algoritmos

4.4.1 Fundamentos e Complexidade dos Algoritmos

As consultas aos k-vizinhos mais próximos estendidas com condi¸cões demandam encontrar, dentre os k-conjuntos restritos pela condi¸cão imposta e induzidos por dissimilaridade sobre a rela¸cão de entrada, um conjunto que seja minimal. Entretanto, fazer a escolha das tuplas que compõem a resposta a uma consulta ck-NN restrita por uma condi¸cão

baseada em agrega¸cão não é uma tarefa simples, pois nem sempre é trivial manter a lista de candidatos no decorrer do processamento das tuplas da rela¸cão de entrada. As defini¸cões 4.6, 4.10 e 4.12 estabelecem quais devem ser os resultados deck-NNq restritas por

condi¸cões baseadas em agrega¸cão considerando, respectivamente, a minimiza¸cão da soma das distâncias, a minimiza¸cão da menor distância e a minimiza¸cão da maior distância. Note-se que as ck-NNq restritas por condi¸cões baseadas em agrega¸cão por contagem,

por contagem de distintos, por m´ınimo ou por máximo podem escolher qualquer uma das op¸cões de minimiza¸cão, pois são indiferentes a esse fator. A partir dessas defini¸cões é poss´ıvel definir algoritmos que respondam ack-NNq restritas por esses tipos de condi¸cões,

conforme segue:

1. identifique os k-conjuntos induzidos por dissimilaridade sobre a rela¸c˜ao de entrada que satisfa¸cam a condi¸c˜ao apresentada;

2. retorne um desses conjuntos que seja minimal, considerando a op¸c˜ao de minimiza¸c˜ao escolhida.

Embora esta solu¸cão retorne solu¸cões exatas para as consultas, sua complexidade é muito alta. Dado que a cardinalidade da rela¸cão de entrada é n, há Cn,k = n!/(k! · (n − k)!) combina¸cões de k elementos poss´ıveis. Este é o número de k-

conjuntos induzidos por dissimilaridade sobre a rela¸cão de entrada. O teste da condi¸cão baseada em agrega¸cão sobre um k-conjunto induzido por dissimilaridade tem custo O(k). O custo de calcular a dissimilaridade total de um conjunto (Defini¸cão 4.3), necessário para construir a resposta com base na minimiza¸cão por soma das distâncias, também é O(k). Da mesma forma, verificar se um k-conjunto é maior por menor/maior distância que outro (defini¸cões 4.9 e 4.11), necessário para as op¸cões de minimiza¸cão da menor distância ou de minimiza¸cão da maior distância, tem um custo O(k). Portanto, a complexidade desses algoritmos é O(nk_{), considerando que, em geral, n ≫ k em consultas}

ck-NN.

Contudo, para as consultasck-NN restritas por condi¸c˜oes baseadas em tupla, ´e poss´ıvel

encontrar uma solu¸cão eficiente fazendo uma adapta¸cão simples no algoritmo de execu¸cão de consultas k-NN convencionais. Observe-se que a resposta de uma ck-NNq restrita

por uma condi¸cão baseada em tupla pode ser dada por uma k-NNq convencional sobre as tuplas que satisfazem a condi¸cão imposta. Desta forma, a adapta¸cão proposta consiste em fazer uma verifica¸cão dupla sobre as tuplas da rela¸cão de entrada. A primeira verifica¸cão testa se a tupla é candidata à resposta de acordo com o critério de distância, isto é, se a tupla corrente é mais próxima do elemento de referência do que o k-ésimo elemento do conjunto resposta. Se a tupla for candidata à resposta de acordo com o critério de distância, a segunda verifica¸cão testa se a tupla satisfaz a condi¸cão imposta. Caso afirmativo, o k-ésimo elemento é descartado do resultado, se for o caso, e a tupla corrente é inserida no resultado. Considerando-se que a verifica¸cão da condi¸cão baseada em tupla é realizada em tempo constante, a complexidade desse algoritmo, no pior caso, é:

• O(n), em termos de cálculos de distância; • O(k), em termos de consumo de memória;

onde n é o tamanho da rela¸cão de entrada e k o número de vizinhos. Esta solu¸cão é utilizada no Algoritmo 4.1 (Se¸cão 4.4.2), desenvolvido neste trabalho para responder à ck-NNq restritas por t-conds. Embora a ordem das verifica¸cões seja irrelevante para

a resposta, optou-se por fazer a verifica¸cão do critério de distância primeiro para tirar proveito da organiza¸cão dos métodos de acesso métricos para reduzir o espa¸co de busca nas varia¸cões do algoritmo implementadas sobre essas estruturas, descritas na Se¸cão 4.4.4. Neste trabalho também foram desenvolvidas solu¸cões eficientes para resolu¸cão de

ck-NNq com condi¸cões baseadas em agrega¸cão por contagem, que possuem uma lógica

mais elaborada do que a l´ogica do algoritmo proposto para ck-NNq com condi¸c˜oes ba-

seadas em tupla, mas com complexidades semelhantes. Os algoritmos propostos para a execu¸cão de ck-NNq com c-aconds ou com cd-aconds são apresentados na Se¸cão 4.4.3.

Estes algoritmos utilizam uma estrutura de dados auxiliar para armazenar o resultado parcial da consulta e controlar o descarte de candidatos. A estrutura utilizada é uma combina¸cão de três listas de prioridade ordenadas segundo a distância do elemento arma- zenado ao(s) elemento(s) de consulta:

satisfyList: contém os elementos do resultado que satisfazem a condi¸cão de filtragem (tcond) da fun¸cão de agrega¸cão e estão sendo contados para satisfazer a condi¸cão baseada em agrega¸cão definida na consulta;

notSatisfyList: contém os elementos que fazem parte do resultado, mas que não satisfazem a condi¸cão de filtragem;

resultList: contém todos os elementos do resultado, contados ou não na verifica¸cão da condi¸cão definida.

Esta organiza¸cão permite realizar eficientemente o descarte de candidatos ao encontrar-se elementos mais próximos ao(s) elemento(s) de consulta, que satisfazem ou não a condi¸cão de filtragem, garantindo que após o descarte o resultado parcial como um todo satisfa¸ca a condi¸cão baseada em agrega¸cão por contagem. Cada elemento armaze- nado é compartilhado entre duas listas de prioridade: a lista resultList, contendo todos os elementos, e a lista em que o elemento é categorizado (satisfyList ou notSatisfyList). Em algumas situa¸cões, um elemento considerado para garantir a satisfa¸cão da condi¸cão indicada na consulta pode passar a não ser mais considerado para garantir a condi¸cão. Nestes casos, o elemento pode ser descartado do resultado, ou então mantido, caso seja próximo o suficiente do(s) elemento(s) de consulta, mas agora como um elemento que não é considerado para satisfazer a condi¸cão da consulta.

Observe-se que as consultasck-NN com condi¸c˜oes baseadas em agrega¸c˜ao por m´ınimo e

por m´aximo mais frequentes podem ser transformadas emck-NNq com condi¸c˜oes baseadas

as regras 4.14, 4.15, 4.16 e 4.17, apresentadas na Se¸cão 4.3.4. Desta forma, essas consultas também podem ser resolvidas de forma eficiente, fazendo chamadas aos algoritmos propostos para ck-NN com condi¸cões baseadas em tupla ou com condi¸cões baseadas em

contagem.

As subse¸cões a seguir apresentam os algoritmos desenvolvidos durante o projeto de doutoramento. Os algoritmos propostos consideram que cada dado complexo é armaze- nado em uma tabela contendo o(s) vetor(es) de caracter´ısticas e outros atributos descri- tivos a respeito do dado complexo. Por simplicidade, os algoritmos consideram que a consulta possui apenas um elemento de referência.

No documento Tratamento de condições especiais para busca por similaridade em bancos de dados... (páginas 117-120)