• Nenhum resultado encontrado

CAPÍTULO 2 FUNDAMENTAÇÃO TEÓRICA

2.4 Estrutura de Indexação

2.4.2 Técnica Omni

A técnica Omni consiste em um mecanismo de filtragem baseado em representantes globais, que reduz o número de comparações necessárias para responder consultas por similaridade a partir de uma região de aproximação.

Experimentos apresentados em (FILHO et al., 2001; TRAINA-JR. et al., 2007) evidenciam que a técnica Omni proporciona melhores resultados quando comparado aos métodos de acesso métricos com relação ao tempo gasto no processamento de consultas por similaridade e com relação ao número de acessos a disco.

O processamento de consultas por abrangência é acelerada com o uso da técnica Omni, pois o número de imagens selecionadas para comparações por similaridade é reduzida com o estabelecimento de uma região de aproximação denominada mbOr (minimum-bounding-Omni-region, ou seja, a mínima região limitada pela Omni). Nesse contexto, a consulta por abrangência é realizada em duas etapas: filtragem e refinamento.

Na etapa de filtragem, para um espaço métrico , a mbOr é determinada a partir dos valores de distância da imagem de consulta sq com relação aos representantes globais e a partir do raio de abrangência rq definido pelo usuário. Logo, a Equação (2.9) defini a mbOrF (sq,rq) com uma consulta centrada em sq S, um raio de abrangência rq e para os representantes globais do conjunto S definido

por F = , onde cada é um objeto de S, e h

é o número de representantes para a base S.

(2.9)

De acordo com a Equação 2.9, Ig é um subconjunto composto por si S, cuja distância ao representante (i.e., ) possui valor de no mínimo

(ou zero, caso ) e de no máximo ,

onde consiste no valor de distância da imagem de consulta sq ao representante . Formalmente, o intervalo Ig é definido como:

Devido à propriedade de desigualdade triangular da função de distância, não há a ocorrência de falsos negativos, ou seja, imagens que são similares à imagem de consulta não são eliminadas pela etapa de filtragem. No entanto, a mbOr pode gerar falsos positivos, o que torna necessário o refinamento desse conjunto. Na etapa de refinamento, é calculada a distância de cada candidato, pertencente à mbOrF (sq, rq), à imagem de consulta sq e é verificada a similaridade entre elas conforme o raio de abrangência rq.

O ganho obtido pela técnica Omni se deve a maneira simples e concisa com que as imagens são representadas e filtradas pela distância aos representantes, uma vez que esses dados são previamente calculados e armazenados. No entanto, a escolha dos representantes globais deve ser feita cuidadosamente, pois o número de representantes e a disposição desses influenciam na seletividade da mbOr. Na Figura 2.10, é exemplificada a relação de seletividade entre a mbOr e o número de representantes globais em um espaço bidimensional.

Na Figura 2.10a, todas as imagens do conjunto S são submetidas à comparação de similaridade com relação à imagem de consulta sq, pois nenhuma região de aproximação foi estabelecida a partir da mbOr (i.e., nenhum representante global foi definido). Consequentemente, este é o pior caso por ser muito custoso porquê compara todas à imagem de consulta sq. Por outro lado, com o estabelecimento de representantes globais, o conjunto de imagens que são submetidos à comparação de similaridade é reduzido. Como ilustrado na Figura 2.10b, um representante gera uma região no espaço em forma de anel, que restringe o conjunto de imagens que são submetidos à comparação de similaridade. Este anel consiste na representação gráfica do intervalo Ig (g = 1), em que as imagens contidas neste anel possuem um valor de distância com relação ao representante fq entre e . Na Figura 2.10b, a mbOrF (sq,rq) gerada pelo intervalo Ig é ilustrada pela região sombreada.

Para um conjunto de h representantes globais, onde h , a mbOr é determinada pela intersecção dos intervalos Ig, onde g varia de 1 a h, conforme apresentado na Equação 2.9. Desta forma, a representação gráfica da mbOrF (sq, rq) é ilustrada pela região sombreada da Figura 2.10c, gerada pela intersecção dos anéis. Observa-se que a intersecção destes anéis reduz a quantidade de imagens

comparadas, o que resulta em maior agilidade no processamento de uma consulta por similaridade.

Figura 2.10: Consulta por abrangência com um raio r em um espaço 2D. Imagens contidas na mbOr, ilustrada pelas regiões sombreadas, são selecionadas para comparação por

similaridade. a) Em um conjunto sem representantes. b) Em um conjunto com um representante. c) Em um conjunto com três representantes, a mbOr próxima da região

delimitada pelo raio de abrangência (adaptado de (FILHO et al., 2001)).

Em um conjunto de dados espacial (vetorial ou métrico), (TRAINA-JR. et al., 2007) propõem que o número h de representantes deve ser obtido conforme a dimensionalidade intrínseca do conjunto S. Uma vez que a dimensionalidade intrínseca do conjunto consiste no número mínimo de atributos que são necessários para representar e diferenciar os objetos de S. Nessa pesquisa, foi utilizada a correlação de dimensão fractal D2 (TRAINA-JR. et al., 2000) como uma aproximação da dimensionalidade intrínseca do conjunto de dados S. Traina-Jr, et al. (TRAINA-JR. et al., 2007) também sugerem que o número h de representantes deve ser igual a +1, em que D2 consiste na correlação de dimensão fractal do conjunto de dados S, ou seja, na aproximação da dimensionalidade intrínseca desse conjunto.

A seletividade da mbOr também é influenciada pela disposição dos representantes globais. Experimentos apresentados em (FILHO et al., 2001; TRAINA-JR. et al., 2007) indicaram que os representantes globais devem ser os mais periféricos (i.e., estarem na borda do conjunto S) e serem mais afastados entre si. Essa relação de distribuição pode ser melhor compreendida com os exemplos ilustrados em Figura 2.11a e Figura 2.11b. Por estarem muito distantes entre si e estarem na periferia, os representantes globais definem uma mbOr bem aproximada da região determinada pelo raio de abrangência rq (Figura 2.11a). Já a mbOr definida pelos representantes da Figura 2.11b, que estão muito próximos e pouco

distribuídos, resultou em uma região mal ajustada com relação à região definida pelo raio de abrangência, o que resulta em um aumento no número de falsos positivos.

Figura 2.11: Impacto da seletividade gerada pela mbOr conforme a distribuição dos representantes globais (adaptado de (TRAINA-JR. et al., 2007)).

Neste trabalho, foi utilizado o algoritmo HF (Hull-Foci), para identificar os representantes globais de um conjunto S. Para maiores detalhes sobre esse algoritmo indicamos a leitura de Caetano (TRAINA-JR. et al., 2007).

Documentos relacionados