Técnicas para Recuperação de Imagens por Conteúdo baseadas em Dicionário de Palavras Visuais

(1)

Técnicas para Recuperação de Imagens por Conte údo baseadas

em Dicion´ario de Palavras Visuais

Autor: Robson de Carvalho Soares1, Orientadora: Denise Guliato1

1_{Programa de Pós-Graduação em Ciência da Computação}

Universidade Federal do Uberlˆandia (UFU) Uberlˆandia – MG – Brasil

robsoncsoares@gmail.com, guliato@ufu.br

N´ıvel: Mestrado

Ano de ingresso no programa: 2009 ´

Epoca esperada de conclus˜ao: Julho / 2011

Resumo. Com o volume crescente de imagens sendo capturadas nas mais diversas modalidades de aquisição, surge a necessidade de novas técnicas capazes de geren-ciar e recuperar imagens de maneira eficiente. Assim, uma das técnicas que mais vem sendo utilizada na recuperação de imagens por conteúdo (CBIR - Content Based Image Retrieval) é conhecida como bag-of-features ou ainda bag-of-visual-words. Essa técnica esta baseada em um ”dicionário de palavras visuais” que caracteriza uma coleção de imagens. No processo de criação do dicionário, a escolha do seu tamanho é cr´ıtica pois essa escolha pode influenciar tanto no poder discriminativo do dicionário quanto na performance de recuperação. Vários trabalhos escolhem esse tamanho de forma emp´ırica e este trabalho propõe um método de geração automática do melhor tamanho do dicionário. Para isso é utilizado o agrupamento hierárquico das caracter´ıticas para avaliar quais palavras visuais farão parte do dicionário. Palavras-Chave. bag-of-features, palavras visuais, codebook, dicionário, CBIR

(2)

1. Introduc¸˜ao

Com o volume crescente de imagens sendo capturadas nas mais diversas modalidades de aquisição, surge a necessidade de novas técnicas capazes de gerenciar e recuperar imagens de maneira eficiente [Fayyad and Uthurusamy 2002], [Razente 2009]. O acesso eficiente a ima-gens em grandes bases de dados é ainda mais problemático quando estas bases não estão orga-nizadas [Rui et al. 1997], como é o caso das bases dispon´ıveis na Web. Neste cenário, surge a necessidade da criação de técnicas cada vez mais eficazes para o armazenamento e recuperação de imagens.

Assim, uma das técnicas que mais vem sendo utilizada na recuperação de imagens por conteúdo (CBIR - Content Based Image Retrieval) é conhecida como bag-of-features ou ainda bag-of-visual-words [Sivic and Zisserman 2003]. Essa abordagem baseou-se na técnica conhecida como bag-of-words [Dumais et al. 1998], [Baeza-Yates and Ribeiro-Neto 1999] a qual é aplicada em recuperação de informações textuais (RI - Information Retrieval). Essas técnicas tem como objetivo principal criar o chamado ”dicionário de palavras” responsável pela categorização textual quando aplicado a recuperação textual e pela classificação da imagem quando aplicado a recuperação de imagem por conteúdo.

Em bag-of-features, o dicionário de palavras também é chamado de dicionário de palavras visuais. Para constru´ı-lo, utiliza-se descritores de caracter´ısticas de pontos-chave ex-tra´ıdos das imagens. Os pontos-chave são saliências que contêm informações locais da imagem e são obtidos automaticamente por métodos de detecção de pontos-chave [Lindeberg 1993], [Lazebnik et al. 2003]. Uma vez detectados, os pontos-chave são representados por descritores como Invariant Feature Transform (SIFT) [Lowe 1999], Principal Component Analysis (PCA)-SIFT [Ke and Sukthankar 2004] e o Speeded Up Robust Features (SURF) [Bay et al. 2006]. Assim, no dicionário de palavras visuais, cada palavra visual está associada a um agrupa-mento de descritores de pontos-chave. Tipicamente, o método de agrupaagrupa-mento é o k-means [Mitchell 1997] e a distância é a Euclidiana. Cada palavra visual representa, portanto, um padrão local espec´ıfico compartilhado por todos os descritores de um dado agrupamento.

A definição a priori do tamanho do dicionário de palavras é um dos pontos cr´ıticos para a criação do dicionário. Vários trabalhos têm escolhido o tamanho do dicionário (o número de agrupamentos) de forma emp´ırica [Lopes et al. 2009], [Batista et al. 2009]. Esta escolha é cr´ıtica, pois além de influenciar no poder discriminativo do dicionário, tem influência direta na eficiência computacional e na utilização de memória durante os processos de geração do di-cionário e de classificação das imagens. Além disso, os vetores de caracter´ısticas (palavras vi-suais) que compõem o dicionário possuem alta dimensionalidade, dificultando então a aplicação de algoritmos no processamento do mesmo. Tal problema é conhecido como a ”maldição da dimensionalidade” [Wang et al. 2008].

Uma vez definido o dicionário de palavras visuais, é poss´ıvel associar a cada descritor de ponto-chave à palavra visual mais próxima. Alguns trabalhos recentes baseados em bag-of-features propõem melhorar o tempo de atribuição de descritores individuais para palavras visuais [Nister and Stewenius 2006], [Philbin et al. 2007].

Cada imagem é, então, representada por um histograma que indica com que freqüência cada palavra visual do dicionário ocorre na imagem (de forma análoga ao que se faz em recuperação de informações textuais) [Jiang et al. 2007]. Acesso rápido ao vetor de freqüência é alcançado usando sistema de arquivos invertidos [Ribeiro-Neto et al. 1999]. A representação da imagem em termos do histograma é utilizada em tarefas de classificação ou de recuperação de imagens por conteúdo.

(3)

A Figura 1 ilustra todo o processo para obtenção do dicionário de palavras visuais e para a descrição de imagens via histograma.

Figura 1. Uma vis ão geral do processo de criaç ão de um dicion ário de palavras visuais. Ilustraç ão baseada no artigo [Yang et al. 2007]

2. Objetivo Geral

O objetivo geral deste projeto é explorar o uso da estratégia baseada em bag-of-features para a recuperação de imagens por conteúdo. Neste estudo serão explorados o uso do método de agrupamento hierárquico para a construção do dicionário de palavras visuais com obtenção automática do melhor tamanho para o dicionário, dada uma coleção de imagens; estudos sobre o uso de palavras compostas no processo de recuperação de imagens por conteúdo; estudos sobre a possibilidade de se utilizar técnicas de RI na eliminação de palavras visuais irrelevantes e sobre métodos de indexação para melhorar tempo de resposta à consulta; avaliação do uso do dicionário de palavras visuais obtido na recuperação de imagens em bases de dados públicas. É também objetivo deste projeto a construção de uma interface gráfica ergonômica, dispon´ıvel via Web, que facilite a interação com usuário, no processo de recuperação de imagem por conteúdo.

3. Trabalhos Relacionados

De acordo com a literatura podemos encontrar vários trabalhos relacionados à técnica bag-of-features. O trabalho proposto por Sivic e Zisserman [Sivic and Zisserman 2003] apresenta a técnica como uma abordagem para recuperar todas as ocorrências de um objeto em cenas

(4)

(”frames”) de um determinado v´ıdeo. Para isso, os objetos são representados como um conjunto de descritores invariantes a escala, rotação, translação, iluminação e oclusão parcial. Utiliza-se o SIFT como descritor de caracter´ısticas das imagens e, além disso, o dicionário de palavras visuais é gerado aplicando-se o k-means cujo k é escolhido empiricamente.

Desde então outros trabalhos foram propostos para os mais diversos dom´ınios. Csurka et al. [Csurka et al. 2004] utiliza a técnica com o objetivo de encontrar um processo que seja genérico para lidar com diversos tipos de objetos e ao mesmo tempo tratar as variações de iluminação, visualização, rotação e oclusão, t´ıpicos de cenas do mundo real. Ja Batista et al. [Batista et al. 2009] a utiliza para a detecção de construções em fotografias históricas e Lopes et al. [Lopes et al. 2009] para a detecção de nudez. Apesar dessa grande diversidade dos dom´ınios das aplicações e independente dos descritores de caracter´ısticas utilizados, todos apresentam a mesma forma de geração do dicionário de palavras visuais a qual escolhe empiricamente a quantidade de palavras visuais do dicionário representadas pelos k clusters obtidos através da execução do k-means.

Jurie e Triggs [Jurie and Triggs 2005] identificaram que a utilização do k-means para a construção do dicionário de palavras visuais não funciona muito bem para regiões densas de cenas naturais pois a ampla quantidade dessas grandes regiões em algumas cenas promove uma alta distribuição não uniforme no espaço de caracter´ısticas. Isso induz o k-means a criar dicionários ruins onde a maioria dos centróides estão póximos de regiões altamente densas. Os autores propuseram então um novo método de criação do dicionário utilizando a técnica de agrupamento Mean Shift [Comaniciu et al. 2002] a qual ainda assim possui como parâmetro o raio do cluster a ser encontrado pelo método.

Alguns trabalhos foram desenvolvidos com o intuito de melhorar a eficiência computa-cional e reduzir a utilização de memória no processo de reconhecimento de objetos. Para isso, a alternativa foi compactar o dicionário de palavras visuais mantendo o seu poder discrimina-tivo. Winn et al. [Winn et al. 2005] e Wang et al. [Wang et al. 2008] desenvolveram métodos semelhantes para compactar o dicionário de palavras visuais. Ambos aplicam o método k-means gerando um dicionário de palavras inicial com o k escolhido de forma emp´ırica. Após isso, aplicam seus algoritmos responsáveis por juntar as palavras semelhantes desse dicionário compactando-o. A diferença entre as duas abordagens esta relacionada à velocidade do pro-cesso de junção sendo que o método proposto por Wang et al., segundo o autor, é mais rápido por não realizar uma busca exaustiva no dicionário para encontrar o melhor par de palavras visuais a ser unido.

Nister e Stewenius [Nister and Stewenius 2006] propuseram um método para gerar uma árvore do dicionário de palavras visuais utilizando agrupamento hierárquico baseado no k-means. O k-means é aplicado recursivamente de modo a gerar essa árvore que define, de forma integrada, o dicionário de palavras visuais e uma estratégia de busca melhorando o mecanismo de indexação para o processo de recuperação. Jégou et al. [Jégou et al. 2010] também pro-puseram a criação de uma árvore hierárquica utilizando o k-means, porém, segundo o autor, o processo de criação dessa árvore difere do de Nister e Stewenius por ser mais custoso e ser bottom-up ao invés de top-down. Ambos os trabalhos obtiveram um dicionário de palavras compacto e discriminativo, porém ainda informam o parâmetro k empiricamente.

4. Metodologia e Estado da Pesquisa

4.1. Aspectos Te´oricos

Na análise de agrupamento busca-se uma estrutura de organização em grupos de objetos simi-lares, em que objetos de um mesmo grupo são altamente similares entre si, mas dissimilares em

(5)

relação aos objetos de outros grupos [Everitt et al. 2009]. Métodos de agrupamento têm sido utilizados para quantizar descritores de caracter´ısticas em palavras visuais para construção do bag-of-features. Vários trabalhos utilizam o método de agrupamento k-means para quantização dos descritores de caracter´ısticas em palavras visuais. No entanto, o algoritmo k-means exige a definição a priori do número de agrupamentos, conseqüentemente, o tamanho do dicionário de palavras. O resultado da busca por similaridade baseadas em bag-of-features é fortemente influenciada pelo tamanho deste dicionário.

Neste projeto propomos a utilização do método de agrupamento hierárquico para construção do dicionário de palavras visuais. Uma vez obtido o dendrograma a partir dos descritores de caracter´ısticas, deve-se verificar a validade dos padrões obtidos para definir as palavras que melhor representam o conjunto de caracter´ısticas.

O objetivo do uso do método de agrupamento hierárquico é gerar o dicionário de palavras visuais, sem estabelecer previamente o seu tamanho. Após isso, explorar um refi-namento de cada ramo relevante do dendrograma, com o objetivo de melhorar a separiabilidade entre as imagens de diferentes classes. De uma maneira geral, exploraremos a construção de uma ”taxonomia” para estruturar a busca de imagens por similaridade.

Além disso, exploraremos também neste projeto, o uso de n-gramas para palavras vi-suais. Uma abordagem inicial é determinar a composição de palavras por regras de associação [Moura et al. 2008].

Por fim, para facilitar o processo de busca de imagens e validação dos resultados, propo-mos a construção de uma interface gráfica, dispon´ıvel via Web. A interface tem dois propósitos: 1) servir como ferramenta para auxiliar no processo de validação dos métodos propostos. Neste caso, o sistema é configurado adequadamente, e ´ındices e gráficos de validação são exibidos; 2) servir como sistema para recuperação de imagens por conteúdo. Neste caso, a interface permitirá a escolha, de forma interativa, da imagem de referência e a escolha da base onde se deseja realizar a consulta. As imagens resultantes são exibidas, na ordem de sua relevância, de acordo com parâmetros previamente estabelecidos. Questões relacionadas com o refinamento de consultas não serão tratadas neste projeto.

4.2. Validac¸˜ao

Uma vez obtido o dendrograma a partir dos descritores de caracter´ısticas, deve-se verificar a val-idade dos padrões obtidos. A validação do resultado de um agrupamento, em geral, é realizada por meio de ´ındices estat´ısticos que expressam o mérito das estruturas encontradas, ou seja, quantificam alguma informação sobre a qualidade de um agrupamento [Halkidi et al. 2001]. Neste trabalho estamos utilizando critérios relativos para realizar a validação de um agrupa-mento. Os critérios relativos comparam diversos agrupamentos para decidir qual deles é o mais adequado aos dados. Um exemplo é o coeficiente de silhueta, que calcula, para cada objeto que faz parte de um agrupamento, a qualidade da sua atribuição. Assim, para cada objeto i, o valor de silhueta s(i) é calculado pela Equação 1:

s(i) = b(i) − a(i)

max{a(i), b(i)} (1)

em que a(i) é a dissimilaridade média do objeto i em relação aos outros objetos do seu grupo e b(i) é a dissimilaridade média do objeto i em relação aos objetos dos demais grupos. O valor global SG, para um agrupamento com N objetos, é dado pela Equação 2:

(6)

SG =

PN

i=1s(i)

N (2)

Uma vers˜ao simplificada da silhueta, baseada em centr´oides, produz resultados compe-titivos com custo computacional reduzido [Vendramin et al. 2009].

4.3. Bases de dados

Os testes para validação dos métodos propostos utilizarão as seguintes bases de dados públicas:

• IRMA (http://ganymed.imib.rwth-aachen.de/irma/index_en.

php);

• ALOI - The Amsterdam Library of Object Images (http://staff.science. uva.nl/˜aloi/);

• COIL-100 Columbia Object Image Library (http://www1.cs.columbia.edu/ CAVE/software/softlib/coil-100.php); • Caltech 101 (http://www.vision.caltech.edu/Image_Datasets/ Caltech101/Caltech101.html); • Caltech 256 (http://www.vision.caltech.edu/Image_Datasets/ Caltech256/). 4.4. Experimentos

Neste projeto está sendo utilizada a abordagem bag-of-features na classificação e recuperação de imagens por conteúdo. Um dos passos dessa abordagem é a obtenção dos descritores dos pontos-chaves. Dessa forma, foram estudados e avaliados os principais métodos para este fim, Scale Invariant Feature Transform (SIFT), Principal Component Analysis (PCA)-SIFT e o Speeded Up Robust Features (SURF).

Outra fase importante da abordagem bag-of-features, e a qual se econtra esse trabalho, é o processo de geração do dicionário de palavras visuais. Neste projeto propomos a utilização do método de agrupamento hierárquico para a construção deste dicionário. Uma vez obtido o dendrograma a partir dos descritores de caracter´ısticas, deve-se verificar a validade dos padrões obtidos. Realizamos alguns testes com algoritmos de agrupamento hieráquico. Para coleções muito grandes torna-se inviável a aplicação desses algoritmos uma vez que necessitam criar a matriz de dissimilaridades entre as caracter´ısticas extra´ıdas das imagens. Assim, passamos a montar a hierarquia das caracter´ısticas aplicando o k-means com k = 2 recursivamente até não ser mais poss´ıvel dividir o universo de caracter´ısticas, semelhante a técnica utiliza por Nister et al. [Nister and Stewenius 2006]. Dessa foram obtivemos também uma hierarquia entre as caracter´ısticas e estamos avaliando formas de identificar as palavras visuais que melhor discriminam essa coleção. Para isso estamos avaliando a qualidade dos agrupamentos conforme apresentado na seção 4.2.

Testes preliminares foram realizados na base de dados Corel1000 que possui 10 classes diferentes conforme exemplifica a Figura 2.

Foram selecionadas aleatoriamente 10 imagens de cada classe para testes, totalizando 100 imagens. Os descritores de caracter´ısticas dessas 100 imagens foram extra´ıdos utilizando o SIFT. Após isso, para efeito de comparação, foi criado o dicionário de palavras visuais uti-lizando duas abordagens:

1. k-means padrão: aplicou-se o k-means variando o k. Aplicou-se o coeficiente de sil-hueta s(i) (Equação 1) em todos os agrupamentos gerados pela variação de k. Assim, o

(7)

Figura 2. Exemplos das 10 classes de imagens na base Corel1000

dicion´ario de palavras visuais foi definido pelo k que apresentou um melhor coeficiente de silhueta.

2. Agrupamento hierárquico (AH): aplicou-se o k-means com k = 2 recursivamente até não ser mais poss´ıvel dividir o universo de caracter´ısticas. Para todos os grupos da hierarquia gerada calculamos o coeficiente de silhueta s(i) (Equação 1). Consideramos como as palavras visuais do dicionário, todos os centróides dos grupos que possu´ıam silhueta em algumas faixas de valores. Dessa forma geramos um dicionário de palavras visuais de forma automática sem depender de testes emp´ıricos. As faixas de valores utilizadas foram: 0.5 a 0.99, 0.6 a 0.99, 0.7 a 0.99 e 0.8 a 0.99.

Com os testes realizados pudemos concluir que para imagens cuja cena tem um objeto principal, as estratégias produziram bons resultados (bus, dinossaur, horse, elephant). No en-tanto, os testes mostraram que as imagens das outras classes (flower, food, building, africa, beach, mountain) as quais não possuem um objeto bem definido, não obtiveram uma boa recuparação. Assim, a Figura 3 e 4 apresentam os gráficos de precisão versus revocação das classes dinossaur e mountain. Temos o intuito de comparar o método padrão (abordagem 1) com o método que esta sendo proposto (abordagem 2) em duas classes opostas da coleção. Podemos observar nessas Figuras que o para a classe Mountain houve uma melhora de precisão utilizando o método AH(0.8 a 0.99).

A Tabela 1 nos mostra a quantidade de palavras visuais geradas pelos métodos da abor-dagem 1 e 2. Método Qtd. de Palavras k-meanspadrão 300 AH(0.5 a 0.99) 4508 AH(0.6 a 0.99) 1606 AH(0.7 a 0.99) 657 AH(0.8 a 0.99) 361

Tabela 1. Quantidade de palavras visuais do dicion ário gerado ao aplicar cada um dos m étodos Foi utilizado como estratégia de avaliação dos resultados o método Mean Average Pre-cision(MAP). A Figura 5 mostra a curva MAP obtida pelos testes utilizando a abordagem 1 e a abordagem 2. Esta sendo explorado um refinamento de cada ramo relevante da hierarquia, com o objetivo de melhorar a separabilidade entre imagens de diferentes classes. De uma maneira

(8)

Figura 3. Curvas de Precis ão x Revocaç ão para a classe Mountain nas diversas abordagens

Figura 4. Curvas de Precis ão x Revocaç ão para a classe Dinossaur nas diversas abordagens

geral, exploraremos a construc¸˜ao de uma ”taxonomia” para estruturar a busca de imagens por similaridade.

5. Cronograma do Trabalho at´e a Defesa

As atividades previstas para o desenvolvimento deste trabalho at´e a defesa s˜ao:

1. Levantamento bibliográfico e estudo do processo de recuperação de imagens por conteúdo (CBIR) usando dicionário de palavras visuais. Definição dos descritores de caracter´ısticas a serem utilizados para gerar o dicionário de palavras visuais;

2. Proposta de refinamento do agrupamento hierárquico para construção do dicionário de palavras visuais. Avaliação dos resultados;

3. Estudo do uso de n-gramas (palavras compostas) para construção do dicionário.

4. Construção de um sistema de busca de imagens por conteúdo e validação dos resultados; 5. Elaboração de artigos para submissão em congressos cient´ıficos e periódicos;

6. Elaboração e revisão da dissertação;

(9)

Figura 5. Curvas Mean Average Precision (MAP) das duas abordagens testadas Meses Atividades 1 2 3 4 5 6 Jul/2010 X Ago/2010 X Set/2010 X X Out/2010 X Nov/2010 X Dez/2010 X X Jan/2011 X X Fev/2011 X X Mar/2011 X X Abr/2011 X X Mai/2011 X X Jun/2011 X Jul/2011 X

Tabela 2. Cronograma de Atividades

Referˆencias

Baeza-Yates, R. A. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA.

Batista, N. C., Lopes, A. P. B., and de A. Araujo, A. (2009). Detecting buildings in historical photographs using bag-of-keypoints. Computer Graphics and Image Processing, Brazilian Symposium on, 0:276–283.

Bay, H., Tuytelaars, T., and Gool, L. V. (2006). Surf: Speeded up robust features. In In ECCV, pages 404–417.

Comaniciu, D., Meer, P., and Member, S. (2002). Mean shift: A robust approach toward feature space analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24:603– 619.

Csurka, G., Dance, C. R., Fan, L., Willamowski, J., and Bray, C. (2004). Visual categorization with bags of keypoints. In In Workshop on Statistical Learning in Computer Vision, ECCV,

(10)

pages 1–22.

Dumais, S., Platt, J., Sahami, M., and Heckerman, D. (1998). Inductive learning algorithms and representations for text categorization. pages 148–155. ACM Press.

Everitt, B. S., Landau, S., and Leese, M. (2009). Cluster Analysis. Wiley Publishing, 4th edition.

Fayyad, U. and Uthurusamy, R. (2002). Evolving data into mining solutions for insights. Com-mun. ACM, 45:28–31.

Halkidi, M., Batistakis, Y., and Vazirgiannis, M. (2001). On clustering validation techniques. Journal of Intelligent Information Systems, 17:107–145.

J´egou, H., Douze, M., and Schmid, C. (2010). Improving bag-of-features for large scale image search. Int. J. Comput. Vision, 87:316–336.

Jiang, Y.-G., Ngo, C.-W., and Yang, J. (2007). Towards optimal bag-of-features for object cat-egorization and semantic video retrieval. In Proceedings of ACM International Conference on Image and Video Retrieval.

Jurie, F. and Triggs, B. (2005). Creating efficient codebooks for visual recognition. Computer Vision, IEEE International Conference on, 1:604–610.

Ke, Y. and Sukthankar, R. (2004). Pca-sift: A more distinctive representation for local image descriptors. Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, 2:506–513.

Lazebnik, S., Schmid, C., and Ponce, J. (2003). Affine-invariant local descriptors and neigh-borhood statistics for texture recognition. In In Proc. ICCV, pages 649–655.

Lindeberg, T. (1993). Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention. International Journal of Computer Vision, 11:283–318.

Lopes, A. P. B., de Avila, S. E. F., Peixoto, A. N. A., Oliveira, R. S., de M. Coelho, M., and de Albuquerque Ara´ujo, A. (2009). Nude detection in video using bag-of-visual-features. In SIBGRAPI, pages 224–231. IEEE Computer Society.

Lowe, D. G. (1999). Object recognition from local scale-invariant features. Computer Vision, IEEE International Conference on, 2:1150.

Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, New York.

Moura, M. F., Nogueira, B. M., Conrado, M. S., Santos, F. F., and Rezende, S. O. (2008). Making good choices of non-redundant n-gram words. In Library, I. D., editor, Proceedings of I International Workshop on Data Mining and Artificial Intelligence - DMAI, XI IEEE International Conference on Computer and Information Technology - ICCIT, pages 64–71. Nister, D. and Stewenius, H. (2006). Scalable recognition with a vocabulary tree. Computer

Vision and Pattern Recognition, IEEE Computer Society Conference on, 2:2161–2168. Philbin, J., Chum, O., Isard, M., Sivic, J., and Zisserman, A. (2007). Object retrieval with large

vocabularies and fast spatial matching. Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, 0:1–8.

Razente, H. L. (2009). Adequando consultas por similaridade para reduzir a descontinuidade semântica na recuperação de imagens por conteúdo. Tese de doutorado, instituto de ciências matemáticas e de computação, ICMC-USP, São Carlos-SP.

(11)

Ribeiro-Neto, B., Moura, E. S., Neubert, M. S., and Ziviani, N. (1999). Efficient distributed algorithms to build inverted files. In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, SIGIR ’99, pages 105–112, New York, NY, USA. ACM.

Rui, Y., Huang, T. S., and fu Chang, S. (1997). Image retrieval: Past, present, and future. In Journal of Visual Communication and Image Representation, pages 1–23.

Sivic, J. and Zisserman, A. (2003). Video google: A text retrieval approach to object matching in videos. Computer Vision, IEEE International Conference on, 2:1470.

Vendramin, L., Campello, R. J. G. B., and Hruschka, E. R. (2009). On the comparison of relative clustering validity criteria. In SDM, pages 733–744.

Wang, L., Zhou, L., and Shen, C. (2008). A fast algorithm for creating a compact and dis-criminative visual codebook. In European Conference on Computer Vision (ECCV’08), vol-ume 4, pages 719–732, Marseille, France. Lecture Notes in Computer Science (LNCS) 5305, Springer-Verlag.

Winn, J., Criminisi, A., and Minka, T. (2005). Object categorization by learned universal visual dictionary. In Proceedings of the Tenth IEEE International Conference on Computer Vision - Volume 2, ICCV ’05, pages 1800–1807, Washington, DC, USA. IEEE Computer Society. Yang, J., Jiang, Y.-G., Hauptmann, A. G., and Ngo, C.-W. (2007). Evaluating

bag-of-visual-words representations in scene classification. In Wang, J. Z., Boujemaa, N., Bimbo, A. D., and Li, J., editors, Multimedia Information Retrieval, pages 197–206. ACM.