• Nenhum resultado encontrado

Técnicas para Recuperação de Imagens por Conteúdo baseadas em Dicionário de Palavras Visuais

N/A
N/A
Protected

Academic year: 2021

Share "Técnicas para Recuperação de Imagens por Conteúdo baseadas em Dicionário de Palavras Visuais"

Copied!
11
0
0

Texto

(1)

T´ecnicas para Recuperac¸˜ao de Imagens por Conte ´udo baseadas

em Dicion´ario de Palavras Visuais

Autor: Robson de Carvalho Soares1, Orientadora: Denise Guliato1

1Programa de P´os-Graduac¸˜ao em Ciˆencia da Computac¸˜ao

Universidade Federal do Uberlˆandia (UFU) Uberlˆandia – MG – Brasil

robsoncsoares@gmail.com, guliato@ufu.br

N´ıvel: Mestrado

Ano de ingresso no programa: 2009 ´

Epoca esperada de conclus˜ao: Julho / 2011

Resumo. Com o volume crescente de imagens sendo capturadas nas mais diversas modalidades de aquisic¸˜ao, surge a necessidade de novas t´ecnicas capazes de geren-ciar e recuperar imagens de maneira eficiente. Assim, uma das t´ecnicas que mais vem sendo utilizada na recuperac¸˜ao de imagens por conte´udo (CBIR - Content Based Image Retrieval) ´e conhecida como bag-of-features ou ainda bag-of-visual-words. Essa t´ecnica esta baseada em um ”dicion´ario de palavras visuais” que caracteriza uma colec¸˜ao de imagens. No processo de criac¸˜ao do dicion´ario, a escolha do seu tamanho ´e cr´ıtica pois essa escolha pode influenciar tanto no poder discriminativo do dicion´ario quanto na performance de recuperac¸˜ao. V´arios trabalhos escolhem esse tamanho de forma emp´ırica e este trabalho prop˜oe um m´etodo de gerac¸˜ao autom´atica do melhor tamanho do dicion´ario. Para isso ´e utilizado o agrupamento hier´arquico das caracter´ıticas para avaliar quais palavras visuais far˜ao parte do dicion´ario. Palavras-Chave. bag-of-features, palavras visuais, codebook, dicion´ario, CBIR

(2)

1. Introduc¸˜ao

Com o volume crescente de imagens sendo capturadas nas mais diversas modalidades de aquisic¸˜ao, surge a necessidade de novas t´ecnicas capazes de gerenciar e recuperar imagens de maneira eficiente [Fayyad and Uthurusamy 2002], [Razente 2009]. O acesso eficiente a ima-gens em grandes bases de dados ´e ainda mais problem´atico quando estas bases n˜ao est˜ao orga-nizadas [Rui et al. 1997], como ´e o caso das bases dispon´ıveis na Web. Neste cen´ario, surge a necessidade da criac¸˜ao de t´ecnicas cada vez mais eficazes para o armazenamento e recuperac¸˜ao de imagens.

Assim, uma das t´ecnicas que mais vem sendo utilizada na recuperac¸˜ao de imagens por conte´udo (CBIR - Content Based Image Retrieval) ´e conhecida como bag-of-features ou ainda bag-of-visual-words [Sivic and Zisserman 2003]. Essa abordagem baseou-se na t´ecnica conhecida como bag-of-words [Dumais et al. 1998], [Baeza-Yates and Ribeiro-Neto 1999] a qual ´e aplicada em recuperac¸˜ao de informac¸˜oes textuais (RI - Information Retrieval). Essas t´ecnicas tem como objetivo principal criar o chamado ”dicion´ario de palavras” respons´avel pela categorizac¸˜ao textual quando aplicado a recuperac¸˜ao textual e pela classificac¸˜ao da imagem quando aplicado a recuperac¸˜ao de imagem por conte´udo.

Em bag-of-features, o dicion´ario de palavras tamb´em ´e chamado de dicion´ario de palavras visuais. Para constru´ı-lo, utiliza-se descritores de caracter´ısticas de pontos-chave ex-tra´ıdos das imagens. Os pontos-chave s˜ao saliˆencias que contˆem informac¸˜oes locais da imagem e s˜ao obtidos automaticamente por m´etodos de detecc¸˜ao de pontos-chave [Lindeberg 1993], [Lazebnik et al. 2003]. Uma vez detectados, os pontos-chave s˜ao representados por descritores como Invariant Feature Transform (SIFT) [Lowe 1999], Principal Component Analysis (PCA)-SIFT [Ke and Sukthankar 2004] e o Speeded Up Robust Features (SURF) [Bay et al. 2006]. Assim, no dicion´ario de palavras visuais, cada palavra visual est´a associada a um agrupa-mento de descritores de pontos-chave. Tipicamente, o m´etodo de agrupaagrupa-mento ´e o k-means [Mitchell 1997] e a distˆancia ´e a Euclidiana. Cada palavra visual representa, portanto, um padr˜ao local espec´ıfico compartilhado por todos os descritores de um dado agrupamento.

A definic¸˜ao a priori do tamanho do dicion´ario de palavras ´e um dos pontos cr´ıticos para a criac¸˜ao do dicion´ario. V´arios trabalhos tˆem escolhido o tamanho do dicion´ario (o n´umero de agrupamentos) de forma emp´ırica [Lopes et al. 2009], [Batista et al. 2009]. Esta escolha ´e cr´ıtica, pois al´em de influenciar no poder discriminativo do dicion´ario, tem influˆencia direta na eficiˆencia computacional e na utilizac¸˜ao de mem´oria durante os processos de gerac¸˜ao do di-cion´ario e de classificac¸˜ao das imagens. Al´em disso, os vetores de caracter´ısticas (palavras vi-suais) que comp˜oem o dicion´ario possuem alta dimensionalidade, dificultando ent˜ao a aplicac¸˜ao de algoritmos no processamento do mesmo. Tal problema ´e conhecido como a ”maldic¸˜ao da dimensionalidade” [Wang et al. 2008].

Uma vez definido o dicion´ario de palavras visuais, ´e poss´ıvel associar a cada descritor de ponto-chave `a palavra visual mais pr´oxima. Alguns trabalhos recentes baseados em bag-of-features prop˜oem melhorar o tempo de atribuic¸˜ao de descritores individuais para palavras visuais [Nister and Stewenius 2006], [Philbin et al. 2007].

Cada imagem ´e, ent˜ao, representada por um histograma que indica com que freq¨uˆencia cada palavra visual do dicion´ario ocorre na imagem (de forma an´aloga ao que se faz em recuperac¸˜ao de informac¸˜oes textuais) [Jiang et al. 2007]. Acesso r´apido ao vetor de freq¨uˆencia ´e alcanc¸ado usando sistema de arquivos invertidos [Ribeiro-Neto et al. 1999]. A representac¸˜ao da imagem em termos do histograma ´e utilizada em tarefas de classificac¸˜ao ou de recuperac¸˜ao de imagens por conte´udo.

(3)

A Figura 1 ilustra todo o processo para obtenc¸˜ao do dicion´ario de palavras visuais e para a descric¸˜ao de imagens via histograma.

Figura 1. Uma vis ˜ao geral do processo de criac¸ ˜ao de um dicion ´ario de palavras visuais. Ilustrac¸ ˜ao baseada no artigo [Yang et al. 2007]

2. Objetivo Geral

O objetivo geral deste projeto ´e explorar o uso da estrat´egia baseada em bag-of-features para a recuperac¸˜ao de imagens por conte´udo. Neste estudo ser˜ao explorados o uso do m´etodo de agrupamento hier´arquico para a construc¸˜ao do dicion´ario de palavras visuais com obtenc¸˜ao autom´atica do melhor tamanho para o dicion´ario, dada uma colec¸˜ao de imagens; estudos sobre o uso de palavras compostas no processo de recuperac¸˜ao de imagens por conte´udo; estudos sobre a possibilidade de se utilizar t´ecnicas de RI na eliminac¸˜ao de palavras visuais irrelevantes e sobre m´etodos de indexac¸˜ao para melhorar tempo de resposta `a consulta; avaliac¸˜ao do uso do dicion´ario de palavras visuais obtido na recuperac¸˜ao de imagens em bases de dados p´ublicas. ´E tamb´em objetivo deste projeto a construc¸˜ao de uma interface gr´afica ergonˆomica, dispon´ıvel via Web, que facilite a interac¸˜ao com usu´ario, no processo de recuperac¸˜ao de imagem por conte´udo.

3. Trabalhos Relacionados

De acordo com a literatura podemos encontrar v´arios trabalhos relacionados `a t´ecnica bag-of-features. O trabalho proposto por Sivic e Zisserman [Sivic and Zisserman 2003] apresenta a t´ecnica como uma abordagem para recuperar todas as ocorrˆencias de um objeto em cenas

(4)

(”frames”) de um determinado v´ıdeo. Para isso, os objetos s˜ao representados como um conjunto de descritores invariantes a escala, rotac¸˜ao, translac¸˜ao, iluminac¸˜ao e oclus˜ao parcial. Utiliza-se o SIFT como descritor de caracter´ısticas das imagens e, al´em disso, o dicion´ario de palavras visuais ´e gerado aplicando-se o k-means cujo k ´e escolhido empiricamente.

Desde ent˜ao outros trabalhos foram propostos para os mais diversos dom´ınios. Csurka et al. [Csurka et al. 2004] utiliza a t´ecnica com o objetivo de encontrar um processo que seja gen´erico para lidar com diversos tipos de objetos e ao mesmo tempo tratar as variac¸˜oes de iluminac¸˜ao, visualizac¸˜ao, rotac¸˜ao e oclus˜ao, t´ıpicos de cenas do mundo real. Ja Batista et al. [Batista et al. 2009] a utiliza para a detecc¸˜ao de construc¸˜oes em fotografias hist´oricas e Lopes et al. [Lopes et al. 2009] para a detecc¸˜ao de nudez. Apesar dessa grande diversidade dos dom´ınios das aplicac¸˜oes e independente dos descritores de caracter´ısticas utilizados, todos apresentam a mesma forma de gerac¸˜ao do dicion´ario de palavras visuais a qual escolhe empiricamente a quantidade de palavras visuais do dicion´ario representadas pelos k clusters obtidos atrav´es da execuc¸˜ao do k-means.

Jurie e Triggs [Jurie and Triggs 2005] identificaram que a utilizac¸˜ao do k-means para a construc¸˜ao do dicion´ario de palavras visuais n˜ao funciona muito bem para regi˜oes densas de cenas naturais pois a ampla quantidade dessas grandes regi˜oes em algumas cenas promove uma alta distribuic¸˜ao n˜ao uniforme no espac¸o de caracter´ısticas. Isso induz o k-means a criar dicion´arios ruins onde a maioria dos centr´oides est˜ao p´oximos de regi˜oes altamente densas. Os autores propuseram ent˜ao um novo m´etodo de criac¸˜ao do dicion´ario utilizando a t´ecnica de agrupamento Mean Shift [Comaniciu et al. 2002] a qual ainda assim possui como parˆametro o raio do cluster a ser encontrado pelo m´etodo.

Alguns trabalhos foram desenvolvidos com o intuito de melhorar a eficiˆencia computa-cional e reduzir a utilizac¸˜ao de mem´oria no processo de reconhecimento de objetos. Para isso, a alternativa foi compactar o dicion´ario de palavras visuais mantendo o seu poder discrimina-tivo. Winn et al. [Winn et al. 2005] e Wang et al. [Wang et al. 2008] desenvolveram m´etodos semelhantes para compactar o dicion´ario de palavras visuais. Ambos aplicam o m´etodo k-means gerando um dicion´ario de palavras inicial com o k escolhido de forma emp´ırica. Ap´os isso, aplicam seus algoritmos respons´aveis por juntar as palavras semelhantes desse dicion´ario compactando-o. A diferenc¸a entre as duas abordagens esta relacionada `a velocidade do pro-cesso de junc¸˜ao sendo que o m´etodo proposto por Wang et al., segundo o autor, ´e mais r´apido por n˜ao realizar uma busca exaustiva no dicion´ario para encontrar o melhor par de palavras visuais a ser unido.

Nister e Stewenius [Nister and Stewenius 2006] propuseram um m´etodo para gerar uma ´arvore do dicion´ario de palavras visuais utilizando agrupamento hier´arquico baseado no k-means. O k-means ´e aplicado recursivamente de modo a gerar essa ´arvore que define, de forma integrada, o dicion´ario de palavras visuais e uma estrat´egia de busca melhorando o mecanismo de indexac¸˜ao para o processo de recuperac¸˜ao. J´egou et al. [J´egou et al. 2010] tamb´em pro-puseram a criac¸˜ao de uma ´arvore hier´arquica utilizando o k-means, por´em, segundo o autor, o processo de criac¸˜ao dessa ´arvore difere do de Nister e Stewenius por ser mais custoso e ser bottom-up ao inv´es de top-down. Ambos os trabalhos obtiveram um dicion´ario de palavras compacto e discriminativo, por´em ainda informam o parˆametro k empiricamente.

4. Metodologia e Estado da Pesquisa

4.1. Aspectos Te´oricos

Na an´alise de agrupamento busca-se uma estrutura de organizac¸˜ao em grupos de objetos simi-lares, em que objetos de um mesmo grupo s˜ao altamente similares entre si, mas dissimilares em

(5)

relac¸˜ao aos objetos de outros grupos [Everitt et al. 2009]. M´etodos de agrupamento tˆem sido utilizados para quantizar descritores de caracter´ısticas em palavras visuais para construc¸˜ao do bag-of-features. V´arios trabalhos utilizam o m´etodo de agrupamento k-means para quantizac¸˜ao dos descritores de caracter´ısticas em palavras visuais. No entanto, o algoritmo k-means exige a definic¸˜ao a priori do n´umero de agrupamentos, conseq¨uentemente, o tamanho do dicion´ario de palavras. O resultado da busca por similaridade baseadas em bag-of-features ´e fortemente influenciada pelo tamanho deste dicion´ario.

Neste projeto propomos a utilizac¸˜ao do m´etodo de agrupamento hier´arquico para construc¸˜ao do dicion´ario de palavras visuais. Uma vez obtido o dendrograma a partir dos descritores de caracter´ısticas, deve-se verificar a validade dos padr˜oes obtidos para definir as palavras que melhor representam o conjunto de caracter´ısticas.

O objetivo do uso do m´etodo de agrupamento hier´arquico ´e gerar o dicion´ario de palavras visuais, sem estabelecer previamente o seu tamanho. Ap´os isso, explorar um refi-namento de cada ramo relevante do dendrograma, com o objetivo de melhorar a separiabilidade entre as imagens de diferentes classes. De uma maneira geral, exploraremos a construc¸˜ao de uma ”taxonomia” para estruturar a busca de imagens por similaridade.

Al´em disso, exploraremos tamb´em neste projeto, o uso de n-gramas para palavras vi-suais. Uma abordagem inicial ´e determinar a composic¸˜ao de palavras por regras de associac¸˜ao [Moura et al. 2008].

Por fim, para facilitar o processo de busca de imagens e validac¸˜ao dos resultados, propo-mos a construc¸˜ao de uma interface gr´afica, dispon´ıvel via Web. A interface tem dois prop´ositos: 1) servir como ferramenta para auxiliar no processo de validac¸˜ao dos m´etodos propostos. Neste caso, o sistema ´e configurado adequadamente, e ´ındices e gr´aficos de validac¸˜ao s˜ao exibidos; 2) servir como sistema para recuperac¸˜ao de imagens por conte´udo. Neste caso, a interface permitir´a a escolha, de forma interativa, da imagem de referˆencia e a escolha da base onde se deseja realizar a consulta. As imagens resultantes s˜ao exibidas, na ordem de sua relevˆancia, de acordo com parˆametros previamente estabelecidos. Quest˜oes relacionadas com o refinamento de consultas n˜ao ser˜ao tratadas neste projeto.

4.2. Validac¸˜ao

Uma vez obtido o dendrograma a partir dos descritores de caracter´ısticas, deve-se verificar a val-idade dos padr˜oes obtidos. A validac¸˜ao do resultado de um agrupamento, em geral, ´e realizada por meio de ´ındices estat´ısticos que expressam o m´erito das estruturas encontradas, ou seja, quantificam alguma informac¸˜ao sobre a qualidade de um agrupamento [Halkidi et al. 2001]. Neste trabalho estamos utilizando crit´erios relativos para realizar a validac¸˜ao de um agrupa-mento. Os crit´erios relativos comparam diversos agrupamentos para decidir qual deles ´e o mais adequado aos dados. Um exemplo ´e o coeficiente de silhueta, que calcula, para cada objeto que faz parte de um agrupamento, a qualidade da sua atribuic¸˜ao. Assim, para cada objeto i, o valor de silhueta s(i) ´e calculado pela Equac¸˜ao 1:

s(i) = b(i) − a(i)

max{a(i), b(i)} (1)

em que a(i) ´e a dissimilaridade m´edia do objeto i em relac¸˜ao aos outros objetos do seu grupo e b(i) ´e a dissimilaridade m´edia do objeto i em relac¸˜ao aos objetos dos demais grupos. O valor global SG, para um agrupamento com N objetos, ´e dado pela Equac¸˜ao 2:

(6)

SG =

PN

i=1s(i)

N (2)

Uma vers˜ao simplificada da silhueta, baseada em centr´oides, produz resultados compe-titivos com custo computacional reduzido [Vendramin et al. 2009].

4.3. Bases de dados

Os testes para validac¸˜ao dos m´etodos propostos utilizar˜ao as seguintes bases de dados p´ublicas:

• IRMA (http://ganymed.imib.rwth-aachen.de/irma/index_en.

php);

• ALOI - The Amsterdam Library of Object Images (http://staff.science. uva.nl/˜aloi/);

• COIL-100 Columbia Object Image Library (http://www1.cs.columbia.edu/ CAVE/software/softlib/coil-100.php); • Caltech 101 (http://www.vision.caltech.edu/Image_Datasets/ Caltech101/Caltech101.html); • Caltech 256 (http://www.vision.caltech.edu/Image_Datasets/ Caltech256/). 4.4. Experimentos

Neste projeto est´a sendo utilizada a abordagem bag-of-features na classificac¸˜ao e recuperac¸˜ao de imagens por conte´udo. Um dos passos dessa abordagem ´e a obtenc¸˜ao dos descritores dos pontos-chaves. Dessa forma, foram estudados e avaliados os principais m´etodos para este fim, Scale Invariant Feature Transform (SIFT), Principal Component Analysis (PCA)-SIFT e o Speeded Up Robust Features (SURF).

Outra fase importante da abordagem bag-of-features, e a qual se econtra esse trabalho, ´e o processo de gerac¸˜ao do dicion´ario de palavras visuais. Neste projeto propomos a utilizac¸˜ao do m´etodo de agrupamento hier´arquico para a construc¸˜ao deste dicion´ario. Uma vez obtido o dendrograma a partir dos descritores de caracter´ısticas, deve-se verificar a validade dos padr˜oes obtidos. Realizamos alguns testes com algoritmos de agrupamento hier´aquico. Para colec¸˜oes muito grandes torna-se invi´avel a aplicac¸˜ao desses algoritmos uma vez que necessitam criar a matriz de dissimilaridades entre as caracter´ısticas extra´ıdas das imagens. Assim, passamos a montar a hierarquia das caracter´ısticas aplicando o k-means com k = 2 recursivamente at´e n˜ao ser mais poss´ıvel dividir o universo de caracter´ısticas, semelhante a t´ecnica utiliza por Nister et al. [Nister and Stewenius 2006]. Dessa foram obtivemos tamb´em uma hierarquia entre as caracter´ısticas e estamos avaliando formas de identificar as palavras visuais que melhor discriminam essa colec¸˜ao. Para isso estamos avaliando a qualidade dos agrupamentos conforme apresentado na sec¸˜ao 4.2.

Testes preliminares foram realizados na base de dados Corel1000 que possui 10 classes diferentes conforme exemplifica a Figura 2.

Foram selecionadas aleatoriamente 10 imagens de cada classe para testes, totalizando 100 imagens. Os descritores de caracter´ısticas dessas 100 imagens foram extra´ıdos utilizando o SIFT. Ap´os isso, para efeito de comparac¸˜ao, foi criado o dicion´ario de palavras visuais uti-lizando duas abordagens:

1. k-means padr˜ao: aplicou-se o k-means variando o k. Aplicou-se o coeficiente de sil-hueta s(i) (Equac¸˜ao 1) em todos os agrupamentos gerados pela variac¸˜ao de k. Assim, o

(7)

Figura 2. Exemplos das 10 classes de imagens na base Corel1000

dicion´ario de palavras visuais foi definido pelo k que apresentou um melhor coeficiente de silhueta.

2. Agrupamento hier´arquico (AH): aplicou-se o k-means com k = 2 recursivamente at´e n˜ao ser mais poss´ıvel dividir o universo de caracter´ısticas. Para todos os grupos da hierarquia gerada calculamos o coeficiente de silhueta s(i) (Equac¸˜ao 1). Consideramos como as palavras visuais do dicion´ario, todos os centr´oides dos grupos que possu´ıam silhueta em algumas faixas de valores. Dessa forma geramos um dicion´ario de palavras visuais de forma autom´atica sem depender de testes emp´ıricos. As faixas de valores utilizadas foram: 0.5 a 0.99, 0.6 a 0.99, 0.7 a 0.99 e 0.8 a 0.99.

Com os testes realizados pudemos concluir que para imagens cuja cena tem um objeto principal, as estrat´egias produziram bons resultados (bus, dinossaur, horse, elephant). No en-tanto, os testes mostraram que as imagens das outras classes (flower, food, building, africa, beach, mountain) as quais n˜ao possuem um objeto bem definido, n˜ao obtiveram uma boa recuparac¸˜ao. Assim, a Figura 3 e 4 apresentam os gr´aficos de precis˜ao versus revocac¸˜ao das classes dinossaur e mountain. Temos o intuito de comparar o m´etodo padr˜ao (abordagem 1) com o m´etodo que esta sendo proposto (abordagem 2) em duas classes opostas da colec¸˜ao. Podemos observar nessas Figuras que o para a classe Mountain houve uma melhora de precis˜ao utilizando o m´etodo AH(0.8 a 0.99).

A Tabela 1 nos mostra a quantidade de palavras visuais geradas pelos m´etodos da abor-dagem 1 e 2. M´etodo Qtd. de Palavras k-meanspadr˜ao 300 AH(0.5 a 0.99) 4508 AH(0.6 a 0.99) 1606 AH(0.7 a 0.99) 657 AH(0.8 a 0.99) 361

Tabela 1. Quantidade de palavras visuais do dicion ´ario gerado ao aplicar cada um dos m ´etodos Foi utilizado como estrat´egia de avaliac¸˜ao dos resultados o m´etodo Mean Average Pre-cision(MAP). A Figura 5 mostra a curva MAP obtida pelos testes utilizando a abordagem 1 e a abordagem 2. Esta sendo explorado um refinamento de cada ramo relevante da hierarquia, com o objetivo de melhorar a separabilidade entre imagens de diferentes classes. De uma maneira

(8)

Figura 3. Curvas de Precis ˜ao x Revocac¸ ˜ao para a classe Mountain nas diversas abordagens

Figura 4. Curvas de Precis ˜ao x Revocac¸ ˜ao para a classe Dinossaur nas diversas abordagens

geral, exploraremos a construc¸˜ao de uma ”taxonomia” para estruturar a busca de imagens por similaridade.

5. Cronograma do Trabalho at´e a Defesa

As atividades previstas para o desenvolvimento deste trabalho at´e a defesa s˜ao:

1. Levantamento bibliogr´afico e estudo do processo de recuperac¸˜ao de imagens por conte´udo (CBIR) usando dicion´ario de palavras visuais. Definic¸˜ao dos descritores de caracter´ısticas a serem utilizados para gerar o dicion´ario de palavras visuais;

2. Proposta de refinamento do agrupamento hier´arquico para construc¸˜ao do dicion´ario de palavras visuais. Avaliac¸˜ao dos resultados;

3. Estudo do uso de n-gramas (palavras compostas) para construc¸˜ao do dicion´ario.

4. Construc¸˜ao de um sistema de busca de imagens por conte´udo e validac¸˜ao dos resultados; 5. Elaborac¸˜ao de artigos para submiss˜ao em congressos cient´ıficos e peri´odicos;

6. Elaborac¸˜ao e revis˜ao da dissertac¸˜ao;

(9)

Figura 5. Curvas Mean Average Precision (MAP) das duas abordagens testadas Meses Atividades 1 2 3 4 5 6 Jul/2010 X Ago/2010 X Set/2010 X X Out/2010 X Nov/2010 X Dez/2010 X X Jan/2011 X X Fev/2011 X X Mar/2011 X X Abr/2011 X X Mai/2011 X X Jun/2011 X Jul/2011 X

Tabela 2. Cronograma de Atividades

Referˆencias

Baeza-Yates, R. A. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA.

Batista, N. C., Lopes, A. P. B., and de A. Araujo, A. (2009). Detecting buildings in historical photographs using bag-of-keypoints. Computer Graphics and Image Processing, Brazilian Symposium on, 0:276–283.

Bay, H., Tuytelaars, T., and Gool, L. V. (2006). Surf: Speeded up robust features. In In ECCV, pages 404–417.

Comaniciu, D., Meer, P., and Member, S. (2002). Mean shift: A robust approach toward feature space analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24:603– 619.

Csurka, G., Dance, C. R., Fan, L., Willamowski, J., and Bray, C. (2004). Visual categorization with bags of keypoints. In In Workshop on Statistical Learning in Computer Vision, ECCV,

(10)

pages 1–22.

Dumais, S., Platt, J., Sahami, M., and Heckerman, D. (1998). Inductive learning algorithms and representations for text categorization. pages 148–155. ACM Press.

Everitt, B. S., Landau, S., and Leese, M. (2009). Cluster Analysis. Wiley Publishing, 4th edition.

Fayyad, U. and Uthurusamy, R. (2002). Evolving data into mining solutions for insights. Com-mun. ACM, 45:28–31.

Halkidi, M., Batistakis, Y., and Vazirgiannis, M. (2001). On clustering validation techniques. Journal of Intelligent Information Systems, 17:107–145.

J´egou, H., Douze, M., and Schmid, C. (2010). Improving bag-of-features for large scale image search. Int. J. Comput. Vision, 87:316–336.

Jiang, Y.-G., Ngo, C.-W., and Yang, J. (2007). Towards optimal bag-of-features for object cat-egorization and semantic video retrieval. In Proceedings of ACM International Conference on Image and Video Retrieval.

Jurie, F. and Triggs, B. (2005). Creating efficient codebooks for visual recognition. Computer Vision, IEEE International Conference on, 1:604–610.

Ke, Y. and Sukthankar, R. (2004). Pca-sift: A more distinctive representation for local image descriptors. Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, 2:506–513.

Lazebnik, S., Schmid, C., and Ponce, J. (2003). Affine-invariant local descriptors and neigh-borhood statistics for texture recognition. In In Proc. ICCV, pages 649–655.

Lindeberg, T. (1993). Detecting salient blob-like image structures and their scales with a scale-space primal sketch: A method for focus-of-attention. International Journal of Computer Vision, 11:283–318.

Lopes, A. P. B., de Avila, S. E. F., Peixoto, A. N. A., Oliveira, R. S., de M. Coelho, M., and de Albuquerque Ara´ujo, A. (2009). Nude detection in video using bag-of-visual-features. In SIBGRAPI, pages 224–231. IEEE Computer Society.

Lowe, D. G. (1999). Object recognition from local scale-invariant features. Computer Vision, IEEE International Conference on, 2:1150.

Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, New York.

Moura, M. F., Nogueira, B. M., Conrado, M. S., Santos, F. F., and Rezende, S. O. (2008). Making good choices of non-redundant n-gram words. In Library, I. D., editor, Proceedings of I International Workshop on Data Mining and Artificial Intelligence - DMAI, XI IEEE International Conference on Computer and Information Technology - ICCIT, pages 64–71. Nister, D. and Stewenius, H. (2006). Scalable recognition with a vocabulary tree. Computer

Vision and Pattern Recognition, IEEE Computer Society Conference on, 2:2161–2168. Philbin, J., Chum, O., Isard, M., Sivic, J., and Zisserman, A. (2007). Object retrieval with large

vocabularies and fast spatial matching. Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, 0:1–8.

Razente, H. L. (2009). Adequando consultas por similaridade para reduzir a descontinuidade semˆantica na recuperac¸˜ao de imagens por conte´udo. Tese de doutorado, instituto de ciˆencias matem´aticas e de computac¸˜ao, ICMC-USP, S˜ao Carlos-SP.

(11)

Ribeiro-Neto, B., Moura, E. S., Neubert, M. S., and Ziviani, N. (1999). Efficient distributed algorithms to build inverted files. In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, SIGIR ’99, pages 105–112, New York, NY, USA. ACM.

Rui, Y., Huang, T. S., and fu Chang, S. (1997). Image retrieval: Past, present, and future. In Journal of Visual Communication and Image Representation, pages 1–23.

Sivic, J. and Zisserman, A. (2003). Video google: A text retrieval approach to object matching in videos. Computer Vision, IEEE International Conference on, 2:1470.

Vendramin, L., Campello, R. J. G. B., and Hruschka, E. R. (2009). On the comparison of relative clustering validity criteria. In SDM, pages 733–744.

Wang, L., Zhou, L., and Shen, C. (2008). A fast algorithm for creating a compact and dis-criminative visual codebook. In European Conference on Computer Vision (ECCV’08), vol-ume 4, pages 719–732, Marseille, France. Lecture Notes in Computer Science (LNCS) 5305, Springer-Verlag.

Winn, J., Criminisi, A., and Minka, T. (2005). Object categorization by learned universal visual dictionary. In Proceedings of the Tenth IEEE International Conference on Computer Vision - Volume 2, ICCV ’05, pages 1800–1807, Washington, DC, USA. IEEE Computer Society. Yang, J., Jiang, Y.-G., Hauptmann, A. G., and Ngo, C.-W. (2007). Evaluating

bag-of-visual-words representations in scene classification. In Wang, J. Z., Boujemaa, N., Bimbo, A. D., and Li, J., editors, Multimedia Information Retrieval, pages 197–206. ACM.

Referências

Documentos relacionados

Our contributions are: a set of guidelines that provide meaning to the different modelling elements of SysML used during the design of systems; the individual formal semantics for

Segundo Éric Laurent, a psicose ordinária se caracteriza pela não resposta aos significantes-mestres tradicionais, manifestando o fim do poder do Nome-do-Pai como

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

In the current study, in accordance with Hogarth (2001), we manipulated the possibility to generate a learning environment (learning environment manipulation from now on)

No final, os EUA viram a maioria das questões que tinham de ser resolvidas no sentido da criação de um tribunal que lhe fosse aceitável serem estabelecidas em sentido oposto, pelo

Taking into account the theoretical framework we have presented as relevant for understanding the organization, expression and social impact of these civic movements, grounded on

Para avaliação do estado imunológico da população em estudo, foram colhidas amostras de soro sanguíneo de 133 aves e submetidas a provas sorológicas como a Reação

Outras possíveis causas de paralisia flácida, ataxia e desordens neuromusculares, (como a ação de hemoparasitas, toxoplasmose, neosporose e botulismo) foram descartadas,