Identificação de Produtos por Imagem Utilizando o Algoritmo SURF

(1)

Identificação de Produtos por Imagem Utilizando

o Algoritmo SURF

Um Comparativo Entre Redes Perceptron Multicamadas e Máquinas de Vetor de Suporte

Guilherme Defreitas Juraszek,

Alexandre Gonçalves Silva

Departamento de Ciência da Computação (DCC) Universidade do Estado de Santa Catarina (UDESC)

Joinville, SC - Brasil guilherme.defreitas@gmail.com,

alexandre@joinville.udesc.br

Milton Roberto Heinen

Departamento de Ciência da Computação Universidade Federal do Pampa (UNIPAMPA)

Bagé, RS - Brasil milton.heinen@unipampa.edu.br

Resumo — Este artigo descreve o processo de identificação de produtos utilizando extração de características através do algoritmo SURF, redução da dimensionalidade dos descritores utilizando contagem de frequência e classificação com algoritmos de aprendizado supervisionado rede perceptron multicamadas (MLP) e máquinas de vetor de suporte (SVM). A rede MLP demonstrou melhores resultados com uma taxa de acerto de 84.73% enquanto a SVM utilizando um kernel linear apresentou 81.30%.

Abstract— This paper describes the process of products identification using features extraction with SURF algorithm, dimensionality reduction using a reference count approach and classification comparing multilayer perceptron networks (MLP) and support vector machines (SVM). The MLP had a better result with a success rate of 84.73% while the SVM with a linear kernel presented 81.30%.

Keywords— Image Classification. Multilayer perceptron networks. Support Vector Machines

I. INTRODUÇÃO

Com o crescimento no volume de informação digital disponível cresce também a necessidade de ferramentas que facilitem a busca por tais informações relevantes em base de dados cada vez maiores. Informações textuais são adicionadas diariamente em redes sociais, blogs e sites de comércio eletrônico. Mecanismos de extração e busca destes conteúdos baseados em texto são amplamente empregados mas quando se trata de busca baseada em conteúdo a partir de uma imagem não existem tantas opções. A popularização de equipamentos como câmeras e celulares equipados com câmeras resultou em um grande volume de informações no formato de imagens e vídeos disponibilizadas na internet. A realização de buscas utilizando linguagem natural, geolocalização e preferencias personalizadas já são uma realidade nos smartphones atuais.

O objetivo deste artigo é avaliar os resultados da classificação de produtos por imagem utilizando, de forma combinada, o algoritmo SURF, a redução de dimensionalidade utilizando contagem de frequência e a classificação por meio

de de redes neurais MLP e máquinas de vetor de suporte. Dentre as aplicações disponíveis estão a localização de informações adicionais de produtos com base em uma foto da embalagem, identificação de pontos turísticos, obtenção de informações adicionais sobre produtos ou serviços a partir de uma imagem de um outdoor ou propaganda impressa em revista entre outras.

Este artigo está organizado da seguinte forma: na seção II são apresentados os trabalhos relacionados, o algoritmo SURF e as técnicas de aprendizado supervisionado redes perceptron multicamadas (MLP) e máquinas de vetor de suporte (SVM). Na seção II é detalhada a abordagem utilizada para reduzir a dimensionalidade dos dados obtidos através da extração dos descritores com o SURF utilizando contagem de frequências. Na seção IV, a metodologia para realização e avaliação do experimento é detalhada. Na seção V são descritos o sistema proposto e as configurações relacionadas ao experimento. Na seção VI é apresentado o resultado dos dados obtidos no processamento do algoritmo proposto. Ao final do trabalhos são apresentadas as observações e a conclusão.

II. TRABALHOS RELACIONADOS

A busca por conteúdo em imagens é um assunto de grande interesse por grandes empresas no setor de mecanismos de buscas na internet. Liu et al [1] descreve em seu artigo um algoritmo para a criação de agrupamentos (clusters) contendo milhares de imagens semelhantes utilizando k-nearest

neighbour. Além da utilização de informações retiradas da

própria imagem, os mecanismos de busca utilizam informações sobre a credibilidade da página na qual a imagem está inserida, adquirida através do conteúdo textual, atualizações, links de referências entre outros fatores como um importante indicativo no agrupamento de imagens e retorno de buscas [2].

Além de auxiliar na busca por imagens em uma pesquisa, algumas técnicas de agrupamento e identificação de padrões são usadas com o objetivo de identificar e remover conteúdo adulto dos resultados das buscas. Esta análise leva em consideração questões como a coloração da pele e detecção de

(2)

rostos. A classificação ocorre, particularmente no trabalho [3], por uma máquina de vetores de suporte treinada com os dados extraídos das imagens. Diferentes requisitos e características das imagens do domínio trabalhado podem resultar na utilização de técnicas diferentes para extração das características e classificação.

Diante do intenso dinamismo encontrado na internet onde conteúdos são atualizados a cada instante, alguns trabalhos sugerem a utilização de técnicas de aprendizado incrementais onde o algoritmo melhora o seu desempenho conforme novas imagens vão sendo adicionadas no decorrer do tempo sem a necessidade de realizar uma análise total em toda a base de dados. Tavares [4] demonstra a utilização de um classificador baseado na floresta de caminhos ótimos utilizando realimentação por relevância na recuperação de imagens por conteúdo de maneira eficiente e eficaz.

Um bom algoritmo de identificação de pontos de interesse deve ser capaz de reconhecer e extrair descritores que são invariáveis a iluminação, rotação, escala e translação do objeto a ser identificado na imagem.

A. SIFT – Scale Invariant Feature Transform

O algoritmo SIFT consiste em um método para extração de características distintas e invariantes para o reconhecimento de pontos em um objeto em imagens de diferentes ângulos. Os descritores extraídos são invariantes a escala e rotação e possuem uma boa tolerância a ruídos, distorções decorrentes de diferentes perspectivas e mudanças de iluminação [5]. Lowe descreve ainda uma abordagem para identificação de objetos utilizando um comparativo com um banco de descritores extraídos de outras imagens usando um algoritmo de vizinhos próximos, visto que os descritores extraídos de uma imagem são altamente discriminantes. A implementação do algoritmo é dividida em duas partes, o detector e o descritor. As etapas de processamento são:

• Detecção de extremos: Nesta etapa o algoritmo identifica possíveis pontos de interesse utilizando a função de diferença de Gaussianas aplicadas à diversas escalas da imagem. Este procedimento permite encontrar pontos de interesse invariantes a escala e orientação.

• Localização de pontos chave: Para cada candidato encontrado na etapa anterior são determinadas a localização, escala e métricas de estabilidade para a escolha dos pontos mais estáveis.

• Atribuição de orientação: Uma ou mais orientações são atribuídas a cada ponto chave escolhido de acordo com o gradiente local da imagem.

Extração do descritor: Os gradiente locais ao redor do ponto de interesse são mensurados e uma representação simplificada é extraída.

B. FAST - Features from Accelerated Segment Test

FAST é um algoritmo de detecção de cantos proposto com o objetivo de identificar pontos chaves em imagens com uma velocidade superior ao do SIFT. Não possui informações

sobre a orientação dos descritores e é altamente sensível a ruídos [6]. O algoritmo propõe uma melhora de desempenho utilizando aprendizado de máquina e criação de uma árvore de decisão.

C. ORB - Oriented Fast and Rotated Brief

O algoritmo ORB foi proposto por Rublee [7] como um possível candidato para substituição do SIFT em ambientes de baixo poder de processamento ou aplicações que necessitem de processamento em tempo real. O ORB é invariante a rotação e possui um bom grau de tolerância a ruídos na imagem. O algoritmo utiliza as técnicas FAST e BRIEF [8] realizando algumas melhorias como a adição de informações de orientação, resolvendo um dos pontos fracos do BRIEF original que é a falta de invariância em rotações. Um dos principais problemas descritos pelo autor é a falta de robustez do algoritmo em relação a variações de escala.

D. MSER – Maximally Stable External Regions

Algoritmo proposto por Matas et al. [9] propõe o desenvolvimento de um método robusto diante de mudanças de perspectiva. Originalmente utilizado para detecção de características e alinhamento de imagens estéreo. O algoritmo localiza pontos extremos na imagem buscando identificar regiões conexas da imagem a partir da intensidade do brilho dos pixels. O algoritmo aplica limiares de diferentes valores considerando e detecta regiões de bordas com grande variação de intensidade.

E. SURF – Speed-Up Robust Features

O algoritmo proposto por Herbert Bay et al. [10] é inspirado no SIFT, porém com o objetivo de ser rápido na extração e comparação de características. O SURF utiliza apenas características de imagens de tons de cinza, ou seja, não utiliza qualquer informação relacionada as cores da imagem. Assim como o SIFT o algoritmo SURF consiste em duas etapas, a primeira de localização dos pontos de interesse e a segunda de descrição deste ponto de interesse em um vetor de características que seja invariante às propriedades anteriormente mencionadas. O SURF extrai os pontos de interesse com base na variação das tonalidades da imagem (textura) utilizando as derivadas parciais das mudanças de valores em um relevo nos eixos horizontal e vertical para formar a matriz Hessiana. A determinante da matriz Hessiana retorna um valor alto para regiões da imagem onde existe uma grande variação de tonalidade.

O SURF difere do SIFT na utilização de uma aproximação mais simples para a obtenção da matriz Hessiana utilizando filtros caixa (box filters). Essa forma de aproximação em conjunto com a utilização do conceito de imagens integrais para a representação da imagem possibilitam o cálculo de forma mais eficiente. As demais etapas de localização de pontos máximos em várias escalas utilizando pirâmides e a seleção dos pontos máximos através da análise conjunta com imagens em escalas vizinhas acontecem de forma semelhante ao SIFT. Com o objetivo de extrair características invariantes a rotação, o algoritmo determina a orientação das variações de tonalidade realizando

(3)

convoluções em uma área ao redor do ponto de interesse. O raio da área analisada esta relacionado à qual escala em que o ponto de interesse foi localizado na pirâmide de escalas da etapa anterior. Para extrair as informações que melhor descrevem esta área em volta do ponto de interesse o SURF utiliza convoluções usando o método Haar Wavelet. Após extrair as informações de orientação para cada subdivisão o resultado é um vetor contendo 64 posições com informações de orientação que descrevem o ponto de interesse. Como as informações deste vetor foram extraídas tendo como base a orientação do ponto de interesse, o mesmo padrão pode ser caso a imagem seja rotacionada.

Após a extração dos pontos de interesse e dos descritores é necessário classificá-los. A forma mais simples é através da comparação por força bruta. Nesse método cada um dos descritores da imagem pesquisada é comparado com todos os descritores das imagens do banco utilizando alguma métrica de distância, como a Euclidiana, por exemplo, as imagens que apresentarem o maior número de características próximas são consideradas imagens semelhantes. Apesar de apresentar bons resultados a comparação por força bruta possui a desvantagem de ser ineficiente pois o número de comparações necessárias cresce em função do tamanho do banco de imagens, quanto maior o banco, maior o número de comparações e mais demorada é a busca. Outra desvantagem é o fato de ser necessário o armazenamento dos dados de todos os descritores para a realização das buscas. Essas duas características limitam a aplicação desta técnica em ambientes de baixo processamento ou ambientes com um grande número de buscas simultâneas. Para evitar esses problemas é necessária a utilização de um classificador de aprendizagem das características das imagens, mas que após o aprendizado as buscas sejam realizadas com tempo linear e não necessite do conjunto completo dos dados dos descritores para execução, características estas que estão presentes nas redes neurais artificiais e máquinas de vetor de suporte.

As redes neurais artificiais (RNA) são modelos matemáticos que se assemelham às estruturas biológicas e que tem capacidade computacional adquirida por meio de aprendizagem e generalização [11]. A arquitetura da rede é definida pela forma na qual os neurônios são organizados e conectados, como o número de camadas, tipo de conexão entre os neurônios e topologia de rede [12]. Sua utilização consiste em duas etapas, na primeira é realizado o treinamento da rede através de dados previamente classificados. Após o treinamento a rede por ser utilizada para classificação ou regressão.

F. MLP – Multilayer Perceptron

As redes MLP se diferenciam das redes neurais simples pelo número de camas intermediárias como mostrado na Fig. 1. De acordo com Braga et al. [11], essa arquitetura possui uma ou mais camadas ocultas possibilitando a separação das classes de forma não linear. Os principais componentes são a camada de entrada, camada oculta ou intermediária e camada de saída. A camada de entrada é responsável por receber os dados, nela não acontece nenhum processamento, sendo os dados apenas repassados para as camadas subsequentes. A

camada intermediária é composta por uma ou mais camadas com um ou mais nós (neurônios). Nesta camada é efetuado o processamento através de uma função de ativação. Esta função determina se o neurônio irá propagar a informação ou não com base nos estímulos recebidos da camada anterior multiplicado pelos pesos obtidos durante a etapa de treinamento. Os pesos representam o conhecimento da rede. A última camada é chamada de camada de saída e recebe as informações das camadas intermediárias e fornece a resposta.

Fig. 1. Exemplo de rede neural MLP [10].

A etapa de treinamento é responsável por ajustar os pesos dos nós com base na avaliação da taxa de erro após o processamento de cada um dos dados de treinamento previamente classificados manualmente. Nas redes MLP é utilizado o algoritmo backpropagation para efetuar os ajustes destes pesos. Após o treinamento a rede pode ser utilizada para classificação. Caso seja incluída uma nova categoria nos dados de treinamento é necessário efetuar todo o treinamento da rede novamente [11].

G. SVM – Support Vector Machines

O Support Vector Machines (SVM) é um algoritmo de aprendizado supervisionado proposto por Vapnik [13]. O algoritmo infere, a partir de um conjunto de exemplos rotulados, uma função capaz de predizer os rótulos de novos exemplos desconhecidos. O algoritmo estabelece essa função linear com o objetivo de maximizar a margem entre os dados no hiperplano. Redes neurais artificiais convencionais estabelecem uma linha de divisão do hiperplano sem critério de distância entre as margens como mostrado na Fig. 2. Maximizando a margem probabilidade de classificar novos exemplos na categoria correta é melhor.

(4)

Para determinar a reta ou o plano separador entre as classes, a SVM utiliza os próprios exemplos do treinamento que ficam localizados na fronteira entre as classes no hiperplano como referência. Esses exemplos de fronteira são chamados vetores de suporte. Para efetuar a classificação de novos exemplos é necessário apenas os vetores de suporte, sendo assim, os demais exemplos utilizados durante a etapa de treinamento podem ser descartados após a obtenção dos vetores.

Apesar de aumentar a eficiência na classificação de dados linearmente separáveis no uso prático, sua utilização fica comprometida pois dificilmente os dados são separados de forma linear. Para tornar possível a separação dos dados não lineares de forma linear a SVM utiliza os kernels para efetuar manipulações nos dados tornando-os linearmente separáveis. A utilização correta dos kernel exige um conhecimento da distribuição dos dados. Existem diversos tipos de kernel disponíveis, entre eles estão o linear, polinomial, gaussiano ou radial e sigmoid.

III. ALGORITMO PROPOSTO

Para um reconhecimento robusto de imagens é necessário que as características comparadas possuam invariância a mudanças de iluminação, rotação, escala e tolerância a ruídos e oclusões. A literatura descreve vários algoritmos desenvolvidos com o objetivo de suprir essas necessidades como o SIFT [5], ORB [7], FAST [6], MSER [9] e SURF [10]. Nem todos possuem invariância a todas as propriedades. Outra dificuldade é o fato de que apesar de o tamanho do vetor de características ser fixo, a quantidade de pontos de interesse detectados variam de imagem para imagem, resultando em um vetor de tamanho variável. Apesar do SURF possuir um descritor menor do que o SIFT, utilizá-lo para entrada em uma rede neural é inviável pois o vetor de características resultante é muito grande. Um exemplo de uma imagem que tenha encontrado 100 pontos de interesse, sendo que cada ponto de interesse é descrito com um vetor de 64 posições, o resultado é um vetor com 6400 posições. As redes MLP e as SVM necessitam de uma entrada com o número de vetores de características fixo para processamento, impossível de ser obtido dada a natureza dinâmica da obtenção dos pontos de interesse.

Para resolver este problema foi adotada uma estratégia de contagem de frequência a partir das características obtidas apenas dos pontos de interesse, descartando os descritores da imagem. Cada ponto de interesse possui as seguintes propriedades:

• Ângulo de orientação: Número que define o grau de orientação predominante das variações do ponto de interesse.

• Tamanho: Tamanho de escala da imagem onde o ponto de interesse foi encontrado.

Outras informações como a oitava e as coordenadas do ponto de interesse na imagem também são obtidos, mas não são utilizados em nosso algoritmo.

Após a obtenção dos pontos de interesse através do processamento do algoritmo SURF é realizada a contagem de frequência para a criação de um histograma com a quantidade de ocorrências em intervalos determinados. No caso do ângulo de orientação, os valores possíveis variam de 0 a 360 e foram distribuídos pela quantidade de ocorrências referentes à intervalos de 10 em 10. O vetor resultante consiste em 36 posições onde cada posição representa a quantidade de ocorrências nos intervalos 0 a 10, 10 a 20, 20 a 30 e assim por diante até 360. No caso do segundo parâmetro analisado, o tamanho, foi definido um vetor de 20 posições que representam a quantidade de ocorrências de tamanhos em intervalos de 10 em 10, sendo de 0 a 10, 10 a 20, 20 a 30 até 200. Ao término cada imagem é representada por um vetor de 57 posições, as 36 representando as frequências dos ângulos mais as 20 representando as frequências dos tamanhos e mais a categoria a qual pertence, conforme demonstrado na Fig. 3.

Fig. 3. Vetor de características proposto.

Este vetor de características possui um tamanho compacto e fixo, características desejáveis para a utilização em RNA e SVM.

IV. METODOLOGIA

O experimento foi realizado utilizando uma base de imagens pré-segmentadas manualmente. A segmentação manual foi realizada com o objetivo de separar o objeto de interesse do restante da imagem. A separação é realizada através de um arquivo de máscara que demarca o local do objeto de interesse na imagem. Durante o processamento as imagens analisadas são subtraídas de suas máscaras resultando apenas na imagem do objeto de interesse. O experimento foi realizado com um subconjunto da base SIVAL1 contendo 583 itens divididos em 15 categorias. Para avaliação dos resultados foram geradas estatísticas de erro utilizando a técnica de validação cruzada (k-fold cross-validation). A validação cruzada é uma técnica de validação estatística com o objetivo de estimar qual será a real precisão quando executado na prática. A técnica consiste em especificar uma quantidade de subgrupos (folds) na qual a base de treinamento será dividida. No processamento, um subgrupo é separado do total para ser usado como validação e o restante dos grupos são usados como treinamento. O processo se repete para cada um dos subgrupos. Ao final do processamento de cada grupo é coletada a taxa de erros e ao término do processamento de todos os subgrupos é efetuada a média das taxas de erros de todos os

1

(5)

processamentos. A vantagem deste método é que todos os dados são usados tanto para validação quanto para treinamento. Para a realização dos experimentos foi utilizado o valor 10 para subgrupos (folds) na realização da validação cruzada. Os resultados avaliados foram a taxa de erro.

V. EXPERIMENTO

O sistema desenvolvido para realização dos experimentos consiste em dois módulos, o primeiro de extração e o segundo de reconhecimento.

A. Módulo de Extração

O módulo de extração tem como objetivo efetuar o pré-processamento das imagens, extração das características e geração do arquivo com os vetores de características para posterior execução pelo módulo de reconhecimento.

Este módulo foi desenvolvido utilizando as seguintes tecnologias:

• Linguagem de programação: C++

• Bibliotecas auxiliares: OpenCV 2.4.22 e QT 4.7.2 O módulo é responsável por varrer recursivamente um diretório de imagens pré-segmentadas manualmente. A segmentação manual foi realizada com o objetivo de separar o objeto de interesse do restante da imagem. A separação é realizada através de um arquivo de máscara que demarca o local do objeto de interesse na imagem. Durante o processamento as imagens analisadas são subtraídas de suas máscaras resultando apenas na imagem do objeto de interesse. Ao término é gerado um arquivo XML contendo os valores brutos obtidos diretamente da detecção dos pontos de interesse pelo SURF. Em seguida é realizada a leitura deste arquivo XML e gerado o arquivo de treinamento contendo a representação por frequência utilizando o algoritmo explicado na seção III. Este arquivo já está no formato correto para leitura pela biblioteca utilizada no módulo de reconhecimento chamada Weka. Após a geração, o arquivo de treinamento é enviado para o módulo de reconhecimento que fica responsável por treinar o classificador (MLP ou SVM). Ao término do treinamento é possível utilizar o módulo de extração para realizar consultas utilizando outras imagens. Ao realizar uma consulta o módulo extrai as características da imagem consultada, gera a representação utilizando a distribuição por frequências e envia os dados para o módulo de reconhecimento que responde com a classe a qual a imagem consultada pertence.

B. Módulo de Reconhecimento

Este módulo é responsável pela implementação do reconhecimento utilizando os classificadores MLP e SVM. O módulo consiste em um executável independente do módulo de extração e funciona como um serviço, aguardando os comandos e dados enviados do módulo de extração e realizando o treinamento e execução de consultas. O módulo foi desenvolvido utilizando as seguintes tecnologias:

2_{http://opencv.org}

• Linguagem de programação: Java

• Bibliotecas auxiliares: Weka 3.6.83 e Apache Thrift 0.94

Para facilitar a comunicação entre os módulos foi utilizada a biblioteca Apache Thrift que realiza os controles de comunicação, portas, protocolos, serialização e processamento das requisições de forma concorrente entre os módulos.

Na etapa de treinamento o módulo recebe os dados contendo as informações das imagens de forma compacta e efetua o treinamento do classificador de acordo com o tipo informado, MLP ou SVM.

A definição dos parâmetros de treinamento dos classificadores foram estabelecidos de forma empírica e não exaustiva. No classificador MLP foram utilizados os parâmetros demonstrados na Tabela I.

TABELA I. PARÂMETROS UTILIZADOS NO CLASSIFICADOR MLP

Camadas escondidas Taxa de aprendiza-gem Tempo de treinamento Momento Limiar de validação 40 0.2 2000 0.1 20

Para o classificador SVM foram realizados testes utilizando os kernels linear e polinomial, as demais configurações utilizaram os parâmetros padrões estabelecidos pela biblioteca.

No módulo de reconhecimento também foi desenvolvida a função de validação utilizando cross-validation para a extração das estatísticas de erro utilizando 10 folds.

I. RESULTADOS

A utilização de redes MLP demonstrou o melhor desempenho classificando a base com 583 imagens divididas em 15 classes com 84.73% de sucesso. A utilização de SVM com kernel linear ficou em segundo lugar com 81.30% de sucesso na classificação. Com 75.30% a utilização de SVM com kernel polinomial foi a que apresentou o pior resultado conforme descrito na Tabela II.

TABELA II. RESULTADO DO CROSS-VALIDATION 10 FOLD

Classificador _CorretoTaxa _IncorretoTaxa

MLP 84.73% 15.26%

SVM – Linear 81.30% 18.69% SVM – Polinomial 75.30% 24.69%

Vale ressaltar que o tempo de execução nos testes revelou um desempenho superior das redes MLP, tanto para treinamento quanto para execução da validação e de consultas. A SVM apresentou um tempo de execução muito menor, sendo o seu treinamento, validações e consultas quase

3_{http://www.cs.waikato.ac.nz/ml/weka/} 4_{http://thrift.apache.org}

(6)

instantâneas. Em ambientes onde existe a exigência de um grande volume de consultas ou possui uma capacidade de processamento reduzida é possível optar pela utilização da SVM abrindo mão de alguns pontos de precisão na hora da classificação.

I. CONCLUSÃO

A redução da dimensionalidade das informações dos pontos de interesse utilizando o algoritmo de contagem de frequências proposto, juntamente com a classificação utilizando redes neurais artificiais do tipo MLP, demonstrou uma taxa de sucesso de 84.73%. A classificação utilizando SVM com

kernel linear demonstrou um resultado ligeiramente inferior

com 81.30% de sucesso seguida pela utilização do kernel polinomial com 75%. No futuro é possível realizar um comparativo utilizando a mesma abordagem de redução de dimensionalidade usando contagem de frequências aplicada aos descritores. Também é possível efetuar um comparativo utilizando os diferentes descritores existentes como SIFT, ORB, MSER, BRICKS e FAST ou descritores que utilizam informações de cor como OpponentSift para determinar qual oferece o melhor resultado. Durante os testes foi observado que quanto maior o número de imagens por categoria na etapa de treinamento, melhor é a eficiência dos classificadores porém, imagens com ângulos de visão ou iluminação radicalmente diferentes entre as demais imagens de uma mesma categoria, os chamados outliers, devem ser tratados como uma categoria diferente pois confundem e degradam a eficiência dos classificadores como um todo.

REFERÊNCIAS

[1] LIU, T. Rosenberg, C. Rowley, H. A. (2007). “Clustering Billions of Images with Large Scale Nearest Neighbor Search”. In: IEEE Workshop on Applications of Computer Vision.

[2] JING, Y. Baluja, S. (2008). “PageRank for Product Image Search”. In: Proceedings of the 17th international conference on World Wide Web. [3] ROWLEY, H. Jing; BALUJA, Y. S. (2006). “Large Scale Image-Based

Adult-Content Filtering”. In: Conf. on Computer Vision Theory & Applications.

[4] TAVARES, André. (2011). Recuperação de imagens por conteúdo baseada em realimentação de relevância e classificador por floresta de caminhos ótimos. Tese de Doutorado. Universidade Estadual de Campinas.

[5] LOWE, D. (2004). Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision. Volume 60. Issue 2. Pages 91-110.

[6] ROSTEN, E.; Drummond, T. (2006) “Machine learning for high-speed corner detection”. In European Conference on Computer Vision. [7] RUBLEE, E. et al (2011). “ORB: an efficient alternative to SIFT or

SURF. In: IEEE International Conference on Computer Vision. [8] CALONDER, M.;LEPETIT, V.; STRECHA, C.; FUA, P. (2010)

BRIEF: Binary Robust Independent Elementary Features. ECCV ’10 Proceedings of the 11th European conference on Computer Vision: Part IV. Pages 778-792.

[9] MATAS, J. CHUM, O. URBAN, M. PAJDLA, T. (2004). Robust Wide Baseline Stereo from Maximally Stable External. Image and Vision Computer Vision. Elsevier. Volume 22. Issue 10. Pages 761-767. [10] BAY, Herbert; TUYTELAARS, Tinne. Gool, Luc Van. SURF: Speeded

Up Robust Features. Journal Computer Vision and Image Understanding. Volume 110. Issue 3. Pages 346-359. 2008.

[11] BRAGA, Antônio P.; CARVALHO, André P. de L. F.;LUDEMIR, Teresa B. Redes Neurais Artificiais: Teoria e aplicações. LTC, 1 edition, 2000.

[12] HAYKIN S. Redes Neurais. Bookman, Porto Alegre, 2 edition, 2001. [13] VAPNIK, Vladimir; CORTES, Corinna. Support-vector networks.