RECUPERAÇÃO DE IMAGENS - ATA DA BANCA EXAMINADORA

3 TRABALHOS RELACIONADOS

Este trabalho baseia-se nas áreas de: recuperação de imagens e interpretação de imagens. Neste trabalho, a interpretação de imagens é realizada através da construção de uma mereotopologia entre objetos em imagens digitais. Desta maneira, o foco é criar relações entre regiões detectadas em um conjunto de imagens e, em seguida, recuperar imagens através de consultas que expressam uma relação espacial.

partes de objetos é possível reduzir osemantic gap(HONG et al., 2017). Assim, conclui-se que para reduzir a lacuna semântica, a maneira como a imagem é representada torna-se crucial. Por fim, a tarefa de recuperação de imagens é muito dependente do contexto, o que faz com que não exista um única técnica vigente (WAN et al., 2014).

Uma das principais técnicas na área de recuperação de imagens é o BOW (L. FEI-FEI;

PERONA, 2005). Esta técnica originalmente é adotada na busca de texto, em síntese, a apli- cação desta abordagem para recuperação de imagens utiliza atributos da imagem de maneira análoga à utilização de palavras em textos. O BOW pode ser dividido nas seguintes etapas:

extração de atributos, agrupamento destes atributos e indexação. Através do BOW é possível indexar bases com mais de um milhão de imagens, como por exemplo o trabalho realizado em (PHILBIN; SIVIC; ZISSERMAN, 2008) onde as imagens são atribuídas a um grafo de cone- xões e depois grupos de classes são criados através de técnicas de agrupamento. Na etapa de consulta apenas um subconjunto das imagens é verificado o que proporciona ganhos em tempo e acurácia. A maioria dos trabalhos existentes na literatura utiliza o SIFT como representação dos descritores de uma imagem (Gabriella CSURKA et al., 2004; PHILBIN; SIVIC; ZISSERMAN, 2008; J. PHILBIN et al., 2007).

A abordagem padrão no processo de agrupamento, considerando o BOW, é a utilização de um método de classificação não supervisionado, em geral o K-Means. Outras técnicas tam- bém são referenciadas na literatura, como oHierarchical K-Means(HKMeans), ouAproximate K-Means(AKMeans) (J. PHILBIN et al., 2007),Latent Dirichlet Allocation(LDA) (LARLUS;

JURIE, 2009),Gaussian Mixture Models(GMM) (J. PHILBIN et al., 2008; Gabriela CSURKA;

PERRONNIN, 2011). Apesar destas alternativas, o método que ainda é mais utilizado conti- nua sendo o K-Means devido a sua simplicidade aliada aos bons resultados obtidos. Após a identificação dos grupos de atributos é necessário reduzir a dimensão original das imagens, este processo é obtido ao se calcular o histograma de frequências com relação aos centróides gerados pelo K-Means. Isto é, as imagens são projetadas no espaço doK-Means e passam a ser representadas através de um vetor com a frequência de cada centróide para a imagem em questão. Um problema da criação do histograma de frequências é que esta etapa possui um elevado custo computacional (TSAI, 2012). Consequentemente, conforme se aumenta o número de grupos, degrada-se o desempenho, assim pode ser utilizada uma aproximação para melhorar o desempenho ao se processar um número elevado de grupos (MUJA; LOWE, 2009). É impor- tante ressaltar que é desejável que o histograma de frequência de atributos para cada imagem seja esparso. Contudo, ao se aumentar o número de grupos, isto é o número de centróides, pode incidir a introdução de ruído (ARANDJELOVIC, 2012).

Em termos práticos, para uma recuperação das imagens mais eficiente, aplica-se um índice invertido (GRAUMAN; LEIBE, 2011; YANG et al., 2007). Este índice consiste em manter uma referência cruzada entre as imagens e os atributos indexados. Esta etapa é essencial, pois faz a junção entre uma representação (atributos) para o objetivo (imagem).

Esta abordagem padrão BOVW sofre com o número de falsos positivos devido a ruídos no processo de vetorização das imagens. Para garantir a consistência do resultado, uma etapa de verificação espacial é realizada. A verificação espacial consiste em comparar cada descritor de uma imagem de consulta com todos os outros de uma imagem candidata. Uma associação é válida caso a distância entre os descritores esteja abaixo de um determinado limiar. Esta etapa é similar ao processo realizado em (PHILBIN; SIVIC; ZISSERMAN, 2008). Adicional- mente, também aplica-se oTerm frequency inverse document frequency(TFIDF) para melhorar o resultado e reduzir o custo computacional (JÉGOU; DOUZE; SCHMID, 2010; J. SIVIC;

A. ZISSERMAN, 2006). Isto é, pondera-se cada atributo de acordo com a relevância que ele possui no conjunto. Assim, atributos que aparecem menos, considerando-se o conjunto total de atributos, tendem a ser mais discriminantes.

Em síntese, ao se aplicar BOVW, as imagens originais são projetadas em um espaço de menor dimensão, permitindo comparações de menor custo computacional. Este espaço vetorial de menor dimensão também pode ser utilizado como base para classificação de acordo com categorias pré-definidas. Neste sentido, utiliza-se largamente SVM, ou Naïve Bayes(Gabriella CSURKA et al., 2004) para classificação, principalmente com foco no reconhecimento de cenas (L. FEI-FEI; PERONA, 2005).

Uma outra técnica para recuperação de imagens é a criação de um hash semântico, como o proposto em (SALAKHUTDINOV; G. HINTON, 2009), aplicado para imagens (XIA et al., 2017). A proposta destes métodos é criar uma representação que seja compacta, e cuja construção não considere apenas uma única propriedade da imagem. Esta abordagem é uma aproximação da busca doskvizinhos mais próximos considerando um conjunto de imagens (R.

XIA et al., 2014). Algoritmos de hashsão originalmente uma alternativa para representações em árvore, e sua aplicação na busca visa realizar aproximações em termos de similaridade entre o elemento de consulta e as imagens da base. A consulta através de um hashpossibilita dimi- nuição dos tempos de busca, porém pode diminuir a precisão da busca (GRAUMAN; LEIBE, 2011). Um dos principais fatores para recuperação de imagens, ainda mais evidenciado ao se tratar de abordagens que utilizam umhashsemântico, é a métrica de comparação. Em resumo, estes algoritmos criam uma tabelahashe as colisões são items similares, assim para uma consulta aplicando a mesma função H para gerar o hash, a colisão terá as imagens similares. Na prática, múltiplas tabelashashsão usadas, com funções independentes, e a imagem de consulta é comparada em todas as tabelas através da união dos pontos em comum entre a função dehash da entrada e das imagens recuperadas. As técnicas de recuperação baseadas emhashpodem ser vistas como uma especialização da abordagem padrão utilizando TFIDF (SALAKHUTDINOV;

G. HINTON, 2009).

No documento ATA DA BANCA EXAMINADORA (páginas 45-48)