MÉTODO DE APRENDIZADO NÃO SUPERVISIONADO BASEADO NO PRODUTO CARTESIANO DE RANKINGS PARA BUSCA DE IMAGENS

(1)

MÉTODO DE APRENDIZADO NÃO SUPERVISIONADO BASEADO

NO PRODUTO CARTESIANO DE RANKINGS PARA BUSCA DE

IMAGENS

Lucas Pascotti Valem, Daniel Carlos Guimarães Pedronette Instituto de Geociências e Ciências Exatas (IGCE)

Departamento de Estatística, Matemática Aplicada e Computação (DEMAC) Universidade Estadual de São Paulo (UNESP) - Rio Claro/SP – Brasil

Resumo - Apesar do grande desenvolvimento de ferramentas visuais, calcular uma me-dida efetiva entre as imagens continua sendo um desafio em tarefas de recuperação. Nesse cenário, técnicas de aprendizado por similaridade capazes de melhorar a eficácia em ta-refas de recuperação não supervisionada são indispensáveis. Este trabalho de iniciação científica apresenta o método Cartesian Product of Ranking References (CPRR), o qual foi desenvolvido com esse propósito. O método usa operações de produto cartesiano baseadas nas informações contidas nos ranked lists e que estão implícitas nas coleções de imagens. Apenas um subconjunto dos ranked lists é necessário, implicando em baixos custos compu-tacionais. Vários experimentos foram conduzidos considerando diversos aspectos, quatro coleções de imagens e várias características. Além da eficácia, também foram realizados experimentos para avaliações de eficiência e escalabilidade, considerando computação pa-ralela e heterogênea em CPU e GPU. O método atingiu ganhos significativos de eficácia que são comparáveis aos resultados de estado da arte mais populares.

1. INTRODUÇÃO

A evolução das tecnologias de aquisição e compartilhamento de conteúdos visuais provocou um grande aumento das coleções de imagens (datasets). Com a grande quantia de imagens acumuladas diariamente [1], os sistemas CBIR (Content-Based Image Retrieval) se tornaram a principal solução para a indexação e busca de imagens através de seu conteúdo visual.

Apoiados principalmente pela criação de diversas ferramentas visuais e medidas de distância, os sistemas CBIR se estabeleceram como um recurso essencial em muitos campos. No entanto, apesar do desenvolvimento de métodos de recuperação de imagens, medir efetivamente a simi-laridade entre as imagens continua sendo um desafio. Assim, propostas mais recentes têm se direcionado em outras estratégias para os processos de recuperação, não diretamente relaciona-das a procedimentos de extração de características de baixo nível [2].

Vários métodos de pós-processamento foram propostos para melhorar a eficácia de tarefas de re-cuperação não supervisionada [3, 4, 5]. No geral, o principal objetivo de tais métodos é substituir distâncias par a par por mais medidas de afinidade global capazes de considerar a estrutura do dataset[4]. Apesar de eficazes, métodos baseados em processos de difusão e grafos geralmente apresentam altos custos computacionais.

Nesse cenário, métodos que exploram a informação contida em listas ordenadas de resultados (ranked lists) têm atraído bastante atenção recentemente, considerando tanto aspectos de eficácia quanto eficiência. Vários métodos recentes demonstram [6, 7, 8] que uma análise das posições dos elementos nos ranked lists fornece uma fonte de informação rica e confiável para obtenção de medidas contextuais de distância ou similaridade. Essas informações podem ser analisadas por diferentes modelos, como a similaridade dos ranked lists [6] ou conjuntos [7], recomendações baseadas nas posições dos elementos [8], e verificações de consistência dos ranked lists [9]. Em relação à eficiência, uma vez que as informações mais relevantes se encontram nas primeiras posições dos ranked lists, o esforço computacional necessário é reduzido. Além disso, o modelo

(2)

de lista ordenada de resultados permite uma representação uniforme, independente de medidas de distância ou similaridade.

A iniciação científica teve como propósito o desenvolvimento do algoritmo de aprendizado não supervisionado chamado de Cartesian Product of Ranking References (CPRR). O principal ob-jetivo do CPRR é maximizar a informação de similaridade disponível nos rankings através de operações de produto cartesiano. Sobre o nosso conhecimento atual da literatura, podemos afir-mar que esse é o primeiro método de aprendizado não supervisionado que explora as informações presentes nos ranked lists em termos de produto cartesiano da vizinhança e da vizinhança reversa. Além disso, o método desenvolvido pode ser usado em operações de agregação de listas e pode ser executado em paralelo tendo tempos de execução muito reduzidos.

Para uma avaliação consistente do método, diversos experimentos foram conduzidos, conside-rando diferentes aspectos. Quatro coleções de imagens públicas e diversos descritores de ima-gens distintos foram considerados. Os resultados experimentais confirmam os ganhos significa-tivos de eficácia do método desenvolvido, atingindo ganhos relasignifica-tivos de até +32.57%. Além da avaliação de eficácia, propriedades de eficiência e escalabilidade também foram consideradas. Experimentos realizados para avaliar a eficiência do método em computação paralela e hetero-gênea (CPU e GPU) demonstraram que o algoritmo apresenta tempos de execução muito baixos para coleções de imagens de diferentes tamanhos. O algoritmo CPRR também possui resultados comparáveis a métodos recentes de recuperação considerados estado da arte. Outra informação importante é que o algoritmo alcançou um N-S score de 3.93 no dataset UKBench, frequente-mente utilizado como benchmark, resultado superior aos mais recentes na literatura.

2. ALGORITMO CPRR

O principal objetivo do Cartesian Product of Ranking References (CPRR) é maximizar a infor-mação disponível nos ranked lists utilizando operações de produto cartesiano.

O método desenvolvido pode ser descrito em duas etapas principais:

• Normalização das Posições: as referências recíprocas das posições (ranks) são analisadas melhorando a simetria da vizinhança e, consequentemente, a eficácia dos ranked lists;

•Produto Cartesiano das Referências: o produto cartesiano é calculado considerando as pri-meiras k posições dos conjuntos de vizinhança e dos conjuntos de vizinhança reversa. Os resul-tados obtidos são usados para definir uma medida iterativa de similaridade.

2.1. Produto Cartesiano dos Conjuntos de Vizinhança

Enquanto o algoritmo considera apenas um subconjunto dos ranked lists para reduzir os custos computacionais, o produto cartesiano é usado para expandir as relações de similaridade. Seja N _(i_,_{k) e N ( j}_,_{k) os conjuntos de vizinhança de k relações das imagens img}_i _{e img}_j _{e C o} conjunto de imagens do dataset, a medida de similaridade wc(i,j) é calculada considerando cada imagem de consulta imgq∈ C a qual tem imgie imgjcomo vizinhos. Além disso, a medida

leva em consideração a posição da imagem, ou seja rk(q,i) × rk(q,j). Formalmente, a medida wc(i,j) pode ser definida como:

wc(i,j) =

∑

q∈C

∑

i∈N(q,k)2

∑

j∈N(q,k)2 rk(q,i) × rk(q,j). (1)

Em termos de algoritmo, a medida de similaridade pode ser calculada com uma complexidade de apenas O(n), sendo que k é uma constante. O Algoritmo 1 mostra como essa etapa é realizada. A principal ideia consiste em realizar a análise apenas das primeiras k posições para o cálculo do produto cartesiano de cada conjunto de vizinhança.

(3)

Algorithm 1: Produto Cartesiano dos Conjuntos de Vizinhança.

Require: Conjunto de Ranked Lists R

Ensure: Medida de Similaridade wc(·,·)

1: for all imgq∈ C do

2: for all imgi∈ N (q,k) do

3: for all imgj∈ N (q,k) do

4: wc(i,j) ← wc(i,j) + rk(q,i) × rk(q,j)

5: wc( j,i) ← wc( j,i) + rk(q,i) × rk(q,j)

6: end for

7: end for

8: end for

Normalização Recíproca das Posições

Ordenação dos Ranked Lists Produto Cartesiano dos Conjuntos de Vizinhança

Produto Cartesiano dos Conjuntos de Vizinhança Reversa

Reinicialização dos Conjuntos de Vizinhança Reversa

Serial (C/C++)

Ordenação dos Ranked Lists executar T

iterações

Paralelo (OpenCL)

Figura 1:Design do CPRR Paralelo [10].

2.2. Design Paralelo

A Figura 1 apresenta todas as etapas do algoritmo e seu design paralelo. O algoritmo foi para-lelizado em seis kernels. Um kernel pode ser entendido como uma etapa da paralelização, cada instância de um kernel é executada em uma unidade chamada work-item. O mesmo código é executado em paralelo por diferentes work-items com dados distintos. Para mais informações, consulte [10].

3. AVALIAÇÃO EXPERIMENTAL

Esta seção apresenta um resumo dos experimentos realizados para avaliações do método pro-posto. Uma descrição completa dos experimentos, datasets e descritores utilizados pode ser encontrada em [10].

3.1. Datasets, Descritores e Baselines

Vários experimentos foram realizados considerando quatro datasets públicos diferentes, com ta-manhos indo de 280 a 10.200 imagens. Com a finalidade de explorar as características distintas dos datasets, diversos descritores globais foram usados, considerando propriedades de cor, tex-tura e contorno. A extração de características a partir de redes neurais convolucionais foram realizadas utilizando o Caffe framework e diferentes layers (FC6, FC7, FC8). Em relação aos descritores locais, o descritor SIFT é considerado em conjunto a um variante do vocabulary tree based retrieval(VOC).

A avaliação de eficácia considera todas as imagens de cada dataset como imagens de consulta. Como uma medida de eficácia, o Mean Average Precision (MAP) é usado na maior parte dos datasets, exceto para o dataset UKBench que usa o N-S Score. Para o dataset MPEG-7, o Re-call@40 também é usado em conjunto com o MAP.

O tempo médio das execuções é calculado a partir da média de 10 execuções utilizando intervalo de confiança de 95%. O hardware utilizado nos experimentos é composto de uma CPU Intel Xeon CPU E3-1240 e de uma GPU AMD Radeon HD 7900. O ambiente de software utiliza o sistema operacional Linux 3.11.0-15 - Ubuntu 12.04 e OpenCL 1.2 AMD-APP. O código foi compilado usando g++ 4.6.3 com a flag de otimização “-O3”.

3.2. Avaliação de Eficácia

Esta seção apresenta a avaliação de eficácia do algoritmo proposto. A Tabela 1 apresenta os resultados de MAP (Mean Average Precision) para três datasets. Foram reportados os valores de MAP das implementações seriais e paralelas GPU do algoritmo CPRR. Note que os intervalos de confiança são muito pequenos, indicando uma pequena variação entre diferentes execuções. O

(4)

ganho relativo é calculado baseado na execução serial. Para propósitos de comparação, também reportou-se o MAP dos algoritmos Pairwise Recommendation [11] e RL-Recommendation [8].

Tabela 1: Avaliação de eficácia do algoritmo CPRR considerando vários datasets e descritores (MAP como medida de eficácia).

Descritor Dataset MAP Pairwise RL- CPRR CPRR Ganho

Original Rec. [11] Rec. [8] Serial Paralelo

SS MPEG-7 37.67% 39.90% 48.68% 49.94% 49.947 %±_0.009 _+32.57% BAS MPEG-7 71.52% 77.65% 79.58% 80.60% 80.611 %±_0.006 _+12.70% IDSC MPEG-7 81.70% 86.83% 88.80% 89.42% 89.432 %±_0.004 _+9.45% CFD MPEG-7 80.71% 91.38% 91.39% 92.15% 92.157 %±_0.005 _+14.17% ASC MPEG-7 85.28% 91.80% 91.34% 92.32% 92.323 %±_0.005 _+8.26% AIR MPEG-7 89.39% 95.50% 96.12% 97.80% 97.796 %±_0.007 _+9.41% GCH Soccer 32.24% 32.35% 34.38% 35.47% 35.307 %±_0.054 _+10.02% ACC Soccer 37.23% 40.31% 41.23% 47.14% 46.965 %±_0.072 _+26.62% BIC Soccer 39.26% 42.64% 45.15% 47.29% 47.172 %±_0.095 _+20.45% LBP Brodatz 48.40% 51.92% 51.26% 49.07% 49.073 %±0.006 +1.38% CCOM Brodatz 57.57% 66.46% 64.34% 64.81% 64.816 %±0.007 +12.58% LAS Brodatz 75.15% 80.73% 79.71% 79.34% 79.346 %±0.004 +5.58%

A Figura 2 apresenta uma análise conjunta de eficácia e eficiência. O tempo de execução e o MAP são responsáveis pela posição dos algoritmos no gráfico. Portanto, um algoritmo ideal, com alta eficácia e baixo tempo de execução, é posicionado próximo ao canto superior esquerdo do gráfico. Note que o algoritmo CPRR ocupa as melhores posições.

3.3. Avaliação de Eficiência

Foram realizados experimentos para avaliar eficiência, considerando implementações serial e OpenCL, diferentes dispositivos (CPU, GPU) e modelos de transferência de memória. A Figura 3 apresenta uma comparação dos tempos de execução do CPRR (serial e paralelo) em relação aos métodos Recommendation (serial e paralelo, Pairwise Recommendation [11] (serial) e o RL-Sim[6, 12] (serial e paralelo) considerando o dataset MPEG-7. Podemos observar que, apesar do uso da escala logarítmica, o tempo de execução do CPRR (em vermelho) é significativamente menor que os demais.

90 90.5 91 91.5 92 92.5 93 10-2 ₁₀-1 ₁₀0 ₁₀1 M A P ( % )

Tempo (s) (escala logarítmica)

Comparação de eficácia e eficiência no dataset MPEG-7

RL-Sim Serial RL-Sim Paralelo

Pairwise Serial RL-Recom. Serial RL-Recom. Paralelo GPU RL-Recom. Paralelo CPU

CPRR Serial CPRR Paralelo GPU CPRR Paralelo CPU

Figura 2: Eficácia e Eficiência.

Comparação Geral dos Tempos para o MPEG-7 (escala logarítmica)

1 10

Figura 3: Avaliação de Eficiência.

A Tabela 2 apresenta a média dos tempos de execução e intervalos de confiança para o algoritmo CPRR. Para propósitos de comparação, o tempo de execução de dois baselines recentes [11, 8] são reportados. O melhor resultado de performance para cada dataset está destacado em negrito. Como nós podemos observar, o algoritmo CPRR requer tempos de execução muito baixos para todos os datasets, menores que os dos baselines até mesmo para as implementações seriais.

(5)

Tabela 2: Avaliação de Eficiência: tempo de execução (em segundos) do CPRR para diferentes disposi-tivos e datasets.

Algoritmo Exec. Dispositivo Soccer MPEG-7 Brodatz UKBench

Pairwise Rec.[11] Serial _CPU _0.1149±_0.00018 _0.3663±_0.00094 _0.6672±_0.00140 _14.802±_0.11059

RL-Rec.[8] _Serial _CPU _0.0607±_0.00000 _0.1462±_0.00021 _0.1108±_0.00102 _0.1868±_0.00018

CPRR Serial CPU 0.0058±_0.00021 _0.0381±_0.00041 _0.0501±_0.00077 _0.1767±_0.00102

CPRR Paralelo GPU1 _0.0711±_0.00463 _0.1640±_0.00781 _0.1560±_0.00570 _0.2038±_0.00874

CPRR Paralelo CPU1 _0.0032±_0.00015 _0.0164±_0.00031 _0.0214±_0.00054 _0.1834±_0.00052

CPRR Paralelo CPU2 _0.0027±0.00000 0.0131±0.00018 0.0143±0.00075 0.1082±0.00051

Modelo de Transferência de Memória:1Write Buffer;2Map Buffer.

3.4. Comparação com Outros Métodos

Por último, o algoritmo CPRR também foi avaliado em comparação com outros métodos de aprendizado não supervisionado recentes tidos como estado da arte. Experimentos foram condu-zidos em dois datasets: UKBench e MPEG-7, os quais são datasets populares comumente usados como benchmark para métodos de recuperação de imagens e métodos de pós-processamento. A Tabela 3 apresenta os resultados de eficácia para o algoritmo CPRR em comparação com métodos de recuperação recentes. O experimento foi conduzido no dataset UKBench. Podemos observar que o algoritmo CPRR atinge os melhores resultados, alcançando um N-S score de 3.93 para a agregação dos descritores VOC+ACC+CNN-FC7.

Tabela 3:Comparação de eficácia entre métodos recentes no dataset UKBench.

N-S scorespara métodos recentes de recuperação

Zheng Qin Wang Zhang Zheng Xie et al.(2014) et al.(2011) et al.(2012) et al.(2015) et al.(2015) et al.(2015)

3.57 3.67 3.68 3.83 3.84 3.89

N-S scores_{para o método CPRR}

ACC+CNN-FC7 VOC+CNN-FC7 VOC+ACC+CNN-FC7

3.88 3.88 3.93

3.5. Resultados Visuais

Exemplos visuais de resultados são apresentados na Figura 4. A imagem apresentada em quadro verde é a imagem de consulta. Os ranked lists obtidos são apresentados à direita, com ima-gens incorretas em quadros vermelhos. São apresentados quatro exemplos de consultas, com os respectivos resultados antes e após a aplicação do algoritmo, considerando o dataset UKBench.

Figura 4: Exemplos de resultados visuais do algoritmo CPRR no dataset UKBench.

4. PUBLICAÇÕES

Os resultados do trabalho de iniciação científica nesse documento deram origem a um artigo ci-entífico aceito para publicação em conferência internacional. O artigo [10] foi aceito na categoria Full Paperna Conference on Graphics, Patterns and Images (SIBGRAPI) 2016 - Qualis B1.

(6)

5. AGRADECIMENTOS

Os autores agradecem o apoio financeiro da Fundação de Amparo à Pesquisa do Estado de São Paulo - FAPESP (processos 2013/08645-0 e 2014/04220-8).

6. CONCLUSÃO

Nesse trabalho de iniciação científica, foi apresentado um novo método de aprendizado não su-pervisionado para tarefas de recuperação de imagens. O método inova usando uma abordagem baseada em operações de produto cartesiano de conjuntos tomados a partir dos ranked lists. Vá-rios experimentos foram conduzidos em quatro coleções de imagens diferentes e diversos descri-tores. Os resultados experimentais revelam a eficácia, a eficiência e a escalabilidade do método mesmo quando comparado com métodos de estado da arte. Como trabalho futuro, pretende-mos fazer a implementação de uma biblioteca de métodos de aprendizado não supervisionado e avaliar o método em outras modalidades (descritores de som e textuais, por exemplo).

REFERÊNCIAS

[1] B. Thomee and M. Lew, “Interactive search in image retrieval: a survey,” International Journal of Multimedia Information Retrieval, vol. 1, no. 2, pp. 71–86, 2012.

[2] Y. Liu, D. Zhang, G. Lu, and W.-Y. Ma, “A survey of content-based image retrieval with high-level semantics,” Pattern Recognition, vol. 40, no. 1, pp. 262 – 282, 2007.

[3] X. Yang, S. Koknar-Tezel, and L. J. Latecki, “Locally constrained diffusion process on locally densified distance spaces with applications to shape retrieval.” in CVPR, 2009, pp. 357–364.

[4] X. Yang, L. Prasad, and L. Latecki, “Affinity learning with diffusion on tensor product graph,” IEEE TPAMI, vol. 35, no. 1, pp. 28–38, 2013.

[5] J. Jiang, B. Wang, and Z. Tu, “Unsupervised metric learning by self-smoothing operator,” in ICCV, 2011, pp. 794–801.

[6] D. C. G. Pedronette and R. da S. Torres, “Image re-ranking and rank aggregation based on similarity of ranked lists,” Pattern Recognition, vol. 46, no. 8, pp. 2350–2360, 2013. [7] X. Bai, S. Bai, and X. Wang, “Beyond diffusion process: Neighbor set similarity for fast

re-ranking,” Information Sciences, vol. 325, pp. 342 – 354, 2015.

[8] L. P. Valem, D. C. G. Pedronette, R. d. S. Torres, E. Borin, and J. Almeida, “Effective, efficient, and scalable unsupervised distance learning in image retrieval tasks,” ICMR, 2015. [9] Y. Chen, X. Li, A. Dick, and R. Hill, “Ranking consistency for image matching and object

retrieval,” Pattern Recognition, vol. 47, no. 3, pp. 1349 – 1360, 2014.

[10] L. P. Valem, D. C. G. Pedronette, and Torres, “Unsupervised similarity learning through cartesian product of ranking references for image retrieval tasks,” SIBGRAPI, 2016. [11] D. C. G. Pedronette and R. da S. Torres, “Exploiting pairwise recommendation and

cluste-ring strategies for image re-ranking,” Information Sciences, vol. 207, pp. 19–34, 2012. [12] D. C. G. Pedronette, R. da S. Torres, E. Borin, and M. Breternitz, “Rl-sim algorithm