Recuperação de Imagens 3D Baseado Conteúdo Utilizando mais de uma Imagem-consulta

(1)

Recuperação de Imagens 3D Baseado Conteúdo Utilizando mais de uma

Imagem-consulta

Alexandre Munhoz alex.munhoz@vivax.com.br

Shermila Guerra Santa Cruz shermila@sel.eesc.usp.br

Dr. Adilson Gonzaga adilson@sel.eesc.usp.br

Departamento de Engenharia Elétrica - EESC/USP

Avenida Trabalhador São-carlense, 400 - 13566-590 - São Carlos – SP-Brasil. Universidade São Paulo - São Carlos

Resumo

A Recuperação de imagens baseadas em conteúdo (Content Based Image Retrieval - CBIR) consiste em recuperar imagens similares em um banco de imagens, onde se fornece como fonte de busca uma imagem consulta(IC). As características da imagem são levantadas com o objetivo de recuperar imagens mais semelhantes possíveis da imagem-consulta. Neste trabalho, se propõe como ferramenta auxiliar às CBIRs, um algoritmo que utiliza como fonte mais de uma imagem-consulta.

Em situações onde, não se possui a imagem consulta com as características desejadas, porem se tem imagens com uma das características desejada e outra possui a outra característica, o método as combina, e com isso se obtém a imagem procurada.

PALAVRAS CHAVE Recuperação de imagens por conteúdo CBIR.

1. Introdução

Atualmente com o aumento exponencial de bancos de imagem, devido às inovações tecnológicas, tornou-se necessário manter algum tipo de mecanismo de busca de recuperação de imagens.

CBIR constitui uma possibilidade de recuperar e comparar imagens usando características visuais intrínsecas como cor, forma e textura. O foco de um sistema CBIR, é pesquisar no banco de dados as "n" imagens similares a uma IC de acordo com um critério dado.

Devido às necessidades únicas e peculiares, as bases de dados de imagens não podem ser tratadas em um estilo similar. Por esta razão, é difícil encontrar uma técnica universal de recuperação baseada em conteúdo.

Uma ferramenta amplamente utilizada em CBIR para comparar dois vetores de características é a distancia euclidiana, onde cada imagem da base é plotada em um espaço polidimensional, sendo que cada eixo deste espaço corresponde a uma característica dela extraída. Em seguida, é verificada a coordenada das IC, para que por fim seja retornada a imagem de distância euclidiana mais próximas. Extinguida a busca das imagens mais próximas, o raio de busca é gradativamente aumentado, para que retorne imagens cada vez mais distantes do ponto inicial de busca.

No gráfico polidimensional onde cada eixo representa uma característica das imagens contidas no banco de imagem, dois pontos são considerados

(2)

eqüidistantes à imagem-consulta se tiverem à mesma distancia euclidiana desta imagem. O conjunto dos pontos eqüidistantes à imagem-consulta constitui em uma hiper-esfera. No caso de uma determinada característica deste gráfico polidimensional possuir uma importância maior do que outras características, os conjuntos de imagens semelhantes não são mais eqüidistantes da imagem-consulta e forma uma hiper-elipsoide.

Nas buscas CBIR que utilizam a distancia euclidiana como ferramenta de busca, começa retornando as imagens contidas no interior de uma hiper-elipsoide ou uma hiper-esfera, cujo ponto central é a IC. Gradativamente, o raio da esfera, ou o tamanho da hiper-elipsoide vai aumentando, e com isso vai se recuperando imagens cada vez mais distantes da IC.

A busca em um espaço hiperdimensional, levando em conta o peso de cada característica, tem sua distância expressa por:

onde:

d : Distância entre a IC e, e a imagem b do banco de imagens.

fe n : Característica n da IC e. fb n : Característica n da IC b .

w n : Peso da característica n do espaço polidimensional.

2. Histórico

Apesar de CBIR ser uma tecnologia recente já foram desenvolvidos diversos trabalhos na área.

Hirata e Kato [4] propuseram um CBIR baseado em exemplos visuais, que extrai as arestas da consulta e faz um casamento com outras arestas de outras

imagens através de deslocamentos e deformações, sem usar qualquer tipo de indexação.

Faloutsos et. al.[3] desenvolveu um sistema QBIC (pela IBM) baseado em vários parâmetros das imagens, permitindo que os usuários fizessem uma consulta baseada em cor, forma e textura que fossem semi-automaticamente extraídas. Também implementou uma forma de indexação baseada em árvores.

Jacobs et. al. [2] propuseram a recuperação usando informação espacial (disposição física de regiões) e características visuais representadas no domínio dos coeficientes wavelets. Não implementaram qualquer tipo de indexação.

Smith e Chang [6] criaram um sistema chamado VisualSeek que permitia busca por cor, regiões e layout espacial. Usaram indexação para aumentar a eficiência do sistema.

Ooi et. al. [5] criou o sistema VIPER que utilizava cor e informação espacial. Extraía primeiramente um conjunto de cores dominantes e então derivava a informação espacial composta por tais cores. Para a busca utilizava indexação.

3.Definição do problema

A dependência contextual apresentada pelas imagens, e a natureza complexa das imagens tridimensionais tornam a questão da representação mais difícil para bases de dados de imagens.

Em CBIR comuns, o usuário precisa apresentar uma imagem muito próxima da busca que ele deseja efetuar, e não tem liberdade para adicionar características

2 2 2 2

1( 1 1) 2( 2 2) 3( 3 3) ... ( )

(3)

complementares com outras imagens adicionais.

Nesse experimento utilizou-se a base “COIL-100 database of Columbia University”, que contém 7200 imagens oriundos de 100 objetos, e para cada objeto 72 imagens que correspondem a variações de rotação no eixo Y deste objeto.

Figura 1. Exemplo de imagens da base de dados COIL-100, de objeto rota-cionado no eixo Y, pertence a uma classe.

4. Solução de problema

Esta proposta, permite realizar buscas CBIR utilizando mais de uma imagem como fonte. O algoritmo extrai as características das imagens de origem, e faz combinações entre estas características. Para cada combinação gerada é semeado um ponto de busca no espaço polidimensional de características.

As imagens de uma distância mínima são procuradas, a partir de cada ponto combinatório encontrado. Depois de encerrada a busca das imagens mais próximas, o raio de busca aumenta para todas as combinações simultaneamente.

Para que o usuário pudesse separar as imagens que possui características desejáveis, selecionamos características de fácil intuição, como cor, textura, índice de cinza de maior ocorrência e forma do contorno do objeto.

Nessa proposta utilizamos características de fácil intuição para o usuário, como cor, textura, forma.

CÔR

O índice de cor foi calculado pelo sistema de representação RGB, segundo Simões and Reali Costa, 2000, que segue as equações : r = R / (R+G+B) …...(1) g = G / (R+G+B) ...(2) b = B/ (R+G+B)…...…...(3) Os índices r(1) , g(2) e b(3) são normalizados. TEXTURA

Um atributo de textura é um valor, calculado a partir da imagem de um objeto, que quantifica algumas características das variações dos níveis de cinza desse objeto [7].

A partir do histograma dos níveis de cinza da imagem, se infere diferentes parâmetros. Para descrever quantitativamente as propriedades estatísticas se utilizou a média, variância e a energia. Média

∑

− = = 1 0 ) ( G i i ip μ . ...(4) Variância ) ( ) ( 1 0 2 2 i p i G i

∑

− = − = μ σ ...(5) Energia

[ ]

2 1 0 ) (

∑

− = =G i i p E ...(6)

(4)

Os dados da média, variância e energia, foram integrados e normalizados para obtenção de um único índice de textura.

FORMA

Para obtermos o índice relacionado à forma, a imagem foi inicialmente convertida em escala de cinza. Após ser convertida para uma imagem binária com threshold de 35% da escala, podemos isolar o objeto já em branco com fundo escuro. Depois foi extraído o contorno do objeto com o operador de Laplace. Em seguida, foi aplicada a transformada de Hough. O índice da forma foi considerado como sendo o numero de retas que possuem mais de 38 pixels, retornado pela transformada de Hough .

A interpretação deste procedimento, é que quando temos no contorno poucas retas maiores de 38 pixels, o objeto é predominantemente redondo. Quando temos uma maior quantia de retas maiores que 38 pixels, o objeto possui forma menos arredondada.

Ocasionalmente, alguns contornos que tomamos intuitivamente como curvas, são traçados com uma série de pequenas retas. Observamos que retas de 38 pixels separam as retas de contorno verdadeiras, daquelas que intuímos como integrantes de uma curva para as imagens de nosso trabalho.

As imagens da base de dados Coil-100, consiste em objetos que sofrem rotação sobre o eixo vertical, de modo que ao longo desta rotação podem aparecer retas de contorno não vistas quando olhamos sob outra face.

Distribuição dos pesos

Procura-se uma distribuição de pesos para as características pesquisadas que permitisse uma versatilidade do usuário na pesquisa. A distribuição empregada foi de 20% para o nível de cinza de maior ocorrência, 10% para os cromas R, G e B. 10% para o índice de textura, e 200% para a forma.

As características extraídas das imagens, são submetidas à análise combinatória, gerando todas as interações possíveis entre as imagens consulta. Como exemplo, se tivermos uma imagem A1) com quatro retas de contorno, com cor predominante azul: outra imagem A2) com ausência de retas significativas em seu contorno, com cor predominante amarelo, e demais característica com índice semelhante entre si, teríamos as seguintes combinações : B1) Objeto com 4 retas de contorno e cor mais significativa azul. B2) Objeto com ausência de retas de contorno significativas e cor mais significativa amarelo. B3) Objeto com 4 retas de contorno e cor mais significativa amarelo. B4) Objeto com ausência de retas de contorno significativas e cor mais significativa azul. Ver figura 2.

Figura 2. Em A são exibidas duas ICs. Em B representa imagem retornadas pela busca em CBIR combinatório com diagramas simbólicos.

(5)

O Algoritmo utilizado é o descrito no Quadro 1.

Quadro 1 – Pseudo-código para a busca CBIR combinatória

4. Resultados

As curvas Recall Precision indicam a eficiência da recuperação, onde o eixo x indica a porcentagem de imagens recuperadas entre o total de imagens desejadas. Este eixo encerra com o índice 1, que em escala normalizada indica que 100% das imagens foram recuperadas.

O eixo Y indica a porcentagem de acerto das imagens retornadas. O limite desta escala 1 (normalizada) significa 100% de acerto para as imagens retornadas para o dado momento da pesquisa.

No experimento 1 se buscou duas imagens de um mesmo objeto, para comparar a eficiência da pesquisa em relação à uma busca tradicional com 1 imagem deste mesmo objeto.

Figura 3. Busca de diferentes

imagens de mesmo objeto X Busca de

uma imagem do objeto

O resultado mostra que o desempenho da pesquisa foi relativamente melhor no CBIR com 2 imagens consulta, com cerca de 35% de acertos quando havia 28% das imagens recuperadas, enquanto em buscas com 1 imagem consulta foi obtido 15% 1.- Tabela_combinatória (Características

Imagem Consulta, Características das imagens no banco de dados)

2.- Inicializar o Raio Busca com 0.00 3.- Enquanto a pesquisa não seja abordado pelo usuário

3.1 Incrementar o raio de busca em 0.01 3.2 Para cada combinação da tabela combinatória

3.2.1 Buscar imagens pela distancia euclidiana( tabela combinatória, raio de busca)

3.2.2 Se a Imagem não está no banco de dados de imagens recuperadas então incluir e exibir.

Experimento 1.1-Retornar todas as imagens de um objeto utilizando duas imagens consulta deste objeto

Experimento 1.2- Retornar todas as imagens do objeto utilizando uma imagem consulta Recall precision 0 0,1 0,2 0,3 0,4 0,5 0,6 0 0 0,2 0,4 0,4 0,6 0,6 0,6 0,8 1 Recall P re c ic io n R ec all p re cis io n 0 0.1 0.2 0.3 0.4 0.5 0 0 0.2 0.2 0.2 0.2 0.2 0.4 0.6 0.8 Re ca ll Pr e c ic io n

(6)

de acerto quando 28% das imagens foram recuperadas (figura 3).

Figura 4. Busca de imagens com o objetivo de recuperar objetos de mesma coloração

Figura 5. Pesquisa de imagens visando recuperação de forma

Em busca de imagens de diferentes objetos com coloração semelhante, verificou-se que os métodos possuem eficiência similar, conforme apresentadas pelas curvas de Recall Precision

Experimento 2: Buscar imagens com colorações parecidas

E2.1.- Busca com duas imagens consulta de colorações semelhantes

Recall precision 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0 0, 22 0,4 _0,58 0, 67 0, 78 0, 82 0, 84 0, 89 0, 89 0, 89 0, 96 0, 96 0, 96 0, 98 0, 98 1 Recall Pr e c ic io n

E22. Busca com uma imagem de consulta de coloração desejada

Recall precision 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0 0, 18 0, 29 0, 44 0, 49 0, 49 0, 56 0,6 _0,64 0, 73 0, 73 0, 73 0, 87 0, 89 0, 91 0, 91 0, 98 Recall P re c ic io n

Experimento 3: Buscar imagens com formas de contorno externas parecidas.

E3.1- Pesquisa com 2 objetos de forma parecida. Recall precision 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0 0, 15 0, 22 0, 32 0,4 _0,47 0, 52 0,6 0,7 _0,78 0, 82 0, 82 0, 88 0, 92 0, 93 0, 95 0, 98 Recall P re c ic io n

E3.2 - Pesquisa com 1 objeto da forma desejada. Recall precision 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0 0, 08 0, 19 0, 34 0, 51 0, 58 0, 69 0, 73 0, 75 0, 81 0, 83 0, 86 0, 92 0, 93 0, 95 0, 95 Recall Pr e c ic io n

(7)

Experimento 4: Buscar imagens com

Cor e forma desejadas.

E4. 1. Pesquisa com duas imagens de características complementares

E4. 2. Pesquisa com uma imagem de forma semelhante à desejada

E4.3. Pesquisa com 1 imagem de cor semelhante à desejada

Figura 6. Busca de imagens em situações onde não se possui imagem consulta de mesma classe

Em busca de objetos com formato semelhantes, obtivemos retorno semelhante entre as pesquisas com uma única imagem e diversas imagens de mesmo formato. Estes resultados estão expostos na figura 5. Neste experimento, os objetos de retorno desejável são aqueles que não possuem retas significativas em seu contorno.

O resultado mais interessante de nossa pesquisa é o da possibilidade de se recuperar objetos ao qual não temos a imagem exata. Neste experimento E4, procurávamos recuperar as imagens de tomates que são redondos e vermelhos.Para isso inserimos imagens de uma cebola redonda e verde, e de um carro de bombeiros, vermelho e com retas de contorno. O retorno se mostrou mais satisfatório do que o retorno com cada uma das imagens separadas, conforme mostrado da figura 6.

6. Conclusão

O método permite recuperar imagens similares como resultado da combinação das características de duas ou mais imagens.

Este método de analise combinatória de duas ou mais imagens se mostrou mais eficiente do que nos casos, quando a imagem consultada era única.

A pesquisa utilizando mais de uma imagem consulta de mesmo objeto mostrou ligeira melhora em relação à consulta utilizando única imagem.

Quando as imagens consultam possuíam entre si apenas uma característica comum, o método apresentou uma eficiência semelhante, em relação à pesquisa CBIR com uma única imagem. Recall precision 0 0,05 0,1 0,15 0,2 0,25 0,3 0 0, 17 0, 17 0, 33 0, 67 0, 67 0, 83 0, 83 0, 83 0, 83 0, 83 0, 83 0, 83 0, 83 0, 83 0, 83 0, 83 Recall Pr e c ic io n Recall precision 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0 0 0 0 0 0 0 0 0 0 _0,2 _0,2 _0,4 _0,4 _0,8 Recall Pr e c ic io n Recall precision 0 0,01 0,02 0,03 0,04 0,05 0,06 0 0 0 0 0 0 0 0 0 0 0 0 0 0, 2 0, 2 0, 2 0, 2 Recall P re c ic io n

(8)

Referencias

[1] SANJOY K. SAHA a, AMIT K. Das, BHABATOSH Chanda. Recuperação de images baseado na indexação e retro alimentação da relevância (feedback relevance)

[2] C.E. Jacobs, A. Finkelstein, D. H. Salesin. Fast Multiresolution Image Query. Proceedings of the ACM SIBGRAPH, 1995.

[3] FALOUTSOS, C. Fast Searching by Content in Multimedia Databases. Data

Engineering Bulltein 18 (4), 31-40. 1995.

[4] HIRATA, K. Kato, T. Query byVisual Example-Content Based Image Retrieval.

Advances in Database Technology

(EDBT’ 92), 56-71. 1992.

[5] OOI, B.C., Tan, K.L. CHUA, T.S., HSU, W. Fast Image Retrieval Using Color-Spatial Information. The VLDB

Journal 7 (2), 115-128, 1998

[6] SMITH, J.R., Chang, S.F. VisualSEEK: A Fully Automatec Conten-Based Image Query System. ACM Multimedia 96, Boston, MA, 87-98. 1996.

[7] GONZALEZ, Rafael C. WOODS, Richard E.- Digital Image Processing