Sumário 1 INTRODUÇÃO
5 PROPOSTA 89 5.1 Tratamentos para Kullback Leibler e Generalized I-Divergence
7.4 Conclusão dos experimentos 131 8 CONCLUSÃO
29
Capítulo
1
Introdução
O avanço da tecnologia digital e a diminuição do custo de armazenamento de dados contribuíram para um aumento do número de imagens: na Internet, em banco de dados públicos e em sistemas biométricos. Nesse sentido, vários sistemas de recuperação de imagens têm sido desenvolvidos na tentativa de otimizar a consulta do usuário a esses bancos de dados. Os sistemas computacionais de recuperação de imagens são baseados em duas técnicas de busca, uma em texto e outra em conteúdo.
Nas técnicas de busca por texto, o processo de recuperação de imagens consiste em comparar os termos de uma consulta textual, deĄnida por um usuário, com as anotações associadas, às imagens, por exemplo, representadas por palavras-chave e, a partir da com- paração, retornar ao usuário um conjunto de imagens. Entretanto, essa técnica apresenta duas desvantagens: a primeira é a necessidade de um trabalho manual para realizar as anotações e, a segunda, refere-se às incertezas das palavras usadas para a recuperação de imagens (MÜLLER et al., 2004).
As técnicas de recuperação de imagens baseadas em conteúdo (Content Based Image
Retrieval Ű CBIR) (IQBAL et al., 2014), têm sido propostas na tentativa de superar
as desvantagens de sistemas de recuperação de imagens baseados em texto (SNOEK; SMEULDERS, 2010). Nessa abordagem, são consideradas as informações visuais da ima- gem para a busca e recuperação em um banco de dados e, não apenas uma simples descrição textual das mesmas (BALAN et al., 2004).
Os sistemas CBIR têm ganhado relevância, principalmente, pela subjetividade em se caracterizar uma imagem pelo seu conteúdo, já que diferentes usuários podem estar in- teressados em diferentes aspectos de uma mesma imagem (BALAN et al., 2004). Em (MARQUES et al., 2002), por exemplo, os autores implementaram um sistema CBIR para análise de imagens de mamograma, com intuito de averiguar a presença de micro- calciĄcações nas imagens de mamograĄas para possíveis diagnóstico de casos iniciais de câncer de mama. O trabalho de (TORRES; FALCÃO, 2006), propõe um sistema CBIR na área de biodiversidade, para auxiliar a identiĄcação de espécies de animais por meio de suas formas.
30 Capítulo 1. Introdução
Entretanto, mesmo com todos os esforços nas pesquisas de recuperação de imagem baseada em conteúdo, os algoritmos atuais de CBIR ainda são limitados (SILVA, 2014). Além de outras diĄculdades, o gargalo principal é a descontinuidade existentes entre os seus conteúdos semânticos associados e as características de baixo nível possíveis a serem extraídas (DATTA et al., 2008). A descontinuidade semântica é um problema originado do fato que medidas de similaridade e os extratores de caraterísticas das imagens, tais como histogramas de níveis de cinza, descritores de forma e cor, não possuem ligação direta com as semânticas da subjetividade humana (DESERNO; WELTER; HORSCH, 2012).
Visando minimizar o problema semântico, diversos trabalhos têm abordado CBIR com diferentes medidas de similaridade (SCHOLAR, 2013; ABOOD; MUHSIN; TAWFIQ, 2013; KEKRE; SONAWANE, 2012). A proposta deste trabalho insere-se neste contexto, propondo o uso das divergências de Bregman Kullback Leibler (KL) e GID como medida de similaridade em CBIR, na etapa de recuperação de imagem. A relevância desta pro- posta está ligada à possibilidade de estabelecer a similaridade de forma mais eĄcaz, visto que estas divergências apresentam propriedades que permitem minimizar os problemas descritos anteriormente.
1.1 Motivação
Os mecanismos de recuperação de imagens baseados em conteúdo têm o seguinte funcionamento: um usuário deĄne uma imagem de consulta (query), compara esta imagem com as imagens do banco de dados e retorna uma lista ranqueada contendo as imagens mais similares.
Os sistemas CBIR são baseados em duas etapas principais: a primeira consiste na ex- tração de características, enquanto que a segunda, na medida de similaridade. A extração de característica é o processo no qual um conjunto de características é gerado para repre- sentar o conteúdo de cada imagem. Existem vários métodos de extração de características e algumas das mais populares são extrações baseadas em cor, textura e forma. Na etapa da medida de similaridade, uma etapa posterior à extração de característica, aplica-se uma função de distância (por exemplo, Euclidiana) entre os vetores de características da imagem de consulta e de cada uma das imagens que estão no banco de dados, com o intuito de obter a recuperação das N imagens mais semelhantes contidas no banco de dados.
Tanto o processo de extração de característica quanto a medida de similaridade repre- sentam um desaĄo para sistemas CBIR. Considerando a etapa de extração de caracterís- ticas, o desaĄo é a utilização de descritores que possibilitem a minimização da diferença entre as concepções semânticas de alto nível, utilizadas pelos humanos para compreender o conteúdo de uma imagem, e as características de baixo nível, usadas na visão computa-
1.2. Objetivos 31
cional, denominada de gap-semântico. Uma possível solução seria o desenvolvimento de algoritmos soĄsticados para extração de característica.
A variedade das medidas de similaridade encontradas na literatura tal como: Euclidi- ana, Mahalanobis e Cosseno (ABOOD; MUHSIN; TAWFIQ, 2013; YANG; XIAO, 2008; ZHOU; DAI, 2006; SPERTUS; SAHAMI; BUYUKKOKTEN, 2005; SANTINI; JAIN, 1999); e as diferentes técnicas de recuperação de imagem diĄcultam a escolha da medida mais adequada na recuperação de imagens em sistemas CBIR. É importante observar que as medidas de similaridade escolhidas devem ser apropriadas com diferentes técnicas presentes no processo de recuperação de imagens. Por exemplo: (LIU et al., 2008) ao utilizar a distância City Block como medida de similaridade em um sistema CBIR os au- tores não obtiveram bons resultados. Entretanto, (KEKRE; SONAWANE, 2012) usavam a distância Minkowski para elaborar uma seleção de medida de similaridade adequada de acordo com os métodos presentes (por exemplo, extração de características) no CBIR. A utilização de diferentes distâncias para um mesmo processo de recuperação pelos pesqui- sadores, como os citados acima, denotam a diĄculdade em se deĄnir a melhor medida de similaridade a ser usada na recuperação de imagens em sistemas CBIR.
Observa-se ainda que as funções de proximidade convencionais, tais como a Euclidiana e a Cosseno, têm apresentado limitações na busca por similaridades (XU et al., 2012; LIU, 2011; SAKJI-NSIBI; BENAZZA-BENYAHIA, 2010). Diante destas limitações e considerando as suas propriedades, as divergências de Bregman têm sido utilizadas em diversas aplicações como medida de similaridade. Por exemplo, (CAYTON, 2008) propõe uma forma eĄciente de encontrar os vizinhos mais próximos utilizando a divergência de Bregman (DB), e (BANERJEE et al., 2005) apresenta uma análise paramétrica hard e
soft de algoritmos de agrupamentos baseados nas DBŠs.
Desta forma, acredita-se que a utilização das DBŠs, devido à sua Ćexibilidade em relação às outras medidas (Euclidiana e Cosseno), podem ser mais eĄcazes para o cálculo da similaridade entre diferentes características que representam as imagens. As DBŠs utilizadas neste trabalho são a KL e a GID, as quais são deĄnidas utilizando a função logarítmica cujo domínio é x > 0; por outro lado, os dados caracterizados podem assumir valores iguais a zero em suas coordenadas. Nesta perspectiva, são apresentados neste trabalho tratamentos adequados que possibilitam a aplicação das divergências KL e GID, minimizando os problemas descritos anteriormente para recuperação de imagens baseados em conteúdo.
1.2 Objetivos
A presente pesquisa teve por objetivo geral criar tratamentos adequados para as di- vergências de Bregman (KL e GID), quando as representações das imagens contém coor- denadas iguais a 0 (zero), realizando um estudo comparativo sobre o uso dos tratamentos
32 Capítulo 1. Introdução
em relação às medidas Euclidiana e Cosseno, na etapa de similaridade da recuperação de imagens baseadas em conteúdo, veriĄcando as vantagens e desvantagens de cada função.
Os objetivos especíĄcos foram:
1. Avaliar o desempenho das divergências de Bregman (KL e GID), na etapa de re- cuperação de imagens, utilizando os métodos de avaliação precisão e revocação,
normalized Discounted Cumulative Gain (nDCG), Mean Average Precision (MAP)
e precisão em k;
2. Comparar o desempenho da CBIR, utilizando a divergências (KL e GID) e as me- didas Euclidiana e Cosseno para o cálculo de similaridade na etapa de recuperação; 3. Desenvolver tratamentos para as divergências de Bregman (KL e GID) Ű obedecendo às propriedades da função logarítmica cujo domínio é x > 0, de acordo com a caracterização das imagens;
Com base nos objetivos descritos acima, foram levantadas as hipóteses destacadas na Seção 1.3 abaixo.