• Nenhum resultado encontrado

Em CBIR, uma “caracter´ıstica” ´e uma medida num´erica que captura determinada propri- edade visual da imagem, podendo ser de escopo global (para toda imagem) ou local (para pequenas regi˜oes da imagem). As caracter´ısticas mais comuns empregadas em sistemas CBIR s˜ao, de fato, as caracter´ısticas definidas como primitivas [26], ou seja, aquelas que descrevem cor, textura e forma. Estas caracter´ısticas ser˜ao discutidas brevemente nas se¸c˜oes a seguir. A vantagem da extra¸c˜ao de caracter´ısticas de escopo global est´a ligada `a baixa complexi- dade tanto na composi¸c˜ao do vetor de caracter´ısticas quanto na computa¸c˜ao do valor de similaridade. Entretanto, as caracter´ısticas globais geralmente fornecem uma representa¸c˜ao muito r´ıgida da imagem, n˜ao considerando a diversidade de objetos que ela possa conter. As caracter´ısticas de escopo local, por outro lado, providenciam uma descri¸c˜ao mais flex´ıvel e realista da imagem, embora possam resultar em um vetor de caracter´ısticas maior e mais complexo.

Cor

Na literatura s˜ao encontrados diversos m´etodos de recupera¸c˜ao de imagens baseados em caracter´ıstica de cor, ou brilho, sendo que quase todos eles compartilham a mesma id´eia de utilizar os histogramas na representa¸c˜ao da imagem. Esta representa¸c˜ao varia de acordo com o espa¸co de cores que define o valor dos pixels da imagem. O RGB (Red, Green and

Blue), por exemplo, ´e o espa¸co de cores mais comum para imagens. Entretanto, outros

espa¸cos como o HSV (Hue, Saturation and Value) [46], o CIE Lab [34] e o Luv [47] s˜ao mais adequados `a percep¸c˜ao humana de cor, e por isso, s˜ao mais utilizados na representa¸c˜ao da imagem por histograma.

Para imagens em escala de cinza a representa¸c˜ao da imagem ´e definida como o histograma de brilho, ou histograma de n´ıveis de cinza da imagem. Neste caso o tamanho do vetor de caracter´ısticas ´e definido como o n´ıvel de cinza m´aximo de acordo com a quantiza¸c˜ao da imagem. Uma evolu¸c˜ao interessante do uso de histogramas de brilho s˜ao os histogramas m´etricos [48, 49], que s˜ao bem mais compactos e podem representar as imagens independen-

3

Recupera¸c˜ao de Imagens Baseada em Conte´udo 11 temente dos n´ıveis globais de brilho e contraste.

Textura

Embora bem conhecida e implicitamente intuitiva, a defini¸c˜ao da caracter´ıstica de textura n˜ao possui uma vers˜ao formal bem estabelecida. Muitos autores a descrevem com suas pr´oprias palavras, como os exemplos a seguir:

• “Textura se refere `a repeti¸c˜ao de elementos b´asicos da imagem chamados textels. A distribui¸c˜ao dos textels pode ser peri´odica ou aleat´oria. Texturas naturais geralmente possuem um comportamento aleat´orio, sendo que as artificiais possuem um comporta- mento peri´odico e determin´ıstico.” [50].

• “Padr˜oes que caracterizam objetos em uma cena s˜ao chamados texturas.” [51].

As medidas de textura capturam essencialmente a granularidade e padr˜oes repetitivos na distribui¸c˜ao dos pixels. Por exemplo, vidro, tijolos, grama, madeira, papel, diferem entre si tanto pela suavidade da textura quanto pela repeti¸c˜ao de padr˜oes.

Algumas das mais conhecidas t´ecnicas de extra¸c˜ao de caracter´ısticas de textura s˜ao as

wavelets [52] e os filtros de Gabor [46], sendo que os filtros de Gabor s˜ao considerados mais

adequados para corresponder `as propriedades de percep¸c˜ao do sistema de vis˜ao humano [53]. Estas medidas de textura procuram capturar as varia¸c˜oes de intensidade dos pixels em diversas dire¸c˜oes e em diversas escalas, sendo mais ´uteis para regi˜oes ou imagens com texturas homogˆeneas.

Outras medidas mais tradicionais s˜ao baseadas nas “matrizes de co-ocorrˆencia” [54], nas “matrizes Run-Lengths” [55] e na transformada bi-dimensional de Fourier [56]. A partir dessas t´ecnicas ´e poss´ıvel computar medidas de periodicidade, granularidade, direcionalidade e regularidade das regi˜oes texturizadas da imagem. Um dos primeiros trabalhos a aplicar informa¸c˜ao de textura em CBIR foi desenvolvido por Manjunath e Ma [57], em 1996. Forma

O formato, ou forma, de um determinado objeto da imagem pode ser considerado o atributo de maior relevˆancia para a abordagem de recupera¸c˜ao de imagens por conte´udo baseada em caracter´ısticas primitivas. As diversas evidˆencias de que objetos reais s˜ao identificados pelo sistema de vis˜ao humana primordialmente pela forma podem ser a justificativa para isto [58, 59, 60].

Para extra¸c˜ao de caracter´ısticas de forma de uma imagem ´e essencialmente necess´ario que esta imagem seja previamente segmentada, o que significa encontrar e delimitar os elementos (objetos) da imagem para os quais se desejam computar as propriedades de forma. Ap´os ter a imagem segmentada, n˜ao s´o caracter´ısticas de forma podem ser computadas das regi˜oes que correspondem aos objetos da imagem, mas tamb´em medidas de cor e textura que podem ser combinadas para caracterizar melhor as regi˜oes. A esta abordagem, que combina

12 Cap´ıtulo 2 segmenta¸c˜ao de imagens com extra¸c˜ao de caracter´ısticas ´e dado o nome RBIR, do termo em inglˆes (Region-Based Image Retrieval) [21, 61, 62]. Esta categoria de m´etodos ser´a discutida logo mais adiante.

Uma propriedade desej´avel do conjunto de caracter´ısticas de forma ´e que ele se mostre in- variante para objetos de mesma natureza que estejam em posi¸c˜ao, rota¸c˜ao e escala diferentes (invariˆancia `as transforma¸c˜oes geom´etricas), e, al´em disso, possa descrever adequada- mente a forma do objeto mesmo quando a imagem cont´em ru´ıdos. Quanto `a classifica¸c˜ao dos m´etodos de extra¸c˜ao de caracter´ısticas de forma, a mais comum e geral delas leva em considera¸c˜ao se o m´etodo analisa apenas os contornos dos objetos ou analisa o objeto como um todo, levando em considera¸c˜ao tamb´em os pontos de seu interior. Sendo assim, desta classifica¸c˜ao s˜ao derivadas duas classes de m´etodos: os m´etodos baseados em contornos e os baseados em regi˜ao.

Os descritores de Fourier [63] s˜ao um exemplo tradicional de caracteriza¸c˜ao de forma baseada em contornos. Entre os m´etodos baseados em regi˜ao est˜ao os populares e eficientes momentos de Zernike [64, 65]. Mesmo sendo de uma complexidade computacional relati- vamente alta, estes dois m´etodos adquiriram popularidade e est˜ao entre os mais citados e utilizados em sistemas CBIR devido `as suas propriedades inerentes de invariˆancia `as trans- forma¸c˜oes geom´etricas. Outras t´ecnicas mais recentes de caracteriza¸c˜ao de forma incluem a transformada imagem-Floresta [66, 67] e os contextos de forma (shape contexts) [68].

O Cap´ıtulo 3 apresenta uma revis˜ao mais detalhada de algumas das principais t´ecnicas de extra¸c˜ao de caracter´ısticas de imagens aqui citadas, incluindo os descritores de Fourier, os momentos de Zernike, a an´alise das transformadas bi-dimensionais de Fourier e de Wavelets, e as matrizes de co-ocorrˆencias.

Gap semˆantico

Um problema bem conhecido em CBIR, e citado por muitos autores, diz respeito `a incapaci- dade das caracter´ısticas de baixo n´ıvel em descrever o conhecimento semˆantico embutido nas imagens. A representa¸c˜ao matem´atica da imagem na qual os sistemas CBIR s˜ao baseados est´a bem mais relacionada `a estrutura matricial da imagem do que `a representa¸c˜ao percep- tual que uma pessoa faz daquela imagem, incluindo o significado dos objetos e a complexa rede de relacionamentos que pode existir entre eles. A esta discrepˆancia de representa¸c˜oes da imagem ´e dado o nome de gap semˆantico, que, embora seja abordado em diversos trabalhos ainda continua sendo um problema em aberto e o maior desafio em CBIR. No trabalho de revis˜ao desenvolvido por Liu et al. [21], por exemplo, s˜ao propostas cinco abordagens para suprimir o problema do gap semˆantico nas caracter´ısticas de baixo n´ıvel, incluindo a uti- liza¸c˜ao de t´ecnicas de aprendizado de m´aquinas e segmenta¸c˜ao de imagens, a utiliza¸c˜ao de realimenta¸c˜ao de relevˆancia por parte do usu´ario, e a defini¸c˜ao de padr˜oes semˆanticos para classifica¸c˜ao das imagens. ´E tamb´em coerente pensar que, o aumento da especializa¸c˜ao de um sistema CBIR com rela¸c˜ao ao dom´ınio de imagens considerado causa o estreitamento do

Recupera¸c˜ao de Imagens Baseada em Conte´udo 13

gap semˆantico, porque possibilita o aproveitamento de conhecimento pr´evio do dom´ınio [69].