• Nenhum resultado encontrado

3. EXTRAÇÃO DE CARACTERÍSTICAS DE BAIXO NÍVEL EM VÍDEO

3.2. FUNDAMENTOS DE CARACTERÍSTICAS DE IMAGEM

A idéia básica por trás da recuperação de imagem baseada em conteúdo é permitir ao usuário encontrar imagens a partir de características visuais semelhantes. A seleção de quais características usar, entretanto não é uma tarefa trivial. Isto ocorre porque o conceito de similaridade pode variar de uma pessoa para

outra e porque diferentes características referem-se a diferentes propriedades da imagem.

As características visuais podem ser classificadas como locais ou globais. Elas são ditas locais quando as mesmas são extraídas a partir de um segmento da imagem original. Esse segmento ou subimagem pode ser uma janela quadrada de 15x15, 17x17 pixels ou outra resolução. As características são ditas globais quando extraídas considerando-se todos os pixels da imagem original (DESELAERS T., 2003). Um exemplo de uso de características locais pode ser encontrado no trabalho (PIMENTEL FILHO, C. A. F. et al., 2006) que emprega essa técnica na classificação de textura de imagens.

Uma característica também pode ser classificada como invariante quando a mesma é mantida inalterada quando uma certa transformação é aplicada à imagem. Exemplos dessas transformações são: a rotação, a translação e o escalamento (DESELAERS, Thomas et al., 2004).

A abordagem mais direta para comparação da similaridade (ou diferença) entre imagens baseia-se nos valores dos pixels que as compõem. Um exemplo de abordagem é o escalamento das imagens para um mesmo tamanho (em termos de pixels), com a comparação da distância Euclidiana entre as mesmas, pixel-a-pixel. No presente trabalho, essa mesma técnica foi usada para dar suporte à detecção automática de corte de tomadas, enquanto que diversas outras características estatísticas (descritas posteriormente) foram usadas para a recuperação de quadros visualmente similares.

As características visuais são derivadas de processos computacionais, tipicamente, processamento de imagens, computação visual e rotinas geométricas executadas sobre o objeto visual (GUPTA Amarnath et al., 2007). As abordagens baseadas nas características visuais já demonstraram ter um bom desempenho quando utilizadas em reconhecimento óptico de caracteres e imagens médicas. Dentre as características que representam estatisticamente um conteúdo de um vídeo (ou imagem), podem ser destacadas as diversas informações ligadas à cor de cada pixel.

3.2.1.

Cor

A cor é uma das características mais usadas em recuperação de imagens baseada em seu conteúdo. Os espaços de cor, que são tridimensionais, tornam a

discriminação da imagem potencialmente superior as imagens P&B. Apesar de existirem diversos espaços de cor, tais como Munsell, CIE L*u*v, CIE L*a*b, YIQ e HSV (FENG; SIU; HONG, 2003), nesse trabalho estão sendo adotados os espaços RGB e YIQ apenas. Como não há um consenso a respeito de qual espaço é melhor para busca de imagens, o YIQ foi escolhido para as buscas das imagens em conformidade com o trabalho de Jacobs, Chuck et al. (1995). No presente trabalho, o espaço RGB é usado nos algoritmos de detecção de corte de tomada, já o espaço YIQ é usado na composição de sumário e nas buscas de quadros dos vídeos.

3.2.2.

Histogramas de cor

Histogramas de cor são uma estimativa da distribuição de cor na imagem. Esta ferramenta é amplamente utilizada para recuperação baseada em conteúdo visual. O histograma pode ser particionado em intervalos de faixas de cores, para cada faixa ou partição, os pixels de cor dentro dessa faixa são contados, resultando numa representação das freqüências de ocorrência de cor. Uma vez obtidos os histogramas de diversas imagens, estes podem ser comparados por diversas medidas de distância. Esse é um dos métodos mais simples de serem implementados, mas ainda assim mostra resultados bastante relevantes (DESELAERS, Thomas et al., 2004).

3.2.3.

Momentos de cor

Os momentos de cor têm sido usados em muitos sistemas de recuperação de imagens como o QBIC (FLICKNER et al., 1997)(FALOUTSOS, Christos Nick et al., 1994). Outro ponto a favor do uso dos momentos é que eles carregam uma representação muito compacta da imagem quando comparada com outras características de cor (FENG; SIU; HONG, 2003). Gonzalez et al., (2000) utilizam esses momentos como descritores estatísticos de textura de uma região da imagem em níveis de cinza, ou seja, como característica local.

A partir do histograma associado a cada componente de cor de uma imagem matricial, é possível extrair-se n momentos. O primeiro momento, dado pela eq. 4, é o valor médio da intensidade de cor dos pixels da imagem. O segundo momento representa a variância dessa intensidade de cor. O terceiro momento é uma medida de anti-simetria do histograma, enquanto que o quarto é uma medida de sua planaridade. Os demais momentos não são facilmente relacionados com o formato

do histograma, mas eles adicionam informação para a caracterização de textura (GONZALEZ, R. C. et al., 2000). Os momentos em torno da média, a partir do segundo momento são obtidos conforme eq 5.

De acordo com Gonzalez et al., (2000), seja z uma variável aleatória denotando a intensidade discreta de uma imagem e seja p(zi),i=1,2,3,...L o histograma correspondente. L representa o número de níveis distintos de intensidade na imagem. O n-ésimo momento de z em torno da média é dado pela eq. 5. Note que µ0 = 1 e µ1 = 0.

= = L i i ip z z m 1 ) ( eq. 4

(

)

      − =

= L i i n i n z z m p z 1 ) ( ) ( µ eq. 5

3.2.4.

Entropia

Outra característica que pode ser extraída dos quadros de vídeo é a entropia (EPSTEIN, Isaac., 1988). A entropia representa a quantidade média de informação contida em uma imagem. Outra forma de se abstrarir a entropia é pensar na complexidade da imagem. Quando poucas cores distintas são encontradas na imagem, ela pode ser considerada simples. No caso mais extremo, se uma imagem possui apenas uma cor, ela apresentará a mais baixa quantidade média de informação. À medida que objetos são adicionados à imagem, mais cores precisam ser incluídas, aumentando a quantidade de informação contida nessa mesma imagem. A medida da entropia é mostrada na eq. 6.

= ⋅ − = n i i i p p H 1 2( ) log eq. 6

3.3. SISTEMAS DE RECUPERAÇÃO DE VÍDEO BASEADO EM CONTEÚDO