• Nenhum resultado encontrado

A Figura 27 ilustra o processo de recuperação do vídeo por meio de uma imagem (ou região de uma imagem) de consulta, em que, primeiramente, a imagem de consulta é descrita utilizando o mesmo processo aplicado aos quadros-chave (isto é, processo de detecção de regiões de interesse e extração de descritores). Posteriormente, a busca é realizada e recupera-se todos os quadros-chave que possuam alguma palavra visual em comum com a imagem (ou região) de consulta.

Seguindo o trabalho de Sivic e Zisserman (2009), durante o processo de recupera- ção, os quadros-chave são classicados utilizando o modelo vetorial, em que a similaridade é obtida pelo cálculo do cosseno do menor ângulo entre o vetor que representa a imagem ou região de consulta e os vetores da base (associados aos quadros-chave do vídeo). Os quadros obtidos como resposta são ordenados de acordo com tais valores de similaridade, e assim são retornados.

Ao nal deste processo, os quadros-chaves retornados são submetidos ao processo de consistência espacial, no qual serão reordenados, com o intuito de que os quadros-chave mais similares à imagem (ou região) da consulta obtenham melhor classicação e assim serão retornados.

3.2.1 Consistência Espacial

Baseado na técnica de ordenação do resultado de consulta utilizada pelos sistemas de recuperação de texto, Sivic e Zisserman (2009) apresentam uma técnica análoga para classicação dos quadros no resultado da consulta. Em tal abordagem, após a recuperação dos quadros do vídeo realizada utilizando o modelo vetorial descrito anteriormente, é realizada uma nova classicação dos quadros do vídeo baseado na distribuição espacial das regiões covariantes do quadro.

Esta abordagem baseia-se na escolha aleatória de uma palavra (região covariante) da imagem de consulta e na busca desta mesma palavra no quadro do vídeo retornado da base. Após encontrada a palavra correspondente, as palavras espacialmente mais próximas da palavra selecionada são obtidas, tanto na imagem de consulta quanto no quadro do vídeo retornado. Desta forma, é calculada a correspondência destas palavras da imagem de consulta com o quadro da base, em que, a cada ocorrência um voto é computado para à palavra do quadro da base, e somente uma única vez para cada palavra. Este processo é realizado entre a imagem de consulta e todos os quadros do vídeo que têm alguma similaridade no cálculo do modelo vetorial.

Desta forma, têm-se no nal do processo, o somatório da quantidade de votos que cada quadro da base recebeu. Assim, a nova classicação dos quadros é realizada, somando-se a quantidade de votos com o valor da similaridade de cada documento na base (calculado utilizando o modelo vetorial) em que os quadros com maior valor são considerados os mais relevantes (SIVIC; ZISSERMAN, 2009).

Este processo heurístico para cálculo da consistência espacial, apresentado por Sivic e Zisserman (2009) e utilizado neste trabalho para reclassicação dos quadros, pode ser muito caro computacionalmente em termos de tempo, pelo fato de que deve ser realizado para todas as palavras de todos os quadros retornados da base para cada palavra da imagem de consulta.

Devido a este alto custo computacional (em relação ao tempo), neste trabalho se propõe que parte do processo seja realizado no momento da indexação, assim para cada quadro indexado do vídeo são calculados e armazenados, para cada palavra visual, as palavras visuais mais próximas, utilizando uma Kd-tree como estrutura auxiliar na descoberta das k palavras mais próximas.

Para cada uma das palavras é necessário armazenar em uma estrutura eciente quais são as palavras espacialmente mais próximas. Sendo assim, um outro arquivo inver- tido é utilizado, sendo que, o índice deste é composto por todas as palavras do quadro, e cada palavra será associada a uma lista das palavras mais próximas do quadro em questão.

Este processo é realizado para cada quadro-chave indexado do vídeo, com o objetivo de diminuir o tempo computacional no momento da busca. O algoritmo para o processo de consistência espacial consiste dos seguintes passos (SIVIC; ZISSERMAN, 2009):

a) selecione uma palavra visual pc aleatoriamente na imagem de consulta;

b) pesquisar pela ocorrência da palavra visual pc no quadro da base. Caso não

encontre, repita o passo a e selecione outra palavra visual na imagem de consulta, do contrário, execute passo c;

c) calcular a distância espacial das coordenadas da palavra visual pc para cada

uma das demais palavras visuais pci da imagem da consulta;

d) repita o passo c para o quadro da base;

e) ordene a lista de palavras visuais da imagem de consulta de forma ascendente pela distância entre cada palavra visual pci e a palavra visual pc;

f) repita o passo e para o quadro da base;

g) para cada uma das 15 primeiras palavras visuais pci da imagem da consulta,

pesquisar sua ocorrência nas 15 primeiras palavras visuais do quadro da base, caso encontre, contabilize para a palavra visual pci da imagem da consulta e

também a palavra visual do quadro da base um voto, e as marque para que não sejam mais votadas;

h) repita os passos de a até g para as demais palavras visuais da imagem de consulta que não tenham sido votadas;

i) somar o total de votos que o quadro da base atual recebeu;

j) repita os passos de a até i para cada quadro da base retornado como res- posta à consulta;

k) ordene o resultado pelos quadros da base mais votados.

A Figura 28 ilustra os passos do processo de consistência espacial descritor nos passo do algoritmo apresentado.

Como descrito anteriormente, para diminuir o tempo de processamento para rea- lização da consistência espacial, neste trabalho alguns passos do algoritmo são realizados previamente, no momento da indexação dos quadros.

No momento da indexação de cada quadro do vídeo, utiliza-se uma Kd-Tree para armazenar todas as palavras visuais do quadro em questão e então realiza uma busca, na Kd-Tree para retornar as 15 palavras mais próximas de cada uma das palavras. Além disso, um arquivo invertido é criado para cada quadro do vídeo indexado, em que cada uma das palavras visuais será associada a uma lista com as 15 palavras visuais mais próximas a ela, evitando que este processamento seja realizado no momento da busca.

Imagem de Consulta Quadro do Vídeo da Base

Busca por Abrangência r = 0

(a)

Imagem de Consulta Quadro do Vídeo da Base

(b)

Imagem de Consulta Quadro do Vídeo da Base

(c)

Imagem de Consulta Quadro do Vídeo da Base

(d)

Figura 28: Em (a) Passos 1 e 2 do processo de consistência espacial, em (b) seleção das palavras espacialmente mais próximas do quadro da base e da imagem de consulta, em (c) e (d) passo 7 dos processo de consistência espacial. Fonte: Adaptada de Sivic (2006).

Desta forma, para a execução do passo 4, apenas uma busca na lista da palavra é realizada para retornar as 15 palavras visuais mais próximas, reduzindo assim, o tempo para realização da consistência espacial.

Documentos relacionados