Construção do Vocabulário Visual

2.3 Vocabulário Visual

3.1.2 Construção do Vocabulário Visual

O método de indexação e recuperação de vídeo deste trabalho baseia-se na utili- zação de vocabulário visual, abordagem similar àquela apresentada por Sivic e Zisserman (2009). Como descrito anteriormente, Sivic e Zisserman (2009) apresentam uma abordagem de recuperação de vídeo análoga ao método utilizado na recuperação de textos. Nesta abordagem, deve-se criar um vocabulário composto por palavras visuais (semelhante às palavras textuais em sistemas de recuperação de texto). Estas palavras visuais são obtidas por meio da clusterização do conteúdo visual dos quadros do vídeo. Porém, para criação do vocabulário visual, utiliza-se apenas uma amostra aleatória dos quadros selecionados na etapa de segmentação (quadros-chave selecionados do vídeo), conforme processo apresentado na Figura 20. O ideal seria que esta amostra representasse o conteúdo visual de todo o vídeo do qual ela foi extraída, podendo ser obtida, por exemplo, através de técnicas de sumarização. Neste trabalho, optou-se pela utilização de uma amostra aleatória dos quadros-chave, semelhante ao realizado por Sivic e Zisserman (2009).

(a) (b)

Figura 21: Regiões de interesse de um quadro do vídeo. Em (a) são exibidas as regiões de interesse detectadas pelo Harris Ane e em (b) regiões de interesse detectadas pelo MSER. Fonte: Elaborada pelo autor.

quadros-chave do vídeo, no lugar de todos os quadros, se justica pelo alto custo compu- tacional deste processo, como descrito nas seções a seguir.

3.1.2.1 Extração de Descritores dos Quadros Selecionados

Para a construção do vocabulário visual, é necessário, primeiramente, obter a des- crição dos quadros selecionados do vídeo. Em um sistema de recuperação de informação baseado em conteúdo visual, deve-se gerar algum tipo de descrição deste conteúdo visual (como por exemplo a utilização de histograma do cores) para que, então, esta informação seja manipulada e armazenada.

Sendo assim, realiza-se a extração de características de cada um dos quadros selecionados para a amostra de quadros-chave do vídeo. Este processo de extração de características de quadros do vídeo é baseado na detecção de regiões am covariantes, que, como descrito anteriormente, são regiões invariantes a mudança de ponto de visão, de escala, de iluminação e também capazes de lidar com a oclusão (MIKOLAJCZYK et al.,

2005).

Neste trabalho foram utilizados dois tipos de detectores de regiões am covariantes, conforme apresentado em Mikolajczyk et al. (2005): o detector MSER (Maximally Stable Extremal Region) e o detector Harris-Ane, que identicam regiões de interesse nos quadros do vídeo baseado em suas características de reconhecimento. Na Figura 21(a) cada elipse representa uma região de interesse obtida pelo detector Harris-Ane, enquanto que na Figura 21(b) cada elipse corresponde a uma região identicada pelo MSER.

A escolha de tais detectores se motivou pelo fato de que eles identicam pontos de interesse de natureza complementar, isto é, MSER identica regiões enquanto que Harris Ane identica cantos e bordas (MIKOLAJCZYK et al., 2005).

Para se descrever as regiões identicadas por cada um dos detectores foi utilizado o descritor SIFT (Scale Invariant Feature Transform), que produz um vetor de caracte-

rísticas de 128 dimensões (LOWE, 1999). O SIFT é aplicado em cada região de interesse

detectada no quadro do vídeo, gerando assim um vetor de características (chamado de descritor) para cada uma destas regiões. Dependendo das características presentes nos quadros, centenas (ou até mesmo milhares) de descritores podem ser gerados para cada quadro do vídeo.

3.1.2.2 Processo de Clusterização

Uma vez obtidos todos os descritores para cada um dos quadros da amostra, é necessário realizar a clusterização destes descritores para gerar palavras visuais que irão compor o vocabulário visual do vídeo. Para obtenção do vocabulário visual, foi utilizado a implementação do algoritmo de clusterização K-means, apresentado em Kanungo et al. (2002), agrupando-se, assim, os descritores em classes ou palavras visuais.

A clusterização é realizada de forma separada para cada tipo de detector utilizado. Desta forma, o algoritmo K-means foi executado para cada detector separadamente, gerando um conjunto de centróides. Neste contexto, cada um dos centróides representa uma palavra visual do vocabulário.

Ao nal do processo de clusterização, dois conjuntos de palavras visuais são obtidos: um conjunto com todas as palavras visuais originadas dos descritores gerados a partir do detector MSER e outro conjunto com as palavras originadas dos descritores gerados a partir do detector Harris-Ane. Entretanto, para obtenção do vocabulário, as palavras visuais destes dois conjuntos criados separadamente, devem ser unidas para compor o vocabulário do vídeo. Depois que o vocabulário visual é criado não há mais distinção entre descritores, pois o intuito é unicar as diferentes características presentes nos quadros do vídeo em um único vocabulário visual, conforme pode ser visto na Figura 22.

3.1.2.3 Eliminação de Stopwords

Semelhante ao processo de recuperação de textos, após o processo de clusterização para obtenção das palavras visuais é necessário eliminar um conjunto de palavras muito frequentes, denominado stopwords (FRAKES; BAEZA-YATES, 1992), isto é, palavras que

estão presentes na maioria dos quadros do vídeo.

Ao nal do processo de clusterização, obtém-se os centróides juntamente com a frequência dos descritores associados a cada cluster nos quadros do vídeo utilizados para criação do vocabulário. Desta forma, os centróides com maior frequência estão presentes na maioria dos quadros e devem ser eliminados do vocabulário.

O objetivo da eliminação de stopwords é reduzir o número de características que, por ocorrerem em muitos quadros distintos do vídeo, serão pouco discriminativas para

Amostra dos Quadros Detecção (Harris-Affine) Detecção (MSER) SIFT ... 23 54 32 ... 54 67 98 ... 12 43 32 ... 63 35 87 K-means K-means ... 21 32 45 ... 46 90 21 ... 73 37 78 ... 43 23 65 StopList Vocabulário Visual SIFT 76 80 81 13 34 ... 98 93 73 ... 95 ... 21 32 45 ... 43 23 65 33 22 ... 69 StopList ... 43 23 65 33 22 ... 69 43 23 65 93 73 ... 95 ... ... 43 23 65 33 22 ... 69 43 23 65 93 73 ... 95 ...

Figura 22: Processo de criação do vocabulário visual. Fonte: Elaborada pelo autor.

representar um determinado quadro. A Figura 22 ilustra o processo completo de criação do vocabulário visual e a eliminação de stopwords.

No capítulo de experimentos será apresentada uma análise sobre o impacto do tamanho do vocabulário visual no processo de busca.

No documento Análise de Estruturas Métricas para Recuperação de Vídeo Utilizando Vocabulário Visual (páginas 47-50)