Análise de Estruturas Métricas para Recuperação de Vídeo Utilizando Vocabulário Visual

(1)

Programa de Pós-Graduação em Informática

Análise de Estruturas Métricas para

Recuperação de Vídeo Utilizando Vocabulário Visual

Henrique Batista da Silva

Belo Horizonte 2011

(2)

Análise de Estruturas Métricas para

Recuperação de Vídeo Utilizando Vocabulário Visual

Dissertação apresentada ao Programa de Pós-Graduação em Informática como requisito parcial para obtenção do título de Mestre em Informática pela Pontifícia Universidade Católica de Minas Gerais. Orientador: Zenilton Kleber Gonçalves do Patrocínio

Júnior

Belo Horizonte 2011

(3)

FICHA CATALOGRÁFICA

Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais

Silva, Henrique Batista da

S586a Análise de estruturas métricas para recuperação de vídeo utilizando vocabulário visual / Henrique Batista da Silva. Belo Horizonte, 2011.

104f.: il.

Orientador: Zenilton Kleber Gonçalves do Patrocínio Júnior

Dissertação (Mestrado) – Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-Graduação em Informática.

1. Gravação de vídeo. 2. Processamento de imagens. 3. Programação. 4. Vocabulário. I. Patrocínio Júnior, Zenilton Kleber Gonçalves do. II. Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-Graduação em Informática. III. Título.

(4)

(5)

Agradeço ao meu orientador, professor Zenilton, pela ajuda, paciência e por toda sua dedicação a este trabalho.

Agradeço aos meus pais pelo apoio e paciência ao longo de todo este período de trabalho.

Agradeço ao Microsoft Innovation Center (MIC BH) pelo nanciamento a pesquisa. Agradeço ao VIPLAB pela infraestrutura oferecida para a realização deste traba-lho.

Agradeço aos amigos e companheiros bolsistas Kleber, Ângelo, André e Anna pela companhia nos trabalhos do dia a dia. Agradeço também a amiga Adriana, pela com-panhia de sempre nos estudos.

Agradeço também aos alunos de iniciação cientíca e de trabalhos de diplomação do VIPLAB e todos que de alguma forma contribuíram para a conclusão deste trabalho.

(6)

Pesquisas envolvendo recuperação de vídeo em grandes bases de dados têm experimentado um grande aumento. Isso se deve pelo fato da crescente popularidade da utilização de vídeos pelos diversos setores da sociedade. Sistemas para recuperação de vídeos têm sido muito utilizados, surgindo a necessidade de utilizar meios para prover o armazenamento e recuperação destes tipos de mídia. A maneira mais comum utilizada para consulta na base destes sistemas é por meio de palavras-chave, porém este tipo de consulta não é eciente para recuperação de vídeos relevantes. Desta forma, torna-se importante o estudo de técnicas para facilitar a recuperação de vídeos baseada no conteúdo visual e que sejam relevantes para o usuário. O presente trabalho tem como objetivo principal a análise comparativa do uso de estruturas métricas para a indexação e a recuperação de vídeos utilizando vocabulário visual. Os experimentos realizados neste trabalho mostram que a quantidade de informação e a alta complexidade dos dados utilizados para descrever os vídeos ainda são fatores que impactam na recuperação eciente do conteúdo, porém, cou evidenciado que algumas estruturas métricas apresentam comportamento muito satisfa-tório para recuperação de vídeos, principalmente se forem aliadas a uma estratégia que incorpore informações sobre a distribuição espacial das palavras do vocabulário visual.

(7)

Research involving video retrieval in large databases have experienced a large increase due to the popularity of videos utilization by various society sectors. Videos retrieval systems have been used, resulting in the need for means to provide the storage and retrieval of these media types. The most common way used as query in these systems database is through keywords. However, this type of query is not ecient for retrieving relevant videos. Thus, it becomes important to study techniques to facilitate the retrieval of videos based on visual content that is relevant to the user. The present work has as main objective the comparative analysis of metric structures to indexing and retrieval of video using visual vocabulary. The conducted experiments in this master thesis show that the amount of information and the high complexity of the data used to describe the videos are still factors that impact on ecient recovery of contents. This work has shown that some structures exhibit strong performance metrics for video retrieval, mainly if combined with a strategy that incorporates information about the spatial distribution of visual words in the vocabulary.

(8)

FIGURA 1 Extração de Features. Fonte: Elaborada pelo autor. . . 21

FIGURA 2 Processo genérico de indexação. Fonte: Elaborada pelo autor. . . 21

FIGURA 3 Processo genérico de busca. Fonte: Elaborada pelo autor. . . 22

FIGURA 4 Método de sumarização. Fonte: (AVILA, 2008). . . 27

FIGURA 5 Uso de um descritor D. Fonte: (TORRES; FALCÃO, 2006). . . 27

FIGURA 6 Uso de um descritor composto. Fonte: (TORRES et al., 2005). . . 28

FIGURA 7 Histograma de cor gerado a partir de uma imagem. Fonte: Elaborada pelo autor. . . 29

FIGURA 8 Exemplo de características locais / pontos de interesse. Fonte: ( TUY-TELAARS; MIKOLAJCZYK, 2008). . . 30

FIGURA 9 Classe de transformações necessárias para lidar com as mudanças de ponto de visão. Em (a) e (b) regiões circulares de tamanho xo não são sucientes para lidar com a mudança do ponto de visão. Foi necessário um deformação na região circular, gerando uma elipse apresentada em (c). Fonte: (MIKOLAJCZYK et al., 2005). . . 31

FIGURA 10 Harris-Ane. Fonte: (MIKOLAJCZYK et al., 2005). . . 31

FIGURA 11 MSER. Fonte: (MIKOLAJCZYK et al., 2005). . . 32

FIGURA 12 Representa cada região por um Histograma das orientações dos gra-dientes, correspondendo ao tamanho das setas no lado direito da gura,

(9)

FIGURA 13 Representação por bag of feature. Fonte: Adaptada de Lopes, Avila e Peixoto (2009). . . 35

FIGURA 14 Arquivo invertido para indexação de Bag of Features. Fonte: Elaborada pelo autor. . . 36

FIGURA 15 Representação 2D da M-Tree. Fonte: (ZEZULA et al., 2006). . . 38

FIGURA 16 Um exemplo do algoritmo de Slim-Down. O elemento Si a esquerda

passa a pertencer a outra região, reduzindo o raio de uma das regiões, sem aumentar o raio da outra. Fonte: Adaptada de Zezula et al. (2006). . . . 39

FIGURA 17 Ilustração da estrutura de uma D-Index. Fonte: Adaptada de Zezula et al. (2006). . . 39

FIGURA 18 Diagrama da estrutura D-Index. Fonte: (DOHNAL, 2004). . . 40

FIGURA 19 Processo de indexação de vídeo. Fonte: Elaborada pelo autor. . . 43

FIGURA 20 Processo de amostragem aleatória dos quadros-chave do vídeo. Fonte: Elaborada pelo autor. . . 44

FIGURA 21 Regiões de interesse de um quadro do vídeo. Em (a) são exibidas as regiões de interesse detectadas pelo Harris Ane e em (b) regiões de interesse detectadas pelo MSER. Fonte: Elaborada pelo autor. . . 45

FIGURA 22 Processo de criação do vocabulário visual. Fonte: Elaborada pelo au-tor. . . 47

FIGURA 23 Processo de inserção do vocabulário visual no índice. Fonte: Elaborada pelo autor. . . 48

(10)

Ela-FIGURA 25 Criação das bag of features dos quadros do vídeo. Fonte: Elaborada pelo autor. . . 50

FIGURA 26 Processo de indexação dos quadros-chave. Fonte: Elaborada pelo au-tor. . . 50

FIGURA 27 Processo de busca. Fonte: Elaborada pelo autor. . . 51

FIGURA 28 Em (a) Passos 1 e 2 do processo de consistência espacial, em (b) seleção das palavras espacialmente mais próximas do quadro da base e da imagem de consulta, em (c) e (d) passo 7 dos processo de consistência espacial. Fonte: Adaptada de Sivic (2006). . . 54

FIGURA 29 Histogramas da distribuição de distâncias dos vocabulários gerados. Fonte: Elaborada pelo autor. . . 58

FIGURA 30 Quadros do vídeo utilizados para consultas. O retângulo na imagem representa a região que será utilizada para consulta. Fonte: Elaborada pelo autor. . . 59

FIGURA 31 (a) Gráco do número total de acessos a disco realizado por cada es-trutura para criar o índice do arquivo invertido em função do tamanho do vocabulário visual e (b) Gráco do número total de cálculos de distância realizado por cada estrutura para criar o índice do arquivo invertido em função do tamanho do vocabulário visual. Fonte: Elaborada pelo autor. 61

FIGURA 32 (a) Gráco do número total de acessos a disco realizado por cada estru-tura para indexação dos quadros do vídeo no arquivo invertido em função do tamanho do vocabulário visual, e (b) o gráco do número total de cálculos de distância realizado por cada estrutura para indexação dos qua-dros do vídeo no arquivo invertido em função do tamanho do vocabulário visual. Fonte: Elaborada pelo autor. . . 62

(11)

nados (∆), para cada uma das quatro estruturas analisadas, com vocabu-lário de tamanho 4000 e sem consistência espacial. Fonte: Elaborada pelo autor. . . 64

FIGURA 34 Valores médios do F1-Score em função da quantidade de quadros

re-tornados (∆), após a realização do processo de consistência espacial para vocabulário de tamanho 4000. Fonte: Elaborada pelo autor. . . 64

FIGURA 35 Valores médios de acessos a disco em função da quantidade de quadros retornados (∆), para vocabulário de tamanho 4000. Fonte: Elaborada pelo autor. . . 66

FIGURA 36 Valores médios de cálculos de distância em função da quantidade de quadros retornados, sem realização da consistência espacial e para voca-bulário de tamanho 4000. Fonte: Elaborada pelo autor. . . 67

FIGURA 37 Percentual do número de cálculos de distância necessários para se rea-lizar a consistência espacial em relação ao número total de cálculos de distância para cada valor de ∆ e para vocabulário de tamanho 4000. Fonte: Elaborada pelo autor. . . 67

FIGURA 38 Valores médios de F1-Score em função de ∆, para vocabulário de

ta-manho 8000. Fonte: Elaborada pelo autor. . . 70

FIGURA 39 Valores médios do F1-Score em função de ∆, após a realização do

pro-cesso de consistência espacial, para vocabulário de tamanho 8000. Fonte: Elaborada pelo autor. . . 71

FIGURA 40 Número médio de acessos a disco em função de ∆, para vocabulário de tamanho 8000. Fonte: Elaborada pelo autor. . . 72

FIGURA 41 Valores médios de cálculos de distância em função de ∆, sem realiza-ção da consistência espacial e para vocabulário de tamanho 8000. Fonte:

(12)

FIGURA 45 Número médio de acessos a disco em função de ∆, para vocabulário de tamanho 16000. Fonte: Elaborada pelo autor. . . 77

FIGURA 46 Valores médios de cálculos de distância em função de ∆, sem realiza-ção da consistência espacial e para vocabulário de tamanho 16000. Fonte: Elaborada pelo autor. . . 78

FIGURA 48 Valores médios de F1-Score em função de ∆, para vocabulário de

ta-manho 32000. Fonte: Elaborada pelo autor. . . 80

(13)

FIGURA 51 Valores médios de cálculos de distância em função de ∆, sem realiza-ção da consistência espacial e para vocabulário de tamanho 32000. Fonte: Elaborada pelo autor. . . 82

FIGURA 53 Valores médios de F1-Score sem realização da consistência espacial, em

função do tamanho do vocabulário visual utilizado. Fonte: Elaborada pelo autor. . . 85

FIGURA 54 Valores médios do F1-Score em função do tamanho do vocabulário

visual, após consistência espacial. Fonte: Elaborada pelo autor. . . 87

FIGURA 55 Número médio de acessos a disco em função do tamanho do vocabulário visual. Fonte: Elaborada pelo autor. . . 87

FIGURA 56 Número médio de cálculos de distância em função do tamanho do vo-cabulário visual. Fonte: Elaborada pelo autor. . . 88

FIGURA 57 Valores médios para o número de acessos a disco e cálculos de distân-cia das quatro estruturas antes da realização da consistêndistân-cia espadistân-cial, (a) valores para D-Index, (b) valores para M-Tree, (c) valores para Slim-Tree e (d) valores para estrutura de acesso sequencial. Fonte: Elaborada pelo autor. . . 90

FIGURA 58 Valores médios de F1-Score sem a realização da consistência espacial

em função das estruturas de indexação e do tipo de segmentação realizada. Fonte: Elaborada pelo autor. . . 91

(14)

função das estruturas e segmentação utilizadas. Fonte: Elaborada pelo autor. . . 92

FIGURA 60 Taxa de F1-Score em função das estruturas de indexação utilizadas.

Fonte: Elaborada pelo autor. . . 93

FIGURA 61 Número de acessos a disco para criação das estrutura de indexação por amostragem e por detecção de tomadas. Fonte: Elaborada pelo autor. 93

FIGURA 62 Resultado da avaliação qualitativa sem processo de consistência espacial na consulta número 5. Fonte: Elaborada pelo autor. . . 94

FIGURA 63 Resultado da avaliação qualitativa com processo de consistência espa-cial na consulta número 5, no qual sua realização não impactou de forma considerável o resultado da busca. Fonte: Elaborada pelo autor. . . 95

FIGURA 64 Resultado da avaliação qualitativa sem processo de consistência espacial na consulta número 9. Fonte: Elaborada pelo autor. . . 96

FIGURA 65 Resultado da avaliação qualitativa com processo de consistência es-pacial na consulta número 9, no qual sua realização impactou de forma considerável o resultado da busca. Fonte: Elaborada pelo autor. . . 97

(15)

QUADRO 1 Revisão de detectores de características. Fonte: Adaptado de Tuyte-laars e Mikolajczyk (2008). . . 33

(16)

TABELA 1 Informações sobre vocabulários visuais utilizados. Fonte: Elaborada pelo autor. . . 57

TABELA 2 Groundtruth das consultas. Fonte: Elaborada pelo autor. . . 59

TABELA 3 Valores totais de acessos a disco e cálculos de distância para cada uma das estruturas analisadas e cada tamanho do vocabulário. Fonte: Elaborada pelo autor. . . 62

TABELA 4 Valores totais de acessos a disco e cálculos de distâncias para cada estrutura e cada tamanho de vocabulário na indexação. Fonte: Elaborada pelo autor. . . 63

TABELA 5 Valores médios de Revocação, Precisão e F1-Score para as consultas

realizadas, antes da realização da consistência espacial e para vocabulário de tamanho 4000. Fonte: Elaborada pelo autor. . . 65

rea-lizadas após a consistência espacial, para vocabulário de tamanho 4000. Fonte: Elaborada pelo autor. . . 66

TABELA 7 Valores médios para o número de acessos a disco e cálculos de distância das estruturas sem realização da consistência espacial e para vocabulário de tamanho 4000. Fonte: Elaborada pelo autor. . . 68

TABELA 8 Valores médios de cálculos de distância para realizar a consistência espacial e os valores totais de cálculos de distâncias da busca ao nal do processo da consistência espacial, para vocabulário de tamanho 4000. Fonte: Elaborada pelo autor. . . 69

(17)

antes da realização da consistência espacial e para vocabulário de tamanho 8000. Fonte: Elaborada pelo autor. . . 70

após a consistência espacial, para vocabulário de tamanho 8000. Fonte: Elaborada pelo autor. . . 71

TABELA 13 Valores médios de Revocação, Precisão e F1-Score para as consultas,

(18)

rea-lizadas em diferentes vocabulários sem realização da consistência espacial. Fonte: Elaborada pelo autor. . . 86

realizadas em diferentes vocabulários após a consistência espacial. Fonte: Elaborada pelo autor. . . 86

TABELA 23 Valores médios para o número de acessos a disco e cálculos de distância das quatro estruturas. Fonte: Elaborada pelo autor. . . 89

TABELA 24 Valores médios para cálculos de distância para se realizar a consistência espacial e valores médios totais de cálculos de distância. Fonte: Elaborada pelo autor. . . 89

TABELA 25 Valores médios de Revocação, Precisão e F1-Score para as buscas

(19)

RGB Red, Green, Blue HSV Hue, Saturation, Value HSI Hue, Saturation, Intensity

MSER Maximally Stable Extremal Region EBR Edge-Based Region

SIFT Scale Invariant Feature Transform PCA-SIFT Principal Components Analysis - SIFT GLOH Gradient Location-Orientation Histogram CBS Columbia Broadcasting System

vp Número de resultados verdadeiros positivos fp Número de resultados falsos positivos fn Número de resultados falsos negativos

(20)

1 INTRODUÇÃO. . . 20 1.1 Objetivos . . . 22 1.1.1 Objetivo Geral . . . 22 1.1.2 Objetivos Especícos . . . 23 1.2 Justicativas . . . 23 1.3 Principais Contribuições . . . 24 1.4 Organização do Texto . . . 24

2 CONCEITOS E TRABALHOS CORRELATOS. . . 25

2.1 Vídeo Digital . . . 25

2.2 Segmentação/Sumarização . . . 25

2.2.1 Descritores de características . . . 27

2.2.1.1 Descritores de cor . . . 28

2.2.1.2 Descritores de textura . . . 29

2.2.2 Características locais de uma imagem . . . 30

2.2.3 Regiões de interesse de uma imagem . . . 30

2.2.3.1 Detectores de características de imagem . . . 31

2.2.3.2 Descritores de regiões de interesse . . . 32

2.3 Vocabulário Visual . . . 33 2.3.1 Clusterização . . . 33 2.3.2 Bag of features . . . 34 2.4 Indexação e Busca . . . 35 2.4.1 Arquivos Invertidos . . . 35 2.4.2 Estruturas Métricas . . . 37 2.4.2.1 M-Tree . . . 37 2.4.2.2 Slim-Tree . . . 38 2.4.2.3 D-Index . . . 39 2.5 Trabalhos Relacionados . . . 41

3 INDEXAÇÃO E RECUPERAÇÃO DE VÍDEOS UTILIZANDO VO-CABULÁRIO VISUAL . . . 42

(21)

3.1.1 Segmentação do Vídeo . . . 43

3.1.2 Construção do Vocabulário Visual . . . 44

3.1.2.1 Extração de Descritores dos Quadros Selecionados . . . 45

3.1.2.2 Processo de Clusterização . . . 46

3.1.2.3 Eliminação de Stopwords . . . 46

3.1.3 Indexação dos Quadros-chave do Vídeo . . . 47

3.1.3.1 Criação do Índice do Arquivo Invertido . . . 47

3.1.3.2 Extração de Descritores dos Quadros-chave do Vídeo . . . 48

3.1.3.3 Construção de Bag of Features dos Quadros . . . 48

3.1.3.4 Indexação utilizando Arquivo Invertido . . . 49

3.2 Processo de Recuperação de Vídeos . . . 51

3.2.1 Consistência Espacial . . . 52

3.3 Utilização de Estruturas Métricas de Indexação . . . 54

3.4 Considerações Finais . . . 55

4 ANÁLISE DA UTILIZAÇÃO DE ESTRUTURAS MÉTRICAS NA INDEXAÇÃO E RECUPERAÇÃO DE VÍDEOS . . . 56

4.1 Parâmetros de Testes . . . 56

4.2 Criação do Vocabulário Visual . . . 57

4.3 Descrição do Groundtruth . . . 58

4.4 Descrição dos Testes Realizados . . . 59

4.5 Avaliação dos Resultados da Indexação . . . 60

4.6 Métricas para Avaliação dos Resultados das Consultas . . . 63

4.7 Avaliação dos Resultados das Consultas Obtidos em Função do Tamanho do Vocabulário . . . 65

4.7.1 Resultados para o Vocabulário de Tamanho 4000 . . . 65

4.7.5 Resultados Obtidos em Função da Variação do Tamanho do Vo-cabulário Visual . . . 85

4.8 Resultados Obtidos Utilizando Segmentação por Detecção de To-madas . . . 91

4.9 Análise Qualitativa dos Resultados . . . 93

(22)

5.1 Trabalhos Futuros . . . 100 REFERÊNCIAS . . . 102

(23)

1 INTRODUÇÃO

Pesquisas envolvendo recuperação de vídeo em grandes bases de dados têm ex-perimentado um grande aumento. Isso se deve pelo fato da crescente popularidade da utilização de vídeos pelos diversos setores da sociedade. O avanço tecnológico tem faci-litado consideravelmente o crescimento dessa popularidade. Segundo Shao, Shen e Zhou (2008), com os avanços do hardware, principalmente em relação a queda do custo de ar-mazenamento, e também com o avanço dos softwares, como os aplicativos para edição de vídeo, há hoje uma grande quantidade de dados de vídeos sendo utilizados em di-versos campos, como em arquivos de vídeo pessoal, comercial e organizacional. Shao, Shen e Zhou (2008) ressaltam também que a disseminação do acesso a banda larga tem contribuído muito para a popularidade de vídeos também na Web. Haja vista a grande quantidade de vídeos publicados nas diversas plataformas abertas para visualização e compartilhamento de conteúdo multimídia disponíveis hoje na Internet.

Sistemas para recuperação de vídeos têm sido muito utilizados, principalmente na Internet. Desta forma, surge então a necessidade de utilizar meios para prover o armazenamento e recuperação destes tipos de mídia. A maneira mais comum utilizada para consulta na base destes sistemas é por meio de palavras-chave, em que a consulta é realizada em metadados cadastrados para cada vídeo na base de dados, e assim os vídeos são retornados ao usuário como resultado da busca.

Devido a alta complexidade dos arquivos de vídeo e a grande quantidade de dados a serem armazenados, este tipo de consulta não é eciente para recuperação de vídeos relevantes, o que torna a busca ineciente, devido ao resultado pouco relevante para o usuário. Segundo Shao, Shen e Zhou (2008) esta abordagem é inadequada para busca baseada em similaridade em grandes base de dados de vídeo, uma vez que é uma tarefa que envolve esforço humano, e assim descrições erradas e incompletas podem ser realizadas e impactar negativamente o resultado da busca. Desta forma, torna-se importante o estudo de técnicas para facilitar a recuperação de vídeos relevantes para o usuário.

Diferentemente da busca baseada em metadados, a busca baseada em conteúdo do vídeo é complicada pois os arquivos são complexos e difíceis de serem manipulados e armazenados de forma eciente. Um vídeo pode conter um enorme volume de informação, tanto em relação ao seu tamanho como também quanto as várias informações contidas em cada quadro, como, por exemplo, a escala de cor de cada pixel. Devido a esse alto

(24)

Figura 1: Extração de Features. Fonte: Elaborada pelo autor.

volume de informação o processo de busca de vídeos em uma base de dados torna-se lento e complexo. Sendo assim, de maneira geral, para a indexação de uma coleção de vídeos é necessário, primeiramente, extrair características de cada quadro de um vídeo. Após realizada esta extração, tem-se um vetor de características multidimensional que representa o conteúdo do vídeo, contendo informações sobre cor, textura, luminosidade, entre outras.

Após obtenção destes vetores de características é necessário realizar uma suma-rização para reduzir a quantidade de dados que serão posteriormente armazenados. A Figura 1 apresenta o processo de extração de características e sumarização de um vídeo. Na Figura 1 também é apresentado outros dois métodos para produzir um vetor de características sumarizado. Um deles baseia-se em, primeiramente, realizar a sumarização do vídeo, reduzindo assim o número de quadros que o vídeo contém, para posteriormente ser realizado a extração das características nos quadros do vídeo sumarizado. O outro método consiste em realizar uma extração de características que também realiza a suma-rização do vídeo, gerando um vetor de características sumarizado.

Após todo o processo de obtenção destes vetores de características é necessário

(25)

Figura 3: Processo genérico de busca. Fonte: Elaborada pelo autor.

armazená-los em uma estrutura de indexação. Neste processo, cada vetor de característi-cas será indexado e esses vetores serão a representação de cada vídeo da coleção na base de dados, como apresentado na Figura 2.

Por m, o processo de busca na estrutura de indexação deverá ser realizado, para isto é necessário ter uma imagem ou um vídeo para consulta. Para o processo de busca, é necessário realizar o mesmo processo descrito anteriormente de processamento do vídeo, para o vídeo da consulta. Assim, é realizada a extração de características e sumarização do vídeo, para obter o vetor de características, e então será realizada uma busca por similaridade na estrutura de indexação para encontrar o vídeo mais similar, ou encontrar os vídeos que são mais similares ao vídeo da consulta. A Figura 3 apresenta como é realizado este processo de busca.

Como motivação para a presente proposta destaca-se a crescente utilização de arquivos de vídeos em diversos setores da sociedade, principalmente na Internet com plataformas de compartilhamento de vídeo, e com isso surge a necessidade de técnicas ecientes para armazenamento e busca deste tipo de conteúdo.

1.1 Objetivos

Esta seção descreve o objetivo principal deste trabalho juntamente com seus obje-tivos especícos.

1.1.1 Objetivo Geral

Este trabalho tem como objetivo principal realizar uma análise comparativa do uso de estruturas métricas para a indexação e recuperação de vídeos utilizando vocabulário visual.

(26)

1.1.2 Objetivos Especícos

Os objetivos especícos deste trabalho são:

a) aplicar duas abordagem para segmentação de vídeo e realizar uma análise do impactos das diferentes abordagem na etapa de recuperação;

b) aplicar técnicas de detecção de regiões de interesse e extração de descritores sobre os quadros do vídeo;

c) construir vocabulários visuais de diferentes tamanhos, por meio de clusteriza-ção dos descritores do vídeo, para análise do impacto do tamanho do vocabu-lário na indexação e recuperação do vídeo;

d) Construir uma estrutura de arquivo invertido para indexação dos quadros-chave do vídeo;

e) implementar quatro estruturas de indexação, sendo três métricas e uma de acesso sequencial, para armazenar o vocabulário visual;

f) realizar experimentos de indexação e busca com as diferentes estruturas de indexação e avaliar o comportamento em relação a variação do vocabulário; e g) implementar técnica de consistência espacial de reclassicação do resultado

para avaliar o impacto desta abordagem na recuperação do vídeo. 1.2 Justicativas

O crescente aumento na utilização de arquivos de vídeos tem feito com que a busca de vídeos por similaridade seja de grande importância para a recuperação de vídeos que sejam relevantes para o usuário.

A alta complexidade de conteúdo baseado em vídeo tem dicultado o bom de-sempenho e a rápida recuperação deste tipo de conteúdo, tendo assim, como principais desaos para a recuperação de vídeo, a representação ecaz e compacta do vídeo, as mé-tricas ecientes de similaridade e a indexação eciente das representações compactas dos vídeos (SHEN; OOI; ZHOU, 2005).

A manipulação de arquivos de vídeos é dicultada devido a alta complexidade deste tipo de arquivos e, em grande parte, também são muito grandes para serem facilmente armazenados. Desta forma, para um armazenamento eciente destes arquivos torna-se necessário a utilização de técnicas para reduzir o tamanho destes vídeos para então serem indexados em uma estrutura apropriada.

(27)

1.3 Principais Contribuições

Com base nos objetivos apresentados nesta proposta, pode-se destacar as seguintes contribuições deste trabalho:

a) Avaliação do impacto da variação do tamanho do vocabulário visual no pro-cesso de indexação e recuperação do vídeo;

b) Avaliação do impacto da realização da consistência espacial para reclassicação dos quadros-chave do vídeo na etapa de busca;

c) Avaliação do impacto da escolha das técnicas de segmentação do vídeo, por amostragem dos quadros e por detecção de tomadas, sobre o processo de busca de vídeos;

d) Desenvolvimento de uma ferramenta para recuperação de vídeos por uma ima-gem de consulta ou mesmo por uma região da imaima-gem de consulta; e

e) Análise qualitativa e quantitativa do comportamento de quatro diferentes es-truturas para indexação e recuperação de dados multidimensionais aplicadas à indexação de vídeo.

1.4 Organização do Texto

Este trabalho contém cinco capítulos, organizados da seguinte forma. O Capítulo 2 apresenta o referencial teórico sobre os principais conceitos utilizados neste trabalho e trabalhos relacionados. O Capítulo 3 contém a metodologia proposta pelo trabalho. No Capítulo 4 são apresentados os experimentos realizados neste trabalho. No capítulo 5 são apresentadas as conclusões deste trabalho e sugestões de trabalhos futuros.

(28)

2 CONCEITOS E TRABALHOS CORRELATOS

Este capítulo aborda os principais conceitos e trabalhos relacionados de modo a fundamentar cada etapa do processo de indexação e recuperação de vídeo e está organizado da seguinte forma. Na seção 2.1, descreve-se o conceito de vídeo digital. Já a seção 2.2 aborda os conceitos de segmentação, sumarização de vídeo e os principais os conceitos de detecção e descrição de regiões de interesse. A seção 2.3 apresenta os conceitos de vocabulário visual e Bag of Features utilizada para representar os quadros do vídeos. A seção 2.4 apresenta os conceitos das estruturas métricas utilizadas neste trabalho. Por m, na seção 2.5 serão apresentados os principais trabalhos relacionados.

2.1 Vídeo Digital

Tipicamente os vídeos são compostos por uma sequência de quadros, estes quadros são imagens estáticas que são exibidas continuamente em um determinado período de tempo (geralmente um vídeo é composto por 24 ou 30 quadros por segundo).

Sendo A ⊂ N2_{, A = {0, · · · , W − 1}×{0, · · · , H − 1}, em que W e H são a largura}

e altura de cada quadro, respectivamente, e, T ⊂ N, T = {0, · · · , N − 1}, em que N é o tamanho de um vídeo, Guimarães et al. (2009) denem o conceito de quadro e vídeo como segue:

Um quadro f é uma função de A para o subconjunto de N, em que para cada posição no espaço (x, y) em A, f (x, y) representa o valor na escala de cinza (ou cor) na posição do pixel (x, y). O intervalo no valor da escala de cinza (ou cor) em N depende do número de bits por pixel do quadro.

Um vídeo VN, no domínio A × T, pode ser visto como uma sequência de quadros

f. Ele pode ser descrito pela Equação 1.

VN = (f)_t∈T (1)

em que N é o número de quadros contidos no vídeo. 2.2 Segmentação/Sumarização

Um modelo hierárquico para análise de vídeo e segmentação normalmente é divi-dido em quatro níveis baseando-se na dimensão temporal. No nível mais baixo, pode ser

(29)

encontrada a mais básica unidade, um único quadro do vídeo. Vários destes quadros jun-tos formam uma tomada, que representam uma gravação contínua de câmera. Algumas tomadas que apresentam uma coerência narrativa são agrupadas em cenas, e seu conjunto corresponde ao vídeo (GUIMARÃES et al., 2009).

Normalmente a segmentação é considerada a primeira etapa no processo de análise e indexação de vídeos. A detecção de transições de tomadas é parte deste processo e con-siste em identicar o limite entre duas tomadas consecutivas. Em Guimarães et al. (2009) é apresenta uma abordagem para detecção de transições abruptas entre duas tomadas, envolvendo a comparação do conteúdo entre dois quadros.

No trabalho de Patrocínio Jr. et al. (2010) foi proposto uma abordagem para identicação de transições, tanto abruptas quanto graduais, usando como medida de dis-similaridade a cardinalidade máxima do matching calculado usando um grafo bipartido em relação à uma janela deslizante.

Após as tomadas de um vídeo serem identicadas, é então realizada a extração dos quadros-chave, que podem ser selecionados por amostragem, como apresentado em Mendi e Bayrak (2010), ou até mesmo ser utilizada técnicas de sumarização de vídeo.

Sumarização de vídeo é o processo de extração de uma representação compacta (resumo) sobre a estrutura de um vídeo, devendo esta ser menor do que o vídeo origi-nal (SEBE; LEW; SMEULDERS, 2003). Segundo Avila (2008), o objetivo da sumarização é fornecer de forma rápida e concisa o conteúdo do vídeo sem que haja perda da infor-mação original. Desta forma, os resumos produzidos podem ser usados para facilitar a recuperação de vídeos em uma grade base de dados. A partir de técnicas de sumarização existentes é possível extrair quadros chaves de um vídeo, estes quadros são chamados de key-frames, ou quadros-chave. Essa abordagem gera um conjunto de imagens estáticas. Estes quadros devem ser o mais signicantes possível em relação ao conteúdo original do vídeo.

No trabalho de Avila (2008) foi proposto uma metodologia para sumarização au-tomática de vídeos baseada na extração de características de baixo nível das imagens e na utilização de um algoritmo de agrupamento. A utilização de um algoritmo de agrupa-mento tem o objetivo de produzir resumos através do agrupaagrupa-mento dos quadros do vídeo baseado na similaridade entre eles.

A Figura 4 ilustra a metodologia proposta por Avila (2008), em que baseia-se primeiramente na realização da segmentação do vídeo em quadros, posteriormente ocorre a extração de características, em seguida os quadros são agrupados e o quadro mais signicativo de cada grupo é selecionado. Após a seleção, elimina-se do conjunto os

(30)

Figura 4: Método de sumarização. Fonte: (AVILA, 2008).

quadros semelhantes. E então, um resumo do vídeo é gerado. 2.2.1 Descritores de características

O tipo mais simples de representar os quadros que compõe o vídeo utiliza caracte-rísticas de imagem de baixo nível (propriedades dos pixels), tais como cor, textura, região ou borda (BROWNE; SMEATON, 2005). O cálculo da similaridade entre dois quadros do

vídeo é realizado por meio de descritores. Segundo Torres et al. (2008) um descritor pode ser caracterizado por uma função de extração de características (utiliza técnicas de processamento de imagens para gerar o vetor de características) e por uma função de distância que calcula a similaridade entre os vetores de características dos vídeos.

Segundo Torres e Falcão (2006), um vetor de características ~v_Î de uma imagem Î pode ser considerado como um ponto no espaço Rn _{: ~}_v

Î = (v1, v2, . . . , vn), onde n é a

dimensão do vetor.

Torres e Falcão (2006) denem formalmente um descritor de imagem D como uma tupla (D, δD), em que:

a) D:Î → Rné uma função, que extrai um vetor de características ~vÎ de uma imagem

Î ; e

b) δD : Rn × Rn → Rn é uma função de similaridade que calcula a similaridade

(31)

Figura 6: Uso de um descritor composto. Fonte: (TORRES et al., 2005).

tre duas imagens como o inverso da distância entre seus vetores de características correspondentes.

Ainda segundo Torres e Falcão (2006), pode-se observar na Figura 5 a utilização de um descritor para o cálculo da similaridade entre duas imagens. A função D extrai

os vetores de características ~v_Î_A e ~v_Î_B da imagens ÎA e ÎB, respectivamente. Em seguida,

a função de similaridade δD é utilizada para calcular o valor da similaridade d entre as

duas imagens da consulta.

Um fator muito comum em sistemas de recuperação de imagem e vídeo é a com-binação de dois ou mais descritores para a extração de características de uma imagem. Sendo assim, Torres et al. (2005) denem um descritor compostoDb como sendo um par (D, δ_D), em que:

a) D = {D1,D2, . . . ,Dk}é um conjunto de k descritores simples pré-denidos; e

b) δD é uma função de similaridade que combina os valores de similaridade obtidos de

cada descritor Di ∈D, i = 1,2,. . . ,k.

A Figura 6 apresenta o funcionamento de um descritor composto. 2.2.1.1 Descritores de cor

Os descritores de cor são os mais utilizados para representação de imagens. A informação sobre a cor é representada como um ponto em um espaço tridimensional. Existem vários modelos de cores que permitem sua especicação de forma padronizada, como caso do RGB (Red, Green, Blue), o HSV (Hue, Saturation, Value), o HSI (Hue,

(32)

Figura 7: Histograma de cor gerado a partir de uma imagem. Fonte: Elaborada pelo autor.

Saturation, Intensity), o YCbCr (muito utilizado em vídeos), entre outros (PEDRINI;

SCHWARTZ, 2007).

Almeida et al. (2008) classicam descritores de cor em três tipos: descritores de abordagem global, baseado em partição ou baseado em região (local). Os descritores baseados na abordagem global compreendem métodos que descrevem globalmente a dis-tribuição de cores na imagem.

No caso dos descritores baseado em partição o objetivo é decompor espacialmente a imagem em um número xo de regiões para obter a distribuição espacial de cor. Os descritores de cor baseado em região têm o objetivo de encontrar grupos similares de pixels em uma imagem (ALMEIDA et al., 2008).

O descritor de cor mais comum é o histograma, com ele é possível descrever glo-balmente o conteúdo de cor de uma imagem pelo percentual de pixels de cada cor. Este descritor é invariante quanto a translação e rotação da imagem e não considera a distri-buição espacial de cor (TORRES; FALCÃO, 2006).

Segundo Pedrini e Schwartz (2007, p.104), o histograma de uma imagem corres-ponde à distribuição dos níveis de cinza da imagem, o qual pode ser representado por um gráco indicando o número de pixels na imagem para cada nível de cinza.

A Figura 7 ilustra uma imagem e o histograma gerado a partir dela. 2.2.1.2 Descritores de textura

Não existe, na literatura, um consenso ou uma denição formal para textura. Mas Tamatura et al. citado por Pedrini e Schwartz (2007, p.287) arma que, a textura é constituinte de uma região macroscópica, em que sua estrutura é formada pela repetição de padrões, nos quais seus elementos ou primitivas encontram-se arranjados conforme uma regra de composição.

Segundo Pedrini e Schwartz (2007, p.288), a extração de características de texturas é responsável por executar transformações nos dados de entrada, de modo a descrevê-los

(33)

de maneira simplicada, porem, representativa. 2.2.2 Características locais de uma imagem

Segundo Tuytelaars e Mikolajczyk (2008, p.178), Uma característica local é um padrão de imagem que difere da sua vizinhança imediata. É geralmente associada com uma mudança de uma propriedade de imagem ou várias propriedades simultaneamente, embora não seja necessariamente localizada exatamente sobre essa mudança.

As propriedades da imagem comumente considerados são a intensidade, cor e tex-tura, apresentadas anteriormente. A Figura 8 apresenta um exemplo de características locais que, neste caso, são identicadas por pontos em uma imagem (comumente chamados de pontos de interesse em uma imagem) (TUYTELAARS; MIKOLAJCZYK, 2008).

2.2.3 Regiões de interesse de uma imagem

Nas subseções anteriores, foram apresentados algumas técnicas para descrever uma imagem, baseado em descritores de baixo nível. Entretanto, existem métodos que detec-tam regiões de interesse em uma imagem que, em seguida, são descritas por descritores de imagem. Estas regiões são chamadas de regiões ans covariantes.

Regiões ans covariantes, segundo Mikolajczyk et al. (2005), são regiões que devem corresponder às mesmas características da imagem original, ou seja, sua forma não é xa, mas adapta-se automaticamente correspondendo as mesmas regiões da imagem subjacente de diferentes pontos de vista, de modo que elas são a projeção da mesma superfície 3D. Na Figura 9 é apresentado um exemplo de regiões ans covariantes.

Figura 8: Exemplo de características locais / pontos de interesse. Fonte: (TUYTELAARS;

(34)

(a) (b) (c)

Figura 9: Classe de transformações necessárias para lidar com as mudanças de ponto de visão. Em (a) e (b) regiões circulares de tamanho xo não são sucientes para lidar com a mudança do ponto de visão. Foi necessário um deformação na região circular, gerando uma elipse apresentada

em (c). Fonte: (MIKOLAJCZYK et al., 2005).

2.2.3.1 Detectores de características de imagem

A ideia dos detectores de regiões de interesse em uma imagem, segundo Sivic e Zisserman (2008), é permitir o reconhecimento de objetos em imagens, apesar das mu-danças em perspectiva, iluminação e oclusão parcial. Essas regiões são um subconjunto de pixels da imagem. Estes métodos de detecção diferem da detecção e segmentação clássica, pois os limites da região não têm que ser correspondentes às mudanças na aparência da imagem como cor ou textura.

Em Mikolajczyk et al. (2005), são apresentados vários métodos para detectar re-giões de interesse. Na Figura 10 é apresentado o resultado de um dos detectores, chamado Harris-Ane. As elipses na gura são uma adaptação sobre os pontos de interesse da imagem.

O Harris-Ane caracteriza-se por detectar cantos ou junções presentes na imagem. que são regiões de alta curvatura. Segundo Pedrini e Schwartz (2007, p.168), uma junção pode ser denida como um ponto de intersecção entre dois ou mais segmentos da borda de objetos. Mais detalhes sobre este detector encontra-se em Mikolajczyk et al. (2005).

(35)

Outro detector de região, mostrado na Figura 11, é o MSER (Maximally Stable Extremal Region). Este detector representa componentes conexos na imagem, em que as propriedade de todos os pixels dentro da região são de maior ou menor intensidade, ou seja, são regiões extremamente brilhantes ou são regiões extremamente escuras, em relação aos demais pixels. Mais detalhes da implementação deste detector podem ser encontrados em Mikolajczyk et al. (2005).

Além dos detectores citados na presente seção, em Tuytelaars e Mikolajczyk (2008) e Mikolajczyk et al. (2005) são apresentados outros detectores juntamente com uma análise comparativa dos mesmo. Entre eles, é importante citar alguns baseado em detecção de canto, como Hessian-Ane e EBR (Edge-Based Region).

O objetivo do Hessian-Ane é detectar pontos de interesse na imagem e determi-nar uma região elíptica para cada um dos pontos. O detector EBR consiste em explorar as bordas presentes na imagem que, por serem características relativamente estáveis, podem ser detectadas por diversos pontos de vista, escalas ou mudanças de iluminação (

MIKO-LAJCZYK et al., 2005).

O Quadro 1 apresenta uma revisão dos resultados de alguns dos principais detec-tores do estudo comparativo realizado por Tuytelaars e Mikolajczyk (2008). Os audetec-tores classicaram os detectores em diferentes grupos, sendo que todos os detectores apresen-tados nesta tabela são invariantes a rotação, escala e transformação am. Para ns de comparação, é apresentado alguns dos detectores de canto e região. A tabela com os resultados detalhados, pode ser encontrada em Tuytelaars e Mikolajczyk (2008).

2.2.3.2 Descritores de regiões de interesse

Após identicadas as regiões de interesse na imagem, torna-se necessário um mé-todo que descreva as regiões identicadas. Mikolajczyk e Schmid (2005) realizaram uma pesquisa comparativa dos vários descritores presentes na literatura.

(36)

Um destes descritores, proposto por Lowe (1999), é o SIFT (Scale Invariant Feature Transform). Em seu trabalho, Lowe (1999) descreve que esta abordagem de descrição transforma uma imagem em uma grande coleção de vetores de características locais, sendo que cada vetor é invariante a translação, escala e rotação da imagem, e parcialmente invariante a mudanças de iluminação e projeção 3D, conforme ilustrado na Figura 12.

A quantidade de regiões de interesse em uma imagem pode variar em relação ao tipo de detector escolhido e também em relação à imagem a ser descrita, como apresentado no trabalho de Mikolajczyk e Schmid (2005).

Devido a esta quantidade de informações geradas para cada quadro do vídeo a utilização de um descritor que reduza o número de dimensões pode-se tornar vantajoso. Neste caso o PCA-SIFT (Principal Components Analysis - SIFT ) reduz a dimensão do vetor de características para 36 dimensões, reduzindo a quantidade de informação a ser indexada.

Em Mikolajczyk e Schmid (2005) é encontrada uma descrição mais detalhada destes e demais descritores, principalmente quanto a performance de cada um. Para os experi-mentos, os autores utilizaram detectores de regiões como Harris-Ane e Hessian-Ane, e seus resultados mostram que o descritor SIFT foi um dos que obtiveram melhores resul-tados junto com o descritor GLOH (Gradient Location-Orientation Histogram), que é uma extensão do SIFT, mas que foi implementado para aumentar sua robustez e capacidade de distinção.

2.3 Vocabulário Visual 2.3.1 Clusterização

A clusterização é uma das etapas para criar o vocabulário visual de um vídeo. É utilizada para classicação dos descritores em classe de palavras visuais. O problema da clusterização surgiu de diversas aplicações, como mineração de dados e descoberta de conhecimento, segundo Kanungo et al. (2002).

Ainda segundo segundo Kanungo et al. (2002), o método mais usado na literatura

Localização

Detector Canto Região Repetibilidade Exatidão Robustez Eciência

Harris-Ane X +++ +++ ++ ++

Hessian-Ane X +++ +++ +++ ++

EBR X +++ +++ + +

MSER X +++ +++ ++ +++

Quadro 1: Revisão de detectores de características. Fonte: Adaptado de Tuytelaars e Mikolajczyk (2008).

(37)

Figura 12: Representa cada região por um Histograma das orientações dos gradientes, corres-pondendo ao tamanho das setas no lado direito da gura, que é um vetor de 128 dimensões.

Fonte: (LOWE, 2004).

para clusterização é o K-means, proposto por MacQueen (1967), e baseia-se na ideia de que, dado um conjunto de n pontos em um espaço real de d-dimensões Rd_{, e um inteiro}

k, o problema é determinar o conjunto de k pontos em Rd, chamados de centros, com o objetivo de minimizar a distância média entre cada ponto vizinho do centro.

Em Kanungo et al. (2002), ainda foi proposto uma heurística, chamado de Lloyd's algorithm, que baseia-se na ideia de que o posicionamento ideal de um centro é o centroide do cluster associado.

2.3.2 Bag of features

Os quadros do vídeo, para serem indexados, precisam ser representados por algum tipo de informações na base de dados. Lopes, Avila e Peixoto (2009), utilizam o conceito de bag of features, para reconhecimento de objetos em imagem colorida e apresenta o processo geral para sua criação..

A Figura 13, apresenta o processo de criação de uma bag of feature. Na abordagem de Lopes, Avila e Peixoto (2009), em um primeiro momento os pontos de interesse são identicados na imagem, posteriormente estes pontos são descritos por um descritor de pontos de interesse. Na próxima etapa é criado o vocabulário visual, em que cada descritor é associado a um cluster que representa uma palavra visual do vocabulário.

Por m, o histograma (bag of feature) é calculado contando-se a ocorrência de cada palavra para um determinado quadro da base.

(38)

Seleção de Pontos

Descrição de

Pontos _{Classificação}Vocabulário

Associação com cluster

Cálculo do Histograma

Figura 13: Representação por bag of feature. Fonte: Adaptada de Lopes, Avila e Peixoto (2009).

2.4 Indexação e Busca

Busca é uma operação presente em praticamente todas as áreas da computação. Tradicionalmente, as operações de busca são aplicadas à dados estruturados. Esta busca é baseada na exata igualdade entre o objeto de consulta e os objetos armazenados em uma base de dados. Como exemplo deste procedimento de consulta destaca-se os Sistemas de Gerenciamento de Banco de Dados (SGDB) tradicionais.

As bases de dados têm evoluído para o armazenamento de dados não estruturados, como imagens e vídeos, por exemplo. Este tipo de conteúdo tem a desvantagem de ser de difícil manipulação, o que restringe as consultas realizadas sobre eles. Desta forma, surge a necessidade da utilização de modelos de busca mais ecientes do que os modelos utilizados sobre dados estruturados. Neste contexto, a busca por similaridade surge como uma técnica para recuperar os objetos que são similares, ou próximos, ao objeto da consulta

(CHAVEZ et al., 2001).

Segundo Chavez et al. (2001), a similaridade é modelada como uma função de distância que satisfaz a desigualdade triangular, e o conjunto de objetos é chamado de espaço métrico. Esta abordagem baseia-se na função de similaridade que é calculada por meio de um conjunto de vetores de Bag of Features e que se tornam um ponto no espaço multidimensional.

Na literatura existem vários tipos de estruturas de indexação que podem ser utili-zadas para armazenamento e busca de vídeos (neste caso, Bag of Features dos quadros). Uma das estruturas, muito utilizada para busca de atributos textuais, é chamado arquivo invertido.

2.4.1 Arquivos Invertidos

Segundo Frakes e Baeza-Yates (1992), um arquivo invertido é um índice de atribu-tos, sendo que cada atributo contém uma referência a uma lista de documentos que contém

(39)

Clusterização/ Indexação

22 45 51 55 65 78

Bag of Features _{Arquivo de índice –} Classes de descritores

Índice de descritores

Lista encadeada de referências

Sequencial . . . . Indexado

Direto

Figura 14: Arquivo invertido para indexação de Bag of Features. Fonte: Elaborada pelo autor.

o atributo. O uso de um arquivo invertido melhora a eciência da busca, entretanto, como desvantagem é a necessidade de armazenar uma estrutura de dados que varia de 10 a 100 por cento ou mais do tamanho do próprio conteúdo e uma necessidade de atualização desse índice a medida que o conjunto de dados sofre alterações.

Em Frakes e Baeza-Yates (1992) são apresentadas várias estruturas para se im-plementar arquivos invertidos, como os vetores ordenados, que armazenam uma lista de atributos em um vetor ordenado, incluindo um número de documentos associados para cada atributo do vetor ordenado. Os vetores ordenados são rápidos, porém apresentam desvantagem quando a atualização do índice é realizada.

Outra estrutura apresentada é a árvore B, que é muito eciente para dados que são constantemente atualizados. Em relação aos vetores ordenados, a árvore B utiliza mais espaço em disco, porém, além da atualização, a busca também é mais rápida. Mais detalhes destas estruturas podem ser encontradas em Frakes e Baeza-Yates (1992).

No contexto de recuperação de vídeos, pode-se utilizar uma estrutura de arquivo invertido, em que em seu índice, são armazenadas as palavras do vocabulário visual, e cada palavra contém uma referência a uma lista de quadros do vídeo que contém aquela palavra, conforme ilustrado na Figura 14.

O índice do arquivo invertido pode ser implementado através de acesso sequencial, ou através de estruturas de acesso mais eciente, como estruturas multidimensionais. No entanto, para dados adimensionais ou dados de alta dimensionalidade utiliza-se estruturas métricas para lidar com este tipo de dado.

(40)

2.4.2 Estruturas Métricas

Estruturas métricas são estruturas que armazenam objetos utilizando uma função de distância associada a eles. Elas podem ser divididas em estruturas métricas estáticas, em que não permitem inserção e remoção dos elementos após sua criação, e estruturas métricas dinâmicas que são adequadas para inserção e remoção após a criação do índice. No trabalho de Chavez et al. (2001) são apresentadas várias estruturas métricas. Neste trabalho serão apresentadas com mais detalhes as estruturas M-Tree, Slim-Tree e D-Index.

2.4.2.1 M-Tree

A M-Tree foi proposta por Ciaccia, Patella e Zezula (1997), é o primeiro método de acesso dinâmico da literatura. Tem a proposta de organizar um conjunto de um espaço métrico. A M-Tree é uma árvore balanceada, capaz de lidar com arquivos de dados dinâmicos e não requer reorganização periódica.

Seus elementos são todos armazenados em folha e são representados por sua chave ou vetor de característica. Um objeto interno é um conjunto de entradas em que a cada entrada esta associado um ponteiro para a raiz da subárvore. E todos estes objetos têm um raio de cobertura, que é calculado por uma função de distância, pois a M-Tree pode indexar objetos utilizando vetores de características que são comparados por uma função de distância. Um exemplos gráco da representação da M-Tree é apresentado na Figura 15.

No processo de inserção de um novo elemento, é escolhido o nó de menor distância. Caso haja mais de uma opção escolhe-se o nó de representante mais próximo e armazena o novo elemento na folha, caso esta esteja cheia, é necessário particionar o nó (processo conhecido como split), para escolher dois novos representantes e dois novos nós.

Para particionamento do nó, Ciaccia, Patella e Zezula (1997) apresentam cinco algoritmos de escolha de novos representantes:

a) m_RAD (mínimo da soma dos raios): avalia todos os pares de elementos como representantes e promove o par de elementos com menor valor da soma entre os seus raios;

b) mM_RAD (mínimo do máximo dos raios): similar ao m_RAD, porém, pro-move os elementos minimizando o raio máximo dos representantes;

c) M_LB_DIST (distância máxima): mantém o elemento representante já exis-tente como um dos novos representantes, e então promove-se o segundo com maior distância para ele;

(41)

Figura 15: Representação 2D da M-Tree. Fonte: (ZEZULA et al., 2006).

d) RANDOM (aleatória): promove-se dois novos representantes aleatoriamente; e

e) SAMPLING (amostragem e aleatória): seleciona-se aleatoriamente um con-junto de elementos, e dentre os elementos deste concon-junto, promove os elementos cuja soma do raio entre os dois seja a menor.

Na M-Tree, é utilizada como política padrão de escolha dos novos representantes o mínimo do máximo dos raios (mM_RAD) por apresentar os melhores resultados. 2.4.2.2 Slim-Tree

A Slim-Tree, proposta por Traina Jr. et al. (2000), é uma extensão da M-Tree, apresentada anteriormente. É uma árvore dinâmica e balanceada. Como as demais es-truturas, a Slim-Tree agrupa seus elementos em uma página de tamanho xo no disco, sendo que cada página corresponde a um nó da árvore e seus elementos são armazenados em suas folhas.

Diferentemente da M-Tree, a Slim-Tree possui como política padrão de inserção a MINOCCUP, que, ao inserir um novo elemento, seleciona a região da árvore que tem menor ocupação (a região mais vazia), com o objetivo de maximizar a ocupação de cada região. Para particionamento (split), a Slim-Tree utiliza um algoritmos baseado na MST (Minimum Spanning Tree), em que é criada uma Árvore Geradora Mínima para os elemen-tos e remove-se a aresta de maior valor (aresta com maior distância entre dois elemenelemen-tos).

(42)

Srep1 Si Srep2 x Srep1 Si Srep2

Figura 16: Um exemplo do algoritmo de Slim-Down. O elemento Sia esquerda passa a pertencer

a outra região, reduzindo o raio de uma das regiões, sem aumentar o raio da outra. Fonte: Adaptada de Zezula et al. (2006).

Este algoritmo possui tempo computacional m2_{log m}_{, apresentando menor tempo}

computacional do que o algoritmo mais efetivo da M-Tree para particionamento, que é cúbico.

Em Traina Jr. et al. (2000) também foi proposto um algoritmo de pós processa-mento para diminuir a sobreposição entre as regiões (problema da interseções entre os elementos, muito comum na M-Tree), o algoritmo Slim-Down. Este algoritmo baseia-se em transferir um elemento de uma região para outra quando isso proporciona uma redu-ção no raio desta região, sem que o raio da outra seja modicado, conforme apresentado na Figura 16.

2.4.2.3 D-Index

Proposto por Dohnal et al. (2003), a D-Index é uma estrutura de indexação métrica baseado em hashing. O objetivo é minimizar o número de acessos a disco e número de

x dm p 2p S[0] 1,p S_{l - 1}1,p S_[1]1,p O₃ O1 O2

(43)

Figura 18: Diagrama da estrutura D-Index. Fonte: (DOHNAL, 2004).

cálculos de distâncias.

Na estrutura D-Index, escolhe-se um elemento pivot, deni-se um raio de abran-gência, e uma distância para a região de exclusão. Na inserção, todos os elementos que carem na região interna da coroa circular, apresentada na Figura 17, serão armazenados em um bucket, e todos os elementos que carem na região externa serão armazenados em outro bucket da estrutura, que são chamados de buckets separáveis.

Portanto, para todos os elementos na coroa circular, a região de exclusão, serão armazenado no bucket de exclusão. No entanto, esta estrutura pode ser organizada com maior número de níveis e buckets em cada um deles, conforme apresentado na Figura 18, sendo que em cada nível usa-se uma função de particionamento (split) distinta para par-ticionar o espaço de modo a se armazenar os objetos de forma eciente.

No exemplo da Figura 18, no primeiro nível, os elementos serão armazenados em quatro diferentes buckets, e para os elementos que carem na região de exclusão, serão armazenados no segundo nível e será criado mais quatro buckets para este, e então o processo se repete até que todos os elementos que não se enquadrarem em nenhum dos buckets carão na região de exclusão global de toda a estrutura.

(44)

2.5 Trabalhos Relacionados

No trabalho de Sivic e Zisserman (2009), foi apresentado uma abordagem para recuperação de vídeos baseado nos sistemas de recuperação de informação baseado em texto.

Nesta abordagem, os quadros-chave do vídeo são indexados em uma estrutura de arquivo invertido, utilizado métodos sequenciais de acesso a disco, em que cada quadro é representado por uma bag of feature.

Nesta abordagem, Sivic e Zisserman (2009) utilizam um vocabulário visual para compor o índice. Este vocabulário visual é construindo a partir da clusterização de descritores extraídos de regiões de interesses da imagem. Na recuperação, é retornado os quadros do vídeo utilizando o modelo vetorial para cálculo da similaridade entre a bag of feature dos quadros da base e a bag of feature da imagem de consulta. Posteriormente, a consistência espacial é calculada para reordenar os quadros, sendo que a distribuição das palavras visuais ao logo do quadro determina se este é mais ou menos relevante, e assim ele pode ser reclassicado.

No trabalho de Homola, Dohnal e Zezula (2010) foi proposto uma abordagem para busca de uma subregião de uma imagem. Neste trabalho as imagem da base são também descritas utilizando descritores de região de interesse. Para a indexação dos elementos, foi implementado a M-Tree como estrutura de indexação.

(45)

3 INDEXAÇÃO E RECUPERAÇÃO DE VÍDEOS UTILIZANDO VOCABULÁRIO VISUAL

Este trabalho tem como proposta a análise de estruturas métricas para indexação e recuperação de vídeos. Neste capítulo, será apresentado o processo desenvolvido para indexação e recuperação de vídeos, bem como a utilização das estruturas para tais ope-rações.

Como apresentado anteriormente, um vídeo contém uma grande quantidade de informação, portanto, de forma a viabilizar a realização do processo de recuperação, é comum subdividir o armazenamento nas seguintes etapas: segmentação do vídeo, extração de características e descrição do conteúdo. Finalmente, na etapa de indexação, uma estrutura é utilizada para armazenar o conteúdo descrito do vídeo para sua posterior recuperação.

Por sua vez, o processo de busca apresentado neste trabalho inicia-se a partir de uma imagem de consulta (ou mesmo de uma região de uma imagem), na qual se realiza a extração de características para então se empregar métodos de busca para recuperação do conteúdo do vídeo similar a consulta.

Este capítulo está organizado da seguinte forma. Na seção 3.1, é descrito o processo de indexação de vídeos. Já a seção 3.2 aborda o processo de recuperação. A seção 3.3 apre-senta as três estruturas métricas utilizadas neste trabalho para indexação e recuperação de vídeo. Por m, na seção 3.4 serão apresentadas considerações nais do capítulo. 3.1 Processo de Indexação de Vídeos

A Figura 19 apresenta uma visão geral do processo de indexação de vídeo desenvol-vido neste trabalho, em que os quadros do vídeo são descritos através de um vocabulário visual. Inicialmente, como pode ser visto na Figura 19, o vídeo precisa ser segmentado e seus quadros-chave devem ser devidamente selecionados. Os quadros-chaves seleciona-dos são usaseleciona-dos tanto para criar o vocabulário visual como para indexar o conteúdo do vídeo. Para criar o vocabulário visual, uma amostra dos quadros-chave é obtida. Então, é realizado um processo de identicação e descrição de características e, posteriormente, no processo de clusterização, estas características são agrupadas em classes de descri-tores, chamadas de palavras visuais, que são inseridas em uma estrutura de indexação, constituindo então o índice do arquivo invertido.

(46)

Segmentação Amostragem dos quadros-chave Extração de Descritores Indexação Extração de Descritores Clusterização Índice Criação do vocabulário visual

Estrutura de Indexação (Arquivo Invertido) Indexação dos quadros do vídeo

Criação do índice

Figura 19: Processo de indexação de vídeo. Fonte: Elaborada pelo autor.

ao mesmo processo de identicação e descrição de características, que por sua vez, são classicadas dentro das palavras visuais do índice e indexadas no arquivo invertido. 3.1.1 Segmentação do Vídeo

Como mencionado anteriormente, um vídeo é composto por várias imagens, sendo necessário segmentá-lo. Neste trabalho são utilizadas duas abordagens para segmentação de vídeo: na primeira, como um vídeo pode conter geralmente de 24 a 30 quadros por segundo (podendo esta taxa variar), seleciona-se um quadro a cada segundo do vídeo, sem que nenhuma operação sobre os quadros seja realizada. Já na segunda abordagem, foi utilizada a detecção de tomadas apresentada em Guimarães et al. (2009) e Patrocínio Jr. et al. (2010). Nesta abordagem a transição entre duas tomadas é identicada pela existência de dissimilaridade entre os quadros, uma vez que quadros similares são con-siderados pertencentes a mesma tomada. Em Guimarães et al. (2009), foi apresentada uma técnica de identicação de transições abruptas, enquanto que em Patrocínio Jr. et al. (2010) foi apresentado um método que identica tanto transições abruptas quanto graduais entre duas tomadas. Em seguida, um quadro de cada tomada é então extraído do vídeo (quadro-chave), e os demais quadros são desconsiderados. Daí em diante os quadros-chave extraídos passam a representar o conteúdo das tomadas e, consequentemente, de todo o vídeo.

(47)

Vídeo Quadros-chave

Segmentação/ Sumarização

Amostragem dos quadros-chave

Amostra dos quadros

Figura 20: Processo de amostragem aleatória dos quadros-chave do vídeo. Fonte: Elaborada pelo autor.

quadros-chave e assim reduzir o conteúdo visual que será armazenado. Além disso, a abordagem de detecção de tomadas permite que apenas um quadro de cada tomada seja selecionado, reduzindo ainda mais o número de informações a serem armazenadas sem perder informações relevantes que caracterizam o vídeo.

O objetivo de se aplicar duas abordagens de segmentação diferentes é mensurar o impacto da detecção de tomadas nas métricas utilizadas para avaliação dos testes realiza-dos, uma vez que a segmentação por amostragem pode desconsiderar quadros relevantes do vídeo, ou até mesmo considerar dois ou mais quadros muito semelhantes (caso sejam quadros de mesma tomada), e assim contribuir para o aumento da quantidade de infor-mação armazenada, impactando no tempo de resposta sem necessariamente melhorar a taxa de acerto das buscas realizadas.

3.1.2 Construção do Vocabulário Visual

O método de indexação e recuperação de vídeo deste trabalho baseia-se na utili-zação de vocabulário visual, abordagem similar àquela apresentada por Sivic e Zisserman (2009). Como descrito anteriormente, Sivic e Zisserman (2009) apresentam uma aborda-gem de recuperação de vídeo análoga ao método utilizado na recuperação de textos. Nesta abordagem, deve-se criar um vocabulário composto por palavras visuais (semelhante às palavras textuais em sistemas de recuperação de texto). Estas palavras visuais são obtidas por meio da clusterização do conteúdo visual dos quadros do vídeo. Porém, para criação do vocabulário visual, utiliza-se apenas uma amostra aleatória dos quadros selecionados na etapa de segmentação (quadros-chave selecionados do vídeo), conforme processo apre-sentado na Figura 20. O ideal seria que esta amostra representasse o conteúdo visual de todo o vídeo do qual ela foi extraída, podendo ser obtida, por exemplo, através de técnicas de sumarização. Neste trabalho, optou-se pela utilização de uma amostra aleatória dos quadros-chave, semelhante ao realizado por Sivic e Zisserman (2009).

(48)

(a) (b)

Figura 21: Regiões de interesse de um quadro do vídeo. Em (a) são exibidas as regiões de interesse detectadas pelo Harris Ane e em (b) regiões de interesse detectadas pelo MSER. Fonte: Elaborada pelo autor.

quadros-chave do vídeo, no lugar de todos os quadros, se justica pelo alto custo compu-tacional deste processo, como descrito nas seções a seguir.

3.1.2.1 Extração de Descritores dos Quadros Selecionados

Para a construção do vocabulário visual, é necessário, primeiramente, obter a des-crição dos quadros selecionados do vídeo. Em um sistema de recuperação de informação baseado em conteúdo visual, deve-se gerar algum tipo de descrição deste conteúdo visual (como por exemplo a utilização de histograma do cores) para que, então, esta informação seja manipulada e armazenada.

Sendo assim, realiza-se a extração de características de cada um dos quadros se-lecionados para a amostra de quadros-chave do vídeo. Este processo de extração de características de quadros do vídeo é baseado na detecção de regiões am covariantes, que, como descrito anteriormente, são regiões invariantes a mudança de ponto de visão, de escala, de iluminação e também capazes de lidar com a oclusão (MIKOLAJCZYK et al.,

2005).

Neste trabalho foram utilizados dois tipos de detectores de regiões am covariantes, conforme apresentado em Mikolajczyk et al. (2005): o detector MSER (Maximally Stable Extremal Region) e o detector Harris-Ane, que identicam regiões de interesse nos qua-dros do vídeo baseado em suas características de reconhecimento. Na Figura 21(a) cada elipse representa uma região de interesse obtida pelo detector Harris-Ane, enquanto que na Figura 21(b) cada elipse corresponde a uma região identicada pelo MSER.

A escolha de tais detectores se motivou pelo fato de que eles identicam pontos de interesse de natureza complementar, isto é, MSER identica regiões enquanto que Harris Ane identica cantos e bordas (MIKOLAJCZYK et al., 2005).

Para se descrever as regiões identicadas por cada um dos detectores foi utilizado o descritor SIFT (Scale Invariant Feature Transform), que produz um vetor de