EXTRAÇÃO DE QUADROS CHAVES PARA SUMARIZAÇÃO DE VÍDEOS

(1)

EXTRAÇÃO DE QUADROS CHAVES PARA SUMARIZAÇÃO DE VÍDEOS Celso Luiz de Souza – e-mail: celsolsouza@gmail.com

Luiz Guilherme Correa Louro – e-mail: luizgui_cl@yahoo.com.br Cristiano Fraga Guimarães Nunes – e-mail: cfgnunes@gmail.com Flávio Luis Cardeal Pádua – e-mail: cardeal@decom.cefetmg.br Giani David Silva – e-mail: gianids@gmail.com

Centro Federal de Educação Tecnológica de Minas Gerais, Campus II, Av. Amazonas, 7675, 30.510-000 - Belo Horizonte, MG, Brasil

Resumo. Este projeto de pesquisa propõe um estudo sobre indexação de vídeos utilizando técnica de processamento digital de imagens. O processo de indexação de vídeos aborda mecanismos que permitem identificá-los por meio de quadros que representem o seu conteúdo. A partir deste trabalho apresentaremos um algoritmo que permitirá extrair índices com o uso de histogramas e descritores de pontos que irão representar um quadro chave. Palavras- chave: Quadros chaves, Indexação, Vídeos

1. INTRODUÇÃO

Este trabalho apresenta um estudo de técnicas de extração de quadros representativos em vídeo, que são denominados quadros chaves ou, na literatura de língua inglesa, key-frames. Esses quadros representam uma sequência de imagens em um instante de tempo do vídeo. 1.1 Motivação

O vídeo que assistimos seja na TV, cinema ou em um monitor é na verdade uma sequência de imagens que é exibida em uma taxa rápida o suficiente para que qualquer elemento exibido transmita a ideia de movimento. Em geral os vídeos tem uma taxa de 30 quadros por segundo, ou seja, um vídeo de um minuto é composto por uma sequência de 1800 quadros. Nesta sequência há a ocorrência de imagens consideradas semelhantes.

Além da sequência de imagens presentes no vídeo, existe uma estrutura que é criada em sua produção que determina um espaço temporal entre as imagens. Uma destas estruturas é a tomada, que é uma sequência de quadros que mostra uma ação contínua no tempo e no espaço. A cena é o conjunto gerado por várias tomadas e a formação do vídeo é o conjunto de várias cenas, conforme Figura 1 (JU, BLACK, et al., 1998; SANTOS, 2003; SANTOS, 2004; FAROUK e ELSALAMONY, 2010).

(2)

Figura 1 - Estrutura do vídeo

Entre uma tomada e outra há uma transição que pode ser simplesmente uma combinação ou uma aplicação de efeitos que são realizados em uma edição, como a dissolução de quadros e fades, que sobrepõem um conjunto de imagens entre duas tomadas, de forma que há uma passagem gradual entre uma tomada e outra, como podemos ver na Figura 2.

Figura 2 - Exemplo de efeitos visuais utilizados em vídeos

A maioria das propostas de sumarização de vídeos aborda o uso das tomadas como base para segmentação, pois nas tomadas há uma relação de representação de conteúdo (LIENHART, 1999). De forma análoga aos sistemas de recuperação em textos, é o mesmo que as seções e frases. A segmentação em tomadas de vídeos permite uma forma eficiente de busca e navegação (SANTOS, 2004).

(3)

A necessidade da sumarização de vídeo pode ser observada com o crescente aumento da produção de informações audiovisuais nos últimos anos, em especial informações produzidas por emissoras de televisão. A pesquisa por sistemas de sumarização de vídeos tem se intensificado para permitir a recuperação de informações de forma eficiente (PETRELLI e AULD, 2008). Os vídeos são fontes inesgotáveis de pesquisas para diferentes áreas do conhecimento e, para realizar essas pesquisas é necessário, fundamentalmente, ter um acervo no qual se preserve esse patrimônio e que o mesmo seja constantemente avaliado e que seu acesso seja permitido.

Os Centros de Documentação (CEDOCs) das emissoras de televisão buscam, de certa forma, realizar trabalhos de gerenciamento dos acervos correspondentes às suas programações. Entretanto, esses centros servem, sobretudo, às demandas internas, mais especificamente, para a produção telejornalística. De fato, o funcionamento dos CEDOCs não prevê a disponibilização de informações à sociedade de uma forma geral. Contraposto a isto, observa-se que os usuários potenciais dos CEDOCs, ou seja, os jornalistas se deparam cada vez mais com alguns problemas: como encontrar o que se deseja em acervos com milhões de horas de conteúdo, cujas extensões e complexidades aumentam substancialmente com o passar do tempo? E, quando encontrado, o conteúdo audiovisual correspondente vem sendo realmente interessante como fonte de pesquisa? No plano semântico da análise do discurso este tipo de sistema permite que vários pesquisadores revejam e descrevam o conteúdo de determinado vídeo (GARDIES, 2007).

O que é necessário a estes sistemas são mecanismos de busca de informação que façam um relacionamento entre a necessidade do usuário e a base de conhecimento. A base de conhecimento deve ter valores que possibilitem este relacionamento e estes valores são denominados Metadados Dependentes do Conteúdo (MDC) que tem o suporte a vários tipos de informações, como descrições textuais e multimídia (imagem + áudio).

Para obtenção do MDC é necessário utilizar técnicas computacionais para recuperação de imagens e vídeos (BIMBO, 1999; DATTA, JOSHI, et al., 2008), que se baseiam na construção de índices a partir dos próprios conteúdos visuais destas informações. Estas técnicas realizam a consulta com base em uma imagem exemplo ao invés de termos ou palavras-chave. Estes métodos beneficiam-se do fato de que as chaves de busca (informações visuais) são extraídas automaticamente das imagens, não sendo necessária a geração de anotações textuais.

Processar uma consulta cuja entrada é uma imagem envolve a extração de características visuais, segmentação e a pesquisa por imagens similares no espaço de características visuais construído. Neste caso, é essencial a utilização de uma métrica de similaridade para graduar as imagens de acordo com a consulta realizada (BIMBO, 1999).

1.2 Organização deste trabalho

Na seção 2 apresentaremos estudos sobre técnicas de identificação e extração de quadros chaves. Na seção 3 definiremos uma técnica para extração e identificação de quadros chaves. E, na seção 4 apresentaremos os resultados obtidos pela técnica definida na seção anterior. A conclusão deste trabalho será apresentada na seção 5.

(4)

2. REVISÃO BIBLIOGRÁFICA

Na literatura há uma vasta quantidade de trabalhos relacionados à identificação de imagens similares e identificação de pontos de cortes em vídeos. Para analisá-los iremos dividi-los em grupos levando em conta sua relevância para este trabalho.

2.1 Segmentação e Quadros Chaves

O processo de segmentação de vídeos tem o objetivo de separar o conteúdo, Guimarães e Araújo (GUIMARÃES e ALBUQUERQUE, 2000) fazem uma apresentação geral de possíveis métodos para esta etapa.

Em Chen e Zhang (2008) é apresentado um modelo auto regressivo paramétrico para a segmentação de vídeos e extração de quadros chaves. O modelo consiste em obter um conjunto de quadros fazendo uma análise auto regressiva neste conjunto para obter o quadro chave. Este modelo tem a necessidade de treinamento para reconhecimento e identificação dos quadros chave. Eles consideram como quadros chaves os momentos de transição de cenas, seja corte abrupto fade in/out ou dissolução de imagem.

A extração do quadro chave pode ser realizada por comparação de quadros pixel a pixel em uma imagem e por comparação de quadros por histograma. Estes métodos foram avaliados por Filho et al., (2008), porém é importante determinar um limiar, que irá controlar um número de quadros extraídos.

Chen e Li (2010) e Filho, et al., (2008) propõem encontrar os momentos de transição, definindo o ponto de separação. É importante ressaltar que, enquanto a maioria dos trabalhos de segmentação é baseada em uma análise de similaridade, os autores propõem um método baseado nas cores dos quadros, no domínio da intensidade e do movimento da cena.

2.2 Eliminação de Redundância

Santos e Sabiel (2010) fazem um estudo de técnicas para eliminação de redundância entre quadros, já o trabalho de Farouk e Elsalamony (2010) aborda o uso do coeficiente Wavelet para detectar pontos de cortes e características nas imagens retiradas dos vídeos.

Em Chen e Li (2010) é apresentado um método simples para eliminar quadros redundantes, a proposta dos autores é a criação de um conjunto de quadros chaves fazendo uma correlação inter-shot no domínio através do histograma de cores e intensidade de movimento para eliminar a redundância.

Alguns trabalhos (CHIU, WANG e CHANG, 2007; JEGOU, SCHMID, et al., 2010) analisam a similaridade por pontos característicos key points e descrevem estes pontos. Lowe (1999) apresenta um modelo que extrai e descreve, por meio de um vetor, os pontos característicos e faz a correspondência entre as duas imagens pela distância euclidiana.

3. METODOLOGIA

Com base nos estudos realizados nestes trabalhos, percebemos que existe um grande conjunto de vídeos utilizados para extração de quadros chaves assim como métricas para avaliação dos resultados. Nesta seção apresentaremos:

• Modelo proposto para extração dos quadros chaves • Base de vídeos

(5)

3.1 Modelo proposto para extração dos quadros chaves O modelo proposto consiste em três etapas.

Na primeira etapa serão extraído do vídeo todos os quadros existentes, para isto será avaliado a taxa de quadros por segundo - Frames per second (FPS) e o tempo de duração do vídeo (Td), o número de quadros gerados será igual:

𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑄𝑢𝑎𝑑𝑟𝑜𝑠 = 𝐹𝑃𝑆 × 𝑇𝑑. (1)

Por exemplo: em um vídeo com uma taxa de 30 FPS e o tempo total de duração de 6 minutos, o resultado será: 30(𝐹𝑃𝑆) ∗ (6 ∗ 60) = 10.800 𝑖𝑚𝑎𝑔𝑒𝑛𝑠.

Após gerar estes conjuntos de imagens serão selecionados quadros representativos, o que será realizado na etapa seguinte.

A segunda etapa consiste em determinar os quadros chaves, para isto será calculado o histograma de cada imagem. O histograma de uma imagem descreve a distribuição estatística dos níveis em cada camada RGB em termos do número de amostras "pixels" com cada nível (CHEN e LI, 2010; JEGOU, SCHMID, et al., 2010).

Para comparar a similaridade entre duas imagens é comparado o histograma de cada imagem pelo coeficiente de Bhattacharyya (KHALID, ILYAS, et al., 2006; SANDHU, GEORGIOU e TANNENBAUM, 2008), este coeficiente permite extrair a distância de similaridade entre duas imagens, quanto mais próximo de 1 maior a semelhança entre as imagens.

Com base nas ideias apresentadas anteriormente a proposta de analise de vídeos para extrair os quadros chaves é mostrado na figura abaixo:

Figura 3 - Diagrama de extração do quadro chave

Após a etapa anterior avaliaremos se há presença de imagens redundantes. Para eliminar a redundância existente iremos avaliar através de pontos característicos nas imagens (LOWE, 1999; CHIU, WANG e CHANG, 2007; JEGOU, SCHMID, et al., 2010) pontos que estão presentes em ambas. Ou seja, com base nos resultados obtidos pelo algoritmo acima, é realizado a comparação dos pontos extraídos e descritos pelo SIFT da imagens 𝑖 e 𝑖 + 1, se a comparação dos pontos similares for igual a zero ou a diferença entre a quantidade de pontos presentes nas imagens for maior que a quantidade de pontos em comum, logo as imagens são semelhantes, então compara-se uma próxima imagem descartando 𝑖 + 1.

Teremos assim como resultado, ao final das três etapas, os quadros representativos de um vídeo.

(6)

3.2 Base de dados

Inicialmente buscou-se uma base de dados com os quadros chaves já definidos previamente, porém as bases públicas disponíveis não têm definidos estes quadros. Nos trabalhos (CHIU, WANG e CHANG, 2007; ARES e BARREIRO, 2009) utilizaram a base de dados da Open Video Project (www.open-video.org). Os vídeos utilizados desta base foram:

• Airline Safety and Economy (NAD57);

• NASA 25th Anniversary Show, Segment 5 (anni005); • NASA 25th Anniversary Show, Segment 9 (anni009); • NASA Connect - Ancient Observatories (NASAAO);

• NASA Connect - DITNS - Sun-Earth Connection (NASA DITNS); • NASAConnect - MMOU - Algebra and Telescopes (NASA Cmmou).

Além dos vídeos descritos acima, foi capturado um vídeo por uma placa de TV modelo PixelView PlayTV USB Hybrid que captura vídeo no Sistema Brasileiro de Televisão Digital (SBTVD), gerando um vídeo com imagem de 1920 x 1080 FULL HD. Para gravar o programa pela placa de TV foram agendados o instante inicial e final de sua transmissão, com isso foi gerado o vídeo. O canal definido para gravar foi o da Rede Minas, no horário de 12:10 a 12:32 do dia 7 de junho de 2010.

Os quadros chaves foram definidos de forma manual, onde um especialista delimitou os quadros representativos para todo momento em que há uma alteração de tomada de câmera, ou seja, toda a mudança de imagem abrupta. Esta metodologia também foi adotada no trabalho de Pimentel Filho (F., SAIBEL e BUCK, 2008) onde houve uma inspeção humana. Foi observado que para os vídeos (anni005) o número de quadros chaves definidos corresponde ao mesmo número de cortes apresentados no trabalho de Ares e Barreiro (ARES e BARREIRO, 2009), mas não foi possível, pelo trabalho deles, referenciar os quadros.

3.3 Métrica avaliativa

Para avaliação dos resultados usaremos a taxa de revocação e precisão (BAEZA-YATES e RIBEIRO-NETO, 1999; CHIU, WANG e CHANG, 2007; DATTA, JOSHI, et al., 2008).

Precisão: refere-se à percentagem de imagens recuperadas que são relevantes, dada pela Equação 2.

𝑃 = _{𝑁𝑖+𝑁𝑟}𝑁𝑟 (2)

Revocação - Recall: diz respeito à percentagem de todas as imagens relevantes em uma base de dados que foram retornadas, denotada pela Equação 3.

𝑃 = _𝑇𝐾𝑟𝑁𝑟 (3)

Onde: 𝑅 é revocação, 𝑃 precisão, 𝑁𝑟 é o número de quadros chaves encontrado pelo modelo e que estão definidos no conjunto de quadros relevantes definidos por um especialista, 𝑁𝑖 é o número de quadros retornados pelo modelo e que não estão definidos pelo especialista, 𝑇𝐾𝑟 é o número total de quadros chaves definidos pelo especialista.

(7)

4. RESULTADOS

Os resultados foram obtidos em um computador iMac CPU core i3 de 3.01GHz, com 4GB de ram, implementação do modelo no MATLAB 2011a. Os resultados dos experimentos estão presentes na Erro! Fonte de referência não encontrada., onde os campos: Tempo é a duração total do vídeo; dimensão é o tamanho da imagem de todos os quadros (altura e largura); FPS é a quantidade de quadros por um segundo; total de quadros é a somatório de todos os quadros existentes no vídeo; Quadros Relevantes são os quadros relevantes definidos pelo analista; Quadros Encontrados são o conjunto de quadros chaves encontrados pelo modelo proposto; Quadros Rel. Encontrados é a interseção do conjunto de Quadros Relevantes e do conjunto de Quadros Encontrados; a Precisão e Revocação de cada vídeo.

Tabela 1 - Resultado comparativo dos quadros chaves encontrados

nad57 anni05 anni009 NASA Ditns NASA Cmmou Rede Minas

Tempo 6m57s 6m19s 6m50s 6m26s 05m01s 22m26s Dimensão (Alt.x Larg.) 352x240 320x240 320x240 352x264 352x264 1920x1080 FPS 30 30 30 30 30 30 Total Frames 12.106 11.373 12.317 11.608 9.036 40.430 Frames relavenates 46 37 47 30 37 230 Total Frames Encontrados 34 19 40 19 17 300 Frames Rel. Encontrados 30 19 39 19 16 200 Revocação 65% 51% 83% 63% 43% 87% Precisão 88% 100% 98% 100% 94% 67%

Podemos observar que o modelo teve uma média de precisão de 91%, tendo o pior resultado no caso do vídeo Rede Minas, e sensibilidade do modelo, ou seja, a revocação tem como resultado médio 66% tendo como pior caso o vídeo NASACmmou, podemos observar que tanto na precisão quanto na revocação o mesmo vídeo apresentou resultados ruins, o que pode ser atribuído a qualidade da imagem que é inferior à dos demais vídeos.

No gráfico apresentado pela Figura 4 podemos observar a precisão e revocação dos vídeos analisados. Na maioria dos vídeos foi apresentado um bom resultado sendo que a revocação só teve um resultado abaixo de 50%, a precisão já apresenta resultados satisfatórios para um sistema de sumarização.

(8)

Figura 4 - Gráfico da analise gráfica da revocação e precisão 5. CONCLUSÃO

Podemos concluir que a precisão do método foi boa, pois dos quadros chaves definidos pelo sistema grande parte estava presente nos quadros definidos pelo especialista, tendo uma taxa de 100% nos vídeos (anni05) e (NASA Ditns).

Outro comportamento satisfatório do modelo foi com relação ao vídeo gravado pela placa de TV, onde obteve a taxa de revocação de 87% e precisão de 67%.

5.1 Trabalhos futuros

De fato quando trabalhamos com áreas multimodais são interessantes as características presentes no vídeo para identificação de quadros chaves, como por exemplo, o áudio.

Outro ponto a ser estudado é um método que permita definir melhor o limiar de similaridade entre as imagens, bem como uma analise referente para eliminação de quadros redundantes por descritores mais rápidos e eficazes comparados ao SIFT.

A implementação de um sistema de busca utilizando o descritor criado para os quadros chaves e um modelo de classificação permitiria uma melhor avaliação dos resultados apresentados.

Agradecimentos

Agradeço as instituições CEFETMG, CAPES, FAPEMIG e UFMG pelo apoio acadêmico e financeiro e aos professores Mario Fernando Montenegro Campos e Flávio Luis Cardeal Pádua para o desenvolvimento deste trabalho. Aos colegas da disciplina de Visão Computacional do primeiro semestre de 2011 na UFMG e amigos do Laboratório de Pesquisas Interdisciplinares em Informação Multimídia (PIIM-Lab).

0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00

nad57 anni05 anni009 NASADITNS NASACmmou Rede Minas

Revocação Precisão

(9)

REFERÊNCIAS

ARES, M. E.; BARREIRO, Á. (2009) “Using a Rank Fusion Technique to Improve Shot Boundary Detection Effectiveness”. In: MORENO-DÍAZ, R.; PICHLER, F.; QUESADA-ARENCIBIA, A. Computer Aided Systems Theory - EUROCAST 2009. [S.l.]: Springer-Verla. p. 247–-254. ISBN ISBN: 978-3-642-04771-8. BAEZA-YATES, R.; RIBEIRO-NETO, B. (1999) “Modern information retrieval”. 1ª. ed. New York: ACM

press New York, 1999. ISBN ISBN: 0-201-39829-X.

BIMBO, A. D. (1999) “Visual information retrieval”. [S.l.]: Morgan Kaufmann. ISBN ISBN: 9781558606241. CHEN, H.; LI, C. (2010) “A practical method for video scene segmentation”. Chengdu, China.

CHEN, W.; ZHANG, Y.-J. (2008) “Video segmentation and key frame extraction with parametric model”. St. Julian's, Malta. p. 1020-1023.

CHIU, C.-Y.; WANG, J.-H.; CHANG, H.-C. (2007) “Efficient Histogram-Based Indexing for Video Copy Detection”: IEEE. p. 265-270.

DATTA, R. et al. (2008) “Image retrieval: Ideas, influences, and trends of the new age”. ACM Computing Surveys (CSUR) Surveys Homepage archive, v. 40, n. 2, p. 1-60, ISSN DOI: 10.1145/1348246.1348248. F., C. A.; SAIBEL, C. A. (2010) “A new approach for video indexing and retrieval based on visual features”.

Journal of Information and Data Management, v. 2, n. 1, p. 293. ISSN ISSN: 2178-7107.

F., C. A.; SAIBEL, C. A.; BUCK, T. A. (2008) “Integração de métodos baseados em diferença de quadros para sumarização do conteúdo de vídeos”. New York, NY, USA: ACM. p. 85-88.

FAROUK, H.; ELSALAMONY, H. A. (2010) “Digital library creation based on wavelet coefficients for video stream indexing and retrieving”. Dalian, China. p. 158-162.

GARDIES, R. (2007) “Compreender o cinema e as imagens”. Texto & Grafia. ISBN ISBN: 9789899568983. GUIMARÃES, S. J. F.; ALBUQUERQUE, A. D. (2000) “Indexação e Detecção de Eventos em Seqüência de

Imagens”.

JEGOU, H. D. et al. (2010) “Aggregating local descriptors into a compact image representation”. San Francisco, CA, USA. p. 3304–-3311.

JU, S. X. et al. (1998) “Summarization of videotaped presentations: automatic analysis of motion and gesture”. Circuits and Systems for Video Technology, IEEE Transactions on, v. 8, n. 5, p. 686-696. ISSN: 1051-8215 DOI: 10.1109/76.718513.

KHALID, M. S. et al. (2006) “Bhattacharyya Coefficient in Correlation of Gray-Scale Objects”. Journal of Multimedia, v. 1, n. 1. ISSN: 1796-2048 DOI: 10.4304/jmm.1.1.56-61.

LIENHART, R. (1999) “Comparison of automatic shot boundary detection algorithms”. San Jose CA: Society of Photo-Optical Instrumentation Engineers, Bellingham, WA, INTERNATIONAL (1988) (Revue) SPIE, Bellingham WA, ETATS-UNIS (1998) (Monographie). p. 290-301.

LOWE, D. G. (1999) “Object recognition from local scale-invariant features”. Kerkyra , Greece. p. 1150-1157. PETRELLI, D.; AULD, D. (2008) “An Examination of Automatic Video Retrieval Technology on Access to the

Contents of an Historical Video Archive”. Information Systems, v. 42, n. 2, p. 115-136.

SANDHU, R.; GEORGIOU, T. T.; TANNENBAUM, A. R. (2008) “A New Distribution Metric for Image Segmentation”.

SANTOS, T. T. (2003) “Estruturação e indexação de vídeo digital”. Salvador, BA.

SANTOS, T. T. (2004) “Segmentação automática de tomadas em vídeo”. Universidade de São Paulo (USP). São Paulo.

KEY FRAMES EXTRACTION ON VIDEO SUMMARIZATION

Abstract. This research project proposes a study on video indexing using the technique of digital image processing. The video indexing process discusses mechanisms to identify them through frames that represent their content. In this work we present an algorithm that extract indexes using histograms and key point descriptors that represent a key frame.