SEGMENTAÇÃO DE VÍDEOS TELEVISIVOS

(1)

SEGMENTAÇÃO DE VÍDEOS TELEVISIVOS Cristiano Fraga Guimarães Nunes – e-mail: [email protected] Celso Luiz de Souza – e-mail: [email protected]

Luiz Guilherme Correa Louro – e-mail: [email protected] Flávio Luis Cardeal Pádua – e-mail: [email protected] Giani David Silva – e-mail: [email protected]

Centro Federal de Educação Tecnológica de Minas Gerais, Campus II, Av. Amazonas, 7675, 30.510-000 - Belo Horizonte, MG, Brasil.

Resumo. Este trabalho propõe um estudo sobre segmentação de vídeos utilizando técnicas de

processamento de informações multimídia presentes na transmissão televisiva. A segmentação de vídeos televisivos aborda mecanismos que permitem identificar blocos de programas televisivos a partir de informações multimodais disponíveis na transmissão como imagem, áudio e grade da programação. A partir deste trabalho apresentaremos um algoritmo que permitirá extrair da transmissão televisiva blocos de programas com o uso de metadados disponíveis. Os resultados obtidos neste trabalho se apresentam relevantes para um sistema de recuperação de informações baseada em conteúdo.

Palavras-chave: Segmentação, Vídeos Televisivos

1. INTRODUÇÃO

A proposta deste trabalho é apresentar um algoritmo que permita a segmentação de vídeos por conteúdo, visando dar suporte aos trabalhos sobre a televisão brasileira e outros que utilizem vídeos como objetos de estudo.

A segmentação automática de vídeos televisivos consiste em um processo de grande importância que contribui no processo de armazenamento, indexação e recuperação de informação acerca dos vídeos em uma biblioteca multimídia.

Para realizar a segmentação dos vídeos televisivos que correspondentes aos programas televisivos e intervalos comerciais é necessário entender como funciona o processo de transmissão das emissoras. Desse modo poderão ser escolhidas informações contidas transmissão para auxiliar no processo de segmentação automática dos vídeos.

O esquema mostrado na Figura 1 apresenta o processo de transmissão das emissoras de televisão. Nesse processo são transmitidos programas e comerciais definidos pela grade de programação de uma emissora. Existe um controlador que gerencia a transmissão, por exemplo, escolhendo qual programa ou comercial transmitir.

(2)

Figura 1- Esquema do processo de produção e transmissão da televisão.

Devido a várias informações presentes em vídeos é possível obter metadados de áudio, imagem e texto, o que possibilitam uma abordagem multimodal no processo de segmentação proposto neste trabalho.

2. REVISÃO BIBLIOGRÁFICA

Na literatura há uma extensa quantidade de trabalhos relacionados à identificação de pontos de cortes em vídeos.

Li et al. (2004) têm como proposta a segmentação de filmes baseada em informações visuais e sonoras. A ocorrência de momentos de silêncio no áudio e a similaridade de histogramas de cor entre imagens são usados como base para o processo de segmentação. Para não acarretar muitos cortes, é definida uma distância de 2000 quadros entre as segmentações. Dentro do contexto de análise de filme baseado em conteúdo com o objetivo de extrair eventos de cinema e identificar diálogos de um filme os resultados se mostraram significativos.

Gauch e Shivadas (2005) abordaram a segmentação de vídeos para localização de comerciais. Os cortes, fadings e dissolver presentes nos vídeos foram utilizados como delimitadores e os quadros entre eles foram armazenados. Para identificação dos comerciais foi capturado a legenda (closed caption) presente na transmissão associada à imagem armazenada, e, após um processo de categorização, as imagens eram reavaliadas em todo o conjunto de quadros. A base de dados utilizada pelos autores possuíam 72 horas de vídeo apresentando 575 segmentos. Como resultados o trabalho apresenta a medida F1 de 95% para identificação dos comerciais e de 89% para o que não é comercial.

Berrani et al. (2007) apresentam um estudo sobre segmentação em transmissões de TV. Primeiramente são utilizados metadados disponíveis na web associados ao vídeo, não apresentando resultados satisfatórios devido a imprecisão e falta de metadados que possibilitem a indexação eficaz. Em outra abordagem os autores utilizaram metadados baseados em conteúdo e apresentaram resultados de aproximadamente 100% de precisão, porém não citam revocação.

(3)

Dunlop (2010) apresenta um método para classificação de imagens utilizando um segmentador de vídeo baseado nos trabalhos de Rasheed e Shah (2003) que utilizam segmentação baseada em histogramas HSV. O resultado da segmentação foi de 86,96% para revocação e de 73,21% para precisão.

3. METODOLOGIA

Para a segmentação serão usados dados presentes tanto no vídeo quanto na transmissão. Os dados utilizados serão: guia de programação eletrônico, divisor de programas e silêncio.

3.1 Guia de Programação Eletrônico

Na transmissão um pacote relativo ao EPG (do inglês, Electronic Programming

Guide) ou Guia de Programação Eletrônico em português, fornece informação da grade

programática de um canal contendo nome do programa, horário de exibição, classificação, e descrição. Essas informações podem ser muito úteis para a segmentação automática dos vídeos, porém nem sempre esses dados estarão corretos, pois, podem ocorrer atrasos ou adiantamentos na programação e o EPG pode não estar atualizado.

Bai et al. (2011) usam o EPG para retirar informações duplicadas nos vídeos analisados. No trabalho de Wang et al. (2008) o EPG é utilizado para se determinar os programas e gerar conjunto de dados correspondente a cada programa gravado.

3.2 Divisor de programas

O controlador da transmissão inclui alguns sinais na mesma, um deles é um quadro preto como é mostrado na Figura 1. Quando existe uma mudança entre um bloco de programa e o comercial, o quadro preto é inserido funcionando como um divisor. É possível encontrar estes quadros com técnicas de análise de imagens, onde são avaliadas características na imagem determinando a presença deste quadro (ZHANG et al., 2008; SANTOS, 2004).

3.3 Detecção de Silêncio

Uma característica muita usada e de baixa complexidade computacional é intensidade sonora do áudio. No estudo de Li et al. (2001) são mostrados alguns métodos de extração de características do áudio, dentre elas o RMS (do inglês, Root Mean Square), com o objetivo de classificação de vídeos pelas características do áudio. No trabalho de Sundaram e Chang (2002) o silêncio no áudio é usado para extrair informação de cenas. A detecção do silêncio serve de auxílio na segmentação de vídeos, para isso é utilizado o RMS da magnitude do sinal contido em cada quadro. O RMS é a raiz da média dos quadros, que mostra a variação temporal da magnitude de um sinal em relação à sua distribuição do volume nos trechos de áudio. O cálculo é feito com um conjunto de quadros do áudio, computando a raiz quadrada da soma dos quadros dos valores das amostras desses quadros, dado pela Equação 1.

𝑣(𝑛) = �1

𝑁∑𝑁−1𝑖=0 𝑠𝑛2(𝑖) (1)

onde N denota o número de quadros, si denota a i-ésima amostra no n-ésimo quadro, com i e n

(4)

3.4 Processo de segmentação

Neste processo, um vídeo com duração de 24 horas é segmentado em 𝑛 programas e 𝑘 comerciais. O processo geral pode ser visto na Figura 2.

Duas etapas de processamento são executadas para segmentar o vídeo de 24 horas. Na primeira etapa é realizada a extração de informações de baixo nível que são: EPG, os instantes onde há quadros pretos e os instantes onde há silêncio no áudio. Na segunda etapa uma sequência de refinamentos das informações extraídas é realizada para serem usadas na segmentação dos vídeos.

Figura 2- Processo de segmentação de vídeos.

O resultado da segmentação pode ser representado por dois conjuntos, sendo (1) o conjunto de programas 𝑃 = �𝑝_𝑖𝑗� 𝑖 = 1 … 𝑛 𝑒 𝑗 = 1 … 𝑏𝑝_𝑖}, onde 𝑖 indexa um programa específico do canal, 𝑛 é o número de programas, 𝑗 representa o bloco em questão deste programa, e 𝑏𝑝_𝑖 é o número de blocos do programa 𝑝𝑖 , e (2) o conjunto de intervalos comerciais 𝐶 = {𝑝_𝑖𝑢𝑣| 𝑖 = 1 … 𝑛, 𝑢 = 1 … 𝑏_𝑐_𝑖 𝑒 𝑣 = 1 … 𝑘}, onde 𝑖 indexa um programa específico do canal durante o qual o comercial foi exibido, 𝑣 indexa o bloco do comercial transmitido, 𝑣 é o número de blocos dos comerciais, 𝑢 indexa o bloco em questão do comercial transmitido e 𝑏_𝑐_𝑖 é o número de blocos do comercial 𝑐_𝑖.

3.4.1 Extração das Informações

O EPG e recursos de baixo nível presentes no vídeo gravado, como informações audiovisuais, são utilizados nesta etapa. Um diagrama referente à extração de informações é apresentado na Figura 3.

(5)

Figura 3- Etapa de extração de informações.

Para extração do EPG foi utilizado o Analisador SBTVD (MARQUES., 2010) que possibilita encontrar o início e a duração de um programa televisivo. Adaptações foram feitas no programa para que ele pudesse gerar as informações necessárias para a etapa seguinte. As informações audiovisuais extraídas são os momentos em que ocorrem quadros pretos que delimitam o início e o fim de um bloco de programa e os momentos de silêncio presentes no áudio. Para a identificação dos quadros pretos e os momentos de silêncio presentes entre um programa e um comercial foram utilizados o software ffmpeg (FLORES, 2011), que permite através do filtro blackframe gerar uma lista dos momentos onde ocorre o quadro preto, e o software Java Wav File (GREENSTED, 2010) que depois de sofrer alterações permite encontrar os momentos de silêncio.

Para detectar os momentos de silêncio no áudio dos vídeos foi incluído no software

Java Wav File um módulo em Java que calcula o RMS (do inglês Root Mean Square). O

calculo é dado pela Equação 1, utilizando um conjunto de quadros do sinal de áudio e computando a raiz quadrada da soma dos quadrados dos valores destas amostras. Neste processo o sinal de áudio é divido em 1500 quadros considerando a taxa de amostragem de 48000 amostras por segundo. Caso o resultado do calculo em cada amostra seja menor que um determinado limiar, é considerado um instante de silêncio.

Os trabalhos de (WANG; CHEONG, 2006; COIMBRA; GOULARTE, 2009) serviram de base para se definir o valor de -60 dB decibéis para o referido limiar, a validação do limiar foi feita com alguns segmentos de vídeos. Uma lista com os momentos em que ocorreu o silêncio é obtida ao fim do processo. Com esses metadados extraídos dos vídeos ainda é feito um refinamento que é descrito a seguir.

3.5.1 Refinamento das Informações

Com o objetivo de encontrar o início e o fim de cada bloco de programa são executadas dois processos de refinamento. Na Figura 4 é mostrado um esquema desses processos. No primeiro refinamento três informações são utilizadas: o EPG, a lista de quadros pretos e a lista de momentos de silêncio. A base do refinamento são as informações contidas no EPG, que são o horário de início e a duração do programa. Com esses dados pode se determinar o inicio e término de um programa. Depois são procurados nas listas de Silencio e Quadros Pretos os momentos mais próximos do início e término do programa, fazendo um alinhamento temporal como ilustra a Figura 5. Esse processo é realizado para todos os programas contidos no EPG. O resultado do refinamento é um ajuste nos horários inicial e

(6)

final de um programa televisivo, denominados como EPG+. Esse ajuste é realizado para que erros contidos no EPG possam ser minimizados.

Figura 4- Etapa de refinamento das informações.

O segundo refinamento busca determinar os blocos de programa. Os horários de início e fim dos programas são capturados no EPG+. Dentro desse intervalo de duração de cada programa são procurado na lista de Quadros Pretos e de Silêncio os momentos em que há uma interseção entre o tempo de silêncio e de quadro preto. Todos os programas sofrem esse refinamento produzindo uma lista de programas com o tempo de cada bloco assim como uma lista de blocos de comerciais.

A etapa final é a geração de vários segmentos de vídeos, que serão os blocos de programa e de comerciais, além dos metadados encontrados no EPG+ (nome do programa data de exibição, horário de exibição, duração total, identificação do bloco, tempo do bloco, descrição e censura).

(7)

Figura 5- Etapa de alinhamento temporal das informações.

4. RESULTADOS

Para a realização dos experimentos utilizou-se uma estação de trabalho modelo Dell OptiPlex 780 com processador Core 2 Duo E7500, 2 GB de memória RAM, sistema operacional Linux Ubuntu 11.04 de 64 bits, bem como um dispositivo para captura da transmissão usando o software Gnome-dvb-Control para gravar a transmissão do canal Rede Minas.

Para o armazenamento de um dia da programação da Rede Minas foi necessário um espaço de 130GB. O armazenamento foi realizado em um servidor com storage PowerVault NX3100 da Dell, com 2 processadores Xeon E5620, 12 discos do tipo SAS 2 de 3TB cada, implementado um modelo de RAID 50 para segurança dos dados armazenados.

Um grupo de vídeos correspondente a 11 dias de gravação com duração de 24 horas iniciando sempre as 00h00min foi utilizado para avaliação do método de segmentação. Os dias gravados foram 22/1/2012 a 24/1/2012, 26/1/2012, 29/1/2012 a 3/2/2012 e 5/2/2012, totalizando 224 horas de vídeo.

Um gabarito para avaliar os resultados dos vídeos segmentados foi criado por três analistas. O gabarito foi montado por meio da visualização dos vídeos e contém os nomes dos programas, as quantidades de blocos desses programas (um total de 935 blocos para os 11 dias) e as quantidades de blocos de comercial (um total de 937 blocos para os 11 dias).

Uma das métricas usadas para avaliar os resultados foi à precisão 𝑃, que é dada pela razão entre o número de blocos segmentados e identificados corretamente como pertencentes a um dado programa televisivo ou comercial e o número total de blocos segmentados. Outra métrica é a revocação que é dada pela razão 𝑅 entre o número de blocos segmentados e identificados corretamente e o número real de blocos de programa ou comercial. A última métrica é a mediada F1 que é dada pela formula da Equação 2:

𝐹1 = 2∗(𝑃∗𝑅)

𝑃+𝑅 , (2)

Na extração dos blocos de programas e comerciais obteve-se a média dos valores de F1 igual a 92% para programas e 93% para comerciais. Os resultados da extração dos blocos

(8)

de programas teve o desvio padrão de 0,06 e de blocos de comerciais de 0,02. Os resultados são mostrados na Tabela 1.

Os resultados apresentados neste trabalho assemelham-se àqueles relatados em Gauch e Shivadas (2005), apesar das bases serem distintas o processo de segmentação foi realizado em uma transmissão televisiva, os autores apresentam um método alternativo para a segmentação de vídeos televisivos, com foco especial na extração de blocos de comerciais, reportando os valores médios de F1 de 95% e 89% para a segmentação de blocos de comerciais e blocos de programas, respectivamente.

Tabela 1 - Desempenho do método de segmentação de vídeos em blocos

Os dias 22/01/2012 e 30/01/2012 tiveram os piores resultados, com valores de F1 abaixo de 90%, o que é possível observar na Figura 6. No dia 22/01/2012 foi transmitido uma partida de futebol, mas no EPG constava a exibição de cinco programas no intervalo de tempo do jogo. Além desta inconsistência, a programação estava adiantada em mais de 30 minutos comprometendo assim a identificação dos blocos. No dia 30/01/2012, foi identificado novamente o problema de adiantamento da programação.

Outro ponto que pode ser observado na Figura 6 é que a métrica F1 referente à segmentação dos blocos de comerciais geralmente acompanha a métrica F1 referente à segmentação dos blocos de programas. No entanto, esses valores se distanciam nos dias 22/01/2012 e 30/01/2012, o que se justifica pelas inconsistências identificadas nas grades programáticas de tais dias, conforme relatado anteriormente.

Um desafio enfrentado na segmentação foi o aparecimento de “falsos” quadros pretos em alguns programas. Esses quadros apareciam, mas não eram um delimitador de blocos, como no caso do programa televisivo Auto Falante da Rede Minas, que transmite clipes musicais.

(9)

Figura 6- Medida F1 da segmentação dos blocos de programas e comercias.

5. AGRADECIMENTOS

Agradecemos as instituições CEFET-MG, CAPES, FAPEMIG e REDE MINAS pelo apoio acadêmico e aos amigos do Laboratório de Pesquisas Interdisciplinares em Informação Multimídia (PIIM-Lab).

6. CONCLUSÃO

O processo de segmentação de vídeos proposto neste trabalho usou características multimodais que permitiram obter resultados promissores. Vale ressaltar que uma limitação neste processo está relacionada ao guia de programação televisiva, pois, o mecanismo de identificação e determinação de blocos está relacionado ao conteúdo deste guia, influenciando assim na eficácia do método.

Os métodos e técnicas implementados e avaliados neste trabalho podem ser utilizados, em princípio, para processar e indexar diversos gêneros de vídeos televisivos, pois este trabalho não se restringiu a um único gênero.

6.1 Trabalhos Futuros

Como perspectivas futuras, esse método pode ser aplicado em um sistema para armazenamento de vídeos televisivos disponibilizando uma base de dados de programas e comerciais televisivos de forma automática permitindo assim contribuir para um processo de recuperação de vídeos baseada em conteúdo.

REFERÊNCIAS

Bai, H.; Wang, L.; Qin, G.; Zhang, J.; Tao, K.; Chang, X.; Dong, Y. (2011), “Tv program segmentation using multi-modal information fusion”, Proceedings of the 1st ACM International Conference on Multimedia

Retrieval. New York, NY, USA: ACM, p. 11:1–11:8. ISBN 978-1-4503-0336-1.

Berrani, S.-A.; Lechat, P.; Manson, G. (2007), “Tv broadcast macro-segmentation: metadatabased vs. content-based approaches”, Proceedings of the 6th ACM international conference on Image and video retrieval. New York, NY: ACM, p. 325–332. ISBN 978-1-59593-733-9.

Coimbra, D. B.; Goularte, R. (2009), “Identiﬁcação de cenas em vídeos digitais utilizando características audiovisuais”, WebMedia - 15th Brazilian Symposium on Multimedia and the Web. Fortaleza, Ceará, Brazil. ISBN 9781605588803.

Dunlop, H. (2010), “Scene classiﬁcation of images and video via semantic segmentation”, Computer Vision and

Pattern Recognition Workshops (CVPRW), p. 72 –79.

Flores, H. Ffmpeg. (2011), Disponível em: <http://ffmpeg.org/>.

Gauch, J.; Shivadas, A. (2005), “Identiﬁcation of new commercials using repeated video sequence detection”,

(10)

Greensted, A. Java Wav File IO. (2010), Disponível em: < http://www.labbookpages.co.uk-/audio/javaWavFiles.html>.

Li, D.; Sethi, I. K.; Dimitrova, N.; Mcgee, T. (2001), “Classiﬁcation of general audio data for content-based retrieval”. Pattern Recognition Letters, Elsevier, v. 22, n. 5, p. 533–544.

Li, Y.; Narayanan, S.; Kuo, C. C. (2004), “Content-based movie analysis and indexing based on audiovisual cues”. IEEE Transactions on Circuits and Systems for Video Technology, v. 14, n. 8, p. 1073– 1085. ISSN 1051-8215.

Marques., G. A. G. (2010), “Analisador SBTVD”. Florianópolis. sbtvdparser.sourceforge.net, Disponível em: <http://sbtvdparser.sourceforge.net/index-pt% -.htm>

Rasheed, Z.; Shah, M. (2003), “Scene detection in hollywood movies and tv shows”, Conference on Proceedings

Computer Vision and Pattern Recognition. IEEE Computer Society,. v. 2, n. 18-20.

Santos, T. T. (2004) “Segmentação automática de tomadas em vídeo”. Dissertação de Mestrado - Universidade de São Paulo(USP), São Paulo.

Sundaram, H.; Chang, S.-F. (2002), “Computable scenes and structures in ﬁlms”, IEEE Transactions on

Multimedia, v. 4, n. 4, p. 482– 491, ISSN 1520-9210

Wang, H. L.; Cheong, L.-F. (2006), “Affective understanding in ﬁlm”, IEEE Transactions on Circuits and

Systems for Video Technology, v. 16, n. 6, p. 689– 704, ISSN 1051-8215.

Wang, J.; Duan, L.-Y.; Liu, Q.; Lu, H.; Jin, J. S. (2008), “A multimodal scheme for program segmentation and representation in broadcast video streams”, IEEE Transactions on Multimedia, p. 393–408.

Zhang, Z.; Li, B.; Lu, H.; Xue, X. (2008), “Scene segmentation based on video structure and spectral methods”,

10th International Conference on Control, Automation, Robotics and Vision. Hanoi, Vietnam, p. 1093–

1096. ISBN 978-1-4244-2286-9.

SEGMENTATION OF TELEVISION VIDEOS

Abstract. This paper proposes a study on segmentation of video processing techniques using

multimedia information present on television. Segmentation of videos covers techniques for identifying blocks of television programs from multimodal information available in transmission as image, audio and programming grid. From this work we present an algorithm that will extract blocks of television programs using available metadata in TV broadcast. The results of this work are presented relevant to an information retrieval system based on content