• Nenhum resultado encontrado

Estruturac¸ ˜ao e indexac¸ ˜ao de v´ıdeo digital Thiago T. Santos

N/A
N/A
Protected

Academic year: 2022

Share "Estruturac¸ ˜ao e indexac¸ ˜ao de v´ıdeo digital Thiago T. Santos"

Copied!
14
0
0

Texto

(1)

Estruturac¸˜ao e indexac¸˜ao de v´ıdeo digital

Thiago T. Santos12, Carlos H. Morimoto1

1Instituto de Matem´atica e Estat´ıstica da Universidade de S˜ao Paulo Rua do Mat˜ao, 1010 – 05508-090 S˜ao Paulo, SP

2Faculdade Senac de Ciˆencias Exatas e Tecnologia Rua Tito, 54 – 01506-000 S˜ao Paulo, SP

thsant,hitoshi@ime.usp.br

Abstract. This paper describes a few algorithms for shot boundary detection, in particular, those based on color histograms. The differece between the histograms of two consecutive frames is used to compute the beginning and end of each shot. Experimental results show that the adaptive threshold al- gorithm has clear advantages over the others. This algorithm was used to implement a prototype of an online multimidia library that allows the visua- lization of the video using key-frames computed from the shots. This struc- ture facilitates the search and visualization of the video content, and saves the transmition of hugh amounts of data. This prototype can be seen at http://www.ime.usp.br/˜thsant/vweb.html.

Resumo. Neste artigo s ˜ao descritos alguns algoritmos para a segmentac¸ ˜ao de v´ıdeo em tomadas, em particular, algoritmos baseados em histogramas de cor.

O in´ıcio e fim de cada tomada s ˜ao detectados atrav´es de comparac¸˜oes dos his- togramas entre quadros consecutivos do v´ıdeo. Resultados experimentais com- provam que o algoritmo de limiar adaptativo oferece vantagens sobre os de- mais. Esse algoritmo foi utilizado para construir um prot ´otipo de uma biblio- teca multim´ıdia de acesso remoto que permite a visualizac¸˜ao do v´ıdeo atrav´es de quadros-chave, facilitando assim a busca e visualizac¸ ˜ao da informac¸˜ao de v´ıdeo sem a necessidade do usu ´ario importar o v´ıdeo em si, poupando assim a transmiss˜ao de um grande volume de dados. Esse prot ´otipo pode ser visto no enderec¸ohttp://www.ime.usp.br/˜thsant/vweb.html.

1. Introduc¸˜ao

Recentemente, tornou-se poss´ıvel a manipulac¸˜ao de v´ıdeo digital, outrora uma gigantesca massa de dados acima das capacidades de armazenamento e processamento da maio- ria dos computadores pessoais. As redes com grandes larguras de banda viabilizaram a distribuic¸˜ao de tal material. Neste cen´ario, ´e crescente o interesse em novas formas de acesso e consumo deste tipo de conte´udo, como por exemplo o v´ıdeo por demanda (video-on-demmand – VOD).

Diferentemente das fitas VHS, de acesso inerentemente serial, o v´ıdeo digital per- mite formas muito mais elaboradas de manipulac¸˜ao, como por exemplo o acesso aleat´orio

(2)

Internet Indexação

Estruturação

Vídeo Estruturado Vídeo Digital

Celulares e PDAs

Computadores

Televisores

Figura 1: Um poss´ıvel sistema para acesso e consumo de conte ´udo audiovisual.

a qualquer quadro de um filme. Uma das caracter´ısticas mais importantes do v´ıdeo digi- tal ´e que ele pode ser estruturado em n´ıveis muito al´em dos quadros, tornando poss´ıveis novas formas de consumo. Usu´arios diferentes podem acessar e manipular o mesmo ma- terial de acordo com suas necessidades e condic¸˜oes particulares. Acervos digitais podem modelar o conte´udo de acordo com as necessidades de consulta. A Figura 1 mostra um sistema onde o v´ıdeo estruturado ´e armazenado para posteriormente ser indexado de modo apropriado para formas diferentes de navegac¸˜ao e consulta.

O quadro ´e a unidade mais simples para decomposic¸˜ao de v´ıdeo (de certa forma, heranc¸a de sua representac¸˜ao em pel´ıcula). Por´em, trata-se de uma decomposic¸˜ao de granularidade muito fina, inadequada para a navegac¸˜ao e busca baseada em conte´udo.

Tais aplicac¸ ˜oes pedem uma estruturac¸˜ao do material audiovisual em outros n´ıveis, com granularidade mais grossa e preferencialmente refletindo alguma semˆantica.

Partindo do quadro, o pr´oximo e mais natural n´ıvel de segmentac¸˜ao ´e o de to- mada1. Uma tomada ´e uma seq¨uˆencia de quadros cont´ınua com relac¸˜ao a tempo e espac¸o, capturada em ´unica operac¸˜ao de gravac¸˜ao da cˆamera [Davenport et al., 1991] (Figura 2).

Tal segmentac¸˜ao ´e a de mais fina granularide com referˆencia a unidade de ac¸˜ao. Por´em, sua granularidade ´e claramente maior que a simples decomposic¸˜ao em quadros, sendo ideal para a estruturac¸˜ao de filmes e programas de TV (v´ıdeos de seguranc¸a ou moni- toramento geralmente s˜ao compostos por uma ´unica tomada, sendo mais efetiva uma segmentac¸˜ao baseada em eventos [Latecki and de Wildt, 2002]).

Segundo Davenport et al., “descric¸ ˜oes de conte´udo devem ser estruturadas no n´ıvel das tomadas para maximizar o potencial de navegac¸˜ao e montagem de seq¨uˆencias auxili- adas por computador” [Davenport et al., 1991]. As tomadas podem ser combinadas ainda

1Na literatura em l´ıngua inglesa, ´e comumente nomeada shot.

(3)

Tomada S1 Tomada S2

Figura 2: Duas tomadas sucessivas em Challenge at Glen Canyon.

em estruturas de n´ıvel semˆantico ainda mais alto, como cenas [Yeung et al., 1998], ob- tendo um melhor sum´ario do material para indexac¸˜ao e navegac¸˜ao. Um exemplo de cena comumente encontrada em filmes s˜ao di´alogos formados por tomadas independentes de 2 atores.

Este trabalho apresenta um sistema para estruturac¸˜ao de v´ıdeo em tomadas e o agrupamento destes em unidades de maior granularidade. Prop˜oe tamb´em uma indexac¸˜ao do material estruturado para navegac¸˜ao na Internet. A sec¸˜ao 2 introduz conceitos b´asicos sobre delimitac¸˜ao de tomadas e o trabalho existente na literatura. Na sec¸˜ao 3, apresen- tamos um sistema para segmentac¸˜ao de v´ıdeo, inspirado nos trabalhos de Zhang et al.

[Zhang et al., 1993] e Yeo e Liu [Yeo and Liu, 1995], e um m´etodo para sua indexac¸˜ao e navegac¸˜ao na Internet. Os resultados obtidos s˜ao apresentados na sec¸˜ao 4, seguidos por nossas conclus˜oes na sec¸˜ao 5.

2. Estruturac¸˜ao de V´ıdeo Digital

Vamos definir uma tomada com sendo uma seq¨uˆencia de quadros cont´ınua no tempo e no espac¸o, obtida por uma ´unica operac¸˜ao de gravac¸˜ao. Um v´ıdeo ´e obtido pela montagem de v´arias tomadas. Quando a transic¸˜ao entre tomadas ´e abrupta, tem-se um corte, como visto na Figura 2. Contudo, efeitos de edic¸˜ao podem ser aplicados ao processo de montagem, gerando transic¸˜oes mais complexas.

Ap´os o corte, a transic¸˜ao mais comum ´e a dissoluc¸ ˜ao. Nela, a tomada anterior perde luminosidade enquanto o posterior a ganha, como ilustrado na Figura 3. Quando a tomada posterior ´e composta por quadros monocrom´aticos, a dissoluc¸˜ao ´e chamada fade- out. Analogamente, um fade-in ´e uma dissoluc¸˜ao que parte de quadros monocrom´aticos.

A Figura 4 ilustra um fade-out seguido por um fade-in.

2.1. Delimitac¸˜ao de tomadas

SejaV =hq1, q2, ..., qvium v´ıdeo digital composto por quadrosqi, imagens de resoluc¸˜ao m×n. Uma tomada ´e a subseq¨uˆenciaS =hqs, qs+1, ..., qtide quadros deV. O problema da delimitac¸˜ao temporal (Shot Boundary Detection – SBD) ´e encontrar o conjunto de tomadasSque cobreV e corresponde a montagem realizada na edic¸˜ao (Figura 5).

V´arios m´etodos tˆem sido propostos na literatura para a detecc¸˜ao de cor- tes e dissoluc¸˜oes em v´ıdeo [Ahanger and Little, 1996, Idris and Panchanathan, 1997, Koprinska and Carrato, 2001]. Um dos m´etodos mais simples para a detecc¸˜ao de cor- tes ´e medir a diferenc¸a entre quadros sucessivos do v´ıdeo e declarar a existˆencia de um corte toda vez que a medic¸˜ao extrapolar um dado limiarkc:

(4)

6980 6984 6986

6988 6990 6992 6994

6982

7002

6996 6998 7000

7004 7006 7008 7010

Figura 3: Uma dissoluc¸ ˜ao em Airline Safety and Economy.

Figura 4: Um fade-out seguido por um fade-in em Airline Safety and Economy.

S1

S2

S3

S4 S5 V

Figura 5: Decomposic¸ ˜ao de um v´ıdeo em tomadas. Transic¸ ˜oes graduais como dissoluc¸ ˜oes geram sobreposic¸ ˜ao.

(5)

SBD-DIFERENC¸ASIMPLES(V =hq1, ..., qvi) 1 S ← ∅

2 s←1

3 parai←1 `av−1

4 fac¸ad← DIFERENC¸A(qi, qi+1)

5 sed≥kc

6 ent˜aoS ← S ∪ {hqs, ..., qii}

7 s←i+ 1

8 S ← S ∪ {hqs, ..., qvi}

9 devolvaS

Em outras palavras, o algoritmo detecta as transic¸˜oes pela limiarizac¸˜ao do sinal d[i] =DIFERENC¸ A(qi, qi+1), como pode ser observado na Figura 6.

0 50000 100000 150000 200000 250000 300000

4400 4500 4600 4700 4800 4900 5000 5100

Figura 6: Trecho do sinald[i] = DIFERENC¸ A-HISTOGRAMAS(qi, qi+1) em Airline Safety and Economy.

O algoritmo anterior n˜ao est´a apto a detectar dissoluc¸˜oes, que apresentam peque- nas diferenc¸as entre quadros sucessivos, situac¸˜ao ilustrada pelas duas primeiras transic¸˜oes na Figura 6 (na altura dos quadros 4500 e 4660). Zhang et al.[Zhang et al., 1993] apre- sentaram um algoritmo simples que analisa as diferenc¸as acumuladas entre quadros e, caso esta se torne suficientemente grande, declara a mudanc¸a de tomada. Os algoritmos TWIN-COMPARISONe DETECTOR-GRADUALs˜ao implementac¸˜oes livres daquele m´etodo:

TWIN-COMPARISON (V) 1 S ← ∅

2 s←1

3 parai←1 `av−1

4 fac¸ad←DIFERENC¸A(qi, qi+1)

5 sed≥kc

6 ent˜aoS ← S ∪ {hqs, ..., qii}

7 S ← S ∪DETECTOR-GRADUAL (V, s, i)

8 s←i+ 1

9 S ← S ∪ {hqs, ..., qvi}

10 S ← S ∪DETECTOR-GRADUAL(V, s, v)

(6)

11 devolvaS

DETECTOR-GRADUAL(V, u, w) 1 Sg ← ∅

2 c← NIL

3 s←u 4 D←0

5 parai←u `aw−1

6 fac¸ad←DIFERENC¸A(qi, qi+1)

7 sed≥kg

8 ent˜aoD←D+d

9 sec=NIL

10 ent˜aoc←i+ 1

11 sen˜ao seD≥kc

12 ent˜aoSg ← Sg∪ {hqs, ..., qii}

13 s←c

14 D ←0

15 c←NIL

16 Sg ← S ∪ hqs, qwi 17 devolvaSg

O maior inconveniente de algoritmos como TWIN-COMPARISON´e o fato dos mes- mos limiares serem utilizados ao longo de toda a seq¨uˆencia. Um mesmo v´ıdeo pode alternar trechos de grande movimentac¸˜ao de objetos e cˆamera com outros de pouca ativi- dade. Limiares baixos ir˜ao gerar um grande n´umero de falsos-positivos enquanto valores altos perder˜ao muitas transic¸˜oes em falsos-negativos. A Figura 7 ilustra essa situac¸˜ao: h´a um corte perto do quadro 1550 enquanto a regi˜ao em torno do quadro 1600 n˜ao ´e uma transic¸˜ao mas sim o trecho exibido na Figura 8.

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000

1500 1550 1600 1650 1700 1750 1800

Figura 7: Trecho do sinald[i] =DIFERENC¸ A-HISTOGRAMAS(qi, qi+1)em Corvair in Action.

Yeo e Liu [Yeo and Liu, 1995] tratam este problema com o uso de uma janela deslizante (sliding window). A janela permite uma an´alise local, adaptando-se ao n´ıvel de atividade do trecho de v´ıdeo em quest˜ao:

(7)

1584 1588 1590

1592 1594 1596 1598

1586

Figura 8: Uma seq ¨u ˆencia de muito movimento em Corvair in Action.

SLIDINGWINDOW(V) 1 S ← ∅

2 s←1

3 parai←1 `av−1

4 fac¸ad[i]←DIFERENC¸A(qi, qi+1) 5 parai←m `an−m

6 fac¸a sed[i]>MAX(d[i−m+ 1, i+m−1])

7 ent˜ao sed[i]> c∗SEGUNDOMAX(d[i−m+ 1, i+m−1])

8 ent˜aoS ← S ∪ {hqs, ..., qii}

9 s←i+ 1

10 devolvaS

SLIDINGWINDOWobserva um intervalo de tamanho2m−1ded, centrado emi.

Um corte emi ´e declarado se e somente sed[i]´e a maior diferenc¸a no intervalo (MAX) e cvezes maior que a segunda maior diferenc¸a na janela (SEGUNDOMAX). Tal abordagem adaptativa ´e mais robusta que a limiarizac¸˜ao global imposta nos algoritmos anteriores.

A estrat´egia dos algoritmos anteriores se baseia na reduc¸˜ao do v´ıdeoV em um sinal cujo processamento leva `a detecc¸˜ao dos eventos de interesse. A func¸˜ao DIFERENC¸ A, respons´avel pela medic¸˜ao da similaridade entre as imagens, pode ser definida de v´arias maneiras. As mais comuns se baseiam na diferenc¸a entre pixels ou histogramas de co- res. A filtragem do sinal de diferenc¸as e a combinac¸˜ao de sinais diferentes podem ainda melhorar o desempenho dos segmentadores [Ferman and Tekalp, 1998]:

DIFERENC¸A-PIXELS(qi, qj) 1 d←0

2 parax←1 `am

3 fac¸a paray←1`an

4 fac¸ad←d+|qi(x, y)−qj(x, y)|

5 devolvad

DIFERENC¸A-HISTOGRAMAS (qi, qj) 1 parab ←1 `al

(8)

2 fac¸aHi[b]←0

3 Hj[b]← 0

4 parax←1 `am

5 fac¸a paray←1`an

6 fac¸aHi[qi(x, y)]←Hi[qi(x, y)] + 1 7 Hj[qj(x, y)]←Hj[qj(x, y)] + 1 8 d←0

9 parab ←1 `al

10 fac¸ad←d+|Hi[b]−Hj[b]|

11 devolvad

Diferenc¸as baseadas em histogramas geram melhores resultados que a comparac¸˜ao direta de pixels. Sua invariabilidade com relac¸˜ao a rotac¸˜ao e sua maior ro- bustez quanto `a translac¸˜oes geram um n´umero menor de falsos-positivos, proporcionando maior precis˜ao aos algoritmos. Outras medidas, baseadas em coeficientes DCT e veto- res de movimento (extra´ıdos diretamente da codificac¸˜ao MPEG) tamb´em s˜ao utilizados [Koprinska and Carrato, 2001].

2.2. Estruturac¸ ˜ao e representac¸ ˜ao

Ap´os a delimitac¸˜ao das tomadas, conv´em encontrar uma forma de represent´a-las visando sua indexac¸˜ao. Esta representac¸˜ao, idealmente, deveria possibilitar a identificac¸˜ao de objetos e eventos de interesse, tendo em vista a recuperac¸˜ao de informac¸˜ao baseada no conte´udo visual da tomada. Se um usu´ario desejasse obter todos os segmentos de uma cinemateca digital contendo um carro vermelho ou localizar todos aqueles contendo uma pessoa de face conhecida, n˜ao seria conveniente varrer todos os quadros de todos os v´ıdeos do acervo. Com a reduc¸˜ao da granularidade, uma varredura por tomadas deveria ser suficiente para, a partir de seus ´ındices, localizar o conte´udo almejado.

A pr´atica mais comum ´e a selec¸˜ao de um ou mais quadros-chave pertencentes

`a tomada. Um ´unico quadro `as vezes ´e suficiente para representar toda a ac¸˜ao de uma tomada, em segmentos de pouca ac¸˜ao, como uma entrevista. Quando a atividade em uma tomada ´e maior, pode-se lanc¸ar m˜ao de v´arios quadros. Com relac¸˜ao `a busca usando quadros-chave, varrer apenas 5 quadros consiste em uma grande vantagem comparado a uma tomada originalmente composta por 200 quadros.

Um m´etodo comum para a definic¸˜ao de um quadro-chave ´e a selec¸˜ao do primeiro ou ´ultimo quadro de uma tomada. Esta abordagem simplista pode levar a perda de eventos importantes ocorridos durante o segmento. Outro m´etodo simples consiste na comparac¸˜ao dos quadros com relac¸˜ao a um quadro-chave corrente (o primeiro do segmento, por exem- plo) e na selec¸˜ao de um novo quadro-chave adicional toda vez que a similaridade entre o quadro atual e a chave corrente se tornar muito pequena. Considerando a mesma constante kcutilizada em TWIN-COMPARISON, temos:

QUADROS-CHAVE (S =hqs, ..., qti) 1 K ← {qs}

2 qc←qs

3 parai←s+ 1 `at

(9)

4 fac¸a se DIFERENC¸A(qc, qi)≥kc

5 ent˜aoK ←K∪ {qi}

6 qc←qi

7 devolvaK

Em [Zhuang et al., 1998] e [Uchihashi et al., 1999], aglomerados (clusters) obti- dos a partir de vetores de caracter´ısticas baseados em histogramas de cores s˜ao utilizados para encontrar quadros representativos. Quadros semelhantes s˜ao agrupados e o centr´oide do agrupamento ´e declarado quadro-chave. ´E poss´ıvel ainda separar os quadros do aglo- merado com relac¸˜ao ao tempo, delimitando-se as tomadas (para quadros sucessivos) e atribuindo-se relac¸ ˜oes de similaridade entre eles. Contudo, a definic¸˜ao de quadros-chave independe da delimitac¸˜ao em tomadas o que, em termos de indexac¸˜ao, constitui uma van- tagem pois a detecc¸˜ao de quadros-chave representativos ´e geralmente mais robusta que SBD [Zhang et al., 1995].

As abordagens anteriores visam encontrar representantes para grandes conjuntos homogˆeneos de quadros. Em [Latecki and de Wildt, 2002], os autores optam pela busca de eventos raros, imprevis´ıveis pela an´alise dos quadros anteriores. Seu m´etodo consiste na montagem de um vetor de caracter´ısticas, baseado no histograma de cores e no ´ındice do quadro em relac¸˜ao ao tempo, e no comportamento da curva obtida nesse espac¸o n dimensional. Suavizando-se a curva, eliminam-se os pontos referentes a quadros “pre- vis´ıveis”, isto ´e, muito semelhantes aos seus vizinhos. Os pontos restantes representam, assim, eventos raros, d´ıspares, que poderiam ser de maior interesse ao usu´ario, como por exemplo em um sistema de vigilˆancia.

3. Acesso remoto a uma biblioteca de v´ıdeos

Na sec¸˜ao 1, vimos que uma s´erie de aplicac¸ ˜oes podem ser obtidas com a estruturac¸˜ao do v´ıdeo digital. Apresentamos agora uma aplicac¸˜ao simples que desenvolvemos para permitir o acesso remoto a v´ıdeo digital, que poder´a ser estendido para aplicac¸ ˜oes de v´ıdeo por demanda.

Um dos principais problemas de bibliotecas multim´ıdia ´e a busca e o acesso r´apido a informac¸˜ao desejada. Muitas vezes a descric¸˜ao textual do v´ıdeo ´e insuficiente para definir o seu conte´udo e a ´unica forma de conhecˆe-lo ´e import´a-lo da biblioteca para vˆe-lo.

Por´em, como um arquivo de v´ıdeo em geral ´e muito grande, a transmiss˜ao desses arquivos deve ser minimizada para otimizar os recursos computacionais. Al´em disso, o usu´ario pode n˜ao estar interessado em ver ou receber o v´ıdeo inteiro, mas apenas algumas de suas partes. O usu´ario deve portanto dispor de ferramentas de visualizac¸˜ao que permitam conhecer seu conte´udo e permitir a selec¸˜ao da parte desejada para visualizac¸˜ao.

A estruturac¸˜ao do v´ıdeo em tomadas e sua representac¸˜ao atrav´es de quadros-chave descrita anteriormente ´e uma forma natural e bem mais compacta para se visualizar o v´ıdeo antes de import´a-lo da biblioteca. A seguir descrevemos o algoritmo utilizado na implementac¸˜ao do prot´otipo do sistema para acesso remoto a uma biblioteca de v´ıdeos.

(10)

3.1. Segmentac¸ ˜ao adaptativa

Como visto na sec¸˜ao 2.1, TWIN-COMPARISON ´e um algoritmo simples para a detecc¸˜ao de transic¸˜oes abruptas e graduais mas se utiliza de limiares globais. N´os implementamos uma nova vers˜ao do algoritmo, o TWIN-COMPARISONADAPTATIVO, que se utiliza de li- miares adaptativos escolhidos com base em uma janela que se move ao longo do sinal. O uso dessa janela torna o algoritmo mais robusto `a movimentac¸˜oes de cˆamera e objetos.

TWIN-COMPARISONADAPTATIVO (V, kc, kg) 1 S ← ∅

2 s←1

3 parai←m `av −m 4 fac¸ad¯←

Pi−1

j=i−m+1d[j]+Pi+m−1 j=i+1 d[j]

2m−2

5 sed[i]≥kc·d¯

6 ent˜aoS ← S ∪ {hqs, ..., qii}

7 S ← S ∪DETECTOR-GRADUAL (V, s, i, kg·d)¯

8 s←i+ 1

9 S ← S ∪ {hqs, ..., qni}

10 S ← S ∪DETECTOR-GRADUAL(V, s, n, kg) 11 devolvaS

TWIN-COMPARISONADAPTATIVOutilizad, a m´edia das diferenc¸as em uma janela¯ de tamanho2m−1sobre i, excetuando-se d[i]. Aqui,kc adquire outro significado: ´e a m´ınima raz˜ao entred[i]ed¯para que seja declarado um corte entreqi eqj. A definic¸˜ao de kg segue um racioc´ınio an´alogo. Pode-se, ainda, obter um resultado semelhante atrav´es do algoritmo TWIN-COMPARISON, utilizando-se o sinal das diferenc¸as filtrado:

d¯[i] = d[i]

d¯ .

Utilizamos o algoritmo QUADROSCHAVEcom uma pequena modificac¸˜ao. Nova- mente, buscou-se uma abordagem adaptativa: a diferenc¸a entre o quadro-chave corrente qce o quadro-chave candidatoqi deve ser superior a um m´ultiplo da m´edia das diferenc¸as sucessivas na tomadaS =hqs, ..., qtiem quest˜ao, isto ´e:

DIFERENC¸ A(qc, qi)≥c·

Pt−1

i=sDIFERENC¸ A(qi, qi+1)

t−s .

4. Resultados

Os algoritmos TWIN-COMPARISON (TC) e TWIN-COMPARISONADAPTATIVO (TCA) fo- ram implementados na linguagem C, utilizando a biblioteca de processamento de imagens OpenCV da Intel Corporation, de c´odigo aberto.

A entrada do programa de segmentac¸˜ao de v´ıdeo em tomadas ´e um arquivo no formato MPEG, e a sa´ıda ´e a seq¨uˆencia de quadros numerados no formato JPEG, junta- mente com um arquivo onde s˜ao relacionados o in´ıcio e fim de cada tomada detectada, e a seq¨uˆencia de quadros-chave.

(11)

Tabela 1: Resultados de cobertura e precis ˜ao dos algoritmos TC e TCA.

Algoritmo C P

TC 0.22 0.80

TCA 0.60 0.88

Nesse artigo utilizamos apenas 3 v´ıdeos que totalizam cerca de 12 minutos ou mais de 20500 quadros. Esses v´ıdeos foram obtidos do reposit´orio do Open Video Project (http://www.open-video.org), e o resultado do processamento pode ser visto em http://www.ime.usp.br/˜thsant/vweb.html.

Para comparar o desempenho dos algoritmos TC e TCA, vamos utilizar as medidas de cobertura (C) e precis ˜ao (P). SejaT o conjunto das transic¸˜oesT entre duas tomadas, identificadas pelo algoritmo. SejaTref o conjunto de transic¸˜oes reais, anotadas por um observador humano. Definimos ent˜ao

C = |T ∩ Tref|

|Tref| e

P = |T ∩ Tref|

|T | .

A cobertura avalia o n´umero de transic¸˜oes perdidas enquanto a precis˜ao mensura o n´umero de transic¸˜oes falsas de uma soluc¸˜ao. A Tabela 4 mostra o resultado m´edio dos dois algoritmos para as duas medidas. Os v´ıdeos foram cuidadosamente analisados quadro a quadro por um observador humano, que anotou o in´ıcio e o fim de cada tomada, para que esses c´alculos pudessem ser realizados.

Observe que devido a variac¸˜ao no n´ıvel de atividade do v´ıdeo (movimentac¸˜ao de cˆamera e objetos), TC tem grande dificuldade em encontrar limiares globais capazes de identificar o maior n´umero de transic¸˜oes sem gerar grandes quantidades de falsos- positivos (degenerando a precis˜ao). TCA atua localmente, definindo relac¸ ˜oes entre a ati- vidade no trecho corrente e o limiar a ser utilizado, gerando resultados muito melhores.

Embora necessite das raz˜oeskcekg, TCA demonstra maior robustez. Em poucas tentativas, ´e poss´ıvel encontrar valores parakc ekg que geram bons resultados. TC, por outro lado, tem a calibrac¸˜ao de tais valores dif´ıcil pois trechos diferentes do v´ıdeo pedem por valores espec´ıficos, de acordo com a atividade.

4.1. Visualizac¸˜ao da estrutura do v´ıdeo

Ap´os o processamento do v´ıdeo, os resultados s˜ao fornecidos `a um outro programa de- senvolvido na linguagem PERL, que ´e respons´avel pela gerac¸˜ao da representac¸˜ao estru- turada do v´ıdeo vista na Figura 9. Cada tomada ´e representada por seus quadros-chave.

Sua durac¸˜ao tamb´em ´e fornecida, em segundos, abaixo de seu primeiro quadro-chave.

A Figura 9 exibe uma ampliac¸˜ao da tomada de n´umero 69. No in´ıcio dessa to- mada, duas pessoas est˜ao observando um monitor de v´ıdeo, e a seguir a cˆamera faz um

(12)

Figura 9: Uma representac¸ ˜ao para o v´ıdeo Airline Safety and Economy, exibido em uma navegador (Mozilla Firebird).

(13)

zoom sobre esse monitor. Nesse caso em particular, um ´unico quadro-chave n˜ao tornaria poss´ıvel a identificac¸˜ao deste evento, como discutido na sec¸˜ao 2.2.

Nessa implementac¸˜ao ainda n˜ao ´e poss´ıvel selecionar uma parte do v´ıdeo para download e visualizac¸˜ao. A interface ainda ´e muito simples, mas permite encontrar qua- dros similares entre si.

5. Conclus˜oes

Neste artigo foram descritos em detalhes 2 algoritmos para segmentac¸˜ao de v´ıdeo em tomadas, o TWIN-COMPARISON (TC) e TWIN-COMPARISONADAPTATIVO (TCA). Esses algoritmos utilizam histogramas de cor para a detecc¸˜ao do in´ıcio e fim de cada tomada, e s˜ao capazes de detectar tanto transic¸˜oes abruptas quanto transic¸˜oes graduais. Para cada tomada, um ou mais quadros-chaves s˜ao escolhidos como os mais representativos, de forma que o v´ıdeo pode ser visualizado a partir da seq¨uˆencia resultante. Essa forma de representac¸˜ao permite que um usu´ario tenha uma boa id´eia do conte´udo de um v´ıdeo em bibliotecas multim´ıdia online, sem a necessidade de importar o v´ıdeo inteiro. Permite ainda que apenas partes do v´ıdeo sejam selecionadas para importac¸˜ao.

Esse algoritmos foram integrados em um prot´otipo de biblioteca multim´ıdia como ferramenta de visualizac¸˜ao dos resultados de segmentac¸˜ao, e que poder´a ser es- tendido para um sistema de v´ıdeo por demanda. As funcionalidades desse prot´otipo ainda s˜ao extremamente simples, e os resultados preliminares est˜ao dispon´ıveis em http://www.ime.usp.br/˜thsant/vweb.html.

Para dar continuidade a esse trabalho, estamos desenvolvendo outros algoritmos de segmentac¸˜ao e trabalhando tamb´em para oferecer mais recursos de visualizac¸˜ao online.

Referˆencias

Ahanger, G. and Little, T. D. C. (1996). A survey of technologies for parsing and indexing digital video. Journal of Visual Communication and Image Representation, 7(1):28–

43.

Davenport, G., Smith, T. A., and Pincever, N. (1991). Cinematic primitives for multime- dia. IEEE Computer Graphics and Applications, 11:67–74.

Ferman, A. M. and Tekalp, A. M. (1998). Efficient filtering and clustering methods for temporal video segmentation and visual summarization. Journal of Visual Communi- cation and Image Representation, 9(4):336–351.

Idris, F. and Panchanathan, S. (1997). Review of image and video indexing techniques.

Journal of Visual Communication and Image Representation, 8(2):146–166.

Koprinska, I. and Carrato, S. (2001). Temporal video segmentation: A survey. Signal Processing: Image Communication, 16(5):477–500.

Latecki, L. J. and de Wildt, D. (2002). Automatic recognition of unpredictable events in videos. In International Conference on Pattern Recognition, Qu´ebec.

Uchihashi, S., Foote, J., Girgensohn, A., and Boreczky, J. (1999). Video manga: Gene- rating semantically meaningful video summaries. In ACM Multimedia 1999, Orlando, Florida.

(14)

Yeo, B.-L. and Liu, B. (1995). Rapid scene analysis on compressed video. IEEE Tran- sactions on Circuits and Systems for Video Technology, 5:533–544.

Yeung, M., Yeo, B.-L., and Liu, B. (1998). Segmentation of video by clustering and grapg analysis. Computer Vision and Image Understanding, 71(1):94–109.

Zhang, H. J., Kankanhalli, A., and Smoliar, S. W. (1993). Automatic partitioning of full-motion video. Multimedia Systems, 1:10–28.

Zhang, H. J., Low, C. Y., Smoliar, S. W., and Wu, J. H. (1995). Video parsing, retrieval and browsing: An integrated and content-based solution. In ACM Multimedia 95, San Francisco, California.

Zhuang, Y., Rui, Y., Huang, T. S., and Mehrotra, S. (1998). Adaptative key frame ex- traction using unsupervised clustering. In IEEE International Conference on Image Processing, pages 866–870, Chicago.

Referências

Documentos relacionados

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

Combinados, o rádio portátil APX 8000XE habilitado para todas bandas e o microfone falante remoto XE500 criam uma solução de missão crítica incomparável, projetada para o pessoal

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

• Não há inflação de alimentos, há inflação, causada por choques cambiais, auxílio emergencial, problemas fiscais e má gestão de estoques públicos;. • O Brasil precisa

Projetil encamisado por uma camisa pré-sulcada de latão endurecido, contendo chumbo não endurecido no seu interior, dotado de uma ponta oca. HYDRA SHOCK centro, que

15, estão representados os teores médios de safrol contido em óleo essencial obtido, no decorrer do progresso de extração, da biomassa aérea de pimenta longa procedente de cultivos

As técnicas são baseadas em descontinuidade: detecção de pontos isolados, detecção de linhas e detecção de bordas, e similaridade: limiares (Thresholding), crescimento de

Foram incluídos no estudo os portadores de cirrose hepática e carcinoma hepatocelular diagnosticado pelos critérios da EASL ( European Association for the Study of the Liver ). Após