WebMídia Thiago Teixeira Santos 1,2 Carlos Hitoshi Morimoto 2

(1)

WebM´ıdia 2003

Estrutura¸

c˜

ao e indexa¸

c˜

ao de v´ıdeo digital

Thiago Teixeira Santos1,2 _{Carlos Hitoshi Morimoto}2

thsant@ime.usp.br hitoshi@ime.usp.br

1_{Instituto de Matem´}_{atica e Estat´ıstica, IME-USP} 2_{Faculdades Senac de Ciˆ}_{encias Exatas e Tecnologia, FSCET}

(2)

Introdu¸

c˜

ao

• V´ıdeo digital possui um enorme potencial, ainda não explorado, em novas formas de transmissão, navega¸cão e busca.

• Novas tecnologias possibilitar˜ao novas formas de consumo desta m´ıdia:

. Revitaliza¸c˜ao de acervos de v´ıdeo: BBC, Globo, The OpenVideo Projet... . V´ıdeo por demanda.

. Notici´arios estruturados.

• Descri¸c˜ao de conte´udo multim´ıdia: MPEG-7 [2].

• Necessidade de estruturar e indexar esse material:

Descri¸cões de conteúdo devem ser estruturadas no n´ıvel das tomadas para maximizar o potencial de navega¸cão e montagem de seqüências auxiliadas por computador. Davenport et al. [1]

(3)

Outline

• Decomposi¸c˜ao de v´ıdeo em unidades menores: tomadas (shots).

• Estrutura¸c˜ao: Transi¸c˜oes entre tomadas

. Como s˜ao feitas?

. Como detect´a-las? Shot Boundary Detection (SBD)

• Um algoritmo cl´assico em SBD: TWINCOMPARISON

• Limita¸c˜oes do algoritmo cl´assico e proposta de uma variante sua:

TWINCOMPARISONADAPTATIVO.

• Indexa¸c˜ao: como apresentar v´ıdeo estruturado?

• Resultados: um prot´otipo para apresenta¸c˜ao de v´ıdeo estruturado e indexado na Web.

(4)

O que s˜

ao tomadas?

• Uma tomada (shot) é uma seqüência de quadros cont´ınua em tempo e espa¸co, capturada em uma única opera¸cão de grava¸cão da câmera:

Tomada S₁ Tomada S₂

Trecho de Challenge at Glen Canyon.

• Um corte ´e uma simples concatena¸c˜ao de tomadas.

• Transi¸cões graduais são efeitos de de edi¸cão baseados na sobreposi¸cão de tomadas:

. Dissolu¸c˜ao

. Fade-out e fade-in . Outros (wipes,...)

(5)

6980 6984 6986 6988 6990 6992 6994 6982 7002 6996 6998 7000 7004 7006 7008 7010

(6)

Estrutura¸

c˜

ao por tomadas

• Uma solu¸cão comum é definir uma medida de similaridade entre dois quadros do v´ıdeo e aplicá-la a quadros sucessivos.

• Sejam qi e qj dois quadros de um v´ıdeo V e DIFERENC¸ A(qi, qj) uma fun¸c˜ao para

avaliar similaridade. Podemos reduzir V ao sinal

d[i] = DIFERENC¸ A(q_i, q_i+1).

0 50000 100000 150000 200000 250000 300000 4400 4500 4600 4700 4800 4900 5000 5100

(7)

Estrutura¸

c˜

ao por tomadas

• TWINCOMPARISON [4]: utiliza um limiar k_c para detectar cortes e um limiar k_g para

detectar transi¸c˜oes graduais (baseado em diferen¸cas acumuladas, ver artigo).

i i d(qi, qi+1) D(qi, qi+1) kc kc kg corte gradual rejeitada gradual aceita

(8)

Estrutura¸

c˜

ao por tomadas

• E quanto a DIFERENC¸ A(q_i, q_j)? Diferen¸ca entre os histogramas de cores ´e mais

robusta em rela¸cão a movimenta¸cões e rota¸cões:

d(fi, fj) = X c∈{R,G,B} X l∈[0..255] |H_ic − H_jc|.

• Problema: varia¸cões no grau de movimenta¸cão (atividade) de objetos e da câmera em V . Limiares globais aplicados ao v´ıdeo inteiro.

(9)

1584 1588 1590

1592 1594 1596 1598

1586

Trecho de The Corvair in Action!

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000 1500 1550 1600 1650 1700 1750 1800

(10)

Estrutura¸

c˜

ao por tomadas: m´

etodo proposto

• TWINCOMPARISONADAPTATIVO leva em considera¸c˜ao a atividade local.

• O sinal das diferen¸cas ´e filtrado:

df[i] =

d[i] ¯ d[i].

• d[i] ´¯ e a m´edia de d[i − m], ..., d[i − 1], d[i + 1], ..., d[i + m].

• Em outras palavras, analisamos uma janela de tamanho 2m + 1 centrada em i para levar em considera¸c˜ao a atividade no segmento.

(11)

Indexa¸

c˜

ao

• Gostar´ıamos de representar uma tomada S = hqs, ..., qti por um quadro-chave qi

que represente bem o conte´udo da tomada.

• Uma a¸cão pode não ser bem representada por um único quadro. Um conjunto de quadros pode ser mais adequado.

• Tomamos um novo quadro-chave toda vez que a diferen¸ca entre o quadro corrente e o ´ultimo quadro-chave escolhido for maior que o limiar kc:

Quadros-Chave (S = hqs, ..., qti)

1 K ← {qs}

2 q_c ← q_s

3 para i ← s + 1 `a t

4 fa¸_{ca se D}iferenc¸a (qc, qi) ≥ kc

5 ent˜ao K ← K ∪ {qi}

6 qc ← qi

(12)

Resultados: estrutura¸

c˜

ao (SBD)

• Resultados em SBD s˜ao medidos pelas bem conhecidas medidas de cobertura (recall ) e precis˜ao (precision).

• As transi¸c˜oes detectadas s˜ao comparadas contra o anotado por um observador humano.

• Vários limiares são utilizados até obtermos os melhores resultados.

• TWINCOMPARISONADAPTATIVO encontra bons resultados em poucas tentativas.

TWINCOMPARISON TWINCOMPARISONADAPTATIVO

Cobertura Precis˜ao Cobertura Precis˜ao

(13)

Resultados: indexa¸

c˜

ao e navega¸

c˜

ao

9 10 11 12 13 14 15 16 17 18 19 20 25 17 14 18 15 26 22 21 65 4.77 seconds 0.53 seconds

1.30 seconds 1.23 seconds 2.87 seconds

7.00 seconds 1.50 seconds

2.00 seconds

(14)

Sum´

ario

• Estrutura¸c˜ao e indexa¸c˜ao de v´ıdeo digital para habilitar novas formas de consumo do material.

• Tomadas s˜ao unidades de granularidade mais grossa que o quadro e com unidade de a¸c˜ao e espa¸co.

• Shot Boundary Detection consiste em delimitar tomadas em um v´ıdeo V .

• Quadros-chave servem como representa¸c˜ao sucinta da tomada. Ideal para indexa¸c˜ao.

• TWINCOMPARISON ´e trata o v´ıdeo globalmente. Heterogeneidade requer an´alise

local.

• Podemos representar v´ıdeo para navega¸c˜ao atrav´es de tomadas e seus quadros chaves.

(15)

Trabalho futuro

• Estrutura¸c˜ao

. Maior cobertura, maior precis˜ao.

. Deteçcão e caracteriza¸cão de transi¸cões graduais devem ser melhoradas. . Deteçcão de eventos

? Ilumina¸c˜ao (ex.: flashes, luzes acendendo/apagando)

? Surgimento e aparecimento de objetos

. Explora¸cão de outros n´ıveis além das tomadas: cenas [3]? . Rela¸cões inter-tomadas.

• Indexa¸c˜ao

. Caracteriza¸c˜ao das tomadas (via quadros-chaves):

? Cor, texturas.

? Objetos e as rela¸c˜oes entre os objetos.

? Movimento. . Rela¸c˜oes intra-tomadas.

(16)

Referˆ

encias

[1] Glorianna Davenport, Thomas A. Smith, and Natalio Pincever. Cinematic primitives for multimedia. IEEE Computer Graphics and Applications, 11:67–74, July 1991. 2

[2] Jos´e M. Mart´ınez. MPEG-7 Overview, version 9. Pataya, Mar¸co 2003.

http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm. 2

[3] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94–109, July 1998. 15

[4] H. J. Zhang, A. Kankanhalli, and S. W. Smoliar. Automatic partitioning of full-motion video. Multimedia Systems, 1:10–28, July 1993. 7