WebM´ıdia 2003
Estrutura¸
c˜
ao e indexa¸
c˜
ao de v´ıdeo digital
Thiago Teixeira Santos1,2 Carlos Hitoshi Morimoto2
thsant@ime.usp.br hitoshi@ime.usp.br
1Instituto de Matem´atica e Estat´ıstica, IME-USP 2Faculdades Senac de Ciˆencias Exatas e Tecnologia, FSCET
Introdu¸
c˜
ao
• V´ıdeo digital possui um enorme potencial, ainda n˜ao explorado, em novas formas de transmiss˜ao, navega¸c˜ao e busca.
• Novas tecnologias possibilitar˜ao novas formas de consumo desta m´ıdia:
. Revitaliza¸c˜ao de acervos de v´ıdeo: BBC, Globo, The OpenVideo Projet... . V´ıdeo por demanda.
. Notici´arios estruturados.
• Descri¸c˜ao de conte´udo multim´ıdia: MPEG-7 [2].
• Necessidade de estruturar e indexar esse material:
Descri¸c˜oes de conte´udo devem ser estruturadas no n´ıvel das tomadas para maximizar o potencial de navega¸c˜ao e montagem de seq¨uˆencias auxiliadas por computador. Davenport et al. [1]
Outline
• Decomposi¸c˜ao de v´ıdeo em unidades menores: tomadas (shots).
• Estrutura¸c˜ao: Transi¸c˜oes entre tomadas
. Como s˜ao feitas?
. Como detect´a-las? Shot Boundary Detection (SBD)
• Um algoritmo cl´assico em SBD: TWINCOMPARISON
• Limita¸c˜oes do algoritmo cl´assico e proposta de uma variante sua:
TWINCOMPARISONADAPTATIVO.
• Indexa¸c˜ao: como apresentar v´ıdeo estruturado?
• Resultados: um prot´otipo para apresenta¸c˜ao de v´ıdeo estruturado e indexado na Web.
O que s˜
ao tomadas?
• Uma tomada (shot) ´e uma seq¨uˆencia de quadros cont´ınua em tempo e espa¸co, capturada em uma ´unica opera¸c˜ao de grava¸c˜ao da cˆamera:
Tomada S1 Tomada S2
Trecho de Challenge at Glen Canyon.
• Um corte ´e uma simples concatena¸c˜ao de tomadas.
• Transi¸c˜oes graduais s˜ao efeitos de de edi¸c˜ao baseados na sobreposi¸c˜ao de tomadas:
. Dissolu¸c˜ao
. Fade-out e fade-in . Outros (wipes,...)
6980 6984 6986 6988 6990 6992 6994 6982 7002 6996 6998 7000 7004 7006 7008 7010
Estrutura¸
c˜
ao por tomadas
• Uma solu¸c˜ao comum ´e definir uma medida de similaridade entre dois quadros do v´ıdeo e aplic´a-la a quadros sucessivos.
• Sejam qi e qj dois quadros de um v´ıdeo V e DIFERENC¸ A(qi, qj) uma fun¸c˜ao para
avaliar similaridade. Podemos reduzir V ao sinal
d[i] = DIFERENC¸ A(qi, qi+1).
0 50000 100000 150000 200000 250000 300000 4400 4500 4600 4700 4800 4900 5000 5100
Estrutura¸
c˜
ao por tomadas
• TWINCOMPARISON [4]: utiliza um limiar kc para detectar cortes e um limiar kg para
detectar transi¸c˜oes graduais (baseado em diferen¸cas acumuladas, ver artigo).
i i d(qi, qi+1) D(qi, qi+1) kc kc kg corte gradual rejeitada gradual aceita
Estrutura¸
c˜
ao por tomadas
• E quanto a DIFERENC¸ A(qi, qj)? Diferen¸ca entre os histogramas de cores ´e mais
robusta em rela¸c˜ao a movimenta¸c˜oes e rota¸c˜oes:
d(fi, fj) = X c∈{R,G,B} X l∈[0..255] |Hic − Hjc|.
• Problema: varia¸c˜oes no grau de movimenta¸c˜ao (atividade) de objetos e da cˆamera em V . Limiares globais aplicados ao v´ıdeo inteiro.
1584 1588 1590
1592 1594 1596 1598
1586
Trecho de The Corvair in Action!
0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000 1500 1550 1600 1650 1700 1750 1800
Estrutura¸
c˜
ao por tomadas: m´
etodo proposto
• TWINCOMPARISONADAPTATIVO leva em considera¸c˜ao a atividade local.
• O sinal das diferen¸cas ´e filtrado:
df[i] =
d[i] ¯ d[i].
• d[i] ´¯ e a m´edia de d[i − m], ..., d[i − 1], d[i + 1], ..., d[i + m].
• Em outras palavras, analisamos uma janela de tamanho 2m + 1 centrada em i para levar em considera¸c˜ao a atividade no segmento.
Indexa¸
c˜
ao
• Gostar´ıamos de representar uma tomada S = hqs, ..., qti por um quadro-chave qi
que represente bem o conte´udo da tomada.
• Uma a¸c˜ao pode n˜ao ser bem representada por um ´unico quadro. Um conjunto de quadros pode ser mais adequado.
• Tomamos um novo quadro-chave toda vez que a diferen¸ca entre o quadro corrente e o ´ultimo quadro-chave escolhido for maior que o limiar kc:
Quadros-Chave (S = hqs, ..., qti)
1 K ← {qs}
2 qc ← qs
3 para i ← s + 1 `a t
4 fa¸ca se Diferenc¸a (qc, qi) ≥ kc
5 ent˜ao K ← K ∪ {qi}
6 qc ← qi
Resultados: estrutura¸
c˜
ao (SBD)
• Resultados em SBD s˜ao medidos pelas bem conhecidas medidas de cobertura (recall ) e precis˜ao (precision).
• As transi¸c˜oes detectadas s˜ao comparadas contra o anotado por um observador humano.
• V´arios limiares s˜ao utilizados at´e obtermos os melhores resultados.
• TWINCOMPARISONADAPTATIVO encontra bons resultados em poucas tentativas.
TWINCOMPARISON TWINCOMPARISONADAPTATIVO
Cobertura Precis˜ao Cobertura Precis˜ao
Resultados: indexa¸
c˜
ao e navega¸
c˜
ao
9 10 11 12 13 14 15 16 17 18 19 20 25 17 14 18 15 26 22 21 65 4.77 seconds 0.53 seconds1.30 seconds 1.23 seconds 2.87 seconds
7.00 seconds 1.50 seconds
2.00 seconds
Sum´
ario
• Estrutura¸c˜ao e indexa¸c˜ao de v´ıdeo digital para habilitar novas formas de consumo do material.
• Tomadas s˜ao unidades de granularidade mais grossa que o quadro e com unidade de a¸c˜ao e espa¸co.
• Shot Boundary Detection consiste em delimitar tomadas em um v´ıdeo V .
• Quadros-chave servem como representa¸c˜ao sucinta da tomada. Ideal para indexa¸c˜ao.
• TWINCOMPARISON ´e trata o v´ıdeo globalmente. Heterogeneidade requer an´alise
local.
• Podemos representar v´ıdeo para navega¸c˜ao atrav´es de tomadas e seus quadros chaves.
Trabalho futuro
• Estrutura¸c˜ao
. Maior cobertura, maior precis˜ao.
. Detec¸c˜ao e caracteriza¸c˜ao de transi¸c˜oes graduais devem ser melhoradas. . Detec¸c˜ao de eventos
? Ilumina¸c˜ao (ex.: flashes, luzes acendendo/apagando)
? Surgimento e aparecimento de objetos
. Explora¸c˜ao de outros n´ıveis al´em das tomadas: cenas [3]? . Rela¸c˜oes inter-tomadas.
• Indexa¸c˜ao
. Caracteriza¸c˜ao das tomadas (via quadros-chaves):
? Cor, texturas.
? Objetos e as rela¸c˜oes entre os objetos.
? Movimento. . Rela¸c˜oes intra-tomadas.
Referˆ
encias
[1] Glorianna Davenport, Thomas A. Smith, and Natalio Pincever. Cinematic primitives for multimedia. IEEE Computer Graphics and Applications, 11:67–74, July 1991. 2
[2] Jos´e M. Mart´ınez. MPEG-7 Overview, version 9. Pataya, Mar¸co 2003.
http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm. 2
[3] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94–109, July 1998. 15
[4] H. J. Zhang, A. Kankanhalli, and S. W. Smoliar. Automatic partitioning of full-motion video. Multimedia Systems, 1:10–28, July 1993. 7