• Nenhum resultado encontrado

WebMídia Thiago Teixeira Santos 1,2 Carlos Hitoshi Morimoto 2

N/A
N/A
Protected

Academic year: 2021

Share "WebMídia Thiago Teixeira Santos 1,2 Carlos Hitoshi Morimoto 2"

Copied!
16
0
0

Texto

(1)

WebM´ıdia 2003

Estrutura¸

ao e indexa¸

ao de v´ıdeo digital

Thiago Teixeira Santos1,2 Carlos Hitoshi Morimoto2

thsant@ime.usp.br hitoshi@ime.usp.br

1Instituto de Matem´atica e Estat´ıstica, IME-USP 2Faculdades Senac de Ciˆencias Exatas e Tecnologia, FSCET

(2)

Introdu¸

ao

• V´ıdeo digital possui um enorme potencial, ainda n˜ao explorado, em novas formas de transmiss˜ao, navega¸c˜ao e busca.

• Novas tecnologias possibilitar˜ao novas formas de consumo desta m´ıdia:

. Revitaliza¸c˜ao de acervos de v´ıdeo: BBC, Globo, The OpenVideo Projet... . V´ıdeo por demanda.

. Notici´arios estruturados.

• Descri¸c˜ao de conte´udo multim´ıdia: MPEG-7 [2].

• Necessidade de estruturar e indexar esse material:

Descri¸c˜oes de conte´udo devem ser estruturadas no n´ıvel das tomadas para maximizar o potencial de navega¸c˜ao e montagem de seq¨uˆencias auxiliadas por computador. Davenport et al. [1]

(3)

Outline

• Decomposi¸c˜ao de v´ıdeo em unidades menores: tomadas (shots).

• Estrutura¸c˜ao: Transi¸c˜oes entre tomadas

. Como s˜ao feitas?

. Como detect´a-las? Shot Boundary Detection (SBD)

• Um algoritmo cl´assico em SBD: TWINCOMPARISON

• Limita¸c˜oes do algoritmo cl´assico e proposta de uma variante sua:

TWINCOMPARISONADAPTATIVO.

• Indexa¸c˜ao: como apresentar v´ıdeo estruturado?

• Resultados: um prot´otipo para apresenta¸c˜ao de v´ıdeo estruturado e indexado na Web.

(4)

O que s˜

ao tomadas?

• Uma tomada (shot) ´e uma seq¨uˆencia de quadros cont´ınua em tempo e espa¸co, capturada em uma ´unica opera¸c˜ao de grava¸c˜ao da cˆamera:

Tomada S1 Tomada S2

Trecho de Challenge at Glen Canyon.

• Um corte ´e uma simples concatena¸c˜ao de tomadas.

• Transi¸c˜oes graduais s˜ao efeitos de de edi¸c˜ao baseados na sobreposi¸c˜ao de tomadas:

. Dissolu¸c˜ao

. Fade-out e fade-in . Outros (wipes,...)

(5)

6980 6984 6986 6988 6990 6992 6994 6982 7002 6996 6998 7000 7004 7006 7008 7010

(6)

Estrutura¸

ao por tomadas

• Uma solu¸c˜ao comum ´e definir uma medida de similaridade entre dois quadros do v´ıdeo e aplic´a-la a quadros sucessivos.

• Sejam qi e qj dois quadros de um v´ıdeo V e DIFERENC¸ A(qi, qj) uma fun¸c˜ao para

avaliar similaridade. Podemos reduzir V ao sinal

d[i] = DIFERENC¸ A(qi, qi+1).

0 50000 100000 150000 200000 250000 300000 4400 4500 4600 4700 4800 4900 5000 5100

(7)

Estrutura¸

ao por tomadas

• TWINCOMPARISON [4]: utiliza um limiar kc para detectar cortes e um limiar kg para

detectar transi¸c˜oes graduais (baseado em diferen¸cas acumuladas, ver artigo).

i i d(qi, qi+1) D(qi, qi+1) kc kc kg corte gradual rejeitada gradual aceita

(8)

Estrutura¸

ao por tomadas

• E quanto a DIFERENC¸ A(qi, qj)? Diferen¸ca entre os histogramas de cores ´e mais

robusta em rela¸c˜ao a movimenta¸c˜oes e rota¸c˜oes:

d(fi, fj) = X c∈{R,G,B} X l∈[0..255] |Hic − Hjc|.

• Problema: varia¸c˜oes no grau de movimenta¸c˜ao (atividade) de objetos e da cˆamera em V . Limiares globais aplicados ao v´ıdeo inteiro.

(9)

1584 1588 1590

1592 1594 1596 1598

1586

Trecho de The Corvair in Action!

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000 1500 1550 1600 1650 1700 1750 1800

(10)

Estrutura¸

ao por tomadas: m´

etodo proposto

• TWINCOMPARISONADAPTATIVO leva em considera¸c˜ao a atividade local.

• O sinal das diferen¸cas ´e filtrado:

df[i] =

d[i] ¯ d[i].

• d[i] ´¯ e a m´edia de d[i − m], ..., d[i − 1], d[i + 1], ..., d[i + m].

• Em outras palavras, analisamos uma janela de tamanho 2m + 1 centrada em i para levar em considera¸c˜ao a atividade no segmento.

(11)

Indexa¸

ao

• Gostar´ıamos de representar uma tomada S = hqs, ..., qti por um quadro-chave qi

que represente bem o conte´udo da tomada.

• Uma a¸c˜ao pode n˜ao ser bem representada por um ´unico quadro. Um conjunto de quadros pode ser mais adequado.

• Tomamos um novo quadro-chave toda vez que a diferen¸ca entre o quadro corrente e o ´ultimo quadro-chave escolhido for maior que o limiar kc:

Quadros-Chave (S = hqs, ..., qti)

1 K ← {qs}

2 qc ← qs

3 para i ← s + 1 `a t

4 fa¸ca se Diferenc¸a (qc, qi) ≥ kc

5 ent˜ao K ← K ∪ {qi}

6 qc ← qi

(12)

Resultados: estrutura¸

ao (SBD)

• Resultados em SBD s˜ao medidos pelas bem conhecidas medidas de cobertura (recall ) e precis˜ao (precision).

• As transi¸c˜oes detectadas s˜ao comparadas contra o anotado por um observador humano.

• V´arios limiares s˜ao utilizados at´e obtermos os melhores resultados.

• TWINCOMPARISONADAPTATIVO encontra bons resultados em poucas tentativas.

TWINCOMPARISON TWINCOMPARISONADAPTATIVO

Cobertura Precis˜ao Cobertura Precis˜ao

(13)

Resultados: indexa¸

ao e navega¸

ao

9 10 11 12 13 14 15 16 17 18 19 20 25 17 14 18 15 26 22 21 65 4.77 seconds 0.53 seconds

1.30 seconds 1.23 seconds 2.87 seconds

7.00 seconds 1.50 seconds

2.00 seconds

(14)

Sum´

ario

• Estrutura¸c˜ao e indexa¸c˜ao de v´ıdeo digital para habilitar novas formas de consumo do material.

• Tomadas s˜ao unidades de granularidade mais grossa que o quadro e com unidade de a¸c˜ao e espa¸co.

• Shot Boundary Detection consiste em delimitar tomadas em um v´ıdeo V .

• Quadros-chave servem como representa¸c˜ao sucinta da tomada. Ideal para indexa¸c˜ao.

• TWINCOMPARISON ´e trata o v´ıdeo globalmente. Heterogeneidade requer an´alise

local.

• Podemos representar v´ıdeo para navega¸c˜ao atrav´es de tomadas e seus quadros chaves.

(15)

Trabalho futuro

• Estrutura¸c˜ao

. Maior cobertura, maior precis˜ao.

. Detec¸c˜ao e caracteriza¸c˜ao de transi¸c˜oes graduais devem ser melhoradas. . Detec¸c˜ao de eventos

? Ilumina¸c˜ao (ex.: flashes, luzes acendendo/apagando)

? Surgimento e aparecimento de objetos

. Explora¸c˜ao de outros n´ıveis al´em das tomadas: cenas [3]? . Rela¸c˜oes inter-tomadas.

• Indexa¸c˜ao

. Caracteriza¸c˜ao das tomadas (via quadros-chaves):

? Cor, texturas.

? Objetos e as rela¸c˜oes entre os objetos.

? Movimento. . Rela¸c˜oes intra-tomadas.

(16)

Referˆ

encias

[1] Glorianna Davenport, Thomas A. Smith, and Natalio Pincever. Cinematic primitives for multimedia. IEEE Computer Graphics and Applications, 11:67–74, July 1991. 2

[2] Jos´e M. Mart´ınez. MPEG-7 Overview, version 9. Pataya, Mar¸co 2003.

http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm. 2

[3] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94–109, July 1998. 15

[4] H. J. Zhang, A. Kankanhalli, and S. W. Smoliar. Automatic partitioning of full-motion video. Multimedia Systems, 1:10–28, July 1993. 7

Referências

Documentos relacionados

A par disso, analisa-se o papel da tecnologia dentro da escola, o potencial dos recursos tecnológicos como instrumento de trabalho articulado ao desenvolvimento do currículo, e

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

No prazo de 10 dias contada da deliberação, para os condóminos presentes, ou contada da sua comunicação, para os condómino ausentes, pode ser exigida ao administrador a convocação

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

A principal forma de avaliar os fios multifilamentos con- tínuos é mediante o ensaio de tração, que deve ser realizado em equipamento próprio para ensaio de fios têxteis, o qual

O PROGRAMA AGENTES LOCAIS DE INOVAÇÃO, por este Edital, torna público a Retificação do Edital 03/2011, a Lista de Convocados para Realização das Dinâmicas de Grupo e

II - os docentes efetivos, com regime de trabalho de 20 (vinte) horas semanais, terão sua carga horária alocada, preferencialmente, para ministrar aulas, sendo o mínimo de 8 (oito)

3259 21 Animação e dinamização de actividades lúdico-expressivas - expressão musical 50 3260 22 Animação e dinamização de actividades lúdico-expressivas -