Estruturaç ão e indexaç ão de v´ıdeo digital Thiago T. Santos

(1)

Estruturação e indexação de v´ıdeo digital

Thiago T. Santos¹², Carlos H. Morimoto¹

1Instituto de Matemática e Estat´ıstica da Universidade de São Paulo Rua do Matão, 1010 – 05508-090 São Paulo, SP

2Faculdade Senac de Ciˆencias Exatas e Tecnologia Rua Tito, 54 – 01506-000 S˜ao Paulo, SP

thsant,hitoshi@ime.usp.br

Abstract. This paper describes a few algorithms for shot boundary detection, in particular, those based on color histograms. The differece between the histograms of two consecutive frames is used to compute the beginning and end of each shot. Experimental results show that the adaptive threshold al- gorithm has clear advantages over the others. This algorithm was used to implement a prototype of an online multimidia library that allows the visua- lization of the video using key-frames computed from the shots. This struc- ture facilitates the search and visualization of the video content, and saves the transmition of hugh amounts of data. This prototype can be seen at http://www.ime.usp.br/˜thsant/vweb.html.

Resumo. Neste artigo s ão descritos alguns algoritmos para a segmentaç ão de v´ıdeo em tomadas, em particular, algoritmos baseados em histogramas de cor.

O in´ıcio e fim de cada tomada s ão detectados através de comparações dos his- togramas entre quadros consecutivos do v´ıdeo. Resultados experimentais com- provam que o algoritmo de limiar adaptativo oferece vantagens sobre os de- mais. Esse algoritmo foi utilizado para construir um prot ótipo de uma biblio- teca multim´ıdia de acesso remoto que permite a visualização do v´ıdeo através de quadros-chave, facilitando assim a busca e visualizaç ão da informação de v´ıdeo sem a necessidade do usu ário importar o v´ıdeo em si, poupando assim a transmissão de um grande volume de dados. Esse prot ótipo pode ser visto no endereçohttp://www.ime.usp.br/˜thsant/vweb.html.

1. Introduc¸˜ao

Recentemente, tornou-se poss´ıvel a manipulação de v´ıdeo digital, outrora uma gigantesca massa de dados acima das capacidades de armazenamento e processamento da maio- ria dos computadores pessoais. As redes com grandes larguras de banda viabilizaram a distribuição de tal material. Neste cenário, é crescente o interesse em novas formas de acesso e consumo deste tipo de conteúdo, como por exemplo o v´ıdeo por demanda (video-on-demmand – VOD).

Diferentemente das fitas VHS, de acesso inerentemente serial, o v´ıdeo digital permite formas muito mais elaboradas de manipulação, como por exemplo o acesso aleatório

(2)

Internet Indexação

Estruturação

Vídeo Estruturado Vídeo Digital

Celulares e PDAs

Computadores

Televisores

Figura 1: Um poss´ıvel sistema para acesso e consumo de conte ´udo audiovisual.

a qualquer quadro de um filme. Uma das caracter´ısticas mais importantes do v´ıdeo digi- tal é que ele pode ser estruturado em n´ıveis muito além dos quadros, tornando poss´ıveis novas formas de consumo. Usuários diferentes podem acessar e manipular o mesmo material de acordo com suas necessidades e condições particulares. Acervos digitais podem modelar o conteúdo de acordo com as necessidades de consulta. A Figura 1 mostra um sistema onde o v´ıdeo estruturado é armazenado para posteriormente ser indexado de modo apropriado para formas diferentes de navegação e consulta.

O quadro é a unidade mais simples para decomposição de v´ıdeo (de certa forma, herança de sua representação em pel´ıcula). Porém, trata-se de uma decomposição de granularidade muito fina, inadequada para a navegação e busca baseada em conteúdo.

Tais aplicaç ões pedem uma estruturação do material audiovisual em outros n´ıveis, com granularidade mais grossa e preferencialmente refletindo alguma semântica.

Partindo do quadro, o próximo e mais natural n´ıvel de segmentação é o de to- mada¹. Uma tomada é uma seqüência de quadros cont´ınua com relação a tempo e espaço, capturada em única operação de gravação da câmera [Davenport et al., 1991] (Figura 2).

Tal segmentação é a de mais fina granularide com referência a unidade de ação. Porém, sua granularidade é claramente maior que a simples decomposição em quadros, sendo ideal para a estruturação de filmes e programas de TV (v´ıdeos de segurança ou moni- toramento geralmente são compostos por uma única tomada, sendo mais efetiva uma segmentação baseada em eventos [Latecki and de Wildt, 2002]).

Segundo Davenport et al., “descriç ões de conteúdo devem ser estruturadas no n´ıvel das tomadas para maximizar o potencial de navegação e montagem de seqüências auxili- adas por computador” [Davenport et al., 1991]. As tomadas podem ser combinadas ainda

1Na literatura em l´ıngua inglesa, ´e comumente nomeada shot.

(3)

Tomada S₁ Tomada S₂

Figura 2: Duas tomadas sucessivas em Challenge at Glen Canyon.

em estruturas de n´ıvel semântico ainda mais alto, como cenas [Yeung et al., 1998], ob- tendo um melhor sumário do material para indexação e navegação. Um exemplo de cena comumente encontrada em filmes são diálogos formados por tomadas independentes de 2 atores.

Este trabalho apresenta um sistema para estruturação de v´ıdeo em tomadas e o agrupamento destes em unidades de maior granularidade. Propõe também uma indexação do material estruturado para navegação na Internet. A seção 2 introduz conceitos básicos sobre delimitação de tomadas e o trabalho existente na literatura. Na seção 3, apresentamos um sistema para segmentação de v´ıdeo, inspirado nos trabalhos de Zhang et al.

[Zhang et al., 1993] e Yeo e Liu [Yeo and Liu, 1995], e um método para sua indexação e navegação na Internet. Os resultados obtidos são apresentados na seção 4, seguidos por nossas conclusões na seção 5.

2. Estruturac¸˜ao de V´ıdeo Digital

Vamos definir uma tomada com sendo uma seqüência de quadros cont´ınua no tempo e no espaço, obtida por uma única operação de gravação. Um v´ıdeo é obtido pela montagem de várias tomadas. Quando a transição entre tomadas é abrupta, tem-se um corte, como visto na Figura 2. Contudo, efeitos de edição podem ser aplicados ao processo de montagem, gerando transições mais complexas.

Após o corte, a transição mais comum é a dissoluç ão. Nela, a tomada anterior perde luminosidade enquanto o posterior a ganha, como ilustrado na Figura 3. Quando a tomada posterior é composta por quadros monocromáticos, a dissolução é chamada fade- out. Analogamente, um fade-in é uma dissolução que parte de quadros monocromáticos.

A Figura 4 ilustra um fade-out seguido por um fade-in.

2.1. Delimitac¸˜ao de tomadas

SejaV =hq₁, q₂, ..., q_vium v´ıdeo digital composto por quadrosq_i, imagens de resolução m×n. Uma tomada é a subseqüênciaS =hqs, q_s+1, ..., q_tide quadros deV. O problema da delimitação temporal (Shot Boundary Detection – SBD) é encontrar o conjunto de tomadasSque cobreV e corresponde a montagem realizada na edição (Figura 5).

Vários métodos têm sido propostos na literatura para a detecção de cor- tes e dissoluções em v´ıdeo [Ahanger and Little, 1996, Idris and Panchanathan, 1997, Koprinska and Carrato, 2001]. Um dos métodos mais simples para a detecção de cor- tes é medir a diferença entre quadros sucessivos do v´ıdeo e declarar a existência de um corte toda vez que a medição extrapolar um dado limiark_c:

(4)

6980 6984 6986

6988 6990 6992 6994

6982

7002

6996 6998 7000

7004 7006 7008 7010

Figura 3: Uma dissoluc¸ ˜ao em Airline Safety and Economy.

Figura 4: Um fade-out seguido por um fade-in em Airline Safety and Economy.

S₁

S₂

S₃

S₄ S₅ V

Figura 5: Decomposiç ão de um v´ıdeo em tomadas. Transiç ões graduais como dissoluç ões geram sobreposiç ão.

(5)

SBD-DIFERENC¸ASIMPLES(V =hq1, ..., q_vi) 1 S ← ∅

2 s←1

3 parai←1 `av−1

4 fac¸ad← DIFERENC¸A(qi, q_i+1)

5 sed≥k_c

6 ent˜aoS ← S ∪ {hqs, ..., q_ii}

7 s←i+ 1

8 S ← S ∪ {hqs, ..., q_vi}

9 devolvaS

Em outras palavras, o algoritmo detecta as transições pela limiarização do sinal d[i] =DIFERENÇ A(qi, q_i+1), como pode ser observado na Figura 6.

0 50000 100000 150000 200000 250000 300000

4400 4500 4600 4700 4800 4900 5000 5100

Figura 6: Trecho do sinald[i] = DIFERENC¸ A-HISTOGRAMAS(qi, qi+1) em Airline Safety and Economy.

O algoritmo anterior não está apto a detectar dissoluções, que apresentam peque- nas diferenças entre quadros sucessivos, situação ilustrada pelas duas primeiras transições na Figura 6 (na altura dos quadros 4500 e 4660). Zhang et al.[Zhang et al., 1993] apre- sentaram um algoritmo simples que analisa as diferenças acumuladas entre quadros e, caso esta se torne suficientemente grande, declara a mudança de tomada. Os algoritmos TWIN-COMPARISONe DETECTOR-GRADUALsão implementações livres daquele método:

TWIN-COMPARISON (V) 1 S ← ∅

2 s←1

3 parai←1 `av−1

4 fac¸ad←DIFERENC¸A(qi, q_i+1)

5 sed≥k_c

6 ent˜aoS ← S ∪ {hqs, ..., q_ii}

7 S ← S ∪DETECTOR-GRADUAL (V, s, i)

8 s←i+ 1

9 S ← S ∪ {hqs, ..., q_vi}

10 S ← S ∪DETECTOR-GRADUAL(V, s, v)

(6)

11 devolvaS

DETECTOR-GRADUAL(V, u, w) 1 Sg ← ∅

2 c← NIL

3 s←u 4 D←0

5 parai←u `aw−1

6 fac¸ad←DIFERENC¸A(qi, q_i+1)

7 sed≥k_g

8 ent˜aoD←D+d

9 sec=NIL

10 ent˜aoc←i+ 1

11 sen˜ao seD≥k_c

12 ent˜aoSg ← Sg∪ {hqs, ..., q_ii}

13 s←c

14 D ←0

15 c←NIL

16 Sg ← S ∪ hqs, q_wi 17 devolvaSg

O maior inconveniente de algoritmos como TWIN-COMPARISONé o fato dos mes- mos limiares serem utilizados ao longo de toda a seqüência. Um mesmo v´ıdeo pode alternar trechos de grande movimentação de objetos e câmera com outros de pouca atividade. Limiares baixos irão gerar um grande número de falsos-positivos enquanto valores altos perderão muitas transições em falsos-negativos. A Figura 7 ilustra essa situação: há um corte perto do quadro 1550 enquanto a região em torno do quadro 1600 não é uma transição mas sim o trecho exibido na Figura 8.

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000

1500 1550 1600 1650 1700 1750 1800

Figura 7: Trecho do sinald[i] =DIFERENC¸ A-HISTOGRAMAS(qi, qi+1)em Corvair in Action.

Yeo e Liu [Yeo and Liu, 1995] tratam este problema com o uso de uma janela deslizante (sliding window). A janela permite uma an´alise local, adaptando-se ao n´ıvel de atividade do trecho de v´ıdeo em quest˜ao:

(7)

1584 1588 1590

1592 1594 1596 1598

1586

Figura 8: Uma seq ¨u ˆencia de muito movimento em Corvair in Action.

SLIDINGWINDOW(V) 1 S ← ∅

2 s←1

3 parai←1 `av−1

4 façad[i]←DIFERENÇA(qi, q_i+1) 5 parai←m àn−m

6 fac¸a sed[i]>MAX(d[i−m+ 1, i+m−1])

7 ent˜ao sed[i]> c∗SEGUNDOMAX(d[i−m+ 1, i+m−1])

8 ent˜aoS ← S ∪ {hqs, ..., qii}

9 s←i+ 1

10 devolvaS

SLIDINGWINDOWobserva um intervalo de tamanho2m−1ded, centrado emi.

Um corte emi é declarado se e somente sed[i]é a maior diferença no intervalo (MAX) e cvezes maior que a segunda maior diferença na janela (SEGUNDOMAX). Tal abordagem adaptativa é mais robusta que a limiarização global imposta nos algoritmos anteriores.

A estratégia dos algoritmos anteriores se baseia na redução do v´ıdeoV em um sinal cujo processamento leva à detecção dos eventos de interesse. A função DIFERENÇ A, responsável pela medição da similaridade entre as imagens, pode ser definida de várias maneiras. As mais comuns se baseiam na diferença entre pixels ou histogramas de cores. A filtragem do sinal de diferenças e a combinação de sinais diferentes podem ainda melhorar o desempenho dos segmentadores [Ferman and Tekalp, 1998]:

DIFERENC¸A-PIXELS(qi, q_j) 1 d←0

2 parax←1 `am

3 fac¸a paray←1`an

4 fac¸ad←d+|qi(x, y)−q_j(x, y)|

5 devolvad

DIFERENC¸A-HISTOGRAMAS (qi, q_j) 1 parab ←1 `al

(8)

2 fac¸aH_i[b]←0

3 Hj[b]← 0

4 parax←1 `am

5 fac¸a paray←1`an

6 fac¸aHi[qi(x, y)]←Hi[qi(x, y)] + 1 7 H_j[qj(x, y)]←H_j[qj(x, y)] + 1 8 d←0

9 parab ←1 `al

10 fac¸ad←d+|Hi[b]−H_j[b]|

11 devolvad

Diferenças baseadas em histogramas geram melhores resultados que a comparação direta de pixels. Sua invariabilidade com relação a rotação e sua maior robustez quanto à translações geram um número menor de falsos-positivos, proporcionando maior precisão aos algoritmos. Outras medidas, baseadas em coeficientes DCT e vetores de movimento (extra´ıdos diretamente da codificação MPEG) também são utilizados [Koprinska and Carrato, 2001].

2.2. Estruturaç ão e representaç ão

Após a delimitação das tomadas, convém encontrar uma forma de representá-las visando sua indexação. Esta representação, idealmente, deveria possibilitar a identificação de objetos e eventos de interesse, tendo em vista a recuperação de informação baseada no conteúdo visual da tomada. Se um usuário desejasse obter todos os segmentos de uma cinemateca digital contendo um carro vermelho ou localizar todos aqueles contendo uma pessoa de face conhecida, não seria conveniente varrer todos os quadros de todos os v´ıdeos do acervo. Com a redução da granularidade, uma varredura por tomadas deveria ser suficiente para, a partir de seus ´ındices, localizar o conteúdo almejado.

A prática mais comum é a seleção de um ou mais quadros-chave pertencentes

à tomada. Um único quadro às vezes é suficiente para representar toda a ação de uma tomada, em segmentos de pouca ação, como uma entrevista. Quando a atividade em uma tomada é maior, pode-se lançar mão de vários quadros. Com relação à busca usando quadros-chave, varrer apenas 5 quadros consiste em uma grande vantagem comparado a uma tomada originalmente composta por 200 quadros.

Um método comum para a definição de um quadro-chave é a seleção do primeiro ou último quadro de uma tomada. Esta abordagem simplista pode levar a perda de eventos importantes ocorridos durante o segmento. Outro método simples consiste na comparação dos quadros com relação a um quadro-chave corrente (o primeiro do segmento, por exemplo) e na seleção de um novo quadro-chave adicional toda vez que a similaridade entre o quadro atual e a chave corrente se tornar muito pequena. Considerando a mesma constante k_cutilizada em TWIN-COMPARISON, temos:

QUADROS-CHAVE (S =hq_s, ..., q_ti) 1 K ← {qs}

2 q_c←q_s

3 parai←s+ 1 `at

(9)

4 fac¸a se DIFERENC¸A(qc, q_i)≥k_c

5 ent˜aoK ←K∪ {qi}

6 q_c←q_i

7 devolvaK

Em [Zhuang et al., 1998] e [Uchihashi et al., 1999], aglomerados (clusters) obti- dos a partir de vetores de caracter´ısticas baseados em histogramas de cores são utilizados para encontrar quadros representativos. Quadros semelhantes são agrupados e o centróide do agrupamento é declarado quadro-chave. É poss´ıvel ainda separar os quadros do aglo- merado com relação ao tempo, delimitando-se as tomadas (para quadros sucessivos) e atribuindo-se relaç ões de similaridade entre eles. Contudo, a definição de quadros-chave independe da delimitação em tomadas o que, em termos de indexação, constitui uma vantagem pois a detecção de quadros-chave representativos é geralmente mais robusta que SBD [Zhang et al., 1995].

As abordagens anteriores visam encontrar representantes para grandes conjuntos homogêneos de quadros. Em [Latecki and de Wildt, 2002], os autores optam pela busca de eventos raros, imprevis´ıveis pela análise dos quadros anteriores. Seu método consiste na montagem de um vetor de caracter´ısticas, baseado no histograma de cores e no ´ındice do quadro em relação ao tempo, e no comportamento da curva obtida nesse espaço n dimensional. Suavizando-se a curva, eliminam-se os pontos referentes a quadros “pre- vis´ıveis”, isto é, muito semelhantes aos seus vizinhos. Os pontos restantes representam, assim, eventos raros, d´ıspares, que poderiam ser de maior interesse ao usuário, como por exemplo em um sistema de vigilância.

3. Acesso remoto a uma biblioteca de v´ıdeos

Na seção 1, vimos que uma série de aplicaç ões podem ser obtidas com a estruturação do v´ıdeo digital. Apresentamos agora uma aplicação simples que desenvolvemos para permitir o acesso remoto a v´ıdeo digital, que poderá ser estendido para aplicaç ões de v´ıdeo por demanda.

Um dos principais problemas de bibliotecas multim´ıdia é a busca e o acesso rápido a informação desejada. Muitas vezes a descrição textual do v´ıdeo é insuficiente para definir o seu conteúdo e a única forma de conhecê-lo é importá-lo da biblioteca para vê-lo.

Porém, como um arquivo de v´ıdeo em geral é muito grande, a transmissão desses arquivos deve ser minimizada para otimizar os recursos computacionais. Além disso, o usuário pode não estar interessado em ver ou receber o v´ıdeo inteiro, mas apenas algumas de suas partes. O usuário deve portanto dispor de ferramentas de visualização que permitam conhecer seu conteúdo e permitir a seleção da parte desejada para visualização.

A estruturação do v´ıdeo em tomadas e sua representação através de quadros-chave descrita anteriormente é uma forma natural e bem mais compacta para se visualizar o v´ıdeo antes de importá-lo da biblioteca. A seguir descrevemos o algoritmo utilizado na implementação do protótipo do sistema para acesso remoto a uma biblioteca de v´ıdeos.

(10)

3.1. Segmentac¸ ˜ao adaptativa

Como visto na seção 2.1, TWIN-COMPARISON é um algoritmo simples para a detecção de transições abruptas e graduais mas se utiliza de limiares globais. Nós implementamos uma nova versão do algoritmo, o TWIN-COMPARISONADAPTATIVO, que se utiliza de limiares adaptativos escolhidos com base em uma janela que se move ao longo do sinal. O uso dessa janela torna o algoritmo mais robusto à movimentações de câmera e objetos.

TWIN-COMPARISONADAPTATIVO (V, kc, k_g) 1 S ← ∅

2 s←1

3 parai←m `av −m 4 fac¸ad¯←

Pi−1

j=i−m+1d[j]+Pi+m−1 j=i+1 d[j]

2m−2

5 sed[i]≥k_c·d¯

6 ent˜aoS ← S ∪ {hqs, ..., q_ii}

7 S ← S ∪DETECTOR-GRADUAL (V, s, i, kg·d)¯

8 s←i+ 1

9 S ← S ∪ {hqs, ..., q_ni}

10 S ← S ∪DETECTOR-GRADUAL(V, s, n, kg) 11 devolvaS

TWIN-COMPARISONADAPTATIVOutilizad, a média das diferenças em uma janela¯ de tamanho2m−1sobre i, excetuando-se d[i]. Aqui,k_c adquire outro significado: é a m´ınima razão entred[i]ed¯para que seja declarado um corte entreq_i eq_j. A definição de k_g segue um racioc´ınio análogo. Pode-se, ainda, obter um resultado semelhante através do algoritmo TWIN-COMPARISON, utilizando-se o sinal das diferenças filtrado:

d¯[i] = d[i]

d¯ .

Utilizamos o algoritmo QUADROSCHAVEcom uma pequena modificação. Nova- mente, buscou-se uma abordagem adaptativa: a diferença entre o quadro-chave corrente q_ce o quadro-chave candidatoq_i deve ser superior a um múltiplo da média das diferenças sucessivas na tomadaS =hqs, ..., q_tiem questão, isto é:

DIFERENC¸ A(qc, q_i)≥c·

P_t−1

i=sDIFERENC¸ A(qi, q_i+1)

t−s .

4. Resultados

Os algoritmos TWIN-COMPARISON (TC) e TWIN-COMPARISONADAPTATIVO (TCA) foram implementados na linguagem C, utilizando a biblioteca de processamento de imagens OpenCV da Intel Corporation, de c´odigo aberto.

A entrada do programa de segmentação de v´ıdeo em tomadas é um arquivo no formato MPEG, e a sa´ıda é a seqüência de quadros numerados no formato JPEG, junta- mente com um arquivo onde são relacionados o in´ıcio e fim de cada tomada detectada, e a seqüência de quadros-chave.

(11)

Tabela 1: Resultados de cobertura e precis ˜ao dos algoritmos TC e TCA.

Algoritmo C P

TC 0.22 0.80

TCA 0.60 0.88

Nesse artigo utilizamos apenas 3 v´ıdeos que totalizam cerca de 12 minutos ou mais de 20500 quadros. Esses v´ıdeos foram obtidos do reposit´orio do Open Video Project (http://www.open-video.org), e o resultado do processamento pode ser visto em http://www.ime.usp.br/˜thsant/vweb.html.

Para comparar o desempenho dos algoritmos TC e TCA, vamos utilizar as medidas de cobertura (C) e precis ão (P). SejaT o conjunto das transiçõesT entre duas tomadas, identificadas pelo algoritmo. SejaTref o conjunto de transições reais, anotadas por um observador humano. Definimos então

C = |T ∩ Tref|

|T_ref| e

P = |T ∩ Tref|

|T | .

A cobertura avalia o número de transições perdidas enquanto a precisão mensura o número de transições falsas de uma solução. A Tabela 4 mostra o resultado médio dos dois algoritmos para as duas medidas. Os v´ıdeos foram cuidadosamente analisados quadro a quadro por um observador humano, que anotou o in´ıcio e o fim de cada tomada, para que esses cálculos pudessem ser realizados.

Observe que devido a variação no n´ıvel de atividade do v´ıdeo (movimentação de câmera e objetos), TC tem grande dificuldade em encontrar limiares globais capazes de identificar o maior número de transições sem gerar grandes quantidades de falsos- positivos (degenerando a precisão). TCA atua localmente, definindo relaç ões entre a atividade no trecho corrente e o limiar a ser utilizado, gerando resultados muito melhores.

Embora necessite das razõesk_cek_g, TCA demonstra maior robustez. Em poucas tentativas, é poss´ıvel encontrar valores parak_c ek_g que geram bons resultados. TC, por outro lado, tem a calibração de tais valores dif´ıcil pois trechos diferentes do v´ıdeo pedem por valores espec´ıficos, de acordo com a atividade.

4.1. Visualizac¸˜ao da estrutura do v´ıdeo

Após o processamento do v´ıdeo, os resultados são fornecidos à um outro programa de- senvolvido na linguagem PERL, que é responsável pela geração da representação estru- turada do v´ıdeo vista na Figura 9. Cada tomada é representada por seus quadros-chave.

Sua duração também é fornecida, em segundos, abaixo de seu primeiro quadro-chave.

A Figura 9 exibe uma ampliação da tomada de número 69. No in´ıcio dessa to- mada, duas pessoas estão observando um monitor de v´ıdeo, e a seguir a câmera faz um

(12)

Figura 9: Uma representac¸ ˜ao para o v´ıdeo Airline Safety and Economy, exibido em uma navegador (Mozilla Firebird).

(13)

zoom sobre esse monitor. Nesse caso em particular, um único quadro-chave não tornaria poss´ıvel a identificação deste evento, como discutido na seção 2.2.

Nessa implementação ainda não é poss´ıvel selecionar uma parte do v´ıdeo para download e visualização. A interface ainda é muito simples, mas permite encontrar qua- dros similares entre si.

5. Conclus˜oes

Neste artigo foram descritos em detalhes 2 algoritmos para segmentação de v´ıdeo em tomadas, o TWIN-COMPARISON (TC) e TWIN-COMPARISONADAPTATIVO (TCA). Esses algoritmos utilizam histogramas de cor para a detecção do in´ıcio e fim de cada tomada, e são capazes de detectar tanto transições abruptas quanto transições graduais. Para cada tomada, um ou mais quadros-chaves são escolhidos como os mais representativos, de forma que o v´ıdeo pode ser visualizado a partir da seqüência resultante. Essa forma de representação permite que um usuário tenha uma boa idéia do conteúdo de um v´ıdeo em bibliotecas multim´ıdia online, sem a necessidade de importar o v´ıdeo inteiro. Permite ainda que apenas partes do v´ıdeo sejam selecionadas para importação.

Esse algoritmos foram integrados em um protótipo de biblioteca multim´ıdia como ferramenta de visualização dos resultados de segmentação, e que poderá ser estendido para um sistema de v´ıdeo por demanda. As funcionalidades desse protótipo ainda são extremamente simples, e os resultados preliminares estão dispon´ıveis em http://www.ime.usp.br/˜thsant/vweb.html.

Para dar continuidade a esse trabalho, estamos desenvolvendo outros algoritmos de segmentação e trabalhando também para oferecer mais recursos de visualização online.

Referˆencias

Ahanger, G. and Little, T. D. C. (1996). A survey of technologies for parsing and indexing digital video. Journal of Visual Communication and Image Representation, 7(1):28–

43.

Davenport, G., Smith, T. A., and Pincever, N. (1991). Cinematic primitives for multime- dia. IEEE Computer Graphics and Applications, 11:67–74.

Ferman, A. M. and Tekalp, A. M. (1998). Efficient filtering and clustering methods for temporal video segmentation and visual summarization. Journal of Visual Communi- cation and Image Representation, 9(4):336–351.

Idris, F. and Panchanathan, S. (1997). Review of image and video indexing techniques.

Journal of Visual Communication and Image Representation, 8(2):146–166.

Koprinska, I. and Carrato, S. (2001). Temporal video segmentation: A survey. Signal Processing: Image Communication, 16(5):477–500.

Latecki, L. J. and de Wildt, D. (2002). Automatic recognition of unpredictable events in videos. In International Conference on Pattern Recognition, Qu´ebec.

Uchihashi, S., Foote, J., Girgensohn, A., and Boreczky, J. (1999). Video manga: Gene- rating semantically meaningful video summaries. In ACM Multimedia 1999, Orlando, Florida.

(14)

Yeo, B.-L. and Liu, B. (1995). Rapid scene analysis on compressed video. IEEE Tran- sactions on Circuits and Systems for Video Technology, 5:533–544.

Yeung, M., Yeo, B.-L., and Liu, B. (1998). Segmentation of video by clustering and grapg analysis. Computer Vision and Image Understanding, 71(1):94–109.

Zhang, H. J., Kankanhalli, A., and Smoliar, S. W. (1993). Automatic partitioning of full-motion video. Multimedia Systems, 1:10–28.

Zhang, H. J., Low, C. Y., Smoliar, S. W., and Wu, J. H. (1995). Video parsing, retrieval and browsing: An integrated and content-based solution. In ACM Multimedia 95, San Francisco, California.

Zhuang, Y., Rui, Y., Huang, T. S., and Mehrotra, S. (1998). Adaptative key frame ex- traction using unsupervised clustering. In IEEE International Conference on Image Processing, pages 866–870, Chicago.