• Nenhum resultado encontrado

Sistema para Classificação e Recuperação de Conteúdo Multimídia Baseado no Padrão MPEG-7

N/A
N/A
Protected

Academic year: 2022

Share "Sistema para Classificação e Recuperação de Conteúdo Multimídia Baseado no Padrão MPEG-7"

Copied!
10
0
0

Texto

(1)

Sistema para Classificação e Recuperação de Conteúdo Multimídia Baseado no Padrão MPEG-7

Marco Túlio Chella

Universidade Estadual de Campinas (UNICAMP) Caixa Postal 6101 – 13083-970 – Campinas – SP – Brasil

chella@demic.fee.unicamp.br

Abstract. The development of tools for digitalization of contents multimedia and the communication nets with high-speed, it has been create a great volume of contents multimedia in the form of digital files of video, audio and images that are produced and made available in the Internet. With the increase of available files and the easy access the problem is the difficulty to identify and to manage a volume every time larger of that content. In this work is presented in a brief way the pattern MPEG-7, this several tools for the description of contents multimedia and the development of a system for indexation and recovery of information of digital video files.

Resumo. O desenvolvimento de ferramentas para digitalização de conteúdos multimídia e as redes de comunicação com alta velocidade, tem propiciado meios para que um grande volume de conteúdos multimídia na forma de arquivos digitais de vídeo, áudio e imagens sejam produzidos e disponibilizados na rede Internet. Com o aumento de arquivos disponibilizados e a facilidade de acesso o problema que se apresenta é a dificuldade de identificar e gerenciar um volume cada vez maior desse conteúdo. Neste trabalho é apresentado de forma sucinta o padrão MPEG-7, suas diversas ferramentas para a descrição de conteúdos multimídia e o desenvolvimento de um sistema para indexação e recuperação de informações de arquivos de vídeo digital.

Palavras chave: multimídia, gerenciamento, arquivos, digital

(2)

Introdução

O desenvolvimento de ferramentas para criação e digitalização de conteúdos multimídia e as redes de comunicação com alta velocidade, tem propiciado meios para que um grande volume de conteúdos multimídia na forma de arquivos digitais de vídeo, áudio e imagens sejam produzidos e disponibilizados na rede Internet. Com o aumento de arquivos disponibilizados e a facilidade de acesso o problema que se apresenta é a dificuldade de identificar e gerenciar um volume cada vez maior destes arquivos que somente se tornarão de fato informações úteis caso possam ser identificados, acessados, recuperados, filtrados e gerenciados de forma adequada.

Neste trabalho é apresentado de forma sucinta o padrão MPEG-7, suas diversas ferramentas para a descrição de conteúdos multimídia e o desenvolvimento de um sistema para indexação e recuperação de informações de arquivos de vídeo digital.

O desenvolvimento do sistema abrange os níveis superiores de abstração onde o usuário irá descrever o contexto (autor, categoria, titulo) e conteúdo (por exemplo: na cena X, o personagem A conversou com o personagem B). Para efeitos de navegação serão inseridas marcas para que o usuário que está recuperando as informações possa se posicionar na cena do vídeo a partir da descrição de conteúdo e visualizar as anotações textuais inseridas na classificação.

Este trabalho apresenta um sistema de aplicativos com recursos para edição, recuperação de informações de vídeos digitais e navegação por cenas que anteriormente foram anotadas pelo usuário criador/classificador do conteúdo.

Fundamentação

Os Sistemas Gerenciadores de Banco de Dados tradicionais baseados no modelo relacional normalmente operam no domínio de caracteres e números atuando de forma eficiente para consultas com palavras chave. Estratégias como o modelo binário no qual se verifica ou não a existência da palavra chave ou o modelo vetorial no qual para cada documento é atribuído um peso relacionado a sua relevância, tem atendido de forma satisfatória a recuperação de dados com conteúdos textuais e numéricos. Contudo esses sistemas de banco de dados não oferecem facilidades para gerenciamento e recuperação de conteúdos multimídia. Um sistema para recuperação de conteúdos multimídia sistemas deve ser capaz de:

o Estabelecer relações espaciais: a posição dos elementos de interesse dentro do conteúdo.

o Estabelecer relações temporais: observa a ocorrência de eventos dentro de um período de tempo.

o Efetuar reconhecimento/interpretação: já que a representação de uma imagem ou vídeo pode ser diferente do conteúdo percebido [Yoshitaka e Ichikawa, 1999].

o Possibilitar consultas por meio de representações.

Para atender a essas necessidades trabalhos como o MDBMS (Reiss, 2002) propõe a utilização de processamento de linguagem natural associada a interfaces gráficas adotando a estratégia conhecida como consulta por exemplo (Query By Example - QBE). Outra abordagem são os sistemas baseados em regras como o

(3)

apresentado por [Gandhi, 1995] no qual o conteúdo multimídia é segmentado em trilhas que recebem um conjunto de condições que seguem o formalismo algébrico.

O sistema Webssql [Zhang at al., 2000] é uma ferramenta com as características do SQL, mas incorporando o conceito de similaridade nas consultas. Consultas realizadas na Web retornam documentos com resultados próximos ao que foi determinado consulta.

Abstraindo o conceito de índices semelhantes ao utilizados em livros técnicos o TOCAI [Adami at al., 1999] propõe um navegador multimídia com recursos para análise e indexação de conteúdo áudio-visual. A implementação segue os padrões propostos pelo MPEG-7 que será descrito a seguir e será a base para desenvolvimento do trabalho proposto.

A partir de 1996 iniciou-se a definição do MPEG-7, um padrão ISO/IEC desenvolvido pelo MPEG(Moving Picture Experts Group), o mesmo comitê que desenvolveu os padrões MPEG-1 (1992), o MPEG-2(1994) e o MPEG-4 (1998/1999) . Os padrões MPEG-1 e MPEG-2 propiciaram o desenvolvimento de produtos como o Vídeo CD, MP3, vários serviços para distribuição de conteúdo multimídia sob demanda, entre outros. O MPEG-4 padroniza os recursos tecnológicos que habilitam a integração da produção, distribuição e acesso ao conteúdo no âmbito de multimídia interativa, multimídia em equipamentos móveis, gráficos interativos e televisão digital.

O padrão MPEG-7 pode ser definido como uma interface para descrição de conteúdos multimídia (Multimedia Content Description Interface) disponibilizando um conjunto de ferramentas para a descrição de conteúdo multimídia. Tanto sistemas que atuam com usuários humanos como os automatizados por meio de processamento computacional estão no escopo do padrão MPEG-7.

O MPEG-7 dispõe de um conjunto de ferramentas de descrição (Description Tools), representados por elementos com metadados, e suas estruturas e relacionamentos, que são definidos na forma de descritores (Descriptors) e esquemas de descrição (Description Schemes) para criar descrições que serão utilizadas por ferramentas com funções para pesquisar, filtrar e navegar de forma eficiente em conteúdos multimídia.

As descrições desenvolvidas com as Description Tools não são dependentes de como o conteúdo está codificado ou armazenado. É possível criar descrições de um vídeo analógico, de uma foto, ou um arquivo multimídia digital como som ou vídeo.

Como as descrições são significativas de acordo com o contexto da aplicação, elas serão diferentes em função do domínio do usuário e da aplicação. Tomando como exemplo o conteúdo de um arquivo de vídeo: considera-se um nível de baixa abstração a descrição, da forma, tamanho, textura, cor, movimento; e para um arquivo de áudio:

posição do som no espaço, timbre, pausas. Um nível superior de descrição pode ser representado de forma semântica: por exemplo "nesta cena o personagem X conversa com o personagem Y no local A".

O nível de abstração está relacionado no modo como as características são extraídas. Características com baixo nível de abstração são extraídas de forma automática por meio de processamento computacional, enquanto características com alto nível de abstração utilizam interação humana.

(4)

Como o propósito do padrão MPEG-7 é definir um conjunto de métodos e ferramentas que permita o acesso pelas mais variadas aplicações nos mais diversos ambientes, existe a necessidade de se utilizar um modelo flexível e com possibilidades de extensões. A tecnologia que atende este requisito é o XML que foi utilizado como linguagem para representação textual da descrição de conteúdo. O XML Schema é a base para o DDL (Description Definition Language), usada para a definição sintática das ferramentas de descrição (Descriptions Tools).

Os três elementos principais do padrão MPEG-7 são:

Description Tools, que definem a sintaxe e semântica de cada característica (elemento de metadados); e Description Schemes (DS) que especifica a estrutura e semântica dos relacionamentos entre os componentes. Os DS são estruturados na forma de metadados no formato XML em conformidade com as especificações da DDL. O conjunto de DS é denominado no padrão MPEG-7 de Multimedia Description Schemes (MDS). As Description Tools permitem criar descrições do conteúdo com informações sobre:

o Criação e processo de produção do conteúdo (diretor, título, resumo).

o Utilização do conteúdo (direito autoral, histórico de utilização, agendamento da transmissão).

o Estrutura da informação nos aspectos espacial, temporal ou espaço temporal (cortes na cena, segmentação em regiões, movimentos de elementos na cena).

o Conteúdo de baixo nível (cores, texturas, timbres de sons, descrição da melodia).

o Conceitos da realidade capturada (objetos e eventos, interações entre objetos).

o Como navegar pelo conteúdo de forma eficiente (sumários e variações).

o Coleções de objetos.

o Interação do usuário com o conteúdo (preferências do usuário, histórico de uso).

o Formato: indica o tipo de codificação utilizado para o arquivo (ex.

JPEG, AVI). Esta informação auxilia na determinação de como o material será apresentado pelo terminal do usuário.

o Condições para acesso ao material: o que inclui links para registros com informações sobre propriedade intelectual, direito-autoral e preço.

o Classificação: qualifica o conteúdo em categorias pré-definidas.

o Links para outros materiais considerados relevantes: está informação pode oferecer outros recursos relacionados ao tema pesquisado

o Contexto: No caso de material não ficcional, é importante se reconhecer a data da gravação.

A descrição gerada usando as Description Tools são associadas com o próprio conteúdo, a fim de permitir que a busca e filtragem do conteúdo de interesse do usuário seja rápida e eficiente. A associação pode ocorrer com a descrição fazendo parte do arquivo de dados multimídia, ou como arquivo independente.Quando o conteúdo e as descrições não estiverem localizados no mesmo sistema, são necessários mecanismos que estabeleçam links entre eles.

(5)

Description Definition Language (DDL) define a sintaxe das Description Tools e permite a criação de novos DS, permitindo a modificação dos DS existentes.

A DDL é baseada no XML Schema. Em razão do XML Schema não ter sido designado especificamente para descrição de conteúdos audiovisuais, foram adicionadas algumas extensões. Deste modo a DDL ficou dividida nos seguintes componentes:

o O XML Schema estrutura da linguagem o O XML Schema definição dos tipos de dados o Extensões específicas para o padrão MPEG-7

• Ferramentas do Sistema, para suportar representação codificada no formato binário com o objetivo de melhorar a eficiência na armazenagem e transmissão, multiplexação das descrições, sincronização de descrição com conteúdo, e proteção da propriedade intelectual.

Desenvolvimento do sistema

Este trabalho demonstra o desenvolvimento de um aplicativo para classificação e recuperação de informações em arquivos de vídeo digitais. Este aplicativo está dotado de recursos para a edição de segmentos temporais entendendo-se como segmento uma seqüência correspondente a um grupo de quadros sincronizados no tempo. Para cada segmento poderão ser inseridas anotações de textos livres e a criação de relações semânticas por meio de elementos que representam o sujeito, o predicado e o objeto contidos no segmento em conformidade com o padrão MPEG-7.

O módulo para edição dispõe de recursos para carregar e exibir vídeos em uma janela dotada de controles comuns à maioria dos tocadores de mídia digital. Além desses controles existem dois outros controles específicos com a função de criar marcações que indicarão o início e o fim de um segmento. Depois de criar essas marcações o usuário deverá preencher os campos para anotação de texto livre e dos elementos sujeito, predicado e objeto.

O módulo de navegação com interface gráfica intuitiva é implementado para que após a criação dos segmentos com suas respectivas anotações o usuário possa assistir o conteúdo do segmento e visualizar as informações textuais associadas a ele.

Uma característica planejada para o sistema é que as informações geradas a partir da segmentação dos vídeos e as anotações textuais possam ser compartilhadas por diferentes plataformas e ambientes computacionais. Para que isto ocorra é preciso adotar uma tecnologia de representação de informação que seja utilizada e reconhecida de forma ampla. Neste sentido o padrão MPEG-7 utiliza para armazenamento e organização das informações geradas o XML, uma tecnologia para representação e troca de dados utilizada e suportada por grande parte da industria de software.

Para o desenvolvimento do sistema serão utilizadas as Description Tools do MPEG-7 que representam a estrutura do conteúdo multimídia de forma espacial e temporal descrevendo de forma geral e especifica para aplicações, segmentos multimídia associados com seus respectivos atributos, hierarquias e relações.

Implementação

O sistema é constituído de três elementos básicos:

(6)

• Módulo XML/MPEG-7, responsável pela criação, edição, navegação, gravação e carregamento do arquivo XML com o padrão MPEG-7.

• Módulo de vídeo, para carga, visualização e navegação no vídeo no qual serão marcados os segmentos.

• Interface gráfica, na qual o usuário irá criar, editar e navegar nos vídeos e anotações.

O documento XML tem a estrutura apresentada na Figura 1 e utiliza os descritores MPEG7 para anotação de texto livre, anotação estruturada, marcação de segmento de vídeo e descrição de autoria.

Figura 1: Estrutura do Documento XML

Como ferramenta para implementação foi empregado o Microsoft Visual Studio Versão 6.0 e o sistema operacional Windows 2000.

No módulo XML/MPEG-7 foi utilizado o modelo DOM, ou Document Object Model uma especificação para programação de interface, desenvolvida pelo World Wide Web Consortium (W3C). O DOM define interfaces que possibilitam ao programador navegar em documentos XML e manipular seu conteúdo e estrutura.

MPEG7

DescriptionMetadata Creator CreationTime

TextAnnotation

FreeTextAnnotation StructuredAnnotation

Who WhatObject WhatAction

Name Name Name

MediaTime

MediaTimePoint MediaDuration VideoSegment

Name

(7)

O modelo DOM permite que as aplicações trabalhem com as estruturas e informações do documento XML como estruturas de programa ao invés de cadeias de caracteres. Os parsers baseados no DOM carregam o documento como uma árvore hierárquica. Os nós da arvore representam o conteúdo e estrutura. As interfaces de programação possibilitam a aplicação acessar a arvore e manipular os nós. A instalação básica do Windows 2000 disponibiliza a DLL MSXML que implementa o modelo DOM, com os recursos desta DLL é possível carregar ou criar um documento, acessar e manipular a informação e estrutura contida neste documento; e salvar em um arquivo XML. Na implementação a partir da instanciação da MSXML como objeto serão utilizados os métodos, propriedades e eventos associados a ela para prover a manipulação dos arquivos XML.

O módulo de vídeo será implementado com o objeto MediaPlayer, serão utilizados os recursos para carregar, posicionamento temporal do conteúdo e exibição do vídeo.

A interface gráfica será constituída de um formulário com um conjunto de botões e caixas de texto e exibição de vídeo por meio da qual o usuário poderá selecionar o vídeo a ser anotado, criar e editar descrições e navegar nas descrições criadas.

A seguir são descritos os módulos funcionais que foram implementados e integrados para constituir o sistema:

• Criar nova descrição: permite abrir arquivo de vídeo no formato AVI e MPEG, após abrir arquivo cria um documento XML no qual posteriormente serão inseridas as anotações.

• Criar e editar descrição: O usuário deve informar a data da criação e o autor que serão inseridos no documento XML

• Criar e editar Segmentos: neste módulo o usuário poderá criar ou editar um segmento, inserindo informações como texto livre, o objeto, sujeito e ação do segmento, marcar os pontos inicial e final do segmento.

• Carregar e navegar nos Segmentos: ao acessar este módulo o usuário poderá abrir o arquivo XML com a descrição. Uma caixa de lista de itens será carregada com a identificação de todos os segmentos. Para navegar o usuário deverá selecionar na caixa de lista que carregará o segmento exibindo o conteúdo textual e o posicionando o vídeo nos ponto marcado como posição inicial do segmento.

Os recursos descritos nos módulos funcionais estão integrados em uma interface gráfica acessível ao usuário. Na Figura 2 é apresentada a tela onde se pode carregar um arquivo de vídeo, criar e iniciar o processo de criação da descrição.

(8)

Figura 2: Tela para carga de vídeo e criação de descrição

A Figura 3 apresenta a tela na qual são realizadas as anotações e inseridos as marcações que indicam o inicio e fim do segmento anotado.

Figura 3: Tela para criar e anotar segmentos

A interface gráfica para navegação é apresentada na Figura 4, nela é possível selecionar o segmento desejado na lista de itens e visualizar o segmento de vídeo e as anotações textuais.

(9)

Figura 4: Tela para navegação nos segmentos de vídeo

Conclusão

Neste trabalho foram estudadas algumas estratégias para recuperação e classificação de informações em arquivos multimídia. Entre as tecnologias estudadas o padrão MPEG-7 foi adotado como base para o desenvolvimento do sistema que possibilita que arquivos de vídeo possam ser demarcados em segmentos e anotados com texto livre e texto estruturado. Os vários segmentos podem ser gravados e uma interface gráfica habilita a navegação com a visualização das anotações e do segmento do vídeo.

No sistema desenvolvido neste trabalho as informações relacionadas aos descritores são geradas em XML em conformidade com o padrão MPEG-7, deste modo aplicações desenvolvidas nas mais diversas plataformas podem utilizar e acessar esses arquivos, favorecendo o intercâmbio de informações. A facilidade de troca de informações entre aplicações propiciará meios para que sistemas de busca, pesquisa e classificação entre outros, possam ser desenvolvidos de forma independente.

Referências

Adami N.,Bugatti A.,Corghi A., Leonardi R.,Migliorati P.,Rossi L. A. e Saraceno C.

(1999) “ToCAI: A Framework for Indexing and Retrieval of Multimedia Documents”

In: 10th International Conference on Image Analysis and Processing, Venice, Italy

Gandhi M., Robertson E.L., Gucht D. V. (1995) “Modeling and Querying Primitives for Digital Media.” In International Workshop on Multi-Media Database Management Systems, http://dlib.computer.org/conferen/iw-mmdbms/7168/pdf/71680082.pdf.

Acesso em: 02/04/2003

Reiss, S.P. (2002) “A Visual Query Language for Software Visualization” In IEEE 2002 Symposia on Human Centric Computing Languages and Environments

http://dlib.computer.org/conferen/hcc/1644/pdf/16440080.pdf. Acesso em: 25/04/2003

(10)

Yoshitaka A., Ichikawa T. (1999) “A Survey on Content-Based Retrieval for Multimedia Databases” In IEEE Transactions on Knowledge e Data Engineering, http://dlib.computer.org/tk/books/tk1999/pdf/k0081.pdf. Acesso em: 01/05/2003

Zhang C., Meng W., Wu Z., Zhang Z. (2000) “WebSSQL A Query Language for Multimedia Web Documents” In IEEE Advances in Digital Libraries,

http://dlib.computer.org/conferen/adl/0659/pdf/06590058.pdf. Acesso em 25/04/2003

Referências

Documentos relacionados

ed è una delle cause della permanente ostilità contro il potere da parte dell’opinione pubblica. 2) Oggi non basta più il semplice decentramento amministrativo.

Posteriormente, em Junho de 1999, ingressei no grupo Efacec, onde fui responsável pela elaboração de projetos e propostas para a construção de Estações de Tratamento

 Rendimentos de trabalho por conta própria, os quais são os auferidos no exercício, de forma independente, de profissão em que predomine o carácter

Considerando a importância dos tratores agrícolas e características dos seus rodados pneumáticos em desenvolver força de tração e flutuação no solo, o presente trabalho

O presente trabalho trata de como pode ser feita a gestão de recursos naturais dentro da indústria e da implantação de sistemas de reaproveitamento e recuperação de água

A partir deste estudo, consideramos que o Licenciamento Ambiental Municipal tem grande potencial para minimizar impactos locais, mas acreditamos que os atores

E, como objetivos específicos: (i) quantificar os artigos publicados sobre o tema durante o período analisado; (ii) identificar os periódicos que mais publicam

Por último, a gestão de topo deve assegurar que a organização melhore continuamente a eficácia do sistema de gestão de segurança alimentar através da utilização da comunicação,