• Nenhum resultado encontrado

Ontologia Modelos pretendidos

3.3 ANOTAÇÃO (SEMÂNTICA) DE DOCUMENTOS MULTIMÍDIA

3.3.1 A natureza da informação multimídia

Multimídia no contexto desta pesquisa contempla um documento composto que faz referência a vários tipos de objetos, tais como vídeo, texto, som, imagem, entre outros, e que pode ser dividido em partes que contêm textos, imagens, e assim por diante (SITARAM e DAN, 1999). Atualmente, objetos multimídia tornam-se onipresentes no lazer, no aprendizado, nas artes, na

92 comunicação, no comércio, nas ciências; tomando os formatos de arquivos digitais de texto, vídeo, áudio e imagens produzidos e disponibilizados na Internet e na Web. Podem-se citar exemplos de aplicações multimídia (ADJEROH e NWOSU, 1997; SCHANDL et al., 2011; DOMINGUE, FENSEL e HENDLER, 2011; NIXON et al., 2011) voltadas a áreas de educação (ensino local e a distância; bibliotecas digitais), de saúde (telemedicina, bases de dados de imagens médicas), de entretenimento (bases de dados sobre músicas, jogos, vídeo sob demanda, TV interativa), de negócios (vídeo conferência, comércio eletrônico) e de patrimônio cultural (coleções digitais organizadas em bases de dados oriundas de museus e outras instituições responsáveis pela guarda e divulgação de obras de arte e documentos históricos), dentre outras.

De acordo com Andrade e Araújo (2000), a área de pesquisa em multimídia na ciência da computação surgiu no final da década de 1980 despontando tecnologicamente na indústria a partir de 1993. Considera-se, portanto, uma área emergente que ainda se encontra em amadurecimento no que tange a métodos e ferramentas para propósitos de aplicações diversos. Como área de abrangência tecnológica, o conceito de multimídia pode ser direcionado a sistemas computacionais que processam vários formatos de mídia eletrônica, cada qual com suas propriedades específicas. Steinmetz e Lindsay (1995) classificam o termo mídia em diferentes categorias, a saber:

• Mídia de percepção: caracteriza-se pela maneira como usuários interpretam e tomam conhecimento do conteúdo informativo em mídias visuais (desenho animado, por exemplo) e auditivas (um discurso, por exemplo).

• Mídia de representação: caracteriza-se pelo formato das mídias representadas no computador como, por exemplo, um texto em ASCII, EBCDIC, entre outros. • Mídia de apresentação: caracteriza-se pelos instrumentos utilizados na entrada e

saída de dados. Na entrada de dados, por exemplo, utilizam-se teclado, mouse, câmera de vídeo e microfones para coleta de informações pelo usuário; já monitores de vídeo e caixas de som são meios de saída de informação para o usuário.

• Mídia de armazenamento: caracteriza-se pelo meio de armazenamento da informação multimídia como em disco rígido, CD-ROM, microfilmagem, entre outros.

• Mídia de transmissão: caracteriza-se pelos meios físicos de transmissão de dados de um local para outro, tal qual uma rede de dados.

• Mídia de intercâmbio de informação: caracteriza-se pelos dispositivos usados na troca de informações entre diferentes locais como, por exemplo, um sistema de correio eletrônico.

A natureza da representação de documentos multimídia (SITARAM e DAN, 1999) pode ser estática, independente de tempo (uma fotografia, por exemplo), e dinâmica, dependente de tempo (uma sequência de vídeo, por exemplo). Um exemplo de documento multimídia pode ser uma apresentação turística da cidade do Rio de Janeiro, Brasil, constituído de textos, imagens, áudio e vídeos de cada ponto turístico, apresentado em uma ordem sequencial e com mecanismos de interação com o usuário.

Adjeroh e Nwosu (1997) acrescentam que alguns tipos de dados multimídia como vídeo, áudio e sequências de animação possuem requisitos temporais que implicam diretamente na representação, armazenamento, transmissão, manipulação e apresentação do dado. De forma similar, imagens, gráficos e vídeos possuem restrições espaciais em seus conteúdos no que diz respeito a relações espaciais entre objetos individuais pertencentes a uma imagem ou a um quadro (frame, em inglês) de um vídeo. Chella (2004) complementa destacando que na representação de

objetos multimídia devem-se levar em consideração: i) relações espaciais entre elementos de interesse dentro do conteúdo; e ii) relações temporais na ocorrência de eventos dentro de um período de tempo.

Os sistemas de informação tradicionais geralmente manipulam dados clássicos ou convencionais compostos de símbolos alfanuméricos representando nomes, códigos, medidas, quantidades e valores (SILBERSCHATZ, KORTH e SUDARSHAN, 2006; NAVATHE e ELMASRI, 2000). Geralmente, tais sistemas fazem uso de modelos de bancos de dados relacionais ou objetos-relacionais endereçados à representação de dados ou objetos por meio de palavras-chave (conteúdos textuais e numéricos), o que promove buscas e recuperação eficientes. Contudo, a representação de informações, tais como texto livre, imagem, áudio e vídeo, possui estrutura muito mais complexa que as cadeias de letras e números, o que no âmbito da ciência da computação têm- se denominado de “tipos de dados complexos”. Adjeroh e Nwosu (1997) reforçam afirmando que o método de indexação por palavras-chave cria problemas quando direcionado a dados multimídia, principalmente pelo fato de os índices gerados serem altamente subjetivos e limitados dependendo do vocabulário. Os autores destacam o forte interesse de pesquisas voltadas à indexação baseada em conteúdo usando-se características derivadas diretamente do dado. Para tal, torna-se necessário a análise automática do dado multimídia a fim de se obter as características de conteúdo almejadas.

Barreto (2007) pondera que índices ou metadados extraídos automaticamente ou anotados manualmente podem ser classificados de acordo com a relação estabelecida com a mídia nas seguintes categorias: i) metadados independentes de conteúdo; ii) metadados dependentes de conteúdo; e iii) metadados descritivos de conteúdo. Em (i), os dados não são concernentes diretamente ao conteúdo da mídia, mas estão associados a esta, como formato, autoria, data, local, etc.; em (ii) os dados refletem características consideradas primitivas ou de baixo nível, ou de nível

94 médio, como cor, textura, forma, relações espaciais, movimento e combinações destes; e em (iii) os dados referem-se ao conteúdo semântico envolvendo entidades da mídia com entidades do mundo real ou eventos temporais, emoções e significados associados a sinais audiovisuais e cenas.

Os principais métodos usados para descrição e indexação de imagens e vídeos (ADJEROH e NWOSU, 1997; BARRETO, 2007) são: i) processamento e entendimento da imagem; e ii) análise da sequência do vídeo. No primeiro caso, os elementos básicos que compõem a imagem (características visuais) podem ser reconhecidos e extraídos automaticamente pelo computador por meio de reconhecimento de padrões e visão computacional. Tais conteúdos primitivos são geralmente de natureza quantitativa. Por outro lado, uma imagem possui conteúdos dificilmente identificados por máquinas; ou seja, de natureza qualitativa, em que a percepção é direcionada a seres humanos, sendo, portanto, um processo custoso, uma vez que há intervenção manual. No segundo caso, processo também conhecido como segmentação de vídeo, a operação contínua da câmera captura o que se denomina de “plano”, isto é, uma sequência sem interrupção de “quadros”. Estes, por sua vez, podem ser estáticos no tempo (imagens, por exemplo) ou movimentados por uma operação de câmera conhecida como zoom ou panorâmica. Tanto o plano

quanto os quadros formam uma cena, que representa uma unidade semântica do vídeo. Para facilitar a representação de cenas (que às vezes pode conter uma quantidade considerável de quadros), os planos podem ser resumidos por meio de quadros selecionados, os quais são denominados de “quadros-chave”. Após a segmentação em cenas e planos, as etapas que geralmente se sucedem são: i) descrição de planos para identificação de elementos de conteúdo; ii) descrição de cenas para localização temporal e sumário textual; iii) transcrição de voz e classificação de áudio; e iv) descrição de metadados independentes de conteúdo. A oferta de vídeo sob demanda num sistema de televisão interativa é um exemplo de aplicação que faz uso desse tipo de tratamento midiático em que um determinado segmento do programa é exibido como resposta a uma busca.

Na representação de conteúdo sonoro, ou áudio, a indexação baseada em conteúdo pode envolver análise de sinal do áudio ou reconhecimento automático de discurso, seguido por indexação por palavras-chave. Para alguns tipos especiais de áudio, como dado sobre música, a indexação de conteúdo ocorre a partir de marcação de ritmo, acorde e melodia, por exemplo. Além disso, características concernentes à percepção e à acústica também são exploradas na indexação de conteúdo para fins de busca e recuperação de áudio.

Questões importantes devem ser levadas em consideração na atividade de indexação de conteúdo multimídia, a saber: i) o mesmo dado multimídia pode ser interpretado de variadas formas por pessoas diferentes; ii) pela diversidade de necessidades informacionais dos usuários, torna-se difícil identificar todas as características multimídia apropriadas a um dado contexto; e iii) pela diversidade de conteúdo inerente a dado multimídia, torna-se viável para fins de agilidade na

indexação e de armazenamento eficiente de índices, o processamento automático de conteúdo. Para esta última, cria-se um desafio aos especialistas em modelagem e aos que desenvolvem sistemas aplicativos multimídia no que tange à harmonização semântica entre a percepção do conteúdo da mídia pelo usuário e a representação computacional desse mesmo conteúdo.

Finalmente, sistemas de informação multimídia progridem continuamente com soluções tecnológicas eficientes para descrição e indexação multimodal, o que afeta a sociedade em geral no que tange a cultura, a produção industrial, a educação, a segurança, a medicina, dentre outras atividades humanas. Entretanto, soluções mais efetivas só serão possíveis a partir de um consenso na definição de padrões unificados de metadados para representação e recuperação semântica de recursos multimídia, principalmente no contexto da Web Semântica. Alguns padrões para tal propósito e ambiente já se encontram disponíveis e em plena evolução, conforme foi visto no estudo do estado da arte, capítulo 2. São eles: Dublin Core, RDF e MPEG-7, os quais serão elucidados nas seções que se seguem.