• Nenhum resultado encontrado

Ontologia Modelos pretendidos

Cenário 1: especificação dos

5- APRESENTAÇÃO DAS ANÁLISES DAS ONTOLOGIAS MULTIMÍDIA

5.2 COMM: Core Ontology for Multimedia

A Core Ontology for Multimedia160, conhecida como COMM, foi desenvolvida no ano

de 2007 por um grupo de renomados pesquisadores nas áreas multimídia, bibliotecas digitais e Web Semântica, a saber: Richard Arndt, Raphael Troncy, Steffen Staab, Lynda Hardman e Miroslav Vacura (ARNDT et al., 2007; ARNDT et al., 2009). O pesquisador Raphael Troncy, por exemplo, é membro do W3C Multimedia Annotation Interoperability Group161, grupo responsável por

desenvolvimento de trabalhos endereçados ao tratamento semântico de conteúdo multimídia na Web com metas voltadas à interoperabilidade, o que promove a referência da COMM no sítio

Multimedia Vocabularies on the Semantic Web do W3C.

O propósito principal da ontologia COMM é fornecer uma conceituação fundamental (core ontology) para descrição multimídia cobrindo de maneira genérica um domínio em específico

que lida com conteúdo multimídia. A ontologia é usada em projetos como o X-Media162 (Large Scale Knowledge Sharing and Reuse Across Media) e o K-Space163 (Knowledge Space of semantic inference for automatic annotation and retrieval of multimedia content), ambos assistidos pela European Commission; além do Portal Semântico das Organizações Globo164 e do projeto Espanhol

Buscamedia165.

A COMM buscou endereçar limitações do MPEG-7 no que diz respeito a processamento de anotações semânticas pela máquina, o que restringe a acessibilidade dos descritores multimídia por outros domínios (pelo fato de ser um padrão baseado em esquemas XML). Contudo, a equipe de desenvolvimento da ontologia reconhecendo que o MPEG-7 é uma base de conhecimento multimídia consolidada por esta comunidade, realizou uma reengenharia no padrão visando representar formalmente (em OWL DL) descritores selecionados MPEG-7 com a mesma convenção terminológica (VACURA et al., 2008). Outro diferencial da COMM em relação ao padrão MPEG-7 é a representação explícita (axiomatização) de conhecimento algorítmico para descrever funcionalidades e parâmetros relacionados à análise multimídia, como, por exemplo, algoritmos e parâmetros relacionados à produção de um segmento; à extração de características de baixo nível; e à anotação semântica. Na prática, a formalização desse tipo de conhecimento pode apoiar um algoritmo de análise de imagem na avaliação com precisão da existência de um objeto na mídia. 160 http://comm.semanticweb.org/ 161 http://www.w3.org/2005/Incubator/mmsem/XGR-interoperability/ 162 http://www.x-media-project.org/ 163 http://www.image.ece.ntua.gr/php/rd_details.php?proj=51 164 http://www.slideshare.net/renangpa/introduo-a-web-semntica-e-o-case-da-globocom 165 http://mayor2.dia.fi.upm.es/oeg-upm/index.php/en/ontologies/224-buscamedia-ontologies-m3

Segundo Arndt et al. (2009), a interoperabilidade semântica é uma das metas bem tratadas na COMM com a proposta de uma semântica formal para o MPEG-7, o que a diferencia de outras ontologias que, em sua maioria, propuseram alinhamentos ou traduções OWL frente a definições MPEG-7 estruturadas em XML Schema. A semântica formal contribui sobremaneira

para o nível de abrangência da COMM em descrever qualquer aspecto relacionado a dado multimídia. A abrangência é alcançada pela utilização de princípios da engenharia de ontologias (GUIZZARDI, FALBO e GUIZZARDI, 2008), que sugere o emprego de ontologias de fundamentação e padrões de projeto de conteúdo ontológico (GANGEMI e PRESUTTI, 2009). Desse modo, a COMM busca viabilizar a sua ligação com ontologias de domínios específicos (por exemplo, uma ontologia no domínio do futebol) por meio de definições axiomatizadas de conceitos de alto nível oriundos da ontologia de fundamentação.

O projeto da COMM se orientou a partir das partes do padrão MPEG-7 e organizou a ontologia em módulos, a saber: i) descritores relacionados a um tipo de mídia específico (ex. visual, áudio ou texto); ii) descritores genéricos para uma mídia particular; e iii) tipos de dados abstratos para suas realizações técnicas. Os módulos resultaram na partição de arquivos166 OWL da seguinte forma: i) multimedia-ontology.owl: arquivo principal da ontologia, o qual é responsável pela

integração dos módulos existentes; ii) core.owl: módulo central para conhecimento multimídia; iii) visual.owl: módulo centrado em características visuais; iv) text.owl: módulo centrado em

características relativas a texto; v) media.owl: módulo centrado em características gerais de mídia;

vi) localization.owl: módulo centrado em características concernentes a localização de objetos

multimídia; e vii) datatype.owl: módulo para definição de tipos de dados.

A DOLCE é a ontologia de fundamentação usada pela COMM, cuja abordagem cognitiva compreende categorias ontológicas fundamentadas na linguagem natural e no senso comum humano. Desse modo, a DOLCE considera o termo “categorias” como artefatos cognitivos estritamente dependentes da percepção humana. A sua estrutura ontológica abrange uma rica axiomatização, incluindo ao todo 37 categorias básicas, 7 relações básicas, 80 axiomas, 100 definições e 20 teoremas (MASOLO et al., 2003).

A Figura 41 apresenta a taxonomia das categorias mais básicas de particulares167 contidas na DOLCE.

166 Apesar de o sítio oficial de hospedagem da COMM se encontrar sem acesso e suporte, os arquivos owl foram

obtidos através de um link disponível para download.

167 Na DOLCE, a distinção ontológica fundamental entre universais e particulares é realizada tomando a relação de instanciação como uma primitiva. Assim, particulares são entidades que não possuem instâncias e os universais as possuem. Propriedades e relações (correspondentes aos predicados da linguagem lógica) são consideradas universais (MASOLO, 2003).

186

Figura 41 - Taxonomia de conceitos da DOLCE

Fonte: Masolo et al. (2003, p.14)

As categorias básicas estão representadas como nós da taxonomia, incluindo seu nome e um acrônimo para descrevê-la, como, por exemplo, Non-Agentive Physical Object (NAPO). O

Quadro 14 relaciona alguns exemplos para cada categoria da taxonomia da DOLCE.

Quadro 14 - Exemplos de categorias básicas da DOLCE

Fonte: adaptado de Masolo (2003, p15).

Arndt et al. (2009) justificam a escolha da ontologia de fundamentação DOLCE pela influência de dois importantes padrões de projeto de ontologia, a saber: i) Description and

Categorias básicas Exemplos

Abstract Quality O valor de um ativo.

Abstract Region O valor convencional de 1 Euro.

Accomplishment Uma conferência, um desempenho.

Achievement Alcançando o cume do K2.

Agentive Physical Object Uma pessoa física (ao contrário de uma pessoa jurídica).

Amount of Matter Um pouco de ar; algum cimento; algum ouro.

Arbitrary Sum Meu pé esquerdo; meu carro.

Feature Um buraco, um abismo, uma abertura, um limite.

Mental Object Uma percepção; um dado do sentido.

Non-agentive Physical Object Uma casa, um computador, um corpo humano.

Non-agentive Social Object Uma lei, um sistema econômico, uma moeda, um ativo.

Physical Quality O peso de uma caneta, a cor de uma maça.

Physical Region Uma área de um espectro de cor.

Process Correr, escrever, estudar.

Social Agent Uma pessoa (legal); um instrumento de contrato.

Society Fiat, Apple.

State Ser feliz, ser vermelho, ser aberto.

Temporal Quality A duração da primeira guerra mundial; o período de início das olimpíadas do ano 2000.

Situations (D&S); e ii) Ontology for Information Object (OIO). O primeiro pode ser usado para

formalizar conhecimento contextual; e o segundo, baseado no D&S, implementa um modelo semiótico da teoria da comunicação com propósito de modelar diferentes aspectos semânticos envolvendo metadado multimídia como, por exemplo, descrição de decomposição, conteúdo, mídia e significado transmitido.

Ressalta-se que não faz parte do escopo dessa tese o aprofundamento teórico acerca das ontologias de fundamentação, em especial a DOLCE, sendo, de antemão, uma proposta de pesquisa futura, conforme será tratado no capítulo 9. Entretanto, como os conceitos do domínio multimídia concernentes a COMM estão classificados na taxonomia das categorias da DOLCE, torna-se relevante a sua apresentação e elucidação de suas principais categorias a fim de uma compreensão geral de sua estrutura.

Para os autores da COMM, tanto a decomposição de uma entidade de dado multimídia quanto o processo de anotação podem ser considerados uma situação168 que necessita ser descrita.

Entretanto, os padrões supracitados não são suficientemente especializados para o domínio de anotação multimídia. Desse modo, houve a necessidade de estendê-los para representar conceitos MPEG-7 providos de duas importantes funcionalidades de descrição multimídia: a decomposição de recursos de mídia e a anotação (semântica) de suas partes, respectivamente modelados na COMM como Decomposition pattern (padrão de decomposição) e Annotation patterns (padrões de

anotação).

Os padrões de projeto multimídia formam o centro da arquitetura modular da COMM. O padrão para decomposição orienta a estrutura de um documento multimídia, enquanto os padrões de anotação da mídia, de anotação de conteúdo e de anotação semântica são úteis para

anotar, respectivamente, a mídia, as características e o conteúdo semântico do documento multimídia.

A Figura 42 ilustra a taxonomia COMM tida como ponto de partida na análise desta ontologia, na qual os padrões de projeto da DOLCE e suas extensões multimídia mencionadas encontram-se especializados por meio da classe non-agentive social object e suas subclasses description, information-object e situation.

168 Cada situação representa o estado das coisas de todos os dados relacionados: os dados reais multimídia anotados bem

188

Figura 42 - Taxonomia central de conceitos da COMM

Fonte: captura de tela do software Protégé.

A decomposição de conteúdo multimídia é considerada como uma situação que satisfaz uma descrição fornecida por um algoritmo169 ou método aplicado na execução da segmentação. O segmento pode se referir a região de uma imagem, uma parte de um texto, uma cena temporal de um vídeo ou mesmo um objeto em movimento registrado durante um período de tempo. As principais classes conceituais advindas do padrão de decomposição de conteúdo multimídia são a

core:output-segment-role, a core:root-segment-role, a localization:localization-descriptor e a core:segment-decomposition. A primeira tem o papel de representar um segmento em um processo

de decomposição. A segunda designa o papel das decomposições hierárquicas para imagens, textos e vídeos. A terceira reflete a necessidade em localizar segmentos ou regiões específicas em imagens, sequências temporais de vídeos ou registros de objetos em movimento no espaço e no tempo. E a quarta retrata o conceito de decomposição elucidado acima.

A taxonomia exibida na Figura 43 indica as classes centrais do padrão de decomposição da COMM. A estrutura exibida à direita na figura mostra detalhes da taxonomia fundamentada na DOLCE que comporta os padrões indicados.

169 Os papéis definidos pelos algoritmos codificam o significado dos dados. Qualquer algoritmo define ao menos um input-role e um output-role, sendo ambos desempenhados por um digital-data (ARNDT et al., 2009).

Figura 43 - Taxonomia das classes centrais do padrão de decomposição da COMM

Fonte: captura de tela do software Protégé.

As anotações são usadas para descrever um segmento. Os descritores170 da COMM envolvidos na descrição multimídia podem contemplar: características de baixo nível envolvendo recursos visuais e de áudio (metadados dependentes de conteúdo); características abstratas endereçadas ao conteúdo do documento multimídia (metadados descritivos de conteúdo); e características do próprio recurso de mídia (metadados independentes de conteúdo).

O padrão de anotação de conteúdo formaliza a ligação do metadado ao dado

multimídia (multimedia-data171) anotado. As entidades de dados digitais (digital-data) representam

o metadado anexado, o qual desempenha o papel de anotação (annotation-role), bem como o dado

multimídia que está sendo anotado, os quais são considerados information-objects e usados para

comunicação entre máquinas. Os papéis desempenhados por tais entidades são definidos por métodos ou algoritmos, sendo o primeiro usado para expressar anotação manual (ou semiautomática), enquanto o segundo serve como uma explanação para a ligação de características processadas automaticamente pela máquina, tais como o descritor dominant color de uma imagem

170 As partes de Navegação e Acesso do MPEG-7 não foram consideradas no escopo da COMM, entretanto seus autores

afirmam que tais partes podem ser formalizadas de forma análoga para outros descritores por meio da definição de novos padrões multimídia, tornando, portanto, a ontologia extensível.

171 Multimedia-data é um conceito abstrato que tem sido especializado para tipos de conteúdo multimídia concreto (ex.: image-data corresponde a uma matriz de pixel de uma imagem). De acordo com o padrão OIO, multimedia-data é

190 estática. Torna-se obrigatório que a entidade multimedia-data seja anotada desempenhando um

papel de dado anotado (annotated-data-role). Grande parte dos descritores para este padrão

encontra-se organizado na classe structured-data-description especializada na structured-data- parameter. A Figura 44 exibe a taxonomia relativa ao conceito dominant color que segue o padrão

de anotação de conteúdo da COMM.

Figura 44 - Taxonomia do padrão de anotação de conteúdo da COMM

Fonte: captura de tela do software Protégé.

O padrão de anotação de mídia forma a base para descrever as instâncias físicas de

conteúdo multimídia, diferindo do padrão de anotação de conteúdo no aspecto de que é a própria mídia que está sendo anotada, desempenhando, portanto, este papel (annotated-media-role). Um

exemplo seria a representação de um conteúdo visual, tal como uma imagem de uma câmara digital, realizada por uma imagem JPEG com certo tamanho de bytes. Grande parte dos descritores para

este padrão encontra-se organizado na classe structured-data-parameter.

A Figura 45 exibe a taxonomia relativa ao conceito media-format-descriptor-parameter

Figura 45 - Taxonomia do padrão de anotação de mídia da COMM

Fonte: captura de tela do software Protégé.

O padrão de anotação semântica especializa o padrão de anotação de conteúdo,

permitindo a conexão entre descrições multimídia e descrições de domínio fornecidas por ontologias de mundos independentes. Isto ocorre pelo fato de um framework de anotação

multimídia baseado em ontologia precisar lidar com ontologias de domínios específicos para a representação de entidades de mundo real que podem estar retratadas em arquivos multimídia. Neste caso, o dado retratado (um OWL Thing ou um DOLCE particular) desempenha o papel de semantic-label-role172, cujo uso indica que certa instância de uma ontologia de domínio é

considerada como um rótulo semântico para uma parte de um dado multimídia numa situação de anotação semântica.

A Figura 46 exibe a taxonomia relativa ao conceito semantic-label-role que segue o

padrão de anotação semântica da COMM.

172 Anotação da classe (extraída do software Protégé): This role is played by particulars / things of a domain ontology.

The role is used to indicate that a certain instance of a domain ontology has to be considered as a semantic label for a piece of multimedia data within a semantic annotation situation.

192

Figura 46 - Taxonomia do padrão de anotação semântica da COMM

Fonte: captura de tela do software Protégé.

A interoperabilidade semântica e sintática da ontologia COMM é alcançada pela sua formalização em OWL DL, que, de forma similar à sua ontologia de fundamentação173, possui uma rica axiomatização para cada padrão multimídia usando lógica de primeira ordem (ARNDT et al., 2009). A Figura 47 apresenta um exemplo de axiomatização na definição da classe media:media- format-descriptor em que todos os indivíduos pertencentes a esta classe devem fazer referência

(representado pela propriedade de objeto references.about) apenas a uma instância pertencente às

classes especificadas entre parênteses; além de media-format-descriptor ser uma especialização dos

conceitos digital-data e media-descriptor.

Figura 47 - Axiomatização da classe media-format-descriptor da COMM

Fonte: captura de tela do software Protégé.

A ontologia COMM possui documentação sobre as características de sua estrutura manifestada em artigos publicados por seus autores (ARNDT et al., 2007; ARNDT et al., 2009; VACURA et al., 2008) e em sítios destinados a projetos envolvendo ontologias que praticam reúso dos módulos da COMM, como é o caso do projeto Buscamedia e sua ontologia multimídia M3 multimedia. A documentação foi considerada satisfatória no quesito elucidação da conceituação da

ontologia, isto é, explicitando com clareza as decisões de modelagem acerca do padrão MPEG-7, assim como dos conceitos, propriedades e relações organizadas nas classes oriundas da DOLCE e padrões multimídia estendidos. E em relação à disposição de testes, não foi encontrado indício na documentação.

A análise de conteúdo da representação do conhecimento da COMM foi considerada custosa em termos de esforço no entendimento da complexa estrutura taxonômica de conceitos abstratos advindos da DOLCE e padrões multimídia estendidos. Foram consumidas 32 horas para as tarefas de análise e interpretação dos conceitos multimídia frente aos requisitos da pesquisa. As evidências da análise são descritas como se segue.

A COMM cobre parcialmente os requisitos multimídia determinados na pesquisa, isto é, dos 120 requisitos, 58 são cobertos pela ontologia (48.3%). Os metadados independentes de conteúdo são os mais representativos na ontologia (59.4%), destacando que características como

classificação e uso da mídia tiveram uma cobertura baixa. Os metadados dependentes de conteúdo

vêm em seguida com uma cobertura de 45.5%, sendo bem representados por características visuais, tais como cor, textura, forma, movimento e localizações espaço temporais em imagem e vídeo. As características de baixo nível para áudio não são cobertas pela COMM, entretanto os autores ressaltam que, por ser a COMM uma ontologia extensível, torna-se possível a criação de novos descritores desta natureza174. Os conceitos envolvendo áudio na COMM são representados por metadados técnicos (considerados nesta pesquisa como independentes de conteúdo) para descrição

de mídia, tais como descritores para canais e codificação de áudio. E os metadados descritivos de conteúdo tiveram uma cobertura de 43.2%, sendo bem representados pelos padrões multimídia de

decomposição (com exceção para a modalidade de áudio e audiovisual) e de anotação semântica da COMM. Para este último, a COMM introduz a classe semantic-label-role, conceito este não

contemplado exclusivamente pelo padrão MPEG-7. Contudo, o descritor MPEG-7 TextAnnotation,

destinado a anotações textuais livres e estruturadas para elementos comuns de segmentos, pode ser compatibilizado (num apecto de compatibilização relacionada) com este conceito da COMM numa situação de representação de instâncias de ontologias de domínios específicos com papéis de rótulos semânticos para segmentos multimídia. Os metadados associados à personalização de conteúdo e a características de alto nível envolvendo áudio não são cobertos pela COMM.

Na versão analisada da COMM, constatou-se que os conceitos da DOLCE e de seus padrões de projeto não foram disponibilizados com axiomas. Os axiomas disponibilizados são endereçados a maioria das classes dos padrões multimídia estendidos, sendo identificados 33 axiomas (56.9%) na terminologia compatibilizada com declarações lógicas bem elaboradas nas especificações de suas subclasses. Por outro lado, as anotações são bem representadas (91.4%) nos

194 elementos ontológicos da COMM por meio de comentários, que, em sua maioria, indicam a fonte documental para equiparações com conceitos MPEG-7. Finalmente, as restrições de propriedades não foram identificadas (com exceção de 1 apenas) em função de as características multimídia da COMM estarem representadas quase que exclusivamente pelas classes. As propriedades de objetos, ou seja, as relações presentes na COMM são oriundas de sua ontologia de fundamentação, a DOLCE, e seus padrões de projeto, como é o caso da dolce-very-lite:participant que relaciona

participantes das classes endurantes e perdurantes. Na análise, tal relação foi compatibilizada com o descritor mpeg-7:SemanticBag.Graph que descreve um conjunto de nós, apresentando noções

semânticas, e um conjunto de relações semânticas especificando o relacionamento entre os nós.