• Nenhum resultado encontrado

Identificação de ontologias multimídia em repositórios Web

Ontologia Modelos pretendidos

Cenário 1: especificação dos

4.2.2 Identificação e seleção de ontologias multimídia candidatas a reúso

4.2.2.2 Identificação de ontologias multimídia em repositórios Web

Os termos-chave determinados para a busca de documentos semânticos foram extraídos dos elementos de parâmetro trabalhados na atividade de aquisição de conhecimento. Esta atividade de busca é baseada na proposta do Cenário 3 da NeOn, a qual propõe buscar por ontologias

candidatas que satisfaçam aos requisitos da ontologia a ser construída. A metodologia recomenda o uso de máquinas de busca para a recuperação de ontologias em repositórios da Web Semântica, tais como Hakia, Kngine, Kosmix, Powerset, DuckDuckGo, Sensebot, Swoogle, Falcons e Watson (SUDEEPTHI, ANURADHA e BABU, 2012). A busca semântica melhora a precisão da pesquisa aos dados modelados em RDF ou OWL (HILDEBRAND et al., 2010), promovendo resultados mais relevantes e inteligentes frente a consultas especificadas por palavras-chave ou por outros recursos. A metodologia NeOn indica a partir de experiências em projetos e validações de uso, e dentre as

opções listadas pela comunidade Linked Open Data132, as máquinas de busca Watson133 e

Swoogle134, descritas brevemente a seguir.

O Swoogle (SUDEEPTHI, ANURADHA e BABU, 2012; DING et al., 2005) é um sistema de indexação e recuperação baseado em rastreador (conhecido como crawler) para

documentos codificados em RDF e OWL na Web Semântica. Os documentos, ou ontologias, descobertos pelo Swoogle são analisados por meio de propriedades de metadados e classificados por ordem de importância (inspirado nos algoritmos clássicos de ranking models de máquinas de

busca da Web) no que diz respeito à popularidade da ontologia bem como à qualidade do dado. Uma característica em destaque para este mecanismo de busca semântica é o tratamento exclusivo de relações declaradas de forma explícita, não considerando, por exemplo, relações de equivalência, inclusões e versões. Desse modo, não há verificação sintática ou semântica para a duplicação de ontologias. Por conseguinte, é comum encontrar a mesma ontologia várias vezes com diferentes medidas de classificação numa resposta de busca.

O Watson (SUDEEPTHI, ANURADHA e BABU, 2012; D’AQUIN, 2008) é um sistema endereçado à recuperação de documentos constituídos por princípios da Web Semântica, especialmente ontologias, fornecendo relações explícitas e implícitas entre elas. Nesse sentido,

132

http://esw.w3.org/topic/TaskForces/CommunityProjects/LinkingOpenData/SemanticWebSearchEngines

133 http://watson.kmi.open.ac.uk/WatsonWUI/ 134 http://swoogle.umbc.edu/

pessoas e aplicativos podem descobrir e reutilizar ontologias e dados semânticos para projetos específicos por meio do Watson online ou do Watson plug-in disponível para editores de

ontologias. Atualmente, existem plug-ins para Protégé135 e The NeOn Toolkit136.

Seguindo a recomendação da NeOn e tomando conhecimento de máquinas de busca

orientadas a ontologias, optou-se em selecionar o Swoogle e o Watson online como ferramenta na

atividade de busca de ontologias multimídia em repositórios da Web Semântica. Para cada categoria de metadados envolvida nos elementos de parâmetro (administrativos, visuais, de áudio, segmentos de mídia, semântica de conteúdo, personalização de conteúdo e características de alto nível envolvendo áudio) foram selecionados termos presentes que poderiam servir de âncora para a recuperação de ontologias multimídia. A relação dos termos para cada categoria juntamente com o resultado da busca envolvendo as duas máquinas em questão pode ser visualizada no Apêndice B.

A cobertura da ontologia identificada foi verificada através da abertura de seu código e da busca por termos como “multimedia”, “audio”, “video”, “text”, “image”. O processo foi mais trabalhoso do que nas ontologias selecionadas na literatura devido ao fato de a inspeção ser realizada no código RDF/OWL e não diretamente no documento de referência. A atividade de busca consumiu tempo, especificamente 36 horas distribuídas em três dias de trabalho, uma vez que as tarefas de identificação da ontologia e análise breve de seu conteúdo foram realizadas manualmente. A análise de conteúdo das ontologias identificadas foi realizada por meio do próprio navegador Web, do editor Protégé 4.3 e, em casos específicos, do recurso OWLDoc137, em que

permite uma navegação taxonômica sobre as classes envolvidas.

Baseando-se nos resultados de busca, o Swoogle teve um melhor desempenho do que o Watson no que diz respeito ao número total de documentos recuperados para um termo-chave específico, conforme pode ser conferido no Apêndice B. Os documentos listados pela máquina Watson, quando recuperados, eram em sua maioria pouco representativos para o interesse da pesquisa. Desse modo, o Swoogle, nesta pesquisa e para o domínio multimídia, adequou-se melhor aos requisitos propostos.

No Swoogle, os documentos relacionados nas páginas encontravam-se em RDF, RDFS, DAML ou OWL. Quando a ontologia encontrava-se em versões diferentes envolvendo OWL e outra linguagem de camada inferior (RDFS, por exemplo), optou-se pelo primeiro caso devido à tendência de atualização de seu conteúdo. Alguns inconvenientes foram evidenciados, dentre eles destacam-se: i) margem à duplicação de URIs pelos motivos anteriormente expostos; e ii) bloqueio de URL. Necessitou-se, assim, elaborar uma atividade de filtragem nas páginas, levando-se em consideração que nas 10 primeiras páginas encontravam-se as ontologias melhores classificadas.

135 http://protege.stanford.edu 136 http://neon-toolkit.org

160 Quando a URL encontrava-se bloqueada, o acesso foi feito por meio de armazenamento em cache.

Levou-se em consideração ontologias com escopo de cobertura multimídia, não selecionando, portanto, ontologias de alto nível (a DOLCE, por exemplo, na especificação da ontologia multimídia COMM) e ontologias que cobriam apenas um tipo de mídia (a MOTOOLS, por exemplo, para representação da extração automática de sinais de som). Seguem-se outras observações válidas de serem mencionadas sobre a atividade de busca.

Os termos elencados da categoria metadados administrativos cujos namespaces são

oriundos dos padrões MPEG-7 e Dublin Core foram adicionados nas consultas a fim de se obter ontologias multimídia que contemplassem descritores, nessa categoria, para ambos os padrões. No caso dos descritores Dublin Core, o termo “multimedia” foi combinado no momento da consulta a fim de refinar a pesquisa. O mesmo não precisou ser feito para os descritores MPEG-7 em função de este padrão ser subjacente ao domínio multimídia. Foram recuperadas várias ontologias que descrevem características bibliográficas para mídias e que, por isso, fazem uso de elementos Dublin Core, entretanto constatou-se que para o domínio multimídia o padrão MPEG-7 é o mais utilizado.

Os termos envolvidos na categoria metadados para semântica de conteúdo precisaram

ser combinados com o termo “multimedia” como forma de restringir a busca por ontologias no domínio multimídia. Por se tratar de termos abstratos (event, object, time, etc.), o resultado da busca poderia contemplar ontologias de alto nível, as quais lidam com esse tipo de terminologia. Por exemplo, o termo “event” sozinho retornou 5150 documentos no Swoogle; e 1809 no Watson.

Finalmente, o Quadro 11 apresenta as ontologias multimídia identificadas em repositórios Web com suas últimas versões e modos de acesso assinalados (extraídos das propriedades de metadados ofertadas pela máquina de busca).

Quadro 11 - Lista II: ontologias multimídia selecionadas em repositórios Web

Fonte: elaborado pela autora. Ref. Ontologias

multimídia Links

1 Tsinaraki http://elikonas.ced.tuc.gr/ontologies/AVSem03/av_semantics (versão2005; acesso por cache) 2 Rhizomik http://rhizomik.net/ontologies/2005/03/Mpeg7-2001.owl (versão 2005)

3 SmartWeb http://www.smartweb-project.de/ontology/swinto0.3.1.rdfs (versão 2006) 4 Morpheus http://morpheus.cs.umbc.edu/aks1/ontosem.owl (versão 2005)

5 Hunter http://metadata.net/mpeg7/mpeg7.owl (versão2006; acesso por cache)

6 Mindswap http://www.mindswap.org/~glapizco/technical.owl (versão2006; acesso por cache) 7 Medialab http://medialab.pa.icar.cnr.it/ontologies/mmstructure-2006-06.owl (versão2007; acesso por

cache)

8 Polysema http://polysema.di.uoa.gr/ont/mds.owl (versão 2007)

9 MPEG-7 ontology http://maenad.dstc.edu.au/slittle/mpeg7.owl (versão 2005; acesso por cache) 10 AKT ontology http://www.aktors.org/ontology/portal (versão 2004)

11 MarcOnt http://www.marcont.org/ontology/marcont.owl (versão 2005; acesso por cache) 12 HiSTEMM http://www.historiographus.org/owl/histemm.owl (versão 2008; acesso por cache)