• Nenhum resultado encontrado

Web semântica e dados abertos interligados (Linked Open Data)

Ontologia Modelos pretendidos

3.3 ANOTAÇÃO (SEMÂNTICA) DE DOCUMENTOS MULTIMÍDIA

3.3.3 Web Semântica e tecnologias subjacentes

3.3.3.5 Web semântica e dados abertos interligados (Linked Open Data)

A demanda por integração e compartilhamento de dados heterogêneos tem despertado interesse em várias comunidades (por exemplo, ciência da Web, multimídia, biologia, medicina, genoma, dentre outras) na adoção de conceituações comuns por meio de ontologias na Web. Tais comunidades desenvolvem linguagens com padrões preconizados pelo W3C para representar e

120 organizar semanticamente seus dados neste ambiente. Além disso, várias iniciativas de governo eletrônico que objetivam compartilhar dados com os cidadãos representam esforço similar (SHADBOLT, HALL e BERNERS-LEE, 2006).

O paradigma Linked Data (BERNERS-LEE, 2006) ou dados interligados surge nessa

perspectiva objetivando exibir e compartilhar dados como recursos na Web, estabelecendo ligações semânticas entre os mesmos de modo a torná-los acessíveis para consumo por humanos e máquinas. Berners-Lee (2006) postulou quatro princípios para o paradigma Linked Data propondo que todos

os dados publicados na Web tornar-se-iam parte de um espaço único de dados globais, a saber: i) use URIs para dar nomes as coisas; ii) use HTTP URIs para que pessoas possam identificar esses nomes; iii) quando alguém identificar um URI, forneça informação útil usando padrões da Web Semântica, tais como RDF e SPARQL; e iv) inclua links para outras URIs, de modo a possibilitar a

descoberta de mais coisas. As regras (i) e (ii) utilizam-se de duas tecnologias fundamentais para a Web, URIs e HTTP111 (HyperText Transfer Protocol). A primeira, conforme já elucidada na seção

3.3.3.1, fornece meios genéricos para identificar qualquer entidade existente no mundo; e a segunda fornece um mecanismo universal para recuperar recursos digitais ou descrições a respeito desses recursos. A regra (iii) desponta tecnologias semânticas (RDF/XML; RDFS; OWL), especialmente para concepção e uso de ontologias, para representar dados na Web com significados mais precisos. Finalmente, a regra (iv) mostra a importância de se estabelecer conexões entre os dados na Web no sentido de aumentar a publicização e estruturação de redes globais de colaboração para contribuições em bases de conhecimentos específicas.

Schandl et al (2011) afirmam que a viabilização do paradigma Linked Data se faz

através da conexão de diferentes fontes (intercâmbio de informações com acordo semântico), formando uma rede global de dados interligados (também denominada Web de dados112) acessível por produtores e consumidores para fins de descoberta de novos conhecimentos. Tal visão advém do projeto Linked Open Data113 (LOD) (BIZER, HEATH e BERNERS-LEE, 2009) surgido em

janeiro de 2007 e mantido pelo grupo de Web Semântica do W3C (Semantic Web Education and Outreach Group114). O projeto consiste em identificar conjuntos de dados (data sets) disponíveis

sob licença aberta, convertê-los para triplas em RDF, de acordo com os princípios Linked Data

mencionados anteriormente, e finalmente publicá-los na Web de dados, formando uma nuvem de dados interligados.

Atualmente, com o amadurecimento da ideia de LOD, grandes organizações como

British Broadcasting Corporation (BBC), Thomson Reuters e Library of Congress encontram-se

111 http://www.w3.org/Protocols/ 112 Web of data, do inglês.

113 http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData 114 http://www.w3.org/blog/SWEO/

envolvidas na publicação de seus dados na nuvem (BIZER, HEATH e BERNERS-LEE, 2009). No Brasil, há iniciativas de publicação de dados abertos governamentais que seguem os padrões do W3C envolvendo bases de dados abertas em formato RDF conectadas a data sets. Um exemplo de

iniciativa é o site Ligado nos Políticos115 que faz a extração automática de dados de bases públicas

como Tribunal Superior Eleitoral (TSE), Senado Federal, Portal da Câmara dos Deputados, Políticos Brasileiros, Ficha Limpa e Transparência Brasil.

A Figura 33 apresenta o diagrama representando a nuvem LOD em sua versão recente (setembro de 2011) contemplando vários data sets e seus relacionamentos interligados.

Figura 33 - Diagrama da nuvem LOD

Fonte: sitio http://lod-cloud.net/

O conteúdo da nuvem é de natureza diversa compreendendo dados sobre localizações geográficas, pessoas, livros, publicações científicas, filmes, música, televisão e programas de rádio, genes, proteínas, testes de drogas clínicas, comunidades online, dados estatísticos, resultados de

censos, dentre outros (BIZER, HEATH e BERNERS-LEE, 2009). O DBpedia é um exemplo de fonte pertencente a Web de dados, a qual expõe em um formato estruturado as informações disponíveis na Wikipedia; além de estabelecer ligações com outras fontes de dados como o Linked Movie Data Base116. Segundo Schandl et al (2011), em 2009 a base de conhecimento do DBpedia

descreveu mais de 2 milhões de coisas como pessoas, álbuns de música e filmes em variados

115 http://ligadonospoliticos.com.br/?pag=home 116 http://linkedmdb.org/

122 idiomas. Isto se deve ao seu sistema de organização do conhecimento com aproximadamente 415.000 categorias e milhões de ligações semânticas entre os recursos na Web.

Finalmente, uma quantidade significativa de dados tem sido gerada, conectada e distribuída na Web, especialmente, dados multimídia, os quais necessitam de metadados eficientes para gestão, organização e recuperação de conteúdos associados. Benjamins et al (2011) destacam que no setor de mídia, a solução para problemas relacionados ao gerenciamento da explosão de conteúdos tanto textual quanto multimídia está na capacidade conceitual que o suporte automatizado oferece para um tratamento semântico adequado. Evain e Bürger (2011) afirmam que o elemento-chave para uma integração bem sucedida de dados, multimídia em especial, está na adoção de ontologias como um meio formal de descrever seus conteúdos e características técnicas.

No estudo do estado da arte apresentado no capítulo 2, constataram-se várias iniciativas de ontologias voltadas ao domínio de anotação multimídia, as quais se encontram em evolução no que diz respeito à maximização da interoperabilidade semântica entre dados de produtores e consumidores de conteúdo na Web. Entretanto, conforme assinalam alguns autores (JAIN et al, 2010; CORDEIRO et al, 2011; SCHANDL et al, 2011), os esquemas disponíveis da nuvem LOD não são suficientes para uma atribuição semântica satisfatória aos dados, pois não compreendem um modelo conceitual adequado para representar parte de suas realidades. Além disso, possuem deficiências na qualidade das informações publicadas na nuvem: i) falta de descrição conceitual nos conjuntos de dados; ii) ausência de links nos esquemas de dados (para e entre mídias); iii) falta de

expressividade semântica na representação de dados; e iv) falta de endereçamentos para descrição de fragmentos multimídia.

Uma alternativa para amenizar essa problemática é a construção de ontologias multimídia orientada por uma ontologia de fundamentação, ou ontologia de alto nível (ARNDT et al., 2009; SAATHOFF e SCHERP, 2010) como, por exemplo, a Descriptive Ontology for Linguistic and Cognitive Engineering (DOLCE) (MASOLO et al., 2003), e a Unified Foundational Ontology (UFO) (GUIZZARDI e WAGNER 2009). Segundo Guizzardi (2005), a utilização de um

nível conceitual na concepção de ontologias de domínio é relevante no sentido de abstrair características tecnológicas, fornecendo uma descrição conceitual para os dados e melhorando a compreensão humana e a atribuição semântica às máquinas.