• Nenhum resultado encontrado

Iniciativas para interoperabilidade entre Sistemas de Organização do Conhecimento: Linked Data, Linked Open Data e Linked Open Vocabularies

ORGANIZAÇÃO DO CONHECIMENTO

3.3 Iniciativas para interoperabilidade entre Sistemas de Organização do Conhecimento: Linked Data, Linked Open Data e Linked Open Vocabularies

A possibilidade de uso simultâneo de SOC nos processos de busca e recuperação da informação demanda a interoperabilidade e o mapeamento semântico entre os mesmos os quais devem estar formalizados no que se refere à estruturação, abertura e ligação de dados no contexto da Web Semântica.

Diferentemente da Web Sintática ou a Web de Hipertexto, cuja recuperação da informação é baseada na coincidência de caracteres (CARO CASTRO, 2012; LARA, 2012), a Web Semântica tem como objetivo, além de disponibilizar dados, estabelecer como fazer ligações “de modo que uma pessoa ou máquina possa explorar a Web de dados” (BERNERS-LEE, 2006).

Caro Castro ressalta que a implantação da Web Semântica é uma mudança de paradigma em relação à Web de Hipertexto, “já que significa um passo para uma rede estruturada e organizada, onde o elemento principal são os objetos de informação etiquetados semanticamente” (CARO CASTRO, 2012, p. 141). Méndez e Greenberg (2012) também apontam a possibilidade de máquinas poderem deduzir significados por meio de dados estruturados publicados como Linked Data.

Na Web Semântica proposta por Berners-Lee, Linked Data ou Linked Open Data corresponde a um conjunto de boas práticas para ligar e publicar dados estruturados na Web (BERNERS-LEE, 2006). Lara (2012) ressalta que a iniciativa Linked Data “designa um conjunto de procedimentos que visam promover a abertura dos dados de modo a permitir sua preparação, disponibilização e reaproveitamento”. Méndez e Greenberg destacam:

Linked Data pode ser entendido como um enfoque para codificar dados com

um grande nível de detalhe (granularidade). Os dados (...) podem ser qualquer coisa (incluindo um conceito, fixado num termo de vocabulário), uma declaração RDF ou um conjunto de declarações que tenham um identificador em forma de URI. Os dados e os objetos que formam parte do paradigma de Linked Data podem originar-se de um sistema de vocabulário controlado normalizado como o Dublin Core e de esquemas de codificação em forma de vocabulários controlados, ontologias, taxonomias, arquivos de autoridades, sistemas de classificação, etc. Os objetos são selecionados a partir destes vocabulários para a codificação de propriedades/valores ou qualificações destes tipos de informação. Não há limite para os tipos de vocabulários que podem transformar-se em Linked Data (...) (MÉNDEZ e GREENBERG, 2012, tradução nossa50).

O projeto Linked Data apresenta quatro princípios propostos por Berners-Lee (2006):

Utilizar URIs-Uniform Resource Identifier para nomear as coisas.

 Usar o URI HTTP para que as pessoas possam visualizar esses nomes.

 Quando alguém procura por um URI, deve-se fornecer informações úteis,

usando os padrões Resource Description Framework (RDF) e SPARQL Protocol and RDF Query Language (SPARQL).

 Incluir links para outros URIs para que eles possam descobrir mais coisas. Os URIs – Uniform Resource Identifier correspondem a um identificador único e padronizado os quais são utilizados para denominações. Caro Castro ressalta a utilização do protocolo HTTP - Hypertext Transfer Protocol para nomear e resolver a localização de dados identificados mediante essas URIs. A autora destaca que se as entidades estão identificadas mediante URI é possível buscar “desreferenciando51 a

50 (…) LD puede entenderse como un enfoque para codificar datos con un gran nivel de detalle

(granularidad). Los datos, en este contexto, pueden ser cualquier cosa (incluido un concepto, fijado en un término de un vocabulario), una declaración RDF o un conjunto de declaraciones que tengan un identificador en forma de URI. Los datos y los objetos que forman parte del paradigma de LD pueden provenir de un sistema de vocabulario normalizado como el Dublin core y de esquemas (schemes) de codificación en forma de vocabularios controlados, ontologías, taxonomías, ficheros de autoridad de nombres, sistemas de clasificación, etc. Los objetos se seleccionan a partir de estos vocabularios para la codificación de propiedades/valores o matizaciones de estos tipos de información. No hay límite para los tipos de vocabularios que pueden transformarse en LD (MÉNDEZ e GREENBERG, 2012)

51 Segundo o glossário do WikiData ,URIs desreferenciáveis são usadas durante a negociação de

conteúdo para fornecer a descrição de um recurso mesmo se for endereçada a própria entidade. Isso também faz com que seja possível fornecer uma descrição legível por humanos ou por máquinas. Esta última estaria então sob a forma de dados RDF, conforme seja mais adequado (WIKIDATA, 2014).

URI utilizando o protocolo HTTP” (CARO CASTRO, 2012, tradução nossa52), assim

como observa que a inclusão de outras URIs contribui para localização de mais dados ligados, aproveitando que os elementos de uma tripla RDF podem ser uma URI ou uma cadeia de literais. Lara (2013) cita Soergel53 (2001) que, preconizou a

necessidade de utilizar URI para favorecer o intercâmbio de SOC.

RDF é um padrão na construção da Web Semântica que contém modelos de metadados descritivos e orientados ao conteúdo, assim como supõe uma estrutura que permite a construção de linguagens lógicas que podem trabalhar juntas na Web Semântica, ou codificar vocabulários existentes, como o Dublin Core (MÉNDEZ RODRIGUEZ, 2004; MARTINEZ TAMAYO, et al., 2011). Méndez Rodríguez (2004) ainda esclarece que o RDF é uma maneira de usar XML orientado aos dados e aos metadados, e não apenas aos documentos. Caro Castro (2012) aponta a representação de dados em RDF com a utilização do SPARQL como linguagem de consulta de dados, assim como observa que embora o HTML proporcione um meio para estruturar e ligar documentos na Web, o RDF proporciona um modelo de dados genérico, com o qual pode-se estruturar e ligar dados que descrevem coisas no mundo em forma de triplas sujeito-predicado-objeto.

Para que os SOC possam ser utilizados em aplicações na Web, os mesmos devem estar abertos e ligados no contexto da Web Semântica. A iniciativa referente à construção, ao uso e ao reuso desses sistemas na Web é denominada Linked Open Vocabularies (LOV), a qual se constitui em recomendações do W3Consortium, cujo objetivo é estimular e fundamentar a publicação da abertura dos dados relativos a vocabulários controlados (LARA, 2013).

Uma outra recomendação do W3Consortium desde 2009 para publicação e abertura de dados dos SOC é o Simple Knowledge Organization System (SKOS). Martinez Tamayo et al. (2011), Pastor-Sanchéz; Martínez-Méndez; Rodríguez- Munõz, (2012) e Lara (2013) destacam que o objetivo deste modelo é oferecer um

52 “Si las entidades están identificadas mediante URI’s pueden buscarse desreferenciando la URI

utilizando el protocolo HTTP” (CARO CASTRO, 2012).

53 SOERGEL, D. The representation of Knowledge Organization Structure (KOS) data: a

multiplicity of standards. Roanoke: JCDL, 2001. Available from: <http://www.dsoergel.com/cvwelcome.htm#JournalArticles>.

padrão para migrar e construir os SOC no ambiente da Web Semântica. Martinez Tamayo et al. (2011) relatam que ao ter como base RDF e Web Ontology Language (OWL), o SKOS permite a interoperabilidade entre os SOC dentro de um ambiente Web, porque: a) utiliza XML como linguagem de marcação para estruturar dados; b) cada conceito se identifica unívoca e universalmente mediante um URI; c) cada recurso é tratado como uma tripla: sujeito, predicado e valor. Pastor-Sanchéz; Martínez-Méndez; Rodríguez-Munõz, (2012, p. 245, tradução nossa54) consideram

SKOS como “uma das ontologias de maior êxito e aplicação já alcançados na Web Semântica”. Os autores relatam que o desenvolvimento do SKOS teve início em 2002, num grupo de trabalho SWAD-Europe, foi difundido publicamente em novembro de 2005 e em agosto de 2009 alcançou o status de recomendação do W3C.

Segundo Pastor-Sanchéz; Martínez-Méndez; Rodríguez-Munõz (2012) SKOS se define formalmente como uma ontologia OWL-full que permite representar qualquer tipo de SOC (classificações, tesauros, lista de cabeçalhos de assunto, taxonomia, tesauros, glossários etc.) mediante RDF. Martinez Tamayo et al. (2011) descrevem OWL como uma linguagem de marcação, com base em RDF, cuja função é representar ontologias, que são modelos que descrevem e representam, enquanto significado, uma porção do universo, em um ambiente Web por meio de codificação do conhecimento de um domínio, de descrição de classes, propriedades, relações e indivíduos.

Em relação ao funcionamento do SKOS na interoperabilidade entre os SOC, Pastor-Sanchéz; Martínez-Méndez; Rodríguez-Munõz (2012) esclarecem que em SKOS os elementos de um SOC são representados mediante conceitos entre os quais se estabelecem relações hierárquicas (simples ou transitivas) e associativas. Os conceitos são associados a etiquetas em vários idiomas classificadas da seguinte forma:

54 SKOS (Simple knowledge organization system) es una de las ontologías que mayor éxito y

aplicación ha alcanzado en el entorno de la web semántica (Pastor-Sanchéz; Martínez-Méndez; Rodríguez-Munõz, 2012, p. 245).

Preferidas: equivalente aos termos em um tesauro. O mesmo conceito pode ter apenas um rótulo preferido em cada língua.

Alternativas: semelhantes aos termos não-preferidos. Permite enriquecer semanticamente um vocabulário definindo vários pontos de acesso a um conceito.

Ocultas: não são diretamente visíveis aos usuários e são utilizadas para o processamento de aplicações informáticas.

A função do SKOS é contribuir na definição de relações como podemos observar na citação a seguir:

SKOS fornece um número de relações semânticas para estabelecer vínculos de mapeamento entre conceitos em diferentes esquemas. Isso indica se um conceito de um esquema é considerado idêntico a outro ou quando você tem um significado próximo, genérico, específico ou relacionado. A nova norma ISO de tesauros 29562 [sic] propõe uma função semelhante para definir relações entre diferentes linguagens documentárias, a fim de ser utilizado em conjunto em operações de recuperação de informação (PASTOR-SANCHÉZ; MARTÍNEZ-MÉNDEZ; RODRÍGUEZ-MUNÕZ, 2012, p. 247, tradução nossa55).

Bizer, Hearth, Berners-Lee (2009) destacam que a abertura e a ligação de dados podem ocorrer em diferentes fontes de informação como um banco de dados mantido por instituições distintas em diferentes localizações geográficas ou sistemas heterogêneos dentro de uma organização, tecnicamente difíceis de interoperar devido ao histórico de criação e manutenção desses sistemas. Em 2005, a norma ANSI/NISO Z39.19:2005 relaciona os tipos de usuários às necessidades de interoperabilidade entre SOC, e em 2012, Méndez e Greenberg apontam as comunidades e os usos dos SOC no espírito Linked Open Data, como podemos observar nos quadros a seguir.

55 SKOS ofrece una serie de relaciones semánticas para establecer vínculos de mapeado entre

conceptos de diferentes esquemas. Esto permite indicar si un concepto de un esquema se considera idéntico a otro o cuándo tienen un significado cercano, genérico, específico o relacionado. La nueva norma de tesauros ISO 29562 propone una función similar para definir relaciones entre diferentes lenguajes documentales con el objeto de poder utilizarse conjuntamente en operaciones de recuperación de información (PASTOR-SANCHÉZ; MARTÍNEZ-MÉNDEZ; RODRÍGUEZ-MUNÕZ, 2012, p. 247).

Quadro 6 - Usuários e usos de Sistemas de Organização do Conhecimento segundo a norma ANSI/NISO Z39.19-2005

Usuários Necessidade

Pesquisadores Realizar metabuscas em diferentes fontes de conteúdo, usando o SOC de consulta preferido pelo usuário.

Indexadores Indexar o conteúdo de um domínio. Utilizando SOC de outro domínio.

Produtores e distribuidores de conteúdo

Juntar duas ou mais bases de dados que tenham sido indexadas utilizando diferentes SOC.

Comunidades de usuários, indexadores e produtores de conteúdo multilíngue.

Unir dois ou mais SOC para formar um novo SOC que abarque todos os conceitos e termos contidos nos originais.

Comunidades de usuários multilíngues e organizações globais

Buscar, indexar e recuperar informação em múltiplos idiomas.

Fonte: National Information Standards Organization (2005, p.83)

Fonte: Méndez e Greenberg (2012, tradução nossa

Quadro 7 - Usuários e usos dos Sistemas de Organização do Conhecimento no espírito Linked Open descritos por Méndez e Greenberg

Usuários Usos

Desenvolvedores Web Incorporam dentro de suas páginas HTML dados estruturados que descrevem o conteúdo web. Para estas descrições inseridas no código fonte de um documento HTML utilizam padrões de codificação como microformatos, microdados e RDF (em vez de criar serviços sparql) e usam um vocabulário compartilhado de marcação.

Comunidade da Web Semântica do W3C

Implementa e usa ontologias e vocabulários formalizados por meio de OWL e SKOS. Para isto utilizam OWL para construir estes vocabulários e ontologias e SKOS para criar SOC, como parte de um processo para o enriquecimento de dados.

Comunidades que criam e utilizam padrões de metadados tais como Dublin Core, ou padrões e perfis de aplicação de metadados particulares

Estes grupos coletam conjuntos de elementos e propriedades para formar seus vocabulários ou esquemas de metadados.

Méndez e Greenberg (2012) ressaltam que no contexto do Linked Data os SOC são usados de duas formas:

Como esquemas que proporcionam um conjunto das propriedades que podem ter um objeto de informação;

Como esquemas de codificação de SOC que descrevem de maneira formal a categoria de valores que pode ter uma propriedade concreta.

Assim, podemos analisar que as iniciativas Linked Open Data e Linked Open Vocabularies contribuem para construção, o uso e reuso de SOC por várias instituições, em diversas aplicações referentes à organização e à recuperação da informação na Web. Nesse contexto, a norma mais recente que estabelece critérios e orienta na elaboração e implementação de projetos de interoperabilidade e mapeamento entre SOC é a segunda parte da ISO 25964-2011 Information and documentation -- Thesauri and interoperability with other vocabularies.

3.4 Norma ISO 25964-2:2011 Information and documentation: thesauri and