3 Web Semântica, suas tecnologias e Linked Data
3.1 Uniform Resource Identifier (URI) Hypertext Transfer Protocol (HTTP)
A representação de um recurso demanda primeiramente sua identificação
(FERREIRA; SANTOS, 2013, p. 17), sendo que, para o propósito de construção de uma Web
Semântica, essa identificação deve dar-se de modo compreensível às máquinas (COYLE,
2010, p. 21).
Essa identificação ocorre por meio de identificadores e, embora haja uma
variedade de tipos de identificadores, para a Web Semântica é necessário o uso de
identificadores do tipo Uniform Resource Identifier (URI)27 (COYLE, 2010, p. 21). No
contexto de Linked Data, Berners-Lee (2006) aponta como primeira regra a necessidade
do uso de URIs para a identificação dos recursos, estejam eles disponíveis ou não na
Web, os chamados objetos do mundo real (“real-world objects”) ou coisas (“things”)
(WORLD WIDE WEB CONSORTIUM, 2008).
URIs englobam os Uniform Resource Locators - URL, isto é, os endereços
Web que são utilizados para acessar os recursos online. Cada URL é um
URI válido e, portanto, pode ser utilizado como um identificador em
documentos que descrevem recursos disponíveis na Web. (FERREIRA;
SANTOS, 2013, p. 18)
Ferreira e Santos (2013, p. 18) esclarecem que quando um URI é utilizado para
identificar um recurso não disponível na Web, por exemplo, uma pessoa, uma cidade ou
um livro impresso, seu propósito é apenas o de identificar esse recurso, diferentemente
27
Em 2005, o padrão URI foi complementado pelo Internationalized Resource Identifier (IRI). Os IRIs
permitem o uso de um conjunto de caracteres maior que o utilizado nos URIs. No entanto, nesta pesquisa
manteve-se o uso de URI, uma vez que esse termo ainda é encontrado com maior frequência na literatura
consultada.
de um URI referente a um recurso disponível na Web, que tem o propósito de localizar
um recurso ou prover acesso a ele, além de identificá-lo.
Os URIs podem ser de diferentes esquemas, tais como HTTP, FTP, DOI, ISBN e
ISSN. Como segunda melhor prática para a publicação de Linked Data, Berners-Lee
(2006) descreve o uso de URIs do tipo (esquema) HTTP, que apresentam vantagens em
relação aos URIs de outros tipos.
Primeiramente, os URIs HTTP são identificadores únicos e globais que são
criados de forma simples e descentralizada, uma vez que qualquer proprietário de um
domínio Web pode criar novos URIs (HEATH; BIZER, 2011).
Em segundo lugar, além de identificar os recursos, os URIs HTTP são utilizados
também para recuperar informações sobre eles (HEATH; BIZER, 2011), o que pode ocorrer
a partir da negociação de conteúdo, uma funcionalidade existente na Web. Quando o
propósito de um URI é apenas o de identificar um recurso – e não o de acessá-lo – seu
uso em um navegador não necessariamente recuperará alguma informação sobre o
recurso. Por exemplo, o URI http://fabricioassumpcao.com/uri pode ser utilizado para
identificar a pessoa “Fabrício Silva Assumpção”; ao inserirmos esse URI em um
navegador nenhuma informação sobre essa pessoa será recuperada. No entanto, com a
negociação de conteúdo, as informações sobre o recurso identificado pelo URI podem
ser recuperadas, inclusive em diferentes formatos, se necessário.
Na negociação de conteúdo, o servidor e a aplicação que está acessando o URI
trocam dados sobre os formatos nos quais a descrição do recurso está disponível, sobre
possíveis redirecionamentos e sobre os formatos preferidos pela aplicação para receber
tal descrição. Se o URI está sendo acessado por uma aplicação como um navegador, por
exemplo, o servidor poderá retornar uma página HTML com a descrição do recurso. Se o
URI está sendo acessado por uma aplicação que utiliza tecnologias da Web Semântica,
por exemplo, um navegador semântico28, o servidor poderá retornar a descrição do
recurso em XML, JSON-LD, Turtle, etc. Essa negociação de conteúdo através de um
serviço de resolução (dereferencing service) faz com que um mesmo URI possa ser
utilizado para recuperar tanto informações destinadas aos humanos, por exemplo, uma
página HTML, quanto dados estruturados para o processamento por máquinas, por
28
O W3C mantém duas listas contendo navegadores semânticos, disponíveis em:
<https://www.w3.org/2001/sw/wiki/Category:Semantic_Web_Browser> e
exemplo, um documento XML (HEATH; BIZER, 2011; HITZLER; KRÖTZSCH; RUDOLPH, 2010, p.
36; WILLER; DUNSIRE, 2013, p. 143, 180-181).
Um exemplo de negociação de conteúdo é observado a partir do URI
http://id.loc.gov/authorities/names/n80002329 que identifica a pessoa “Machado de
Assis” no arquivo de autoridade da Library Congress. Se utilizado em um navegador, este
URI retornará a página HTML http://id.loc.gov/authorities/names/n80002329.html, que
contém a descrição da pessoa. Se utilizado em um navegador semântico, por exemplo, o
mesmo URI poderá retornar documentos XML
(http://id.loc.gov/authorities/names/n80002329.rdf), N-Triples
(http://id.loc.gov/authorities/names/n80002329.nt) e JSON-LD
(http://id.loc.gov/authorities/names/n80002329.json), que contêm a descrição da pessoa
em formatos processáveis por programas de computador.
Neste ponto, em se tratando de recursos não disponíveis na Web, é importante
ressaltar a necessidade de distinção entre o URI que identifica o recurso em si e o URI
que identifica o documento que descreve o recurso na Web (HEATH; BIZER, 2011). Uma
das formas de apresentar essa distinção é denominando os recursos não disponíveis na
Web como entidades ou objetos do mundo real, e aqueles disponíveis como documentos
da Web (WORLD WIDE WEB CONSORTIUM, 2008). Um exemplo essa distinção é apresentado
na Figura 11.
Figura 11 – URIs identificando objetos do mundo real e documentos
Fonte: Elaborada pelo autor.
Essa distinção, que se dá por meio da atribuição de diferentes URIs, permite que
as declarações sobre o recurso não sejam ambíguas, por exemplo, a pessoa nasceu (ou
seja, foi criada) em 21 de junho de 1839, enquanto que o documento que a descreve foi
criado em 12 de fevereiro de 2016. As declarações sobre os recursos serão abordadas na
Seção 3.2.
Sobre o uso de URIs, Coyle (2016, p. 55, destaque do autor, tradução nossa)
ressalta que eles são destinados às máquinas e não aos humanos:
Ninguém deseja ler, e muito menos digitar,
“http://id.loc.gov/authorities/subjects/sh85038796” para o cabeçalho
de assunto “Dogs” na Library of Congress. Todos os identificadores
podem ter rótulos legíveis por humanos e o pressuposto é que em todas
as situações em que um humano estiver interagindo com os dados esse
rótulo seja exibido. [...] Assim, um catalogador escolherá um cabeçalho
de assunto, por exemplo “Dogs in literature”, de uma lista e o dado
armazenado será “http://id.loc.gov/authorities/subjects/sh85038823”.
Em síntese, os URIs, que são utilizados para identificar recursos disponíveis ou
não na Web e recuperar informações sobre eles, são essenciais para a Web Semântica e
para a publicação de Linked Data. O uso de URIs, no entanto, por si só não garante a
inclusão de semântica e nem de links entre os dados, o que é obtido a partir da utilização
de tecnologias como o Resource Description Framework (RDF), apresentado na seção
seguinte.
No documento
Fabrício Silva Assumpção. Modelo para a publicação de dados de autoridade como Linked Data
(páginas 80-84)