• Nenhum resultado encontrado

Uniform Resource Identifier (URI) Hypertext Transfer Protocol (HTTP)

3 Web Semântica, suas tecnologias e Linked Data

3.1 Uniform Resource Identifier (URI) Hypertext Transfer Protocol (HTTP)

A representação de um recurso demanda primeiramente sua identificação

(FERREIRA; SANTOS, 2013, p. 17), sendo que, para o propósito de construção de uma Web

Semântica, essa identificação deve dar-se de modo compreensível às máquinas (COYLE,

2010, p. 21).

Essa identificação ocorre por meio de identificadores e, embora haja uma

variedade de tipos de identificadores, para a Web Semântica é necessário o uso de

identificadores do tipo Uniform Resource Identifier (URI)27 (COYLE, 2010, p. 21). No

contexto de Linked Data, Berners-Lee (2006) aponta como primeira regra a necessidade

do uso de URIs para a identificação dos recursos, estejam eles disponíveis ou não na

Web, os chamados objetos do mundo real (“real-world objects”) ou coisas (“things”)

(WORLD WIDE WEB CONSORTIUM, 2008).

URIs englobam os Uniform Resource Locators - URL, isto é, os endereços

Web que são utilizados para acessar os recursos online. Cada URL é um

URI válido e, portanto, pode ser utilizado como um identificador em

documentos que descrevem recursos disponíveis na Web. (FERREIRA;

SANTOS, 2013, p. 18)

Ferreira e Santos (2013, p. 18) esclarecem que quando um URI é utilizado para

identificar um recurso não disponível na Web, por exemplo, uma pessoa, uma cidade ou

um livro impresso, seu propósito é apenas o de identificar esse recurso, diferentemente

27

Em 2005, o padrão URI foi complementado pelo Internationalized Resource Identifier (IRI). Os IRIs

permitem o uso de um conjunto de caracteres maior que o utilizado nos URIs. No entanto, nesta pesquisa

manteve-se o uso de URI, uma vez que esse termo ainda é encontrado com maior frequência na literatura

consultada.

de um URI referente a um recurso disponível na Web, que tem o propósito de localizar

um recurso ou prover acesso a ele, além de identificá-lo.

Os URIs podem ser de diferentes esquemas, tais como HTTP, FTP, DOI, ISBN e

ISSN. Como segunda melhor prática para a publicação de Linked Data, Berners-Lee

(2006) descreve o uso de URIs do tipo (esquema) HTTP, que apresentam vantagens em

relação aos URIs de outros tipos.

Primeiramente, os URIs HTTP são identificadores únicos e globais que são

criados de forma simples e descentralizada, uma vez que qualquer proprietário de um

domínio Web pode criar novos URIs (HEATH; BIZER, 2011).

Em segundo lugar, além de identificar os recursos, os URIs HTTP são utilizados

também para recuperar informações sobre eles (HEATH; BIZER, 2011), o que pode ocorrer

a partir da negociação de conteúdo, uma funcionalidade existente na Web. Quando o

propósito de um URI é apenas o de identificar um recurso – e não o de acessá-lo – seu

uso em um navegador não necessariamente recuperará alguma informação sobre o

recurso. Por exemplo, o URI http://fabricioassumpcao.com/uri pode ser utilizado para

identificar a pessoa “Fabrício Silva Assumpção”; ao inserirmos esse URI em um

navegador nenhuma informação sobre essa pessoa será recuperada. No entanto, com a

negociação de conteúdo, as informações sobre o recurso identificado pelo URI podem

ser recuperadas, inclusive em diferentes formatos, se necessário.

Na negociação de conteúdo, o servidor e a aplicação que está acessando o URI

trocam dados sobre os formatos nos quais a descrição do recurso está disponível, sobre

possíveis redirecionamentos e sobre os formatos preferidos pela aplicação para receber

tal descrição. Se o URI está sendo acessado por uma aplicação como um navegador, por

exemplo, o servidor poderá retornar uma página HTML com a descrição do recurso. Se o

URI está sendo acessado por uma aplicação que utiliza tecnologias da Web Semântica,

por exemplo, um navegador semântico28, o servidor poderá retornar a descrição do

recurso em XML, JSON-LD, Turtle, etc. Essa negociação de conteúdo através de um

serviço de resolução (dereferencing service) faz com que um mesmo URI possa ser

utilizado para recuperar tanto informações destinadas aos humanos, por exemplo, uma

página HTML, quanto dados estruturados para o processamento por máquinas, por

28

O W3C mantém duas listas contendo navegadores semânticos, disponíveis em:

<https://www.w3.org/2001/sw/wiki/Category:Semantic_Web_Browser> e

exemplo, um documento XML (HEATH; BIZER, 2011; HITZLER; KRÖTZSCH; RUDOLPH, 2010, p.

36; WILLER; DUNSIRE, 2013, p. 143, 180-181).

Um exemplo de negociação de conteúdo é observado a partir do URI

http://id.loc.gov/authorities/names/n80002329 que identifica a pessoa “Machado de

Assis” no arquivo de autoridade da Library Congress. Se utilizado em um navegador, este

URI retornará a página HTML http://id.loc.gov/authorities/names/n80002329.html, que

contém a descrição da pessoa. Se utilizado em um navegador semântico, por exemplo, o

mesmo URI poderá retornar documentos XML

(http://id.loc.gov/authorities/names/n80002329.rdf), N-Triples

(http://id.loc.gov/authorities/names/n80002329.nt) e JSON-LD

(http://id.loc.gov/authorities/names/n80002329.json), que contêm a descrição da pessoa

em formatos processáveis por programas de computador.

Neste ponto, em se tratando de recursos não disponíveis na Web, é importante

ressaltar a necessidade de distinção entre o URI que identifica o recurso em si e o URI

que identifica o documento que descreve o recurso na Web (HEATH; BIZER, 2011). Uma

das formas de apresentar essa distinção é denominando os recursos não disponíveis na

Web como entidades ou objetos do mundo real, e aqueles disponíveis como documentos

da Web (WORLD WIDE WEB CONSORTIUM, 2008). Um exemplo essa distinção é apresentado

na Figura 11.

Figura 11 – URIs identificando objetos do mundo real e documentos

Fonte: Elaborada pelo autor.

Essa distinção, que se dá por meio da atribuição de diferentes URIs, permite que

as declarações sobre o recurso não sejam ambíguas, por exemplo, a pessoa nasceu (ou

seja, foi criada) em 21 de junho de 1839, enquanto que o documento que a descreve foi

criado em 12 de fevereiro de 2016. As declarações sobre os recursos serão abordadas na

Seção 3.2.

Sobre o uso de URIs, Coyle (2016, p. 55, destaque do autor, tradução nossa)

ressalta que eles são destinados às máquinas e não aos humanos:

Ninguém deseja ler, e muito menos digitar,

“http://id.loc.gov/authorities/subjects/sh85038796” para o cabeçalho

de assunto “Dogs” na Library of Congress. Todos os identificadores

podem ter rótulos legíveis por humanos e o pressuposto é que em todas

as situações em que um humano estiver interagindo com os dados esse

rótulo seja exibido. [...] Assim, um catalogador escolherá um cabeçalho

de assunto, por exemplo “Dogs in literature”, de uma lista e o dado

armazenado será “http://id.loc.gov/authorities/subjects/sh85038823”.

Em síntese, os URIs, que são utilizados para identificar recursos disponíveis ou

não na Web e recuperar informações sobre eles, são essenciais para a Web Semântica e

para a publicação de Linked Data. O uso de URIs, no entanto, por si só não garante a

inclusão de semântica e nem de links entre os dados, o que é obtido a partir da utilização

de tecnologias como o Resource Description Framework (RDF), apresentado na seção

seguinte.