• Nenhum resultado encontrado

2.3 Web Semântica

2.3.3 Dados ligados e dados abertos ligados

O termo dados ligados, conhecido internacionalmente por Linked Data19, refere-se ao uso da web para criar links entre dados de fontes diferentes. Essas fontes podem ser bancos de dados mantidos por duas organizações em diferentes localizações geográficas, ou simplesmente sistemas heterogêneos dentro de uma organização que normalmente não seriam ligados. Tecnicamente, dados ligados referem-se aos dados publicados na web, de tal forma que sejam legíveis por máquina, com significado explicitamente definido, e ligado a outros conjuntos de dados externos. Segundo Health e Bizer (2011), dados ligados dizem respeito a um conjunto de melhores práticas para a publicação, compartilhamento e ligação de dados, informações e conhecimento sobre a web. Assim como hiperlinks na web clássica conectam documentos em um único espaço de informação global, dados ligados usam hiperlinks para conectar dados diferentes em um único espaço de dados global.

No contexto conceitual dos dados ligados, existem elementos que são fundamentais para o seu entendimento:

Resource Description Framework (RDF): é uma estrutura para representar informações na web e, principalmente, permitir a interoperabilidade de metadados. Ela é uma tripla composta por um sujeito/recurso (subject), um predicado/propriedade (predicate) e um objeto/valor (object), onde o predicado tipifica o relacionamento existente entre o sujeito e o objeto. A Figura 6 representa o relacionamento ‘Tim Berners-Lee nasceu em 1955’, na forma de uma tripla RDF. Nesse grafo, a elipse nomeada representa o sujeito/recurso, a seta nomeada representa o predicado/propriedade e o quadrilátero nomeado representa o objeto/valor. Assim, o recurso ‘http://dbpedia.org/resource/Tim_Berners-Lee’, está associado ao valor ‘1995’ por intermédio da propriedade ‘http://dbpedia.org/ontology/birthYear’. A sintaxe detalhada do RDF pode ser obtida no site da W3C20.

Uniform Resource Identifier21 (URI), representa um recurso na tripla RDF. Pode ser classificado como um nome, Uniform Resource Name (URN), ou seja, a identidade de um item, ou como um localizador Uniform Resource Locator (URL) que é um endereço web do recurso. Um URL é popularmente conhecido por endereço de internet. A Figura 6 apresenta dois casos de localização única: o recurso

19 Linked Data é conceituado em: <http://linkeddata.org/>.

20 Sintaxe do RDF: <https://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/>. 21 URI é especificado em: <http://tools.ietf.org/html/rfc3305>.

‘http://dbpedia.org/resource/Tim_Berners-Lee’ e a propriedade ‘http://dbpedia.org/ontology/birthYear’, que apontam para páginas na web que descrevem o recurso e a propriedade, respectivamente. URI não é só uma tecnologia, mas também é considerada a chave para a universalidade da web (BERNERS-LEE, 2010).

Internationalized Resource Identifier22 (IRI): também representa um recurso na tripla RDF, porém, é uma generalização ou internacionalização do URI, já que este último é limitado a um subconjunto do conjunto de caracteres ASCII23, e o IRI pode conter caracteres de conjuntos muito maiores tal como o Unicode24.

Figura 6 – Exemplo de uma tripla RDF

Fonte: Elaboração própria

Um conjunto de triplas RDF é chamado de grafo RDF, e pode ser visualizado como um conjunto de vértices (nós) e arestas (links), onde cada tripla determina a presença de dois vértices e uma aresta no grafo. Do ponto de vista informacional, uma tripla RDF é formada por um recurso ligado, por uma propriedade, a um valor. Sendo que o valor pode denotar qualquer coisa, incluindo coisas físicas, documentos, conceitos abstratos, números, strings ou outros recursos. A Figura 7 representa um grafo real extraído da base de dados ligados DBpedia25.

22 IRI é especificado em: <http://tools.ietf.org/html/rfc3987>.

23 ASCII, sigla de American Standard Code for Information Interchange, é uma tabela básica de caracteres:

<http://www.asciitable.com/>.

24 Unicode é uma tabela ampla de caracteres internacionais: <http://unicode-table.com/en/>

25 DBpedia: é uma base de conhecimento que segue os preceitos dos dados abertos ligados. Ela será abordada em

Figura 7 – Exemplo de uma rede de triplas RDF extraída da DBpedia

Fonte: Elaboração própria

A rede ou grafo da Figura 7 resulta da expansão, com mais quatro RDFs, a tripla da tripla mostrada na Figura 6, formando um grafo RDF ou uma rede informacional onde observam-se as seguintes relações: ‘Paul Otlet tem nacionalidade belga’, ‘Paul Otlet é conhecido por ser uma das várias pessoas consideradas como pai da Ciência da Informação’, ‘Paul Otlet influenciou Tim Berners-Lee’, ‘Tim Berners-Lee nasceu em 1955’ e ‘A World Wide Web Foundation foi fundada por Tim Berners-Lee’. Há várias formas de extrair informações de uma base de dados ligados. Por exemplo, as informações da Figura 7 foram extraídas da DBpedia por intermédio de consultas escritas na linguagem SPARQL26 e utilizando-se o terminal SNORQL27.

O termo ‘Dados Abertos Ligados’, conhecido internacionalmente por ‘Linked Open Data’ (LOD), refere-se a dados ligados num contexto de dados abertos (seção 2.3.2). Muito conhecida e referenciada na literatura a classificação das 5 estrelas idealizada por Berners-Lee (2006), atualizada pelo próprio autor em 2010 e representada pela Figura 8, serve para ranquear dados publicados na web, onde cada nível acumula as características no nível

26 SPARQL é uma linguagem de consulta em LOD, derivada da linguagem SQL de consulta a bancos de dados.

Especificação disponível em <https://www.w3.org/TR/sparql11-query/>.

27 SNORQL: é um terminal para acesso aos dados da DBpedia por intermédio de consultas SPARQL. Disponível

anterior e apresenta novas características, começando pelo mais simples (uma estrela) até o mais completo (cinco estrelas), que representa os dados abertos ligados:

Uma estrela: representa a possibilidade dos dados serem lidos na web, em

qualquer formato, porém, sob uma licença aberta – exemplo, um arquivo do tipo PDF;  Duas estrelas: os dados são em um formato estruturado e podem ser lidos por

uma máquina – exemplo, um arquivo XLS de uma planilha eletrônica proprietária como o Excel28;

Três estrelas: os dados não usam formato proprietário – exemplo, os dados de um arquivo de planilha eletrônica gravados num formato livre CSV29;

Quatro estrelas: os dados usam URI para a identificação e, assim, permitem que

outras pessoas possam publicar material apontando para eles;

Cinco estrelas: os dados são efetivamente ligados com os dados de outras

fontes, ou seja, se comportam plenamente como dados abertos ligados ou linked open data (LOD).

Figura 8 – Classificação dos dados ligados

Fonte: http://5stardata.info/

28 Copyright Microsoft Corporation: <https://www.microsoft.com>. 29 Formato CSV: valores separados por vírgula (comma-separated values).

A atualização dessa classificação que Tim Berners-Lee fez em 2010 ocorreu para o item referente a uma estrela, acrescentando a exigência de que os dados fossem abertos. Como o padrão cinco estrelas herda as características do padrão uma estrela, então os dados deverão ser abertos em todo os casos. Hausenblas e Kim (2015) fizeram uma interessante interpretação sobre a classificação de Tim Berners-Lee acrescentando o custo benefício para cada um dos níveis, tanto do lado do consumidor da informação quanto do lado de quem publica a informação na web. De uma maneira geral o custo de tempo aumenta, para quem publica, na medida em que se aumenta a quantidade de estrelas. Há um ganho muito significativo em possibilidades, para o consumidor da informação, com esse mesmo aumento do nível de estrelas.

Health e Bizer (2011), Auer et al. (2013) destacam benefícios para o uso de dados ligados sintetizados aqui em seis tópicos: (i) Uniformity: os dados publicados compartilham um único modelo de dados estruturados, chamado RDF; (ii) De-referencability: além das URIs serem usadas para a identificação de entidades, elas também podem ser usadas, tal como URLs, para a localização e recuperação de recursos descritos e representados por entidades na internet. A característica de-referencability é reconhecida por Cyganiak et al. (2014) como sendo a melhor contribuição das IRIs e fundamental para o conceito de dados ligados; (iii) Coherence: quando uma tripla RDF contém URIs de namespaces diferentes então é estabelecida uma ligação entre a entidade identificada pelo sujeito com a entidade identificada pelo objeto. Itens de dados são ligados através do tipo da RDF; (iv) Integrability: considerando que todas as fontes de dados referenciados compartilham o modelo de dados RDF, que é baseado em um único mecanismo para representar as informações, fica fácil alcançar uma integração semântica sintática simples de diferentes conjuntos de dados ligados; (v) Timeliness: a publicação e atualização de dados ligados é simples, não precisando mais de gasto de tempo para as etapas de extração, transformação e carregamento; e (vi) Self- descriptive data: dados ligados facilitam a integração de dados de diferentes fontes, baseando- se em vocabulários compartilhados, tornando as definições destes vocabulários recuperáveis, e ao permitir condições de diferentes vocabulários para ser ligados uns aos outros por ligações de vocabulário.

Berners-Lee (2006) elaborou quatro princípios fundamentais para a criação de dados ligados: (1) use URIs para dar nomes as coisas; (2) use HTTP URIs para que esses nomes possam ser acessados; (3) quando um URI é acessado, responda com dados úteis, utilizando padrões da web tais como RDF e SPARQL; e (4) inclua links para outras URIs para facilitar a busca por novos dados.

Ainda sobre a produção de dados ligados, Auer et al. (2013) descrevem o seu ciclo de vida por intermédio de etapas que se completam mutualmente e interagem uma com as outras: (i) Extraction: informações representadas em forma não estruturada ou que obedecem a outros formalismos de representação estruturados ou semiestruturados devem ser mapeados para o modelo de dados RDF; (ii) Storage/Quering: considerando um conjunto de dados no formato RDF, mecanismos armazenam, indexam e consultam esses dados de forma eficiente; (iii) Authoring: usuários devem ter a oportunidade de criar novas informações estruturadas ou corrigir e ampliar as já existentes; (iv) Linking: se diferentes dados publicados fornecem informações sobre as mesmas entidades relacionadas, então devem ser realizadas ligações entre esses elementos; (v) Enrichment: considerando que os dados ligados possuem instâncias de dados, é possível observar falta de classificação, estrutura e esquema de informações, e essa deficiência pode ser resolvida através de abordagens que enriqueçam os dados com estruturas de nível mais elevado, a fim de permitir a agregação e consulta aos dados de modo mais eficiente; (vi) Quality Analysis: tal como acontece com a web de documentos, a Web de Dados contém uma variedade de informações de diferentes qualidades, por isso, é importante elaborar estratégias para avaliar a qualidade dos dados publicados na Web de Dados; (vii) Evolution & Repair: se problemas são detectados, então é necessário empregar estratégias para repará-los e para apoiar a evolução dos dados vinculados; e (viii) Search, Browsing & Exploration: usuários devem possuir poderes para navegar, pesquisar e explorar as informações de estrutura disponível na Web de Dados de forma rápida e amigável.

O projeto Linking Open Data30 é o exemplo mais visível da adoção e aplicação dos princípios de LOD (BIZER; HEATH; BERNERS-LEE, 2009). Nesse projeto existe uma boa quantidade de entidades disponíveis em um volume estimado de 50 bilhões de elementos oriundos de muitos domínios diferentes, como geografia, meios de comunicação, biologia, química, economia, energia, etc. (BAUER; KALTENBÖCK, 2012). O Linking Open Data tem como objetivo estender a web como um bem comum de dados, através da publicação de vários conjuntos de dados abertos como RDF na web, e estabelecendo ligações entre os itens de dados RDF a partir de diferentes fontes de dados. O projeto apoio do movimento Open Data, que visa tornar os dados disponíveis gratuitamente para todos. Já existem vários conjuntos de dados interessantes abertos disponíveis na Web, como por exemplo:

30 Projeto Linking Open Data, disponivel em:

Wikipedia31, Wikibooks32, Geonames33, MusicBrainz34, WordNet35, a bibliografia DBLP36 etc.

Apesar do sucesso premente dos dados ligados, existem problemas e reflexões importantes detectados por alguns autores. Berners-Lee (2010) alerta que várias “ameaças” têm surgido para a formação de ilhas na web, e um dos fatores para esta possibilidade de isolamento acontece porque cada pedaço de informação não possui um URI. Zaveri et al. (2015), Képéklian, Curé e Bihanic (2015) sinalizam para uma preocupação mais recente com a qualidade nos dados ligados. Berners-Lee e O'Hara (2013), Képéklian, Curé e Bihanic (2015) sinalizam para a questão da privacidade dos dados, pois numa situação, por exemplo, de integração com redes sociais, informações pessoais e privadas estariam abertas. Sobre a necessidade de crescimento das bases de dados ligados, Stuckenschmidt, Noessner e Fallahi (2012) sugerem que o próprio usuário trabalhe no enriquecimento da sua base de dados. Segundo esses autores, a abordagem centrada no usuário é mais vantajosa em comparação com aquela em que as tarefas de integração de dados são realizadas por profissionais de tecnologia da informação. Essa abordagem centrada no usuário baseia-se em um modelo cognitivo que permite que pessoas com pouco ou nenhum conhecimento possam integrar seus dados. Paulheim (2013) alerta para a variedade dos dados abertos ligados, pois apesar deles estarem sendo construídos em padrões bem definidos, há maneiras diferentes para fornecê-los. Nessa mesma linha, Auer et al. (2013) sinalizam que o desenvolvimento de abordagens de pesquisa, padrões, tecnologias e ferramentas para apoiar o ciclo de vida dos dados ligados é um dos principais desafios atuais, e podem causar um impacto substancial sobre a ciência, a economia, a cultura e a sociedade em geral.

31 Wikipedia é um projeto de enciclopédia multilíngue de licença livre, baseado na web, escrito de maneira

colaborativa e administrado pela Fundação Wikimedia. Disponível em: <http://www.wikipedia.org/>.

32 Wikibooks é um projeto da Wikimedia Foundation dedicado ao desenvolvimento colaborativo de textos

didáticos de conteúdo livre. Disponível em: <http://www.wikibooks.org/>.

33 GeoNames é uma base de dados geográfica livre com informações sobre mais de 8 milhões de lugares.

Disponível em: <http://www.geonames.org/>.

34 MusicBrainz é uma enciclopédia de musica aberta que armazena metadados de músicas e os disponibiliza ao

público. Disponivel em: <http://musicbrainz.org/>.

35 WordNet é um grande banco de dados léxico de Inglês mantido pela National Science Foundation. Disponível

em: <http://wordnet.princeton.edu/>.

36 DBLBibliografy é um banco de dados com bibliografia da Ciência da Computação, mantido pelo DBLP