• Nenhum resultado encontrado

2.3 Dados Abertos

2.3.1 Dados Abertos Conectados

Considerando o volume de dados e informa¸c˜oes conforme destacado na Figura 2, bem como a atual descentraliza¸c˜ao desta produ¸c˜ao como exemplificado na Figura 5, novos de- safios emergem no que tange a organiza¸c˜ao e consumo de dados, pois a tomada de decis˜ao precisa ser subsidiada por informa¸c˜oes integradas, comumente decorrentes do cruzamento de v´arias bases de dados.

Neste contexto, os consumidores de dados visualizam que a oferta de dados atual vastamente espalhada pela Web representa um grande inconveniente, pois existe a ne- cessidade de primeiro obter e armazenar estes dados localmente antes que possam ser utilizados para a produ¸c˜ao de informa¸c˜oes relevantes (HEATH, 2011). O autor ainda res- salta que, mesmo que a informa¸c˜ao do setor p´ublico esteja dispon´ıvel em formato aberto, pode estar publicada de forma ca´otica. Ademais, a mesma informa¸c˜ao pode ser encon- trada em diferentes locais da Web e ainda, sem haver nenhuma conex˜ao entre tais fontes de informa¸c˜oes, apresentando, por exemplo, qual ´e a informa¸c˜ao mais atualizada.

Diante desta situa¸c˜ao, para que os usu´arios tenham confian¸ca nos dados disponibili- zados buscam analisar a sua procedˆencia, dando preferˆencia `aqueles que s˜ao origin´arios de fontes confi´aveis. Por outro lado, tais dados s˜ao ofertados de modo distribu´ıdo, n˜ao sendo incomum a ausˆencia de hiperlinks para informa¸c˜oes relacionadas, ora armazenadas no mesmo reposit´orio de dados ou n˜ao (GALIOTOU; FRAGKOU, 2013).

O desafio presente consiste no fornecimento de meios eficazes para acessar dados das origens distribu´ıdas, e ainda, estipular mecanismos atrav´es dos quais eles podem ser conec- tados e integrados (HEATH, 2011). Outro desafio reside na limita¸c˜ao dos seres humanos em processar e conectar a atual oferta de dados e informa¸c˜oes dispon´ıveis, considerando que a internet faz com que a riqueza do conhecimento humano esteja dispon´ıvel para qualquer pessoa, em qualquer lugar. Mais um desafio reside em como classificar e efetiva- mente utilizar o crescente volume de informa¸c˜ao dispon´ıvel para a obten¸c˜ao das respostas necess´arias.

Neste contexto, Alcantara et al. (2015) posicionam que, a publica¸c˜ao de dados em formato aberto e estruturado n˜ao ´e o bastante para permitir que aplica¸c˜oes enrique¸cam suas bases de conhecimento. O ideal ´e que sejam publicados de acordo com pr´aticas que

permitam a interoperabilidade de dados na Web atrav´es do uso de vocabul´arios descritos em RDF, facilitando a sua utiliza¸c˜ao por servi¸cos automatizados para o consumo dos dados.

Como resposta a estes desafios, o conceito de dados conectados emerge visando orien- tar as organiza¸c˜oes a ofertarem seus dados existentes dispon´ıveis em formatos leg´ıveis por m´aquina (BAUER; KALTENB ¨OCK, 2012). Dados Conectados referem-se a um conjunto de boas pr´aticas para publica¸c˜ao e conex˜ao de dados estruturados na Web utilizando padr˜oes internacionais do World Wide Web Consortium - W3C, permitindo o estabeleci- mento de uma rede de dados que se conectam e auto enriquecem (HEATH, 2011; WOOD et al., 2013).

Dados conectados para serem considerados como tal, precisam obedecer quatro prin- c´ıpios que s˜ao: (1) Devem ser usados Identificadores Universais de Recursos (Universal Resource Identifier - URIs) como nomes para as coisas a serem publicadas; (2) Devem ser usadas URIs HTTP para que os usu´arios possam localizar estes nomes; (3) Quando a URI for encontrada, ela deve prover informa¸c˜ao ´util, usando padr˜oes como o RDF (Resource Description Framework) ou o SPARQL; (4) e ainda, as URIs devem incluir hiperlinks para outras URIs, para que os usu´arios possam descobrir novas coisas que se relacionem a URI que ele esteja buscando (BERNERS-LEE, 2006).

Dados Abertos Conectados respeitam os mesmos princ´ıpios aplic´aveis aos Dados Co- nectados (BANDEIRA et al., 2014), incorporando obrigatoriamente requisitos dos Dados Abertos como o uso e re´uso livre, podendo ser redistribu´ıdos por qualquer pessoa - su- jeitos, no m´aximo, `a exigˆencia de atribui¸c˜ao da fonte e compartilhamento pelas mesmas regras.

Desta maneira podemos definir os Dados Abertos Conectados como “um conjunto de pr´aticas para publica¸c˜ao de dados abertos que possuem hiperlinks para outros dados abertos, mediante o uso de URIs que garantem que a partir de um dado, possam ser acessados outros dados relacionados”.

A evolu¸c˜ao dos Dados Abertos para os Dados Abertos Conectados foi estabelecido pela escala de maturidade 5-Stars Linked Open Data (BERNERS-LEE, 2006) que ser´a explorada mais adiante nesta pesquisa.

A iniciativa ISA - Interoperability Solutions for European Public Administrations - conforme apresentado na Tabela 3, estabelece uma importante compara¸c˜ao entre as ca- racter´ısticas dos Dados Abertos Conectados com outros formatos de dados estruturados (ISA, 2014).

Para acompanhar o desenvolvimento dos Dados Abertos Conectados, foi estabelecido o projeto “The Linking Open Data Cloud Diagram”, conhecido como “LOD Cloud”, man- tido pelos pesquisadores Richard Cyganiak (Insight Centre for Data Analytics at NUI

Tabela 3 – Comparativo entre caracter´ısticas de Dados Conectados e Outros formatos de dados estruturados

Dimens˜ao Situa¸c˜ao Atual (Dados n˜ao-conectados)

Situa¸c˜ao desejada (Da- dos Conectados)

Compartilhamento de dados:

Dados s˜ao compartilhados utilizando o XML (eXtensi- ble Markup Language)

Dados s˜ao compartilhados utilizando o RDF (Resource Description Framework) Valida¸c˜ao de dados: Utiliza¸c˜ao do XML Schema

(XSD) como meio para va- lida¸c˜ao dos dados

Regras (ex: SWRL) e SPARQL utilizados como meio para validar dados e fazer inferˆencias

Significado de dados: Estrutura centralizada para prover significado aos da- dos, mediante a reutiliza¸c˜ao de arquivos XSD

Estruturas descentralizadas para associa¸c˜ao de signifi- cado aos dados como voca- bul´arios e outros dados de referˆencia

Provimento de dados: Servi¸cos Web especializados baseados em SOAP permi- tem o acesso aos dados

Servi¸cos RESTful leves de dados conectados permitem o acesso aos dados

Integra¸c˜ao de dados: Integra¸c˜ao de Sistemas Conex˜oes de dados baseadas em elementos semˆanticos Relacionamento com

outros conceitos:

Dados e esquemas s˜ao consi- derados completos (mundo fechado)

Dados e esquemas s˜ao considerados incompletos (mundo aberto)

Endere¸camento de da- dos:

Cada recurso (ou entidade) de dados possui um ´unico identificador no n´ıvel dos sistemas de informa¸c˜ao

Cada recurso (ou entidade) de dados possui identifica- dores comuns e conecta- dos, por diferentes sistemas de informa¸c˜ao, no n´ıvel da Web

Fonte: ISA (2013)

Galway1) e Anja Jentzsch (Hasso Plattnner Institut2). A “LOD Cloud” cataloga e dis-

ponibiliza uma imagem que mostra os conjuntos de dados que foram publicados como dados conectados, por contribuintes da comunidade de Dados Abertos Conectados (Lin- king Open Data), bem como outros indiv´ıduos e organiza¸c˜oes. A “nuvem” ´e baseada em metadados coletados mediante a curadoria de contribuintes para o Hub de Dados organizados na “LOD Cloud”.

A imagem disponibilizada no projeto ´e interativa e onde cada conjunto de dados ´e representado por um circulo contendo um hiperlink para sua p´agina inicial. Atualmente a “LOD Cloud”, conforme a Figura 6 conta com 570 datasets, contendo mais de 31 bilh˜oes

de triplas e mais de 500 milh˜oes de conex˜oes entre esses conjuntos de dados. 1

Dispon´ıvel em http://www.insight-centre.org

2

45

A maior iniciativa de Dados Abertos Conectados do mundo ´e a DBPedia, que ´e um projeto colaborativo para extra¸c˜ao de dados da Wikip´edia tornando-os dispon´ıveis e recu- per´aveis na Web, permitindo a realiza¸c˜ao de consultas sofisticadas conectando diferentes conjuntos de dados existentes na Wikip´edia. Dentre outros benef´ıcios, a DBPedia permite novos mecanismos de navega¸c˜ao, conex˜ao de dados e aprimoramento da Wikip´edia.

De acordo com Bandeira et al. (2015) a base de conhecimento da DBPedia, vers˜ao em inglˆes, descreve mais de 4 milh˜oes de entidades classificadas em uma ontologia. Essa base de conhecimento contempla mais de 1,4 milh˜oes de pessoas, cerca de 735 mil lugares, descri¸c˜ao de mais de 400 mil conte´udos multim´ıdia (´albuns musicais, filmes, etc.), 241 mil organiza¸c˜oes (contemplando 58 mil empresas e 41 mil institui¸c˜oes de ensino), dentre outros conte´udos relevantes. A DBPedia completa, em todos os idiomas atualmente con- templados, j´a cont´em 38,3 milh˜oes de entidades armazenadas, contendo 25,2 milh˜oes de links para imagens, 29,8 milh˜oes de links para p´aginas externas e 80,9 milh˜oes de links para categorias da Wikip´edia. Al´em disso, est´a conectada com cerca de 50 milh˜oes de outros conjuntos de dados conectados. Em 2014, a DBPedia alcan¸cou um volume de trˆes bilh˜oes de informa¸c˜oes estruturadas em triplas RDF (DBPEDIA, 2015).

Figura 7 – Vis˜ao geral do framework de gera¸c˜ao e disponibiliza¸c˜ao de dados conectados da DBPedia

Fonte: Bandeira et al. (2015 apud LEHMANN et al., 2014)

A produ¸c˜ao de dados conectados da DBpedia ´e desenvolvida mediante diversas etapas, que s˜ao a leitura, interpreta¸c˜ao, extra¸c˜ao de dados a partir da Wikip´edia, enriquecimento dos dados com o apoio de ontologias e gera¸c˜ao de triplas RDF, que s˜ao armazenadas em um servidor de triplas. A partir desse servidor ´e disponibilizado um endpoint SPARQL 3. Os

3

dados conectados s˜ao consumidos e visualizados por p´aginas HTML (HyperText Markup Language) geradas a partir das triplas que proporcionam uma nova e rica experiˆencia de navega¸c˜ao em torno dos dados da Wikip´edia. A Figura 7 apresenta uma vis˜ao geral do framework de gera¸c˜ao de dados conectados da DBPedia.

Atrav´es desse framework, a base da DBPedia possibilita a execu¸c˜ao de diversas con- sultas como: (a) “Qual a popula¸c˜ao de um determinado pa´ıs?” ou (b) “Quais os pa´ıses que possuem popula¸c˜ao entre 100 milh˜oes e 2 bilh˜oes de habitantes?”. As Figuras 8 e 9 apresentam um exemplo de consulta SPARQL para executar a consulta (b) e apresenta¸c˜ao da respectiva resposta.

Figura 8 – Consulta SPARQL na DBpedia para obter os pa´ıses que possuem a popula¸c˜ao entre 100 milh˜oes e 2 bilh˜oes de pessoas

Fonte: Autor desta disserta¸c˜ao, a partir de http://live.dbpedia.org/sparql, 2015.

A DBpedia, devido a sua relevˆancia quanto `a oferta de Dados Conectados no mundo, est´a sendo utilizada como fonte de conhecimento para cerca de projetos e diversos casos reais de uso, sendo utilizada por grandes empresas ao redor do mundo, como o conglo- merado de m´ıdia britˆanico BBC, dentre muitas outras empresas (KOBILAROV et al., 2009).

Figura 9 – Resultado de consulta SPARQL na DBpedia para obter os pa´ıses que possuem a popula¸c˜ao entre 100 milh˜oes e 2 bilh˜oes de pessoas

Fonte: Autor desta disserta¸c˜ao, a partir de http://live.dbpedia.org/sparql, 2015.

Ademais, segundo Bandeira et al. (2014), no contexto governamental, os Dados Aber- tos Conectados contribuem para uma maior explora¸c˜ao de dados governamentais abertos permitindo uma maior garantia de transparˆencia nas transa¸c˜oes e permitindo tamb´em que os dados sejam leg´ıveis por m´aquinas.