• Nenhum resultado encontrado

2.3 Web Semântica

2.3.5 DBpedia

A DBpedia é uma base de conhecimento de dados abertos ligados que segue a classificação das 5 estrelas ditadas por Berners-Lee (2006) e discutida na subseção 2.3.3. Ela é um esforço comunitário para extrair informações estruturadas da Wikipedia37 e tornar essas informações disponíveis na web permitindo sofisticadas consultas (AUER et al., 2007) à sua base de conhecimento, além de cobrir uma grande quantidade de áreas, sendo amplamente usada pela comunidade de pesquisa e por diversas aplicações (LEHMANN et al., 2015).

A Wikipedia, que fornece as informações da DBpedia, surgiu em 2001 e desde então cresceu exponencialmente em quantidade de artigos, sendo hoje o sexto site mais consultado

37 Wikipedia é uma enciclopédia livre, colaborativa, baseada na web e mantida pela Wikimedia Foundation, Inc.

em toda web, segundo ranking do portal Alexa38. Ela se transformou num alicerce da cultura, com uma rapidez que não era esperada, talvez por conta de seu relacionamento sinergético e não planejado com o buscador Google (GLEICK, 2011). Segundo a própria Wikipedia, em 2015 ela alcançou 38 milhões de artigos em mais de 250 línguas. Ela é um dos melhores exemplos de criação de conteúdo colaborativo (LEHMANN et al., 2015). Devido à sua vulnerabilidade quanto ao vandalismo ou mesmo contribuições menos especialistas, houve um tempo, principalmente no início de sua trajetória, que ela não era recomendada por acadêmicos, jornalistas etc. Mais recentemente a Wikipedia é sustentada por uma “conspiração gigantesca” entre programas de computador e comunidades de humanos voluntários, para garantir que seus artigos sejam condizentes com a realidade (GLEICK, 2011).

Segundo a página de estatísticas da DBpedia39, em outubro de 2015 existiam 6,2 milhões de entidades da web semântica nela, sendo que 5 milhões foram devidamente classificadas usando-se ontologias consistentes. A DBpedia usa o padrão RDF para representar informações e possui 8,8 bilhões de triplas RDF. A Figura 9 representa a arquitetura da DBpedia. A infraestrutura do seu servidor (Virtuoso Universal Server) oferece aos usuários acesso aos seus dados RDF por intermédio de três canais: (1) HTML Consumers: acesso simples via páginas HTML, (2) RDF Consumers: acesso direto aos RDFs pela web, (3) SPARQL Clients: usando a linguagem de consulta SPARQL e um terminal de consulta (SPARQL Endpoint), tal como o SNORQL.

Ainda segundo a página de estatísticas da DBpedia, a ontologia usada, que é atualizada pela própria comunidade de usuários, possui 739 classes que formam uma hierarquia 2.695 propriedades obedecendo um limite máximo de níveis para que seja mantida boa visibilidade e navegabilidade. A Figura 7, da seção 2.3.3, que apresentou um grafo RDF extraído da DBpedia, possui exemplos de elementos da ontologia da DBpedia que foram usados em relações com os recursos: influenced, foundedBy, bithYear, nationality, knownFor. O projeto DBpedia está em constante evolução e possui desafios a serem vencidos. Um deles é saber lidar melhor a internacionalização, pois edições em línguas diferentes do inglês possuem uma cobertura melhor da cultura local (LEHMANN et al., 2015). Outro problema, apontado pelo próprio site da DBpedia, é a duplicação de elementos ontológicos que prejudicam a extração de informações, como no caso do local de nascimento de uma

38 Ranking do Portal Alexa, disponível em <http://www.alexa.com/topsites>. Acesso em 05/05/2016.

39 Página de estatísticas da DBpedia, atualizada em outubro de 2015: <http://wiki.dbpedia.org/dbpedia-dataset- version-2015-10>.

pessoa que atualmente é identificada pelos elementos ontológicos birthplace ou placeofbirth. Lenman et al. também apontam para a possibilidade da própria DBpedia servir de base para corrigir erros da sua fonte, a Wikipedia, detectando, principalmente, inconsistência de informações entre seus artigos ou até dentro do próprio artigo, por exemplo, a data da morte de uma pessoa deve ser maior que o seu nascimento.

Figura 9 – Arquitetura da DBpedia

Fonte: http://wiki.dbpedia.org/about/about-dbpedia/architecture

2.3.6 Considerações finais da seção

De modo geral, a Web Semântica foi desenvolvida para resolver: a dificuldade em responder questões práticas ou específicas, a falta de padrões e a falta de capacidade para interpretação de dados via computacional. Em função disso, a web evolui no sentido de aumentar a sua capacidade semântica, ou seja, seguir as indicações das 5 estrelas de Berners- Lee. Assim, no futuro se espera que a web seja composta majoritariamente por dado abertos ligados, disponíveis em formatos não proprietários, identificados por URIs para que sejam recuperados de forma unívoca, e efetivamente ligados de acordo com a suas relações semânticas. Um dos grandes empecilhos para essa revolução é baixa interoperabilidade, que poderá ser vencida com a efetiva adoção de ontologias que se encarregam em definir a natureza das informações e suas relações, além de classificá-las e evitar ambiguidades. As

ontologias são capazes de integrar bancos de dados heterogêneos e permitir que os sistemas informáticos funcionem de forma integrada mesmo que em diferentes interfaces.

Figura 10 – Mapa conceitual com alguns relacionamentos abordados na seção 3: Web Semântica

Fonte: Elaboração própria

Apesar de problemas detectados no Portal da Transparência e na aplicação da Lei de Acesso a Informação, discutidos na seção 2.3.2, essa iniciativa é promissora se for devidamente integrada a ideia dos dados abertos ligados, com adoção do modelo das 5 estrelas de Berners-Lee e uso de ontologias adequadas. Isso permitirá um grande avanço social, considerando que muitas ferramentas de acesso à informação poderão ser desenvolvidas em função dessa nova organização de informação e conhecimento.

O mapa conceitual da Figura 10 apresenta alguns relacionamentos importantes abordados nessa seção sobre Web Semântica, destacando, em cor alaranjada e espessura maior, alguns conceitos relevantes para a presente tese. Entre as várias proposições existentes no mapa, destacam-se aquelas que caracterizam a Web Semântica revelando seus desafios e problemas atuais e comparando-a com a web. Outras proposições explicitam o termo linked open data separando-o em dados ligados e dados abertos. Destaque para os crosslinks que revelam a interoperabilidade como um problema tanto da Web Semântica quanto para os dados abertos, e propõe o uso de ontologias e dados ligados como elementos para reduzir esse problema. Além disso, a capacidade de interpretação das informações por máquina é o foco principal da Web Semântica e também é um dos quesitos para os dados abertos.