AMCM
A Web de Dados: conceituação
e representação de conteúdos
Ana Maria de C. Moura
LNCC - DEXL
([email protected]) 1 AMCMAgenda
A Web de documentos
Panorama atual
Problemas
A Web Semântica
Conceituação
Web de dados X Web Semântica
Aplicações
A Web de dados
Linked Data
RDF
Serializando tuplas
2AMCM
Nos primórdios da Web...
A maior parte do conteúdo era
projetado para o entendimento por
humanos, e não para programas de
computadores manipularem o seu
significado.
3
AMCM
Panorama da Web
Aumento exponencial de publicações na Web
~ 1 trilhão de sites * (incluindo 21,4 milhões de novos!) a cada 4 horas o equivalente à bib. do Congresso americano é
indexado e adicionado à Web
10-20% do conteúdo é novo a cada vez que vez que o robô os indexa
1 bi buscas /dia (~11000/sec):
• 70 % Spam
• apenas 20% das consultas são novas, em relação aos últimos 30 dias.
* fonte: http://www.revistawide.com.br
AMCM
Cenário atual
Aumento exponencial de publicações Busca da Informação
Problema de “precisão” das ferramentas de pesquisa
Navegação através de links e uso de pal. chaves p/ busca
Problemas p/ identificar, descrever e localizar recursos de forma mais eficiente
Integração de recursos
Heterogeneidade de recursos
5
Diversos formatos: XML, HTML,BDs, APIs,
CSV, XLS, PDF …
Heterogeneidade:
Diferentes formatos e modelos de dados
Problemas de sinonímias e homonímias
Ausência de vínculos entre fontes de dados diferentes
AMCM
Formato de publicação de
dados na Web
Tente encontrar na Web
AMCM 7 Informação disponível mas não corresponde à busca desejada!
Web de documentos
AMCM 8AMCM
Problemas
O conteúdo pode ser “lido”, mas nem sempre é processável por robôs
É difícil automatizar processos/serviços na Web
Questões pendentes
• Como interoperar informações num ambiente heterogêneo?
• Como integrar e consumir recursos na Web?
• Como contextualizar informações?
• Como permitir que máquinas compreendam os dados publicados na Web?
Um início de solução:
• Descrever os dados contidos na Web e representá-los de forma conveniente
9
AMCM 10
A cauda longa de domínios da Informação
Imagens Enciclopedias News Video Calendário P o p u la ri d a d e Conteúdo atualmente com suporte Requirements-Engineering Talent management Special interest communities Itinerary of King George Gene sequences ... ... ... ...
Conteúdos com suporte pequeno (ou inexistente)
- The long tail:
AMCM
O que é Web Semântica?
É uma extensão da Web atual que visa dar significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma
cooperativa [Tim Berners-Lee et al. 2001]
11
AMCM
Web Semântica: Visão W3C
“A Web Semântica é uma visão: é a idéia
de se ter dados na Web definidos e
ligados de uma maneira tal que possam
ser usados por máquinas não só com o
objetivo de apresentação, mas p/
automação
,
integração
e
reuso
de
dados entre aplicações”
fonte: World Wide Web Consortium: “Semantic Web Activity Statement.” http://www.w3.org/2001/sw/Activity
Web de dados x Web
Semântica
AMCM 13
AMCM
A Web Semântica visa
Prover interoperabilidade
Inferir novos conhecimentos a partir
dos recursos existentes
Tornar a web mais dinâmica
Contextualizar informações
AMCM
O que significa tecnologia
semântica
?
Capacidade de:
Representar conhecimento
Permitir inferência sobre o conhecimento para gerar mais conhecimento
Estabelecer conexões entre os itens que não estão explícitos
Prover informações para viabilizar o uso de agentes na Web
…
15
AMCM
Aplicações da Web Semântica
Aplicações científicas (e-Science)
integração de dados
ponteiros para condições experimentais, fontes, algoritmos Comércio Eletrônico
significados bem definidos p/ documentos
catálogos, preços, taxas, especificações
Gerenciamento pessoal de informações: calendários, fotos, publicações,...
Plataforma comum p/ manipulação de BDs, inferência, etc.
Portais semânticos Bioinformática Workflows Wikis Linked Data .... 16
AMCM
Porém, a Web Semântica requer
Capacidade p/ representar e gerenciar conteúdo
semântico na Web
• descrição de propriedades e relacionamentos sobre itens
Necessidade de formalização
• Lógica• Ontologias
17
Na Web, links são essenciais!
AMCM
Web de documentos
Web de dados
19
Complementar texto nas paginas Web com dados conectados abertos e combinar/integrar de forma inteligente tal informação estruturada de diferentes fontes
AMCM 20
Solução para o problema de
busca anterior
Web server BD Máquina de Busca Web server BD oficinas.rj.br imóveis.rj.br HTML RDF HTML RDFWeb of Data
AMCM Tim
Tim BernersBerners--Lee Lee onon thethe nextnext Web | Web | VideoVideo onon TED.comTED.com
21
© CC-BY-NC-ND by ~Dezz~ (residae on flickr)
Linking
“Linked Data é um conjunto das melhores práticas para publicação e conexão de dados estruturados na Web, permitindo estabelecer links entre itens de diferentes fontes de dados para formar um único espaço de dados global.”
(Heath, T. and Bizer, C. (2011). Linked Data: Evolving the Web into a Global Data Space. Morgan & Claypool, 1st edition.)
AMCM 23
Linked Data
Utilizar a Web para conectar dados não previamente relacionados, ou usar a Web para diminuir barreiras na ligação de dados já interligados, usando outros métodos.
Segundo Wikipedia: “a term used to describe a
recommended best practice for exposing, sharing, and connecting pieces ofdata, information, andknowledgeon the Semantic Web usingURIsandRDF."
http://linkeddata.org/: este site hospeda ou liga recursos disponibilizados através da comunidade Linked Data.
AMCM
Linked Data: para que
serve?
Uma extensão da Web, onde informações e serviços são disponibilizados e representados de forma explícita e bem definidos, de modo a serem
compartilhados por humanos e máquinas de forma a trabalharem de modo cooperativo
Como?
Promovendo troca de informação através de tags Web, com descritores processáveis de seus conteúdos
(button like).
Tecnologias e infraestrutura para a publicação e recuperação de dados
AMCM
Linked Data
25
1. Use URIs para nomear “coisas” (recursos)
2. Use HTTP URIs de forma que qualquer recurso do tipo html possa ser localizado
3. Quando alguém procurar por uma URI, proveja informação útil, usando padrões Web (RDF*, SPARQL)
4. Inclua links para outras URIs, de modo que mais coisas possam ser descobertas.
* TimBerners-Lee 2006
http://www.w3.org/DesignIssues/LinkedData.html
AMCM
4 princípios de LD
Plano 5 estrelas de Tim BL para dados
abertos
AMCM 27
★Disponibilize seus dados na web sob licença aberta ★★Disponibilize os dados de forma estruturada
(PlanilhaExcel sheet em vez de imagem de uma tabela) ★★★Use um formato não-proprietário(Arquivo CSV* no lugar de planilha Excel)
★★★★Use formato de Linked Data(URIs para definir coisas, RDFpara representar dados)
★★★★★Conecte seus dados com dados de outros para criar contexto
More: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/
* CSV: Comma separeted values
AMCM
Open Linked Data
• Freshmeat: site clássico que lista dados de fontes abertas;
• MusicBrainz: BDs online de trilhas de música digital e álbuns
• Project Gutenberg: uma iniciativa para disponibilizar textos copyright ; • FOAF: uma abordagem RDF p/ rede
social;
• DBPedia: BDs de documentos do Wikipedia articles
AMCM
Evolução de dados abertos no linked data (Corcho 2010)
> 10 bilhões de triplas >~ 2 bilhões de triplas, ~3milhões de links > 1 bilhão de triplas, 250K links 29
The emerging Web of Data
(Soeren Auer SBBD 2011)2008 2007 2008 2008 20082009 2009 Virtous o SemM F SILK poolpart y DL-Learner Sindic e Sigma ORE OntoWi ki MonetD B DXX Engine WiQA repair repair interlink interlink fuse fuse classify classify enrich enrich create create
Linked Data torna a Web em um enorme banco de dados global:
• O Espaço de Dados Global é chamado de Web de Dados.
A Web de Dados forma um imenso grafo global constituído de bilhões de triplas RDF de várias fontes cobrindo os mais variados domínios.
AMCM 32
Da Web de documentos à Web Semântica
(Soeren Auer SBBD 2011) Web (desde 1992) • HTTP • HTML/CSS/JavaScript Web Semântica (Visão1998,começando???) •Raciocínio •Lógica, Regras •Confiança Web social(desde 2003) • Folksonomias/Tagging • Reputação, sharing • Grupos, relacionamentos Web de dados (desde 2006)• DereferenciamentoURI •Integraçãode dados •SerializaçãoRDF
Genérica e pode conter qualquer tipo de dado;
Qualquer pessoa pode publicar dados;
Não há restrições para seleção de vocabulários;
Dados são auto-descritos;
Mecanismo padrão de acesso aos dados (HTTP) e modelo de dados padrão (RDF) simplificam o acesso aos dados;
Aplicações que usam a Web de dados não se limitam a um conjunto fixo de fontes de dados, podendo inclusive descobrir novas fontes em tempo de execução.
AMCM 34
Web de Documentos x Web de
Dados
AMCM 35
Web de documentos Web de dados Navegadores HTML Navegadores RDF Links HTML conectando
documentos
Links RDF interligando dados Mecanismo de identificação
-URIs
Mecanismo de identificação -URIs
Mecanismo de acesso –HTTP Mecanismo de acesso –HTTP Formato de conteúdo –HTML Modelo de dados –RDF
- Linguagem de consulta – SPARQL
A Web de Dados é parte da Web
Semântica
URIs–identificam objetos e conceitos, permitindo que eles
sejam dereferenciados para obtenção de informações a seu respeito.
HTTP–Mecanismo de acesso universal
RDF–Modelo de dados descentralizado comum baseado
em grafo
SPARQL–Linguagem e protocolo para consulta sobre
grafos RDF
AMCM 37
Padrões usados no Linked
Data
AMCM 38
Linked data em poucas palavras
1. Usa modelo de dados RDF
LNCC LNCC_Meeting2012 Inicia_em Ocorre_em 2. É serializado em triplas • LNCC organizaLNCC_Meeting_ 2012 • LNCC_Meeting_ 2012 inicia em 16/07/2012 • LNCC_Meeting_ 2012 ocorre_emPetrópolis 3. Usa negociação de conteúdo
Organiza
Petrópolis 16/07/2012
Negociação de conteúdo
AMCM 39
Exemplos:
http://www4.wiwiss.fu-berlin.de/factbook/resource/Russia
(URIidentifica o recurso sem informação sobre a Rússia)
http://www4.wiwiss.fu-berlin.de/factbook/data/Russia
(Recurso de informação com uma representação RDF/XML que descreve a Rússia)
http://www4.wiwiss.fu-berlin.de/factbook/page/Russia
(recurso de informação com uma representação HTML que descreve a Rússia)
Exemplo de LD
RDF
Resource Description
Format
AMCM 41 http://www.w3.org/RDFRDF
Modelo de metadados simples e expressivo:
Meio de integração entre diferentes padrões de metadados
Expressa vocabulários distintos com base em um modelo de dados e sintaxe comuns (XML)
Descentralizado, baseado em grafo e extensível;
Permite a interligação entre conjuntos de dados distintos;
Torna possível a implementação de aplicações genéricas capazes de operar sobre o espaço de dados global
Constituído de: Modelo RDF e Sintaxe RDF
AMCM
Em RDF, as informações são representadas por
declarações (statements) contendo sujeitosujeito, predicadopredicado
e objetoobjeto.
As declarações RDF também são chamadas de triplas RDF (RDF triples) 43
Triplas RDF
Recurso Valor propriedade Statement AMCMStatement (declaração)
Recurso Propriedade Literal Recurso Propriedade Recurso 2 (a) Valor é um Literal(b) Valor é um outro Recurso
Tripla RDF
•• Inspirado em categorias linguísticas
Sujeito : URI ou blank node Predicado: URI (propriedades) Objeto : URI, blank nodes ou literal
Sergio Cabral Governador_de Rio de Janeiro
Sujeito
Predicado Objeto
Outro exemplo
AMCM 46 http://http://www.ncbi.nlm.nih.gov/nuccore/NZ_AGBX01000006.1 dc:creator Brachybacterium squillarum trata_organismo_fonte_ Bae,J.-W dc:subject Sequência genômica tem_sequenciamento_em http://www.ncbi.nlm.nih.gov/nuccore /AGBX01000006 literaisLiterais
AMCM 47
Representam dados
Serializados como strings
Interpretação baseado nos tipos de
dados
Literais sem Datatype são tratados
como strings
Exemplo de Grafo RDF
20000 Rio de Janeiro Area_ Cep Sergio Cabral tem_governador Rio de Janeiro capital_de 22º 54' 10 S latitude 43º 12' 27 O longitudeBrasil
PSDB 27/01/1963 Membro_do Situado_em nasceu_em Governador_de 12.000.000 População_de49
Vocabulário: Friend-of-a-Friend (FOAF)
• define classes e propriedades p/ representar informação sobre pessoas e seus relacionamentos
Ana Maria rdf:type foaf:Person . Ana Maria currentProject http://dexl.peldproject . Ana Maria foaf:homepage http://dexl.lncc.br .
Ana Maria foaf:knows http:// dexl.lncc.br //Fabio Porto . Ana Maria foaf:organization http://www.lncc.br.
RDF Schema (RDFS)
RDF schema são recursos Web (têm uri) e podem ser descritos usando o modelo RDF
É preciso definir um vocabulário – uma linguagem que permita definir estrutura semântica!
RDFS permite definir propriedades de recursos (título, autor, etc.) e relacionamentos entre essas propriedades
Primitivas básicas do
RDFS
Classes
Properties
(herda do RDF)
•rdfs:subclassOf – property
•ConstraintProperty
rdfs:domain rdfs:range•
rdfs:label, rdfs:comment, etc.
•
rdf:type (instância de)
AMCM 51
Classes e subclasses
Definindo 2 subclasses: Professor e Aluno, que são subclasses de Pessoa. ex:Pessoa ex:Professor rdfs:subClassOf rdfs:Class rdf:type AMCM 52 ex:aluno rdfs:subClassOf ex:site
Definindo propriedade
rdfs:Property ex:site rdf:type AMCM 53Exemplo
A propriedade site se aplica a uma Disciplina e tem como valor algum Recurso.
ex:Disciplina rdfs:domain ex:site rdfs:Resource rdfs:range AMCM 54
Link RDF
Foaf: Person reg:bae: rdf:type foaf:name foaf:based_near dbpedia: Korea GET/resource/Korea HTTP/1.0 Accept: application/rdf+xml Bae,J.-W. AMCM 56Link RDF (cont.)
Foaf: Person reg:bae: rdf:type foaf:name foaf:based_near dbpedia: Korea Bae,J.-W. dbpedia : Korea 50.000.000 dbpedia: Cities_in_Korea db:population skos:subject http://www.ncbi.nlm.nih.gov/ Taxonomy/Browser/wwwtax.c gi?id=1074488 estudou NCBI:AGBX01000006 sequenciamento_em NCBI: AGBX01000006ncbi:name Brachybacterium squillarum
Mar2012
Link RDF (cont.)
Foaf: Person reg:bae: rdf:type foaf:name foaf:based_near dbpedia: Korea Bae,J.-W. 50.000.000 dbpedia: Cities_in_Korea db:population skos:subject ncbi:name Brachybacterium squillarum Mar2012 ncbi:date http://www.ncbi.nlm.nih.gov/ Taxonomy/Browser/wwwtax.c gi?id=1074488 estudou NCBI:AGBX01000006 sequenciamento_emprefix owl: <http://www.w3.org/2002/07/owl#>
AMCM 58
URI Alias –owl:sameAs
Sujeito: http://www.w3.org/People/Berners-Lee/card#i Predicado: http://www.w3.org/2002/07/owl#sameAs Obj: http://www4.wiwiss.fu-berlin.de/dblp/resource/person/100007 Sujeito: http://dbpedia.org/resource/Tim_Berners-Lee Predicado: http://www.w3.org/2002/07/owl#sameAs Obj: http://www4.wiwiss.fu-berlin.de/dblp/resource/person/100007 www.w3.org/People/ Berners-Lee/card#i www4.wiwiss.fu-berlin.de/dblp/resource/ person/100007 same_as http://dbpedia.org/res ource/Tim_Berners-Lee same_asAMCM 59
Convertendo BD Relacional
em RDF
Fonte: Consumming LinkedData Tutorial –WWW Conference 2010
AMCM 60
Grafo RDF correspondente
AMCM 61
Vinculando com Revyu.com
Fonte: Consumming LinkedData Tutorial –WWW Conference 2010
Heath, T., Bizer C. Linked Data: evolving the Web into a global data space (1st edition). Synthesis lectures on the semantic Web: theory and technology, 1:1, 1-136. Morgan & Claypool ed., 2011.
Jim Hendler, Semantic Web: 10 year update a talk at WIMS11 in Norway
http://www.cs.rpi.edu/~hendler/presentations/
Régis et al. Tutorial Linked Data: Construindo um Espaço de Dados Global na Web 3ª Conferencia W3C Brasil, 2011.
Tecnologias e ferramantas para a web semântica, consórcio W3C: http://www.w3.org/
http://linkeddata.org/
AMCM 62