• Nenhum resultado encontrado

A Web de Dados

N/A
N/A
Protected

Academic year: 2021

Share "A Web de Dados"

Copied!
31
0
0

Texto

(1)

AMCM

A Web de Dados: conceituação

e representação de conteúdos

Ana Maria de C. Moura

LNCC - DEXL

([email protected]) 1 AMCM

Agenda



A Web de documentos



Panorama atual



Problemas



A Web Semântica



Conceituação



Web de dados X Web Semântica



Aplicações



A Web de dados



Linked Data



RDF



Serializando tuplas

2

(2)

AMCM

Nos primórdios da Web...

A maior parte do conteúdo era

projetado para o entendimento por

humanos, e não para programas de

computadores manipularem o seu

significado.

3

AMCM

Panorama da Web

Aumento exponencial de publicações na Web

~ 1 trilhão de sites * (incluindo 21,4 milhões de novos!) a cada 4 horas o equivalente à bib. do Congresso americano é

indexado e adicionado à Web

 10-20% do conteúdo é novo a cada vez que vez que o robô os indexa

1 bi buscas /dia (~11000/sec):

• 70 % Spam

• apenas 20% das consultas são novas, em relação aos últimos 30 dias.

* fonte: http://www.revistawide.com.br

(3)

AMCM

Cenário atual

Aumento exponencial de publicações Busca da Informação

Problema de “precisão” das ferramentas de pesquisa

 Navegação através de links e uso de pal. chaves p/ busca

 Problemas p/ identificar, descrever e localizar recursos de forma mais eficiente

Integração de recursos

Heterogeneidade de recursos

5





Diversos formatos: XML, HTML,BDs, APIs,

CSV, XLS, PDF …



Heterogeneidade:

 Diferentes formatos e modelos de dados

 Problemas de sinonímias e homonímias

 Ausência de vínculos entre fontes de dados diferentes

AMCM

Formato de publicação de

dados na Web

(4)



Tente encontrar na Web

AMCM 7 Informação disponível mas não corresponde à busca desejada!



Web de documentos

AMCM 8

(5)

AMCM

Problemas

O conteúdo pode ser “lido”, mas nem sempre é processável por robôs

É difícil automatizar processos/serviços na Web

Questões pendentes

• Como interoperar informações num ambiente heterogêneo?

• Como integrar e consumir recursos na Web?

• Como contextualizar informações?

• Como permitir que máquinas compreendam os dados publicados na Web?

Um início de solução:

• Descrever os dados contidos na Web e representá-los de forma conveniente

9

AMCM 10

A cauda longa de domínios da Informação

Imagens Enciclopedias News Video Calendário P o p u la ri d a d e Conteúdo atualmente com suporte Requirements-Engineering Talent management Special interest communities Itinerary of King George Gene sequences ... ... ... ...

Conteúdos com suporte pequeno (ou inexistente)

- The long tail:

(6)

AMCM

O que é Web Semântica?

É uma extensão da Web atual que visa dar significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma

cooperativa [Tim Berners-Lee et al. 2001]

11

AMCM

Web Semântica: Visão W3C

“A Web Semântica é uma visão: é a idéia

de se ter dados na Web definidos e

ligados de uma maneira tal que possam

ser usados por máquinas não só com o

objetivo de apresentação, mas p/

automação

,

integração

e

reuso

de

dados entre aplicações”

fonte: World Wide Web Consortium: “Semantic Web Activity Statement.” http://www.w3.org/2001/sw/Activity

(7)



Web de dados x Web

Semântica

AMCM 13

AMCM

A Web Semântica visa



Prover interoperabilidade



Inferir novos conhecimentos a partir

dos recursos existentes



Tornar a web mais dinâmica



Contextualizar informações

(8)

AMCM

O que significa tecnologia

semântica

?



Capacidade de:

Representar conhecimento

Permitir inferência sobre o conhecimento para gerar mais conhecimento

Estabelecer conexões entre os itens que não estão explícitos

Prover informações para viabilizar o uso de agentes na Web

…

15

AMCM

Aplicações da Web Semântica

 Aplicações científicas (e-Science)

 integração de dados

 ponteiros para condições experimentais, fontes, algoritmos  Comércio Eletrônico

 significados bem definidos p/ documentos

 catálogos, preços, taxas, especificações

 Gerenciamento pessoal de informações: calendários, fotos, publicações,...

 Plataforma comum p/ manipulação de BDs, inferência, etc.

 Portais semânticos  Bioinformática  Workflows  Wikis  Linked Data  .... 16

(9)

AMCM

Porém, a Web Semântica requer



Capacidade p/ representar e gerenciar conteúdo

semântico na Web

• descrição de propriedades e relacionamentos sobre itens



Necessidade de formalização

Lógica

Ontologias

17



Na Web, links são essenciais!

(10)

AMCM

Web de documentos

Web de dados

19



Complementar texto nas paginas Web com dados conectados abertos e combinar/integrar de forma inteligente tal informação estruturada de diferentes fontes

AMCM 20

Solução para o problema de

busca anterior

Web server BD Máquina de Busca Web server BD oficinas.rj.br imóveis.rj.br HTML RDF HTML RDF

(11)



Web of Data

AMCM Tim

Tim BernersBerners--Lee Lee onon thethe nextnext Web | Web | VideoVideo onon TED.comTED.com

21

© CC-BY-NC-ND by ~Dezz~ (residae on flickr)

Linking

(12)



“Linked Data é um conjunto das melhores práticas para publicação e conexão de dados estruturados na Web, permitindo estabelecer links entre itens de diferentes fontes de dados para formar um único espaço de dados global.”

(Heath, T. and Bizer, C. (2011). Linked Data: Evolving the Web into a Global Data Space. Morgan & Claypool, 1st edition.)

AMCM 23

Linked Data



Utilizar a Web para conectar dados não previamente relacionados, ou usar a Web para diminuir barreiras na ligação de dados já interligados, usando outros métodos.

Segundo Wikipedia: “a term used to describe a

recommended best practice for exposing, sharing, and connecting pieces ofdata, information, andknowledgeon the Semantic Web usingURIsandRDF."

http://linkeddata.org/: este site hospeda ou liga recursos disponibilizados através da comunidade Linked Data.

AMCM

Linked Data: para que

serve?

(13)



Uma extensão da Web, onde informações e serviços são disponibilizados e representados de forma explícita e bem definidos, de modo a serem

compartilhados por humanos e máquinas de forma a trabalharem de modo cooperativo

 Como?

 Promovendo troca de informação através de tags Web, com descritores processáveis de seus conteúdos

(button like).

 Tecnologias e infraestrutura para a publicação e recuperação de dados

AMCM

Linked Data

25



1. Use URIs para nomear “coisas” (recursos)

2. Use HTTP URIs de forma que qualquer recurso do tipo html possa ser localizado

3. Quando alguém procurar por uma URI, proveja informação útil, usando padrões Web (RDF*, SPARQL)

4. Inclua links para outras URIs, de modo que mais coisas possam ser descobertas.

* TimBerners-Lee 2006

http://www.w3.org/DesignIssues/LinkedData.html

AMCM

4 princípios de LD

(14)



Plano 5 estrelas de Tim BL para dados

abertos

AMCM 27

★Disponibilize seus dados na web sob licença aberta ★★Disponibilize os dados de forma estruturada

(PlanilhaExcel sheet em vez de imagem de uma tabela) ★★★Use um formato não-proprietário(Arquivo CSV* no lugar de planilha Excel)

★★★★Use formato de Linked Data(URIs para definir coisas, RDFpara representar dados)

★★★★★Conecte seus dados com dados de outros para criar contexto

More: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/

* CSV: Comma separeted values



AMCM

Open Linked Data

• Freshmeat: site clássico que lista dados de fontes abertas;

• MusicBrainz: BDs online de trilhas de música digital e álbuns

• Project Gutenberg: uma iniciativa para disponibilizar textos copyright ; • FOAF: uma abordagem RDF p/ rede

social;

• DBPedia: BDs de documentos do Wikipedia articles

(15)

AMCM

Evolução de dados abertos no linked data (Corcho 2010)

> 10 bilhões de triplas >~ 2 bilhões de triplas, ~3milhões de links > 1 bilhão de triplas, 250K links 29



The emerging Web of Data

(Soeren Auer SBBD 2011)

2008 2007 2008 2008 20082009 2009 Virtous o SemM F SILK poolpart y DL-Learner Sindic e Sigma ORE OntoWi ki MonetD B DXX Engine WiQA repair repair interlink interlink fuse fuse classify classify enrich enrich create create

(16)



2008 2007 2008 2008 20082009 2009 Virtous o SemM F SILK poolpart y DL-Learner Sindic e Sigma ORE OntoWi ki MonetD B DXX Engine WiQA repair repair interlink interlink fuse fuse classify classify enrich enrich create create



Linked Data torna a Web em um enorme banco de dados global:

• O Espaço de Dados Global é chamado de Web de Dados.

A Web de Dados forma um imenso grafo global constituído de bilhões de triplas RDF de várias fontes cobrindo os mais variados domínios.

AMCM 32

(17)

Da Web de documentos à Web Semântica

(Soeren Auer SBBD 2011) Web (desde 1992) • HTTP • HTML/CSS/JavaScript Web Semântica (Visão1998,começando???) •Raciocínio •Lógica, Regras •Confiança Web social(desde 2003) • Folksonomias/Tagging • Reputação, sharing • Grupos, relacionamentos Web de dados (desde 2006)

• DereferenciamentoURI •Integraçãode dados •SerializaçãoRDF



Genérica e pode conter qualquer tipo de dado;

Qualquer pessoa pode publicar dados;

Não há restrições para seleção de vocabulários;

Dados são auto-descritos;

Mecanismo padrão de acesso aos dados (HTTP) e modelo de dados padrão (RDF) simplificam o acesso aos dados;

Aplicações que usam a Web de dados não se limitam a um conjunto fixo de fontes de dados, podendo inclusive descobrir novas fontes em tempo de execução.

AMCM 34

(18)



Web de Documentos x Web de

Dados

AMCM 35

Web de documentos Web de dados Navegadores HTML Navegadores RDF Links HTML conectando

documentos

Links RDF interligando dados Mecanismo de identificação

-URIs

Mecanismo de identificação -URIs

Mecanismo de acesso –HTTP Mecanismo de acesso –HTTP Formato de conteúdo –HTML Modelo de dados –RDF

- Linguagem de consulta – SPARQL



A Web de Dados é parte da Web

Semântica

(19)



URIs–identificam objetos e conceitos, permitindo que eles

sejam dereferenciados para obtenção de informações a seu respeito.

HTTP–Mecanismo de acesso universal

RDF–Modelo de dados descentralizado comum baseado

em grafo

SPARQL–Linguagem e protocolo para consulta sobre

grafos RDF

AMCM 37

Padrões usados no Linked

Data



AMCM 38

Linked data em poucas palavras

1. Usa modelo de dados RDF

LNCC LNCC_Meeting2012 Inicia_em Ocorre_em 2. É serializado em triplas • LNCC organizaLNCC_Meeting_ 2012 • LNCC_Meeting_ 2012 inicia em 16/07/2012 • LNCC_Meeting_ 2012 ocorre_emPetrópolis 3. Usa negociação de conteúdo

Organiza

Petrópolis 16/07/2012

(20)



Negociação de conteúdo

AMCM 39

Exemplos:

http://www4.wiwiss.fu-berlin.de/factbook/resource/Russia

(URIidentifica o recurso sem informação sobre a Rússia)

http://www4.wiwiss.fu-berlin.de/factbook/data/Russia

(Recurso de informação com uma representação RDF/XML que descreve a Rússia)

http://www4.wiwiss.fu-berlin.de/factbook/page/Russia

(recurso de informação com uma representação HTML que descreve a Rússia)



Exemplo de LD

(21)



RDF

Resource Description

Format

AMCM 41 http://www.w3.org/RDF



RDF

Modelo de metadados simples e expressivo:

Meio de integração entre diferentes padrões de metadados

Expressa vocabulários distintos com base em um modelo de dados e sintaxe comuns (XML)

Descentralizado, baseado em grafo e extensível;

Permite a interligação entre conjuntos de dados distintos;

Torna possível a implementação de aplicações genéricas capazes de operar sobre o espaço de dados global

Constituído de: Modelo RDF e Sintaxe RDF

(22)



AMCM

 Em RDF, as informações são representadas por

declarações (statements) contendo sujeitosujeito, predicadopredicado

e objetoobjeto.

As declarações RDF também são chamadas de triplas RDF (RDF triples) 43

Triplas RDF

Recurso Valor propriedade Statement



AMCM

Statement (declaração)

Recurso Propriedade Literal Recurso Propriedade Recurso 2 (a) Valor é um Literal

(b) Valor é um outro Recurso

(23)



Tripla RDF

• Inspirado em categorias linguísticas

Sujeito : URI ou blank node Predicado: URI (propriedades) Objeto : URI, blank nodes ou literal

Sergio Cabral Governador_de Rio de Janeiro

Sujeito

Predicado Objeto



Outro exemplo

AMCM 46 http://http://www.ncbi.nlm.nih.gov/nuccore/NZ_AGBX01000006.1 dc:creator Brachybacterium squillarum trata_organismo_fonte_ Bae,J.-W dc:subject Sequência genômica tem_sequenciamento_em http://www.ncbi.nlm.nih.gov/nuccore /AGBX01000006 literais

(24)



Literais

AMCM 47



Representam dados



Serializados como strings



Interpretação baseado nos tipos de

dados



Literais sem Datatype são tratados

como strings



Exemplo de Grafo RDF

 20000 Rio de Janeiro Area_ Cep Sergio Cabral tem_governador Rio de Janeiro capital_de 22º 54' 10 S latitude 43º 12' 27 O longitude

Brasil

PSDB 27/01/1963 Membro_do Situado_em nasceu_em Governador_de 12.000.000 População_de

(25)



49

Vocabulário: Friend-of-a-Friend (FOAF)

• define classes e propriedades p/ representar informação sobre pessoas e seus relacionamentos

Ana Maria rdf:type foaf:Person . Ana Maria currentProject http://dexl.peldproject . Ana Maria foaf:homepage http://dexl.lncc.br .

Ana Maria foaf:knows http:// dexl.lncc.br //Fabio Porto . Ana Maria foaf:organization http://www.lncc.br.



RDF Schema (RDFS)

RDF schema são recursos Web (têm uri) e podem ser descritos usando o modelo RDF

É preciso definir um vocabulário – uma linguagem que permita definir estrutura semântica!

RDFS permite definir propriedades de recursos (título, autor, etc.) e relacionamentos entre essas propriedades

(26)



Primitivas básicas do

RDFS



Classes



Properties

(herda do RDF)

rdfs:subclassOf – property

ConstraintProperty

 rdfs:domain  rdfs:range

rdfs:label, rdfs:comment, etc.

rdf:type (instância de)

AMCM 51



Classes e subclasses

Definindo 2 subclasses: Professor e Aluno, que são subclasses de Pessoa. ex:Pessoa ex:Professor rdfs:subClassOf rdfs:Class rdf:type AMCM 52 ex:aluno rdfs:subClassOf ex:site

(27)



Definindo propriedade

rdfs:Property ex:site rdf:type AMCM 53



Exemplo

A propriedade site se aplica a uma Disciplina e tem como valor algum Recurso.

ex:Disciplina rdfs:domain ex:site rdfs:Resource rdfs:range AMCM 54

(28)



AMCM 55

Link RDF

Foaf: Person reg:bae: rdf:type foaf:name foaf:based_near dbpedia: Korea GET/resource/Korea HTTP/1.0 Accept: application/rdf+xml Bae,J.-W.



AMCM 56

Link RDF (cont.)

Foaf: Person reg:bae: rdf:type foaf:name foaf:based_near dbpedia: Korea Bae,J.-W. dbpedia : Korea 50.000.000 dbpedia: Cities_in_Korea db:population skos:subject http://www.ncbi.nlm.nih.gov/ Taxonomy/Browser/wwwtax.c gi?id=1074488 estudou NCBI:AGBX01000006 sequenciamento_em NCBI: AGBX01000006

ncbi:name Brachybacterium squillarum

Mar2012

(29)



AMCM 57

Link RDF (cont.)

Foaf: Person reg:bae: rdf:type foaf:name foaf:based_near dbpedia: Korea Bae,J.-W. 50.000.000 dbpedia: Cities_in_Korea db:population skos:subject ncbi:name Brachybacterium squillarum Mar2012 ncbi:date http://www.ncbi.nlm.nih.gov/ Taxonomy/Browser/wwwtax.c gi?id=1074488 estudou NCBI:AGBX01000006 sequenciamento_em



prefix owl: <http://www.w3.org/2002/07/owl#>

AMCM 58

URI Alias –owl:sameAs

Sujeito: http://www.w3.org/People/Berners-Lee/card#i Predicado: http://www.w3.org/2002/07/owl#sameAs Obj: http://www4.wiwiss.fu-berlin.de/dblp/resource/person/100007 Sujeito: http://dbpedia.org/resource/Tim_Berners-Lee Predicado: http://www.w3.org/2002/07/owl#sameAs Obj: http://www4.wiwiss.fu-berlin.de/dblp/resource/person/100007 www.w3.org/People/ Berners-Lee/card#i www4.wiwiss.fu-berlin.de/dblp/resource/ person/100007 same_as http://dbpedia.org/res ource/Tim_Berners-Lee same_as

(30)



AMCM 59

Convertendo BD Relacional

em RDF

Fonte: Consumming LinkedData Tutorial –WWW Conference 2010



AMCM 60

Grafo RDF correspondente

(31)



AMCM 61

Vinculando com Revyu.com

Fonte: Consumming LinkedData Tutorial –WWW Conference 2010



Heath, T., Bizer C. Linked Data: evolving the Web into a global data space (1st edition). Synthesis lectures on the semantic Web: theory and technology, 1:1, 1-136. Morgan & Claypool ed., 2011.

Jim Hendler, Semantic Web: 10 year update a talk at WIMS11 in Norway

http://www.cs.rpi.edu/~hendler/presentations/

Régis et al. Tutorial Linked Data: Construindo um Espaço de Dados Global na Web 3ª Conferencia W3C Brasil, 2011.

Tecnologias e ferramantas para a web semântica, consórcio W3C: http://www.w3.org/

http://linkeddata.org/

AMCM 62

Referências

Documentos relacionados

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro

Por isso, respondendo a Heurgon acerca de sua tese, Le Goff sinalizou que em função de suas leituras, havia conquistado certa familiaridade com o conjunto da Idade Média,

A operação de pré-murchamento elevou o teor de matéria seca (MS) em ambos os trabalhos, para aveia branca proporcionou melhor preservação da proteína bruta (PB), enquanto

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

Na forma mais simples de aprendizagem competitiva, a rede neural tem uma única camada de neurônios de saída, estando cada neurônio totalmente conectado aos nós de entrada.. A rede

 Numéricos das das Propriedades Propriedades do do Ar Ar Úmido, Úmido, Cartas Cartas Psicrométricas, Psicrométricas, Processos Processos Psicrométricos, Psicrométricos,

UVC100 Combo de tinta marcadora invisível fluorescente para qualquer superfície UV999E Tinta de marcação fluorescente para qualquer superfície, 473 ml (16 onças) UV991

Resolve que a Classificação Internacional de Funcionalidade, Incapacidade e Saúde seja utilizada no Sistema Único de Saúde, nas investigações para medir