Tópicos Especiais em Ciência da
Computação: Gerência de Dados da Web
– DCC851 –
Introdução
Alberto H. F. Laender
2016
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Programa
Introdução
Caracterização dos dados da Web
Exemplos de ambientes e aplicações que utilizam dados da Web
Modelagem e Representação de Dados Semi-Estruturados
Conceitos básicos sobre orientação a objetos
Características dos dados semi-estruturados
Modelos para representação de dados semi-estruturados
XML e acessórios para gerência de dados (DTD, XML Schema, XPath)
Linguagens de consulta (Lorel, XQuery)
Extração de Dados de Fontes Textuais da W eb
Métodos tradicionais de extração
Métodos baseados em árvores DOM
Métodos probabilísticos para extração em texto
Casamento de Dados
Objetivos e desafios
Etapas do processo de casamento de dados
Indexação/blocagem, seleção de casadores,
combinação de casadores
Desambiguação de nomes e descritores
Avaliação
Trabalhos práticos e tarefas individuais: 50 pontos
Projeto final: 40 pontos
Proposta: 10 pontos (a ser apresentada pelo aluno
conforme calendário a ser definido)
Relatório: 30 pontos (a ser entregue no final do
semestre)
Participação: 10 pontos
Bibliografia Preliminar
Textos Básicos
Abiteboul, S.; Buneman, P.; Suciu, D. Data on the Web: From Relations to Semistructured Data and XML. Morgan Kaufmann, 2000.
Christen, P. Data Matching: Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate
Detection. Springer, Berlin, 2012.
Liu, B. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Second Edition, Springer, Berlin, 2011.
Artigos de Referência
Chang, C.-H.; Kayed, M.; Girgis, M. R.; Shaalan, K. F. A Survey of Web Information Extraction Systems. IEEE
Trans. Knowl. Data Eng., 18(10):1411-1428, 2005.
Christen, P. A Survey of Indexing Techniques for Scalable Record Linkage and Deduplication. IEEE Trans.
Knowl. Data Eng., 24(9): 1537-1555, 2012.
Ferreira, A.A.; Gonçalves, M.A.; Laender, A.H.F. A Brief Survey of Automatic Methods for Author Name Disambiguation. SIGMOD Record , 41(2): 15-26, 2012.
Ferreira, A.A.; Gonçalves, M.A.; Laender, A.H.F. Disambiguating Author Names using Minimum Bibliographic Information. World Digital Libraries, 7(1): 71-84, 2014.
Florescu, D. Managing semi-structured data. ACM Queue, 3(8):18-24, 2005.
Jagadish, H.V. (ed.) Challenges and Opportunities with Big Data. White Paper, 2012. (http://www.cra.org/ccc/files/docs/init/bigdatawhitepaper.pdf)
Laender, A.H.F.; Ribeiro-Neto, B.A.; da Silva, A.S.; Teixeira, J.S. A Brief Survey of Web Data Extraction Tools.
SIGMOD Record, 31(2):84-93, 2002.
Laender, A.H.F.; da Silva, A.S. Cooperative Research on Web Data Management at UFMG and UFAM - A Brief Report. In Proc. of LA-WEB 2008, 144-150.
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Dados da Web
A Web constitui hoje um repositório universal de
dados, mas:
a quantidade de sítios existentes e o volume de
dados disponível é muito grande
a informação está espalhada e desorganizada
os sítios estão cada vez mais complexos para
serem navegados
a complexidade torna difícil consultar ou manipular
dados de múltiplas fontes
Recuperação de informação na Web ainda
limitada à busca por palavras-chave e navegação
entre páginas (“browsing”)
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
<book>
<title>
Data on the Web: From Relations to
Semistructured Data and XML
</title>
<author>
Serge Abiteboul
</author>
<author>
Peter Buneman
</author>
<author>
Dan Suciu
</author>
<publisher>
Morgan Kaufmann Series in Data
Management Systems
</publisher>
<listprice>
71.95
</listprice>
<price>
43.99
</price>
<instock>
2
</instock>
<edition>
Hardcover
</edition>
</book>
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Características dos Dados da Web
Disponíveis através de documentos textuais
Utilizados apenas para “consumo humano”
Constantemente alterados
Estrutura implícita e não-declarada dados
semi-estruturados
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Dados Semi-Estruturados
Esquema geralmente extenso e definido a
posteriori
Esquema frequentemente ignorado ao se
efetuar consultas
Esquema evolui com os dados
Distinção entre dados e esquema obscura
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Exemplo de Dados Semi-Estruturados
Arquivo BibTex
@INPROCEEDINGS{CWLL2009,
author = {Yi Chen and Wei Wang and Zivang Liu and Xuemin Lin}, title = {Keyword Search on Structured and Semi-structured Data},
booktitle = {Proceedings of the 35th SIGMOD International Conference on Management of Data}, year = {2009},
pages = {1005-1010},
address = {Providence, Rhode Island, USA}, isbn = {978-1-60558-551-2} }
@BOOK{BYRN2011,
author = {Ricardo A. Baeza-Yates and Berthier A. Ribeiro-Neto},
title = {Modern Information Retrieval - the concepts and technology behind search, Second edition}, publisher = {Pearson Education},
year = {2011}, isbn = {978-0-321-41691-9} }
@ARTICLE{FLWZ2010,
author = {Jianhua Feng and Guoliang Li and Jianyong Wang and Lizhu Zhou},
title = {Finding and ranking compact connected trees for effective keyword proximity search in XML documents}, journal = {Information Systems},
year = {2010}, volume = {35}, number = {2}, pages = {186-203}, doi = {http://dx.doi.org/10.1016/j.is.2009.05.004}, issn = {0306-4379} }
Exemplo de Dados Semi-Estruturados
Página da DBLP
Web x Bancos de Dados
Sítios e aplicações da Web necessitam de facilidades para
gerência de dados:
Sítios são hoje gerados praticamente a partir de bancos de
dados (páginas dinâmicas)
Serviços disponíveis são cada vez mais diversificados (ex.,
Facebook, Twitter, YouTube, Instagram, Amazon, Uber,
Airbnb, etc.)
A Web oferece inúmeras oportunidades para uso da
tecnologia de bancos de dados:
Bancos de dados são geralmente bem projetados, os dados
seguem uma estrutura rígida e são manipulados em um
ambiente controlado
A Web é constantemente alterada, os dados encontram-se
distribuídos por diferentes fontes e são publicados em vários
formatos
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Web x Bancos de Dados
Arquitetura das Aplicações
Cliente
Cliente
Cliente
Servidor
Rede
Aplicações de Banco de Dados
Arquitetura Cliente-Servidor
Cliente
Cliente
Cliente
Servidor
Servidor
Servidor
Mediador
Mediador
Aplicações Web
Arquitetura Multi-Camada
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Três Visões da Web (sic Juliana Freire)
Web visual
HTML+HTTP
HTML: indica como os dados são apresentados
Usuários podem apenas
navegar
pelos dados
Web sintática
HTML+HTTP+
XML
XML: indica a estrutura dos dados
Aplicações podem
processar
os dados
Web semântica
HTML+HTTP+XML+
RDF+OWL+…
Anotações indicam o significado dos dados
Aplicações podem
entender
os dados
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência de Dados da Web
Trata de problemas relacionados a
coleta
,
extração
,
consulta
,
modelagem
,
armazenamento
,
transformação
e
integração
de dados existentes na Web de forma a gerar
novas aplicações
Abre novas perspectivas para uso da tecnologia de bancos
de dados
Requer a utilização de padrões para representação e troca
de dados (ex., XML, JSON, etc.)
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência de Dados da Web
Visão Geral
Classificação
Integração
Anotação
Modelagem
Segmentação
Extração
Coleta
Armazenamento
Busca
Consulta
Mineração
Disseminação
Publicação
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência de Dados da Web
Principais Contribuições da Tecnologia de BD
Modelos de dados
Linguagens de consulta
Técnicas para processamento de consultas
Mecanismos para manipulação de visões e
integração de dados
Mecanismos para manutenção de integridade
Estruturas para armazenamento e indexação de
grandes volumes de dados
...
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência de Dados da Web
Buzzwords Recentes
Big Data
Web Science
Data Science
Linked Data
Geodata
Multi-source Data
Web Data Mining
Big Data Analytics
Big Data: Como Processar Eficientemente?
Principais Desafios
?
The Big Data Pipeline
Integração,
Agregação e
Representação
Busca
Análise
...
Recomendação
Mineração
Aquisição de
Dados
Extração e
Higienização
Modelagem e
Transformação
Jagadish, H.V. (ed.) Challenges and Opportunities with Big Data. White Paper, 2012. (http://www.cra.org/ccc/files/docs/init/bigdatawhitepaper.pdf)
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência de Dados da Web
Ambiente DEByE
Laender, A.H.F.; Silva, A.S.; Golgher, P.B.; Ribeiro-Neto, B.A.; Evangelista Filha, I.M.R.; Magalhães, K.V. The Debye Environment for Web Data Management. IEEE Internet Computing 6(4): 60-69, 2002.
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência de Dados da Web
Ambiente Web-DL
Calado, P.; Gonçalves, M.A.; Fox, E.A.; Ribeiro-Neto, B.A.; Laender, A.H.F.; Silva, A.S.; Reis, D.C.; Roberto, P.A.; Vieira, M.V.; Lage, J.P. The Web-DL Environment for Building Digital Libraries from the Web. Proc. of JCDL, 2003, pp. 346-357.
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência de Dados da Web
Análise Geográfica da Produção em CC
Menezes, G.V., Ziviani, N., Laender, A.H.F, Almeida, V.A.F. A Geographical Analysis of Knowledge Production in Computer Science. Proc. of WWW, 2009, pp. 1041-1050.
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência de Dados da Web
Evolução de Redes de Comunidades Científicas
Benevenuto, F.; Laender, A.H.F. ; Alves, B.L. How Connected are the ACM SIG Communities? SIGMOD
Record 44(4): 57-63, 2015.
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência
de Dados da Web
Análise da Produção Científica em CC na AL
Delgado-Garcia, J.F.; Laender, A.H.F.; Meira Jr., W. Analyzing the Coauthorship Networks of Latin American Computer Science Research Groups. Proc. of LA-WEB, 2014, pp. 77-81.
UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br
Gerência
de Dados da Web
Evolução da Rede de Coautoria Brasileira em CC
1994-2003
Cg:2705 (89%), d:19, l: 6,74
2004-2013
Cg:10106 (98%), d:12, l: 5,18
Delgado-Garcia, J.F. Uma Análise da Produção Científica em Ciência da Computação na América Latina. Dissertação de Mestrado, UFMG, 2015.