• Nenhum resultado encontrado

Tópicos Especiais em Ciência da Computação: Gerência de Dados da Web DCC851 Introdução

N/A
N/A
Protected

Academic year: 2021

Share "Tópicos Especiais em Ciência da Computação: Gerência de Dados da Web DCC851 Introdução"

Copied!
7
0
0

Texto

(1)

Tópicos Especiais em Ciência da

Computação: Gerência de Dados da Web

– DCC851 –

Introdução

Alberto H. F. Laender

2016

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Programa



Introdução



Caracterização dos dados da Web



Exemplos de ambientes e aplicações que utilizam dados da Web



Modelagem e Representação de Dados Semi-Estruturados



Conceitos básicos sobre orientação a objetos



Características dos dados semi-estruturados



Modelos para representação de dados semi-estruturados



XML e acessórios para gerência de dados (DTD, XML Schema, XPath)



Linguagens de consulta (Lorel, XQuery)



Extração de Dados de Fontes Textuais da W eb



Métodos tradicionais de extração



Métodos baseados em árvores DOM



Métodos probabilísticos para extração em texto



Casamento de Dados



Objetivos e desafios



Etapas do processo de casamento de dados



Indexação/blocagem, seleção de casadores,

combinação de casadores



Desambiguação de nomes e descritores

Avaliação



Trabalhos práticos e tarefas individuais: 50 pontos



Projeto final: 40 pontos



Proposta: 10 pontos (a ser apresentada pelo aluno

conforme calendário a ser definido)



Relatório: 30 pontos (a ser entregue no final do

semestre)



Participação: 10 pontos

Bibliografia Preliminar



Textos Básicos

 Abiteboul, S.; Buneman, P.; Suciu, D. Data on the Web: From Relations to Semistructured Data and XML. Morgan Kaufmann, 2000.

 Christen, P. Data Matching: Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate

Detection. Springer, Berlin, 2012.

 Liu, B. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Second Edition, Springer, Berlin, 2011.



Artigos de Referência

 Chang, C.-H.; Kayed, M.; Girgis, M. R.; Shaalan, K. F. A Survey of Web Information Extraction Systems. IEEE

Trans. Knowl. Data Eng., 18(10):1411-1428, 2005.

 Christen, P. A Survey of Indexing Techniques for Scalable Record Linkage and Deduplication. IEEE Trans.

Knowl. Data Eng., 24(9): 1537-1555, 2012.

 Ferreira, A.A.; Gonçalves, M.A.; Laender, A.H.F. A Brief Survey of Automatic Methods for Author Name Disambiguation. SIGMOD Record , 41(2): 15-26, 2012.

 Ferreira, A.A.; Gonçalves, M.A.; Laender, A.H.F. Disambiguating Author Names using Minimum Bibliographic Information. World Digital Libraries, 7(1): 71-84, 2014.

 Florescu, D. Managing semi-structured data. ACM Queue, 3(8):18-24, 2005.

 Jagadish, H.V. (ed.) Challenges and Opportunities with Big Data. White Paper, 2012. (http://www.cra.org/ccc/files/docs/init/bigdatawhitepaper.pdf)

 Laender, A.H.F.; Ribeiro-Neto, B.A.; da Silva, A.S.; Teixeira, J.S. A Brief Survey of Web Data Extraction Tools.

SIGMOD Record, 31(2):84-93, 2002.

 Laender, A.H.F.; da Silva, A.S. Cooperative Research on Web Data Management at UFMG and UFAM - A Brief Report. In Proc. of LA-WEB 2008, 144-150.

(2)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Dados da Web



A Web constitui hoje um repositório universal de

dados, mas:



a quantidade de sítios existentes e o volume de

dados disponível é muito grande



a informação está espalhada e desorganizada



os sítios estão cada vez mais complexos para

serem navegados



a complexidade torna difícil consultar ou manipular

dados de múltiplas fontes



Recuperação de informação na Web ainda

limitada à busca por palavras-chave e navegação

entre páginas (“browsing”)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

<book>

<title>

Data on the Web: From Relations to

Semistructured Data and XML

</title>

<author>

Serge Abiteboul

</author>

<author>

Peter Buneman

</author>

<author>

Dan Suciu

</author>

<publisher>

Morgan Kaufmann Series in Data

Management Systems

</publisher>

<listprice>

71.95

</listprice>

<price>

43.99

</price>

<instock>

2

</instock>

<edition>

Hardcover

</edition>

</book>

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Características dos Dados da Web



Disponíveis através de documentos textuais



Utilizados apenas para “consumo humano”



Constantemente alterados



Estrutura implícita e não-declarada  dados

semi-estruturados

(3)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Dados Semi-Estruturados



Esquema geralmente extenso e definido a

posteriori



Esquema frequentemente ignorado ao se

efetuar consultas



Esquema evolui com os dados



Distinção entre dados e esquema obscura

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Exemplo de Dados Semi-Estruturados

Arquivo BibTex

@INPROCEEDINGS{CWLL2009,

author = {Yi Chen and Wei Wang and Zivang Liu and Xuemin Lin}, title = {Keyword Search on Structured and Semi-structured Data},

booktitle = {Proceedings of the 35th SIGMOD International Conference on Management of Data}, year = {2009},

pages = {1005-1010},

address = {Providence, Rhode Island, USA}, isbn = {978-1-60558-551-2} }

@BOOK{BYRN2011,

author = {Ricardo A. Baeza-Yates and Berthier A. Ribeiro-Neto},

title = {Modern Information Retrieval - the concepts and technology behind search, Second edition}, publisher = {Pearson Education},

year = {2011}, isbn = {978-0-321-41691-9} }

@ARTICLE{FLWZ2010,

author = {Jianhua Feng and Guoliang Li and Jianyong Wang and Lizhu Zhou},

title = {Finding and ranking compact connected trees for effective keyword proximity search in XML documents}, journal = {Information Systems},

year = {2010}, volume = {35}, number = {2}, pages = {186-203}, doi = {http://dx.doi.org/10.1016/j.is.2009.05.004}, issn = {0306-4379} }

Exemplo de Dados Semi-Estruturados

Página da DBLP

Web x Bancos de Dados



Sítios e aplicações da Web necessitam de facilidades para

gerência de dados:



Sítios são hoje gerados praticamente a partir de bancos de

dados (páginas dinâmicas)



Serviços disponíveis são cada vez mais diversificados (ex.,

Facebook, Twitter, YouTube, Instagram, Amazon, Uber,

Airbnb, etc.)



A Web oferece inúmeras oportunidades para uso da

tecnologia de bancos de dados:



Bancos de dados são geralmente bem projetados, os dados

seguem uma estrutura rígida e são manipulados em um

ambiente controlado



A Web é constantemente alterada, os dados encontram-se

distribuídos por diferentes fontes e são publicados em vários

formatos

(4)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Web x Bancos de Dados

Arquitetura das Aplicações

Cliente

Cliente

Cliente

Servidor

Rede

Aplicações de Banco de Dados

Arquitetura Cliente-Servidor

Cliente

Cliente

Cliente

Servidor

Servidor

Servidor

Mediador

Mediador

Aplicações Web

Arquitetura Multi-Camada

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Três Visões da Web (sic Juliana Freire)



Web visual



HTML+HTTP



HTML: indica como os dados são apresentados



Usuários podem apenas

navegar

pelos dados



Web sintática



HTML+HTTP+

XML



XML: indica a estrutura dos dados



Aplicações podem

processar

os dados



Web semântica



HTML+HTTP+XML+

RDF+OWL+…



Anotações indicam o significado dos dados



Aplicações podem

entender

os dados

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência de Dados da Web



Trata de problemas relacionados a

coleta

,

extração

,

consulta

,

modelagem

,

armazenamento

,

transformação

e

integração

de dados existentes na Web de forma a gerar

novas aplicações



Abre novas perspectivas para uso da tecnologia de bancos

de dados



Requer a utilização de padrões para representação e troca

de dados (ex., XML, JSON, etc.)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência de Dados da Web

Visão Geral

Classificação

Integração

Anotação

Modelagem

Segmentação

Extração

Coleta

Armazenamento

Busca

Consulta

Mineração

Disseminação

Publicação

(5)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência de Dados da Web

Principais Contribuições da Tecnologia de BD



Modelos de dados



Linguagens de consulta



Técnicas para processamento de consultas



Mecanismos para manipulação de visões e

integração de dados



Mecanismos para manutenção de integridade



Estruturas para armazenamento e indexação de

grandes volumes de dados

...

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência de Dados da Web

Buzzwords Recentes

Big Data

Web Science

Data Science

Linked Data

Geodata

Multi-source Data

Web Data Mining

Big Data Analytics

Big Data: Como Processar Eficientemente?

Principais Desafios

?

The Big Data Pipeline

Integração,

Agregação e

Representação

Busca

Análise

...

Recomendação

Mineração

Aquisição de

Dados

Extração e

Higienização

Modelagem e

Transformação

Jagadish, H.V. (ed.) Challenges and Opportunities with Big Data. White Paper, 2012. (http://www.cra.org/ccc/files/docs/init/bigdatawhitepaper.pdf)

(6)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência de Dados da Web

Ambiente DEByE

Laender, A.H.F.; Silva, A.S.; Golgher, P.B.; Ribeiro-Neto, B.A.; Evangelista Filha, I.M.R.; Magalhães, K.V. The Debye Environment for Web Data Management. IEEE Internet Computing 6(4): 60-69, 2002.

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência de Dados da Web

Ambiente Web-DL

Calado, P.; Gonçalves, M.A.; Fox, E.A.; Ribeiro-Neto, B.A.; Laender, A.H.F.; Silva, A.S.; Reis, D.C.; Roberto, P.A.; Vieira, M.V.; Lage, J.P. The Web-DL Environment for Building Digital Libraries from the Web. Proc. of JCDL, 2003, pp. 346-357.

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência de Dados da Web

Análise Geográfica da Produção em CC

Menezes, G.V., Ziviani, N., Laender, A.H.F, Almeida, V.A.F. A Geographical Analysis of Knowledge Production in Computer Science. Proc. of WWW, 2009, pp. 1041-1050.

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência de Dados da Web

Evolução de Redes de Comunidades Científicas

Benevenuto, F.; Laender, A.H.F. ; Alves, B.L. How Connected are the ACM SIG Communities? SIGMOD

Record 44(4): 57-63, 2015.

(7)

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência

de Dados da Web

Análise da Produção Científica em CC na AL

Delgado-Garcia, J.F.; Laender, A.H.F.; Meira Jr., W. Analyzing the Coauthorship Networks of Latin American Computer Science Research Groups. Proc. of LA-WEB, 2014, pp. 77-81.

UFMG Database Group - http:/ /www.lbd.dcc.ufmg.br

Gerência

de Dados da Web

Evolução da Rede de Coautoria Brasileira em CC

1994-2003

Cg:2705 (89%), d:19, l: 6,74

2004-2013

Cg:10106 (98%), d:12, l: 5,18

Delgado-Garcia, J.F. Uma Análise da Produção Científica em Ciência da Computação na América Latina. Dissertação de Mestrado, UFMG, 2015.

Resumo



Dados da Web



Geralmente disponíveis através de documentos textuais e

utilizados apenas para “consumo humano”



Constantemente alterados



Estrutura implícita e não-declarada  dados semi-estruturados



Dados semi-estruturados



Esquema geralmente extenso e definido a posteriori, é muitas

vezes ignorado e evolui com os dados



Distinção entre dados e esquema obscura



Gerência de dados da Web



Trata da coleta, extração, consulta, modelagem, armazenamento,

transformação e integração de dados existentes na Web



Requer a utilização de padrões para representação e troca de

dados entre aplicações

Referências

Documentos relacionados

O capitalismo decadente levou ao povo galego a umha situaçom de retrocesso social mediante umha autêntica ofensiva reaccionária. A suba do IVE, a

FILETTO DI POLLO ORGANICO AI FUNGHI FRESCHI CON PURE 99,00 FILÉ DE FRANGO ORGÂNICO AO MOLHO FUNGHI COM PURÊ DE BATATAS SCALOPPINE CON SALSA DI MARSALA I VERDURE 106,00 ESCALOPE

Fábio Gonçalves, em estudo sobre o enxerto xenógeno bovino composto usado em alvéolos dentais pós-extração e levantamento de seio maxilar, através de análise

Roma, Thomas Müntzer e os camponeses anabatistas não se portaram em parede, e as “rebeliões das senzalas” - para tomarmos da expressão de Clóvis Moura 4 - do mesmo

dados em sessões, ou gerar logs de informação (de fato, o R estará sendo executado em um computador remoto); se você hospedar seu aplicativo em um serviço como shinyapps.io,

Dada a relevância da temática nos cursos de formação de professores, a fim de se problematizar as questões culturais, questionando e refletindo sobre as diferenças e

Para que sejam efetivos, os mecanismos relativos ao mercado e aos pagamentos e os regimes de supervisão e regulação de sistemas de pagamentos exigem um quadro legal que

O Ministério da Agricultura e Pescas foi criado pelo Decreto- Lei n.º 7/2007, de 5 de Setembro, que aprovou a Orgânica do IV Governo Constitucional, prevendo-se no seu artigo 30.º