• Nenhum resultado encontrado

Gerenciamento de Dados em Bases Heterogêneas. Claudia Bauzer Medeiros Instituto de Computação UNICAMP ic.unicamp.br/~.br/~cmbm

N/A
N/A
Protected

Academic year: 2021

Share "Gerenciamento de Dados em Bases Heterogêneas. Claudia Bauzer Medeiros Instituto de Computação UNICAMP ic.unicamp.br/~.br/~cmbm"

Copied!
46
0
0

Texto

(1)

Gerenciamento de Dados em Bases Heterogêneas

Claudia Bauzer Medeiros Instituto de Computação – Instituto de Computação –

UNICAMP UNICAMP

www www . . ic ic . . unicamp unicamp .br/~ .br/~ cmbm cmbm

(2)

Roteiro

• Problemas de heterogeneidade

• Heterogeneidade e Interoperabilidade

• Alguns tipos de solução

• Linhas de pesquisa atuais

• Conclusões

(3)

Conclusões

• Sempre haverá dados heterogêneos

• Há várias formas de integrá-los

• Dados+sistemas heterogêneos causam problema de interoperabilidade

• Soluções baseadas em

– Buscar consenso (modelos, visões, XML) – Desenvolver tradutores/mediadores

A heterogeneidade aparece onde menos se esperaA heterogeneidade aparece onde menos se espera

(4)

Percepções Distintas

• Relativismo semântico

• Multiplicidade de representações de um mesmo problema

– diferentes usuários modelam o mesmo pedaço do mundo real de maneiras distintas, de acordo com suas percepções

aplicações podem modelar os elementos de maneiras distintas

(5)

O que é isto?

SEQADV 13PK ASP C 418 SWS P07378 GLU 418 CONFLICT SEQADV 13PK ARG D 98 SWS P07378 ALA 98 CONFLICT SEQADV 13PK ASP D 418 SWS P07378 GLU 418 CONFLICT

SEQRES 1 A 415 GLU LYS LYS SER ILE ASN GLU CYS ASP LEU LYS GLY LYS

SEQRES 2 A 415 LYS VAL LEU ILE ARG VAL ASP PHE ASN VAL PRO VAL LYSSEQRES 3 A 415 ASN GLY LYS ILE THR ASN ASP TYR ARG ILE ARG SER ALASEQRES 4 A 415 LEU PRO THR LEU LYS LYS VAL LEU THR GLU GLY GLY SERSEQRES 5 A 415 CYS VAL LEU MET SER HIS LEU GLY ARG PRO LYS GLY ILESEQRES 6 A 415 PRO MET ALA GLN ALA GLY LYS ILE ARG SER THR GLY GLYSEQRES 7 A 415 VAL PRO GLY PHE GLN GLN LYS ALA THR LEU LYS PRO VAL

(6)
(7)

O que é heterogeneidade?

• Grego (heter + genos) = (diferente + tipo,raça)

• Latim (heterogeneitas)

• Sinonimos = disparidade (latim disparilitas), ou seja, com problemas de paridade

(8)

O que é heterogeneidade?

• 17

• Dezessete

• XVII

• 10+7

São heterogêneos?

(9)

O que é heterogeneidade?

17 e 17

(10)

O que é heterogeneidade?

17 e 17

Conceitos (peso, idade)

Escalas de medida (anos, meses, segundos) Instrumentos de medida - precisão (barbante,

régua)

Armazenamento – Integer(2) e integer(4)

Intenção de uso – Carteira motorista, Emprego

(11)

O que é heterogeneidade?

17 e 17

(12)

O que causa heterogeneidade?

• Heterogeneidade

– Dos dados

– Dos sistemas que gerenciam os dados – Dos programas que manipulam os dados – Dos objetivos dos usuários

(13)

O que causa heterogeneidade?

Dados - Depende

- Como dado foi obtido - Por quem foi obtido - Como foi modelado - Como foi armazenado - Para que será usado - Natureza do dado

- Validade, Integridade

- Qualidade (do dado, da coleta, da modelagem etc)

=== Genealogia!

(14)

Desafios

• Modelo Integrado

• Esquemas integrados

• Metodologias de mapeamento

• Métodos de conversão de dados

• Intercâmbio e atualização de dados

• Evolução de esquemas

(15)

Interoperabilidade?

Heterogeneidade e interoperabilidade estão intimamente ligadas (atrapalham-se

mutuamente):

- sistemas/dados heterogêneos dificultam interoperabilidade

- Muitas soluções para interoperabilidade se baseiam em resolver problemas de

heterogeneidade

(16)

Interoperabilidade

Habilidade de compartilhar, interpretar e manipular informacao em bancos de dados componentes em um sistema de multiplos bancos de dados.”

Lakshmanan, Sadri and Subramanian, 1996

Medida de como/quanto usuarios, dados, software e outros recursos podem ser transferidos entre dois sistemas

Goodchild, Egenhofer and Fegeas, 1997

(17)

Aplicacoes

Interface Processos Dados

Entradas - fontes e preparo

Processamento - modelos, funcoes Saidas - visualizacao, cognicao

(18)

Interoperabilidade

Interface Processos Dados

Interface Processos Dados

(19)

Interoperabilidade

Interface Processos Dados

Interface Processos Dados Interface

RPC

Padroes Metadados

(20)

Niveis de interoperabilidade

Programador Projetista Usuario

(21)

• Gateways

• Wrappers e mediadores

• Linguagens para especificar mapeamentos

• Não integram, mas dão visão integrada

Métodos para interoperar

(22)

Gateways

‰ Um gateway para cada par de SGBDs

‰ Exige representação intermediária

‰ Falta visão integrada dos dados SGBD1

DB1

Gateway SGBD2

DB2 Applicação

(23)

Wrappers e Mediadores

‰ Exige implementação de tradutores

‰ Geração automática de wrappers DB1

DB2 Wrapper

DB2 DB1 Wrapper

Mediator

Aplicação Visão integrada

Modelo padrão

(24)

Linguagens para Tradução e Mapeamentos

DB1

Tradutor DB2

DB2 Tradutor DB1

Integrador

Applicação

Especificação de

mapeamento Especificação

de

mecanismos de integração

(25)

Taxonomia de heterogeneidade

• De dados

– Estrutural

• Conflitos de dados

• Conflitos de esquema – atributos, relações

– Semântica

• De esquema

– Estrutural – nomes de tabelas, atributos, restrições – De atributos – nomes, valores default

(26)

Conflitos de dados

• Dados com erros

– Incorretos (erro de inserção) – Obsoletos

• Problemas de representação

– Expressões – Unidades – Precisão

(27)

Mapeamentos

‰ VendReg(Numvend, Nome, Dept, Numregiao...)

‰ Vendtrab(Numvend, Nome, Dept)

Regiao(Numregiao,Nomeregiao, Numvend)

ETC Mais de 20 tipos de mapeamento

trabalha

Vendedor Regiao

(28)

Conflitos esquema-dados (Lakshmanan et al., 1996)

SalInfo

Category Dept SalFloor

Prof CS 60,000

Assoc Prof CS 50,000

Prof Math 65,000

Assoc Prof Math 55,000 Univ-A

SalInfo

Category CS Math

Prof 60,000 65,000

Assoc Prof 50,000 55,000 Univ-B

CS

Category SalFloor

Prof 60,000

Assoc Prof 50,000 Math

Category SalFloor

Prof 65,000

Assoc Prof 55,000 Univ-C

(29)

Complexidade e heterogeneidade

• Tipos “complexos” de dados apresentam mais oportunidades para heterogeneidade

• Complexidade => dificuldade de interpretação

• Dados geográficos

– Escala, Precisão, Forma de encarar um fenômeno, Modelagem matemática

– (Ex – Biodiversidade)

• Dados genômicos

– Falhas, problemas de extração

(30)

Processo de Integração

• Identificar

– similaridades

– Diferenças entre os elementos dos diferentes esquemas

– conjuntos de elementos distintos que são

relacionados entre si por alguma propriedade semântica

• Converter dados (padrões?)

(31)

Conflitos de nome

• Primeiros conflitos a serem identificados

• Homônimos: mesmo nome, conceitos diferentes

• Sinônimos: nomes diferentes, conceitos iguais

Solução: alterar um dos nomes

(32)

Conflitos semânticos

• Conflitos semânticos

– mesmo conceito

– conjuntos que se sobrepõem

• Conflitos estruturais

– mesmo conceito

– estruturas diferentes

Solução: classe

Solução: generalização

(33)

33

O que mais causa problemas?

• Sistemas heterogêneos (mesmas aplicações)

• Sistemas federados (autonomia)

• Sistemas legados

• Web

(34)

34 SBDF

...

SBD SBD SBD

Componente 1 Componente 2 Componente n

SGBD 1 SGBD 2 (centralizado) (distribuído)

BD 1 BD 2-1 BD 2-2 ...

Sistema de bancos de dados

federados

(35)

35

Problemas de SBDF

• Autonomia

– de projeto

– de comunicação – de execução

– de associação

• Heterogeneidade

– Identificação – Tratamento

• Distribuição

• Segurança

• Recuperação

(36)

36

Sistemas legados

• Sistemas antigos, grandes e autônomos

• Independentes de SGBD

• Resistentes a evoluções e modificações Converter ou jogar for a?

(37)

37

Arquitetura sistemas legados

Sistema de

Informação Usuário Final c:\

c:\

Sistema de Interface Interface do Usuário

Módulos de Aplicações

Serviços de Banco de Dados

Banco de Dados

totalmente decomposta

(38)

38

Arquitetura sistemas legados

Sistema de

Informação Usuário Final c:\

c:\

Sistema de Interface Interface do Usuário

Aplicações e

Serviços de Banco de Dados

Banco de Dados

parcialmente decomposta

(39)

39

Arquitetura sistemas legados

Sistema de

Informação Usuário Final c:\

c:\

Interface, Aplicações e Serviços de Banco de Dados

Banco de Dados

não

decomposta

(40)

40

Abordagens para sistemas legados

• Migração do código legado

• Construção de um novo sistema

• Conversão de esquema

(41)

41

Web – não é BD

• Todo mundo gera dados

• Todo mundo quer usar e compartilhar dados

• Proliferação de visões distintas

• Fontes semi-estruturadas e autônomas

• Desempenho imprevisível de consultas

• Composição de serviços?

(42)

Web - integração

• Quantas fontes acessar?

• Autonomia das fontes?

• Têm metadados?

• Dados são estruturados?

• Permitem atualizações?

• Genealogia?

(43)

Web – XML

<biblioteca>

<livro> <titulo> Meu livro </titulo>

<autor> Joao </autor>

<autor> Maria </autor>

<editora> Addison </editora>

<ano> 2004 </ano>

</livro>

<livro> …</livro> … </biblioteca>

(44)

Web – XML

<library>

<book> <title> Meu livro </title>

<author> Joao </author>

<author> Maria </author>

<editor> Addison </editor>

<year> 2004 </year>

</book>

<book> …</book> … </library >

(45)

Web – algumas soluções

• XML (cada registro carrega sua descrição)

• RDF (cada atributo carrega sua descrição)

• Ontologias (“dicionários”que mostram relacionamentos entre conceitos)

• Metadados (descritores armazenados à parte)

Problema – são novos tipos de dados!!!

(46)

Conclusões

• Sempre haverá dados heterogêneos

• Há várias formas de integrá-los

• Dados+sistemas heterogêneos causam problema de interoperabilidade

• Soluções baseadas em

– Buscar consenso (modelos, visões, XML) – Desenvolver tradutores/mediadores

A heterogeneidade aparece onde menos se esperaA heterogeneidade aparece onde menos se espera

Referências

Documentos relacionados

O que acontecerá, assim que você montar o seu Gerador e colocar na posição correta? Visivelmente, nada! Entretanto, no nível do invisível, no mundo intangível da

 Numéricos das das Propriedades Propriedades do do Ar Ar Úmido, Úmido, Cartas Cartas Psicrométricas, Psicrométricas, Processos Processos Psicrométricos, Psicrométricos,

Assim, a estrutura dúplex é metaestável, sendo obtida na temperatura ambiente após resfriamento que impeça as transformações de fase, particularmente de ferrita em sigma, como

Os Programas Integrais da Política de Assistência Estudantil do IFAM são compostos por um grupo de Programas, cujos Projetos estão voltados para as suas

Além disso, a falta de esclarecimento de toda a comunidade escolar sobre sua importância para a melhoria do desempenho dos educandos também contribuiu para que os pais não o

O trabalho intitulado PROJETO DE INTERVENÇÃO SOBRE A IMPLANTAÇÃO DA SISTEMATIZAÇÃO DA ASSISTÊNCIA DE ENFERMAGEM (SAE) PARA PACIENTES COM DIABETES MELLITUS NO

Dessa forma, não tem como enfrentar a prática do trabalho infantil se não for por meio da promoção de políticas públicas tais como: educação de qualidade, saúde, pleno emprego aos

Os resultados permitiram concluir que a cultivar Conquista apresentou a maior produtividade de grãos, no conjunto dos onze ambientes avaliados; entre as linhagens