• Nenhum resultado encontrado

IntroducaoDW

N/A
N/A
Protected

Academic year: 2021

Share "IntroducaoDW"

Copied!
34
0
0

Texto

(1)

Professor Doutor Roberto Henriques

ETL

(2)

Resumo

O que é um Data Warehouse?

Características de um Data Warehouse BD operacionais vs Data Warehouses Arquitectura de um Dw

Casos de estudo

(3)

O que é um Data Warehouse?

A data warehouse is a “subject-oriented, integrated, time varying, non-volatile collection of data that is used primarily in organizational decision making.”

Inmon, W.H., Building the Data Warehouse. John Wiley, 1992.

A data warehouse is a system that retrieves and consolidates data periodically from the source systems into a dimensional or normalized data store. It usually keeps years of history and is queried for business intelligence or other analytical activities. It is typically updated in batches, not every time a transaction happens in the source system.

(4)

O que é um Data Warehouse? (II)

A data warehouse is a system that extracts, cleans, conforms, and delivers source data into a dimensional data store and then supports and implements querying and analysis for the purpose of decision making.

(5)

O que é um Data Warehouse? (III)

– Repositório de snapshots de dados transaccionais proveniente de sistemas de produção das empresas

– Fornece uma perspectiva histórica da informação

(6)

6 O que um DW NÃO é...

• Um produto

Não se pode comprar um DW

Inclui: análise de sistemas, manipulação e limpeza de dados, modelação dimensional e acesso aos mesmos

• Uma linguagem

Várias linguagens estão envolvidas no processo • Um projecto

Um Dw é normalmente constituido por várias fases e projectos Data Marts é normalmente considerado como um projecto. • Um modelo de dados

Sem dados não existe Dw

• Uma cópia do sistema transaccional

Tal como apenas o modelo de dados não é um Dw também a migração dos dados não é um Dw

(7)

Volume de dados

Até 20 Gbytes

– Data Warehouse de pequena dimensão; podemos utilizar um bom computador De 20 a 100 GBytes

– Data Warehouse de média dimensão; precisamos de um computador bastante poderoso, ou um servidor de média gama

De 100 GBytes a 1 TByte

– Data Warehouse de grande dimensão; precisamos de servidores poderosos, normalmente com processamento paralelo

Superior a 1 Tbyte

(8)

Business Intelligence?

(9)

Características de um Data Warehouse

subject-oriented

integrated

time-variant

nonvolatile

(10)

Dw: subject-oriented (Orientado a um tema)

Um Dw está organizado de acordo com os tema de uma empresa (vendas, produto, cliente)

Foca-se na modelação e análise dos dados para os decisores

Dados guardados são orientados para o apoio à decisão em vez de dados orientados à aplicação Operacional

Dw

empréstimos cartões contas clientes produto vendedor actividade

(11)

Dw: Integration (Integrados)

Dados provém de fontes diferentes e heterogéneas

Pré-processamento dos dados é feita para garantir consistência nos mesmos Visão única dos dados

RDBMS

Aplicações

Ficheiros

(12)

Dw: time variant (dependente no tempo)

Dados são exactos apenas em determinado ponto ou intervalo no tempo Dados estão associados (implícita ou explicitamente) a um período temporal Dados representam uma série de snapshots

(13)

Dw: non volatile (não volátil)

Dados são actualizados com uma periodicidade definida Novos dados são adicionados à Dw, em vez de actualizados Dados não são apagados

(14)

BD operacionais vs Data Warehouses

Dados Operacionais Dados da Data Warehouse

Dados actualizados Contem registo histórico

Dados detalhados Dados agregados

Dados são dinâmicos Dados são estáticos

Acesso por transacções

pré-definidas Acesso por queries ad hoc e relatórios periódicos

Orientados à aplicação Orientados a um tema

Acessos de leitura/escrita Acessos só de leitura Acesso a poucos registos de cada

vez Muitos registos em cada acesso

Dados actualizados em tempo real Carregamentos periódicos de mais dados Estrutura optimizada para

actualizações Estrutura optimizada para queries complexas

Event-driven: os processos geram

(15)
(16)

Arquitectura de um Dw II ETL Fontes externas Operational DB Análise Query/Reporting Data Mining Metadados

Fontes de dados Ferramentas Servidores OLAP

(17)

Data Mart

É um sub-conjunto de dados de um DW

Normalmente é criado para dar resposta a um conjunto específico de

trabalhadores (Data Warehouse departamental)

Os utilizadores de um Data Mart esperam que os dados sejam

apresentados em termos que lhes sejam familiares (análise das

necessidades dos utilizadores)

Podemos então concluir que:

– Um Data Warehouse é um repositório central de dados de uma empresa, ou seja, a união de todos os Data Marts

(18)

Resumindo...

Uma data warehouse é um ambiente: – Estruturado de forma flexível

– Desenhado para a análise de dados permanentes – Lógica e fisicamente derivados a partir de

• Múltiplas fontes • Múltiplas aplicações

– Mantido e actualizado para um longo período de tempo – Expressa em termos da organização

(19)

Casos de estudo

Vespe & Despe Leilões online Pêra & Rocha

(20)

Caso 1 : Vespe & Despe V&D Lisboa V&D Cancun V&D Rio Janeiro V&D Munique Gestor de Vendas Vendas por item e por

marca para o primeiro trimestre

Vespe & Despe é uma empresa multi-marca de roupa.

Cada marca tem um sistema transaccional diferente

(21)

Caso 1 : Vespe & Despe

Informação das vendas de cada base de dados é extraída para o Dw

V&D Lisboa V&D Cancun V&D Rio Janeiro Dw Relatório Ferramentas de Query & análise Gestor de Vendas

(22)

Caso 2 : Leilões online

O site de leilões online tem uma base de dados operacional gigante.

Sempre que o departamento de gestão pede um relatório… DB transaccional Relatório Gestão Cliente1 Cliente2 Cliente3

(23)

Caso 2 : Leilões online DB transaccional Relatório Gestão Cliente1 Cliente2 Cliente3 Dw Extract data Cliente…

(24)

Caso 3: Pêra & Rocha

A Pêra & Rocha é uma pequena emprea de frutas.

O Seu presidente, Sr. Rocha, quer expandir a empresa.

Para isso necessita do máximo de informação para tomar as decisões mais acertadas

(25)

Caso 3: Pêra & Rocha

Melhorar a qualidade dos dados carregados no Dw

Usar as ferramentas de pesquisa e análise para pesquisas ad-hoc

Dw

Ferramentas de Query

& análise Relatório Sr. Rocha

Rock &

Pear

Maçãs &

Pêras

(26)

26 Exemplos de Arquitecturas de Dw

2 camadas

Data Mart independente

Data Mart dependente e Data Store Operacional Data Mart Logico e Dw em tempo real

(27)

2 camadas

E

T

L

Dw abrangente para toda a empresa

(28)

28

Data Mart independente

Data marts:Mini-warehouses

ETL separado para cada data

(29)

Data Mart dependente e Data Store Operacional

(30)

30 Data Mart Lógico e Dw em tempo real

ETL em near real time

ODS e Dw são o mesmo

Data marts não são separadas

mas views lógicas do Dw

(31)
(32)

MSSQLServer & Dw

Database

SQL Server 2008

SQL Server Analysis Services (SSAS) SQL Server Integration Services (SSIS) User Interface

SQL Server Reporting Services (SSRS) SQL Server Management Studio (SSMS) SharePoint

(33)
(34)

Referências

Documentos relacionados

It is also unfortunate that such false information is still circulated in Brazil after years of efforts to improve the Health Information Systems, to disseminate data from the

f) Fotocópia da Autorização/Procuração para o Banco Central que deve ser preenchida com LETRA LEGÍVEL e assinada conforme documento de identidade por todos os integrantes

Wilken (2014a), Simonsen (2008) e Farman (2014) fornecem-nos para tal pistas que permitem sugerir como peculiaridade das práticas presentes nos jogos locativos a sua

Objective – To study the association of the polymorphism of the region -675 of the gene SERPINE1 (PAI-1) and the plasminogen plasma levels (PAI-1) with the cardiovascular

As far as data awareness is concerned, it is important that the system knows what is around it and what is the concept in which it is working. Data awareness refers

O presente artigo é o resultado da experiência, da autora, com os trabalhadores temporários em educacao, e dos debates realizados recentemente no curso de Doutorado na PUC/RS e

No entanto, Oliveira e colaboradores (2011) relataram a utilização de um comprimento de onda de 290nm para amostras com menor concentração de fármaco. Porém em nenhum

O problema investigado foi: Como professores utilizam TIC como recurso didático nos Anos Iniciais do Ensino Fundamental em escolas públicas de Ubá/MG.. Neste sentido,