Professor Doutor Roberto Henriques
ETL
Resumo
O que é um Data Warehouse?
Características de um Data Warehouse BD operacionais vs Data Warehouses Arquitectura de um Dw
Casos de estudo
O que é um Data Warehouse?
A data warehouse is a “subject-oriented, integrated, time varying, non-volatile collection of data that is used primarily in organizational decision making.”
Inmon, W.H., Building the Data Warehouse. John Wiley, 1992.
A data warehouse is a system that retrieves and consolidates data periodically from the source systems into a dimensional or normalized data store. It usually keeps years of history and is queried for business intelligence or other analytical activities. It is typically updated in batches, not every time a transaction happens in the source system.
O que é um Data Warehouse? (II)
A data warehouse is a system that extracts, cleans, conforms, and delivers source data into a dimensional data store and then supports and implements querying and analysis for the purpose of decision making.
O que é um Data Warehouse? (III)
– Repositório de snapshots de dados transaccionais proveniente de sistemas de produção das empresas
– Fornece uma perspectiva histórica da informação
6 O que um DW NÃO é...
• Um produto
Não se pode comprar um DW
Inclui: análise de sistemas, manipulação e limpeza de dados, modelação dimensional e acesso aos mesmos
• Uma linguagem
Várias linguagens estão envolvidas no processo • Um projecto
Um Dw é normalmente constituido por várias fases e projectos Data Marts é normalmente considerado como um projecto. • Um modelo de dados
Sem dados não existe Dw
• Uma cópia do sistema transaccional
Tal como apenas o modelo de dados não é um Dw também a migração dos dados não é um Dw
Volume de dados
Até 20 Gbytes
– Data Warehouse de pequena dimensão; podemos utilizar um bom computador De 20 a 100 GBytes
– Data Warehouse de média dimensão; precisamos de um computador bastante poderoso, ou um servidor de média gama
De 100 GBytes a 1 TByte
– Data Warehouse de grande dimensão; precisamos de servidores poderosos, normalmente com processamento paralelo
Superior a 1 Tbyte
Business Intelligence?
Características de um Data Warehouse
subject-oriented
integrated
time-variant
nonvolatile
Dw: subject-oriented (Orientado a um tema)
Um Dw está organizado de acordo com os tema de uma empresa (vendas, produto, cliente)
Foca-se na modelação e análise dos dados para os decisores
Dados guardados são orientados para o apoio à decisão em vez de dados orientados à aplicação Operacional
Dw
empréstimos cartões contas clientes produto vendedor actividadeDw: Integration (Integrados)
Dados provém de fontes diferentes e heterogéneas
Pré-processamento dos dados é feita para garantir consistência nos mesmos Visão única dos dados
RDBMS
Aplicações
Ficheiros
Dw: time variant (dependente no tempo)
Dados são exactos apenas em determinado ponto ou intervalo no tempo Dados estão associados (implícita ou explicitamente) a um período temporal Dados representam uma série de snapshots
Dw: non volatile (não volátil)
Dados são actualizados com uma periodicidade definida Novos dados são adicionados à Dw, em vez de actualizados Dados não são apagados
BD operacionais vs Data Warehouses
Dados Operacionais Dados da Data Warehouse
Dados actualizados Contem registo histórico
Dados detalhados Dados agregados
Dados são dinâmicos Dados são estáticos
Acesso por transacções
pré-definidas Acesso por queries ad hoc e relatórios periódicos
Orientados à aplicação Orientados a um tema
Acessos de leitura/escrita Acessos só de leitura Acesso a poucos registos de cada
vez Muitos registos em cada acesso
Dados actualizados em tempo real Carregamentos periódicos de mais dados Estrutura optimizada para
actualizações Estrutura optimizada para queries complexas
Event-driven: os processos geram
Arquitectura de um Dw II ETL Fontes externas Operational DB Análise Query/Reporting Data Mining Metadados
Fontes de dados Ferramentas Servidores OLAP
Data Mart
É um sub-conjunto de dados de um DW
Normalmente é criado para dar resposta a um conjunto específico de
trabalhadores (Data Warehouse departamental)
Os utilizadores de um Data Mart esperam que os dados sejam
apresentados em termos que lhes sejam familiares (análise das
necessidades dos utilizadores)
Podemos então concluir que:
– Um Data Warehouse é um repositório central de dados de uma empresa, ou seja, a união de todos os Data Marts
Resumindo...
Uma data warehouse é um ambiente: – Estruturado de forma flexível
– Desenhado para a análise de dados permanentes – Lógica e fisicamente derivados a partir de
• Múltiplas fontes • Múltiplas aplicações
– Mantido e actualizado para um longo período de tempo – Expressa em termos da organização
Casos de estudo
Vespe & Despe Leilões online Pêra & Rocha
Caso 1 : Vespe & Despe V&D Lisboa V&D Cancun V&D Rio Janeiro V&D Munique Gestor de Vendas Vendas por item e por
marca para o primeiro trimestre
Vespe & Despe é uma empresa multi-marca de roupa.
Cada marca tem um sistema transaccional diferente
Caso 1 : Vespe & Despe
Informação das vendas de cada base de dados é extraída para o Dw
V&D Lisboa V&D Cancun V&D Rio Janeiro Dw Relatório Ferramentas de Query & análise Gestor de Vendas
Caso 2 : Leilões online
O site de leilões online tem uma base de dados operacional gigante.
Sempre que o departamento de gestão pede um relatório… DB transaccional Relatório Gestão Cliente1 Cliente2 Cliente3
Caso 2 : Leilões online DB transaccional Relatório Gestão Cliente1 Cliente2 Cliente3 Dw Extract data Cliente…
Caso 3: Pêra & Rocha
A Pêra & Rocha é uma pequena emprea de frutas.
O Seu presidente, Sr. Rocha, quer expandir a empresa.
Para isso necessita do máximo de informação para tomar as decisões mais acertadas
Caso 3: Pêra & Rocha
Melhorar a qualidade dos dados carregados no Dw
Usar as ferramentas de pesquisa e análise para pesquisas ad-hoc
Dw
Ferramentas de Query
& análise Relatório Sr. Rocha
Rock &
Pear
Maçãs &
Pêras
26 Exemplos de Arquitecturas de Dw
2 camadas
Data Mart independente
Data Mart dependente e Data Store Operacional Data Mart Logico e Dw em tempo real
2 camadas
E
T
L
Dw abrangente para toda a empresa28
Data Mart independente
Data marts:Mini-warehouses
ETL separado para cada data
Data Mart dependente e Data Store Operacional
30 Data Mart Lógico e Dw em tempo real
ETL em near real time
ODS e Dw são o mesmo
Data marts não são separadas
mas views lógicas do Dw
MSSQLServer & Dw
Database
SQL Server 2008
SQL Server Analysis Services (SSAS) SQL Server Integration Services (SSIS) User Interface
SQL Server Reporting Services (SSRS) SQL Server Management Studio (SSMS) SharePoint