Data Warehouse
Profa. Maria Camila Nardini Barioni
camila.barioni@ufabc.edu.br
Bloco B - sala 937
2° trimestre de 2011 Pós-graduação em Ciência da Computação
CCM-202 Sistemas de Banco de Dados
CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Introdução
Negócio
Ambiente de negócio em mudança constante Análise complexa — questões impossíveis de se prever
Alto volume de dados e necessidade de resposta rápida
2
Introdução
O Ambiente de Dados
Dados – Componentes básicos Informação – Dados em um contexto Contexto – Situação a ser analisada
Conhecimento – informação, que permite tomar
decisões adequadas,
Vantagem competitiva
Banco de Dados – Coleção de dados
logicamente relacionados para uma finalidade
3 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Introdução
Como obter a informação certa?
Dados dos Clientes
Dados de Compras
Comentários e
Reclamações de Clientes
Dados de
Levantamentos
Pedidos de Serviço
Dados de
Produtos
Disponíveis
4 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011Introdução
Surge o Data Warehouse
Integrar dados de múltiplas fontes
Facilitar o processo de análise sem impacto para os dados operacionais
Obter informação de qualidade Atender diferentes tipos de usuários
Flexibilidade e agilidade para realizar novas análises
BDs Operacionais
DW
SAD OLAP Data
Mart
Data Warehouse
Definição
Um data warehouse (ou
armazém/depósito de dados) é uma
coleção de dados:
orientada por assuntos,
integrada,
variante no tempo,
e não-volátil,
Tem por objetivo dar suporte aos
Definição
Orientada por assuntos
Refere-se aos negócios da empresa
Ao contrário dos sistemas transacionais que focam
no controle operacional do dia-a-dia
Exemplo:numa empresa de telecom, o principal
assunto é o cliente, o arquiteto de DW deve desenhar o modelo, dividindo as visões de acordo com o que o analista quer ver
8 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Definição
Integrada
Utiliza todos os outros sistemas de informação da
empresa, sincronizando os dados e colocando-os no mesmo padrão
Os dados são de vários sistemas da empresa, e até,
dados externos, como a cotação do dólar
Problemas que podem surgir na hora da análise:
geralmente os dados não estão padronizados
exemplo: atributo sexo (pode ser M ou F, 0 ou 1) Para isto:
na fase de ETL (Extração, Transformação e Carga), um único
padrão
9 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Definição
Não-volátil
A atualização dos dados não implica em
sobreposição
No DW, acontecem somente cargas de dados e
consultas - há somente selects e inserts, e não há updates
10 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Definição
Variáveis com o tempo
O DW retrata a situação que estamos analisando, num determinado ponto do tempo
O DW mantém características de base de dados temporal A chave do registro contém um elemento de tempo Analogia com as fotografias
Pegue uma fotografia sua, quando recém nascido, depois, pegue outra quando você tinha 5 anos, e compare
Com certeza muitas modificações ocorreram, mas ela retrata exatamente a sua situação naquele exato momento do tempo
Guardamos fotografias dos assuntos em determinados pontos do tempo, e com isso é possível poder traçar uma análise histórica e comparativa entre os fatos
11 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Arquitetura
12 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Propriedades
Dimensão
Mega, Giga, Tera Bytes - Não existe uma fronteira fixa
A informação é guardada para análise:
de forma a poder ser obtida de forma mais eficiente separada do sistema operacional
Suportam sistemas sofisticados de análise on-line
Análise Multi-dimensional
Integrar informação proveniente de mais que um
sistema operacional.
Integrar informação sobre salários, finanças, marketing,
produção.
Possibilidade de cruzar informação
13 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Sumarização dos dados
Muitas consultas e relatórios são agregações
baseados em parâmetros pré-definidos.
Vendas por semana, mês, ou trimestre
Uma diferença importante:
Num sistema o que existe fisicamente é a definição
da consulta
A execução da consulta dá origem a uma tabela virtual que existe apenas enquanto a consulta está a ser executada. Num DW existe uma tabela que é criada e mantida
independentemente do utilizador
Eficiência na obtenção de resposta
Novas técnicas de indexação
14 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Considerações no processo de
Data Warehousing
Que dados incluir?
Como conciliar inconsistências?
Frequência de atualizações?
15 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Arquitetura de DW
Data Warehouse Extração Transform. Carga Atualização BDs Operacionais Fontes Externas FONTES DE DADOS Data Marts FERRAMENTAS DE CONS ULTA Análise Data Mining Ger. Relatórios Monitoração Meta Dados Administração Serv. OLAP Serv. OLAPVisão Geral sobre DW
16 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Identificando a necessidade
1. A empresa se baseia em informações para a tomada de decisões
2. O segmento de negócios da empresa é caracterizado por uma forte concorrência e mudanças rápidas 3. A base de clientes é grande e diversificada 4. Os dados estão armazenados em diversos locais 5. Os dados estão duplicados e espalhados por diversos
sistemas
6. Os dados estão em formatos e especificações diferentes 7. A empresa está distribuindo o processo decisório,
buscando maior agilidade e rapidez
18 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Projeto: Aspectos Iniciais
Criar um data warehouse não é uma questão de
tecnologia de Banco de Dados
Envolve: Planejamento e Modelagem
Um projeto completo costuma ser caro
Não pode ser exclusivo da área de sistemas
Levar em consideração o lado cultural
Data Warehouse
Projeto: Aspectos Iniciais
Equipe de projeto
Pessoal da área de negócios
Necessidades dos negócios
Pessoal da área tecnológica
Necessidades da empresa Projeto e implementação
Projeto de Hardware
HD RAM Multiprocessada + HDMontagem Carregamento Acesso Distribuição
Data Warehouse
Etapas do projeto
21 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Dados Operacionais
Dados operacionais são armazenados em
aplicações já existentes
Cada aplicação possui seu conjunto único
e particular de requisitos
Problemas:
Mesmos dados em vários lugares com nomes
diferentes
Dados que apresentam o mesmo nome em
todos os lugares mas com diferentes
unidades de medida
22 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Aspectos Importantes
Qualidade dos Dados
Validade Consistência
Segurança dos Dados
Regras de Segurança Administração da Segurança Auditorias
Integração dos Dados
Armazenar e Integrar os dados de várias áreas da
empresa em uma única base de dados de modo que estas possam pesquisar e utilizar os dados de forma consistente e sem redundância
24 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Dados Primitivos x Dados Derivados
Dados
Operacionais
Data
Warehouse
25 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
detalhados acesso contínuo valores atualizados voltados para as aplicações
do cotidiano
Dados Operacionais
Data
Warehouse
Data Warehouse
Dados Primitivos x Dados Derivados
26 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
orientados a um assunto integrados não-voláteis variáveis com o tempo utilizados para apoiar
decisões gerenciais
Dados
Operacionais
Data Warehouse
Data Warehouse
Dados Primitivos x Dados Derivados
27 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo
apólice de vida José da Silva Masculino 20 de julho de 1945 ... ... ... apólice de automóvel José da Silva Duas multas no ano passado um acidente grave ... ...... apólice de saúde José da Silva dois filhos hipertensão arterial ... ... ... apólice residencial José da Silva Rua Bela, 123 casado ... ... ... cliente José da Silva Masculino, nascido em 20 de julho de 1945 teve duas multas no ano passadoe um acidente grave mora na Rua Bela, 123 é casado
tem dois filhos sofre de hipertensão arterial
... ... ...
28 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Dados: Questões importantes
Quando coletar os dados?
Duas arquiteturas
Centrada nas fontes de dados responsáveis pela transmissão dos dados
Centrada no DW requisita dados
Como coletar os dados?
Por meio de extratores de dados compostos:
Uma ou mais operações de consulta
Pode ser em SQL
Mecanismos de comunicação
29 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Modelo de Dados: Questões importantes
Que esquema utilizar?
O projeto de DW é dirigido pelas projeções de uso
Para que propósito? De que modo?
Definido o modelo esquema
Além da definição do esquema repositório de
metadados contendo:
Detalhes técnicos
Processo de aquisição, estruturas de armazenamento, descrições de dados e operações de manutenção Detalhes da aplicação
Regras de negócio
30 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Modelo Dimensional
O modelo de organização das informações de um data warehouse é conhecido como sendo um Modelo Dimensional (ou Multidimensional)
Oferece um ferramental para a concepção e visualização de um conjunto de medidas que descrevem aspectos comuns de negócios É formado por três elementos básicos:
Fatos Dimensões Medidas
31 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Modelo Dimensional
Fatos
Itens de dados Medidas ContextoÉ utilizado para analisar o processo de
negócio de uma empresa
É representado por valores numéricos
Data Warehouse
Modelo Dimensional
Dimensões
Elementos que participam de um fato São as possíveis formas de visualizar os dados
São os “por”: “por mês”, “por produto”, ...
Determinam o contexto de um assunto de
negócios
Normalmente não possuem atributos numéricos Podem possuir níveis de hierarquia
Tempo: Ano, Trimestre, Mês Local: Estado, Cidade
Modelo Dimensional
Medidas (Variáveis)
Atributos numéricos que representam um fato São determinadas pela combinação das
dimensões que participam de um fato
34 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Modelo Dimensional
Fornece uma abstração na qual o usuário visualiza os dados como pertencentes a um cubo de dados Cada aresta representa uma das dimensões do negócio e seus valores são distribuídos ao longo da mesma
O modelo não se restringe à organização de somente três dimensões
É possível criar e manipular n dimensões
35 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Modelo Dimensional
Nesse cubo escolheu-se como dimensões o Local da venda, o Tempo (momento) da venda e o Produto vendido Local Tempo Produto
Vendas
36 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011A medida é o volume de venda determinado pela combinação: local, produto, tempo
Data Warehouse
Tipo de implementação
Star
ou Estrela
Tabela de fatos
Tabela dimensional
Snowflake
ou
Floco de Neve
37 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011Data Warehouse
Projeto: Etapas
Definir os processos (tabelas fatos)
Identificar as informações necessárias para dar
suporte aos processos decisórios e onde essas
informações serão obtidas
Determinar a granularidade e as agregações
dos dados
Definir e detalhar as tabelas de fatos
Definir e detalhar as dimensões
38 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Granularidade
A granularidade diz respeito ao nível de detalhe ou de resumo contido nas
unidades de dados existentes no data warehouse
Alto nível de detalhes Baixo nível de granularidade Baixo nível de detalhes Alto nível de granularidade 39 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
- Afeta o volume de dados que reside no DW - Quanto maior o volume, menor a performance
Data Warehouse
Modelo Estrela
Uma forma de implementar o modelo
dimensional
Existe uma tabela dominante no centro
do esquema, chamada de tabela de fato
As outras tabelas possuem apenas uma
junção com a tabela central e são
chamadas de tabelas dimensões
Relacionamentos 1:M entre dimensões e
fato
40 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo Modelo Estrela
codProd codTempo codRegiao vendas qt-vendas unidade vr-vendas VENDAS codTempo data semana mês trimestre ano TEMPO codProduto categoria des-categoria estilo preco PRODUTO codRegiao cidade estado pais REGIAO tabela fatos tabela dimensão tabela dimensão tabela dimensão 41 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Modelo Snowflack
Uma forma de implementar o modelo
dimensional
Um refinamento do esquema estrela, no qual as
tabelas dimensão são organizadas em uma
hierarquia por meio de sua decomposição
Relacionamentos M:1 entre os membros em
uma dimensão
42 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Modelo Snowflack
codProd codTempo codRegiao vendas qt-vendas unidade vr-vendas VENDAS codTempo data semana Mes ano TEMPO codProduto categoria estilo preco PRODUTO codRegiao cidade estado REGIAO tabela fatos tabela dimensão tabela dimensão tabela dimensão mes trimestre TEMPO-MES estado pais ESTADO tabela dimensão categoria des-categoria CATEGORIA tabela dimensão tabela dimensão 43 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011Modelagem Tradicional X
Modelagem Multidimensional
O modelo relacional de BD (3FN) foi
desenhado para:
Flexibilidade para extensões
Eficiência no processamento on-line de transações
Quando o objetivo é analisar dados
A dispersão destes por diferentes tabelas é problemático A execução de uma consulta em um BD
Requer operações de JOIN entre as tabelas
Para BD suficientemente grandes esta operação pode levar dias
Os dados sujeitos a análise poderão estar num SGBD relacional, não (necessariamente) na 3FN
Des-normalização dos dados
Normalização
Desdobra uma relação em várias relações
independentes.
Aumenta a flexibilidade do modelo
Des-normalização
Concatena várias relações numa única Reduz a necessidade de operações de Join em
consultas.
Data Warehouse
Exemplo1: Modelo Base Operacional
Professor Aluno Disciplina faz parte N N N 1 N Curso Contém Matricula N 1 46 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Exemplo1: Modelo Relacional
47 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Aluno = {NumAluno, Nome, Endereco, Cidade, Telefone, NumCurso(Curso.NumCurso)} Disciplina= NumDisc, Nome, QuantCreditos} Professor={NumFunc, Nome, Admissao,
AreaPesquisa}
Curso={NumCurso, Nome, Area, TotalCréditos} Ministra={ NumAluno(Aluno.NumAluno),
NumDisc(Disciplina.NumDisc),
NumFunc(Professor.NumFunc), Semestre, Nota} Constituido={NumDisc(Disciplina.NumDisc), NumCurso(Curso.NumCurso)}
Data Warehouse
Exemplo1: Perguntas
Qual é o fato?
aula
O que é medido em fato?
crédito, nota
Qual a granularidade do fato?
semestre
Quais as dimensões?
Curso, Professor, Aluno, Disciplina
Quais os agrupamentos nas dimensões?
48 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo1: Modelo Estrela
NumFunc Nome AreaPesquisa Professor CódigoDoCurso CódigoDoProfessor CódigoDoDisciplina CódigoDoAluno Semetre nota credito Aula CódigoDoCurso Nome Area Curso CódigoDoDisciplina Nome Disciplina NumAluno Nome Cidade Estado Aluno 49 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo2:
Tabela Relacional
50 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo2:
Tabela Dimensional (matriz bi-dimensional )
Vendasdimensionado por Produtose Regiões
p ro d u to s regiões 51 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo2:
Consolidação?
52 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo2:
Tabela Dimensional (matriz bi-dimensional )
Vendasconsolidadas e dimensionadas por Produtose Regiões
p ro d u to s regiões 53 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo2: Modelo Multidimensional
TEMPO PRODUTO
REGIÃO FATOS
54 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo2: Dimensões
Consultas típicas:
Grupos de produtos
Vestidos de mulher
Consultas que envolvem tamanho, cor, estilo
As consultas poderão ser aceleradas se
a informação sobre os produtos estiver
numa única tabela
Situações onde o acréscimo de informação
não relevante é grande pode ser
contraproducente
55 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Exemplo2: Modelo Estrela (
Star
)
Vendas chave_de_produto (FK) chave_de_loja (FK) chave_de_promoção (FK) chave_de_tempo (FK) Vendas Quantidades Custos Contador_de_Clientes Produto chave_de_produto descrição pacote_de_unidades sub-categoria categoria departamento dieta peso prateleira Loja chave_de_loja nome endereço cidade estado distrito_de_vendas... Tempo chave_de_tempo dia_da_semana dia_do_mês mês trimestre ano_fisca feriado fim_de_semana último_dia_do_mês Promoção chave_de_promoção nome_da_promoção tipo_de_redução custo_da_promoção início_da_promoção fim_da_promoção Tabela Fato
Montagem Carregamento Acesso Distribuição
Etapas do projeto
58 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Carregamento: Questões importantes
Como alimentar o DW?
Dados do DW extraídos de múltiplas fontes de
dados heterogêneas
É necessária etapa de pré-processamento
composta de várias etapas
Limpeza qualidade dos dados
Transformação divisão ou combinação de itens de dados
Consolidação relacionamentos implícitos se tornam explícitos
59 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Carregamento
Aplicação A m,f Aplicação B 1,0 Aplicação C x,y Aplicação D masc, fem Aplicação A cent Aplicação B poleg Aplicação C pés Aplicação D jardas m,f cent 60 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011Montagem Carregamento Acesso Distribuição
Data Warehouse
Etapas do projeto
61 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Acesso
Acesso eficiente aos dados dos sistemas
existentes
Problema:
Como saber quais os dados que já foram
varridos dos sistemas de informação
Realizar varreduras completas toda vez que
há necessidade de enviar dados ao ambiente
de data warehouse é custoso e trabalhoso
62 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Tipos de carga
Carregamento de dados históricos
dados são carregados verificando
o histórico do ambiente operacional
Carregamento de dados de valor corrente do ambiente operacional
dados operacionais são descarregados em um
arquivo seqüencial para posterior carregamento
Carregamento de alterações do data warehouse
parte de alterações (atualizações) no ambiente
operacional desde a última atualização do data warehouse
63 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Acesso: Questões importantes
Como propagar atualizações?
Quão atualizados os dados precisam estar?
O warehouse pode ficar fora de serviço? Por quanto
tempo?
Qual é a disponibilidade de armazenamento? Qual é o tempo de carga (incluindo a etapa de
pré-processamento e transmissão)?
Quando eliminar dados (
purging
)?
64 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Montagem Carregamento Acesso Distribuição
Data Warehouse
Etapas de um DW
65 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Distribuição
BANCO DE DADOS BANCO DE DADOS BANCO DE DADOS FERRAMENTA DE EXTRAÇÃO DE DADOS FERRAMENTA DE TRANSFORMAÇÃO DE DADOS OLAP DATA MINING SIMULAÇÃO FERRAMENTA DE LIMPEZA DE DADOS FERRAMENTA DE CONSULTA FERRAMENTA DE GERENCIAMENTO DE RELATÓRIOS FERRAMENTA DE GERENCIAMENTO E ADMINISTRAÇÃO TRANSFERÊNCIA DE DADOS E REPLICAÇÃO REPOSITÓRIO DE METADADOS 66 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011Data Warehouse
Distribuição
Ferramentas gerenciamento de consultas:
consultas e/ou relatórios retirando os dados do data
warehouse, resumindo-os e apresentando-os em um formato apropriado
Ferramentas para gerenciamento de
relatórios:
são semelhantes às ferramentas do item anterior,
porém elas estão voltadas para a geração de relatórios mais complexos, contendo, por exemplo, relatórios sintéticos e analíticos em conjunto, gráficos e outros tipos de visualização dos dados
67 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Data Warehouse
Distribuição
Simulação:
projeta cenários respondendo perguntas do tipo “e
se”, por exemplo: “e se os juros aumentarem, qual será o comportamento de minhas vendas?”
OLAP:
É a parte mais visível do data warehouse porque é
por meio dessas ferramentas que se faz a análise dos dados. Ajudam os gerentes a sintetizarem as informações sobre a empresa por meio de
comparações, visões personalizadas, análise histórica e projeção de dados.
Data Warehouse
Distribuição
Mineração de Dados:
ferramental utilizado para descobrir novas
correlações, padrões e tendências por meio da análise de grandes quantidades de dados
armazenados em data warehouse usando técnicas de reconhecimento de padrões, estatísticas e
On-Line Analytical Processing - OLAP
Modelo Relacional Operações da Álgebra
Relacional
Modelo Dimensional Operações OLAP
Caracterizada pela análise dimensional dinâmica
dos dados apoiando o usuário na suas
atividades
Construção de relatórios para responder questões
gerenciais
70 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Modelo Dimensional
Nesse cubo escolheu-se como dimensões o
Local da venda, o Tempo (momento) da venda
e o Produto vendido.
LocalTempo
Produto
Vendas
71 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
OLAP
Modelo Dimensional
Para visualização dos dados primeiramente
escolhe-se 2 dimensões. Por exemplo dimensão
tempo e Local.
LocalTempo
Produto
Vendas
72 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
OLAP
Operações sobre o Cubo
Mudar Granularidade
Movimentar a visão dos dados ao longo dos níveis hierárquicos de uma dimensão Drill-Down Local (Estados) Tempo Produto Vendas Jan Fev Mar Abr Mai
São Paulo Rio de Janeiro
Jun Drill-down Local (Cidades) Tempo Produto Vendas Jan Fev Mar Abr Mai
S.Carlos R.Preto R.Janeiro Campos
Jun
73 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
OLAP
Operações sobre o Cubo
Mudar Granularidade
Movimentar a visão dos dados ao longo dos níveis hierárquicos de uma dimensão
Roll-up
Roll-up
74 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Local (Estados) Tempo Produto Vendas Jan Fev Mar Abr Mai
São Paulo Rio de Janeiro
Jun Local (Cidades) Tempo Produto Vendas Jan Fev Mar Abr Mai
S.Carlos R.Preto R.Janeiro Campos
Jun
OLAP
Operações sobre o Cubo
Rotacionamento (Rotate)Ângulo pelo qual os dados são vistos ou trocados
Produto Local Tempo Vendas Local Tempo Produto Vendas Local Tempo Produto Vendas 75 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
OLAP
Resultados
Analisando os resultados de vendas por região,
nosso diretor identifica os bons resultados de
vendas da região sudeste
76 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011Ele vê então os resultados da região sudeste detalhados por estados. No entanto verifica que esses resultados da região sudeste estavam mascarando problemas de vendas no estado de São Paulo. Para identificar o problema, ele busca informações ainda mais detalhadas
OLAP
Resultados
77
OLAP
Resultados
Agora ele pode identificar com precisão o desempenho de cada produto e observar que o CDPlayer apresentou o maior problema de vendas
78 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
MOLAP ROLAP WOLAP HOLAP
OLAP
Tipos OLAP
79 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011Suporte OLAP
(implementação)
Para a visualização dos dados, existe uma classe específica de ferramentas, comumente conhecidas como ferramentas OLAP
ROLAP (Relational OLAP) – a arquitetura se compõe de:
SGBD + ferramenta ROLAP
estratégia onde são usados os próprios sgbdrs, com as tabelas sendo implementadas como estruturas relacionais clássicas.
Oferecem todas as vantagens de um SGBDR
exigem um projeto cuidadoso do ponto de vista de performance, onde o excesso de tabelas normalizadas poderá comprometer a performance das buscas. As tabelas básicas e os agregados (visões e cubos) são armazenados nesse formato
Suporte OLAP
(implementação)
MOLAP ( Multidimensional OLAP) – a arquitetura se compõe de:SGBD + servidor MOLAP
estratégia onde são usados gerenciadores de BD proprietários, com características de armazenamento especiais e ferramentas para tratamento dimensional de dados. armazenamento como matrizes esparsas, operações com array e indexação de bitmap
não oferecem toda a gama de recursos (debug, paralelismo, log, otimizadores) exigem a migração dos dados do SGBD relacional para o armazenamento multidimensional e a sua constante atualização
podem ser limitados na sua capacidade máxima de armazenamento, mas podem apresentar, em tese, melhor desempenho do que as outras alternativas por serem voltados exclusivamente para essas aplicações.
Tanto as estruturas básicas (maior granularidade), quanto as estruturas agregadas ou cubos são armazenadas nesse formato.
Para a visualização dos dados, existe uma classe específica de ferramentas, comumente conhecidas como ferramentas OLAP
A maioria das ferramentas OLAP comerciais usam "Hybrid OLAP" (HOLAP)
integração de características ROLAP + MOLAP
representa uma abordagem de uso misto das duas estratégias anteriores, onde as estruturas relacionais são normalmente utilizadas para os dados de maior
granularidade e as estruturas dimensionais nativas são dedicadas ao armazenamento de agregados (menor granularidade)
82 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Sumário - OLAP
Objetivos do OLAP Sumarização da informação Análise da Informação Técnicas Consolidação de QueriesBases de Dados Multidimensionais A essência da tecnologia OLAP:
Flexibilidade, Resposta rápida
Possibilidade de sumarizar dados sobre várias dimensões
Análise multidimensional
Análise de tendências sobre o tempo
83 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
SBD vs. DW
Característica Sistema de BD Ambiente de DW Origem dos
dados
obtidos principalmente através de programas de aplicação (ou simplesmente, aplicações) do usuário
não há a necessidade de extração
prévia de dados, pois as aplicações se encarregam de alimentar e acessar diretamente as bases de dados, via um SGBD
um ou vários sistemas de bancos de dados possivelmente distribuídos e heterogêneos são as fontes de dados
faz se necessária a extração dos dados, que fica a cargo de aplicações do próprio ambiente DW
Preparação dos dados
os dados oriundos das aplicações
passam por restrições de integridade, mas normalmente, à medida que são depositados nas bases de dados, se tornam disponíveis à utilização
os dados precisam passar por
processos de extração, limpeza, transformação e integração, para só aí estarem disponíveis à utilização
84 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
SBD vs. DW
Característica Sistema de BD Ambiente de DW Processamento
de consultas
o processamento de consultas é feito
sem a preocupação de se précomputar as consultas
as consultas são processadas à
medida que são solicitadas
as consultas manipulam
volumes maiores de dados e precisam ser, pré-computadas e armazenadas como visões materializadas, de forma a estarem de antemão disponíveis aos usuários
Aplicações Os programas são normalmente aplicações de cadastro e controle que cuidam das funções operacionais da empresa
As aplicações estão voltadas principalmente ao processamento analítico dos dados
85 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Processamento Analítico
versus
Processamento Transacional
Características OLAP OLTP
Objetivo Tomada de Decisão Controle Operacional
Operação Típica Análise de Padrões Atualização de Dados
Complexidade das Operações Grande Pequena
Agregação dos Dados Necessária Pouco Utilizada
Dados Históricos Necessários Pouco Utilizados
Freqüência das Transações Moderada Alta
Duração típica das Transações Longa Curta
Usuário Típico Gestores do Negócio Pessoal Operacional
86 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Dados Operacionais vs. Dados Analíticos
Fonte: Carlos Barbieri, BI – Business Intelligence – Modelagem & Tecnologia, Axcel Books do Brasil Editora, 2001, Página 47
87 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Referências
Machado, Felipe Nery Rodrigues. Tecnologia e Projeto de Data Warehouse. São Paulo:Érica, 2004, 318 p.
Elmasri, Ramez; Navathe, Shamkant B. Sistemas de banco de dados. 4 ed. São Paulo: Addison Wesley, 2005, 724 p.
Inmon, William H. (1996). Building the Data Warehouse. John Wiley & Sons,Inc., 4 edition.
Nota: Estes slides foram produzidos a partir do Material Didático produzido pelos professores Enzo Seraphim e Sahudy Montenegro González
88 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011
Atividades Propostas
Leitura
Capítulo 28 do Navathe
Introdução e Capítulos 1, 2, 4 e 6
Machado, F. N. R. Tecnologia e Projeto de Data Warehouse: Uma visão Multidimensional. Editora Érica, 2004.
Capítulos 2 e 3
Inmon, W. H. Building the data warehouse. 4th ed. Wiley, 2005.