• Nenhum resultado encontrado

Data Warehouse. Introdução Negócio. Introdução O Ambiente de Dados. Introdução Como obter a informação certa? Data Warehouse Definição

N/A
N/A
Protected

Academic year: 2021

Share "Data Warehouse. Introdução Negócio. Introdução O Ambiente de Dados. Introdução Como obter a informação certa? Data Warehouse Definição"

Copied!
15
0
0

Texto

(1)

Data Warehouse

Profa. Maria Camila Nardini Barioni

camila.barioni@ufabc.edu.br

Bloco B - sala 937

2° trimestre de 2011 Pós-graduação em Ciência da Computação

CCM-202 Sistemas de Banco de Dados

CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Introdução

Negócio

Ambiente de negócio em mudança constante Análise complexa — questões impossíveis de se prever

Alto volume de dados e necessidade de resposta rápida

2

Introdução

O Ambiente de Dados

Dados – Componentes básicos Informação – Dados em um contexto Contexto – Situação a ser analisada

Conhecimento – informação, que permite tomar

decisões adequadas,



Vantagem competitiva

Banco de Dados – Coleção de dados

logicamente relacionados para uma finalidade

3 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Introdução

Como obter a informação certa?

Dados dos Clientes

Dados de Compras

Comentários e

Reclamações de Clientes

Dados de

Levantamentos

Pedidos de Serviço

Dados de

Produtos

Disponíveis

4 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Introdução

Surge o Data Warehouse

Integrar dados de múltiplas fontes

Facilitar o processo de análise sem impacto para os dados operacionais

Obter informação de qualidade Atender diferentes tipos de usuários

Flexibilidade e agilidade para realizar novas análises

BDs Operacionais

DW

SAD OLAP Data

Mart

Data Warehouse

Definição

Um data warehouse (ou

armazém/depósito de dados) é uma

coleção de dados:



orientada por assuntos,



integrada,



variante no tempo,



e não-volátil,

Tem por objetivo dar suporte aos

(2)

Definição

Orientada por assuntos

Refere-se aos negócios da empresa

Ao contrário dos sistemas transacionais que focam

no controle operacional do dia-a-dia

Exemplo:numa empresa de telecom, o principal

assunto é o cliente, o arquiteto de DW deve desenhar o modelo, dividindo as visões de acordo com o que o analista quer ver

8 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Definição

Integrada

Utiliza todos os outros sistemas de informação da

empresa, sincronizando os dados e colocando-os no mesmo padrão

Os dados são de vários sistemas da empresa, e até,

dados externos, como a cotação do dólar

Problemas que podem surgir na hora da análise:

geralmente os dados não estão padronizados

exemplo: atributo sexo (pode ser M ou F, 0 ou 1) Para isto:

na fase de ETL (Extração, Transformação e Carga), um único

padrão

9 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Definição

Não-volátil

A atualização dos dados não implica em

sobreposição

No DW, acontecem somente cargas de dados e

consultas - há somente selects e inserts, e não há updates

10 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Definição

Variáveis com o tempo

 O DW retrata a situação que estamos analisando, num determinado ponto do tempo

 O DW mantém características de base de dados temporal  A chave do registro contém um elemento de tempo  Analogia com as fotografias

Pegue uma fotografia sua, quando recém nascido, depois, pegue outra quando você tinha 5 anos, e compare

Com certeza muitas modificações ocorreram, mas ela retrata exatamente a sua situação naquele exato momento do tempo

Guardamos fotografias dos assuntos em determinados pontos do tempo, e com isso é possível poder traçar uma análise histórica e comparativa entre os fatos

11 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Arquitetura

12 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Propriedades

Dimensão

Mega, Giga, Tera Bytes - Não existe uma fronteira fixa

A informação é guardada para análise:

de forma a poder ser obtida de forma mais eficiente separada do sistema operacional

Suportam sistemas sofisticados de análise on-line

Análise Multi-dimensional

Integrar informação proveniente de mais que um

sistema operacional.

Integrar informação sobre salários, finanças, marketing,

produção.

Possibilidade de cruzar informação

13 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

(3)

Sumarização dos dados

Muitas consultas e relatórios são agregações

baseados em parâmetros pré-definidos.

Vendas por semana, mês, ou trimestre

Uma diferença importante:

Num sistema o que existe fisicamente é a definição

da consulta

A execução da consulta dá origem a uma tabela virtual que existe apenas enquanto a consulta está a ser executada. Num DW existe uma tabela que é criada e mantida

independentemente do utilizador

Eficiência na obtenção de resposta

Novas técnicas de indexação

14 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Considerações no processo de

Data Warehousing

Que dados incluir?

Como conciliar inconsistências?

Frequência de atualizações?

15 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Arquitetura de DW

Data Warehouse Extração Transform. Carga Atualização BDs Operacionais Fontes Externas FONTES DE DADOS Data Marts FERRAMENTAS DE CONS ULTA Análise Data Mining Ger. Relatórios Monitoração Meta Dados Administração Serv. OLAP Serv. OLAP

Visão Geral sobre DW

16 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Identificando a necessidade

1. A empresa se baseia em informações para a tomada de decisões

2. O segmento de negócios da empresa é caracterizado por uma forte concorrência e mudanças rápidas 3. A base de clientes é grande e diversificada 4. Os dados estão armazenados em diversos locais 5. Os dados estão duplicados e espalhados por diversos

sistemas

6. Os dados estão em formatos e especificações diferentes 7. A empresa está distribuindo o processo decisório,

buscando maior agilidade e rapidez

18 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Projeto: Aspectos Iniciais

Criar um data warehouse não é uma questão de

tecnologia de Banco de Dados

Envolve: Planejamento e Modelagem

Um projeto completo costuma ser caro

Não pode ser exclusivo da área de sistemas

Levar em consideração o lado cultural

Data Warehouse

Projeto: Aspectos Iniciais

Equipe de projeto

Pessoal da área de negócios

Necessidades dos negócios

Pessoal da área tecnológica

Necessidades da empresa Projeto e implementação

Projeto de Hardware

HD RAM Multiprocessada + HD

(4)

Montagem Carregamento Acesso Distribuição

Data Warehouse

Etapas do projeto

21 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Dados Operacionais

Dados operacionais são armazenados em

aplicações já existentes

Cada aplicação possui seu conjunto único

e particular de requisitos

Problemas:



Mesmos dados em vários lugares com nomes

diferentes



Dados que apresentam o mesmo nome em

todos os lugares mas com diferentes

unidades de medida

22 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Aspectos Importantes

Qualidade dos Dados

Validade Consistência

Segurança dos Dados

Regras de Segurança Administração da Segurança Auditorias

Integração dos Dados

Armazenar e Integrar os dados de várias áreas da

empresa em uma única base de dados de modo que estas possam pesquisar e utilizar os dados de forma consistente e sem redundância

24 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Dados Primitivos x Dados Derivados

Dados

Operacionais

Data

Warehouse

25 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

detalhados acesso contínuo valores atualizados voltados para as aplicações

do cotidiano

Dados Operacionais

Data

Warehouse

Data Warehouse

Dados Primitivos x Dados Derivados

26 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

orientados a um assunto integrados não-voláteis variáveis com o tempo utilizados para apoiar

decisões gerenciais

Dados

Operacionais

Data Warehouse

Data Warehouse

Dados Primitivos x Dados Derivados

27 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

(5)

Data Warehouse

Exemplo

apólice de vida José da Silva Masculino 20 de julho de 1945 ... ... ... apólice de automóvel José da Silva Duas multas no ano passado um acidente grave ... ...... apólice de saúde José da Silva dois filhos hipertensão arterial ... ... ... apólice residencial José da Silva Rua Bela, 123 casado ... ... ... cliente José da Silva Masculino, nascido em 20 de julho de 1945 teve duas multas no ano passado

e um acidente grave mora na Rua Bela, 123 é casado

tem dois filhos sofre de hipertensão arterial

... ... ...

28 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Dados: Questões importantes

Quando coletar os dados?



Duas arquiteturas

Centrada nas fontes de dados  responsáveis pela transmissão dos dados

Centrada no DW  requisita dados

Como coletar os dados?



Por meio de extratores de dados compostos:

Uma ou mais operações de consulta

Pode ser em SQL

Mecanismos de comunicação

29 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Modelo de Dados: Questões importantes

Que esquema utilizar?

O projeto de DW é dirigido pelas projeções de uso

Para que propósito? De que modo?

Definido o modelo  esquema

Além da definição do esquema  repositório de

metadados contendo:

Detalhes técnicos

Processo de aquisição, estruturas de armazenamento, descrições de dados e operações de manutenção Detalhes da aplicação

Regras de negócio

30 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Modelo Dimensional

O modelo de organização das informações de um data warehouse é conhecido como sendo um Modelo Dimensional (ou Multidimensional)

Oferece um ferramental para a concepção e visualização de um conjunto de medidas que descrevem aspectos comuns de negócios É formado por três elementos básicos:

 Fatos  Dimensões  Medidas

31 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Modelo Dimensional

Fatos

Itens de dados Medidas Contexto



É utilizado para analisar o processo de

negócio de uma empresa



É representado por valores numéricos

Data Warehouse

Modelo Dimensional

Dimensões

Elementos que participam de um fato São as possíveis formas de visualizar os dados

São os “por”: “por mês”, “por produto”, ...

Determinam o contexto de um assunto de

negócios

Normalmente não possuem atributos numéricos Podem possuir níveis de hierarquia

Tempo: Ano, Trimestre, Mês Local: Estado, Cidade

(6)

Modelo Dimensional

Medidas (Variáveis)

Atributos numéricos que representam um fato São determinadas pela combinação das

dimensões que participam de um fato

34 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Modelo Dimensional

Fornece uma abstração na qual o usuário visualiza os dados como pertencentes a um cubo de dados Cada aresta representa uma das dimensões do negócio e seus valores são distribuídos ao longo da mesma

O modelo não se restringe à organização de somente três dimensões

 É possível criar e manipular n dimensões

35 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Modelo Dimensional

Nesse cubo escolheu-se como dimensões o Local da venda, o Tempo (momento) da venda e o Produto vendido Local Tempo Produto

Vendas

36 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

A medida é o volume de venda  determinado pela combinação: local, produto, tempo

Data Warehouse

Tipo de implementação

Star

ou Estrela



Tabela de fatos



Tabela dimensional

Snowflake

ou

Floco de Neve

37 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Projeto: Etapas

Definir os processos (tabelas fatos)

Identificar as informações necessárias para dar

suporte aos processos decisórios e onde essas

informações serão obtidas

Determinar a granularidade e as agregações

dos dados

Definir e detalhar as tabelas de fatos

Definir e detalhar as dimensões

38 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Granularidade

A granularidade diz respeito ao nível de detalhe ou de resumo contido nas

unidades de dados existentes no data warehouse

Alto nível de detalhes Baixo nível de granularidade Baixo nível de detalhes Alto nível de granularidade 39 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

- Afeta o volume de dados que reside no DW - Quanto maior o volume, menor a performance

(7)

Data Warehouse

Modelo Estrela

Uma forma de implementar o modelo

dimensional

Existe uma tabela dominante no centro

do esquema, chamada de tabela de fato

As outras tabelas possuem apenas uma

junção com a tabela central e são

chamadas de tabelas dimensões

Relacionamentos 1:M entre dimensões e

fato

40 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Exemplo Modelo Estrela

codProd codTempo codRegiao vendas qt-vendas unidade vr-vendas VENDAS codTempo data semana mês trimestre ano TEMPO codProduto categoria des-categoria estilo preco PRODUTO codRegiao cidade estado pais REGIAO tabela fatos tabela dimensão tabela dimensão tabela dimensão 41 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Modelo Snowflack

Uma forma de implementar o modelo

dimensional

Um refinamento do esquema estrela, no qual as

tabelas dimensão são organizadas em uma

hierarquia por meio de sua decomposição

Relacionamentos M:1 entre os membros em

uma dimensão

42 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Modelo Snowflack

codProd codTempo codRegiao vendas qt-vendas unidade vr-vendas VENDAS codTempo data semana Mes ano TEMPO codProduto categoria estilo preco PRODUTO codRegiao cidade estado REGIAO tabela fatos tabela dimensão tabela dimensão tabela dimensão mes trimestre TEMPO-MES estado pais ESTADO tabela dimensão categoria des-categoria CATEGORIA tabela dimensão tabela dimensão 43 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Modelagem Tradicional X

Modelagem Multidimensional

O modelo relacional de BD (3FN) foi

desenhado para:

 Flexibilidade para extensões

 Eficiência no processamento on-line de transações

Quando o objetivo é analisar dados

 A dispersão destes por diferentes tabelas é problemático  A execução de uma consulta em um BD

Requer operações de JOIN entre as tabelas

Para BD suficientemente grandes esta operação pode levar dias

 Os dados sujeitos a análise poderão estar num SGBD relacional, não (necessariamente) na 3FN

Des-normalização dos dados

Normalização

Desdobra uma relação em várias relações

independentes.

Aumenta a flexibilidade do modelo

Des-normalização

Concatena várias relações numa única Reduz a necessidade de operações de Join em

consultas.

(8)

Data Warehouse

Exemplo1: Modelo Base Operacional

Professor Aluno Disciplina faz parte N N N 1 N Curso Contém Matricula N 1 46 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Exemplo1: Modelo Relacional

47 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Aluno = {NumAluno, Nome, Endereco, Cidade, Telefone, NumCurso(Curso.NumCurso)} Disciplina= NumDisc, Nome, QuantCreditos} Professor={NumFunc, Nome, Admissao,

AreaPesquisa}

Curso={NumCurso, Nome, Area, TotalCréditos} Ministra={ NumAluno(Aluno.NumAluno),

NumDisc(Disciplina.NumDisc),

NumFunc(Professor.NumFunc), Semestre, Nota} Constituido={NumDisc(Disciplina.NumDisc), NumCurso(Curso.NumCurso)}

Data Warehouse

Exemplo1: Perguntas

Qual é o fato?



aula

O que é medido em fato?



crédito, nota

Qual a granularidade do fato?



semestre

Quais as dimensões?



Curso, Professor, Aluno, Disciplina

Quais os agrupamentos nas dimensões?

48 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Exemplo1: Modelo Estrela

NumFunc Nome AreaPesquisa Professor CódigoDoCurso CódigoDoProfessor CódigoDoDisciplina CódigoDoAluno Semetre nota credito Aula CódigoDoCurso Nome Area Curso CódigoDoDisciplina Nome Disciplina NumAluno Nome Cidade Estado Aluno 49 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Exemplo2:

Tabela Relacional

50 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Exemplo2:

Tabela Dimensional (matriz bi-dimensional )

Vendasdimensionado por Produtose Regiões

p ro d u to s regiões 51 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

(9)

Data Warehouse

Exemplo2:

Consolidação?

52 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Exemplo2:

Tabela Dimensional (matriz bi-dimensional )

Vendasconsolidadas e dimensionadas por Produtose Regiões

p ro d u to s regiões 53 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Exemplo2: Modelo Multidimensional

TEMPO PRODUTO

REGIÃO FATOS

54 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Exemplo2: Dimensões

Consultas típicas:



Grupos de produtos

Vestidos de mulher



Consultas que envolvem tamanho, cor, estilo

As consultas poderão ser aceleradas se

a informação sobre os produtos estiver

numa única tabela



Situações onde o acréscimo de informação

não relevante é grande pode ser

contraproducente

55 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Exemplo2: Modelo Estrela (

Star

)

Vendas chave_de_produto (FK) chave_de_loja (FK) chave_de_promoção (FK) chave_de_tempo (FK) Vendas Quantidades Custos Contador_de_Clientes Produto chave_de_produto descrição pacote_de_unidades sub-categoria categoria departamento dieta peso prateleira Loja chave_de_loja nome endereço cidade estado distrito_de_vendas... Tempo chave_de_tempo dia_da_semana dia_do_mês mês trimestre ano_fisca feriado fim_de_semana último_dia_do_mês Promoção chave_de_promoção nome_da_promoção tipo_de_redução custo_da_promoção início_da_promoção fim_da_promoção Tabela Fato

(10)

Montagem Carregamento Acesso Distribuição

Etapas do projeto

58 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Carregamento: Questões importantes

Como alimentar o DW?

Dados do DW  extraídos de múltiplas fontes de

dados heterogêneas



É necessária etapa de pré-processamento

composta de várias etapas

Limpeza  qualidade dos dados

Transformação  divisão ou combinação de itens de dados

Consolidação  relacionamentos implícitos se tornam explícitos

59 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Carregamento

Aplicação A m,f Aplicação B 1,0 Aplicação C x,y Aplicação D masc, fem Aplicação A cent Aplicação B poleg Aplicação C pés Aplicação D jardas m,f cent 60 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Montagem Carregamento Acesso Distribuição

Data Warehouse

Etapas do projeto

61 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Acesso

Acesso eficiente aos dados dos sistemas

existentes

Problema:



Como saber quais os dados que já foram

varridos dos sistemas de informação



Realizar varreduras completas toda vez que

há necessidade de enviar dados ao ambiente

de data warehouse é custoso e trabalhoso

62 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Tipos de carga

Carregamento de dados históricos

dados são carregados verificando

o histórico do ambiente operacional

Carregamento de dados de valor corrente do ambiente operacional

dados operacionais são descarregados em um

arquivo seqüencial para posterior carregamento

Carregamento de alterações do data warehouse

parte de alterações (atualizações) no ambiente

operacional desde a última atualização do data warehouse

63 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

(11)

Data Warehouse

Acesso: Questões importantes

Como propagar atualizações?

Quão atualizados os dados precisam estar?

O warehouse pode ficar fora de serviço? Por quanto

tempo?

Qual é a disponibilidade de armazenamento? Qual é o tempo de carga (incluindo a etapa de

pré-processamento e transmissão)?

Quando eliminar dados (

purging

)?

64 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Montagem Carregamento Acesso Distribuição

Data Warehouse

Etapas de um DW

65 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Distribuição

BANCO DE DADOS BANCO DE DADOS BANCO DE DADOS FERRAMENTA DE EXTRAÇÃO DE DADOS FERRAMENTA DE TRANSFORMAÇÃO DE DADOS OLAP DATA MINING SIMULAÇÃO FERRAMENTA DE LIMPEZA DE DADOS FERRAMENTA DE CONSULTA FERRAMENTA DE GERENCIAMENTO DE RELATÓRIOS FERRAMENTA DE GERENCIAMENTO E ADMINISTRAÇÃO TRANSFERÊNCIA DE DADOS E REPLICAÇÃO REPOSITÓRIO DE METADADOS 66 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Distribuição

Ferramentas gerenciamento de consultas:

consultas e/ou relatórios retirando os dados do data

warehouse, resumindo-os e apresentando-os em um formato apropriado

Ferramentas para gerenciamento de

relatórios:

são semelhantes às ferramentas do item anterior,

porém elas estão voltadas para a geração de relatórios mais complexos, contendo, por exemplo, relatórios sintéticos e analíticos em conjunto, gráficos e outros tipos de visualização dos dados

67 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Data Warehouse

Distribuição

Simulação:

projeta cenários respondendo perguntas do tipo “e

se”, por exemplo: “e se os juros aumentarem, qual será o comportamento de minhas vendas?”

OLAP:

É a parte mais visível do data warehouse porque é

por meio dessas ferramentas que se faz a análise dos dados. Ajudam os gerentes a sintetizarem as informações sobre a empresa por meio de

comparações, visões personalizadas, análise histórica e projeção de dados.

Data Warehouse

Distribuição

Mineração de Dados:

ferramental utilizado para descobrir novas

correlações, padrões e tendências por meio da análise de grandes quantidades de dados

armazenados em data warehouse usando técnicas de reconhecimento de padrões, estatísticas e

(12)

On-Line Analytical Processing - OLAP

Modelo Relacional  Operações da Álgebra

Relacional

Modelo Dimensional  Operações OLAP

Caracterizada pela análise dimensional dinâmica

dos dados apoiando o usuário na suas

atividades

Construção de relatórios para responder questões

gerenciais

70 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Modelo Dimensional

Nesse cubo escolheu-se como dimensões o

Local da venda, o Tempo (momento) da venda

e o Produto vendido.

Local

Tempo

Produto

Vendas

71 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

OLAP

Modelo Dimensional

Para visualização dos dados primeiramente

escolhe-se 2 dimensões. Por exemplo dimensão

tempo e Local.

Local

Tempo

Produto

Vendas

72 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

OLAP

Operações sobre o Cubo

Mudar Granularidade

 Movimentar a visão dos dados ao longo dos níveis hierárquicos de uma dimensão  Drill-Down Local (Estados) Tempo Produto Vendas Jan Fev Mar Abr Mai

São Paulo Rio de Janeiro

Jun Drill-down Local (Cidades) Tempo Produto Vendas Jan Fev Mar Abr Mai

S.Carlos R.Preto R.Janeiro Campos

Jun

73 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

OLAP

Operações sobre o Cubo

Mudar Granularidade

 Movimentar a visão dos dados ao longo dos níveis hierárquicos de uma dimensão

 Roll-up

Roll-up

74 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Local (Estados) Tempo Produto Vendas Jan Fev Mar Abr Mai

São Paulo Rio de Janeiro

Jun Local (Cidades) Tempo Produto Vendas Jan Fev Mar Abr Mai

S.Carlos R.Preto R.Janeiro Campos

Jun

OLAP

Operações sobre o Cubo

Rotacionamento (Rotate)

Ângulo pelo qual os dados são vistos ou trocados

Produto Local Tempo Vendas Local Tempo Produto Vendas Local Tempo Produto Vendas 75 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

(13)

CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

OLAP

Resultados

Analisando os resultados de vendas por região,

nosso diretor identifica os bons resultados de

vendas da região sudeste

76 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Ele vê então os resultados da região sudeste detalhados por estados. No entanto verifica que esses resultados da região sudeste estavam mascarando problemas de vendas no estado de São Paulo. Para identificar o problema, ele busca informações ainda mais detalhadas

OLAP

Resultados

77

OLAP

Resultados

Agora ele pode identificar com precisão o desempenho de cada produto e observar que o CDPlayer apresentou o maior problema de vendas

78 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

MOLAP ROLAP WOLAP HOLAP

OLAP

Tipos OLAP

79 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Suporte OLAP

(implementação)

Para a visualização dos dados, existe uma classe específica de ferramentas, comumente conhecidas como ferramentas OLAP

ROLAP (Relational OLAP) – a arquitetura se compõe de:

SGBD + ferramenta ROLAP

estratégia onde são usados os próprios sgbdrs, com as tabelas sendo implementadas como estruturas relacionais clássicas.

Oferecem todas as vantagens de um SGBDR

exigem um projeto cuidadoso do ponto de vista de performance, onde o excesso de tabelas normalizadas poderá comprometer a performance das buscas. As tabelas básicas e os agregados (visões e cubos) são armazenados nesse formato

Suporte OLAP

(implementação)

MOLAP ( Multidimensional OLAP) – a arquitetura se compõe de:

SGBD + servidor MOLAP

estratégia onde são usados gerenciadores de BD proprietários, com características de armazenamento especiais e ferramentas para tratamento dimensional de dados. armazenamento como matrizes esparsas, operações com array e indexação de bitmap

não oferecem toda a gama de recursos (debug, paralelismo, log, otimizadores) exigem a migração dos dados do SGBD relacional para o armazenamento multidimensional e a sua constante atualização

podem ser limitados na sua capacidade máxima de armazenamento, mas podem apresentar, em tese, melhor desempenho do que as outras alternativas por serem voltados exclusivamente para essas aplicações.

Tanto as estruturas básicas (maior granularidade), quanto as estruturas agregadas ou cubos são armazenadas nesse formato.

(14)

Para a visualização dos dados, existe uma classe específica de ferramentas, comumente conhecidas como ferramentas OLAP

A maioria das ferramentas OLAP comerciais usam "Hybrid OLAP" (HOLAP)

integração de características ROLAP + MOLAP

representa uma abordagem de uso misto das duas estratégias anteriores, onde as estruturas relacionais são normalmente utilizadas para os dados de maior

granularidade e as estruturas dimensionais nativas são dedicadas ao armazenamento de agregados (menor granularidade)

82 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Sumário - OLAP

Objetivos do OLAP  Sumarização da informação  Análise da Informação Técnicas  Consolidação de Queries

 Bases de Dados Multidimensionais A essência da tecnologia OLAP:

 Flexibilidade,  Resposta rápida

Possibilidade de sumarizar dados sobre várias dimensões

 Análise multidimensional

Análise de tendências sobre o tempo

83 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

SBD vs. DW

Característica Sistema de BD Ambiente de DW Origem dos

dados

obtidos principalmente através de programas de aplicação (ou simplesmente, aplicações) do usuário

não há a necessidade de extração

prévia de dados, pois as aplicações se encarregam de alimentar e acessar diretamente as bases de dados, via um SGBD

um ou vários sistemas de bancos de dados possivelmente distribuídos e heterogêneos são as fontes de dados

faz se necessária a extração dos dados, que fica a cargo de aplicações do próprio ambiente DW

Preparação dos dados

os dados oriundos das aplicações

passam por restrições de integridade, mas normalmente, à medida que são depositados nas bases de dados, se tornam disponíveis à utilização

os dados precisam passar por

processos de extração, limpeza, transformação e integração, para só aí estarem disponíveis à utilização

84 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

SBD vs. DW

Característica Sistema de BD Ambiente de DW Processamento

de consultas

o processamento de consultas é feito

sem a preocupação de se précomputar as consultas

as consultas são processadas à

medida que são solicitadas

as consultas manipulam

volumes maiores de dados e precisam ser, pré-computadas e armazenadas como visões materializadas, de forma a estarem de antemão disponíveis aos usuários

Aplicações Os programas são normalmente aplicações de cadastro e controle que cuidam das funções operacionais da empresa

As aplicações estão voltadas principalmente ao processamento analítico dos dados

85 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Processamento Analítico

versus

Processamento Transacional

Características OLAP OLTP

Objetivo Tomada de Decisão Controle Operacional

Operação Típica Análise de Padrões Atualização de Dados

Complexidade das Operações Grande Pequena

Agregação dos Dados Necessária Pouco Utilizada

Dados Históricos Necessários Pouco Utilizados

Freqüência das Transações Moderada Alta

Duração típica das Transações Longa Curta

Usuário Típico Gestores do Negócio Pessoal Operacional

86 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Dados Operacionais vs. Dados Analíticos

Fonte: Carlos Barbieri, BI – Business Intelligence – Modelagem & Tecnologia, Axcel Books do Brasil Editora, 2001, Página 47

87 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

(15)

Referências

Machado, Felipe Nery Rodrigues. Tecnologia e Projeto de Data Warehouse. São Paulo:Érica, 2004, 318 p.

Elmasri, Ramez; Navathe, Shamkant B. Sistemas de banco de dados. 4 ed. São Paulo: Addison Wesley, 2005, 724 p.

Inmon, William H. (1996). Building the Data Warehouse. John Wiley & Sons,Inc., 4 edition.

Nota: Estes slides foram produzidos a partir do Material Didático produzido pelos professores Enzo Seraphim e Sahudy Montenegro González

88 CCM 205 Sistema de Bancos de Dados - 2° quadrimestre de 2011

Atividades Propostas

Leitura



Capítulo 28 do Navathe



Introdução e Capítulos 1, 2, 4 e 6

Machado, F. N. R. Tecnologia e Projeto de Data Warehouse: Uma visão Multidimensional. Editora Érica, 2004.



Capítulos 2 e 3

Inmon, W. H. Building the data warehouse. 4th ed. Wiley, 2005.

Referências

Documentos relacionados

Análise modal numérica da parte girante da bomba A figura 9 ilustra o modelo para a simulação numérica da parte girante superior da bomba hidráulica (induzido do mo- tor elétrico),

f) Fotocópia da Autorização/Procuração para o Banco Central que deve ser preenchida com LETRA LEGÍVEL e assinada conforme documento de identidade por todos os integrantes

The aim of this paper was two-folds: (i) to make a revision and an update of the state of the art about the relationships between swimming biomechanics with

Tabela 9 - Fator de proteção solar (FPS), determinado por espectrofotometria, e porcentagem de radiação bloqueada de amostras de protetores solares preparadas em

Equações para as leis de conservação parabólicas e equações de Navier-Stokes: análise do decaimento de soluções / Lorena Brizza Soares Freitas.. Análise

Os empregadores se obrigam ao pagamento de um adicional por tempo de serviço prestado pelo empregado ao mesmo empregador, igual a 5% (cinco por cento), por biênio trabalhado,

a) A remuneração dos empregados com salário fixo será paga em dobro; para os comissionistas puros o cálculo dessa remuneração corresponderá ao pagamento do valor de mais 01

Factors associated with complete or incomplete outcome of the examination with capsule endoscopy were: associated comorbidities, Crohn’s disease, previous abdominal surgery and