A crescente necessidade de sistemas
“inteligentes” e de aquisição de conhecimento
levaram à necessidade de implementação de
Data Warehouses.
-
O que é uma Data Warehouse ?
- “Colecção de bases de dados orientadas por assunto e
desenhadas para suportar sistemas de apoio à decisão” (William Inmon)
- Bases de dados desenhada e optimizada para um tipo
Orientada por Assunto
– A informação contida numa Data Warehouse pertence a
um domínio específico, em vez de englobar as necessidades específicas de uma organização
z
Integrada
– Apesar da informação poder ter origem diversas,
deve-se encontrar num estado estável e coerente.
z
Variação temporal
– Toda a informação contida numa Data Warehouse esta
associada a um intervalo específico de tempo.
z
Não-Volatilidade
– Toda a informação é estável dentro da Data Warehouse.
determinado tipo de informação por forma a permitir a aplicação de sistemas de aquisição de conhecimento.
z Aquisição de conhecimento não-imediato a partir da análise factual de uma BD.
z Normalmente alimentadas por um ou vários sistemas OLTP.
– Sistemas de inferência. – Geração de regras.
• Arvore de decisão
– Algoritmos de agrupamento (Clustering) – Sistemas de apoio à decisão
OnLine Transaction Process (OLTP)
– Enquadramento das bases de dados tradicionais. – Âmbito de trabalho Æ Transação
– Quantidade de informação Æ Grupos de linhas – Natureza da informação Æ Primitiva
– Volatilidade da informação Æ Alta – Tempo de resposta Æ Segundos
– Prioridades Æ Desempenho e avaliabilidade – Tipos de acessos Æ Predefinidos e estáticos
OnLine Analytical Process (OLAP)
– Enquadramento das Data Warehouses
– Âmbito de trabalho Æ Base de dados inteira
– Quantidade de informação Æ Linhas individuais – Natureza da informação Æ Derivada
– Volatilidade da informação Æ Baixa – Tempo de resposta Æ Horas, dias, ... – Prioridades Æ Flexibilidade
z
Tabela Clientes
– BD Tradicional
• Criação da tabela • Inserção de elementos • Alteração de elementos • Remoção de elementos• Consulta da informação desejada
– Data Warehouse
• Instante em que foram adicionados, alterados ou eliminados elementos.
• Aquisição de conhecimento sobre as alturas em que normalmente se inserem, alteram ou removem
elementos Secret. Ikj 73 Carla 2 Director Odk 55 Paulo 6 Operário Dfg 24 José 5
z
Administração de Data Warehouses
– São acedidas essencialmente para operações
de leitura
– Aplicação de processos analíticos sobre a
informação.
– Tal como nas Bases de Dados tradicionais:
• Conhecimento prévio das operações a efectuar.• Conhecimento prévio das aplicações a aceder à BD.
– Arquitectura – Tipo de acesso – Consultas-Padrão – ...
z
Desenho de Data Warehouses
– Requisitos de acesso à informação, estruturas, índices
e processos de optimização (clustering) são específicos das Data Warehouses.
– Bastante usual a arquitectura em estrela:
Subject Table
Dimension Table Dimension Table
Dimension Table Dimension Table
z
Arquitectura em Estrela
– Uma tabela central (Subject table) mantém a informação primária sobre o assunto da Data Warehouse.
– Rodeada por tabelas que representam os factores que influenciam (Dimension tables) a actividade.
z
Justificações:
– É uma arquitectura flexível o suficiente para permitir a adição de novas tabelas á medida que a Data Warehouse cresce.
– É facilmente perceptível para os implementadores e utilizadores da BD.
– Modela a forma como os utilizadores tipicamente raciocinam acerca de uma domínio.
• Facto central influenciado por vários factores.
– Muitos SGBD´s estão optimizados para construir junções em arquitecturas em estrela, potenciando a eficiência do sistema.
z
Arquitectura em Estrela - Exemplo
Rendimento
Tempo
Local
Clientes
Tipo
z Quando a complexidade do domínio aumenta, esta
arquitectura pode dar origem à "Floco de Neve" em que as tabelas terminais da estrela são também influenciadas por diversos factores e constituem elas próprias tabelas
centrais de outras estrelas.
S1 DS1 DS2 DS3 DS4 D3 D4 D1 D2 D10 D8 D7 D6 D9 D5 D = Dimension table S = Subject Table
– Desnormalização é factor bastante usual nas Data Warehouses.
– Uma vez que funcionam como armazém para os dados e
as suas alterações, tendem a apresentar dimensões elevadas.
– Necessidade de aplicação de mecanismos de
compressão sobre algumas tabelas ou atributos específicos.
– Encorajamento de operações paralelas, sem
z
Registo de Informação
– Uma das tarefas principais consiste na análise dos
objectivos dos utilizadores da Data Warehouses de
forma a poder implementar métodos que registem
a informação pretendida.
• Evolução de determinados factores (ao longo do dia,
hora, segundos, ...)
• Relação entre vários parâmetros
– Importante a percepção:
• Qual o objectivo principal da Data Warehouse?
• Que resultados se esperam obter após a análise da
z
Registo de Informação
– Fase seguinte consiste na captura da
informação necessária a partir dos
sistemas OLTP.
• SGBD´s internos / externos,
• Sinais do utilizador,
• Sensores,
• Etc...
OLTP OLTP OLAPz
Qualidade da Informação
– Utilizadores da Data Warehouse poderão não
ter:
• Conhecimentos específicos de informática.
• Conhecimento sobre significado de determinados
valores em campos específicos da BD.
– Necessidade da informação permanecer
legível.
– Substituição de códigos por valores com
significado intrínseco.
– No processo de transferência da informação,
tomar previdência de forma a que permaneça
legível.
z
Qualidade da Informação – Exemplo
– Análise da relação entre a categoria dos empregados da
firma “X” e a sua produtividade.
82% 2 62% 6 27% 5 17% 1 Produtividade Código_Categoria 82% Efectivo 62% Chefe de Linha 27% Estagiário 17% Condutor Produtividade Categoria
– Identificação de informação inválida ou
irrelevante.
– A implementação de valores por defeito pode
constituir um problema.
• Ao identificar valor "1/1/1900" em “Dt_Nascimento”
significa que o empregado tem realmente 103 anos, ou não?
– Ter em mente que a análise da informação será
feita por sistemas computacionais.
• Pouco racionais • Pouco flexíveis
z
Qualidade da Informação
– Necessário o estabelecimento de políticas
relativamente a anomalias (inevitáveis)
• Encontradas pelos implementadores. • Idenbtificadas pelos utilizadores finais.
– Inconsistências nos sistemas OLTP
reflectem-se nas Data Warehoureflectem-ses
• Ignorar inconsistencias?
• Corrigir o problema no sistema OLTP?
• Corrigir o problema na fase de importação da
– Tabelas automáticas de sumarização
• Constituem um dos factores principais com vista a
melhoria da eficiência de uma Data Warehouse
• Consistem em tabelas / vistas, actualizadas a partir de
eventos (triggers) e que sumariam o conteúdo de parcelas de informação.
• Alguns SGBD´s permitem a sua criação automática a
partir das funções matemáticas SQL:
– COUNT – SUM – AVG – MIN – MAX