• Nenhum resultado encontrado

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses.

N/A
N/A
Protected

Academic year: 2021

Share "- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses."

Copied!
20
0
0

Texto

(1)

A crescente necessidade de sistemas

“inteligentes” e de aquisição de conhecimento

levaram à necessidade de implementação de

Data Warehouses.

-

O que é uma Data Warehouse ?

- “Colecção de bases de dados orientadas por assunto e

desenhadas para suportar sistemas de apoio à decisão” (William Inmon)

- Bases de dados desenhada e optimizada para um tipo

(2)

Orientada por Assunto

– A informação contida numa Data Warehouse pertence a

um domínio específico, em vez de englobar as necessidades específicas de uma organização

z

Integrada

– Apesar da informação poder ter origem diversas,

deve-se encontrar num estado estável e coerente.

z

Variação temporal

– Toda a informação contida numa Data Warehouse esta

associada a um intervalo específico de tempo.

z

Não-Volatilidade

– Toda a informação é estável dentro da Data Warehouse.

(3)

determinado tipo de informação por forma a permitir a aplicação de sistemas de aquisição de conhecimento.

z Aquisição de conhecimento não-imediato a partir da análise factual de uma BD.

z Normalmente alimentadas por um ou vários sistemas OLTP.

– Sistemas de inferência. – Geração de regras.

• Arvore de decisão

– Algoritmos de agrupamento (Clustering) – Sistemas de apoio à decisão

(4)

OnLine Transaction Process (OLTP)

– Enquadramento das bases de dados tradicionais. – Âmbito de trabalho Æ Transação

– Quantidade de informação Æ Grupos de linhas – Natureza da informação Æ Primitiva

– Volatilidade da informação Æ Alta – Tempo de resposta Æ Segundos

– Prioridades Æ Desempenho e avaliabilidade – Tipos de acessos Æ Predefinidos e estáticos

(5)

OnLine Analytical Process (OLAP)

– Enquadramento das Data Warehouses

– Âmbito de trabalho Æ Base de dados inteira

– Quantidade de informação Æ Linhas individuais – Natureza da informação Æ Derivada

– Volatilidade da informação Æ Baixa – Tempo de resposta Æ Horas, dias, ... – Prioridades Æ Flexibilidade

(6)

z

Tabela Clientes

– BD Tradicional

• Criação da tabela • Inserção de elementos • Alteração de elementos • Remoção de elementos

• Consulta da informação desejada

– Data Warehouse

• Instante em que foram adicionados, alterados ou eliminados elementos.

• Aquisição de conhecimento sobre as alturas em que normalmente se inserem, alteram ou removem

elementos Secret. Ikj 73 Carla 2 Director Odk 55 Paulo 6 Operário Dfg 24 José 5

(7)

z

Administração de Data Warehouses

– São acedidas essencialmente para operações

de leitura

– Aplicação de processos analíticos sobre a

informação.

– Tal como nas Bases de Dados tradicionais:

• Conhecimento prévio das operações a efectuar.

• Conhecimento prévio das aplicações a aceder à BD.

– Arquitectura – Tipo de acesso – Consultas-Padrão – ...

(8)

z

Desenho de Data Warehouses

– Requisitos de acesso à informação, estruturas, índices

e processos de optimização (clustering) são específicos das Data Warehouses.

– Bastante usual a arquitectura em estrela:

Subject Table

Dimension Table Dimension Table

Dimension Table Dimension Table

(9)

z

Arquitectura em Estrela

– Uma tabela central (Subject table) mantém a informação primária sobre o assunto da Data Warehouse.

– Rodeada por tabelas que representam os factores que influenciam (Dimension tables) a actividade.

z

Justificações:

– É uma arquitectura flexível o suficiente para permitir a adição de novas tabelas á medida que a Data Warehouse cresce.

– É facilmente perceptível para os implementadores e utilizadores da BD.

– Modela a forma como os utilizadores tipicamente raciocinam acerca de uma domínio.

• Facto central influenciado por vários factores.

– Muitos SGBD´s estão optimizados para construir junções em arquitecturas em estrela, potenciando a eficiência do sistema.

(10)

z

Arquitectura em Estrela - Exemplo

Rendimento

Tempo

Local

Clientes

Tipo

(11)

z Quando a complexidade do domínio aumenta, esta

arquitectura pode dar origem à "Floco de Neve" em que as tabelas terminais da estrela são também influenciadas por diversos factores e constituem elas próprias tabelas

centrais de outras estrelas.

S1 DS1 DS2 DS3 DS4 D3 D4 D1 D2 D10 D8 D7 D6 D9 D5 D = Dimension table S = Subject Table

(12)

– Desnormalização é factor bastante usual nas Data Warehouses.

– Uma vez que funcionam como armazém para os dados e

as suas alterações, tendem a apresentar dimensões elevadas.

– Necessidade de aplicação de mecanismos de

compressão sobre algumas tabelas ou atributos específicos.

– Encorajamento de operações paralelas, sem

(13)

z

Registo de Informação

– Uma das tarefas principais consiste na análise dos

objectivos dos utilizadores da Data Warehouses de

forma a poder implementar métodos que registem

a informação pretendida.

• Evolução de determinados factores (ao longo do dia,

hora, segundos, ...)

• Relação entre vários parâmetros

– Importante a percepção:

• Qual o objectivo principal da Data Warehouse?

• Que resultados se esperam obter após a análise da

(14)

z

Registo de Informação

– Fase seguinte consiste na captura da

informação necessária a partir dos

sistemas OLTP.

• SGBD´s internos / externos,

• Sinais do utilizador,

• Sensores,

• Etc...

OLTP OLTP OLAP

(15)

z

Qualidade da Informação

– Utilizadores da Data Warehouse poderão não

ter:

• Conhecimentos específicos de informática.

• Conhecimento sobre significado de determinados

valores em campos específicos da BD.

– Necessidade da informação permanecer

legível.

– Substituição de códigos por valores com

significado intrínseco.

– No processo de transferência da informação,

tomar previdência de forma a que permaneça

legível.

(16)

z

Qualidade da Informação – Exemplo

– Análise da relação entre a categoria dos empregados da

firma “X” e a sua produtividade.

82% 2 62% 6 27% 5 17% 1 Produtividade Código_Categoria 82% Efectivo 62% Chefe de Linha 27% Estagiário 17% Condutor Produtividade Categoria

(17)

– Identificação de informação inválida ou

irrelevante.

– A implementação de valores por defeito pode

constituir um problema.

• Ao identificar valor "1/1/1900" em “Dt_Nascimento”

significa que o empregado tem realmente 103 anos, ou não?

– Ter em mente que a análise da informação será

feita por sistemas computacionais.

• Pouco racionais • Pouco flexíveis

(18)

z

Qualidade da Informação

– Necessário o estabelecimento de políticas

relativamente a anomalias (inevitáveis)

• Encontradas pelos implementadores. • Idenbtificadas pelos utilizadores finais.

– Inconsistências nos sistemas OLTP

reflectem-se nas Data Warehoureflectem-ses

• Ignorar inconsistencias?

• Corrigir o problema no sistema OLTP?

• Corrigir o problema na fase de importação da

(19)

– Tabelas automáticas de sumarização

• Constituem um dos factores principais com vista a

melhoria da eficiência de uma Data Warehouse

• Consistem em tabelas / vistas, actualizadas a partir de

eventos (triggers) e que sumariam o conteúdo de parcelas de informação.

• Alguns SGBD´s permitem a sua criação automática a

partir das funções matemáticas SQL:

– COUNT – SUM – AVG – MIN – MAX

(20)

z

Consistência da informação

– Informação nos sistemas OLTP-fonte

está permanentemente a mudar

• Necessidade de actualização da Data

Warehouse.

– Implementação de mecanismos que

determinem o grau de actualização da

Data Warehouse

• Grau de confiança nos resultados obtidos

Referências

Documentos relacionados

atendimento integral ao portador de fissura de lábio e/ou palato, referente às ações e serviços odontológicos nos três níveis de atenção a saúde (primário, secundário

Os métodos clássicos de determinação dos coeficientes, que possuem boa qualidade de estimativa e grande estabili- dade, têm alto custo computacional no problema de super-resolução;

Plantio: Março (sementes), outubro e novembro (estacas) Característica botânica: Planta subarbustiva, perene.. Os ramos são

O fato da contagem total de hemócitos no experimento com o agroquímico Talcord não ter sido diferente significativamente entre o controle e os dois tratamentos onde os

Inicialmente, destacamos os principais pontos de convergência: • O papel tático e operacional exercido pela área de TI dos Câmpus é claramente identificável, tanto nos

Para preparar a pimenta branca, as espigas são colhidas quando os frutos apresentam a coloração amarelada ou vermelha. As espigas são colocadas em sacos de plástico trançado sem

dois gestores, pelo fato deles serem os mais indicados para avaliarem administrativamente a articulação entre o ensino médio e a educação profissional, bem como a estruturação

2 - OBJETIVOS O objetivo geral deste trabalho é avaliar o tratamento biológico anaeróbio de substrato sintético contendo feno!, sob condições mesofilicas, em um Reator