Processo de ETL

2.9 Ambiente do Armazém de dados

Transform and Load), que representa a Extração, Transformação e Carregamento ou

Figura 7: Arquitetura de um armazém de dados Fonte: Silberschatz, Korth e Sudarshan (2012, p. 561)

Figura 8: Etapas de trabalho temporário de um armazém de dados Fonte: Kimball e Caserta (2004, p. 18)

2.9 Ambiente do Armazém de dados

2.9.1 Processo de ETL

O processo de extração de dados provenientes de diferentes fontes e consolidação para o armazém de dados é comumente chamado de ETL (Extract,

Carga (sigla em português ETC) (KIMBALL, 2004; LANE; POTINENI, 2014).

Conforme Inmon (2005, p. 111), o software ETL automatiza o processo de conversão, a reformatação, e integração de múltiplas fontes de dados operacionais legados.

Remover erros e corrigir dados faltantes;

Ajustar dados de várias fontes para serem usado em conjunto;

Estruturar e fornecer dados para serem utilizados por ferramentas de usuário final;

Agregar valor aos dados nas etapas de limpeza e ajuste;

Proteger e documentar a linhagem de dados.

O sistema ETL é a base do armazém de dados (KIMBALL; CASERTA, 2004 pg. XXI). Seu principal propósito é alimentá-lo para que sejam acessados diretamente por ferramentas de apoio à decisão (KIMBALL; CASERTA, 2004, p. 20).

A metodologia e as tarefas de ETL têm se tornado muito populares, e já não são necessariamente exclusividades de ambientes de armazéns de dados (LANE;

POTINENI, 2014).

Existem quatro etapas de trabalho temporário (Staging Steps) encontrados em quase todos os armazéns de dados, como mostrado na Figura 8 (KIMBALL;

CASERTA, 2004, p. 17).

Os detalhes referentes as etapas do ETL são abordadas a seguir.

2.9.1.1 Extração

A extração é o processo de captura de dados de fontes de dados diversas e bancos de dados operacionais (DATE, 2003, p. 600).

Corresponde a coleta de dados dos sistemas de origem extraindo-os e transferindo-os para o ambiente do armazém de dados (KIMBALL, 2004).

É a operação de extração de dados de um sistema de fonte para posterior utilização num ambiente de armazenamento de dados. Este é o primeiro passo do processo de ETL. Após a extração, estes dados podem ser transformados e carregados no armazém de dados. (LANE; POTINENI, 2014)

Métodos de extração físicos

O processo de extração tende a ser muito intenso em termos de E/S e essas

"extrações físicas" podem causar problemas para o processamento subsequente, pois pode haver perda de informações (como informações sobre relacionamentos) representadas de algum modo físico (DATE, 2003, p. 601).

Tal estrutura off-line pode já existir ou ele pode ser gerado por uma rotina de extração (LANE; POTINENI, 2014).

Extração on-line

Com extrações on-line, é preciso considerar se as transações distribuídas estão usando objetos de origem originais ou objetos de origem preparados (LANE;

POTINENI, 2014).

Extração off-line

(LANE; POTINENI, 2014)

2.9.1.2 Limpeza

Fontes de dados raramente controlam a qualidade dos dados de forma adequada. Como consequência, os dados exigem limpeza (cleansing) e processamento dos dados antes de poderem ser introduzidos no banco de dados de apoio à decisão, como mostrado na Figura 9 (DATE, 2003, p. 601; (LANE;

POTINENI, 2014).

As operações de limpeza típica incluem (DATE, 2003, p. 601):

preenchimento de valores omitidos,

correção de erros de entrada de dados e digitação,

estabelecimento de abreviações e formatos padronizados,

substituição de sinônimos por identificadores padrão, entre outros.

Dados reconhecidos como errados e que não podem ser limpos são rejeitados. As informações obtidas nesta etapa podem ser usadas para melhorar a qualidade dos dados com o tempo (DATE, 2003, p. 601).

Na maioria dos casos, o nível de qualidade de dados aceitável para os sistemas de origem é diferente da qualidade exigida pelo armazém de dados. O processamento de qualidade de dados pode envolver várias etapas, que incluem (KIMBALL, 2004, p. 18):

a verificação de valores válidos: por exemplo, se o valor do CEP corresponde ao intervalo de valores válidos;

garantir a consistência entre os valores: exemplo, se o CEP e a cidade correspondem;

remoção de duplicações: exemplo, se o mesmo cliente aparecer duas vezes com atributos um pouco diferentes;

verificação se as regras e procedimentos complexos de negócios foram aplicadas: exemplo, se o cliente “Platinum” têm associado o status de crédito estendido.

(KIMBALL; CASERTA, 2004, p. 18)

655).

2.9.1.3 Transformação e consolidação

Na prática, o resultado é um conjunto de arquivos para cada tabela identificada no esquema físico e a transformação dos dados envolverá a divisão e/ou combinação de registros de origem (DATE, 2003, p. 601).

Transformação de dados concentra-se em atividades que proporcionam contexto organizacional entre elementos de dados, entidades e áreas tema.

Contexto organizacional envolve referência cruzada, referência e gerenciamento de

dados mestres, e relacionamentos completos e corretos. Transformação de dados é um componente essencial para permitir integrar dados de várias fontes (MOSLEY et al., 2009, p. 231).

Cabe a etapa de transformação algumas tarefas (SILBERSCHATZ, KORTH e SUDARSHAN, 2012, p. 561):

limpeza de dados

eliminação de duplicidade (mesclar-excluir ou merge-purge)

agrupamento de registros (householding)

transformação de dados: mudança de unidades de medida, conversão de dados, junção de dados

2.9.1.4 Carga

(LANE; POTINENI, 2014)

Para Date (2003, p. 601) as operações de carga incluem:

mover os dados transformados e consolidados para o banco de dados de apoio à decisão;

verificar a consistência dos dados (verificação de integridade);

construir índices necessários.

a) mover os dados

b) verificação da integridade

c) construção de índices

Segundo o autor, pode ser uma boa ideia descartar índices antes da carga, e

criá-los novamente na sequência. Pois a presença de índices pode diminuir

drasticamente a velocidade do processo de carga, devido a maioria dos produtos

atualizar índices à medida que cada linha é inserida na tabela básica. Isso não

valeria a pena quando a razão entre dados novos e dados existentes é pequena,

pois o custo de se criar um índice não é proporcional ao tamanho da tabela a ser

indexada (DATE, 2003, p. 602).