• Nenhum resultado encontrado

3. Sistemas Data Warehouse

3.4 O Processo de Data Warehousing

Ambientes Data Warehouse integram o repositório de dados e esquemas multidimensionais a um processo definido, responsável por dar vida ao warehouse e suas tabelas. O processo de Data Warehousing compreende quatro grandes fases:

(a) Extração dos Dados, a partir de fontes operacionais heterogêneas (em sua maioria sistemas legados), distribuídas ao longo de inúmeros sistemas operacionais internos e/ou externos à organização. Dados são processados num esquema periódico, podendo ser adquiridos diretamente da fonte provedora, segundo condições pré- estabelecidas entre as partes, ou (mais comum) fornecidos por esta com base em padrões de integração definidos pelos projetistas do data warehouse. Os dados podem estar em formatos que vão desde tabelas relacionais a arquivos ASCII, o que requer sua tradução e adequação para a estrutura-padrão do repositório.

(b) Transformação do dado bruto, o que envolve basicamente a adaptação, limpeza e consolidação das informações antes de serem integradas ao warehouse. O objetivo principal dessa etapa é eliminar as diferenças semânticas entre o dado extraído e o esquema multidimensional adotado. A consolidação final resulta da execução de uma seqüência de atividades, dentre as quais (i) a equivalência entre atributos (ex. as duas primeiras posições do campo “status” na fonte são equivalentes ao “estado civil” no warehouse); (ii) resolução de sobreposições (overlappings – ex. os campos “matrícula” e “cod-cliente”, representando a mesma informação, com formatos diferentes); (iii) definição de chaves primárias e secundárias no warehouse; (iv) tratamento de diferenças semânticas (ex. traduzir o dado “Sexo” de “M” e “F” para “01” e “02”, respectivamente); e (v) complementação de dados ausentes (valores nulos, em branco ou zerados).

(c) Carga dos dados no repositório. Essa fase envolve a geração de programas para alimentação do banco de dados, num processo eminentemente batch. Devido ao alto volume de dados, técnicas especiais como processamento paralelo ou incremental

Capítulo 3 – Sistemas Data Warehouse

são utilizadas para aumentar a eficiência e garantir a entrega dos dados dentro dos requisitos de carga (data prevista, taxa de erros máxima, quantidades dentro do volume acordado). Durante essa fase, outras atividades são desempenhadas tais como a criação de índices, classificação e agregação de dados, particionamento de bases e checagem de integridade (controle de qualidade).

(d) Consulta aos dados consolidados, utilizando-se a estrutura multidimensional montada durante a fase de modelagem e as facilidades de ferramentas OLAP (ex. “obter a soma das vendas de produtos no ano 2000 categorizada por loja, tipo de produto, cidade e estado”). Aplicações data warehouse diferenciam-se de sistemas convencionais neste ponto pois a implementação de consultas se apóia na adaptação da ferramenta OLAP para as necessidades do usuário, ao invés de desenvolver interfaces proprietárias por intermédio de linguagens de programação. O desafio maior é tornar a interface aderente aos padrões de interoperabilidade e requisitos de qualidade estabelecidos pelo usuário. Por exemplo, o usuário pode definir que a interface seja desenvolvida para o ambiente Web e permita a geração instantânea de gráficos estatísticos a partir dos dados apresentados, com a mesma performance de aplicações cliente/servidor proprietárias com as quais está acostumado.

De fato, a construção de aplicações de suporte à decisão é um processo complexo e contínuo, influenciado diretamente pela dinâmica dos ciclos de vida das fontes provedoras. O subprocesso de Extração/Transformação/Carga, formado pelas fases (a), (b) e (c) respectivamente, é especialmente sensível a mudanças no conteúdo ou formato dos dados extraídos, as quais podem impactar toda a cadeia de alimentação do data warehouse. Para quebrar a complexidade desse processo em partes mais facilmente administráveis e permitir a coordenação dos grupos envolvidos, uma arquitetura em camadas (Figura 10) foi idealizada, onde cada nível encapsula ferramentas, métodos e procedimentos utilizados no ciclo de data warehousing.

Capítulo 3 – Sistemas Data Warehouse

Após a fase de Extração/Transformação/Carga (ETC), o dado integrado ao warehouse representa a consolidação de uma variedade de informações operacionais relevantes à tomada de decisão na organização. Essa gama de informações, contudo, nem sempre é significativa para todos os segmentos de negócio dentro da corporação. Alguns departamentos podem estar mais interessados, por exemplo, em realizar análises estratégicas sobre dados de vendas, em detrimento de montantes de reposição de estoque.

Por outro lado, o planejamento da construção de um data warehouse corporativo pode envolver dezenas de milhões de registros e uma centena de elementos multidimensionais, entre fatos e dimensões, aumentando os riscos da adoção de uma estratégia monolítica para montagem das diversas visões de negócio, todas a um mesmo tempo.

Figura 10. Arquitetura e Processo de Data Warehousing 7.

Inúmeros autores (MOODY e KORTINK, 2000; WATTERSON, 1998; KIMBALL, 1998; BREITNER, 1997; POWER, 2000) argumentam que uma solução mais viável é a divisão do data warehouse global em subconjuntos de dados significativos, que são alimentados de acordo com a visão departamental a que atendem.

7 Adaptado de (WATTERSON, 1998).

FONTES PROVEDORAS ÁREA DE TRABALHO DATA WAREHOUSE SUPORTE À DECISÃO

EXTRAÇÃO ADEQUAÇÃO LIMPEZA DERIVAÇÃO AGREGAÇÃO Bases de Sistemas Dados de Sistemas ERP Dados Locais Dados Externos Dados WEB DATA WAREHOUSE DATA MARTS ____ ____ Rendimentos Anuais ___ ___ ____ _____ ___ __ Relatórios EIS OLAP

Análise Financeira & Estatística

Capítulo 3 – Sistemas Data Warehouse

Esses mini-data warehouses são denominados Data Marts e constituem os blocos de construção dos modernos data warehouses. Segundo BREITNER (1997), data marts representam o ponto de partida para o projeto do Data Warehouse Corporativo da empresa, sendo desenvolvidos individualmente para cada departamento e depois combinados para formar uma visão de negócios global. Em muitos casos, a estratégia de construir data warehouses a partir de data marts revela-se uma opção mais rápida e barata, ao passo que o produto gerado funciona como protótipo para demonstração e validação evolutiva dos requisitos dos usuários. WATTERSON (1998) coloca ainda que os data marts possibilitaram que projetos em data warehouse deixassem de ser vistos como empreendimentos custosos e arriscados, e passassem a serem encarados como algo que toda organização necessita como forma de manter a sua competitividade no mercado.