2.4 DATA WAREHOUSE(DW)
2.4.5 Tipos de Arquitetura e de implementação de DW
A escolha da arquitetura é uma decisão gerencial do projeto, e está normalmente baseada nos fatores relativos à infraestrutura disponível, ao ambiente de negócios (porte da empresa), concomitantemente com o escopo da abrangência desejado, assim como a capacitação dos empregados da empresa e dos recursos disponibilizados ou projetados para investimento (MACHADO, 2010).
Ainda segundo o mesmo autor, nem sempre a prioridade é a escolha da arquitetura no começo de um projeto de DW. A arquitetura pode ser determinada ou modificada após o início da implementação, entretanto um longo tempo será despendido, se isso vier a ocorrer. A abordagem da implementação escolhida é uma decisão que pode causar impactos quanto ao sucesso de um projeto de DW. Muitas variáveis afetam a escolha da implementação e a arquitetura, entre elas o tempo para a execução do projeto, o retorno sobre o investimento a ser realizado, a velocidade dos benefícios da utilização das informações, a satisfação do usuário executivo e os recursos necessários à implementação de uma arquitetura.
Segundo o mesmo autor existem algumas arquiteturas, também chamdas de topologias, denominadas como: Arquitetura Global, podendo ser fisicamente centralizada ou fisicamente distribuída, Arquitetura de Data Mart Independente e Arquitetura de Data Marts Integrados.
Quanto a implementação ela pode ser Top Down, Implementação Bottom Up ou Implementação Combinada.
O DW é projetado e construído com base nas necessidades da empresa como um todo. É considerado um repositório comum de dados de suporte à decisão, disponível para toda a empresa, ou melhor em toda empresa (MACHADO, 2010).
Segundo o mesmo autor, a concepção inicial que o termo global nos remete é que o DW global é centralizado, porém na verdade reflete o escopo de acesso e utilização das informações na empresa.
Ainda, segundo o autor, a arquitetura global pode ser fisicamente centralizada ou fisicamente distribuída nas instalações de uma empresa. A centralização física é utilizada quando a empresa existe em um único local e o DW é administrado por um departamento de TIC. Já a distribuição física de um DW global é utilizada quando a empresa possui diversos locais físicos (instalações) e os dados em múltiplas instalações físicas com a administração também por um departamento de TIC.
O departamento de TIC administra o DW, sem necessariamente controla-lo. Por exemplo, nas instalações distribuídas ele pode ser controlado por um departamento em particular. É ponto comum que o departamento de TIC decide que dados devem entrar no DW e quando devem ser atualizados (carga incremental), como as pessoas dos departamentos autorizados, podem acessar os dados (MACHADO, 2010).
Ainda segundo o mesmo autor, a administração e a implementação devem ser realizadas por um departamento e profissionais específicos da área de TIC, considerando principalmente que é o departamento que administra as redes de comunicação de dados da empresa. A figura a seguir ilustra os dois caminhos de utilização de uma arquitetura global para DW.
Figura 2 - Arquitetura DW: Global (Distribuída / Centralizada)
Fonte: (MACHADO, 2010 p. 51)
A arquitetura DM independente é preferida pelos fornecedores de software, para consulta de informações de DW, pois é isolada e o trabalho de venda desses produtos encanta os olhos dos usuários (MACHADO, 2010). Ainda para Machado (2010, a arquitetura independente implica em Data Marts stand alone controlados por um grupo especifico de usuários e que atende somente às suas necessidades especificas e departamentais, sem foco corporativo nenhum. Desta forma, não há nenhuma conectividade entre os Data Mart(s) de um departamento com os demais, conforme demonstrado na Figura 3.
Figura 3 - Arquitetura de Data Mart Independente.
A arquitetura independente requer os mesmos perfis técnicos para a implementação, porém os recursos e pessoal operacional podem ser administrados por grupo de trabalho, ou departamento (MACHADO, 2010). Como ponto positivo podemos destacar a rapidez na implementação, entretanto sua restrição possui um mínimo de integração corporativa e não permite nenhuma visão global, sendo que normalmente esse tipo de DM está acessível somente ao pessoal do departamento especifico “proprietário” do DM.
Esta arquitetura é muito utilizada na prática no Brasil, e possivelmente mundialmente, resultado de atender os departamentos considerados do núcleo de negócios vital para a empresa, como por exemplo a área de vendas em uma empresa comercial.
Figura 4 - Arquitetura de Data Mart Integrados.
Fonte: (MACHADO, 2010 p.53).
Cada departamento é proprietário de seus dados, porém as ferramentas e recursos necessários para implementação são providos e administração por T.I.
Segundo FERREIRA (2002) a arquitetura de dados para um projeto de DW, se divide em duas partes: (a) a arquitetura geral dos dados ou topologias, e (b) funcional. As arquiteturas de dados mais comuns são:
Centralizada, caracterizada por um único DW que atende a toda a comunidade dos usuários;
Data Mart(s) independentes, constitui-se de vários DM ligados a um DW. Cada
DM tem um escopo de dados limitados orientados a um tema específico do
Data Mart(s) independentes, caracteriza-se pela ligação dos usuários aos respectivos DM, as quais fornecem as informações necessárias. Esta arquitetura oferece uma rapidez no desenvolvimento, baixo custo e controle local, ao invés de centralizado;
Data Warehouse Distribuído, consiste de vários DW interligados através de rede com forte suporte a processamento distribuído.
Na arquitetura funcional, o DW é construído a partir de duas partes distintas. A primeira parte é definida como área interna, onde são feitas as aquisições de dados a partir dos sistemas tradicionais ou de outras fontes quaisquer. O Dado é identificado, copiado, formatado e preparado para ser carregado no repositório de dados do DW, que pode ser administrado através do banco de dados relacionais ou dimensionais. A área de Staging armazena os dados que foram extraídos de fontes externas. A partir daí os dados são tratados, limpos e carregados no DW.
Figura 5 - Arquitetura funcional de um Data Warehouse.
Fonte: (FERREIRA, 2002) p.23.
Segundo (PERKINS, 1996) citado por (FERREIRA, 2002), ainda pode descrever como partes desta área:
A carga dos dados, permitindo o armazenamento dos dados transformados no servidor de apresentação;
Controle dos dados organizados, permitindo o monitoramento sobre o fluxo de dados, através de metadados;
Gerenciamento de recursos da área interna, possibilitando que o DW volte a trabalhar normalmente após a ocorrência de possível problema.
Ainda segundo o mesmo autor, a segunda parte é definida como a área externa, sendo a interface do usuário com o sistema. É basicamente, o front-end que é visto e no qual se trabalha, principalmente através de consultas. Fazem parte desta área:
O servidor de apresentação, onde os dados provenientes da parte interna, ficando a disposição dos usuários finais e
Ferramentas de acesso a dados e geradores de relatórios, permitindo aos usuários finais consultas ad-hoc.
Segundo FERREIRA (2002), tais ferramentas permitem operações que facilitam a acesso aos dados, possibilitando aumentar ou diminuir o nível de detalhes das consultas as tabelas dimensão e fato através dos seguintes recursos:
Drill-up/drill-down: permite navegar entre níveis de agregação, por agrupar e desagrupar todos progressivamente ((POE, 1998) apud (FERREIRA, 2002). Pivoting: permite agregar duas dimensões para comparar o resultado. Na prática, corresponde a modificação da posição das dimensões em um gráfico ou troca de linhas por colunas em uma tabela (DBMINER, 2001) apud (FERREIRA, 2002).
Slice and Dice: possibilita ver os dados de diferentes pontos de vista, reduzindo a dimensionalidade dos dados. Slice compreende a extração de informações sumarizadas em um cubo de dados e Dice é a extração de um subcubo ou a intersecção de vários slices;
Data Mining: é o processo de encontrar padrões ou correlações entre milhares de campos em grandes bases de dados, informações, que aparentemente estão camufladas ou escondidas, permitindo agilidade na tomada de decisões.