Ferramentas comerciais - Ferramentas de gestão dos dados

Capítulo 4 A Gestão da Qualidade dos Dados em SDWs

4.4 Ferramentas de gestão dos dados

4.4.2 Ferramentas comerciais

Relativamente às propostas apresentadas no domínio comercial podemos assistir a uma panóplia de ferramentas que abarcam, maioritariamente, as várias actividades inerentes à gestão dos dados em SDWs, em especial, aquelas relativas ao tratamento de imperfeições verificadas nos dados. O critério de escolha adoptado baseou-se nas ferramentas comummente referenciadas em publicações académicas e que denotam uma apetência para ambientes de DW. Inicialmente, as ferramentas abordavam, regra geral, o tratamento específico de uma acção ou de um conjunto diminuto de acções sobre os dados (e.g. a decomposição ou estandardização dos dados). Esta situação configurava uma necessária versatilidade na integração entre ferramentas capazes de garantir a complementaridade das actividades necessárias.

Actualmente, assiste-se ao desenvolvimento de ferramentas que procuram garantir a cobertura de todas actividades relativas ao back-end dos SDWs. Tendencialmente, os produtores de software têm vindo a aperfeiçoar os seus produtos como resposta às exigências actuais de uma gestão mais abrangente dos dados. O reconhecimento da importância da gestão dos dados em SDWs tem levado ao aparecimento de ferramentas que, conceptualmente, respeitam metodologias com- provadas, como seja o caso da TDQM e o ciclo PDCA. Todavia, estas soluções abrangentes de gestão dos dados revelam, por vezes, limitações de operacionalidade com o produto e apresen- tam-se como marcas proprietárias nos formatos de metadados, o que pode inviabilizar a concilia- ção de outras ferramentas [Rahm & Do, 2000]. A enunciação das ferramentas encontra-se dispos- ta de acordo com o aspecto específico a tratar no fluxo circulatório dos dados no SDW: análise dos dados, transformações e limpeza dos dados e ferramentas de ETL.

Análise dos dados

Esta classe de ferramentas ocupa-se da identificação de erros e inconsistências nos dados. As ferramentas nesta área procuram responder a questões comuns aquando da análise dos dados. Nomeadamente, sobre os dados e as fontes sobre a validade, a completude e o cumprimento das regras de negócio.

A WizWhy & WizRule, da WizSoft, Inc. [9], são duas aplicações que procuram inferir sobre os rela- cionamentos e regras entre as colunas e os seus valores. As regras permitem o estabelecimento de predições e revelam os padrões ocorridos nos dados. A WizWhy é uma aplicação de minera- ção de dados, que baseada em regras e padrões, permite estabelecer predições sobre os valores em casos futuros. O WizRule analisa as bases de dados e revela três tipos de regras: fórmulas matemáticas, estruturas condicionais e baseadas em dicionários. A ferramenta usa as regras e aponta os desvios relativamente a estas regras como erros nos dados [9] [8] [Rahm & Do, 2000]. A AXIO [8] disponibiliza um ambiente de profiling que descreve o conteúdo, a estrutura e as com- plexas estruturas de dados das bases de dados. A aplicação executa as acções de profiling em três dimensões: as colunas, as dependências e a redundância de valores. Os resultados obtidos pela execução da ferramenta permanecem num repositório e constituem-se como metadados sobre os dados avaliados.

Correcção e estandardização de dados

As ferramentas que fazem parte desta categoria são usualmente específicas no domínio de irregu- laridades a tratar. Geralmente, as técnicas consideradas consistem na extracção e transformação dos dados em elementos elementares estandardizados e individualizados (e.g. nomes e moradas).

O sistema proposto pela Trillium Software [10] disponibiliza duas aplicações: Trillium Software

Discovery e Trillium Software System. A primeira consiste numa aplicação de análise e profiling

dos dados, com o objectivo de revelar o conteúdo real dos dados. A ferramenta comporta também a possibilidade de monitorização dos dados, a validação dos dados com as regras do negócio e a análise de tendências. A segunda aplicação compreende as acções de limpeza e transformação dos dados através de quatro etapas: a investigação (informações sobre os registos actuais); a estandardização (representação dos dados de modo consistente); o enriquecimento (complemen- tação dos dados existentes) e a ligação (identificação dos relacionamentos entre as linhas). A integração das duas aplicações pretende seguir uma linha orientadora da metodologia TDQM. O software Athanor [8] possibilita uma compreensiva solução de tratamento da qualidade dos da- dos assente em cinco etapas: a auditoria dos dados, para medir o nível de qualidade dos dados e a natureza dos problemas com os dados; a aplicação de regras e objectivos, através de componentes disponibilizados pela ferramenta; o estabelecimento de planos de qualidade dos dados para a configuração de um conjunto de regras de estandardização; a execução dos planos em conjuntos de dados e as listagens das actividades desenvolvidas pelas acções executadas e que permitem uma monitorização da qualidade dos dados.

Duplicação de valores

A duplicação de dados é um dos desafios mais comuns e difíceis de enfrentar em ambientes de DW. A reunião de dados provenientes de diferentes localizações e respeitando esquemas e formatos diferenciados dificulta ainda mais este processo. Assim, esta tarefa deve ser executada após as etapas comuns de transformação dos dados e no momento da reunião dos mesmos.

A ferramenta MatchIT [12], da helpIT Systems Limited, apresenta um alto nível de interactividade com os utilizadores e permite a estes a especificação de critérios de correspondência entre linhas, através da combinação de funções aplicáveis às colunas. A confrontação entre linhas é apenas realizada sobre aquelas que respeitam o mesmo critério de correspondência. Deste modo, reali- zam-se diferentes pesquisas para diferentes critérios. A enunciação dos critérios pode ser aperfei- çoada por uma matriz de importância, que atribui diferentes pesos aos critérios a ponderar. A con- frontação é realizada coluna a coluna das linhas comparadas. As linhas identificadas como seme- lhantes são agrupadas num local, constituindo segmentos de linhas [7] [Rahm & Do, 2000].

O Group1 Software [13] disponibiliza uma ferramenta, Merge/Purge Plus, que permite inicialmente, efectuar as operações de limpeza dos dados em nomes e moradas e posteriormente, realizar ope- rações de correspondência entre linhas. A ferramenta fornece diferentes opções de correspondên-

cia entre linhas, desde ligeiramente duplicadas até à duplicação integral das linhas. Após a defini- ção da linha representativa, é possível a remoção das linhas não desejadas [Neely, 1998] [7] [Rahm & Do, 2000].

Ferramentas de ETL

Algumas ferramentas comerciais suportam, de modo compreensivo, os processos de ETL em SDWs. Geralmente, recorrem a um repositório assente num SGBD que efectua a manutenção dos metadados, de modo integrado e uniforme, sobre as fontes de dados, esquemas alvo, mapeamen- tos e processos envolvidos. Os esquemas e os dados são extraídos do SO por meios de ligação estandardizados. As operações de transformação e limpeza dos dados são realizadas de maneira acessível e permitem a interacção do utilizador. Normalmente, na etapa de mapeamento recorre- se a uma linguagem de regras proprietária e a uma biblioteca de funções de conversão predefini- das (e.g. formatos dos dados). Algumas propostas permitem a possibilidade de incorporar ferramentas externas capazes de realizar um tratamento específico mais adequado (e.g. limpeza de nomes e endereços e eliminação de duplicados) [Rahm & Do, 2000].

O pacote dfPowerStudio, disponibilizado pela Dataflux [14], pretende abarcar as actividades do processo de ETL. A ferramenta procura seguir conceptualmente o ciclo PDCA e nesse propósito estabelece a gestão dos dados numa sequência de cinco grandes actividades: o profiling, a quali- dade, a integração, o enriquecimento e a monitorização dos dados. Deste modo, a gestão dos dados fornece as funcionalidades necessárias para a construção de um repositório de dados consistente, correcto e fiável.

A NCR disponibiliza duas ferramentas, Teradata Warehouse e Teradata Warehouse Miner, capa- zes de assegurarem de modo integrado e consistente as tarefas de Back-end que envolvem os SDWs. A Teradata Warehouse permite que os processos envolventes à qualidade dos dados se- jam garantidos dentro da arquitectura dum SDW e compreende como principais componentes: o motor de regras, o profiling e auditoria dos dados e as operações de transformação e limpeza. A primeira componente, o motor de regras, é o local que define os processos de qualidade dos da- dos e as métricas usadas para determinar essa qualidade. O profiling e auditoria dos dados permi- tem a aferição quer dos dados existentes nas fontes, quer dos dados localizados no repositório do DW. As operações de transformação e limpeza decorrem durante as fases de propagação dos dados para a ARD e para o repositório do DW [Gonzales, 2003].

A ferramenta Teradata Warehouse Miner cobre uma área alargada das tarefas de profiling, audito- ria, limpeza e transformação dos dados. O profiling dos dados compreende o entendimento sobre

os dados existentes no SO, em especial: a correcção, a consistência, a completude e a integrida- de. Para isso, são fornecidas as seguintes funções: análise de valores, frequências, análises esta- tísticas, histogramas e árvores de decisão. A auditoria dos dados considera um policiamento ou monitorização dos dados inseridos nas fontes, baseada no profiling dos dados obtido e nos níveis de qualidade especificados (e.g. frequência, histograma, etc.). As operações de limpeza permitem a alteração do código SQL gerado pela aplicação de modo a realizar as tarefas pretendidas. A ferramenta disponibiliza várias funções que constituem as operações de transformação mais comuns: a integração, a agregação e a estandardização [Gonzales, 2003].

Uma outra ferramenta, recente no mercado, procura disponibilizar uma solução potente e flexível, capaz de efectuar uma eficiente gestão dos dados em SDWs [Iwaysoftware, 2004]. Neste sentido, é dotada de quatro características: acesso directo ao SO, soluções de ETL robustas e rápidas, gestão compreensiva dos metadados e análise dos recursos envolvidos. A primeira, o acesso directo ao SO, pretende salientar a facilidade dos adaptadores no acesso a fontes heterogéneas. A segunda respeita a uma gestão do processo de ETL compreensiva e potente, que assenta num conjunto de ferramentas que simplificam a criação, manutenção e expansão do DW. A facilidade de utilização assenta na interactividade na condução das operações pelo utilizador. Em seguida, o processo de ETL incorpora as capacidades de Change Data Capture (CDC). Esta capacidade responde perante as necessidades de gestão incremental dos dados e redução da janela de opor- tunidade disponível, ou seja, apenas os dados inseridos, actualizados e removidos são considera- dos em futuras migrações dos dados provenientes das fontes e a carregar no repositório de DW. Por último, todo o sistema encontra-se suportado numa plataforma de metadados que possibilita uma gestão integrada, compreensiva e aberta dos mesmos [Iwaysoftware, 2004].

No documento A gestão da qualidade dos dados em ambientes de data warehousing na prossecução da excelência da informação (páginas 140-144)