• Nenhum resultado encontrado

Capítulo 3 Qualidade dos dados em SDWs

3.5 Os problemas da qualidade dos dados num SDW

3.5.1 Qualidade dos dados no SO

Figura 3-3 – Problemas nos dados no SO.

O problema central a nível do SO consiste, regra geral, no desconhecimento da veracidade dos dados existentes e dos níveis de qualidade que estes apresentam. As exigências ou requisitos dos consumidores podem não ser correspondidas adequadamente porque os dados disponíveis nas fontes são escassos ou apresentam problemas dificilmente reparáveis. A ponderação sobre a efectiva implementação dum SDW deve sempre levar em linha de conta se existe matéria-prima de boa qualidade na produção de informação. Neste sentido, o conhecimento sobre todas as ca- racterísticas das fontes que compõem o SO deve ser realizada. Esta questão faz ressaltar o apa- recimento de novas ferramentas, como sejam as técnicas de análise dos dados (e.g. data profi-

ling), tendo em vista a compreensão e apresentação de modo mais fiável das características das

fontes de dados [White, 2000]. Em [Kimball & Caserta, 2004] é exultado o interesse na utilização deste tipo de técnicas e é explicitado abertamente a opção pela desistência de concretização do SDW, caso os dados do SO não apresente os níveis exigíveis para tal realização. Portanto, a ga- rantia da boa qualidade dos dados no SO promove as bases para uma boa qualidade dos dados

nas camadas do SDW subsequentes. Por outras palavras, caso os dados constantes na camada inicial não sejam fiáveis, então a circulação dos dados no SDW dificilmente será de confiança. Ora, a existência de SOs perfeitamente limpos é praticamente impraticável e certamente dispen- sável de garantir. A natureza das fontes de informação é, geralmente, heterogénea e dispersa, isto é, os sistemas alvos da extracção dos dados apresentam-se estruturalmente muito distintos entre si. Acresce a possibilidade de integração de dados no DW provenientes de fontes internas e ex- ternas à organização, com fusos horários e localizações geográficas profundamente dispersas, denotando níveis de consistência, completude e exactidão duvidosas, provenientes de diferentes épocas temporais e apresentando os mais variados formatos (folhas de cálculo, sítios da web, imagens, colunas sobrecarregadas de valores, ficheiros de texto, base de dados hierárquicas, base de dados relacionais e até mesmo em suporte papel) (figura 3-3).

No domínio do SO, mesmo considerando as aplicações de captura de dados mais recentes, a introdução de dados continua a ser o principal foco de origem das debilidades da qualidade dos dados devido a diversos factores, como sejam [18] [Dataflux, 1999]:

– Aplicações de recolha de dados complexas e que induzem a inserção de erros (e.g. um campo que não especifica se deve ser inserido local de nascimento ou de residência). – Dificuldades na inserção completa e correcta dos dados por limitações temporais na reco-

lha dos dados ou pelo facto dos funcionários não estarem devidamente consciencializados e motivados para a importância da inserção de dados correctos e completos.

– Inserções involuntárias de dados válidos mas incorrectos (e.g. o operador digita a idade igual a 43 em vez de 34) ou voluntária de valores errados (e.g. inserção sistemática de va- lores por defeito ou valores fictícios).

Assim, a existência de erros nas bases de dados é uma consequência factual da vida das organi- zações e pode ser profundamente perturbadora na implementação e manutenção com sucesso dos SDWs. A inserção incorrecta de valores, de forma deliberada ou não, pode condicionar o su- cesso de um SDW, devido à existência da corrupção de valores de dados, possivelmente vitais, na base de dados. Ou pelo menos, na melhor das hipóteses fará subir os custos associados à trans- formação dos dados em vista a sua limpeza e adequação ao uso [Neely, 1998] [Novabase, 2002]. Este problema é agravado porque muitos dados apenas se encontram disponíveis em instantes pontuais ou de rara oportunidade de captação (e.g. os sinais vitais de um paciente) e a não inser- ção nessa ocasião inviabiliza a sua captação em momentos posteriores. A descoberta de soluções que implementem processos automáticos de introdução de dados é apontada como uma iniciativa

a optar [18]. Todavia, os SDWs não consistem somente em aplicações recentes possuidoras de características que assegurem a qualidade dos dados nas suas mais variadas vertentes, mas an- tes fundeiam-se numa diversidade de fontes de dados constantes nos SO, que compreendem algumas aplicações antigas, outras pobres em termos de consistência e integração dos dados, cuja a limpeza integral dos dados se torna irrealizável. Ainda segundo Inmon, se esperarmos que o SO apresente somente dados limpos, então o DW nunca será construído [18].

Em [Gonzales, 2004] é advertido para a determinação das melhores fontes de dados porque, por um lado, existem várias fontes que contêm os mesmos elementos e por outro lado, existem fontes que têm necessidade de serem complementadas com outras fontes (e.g. diferentes níveis históri- cos dos dados). Esta problemática complica-se ainda mais pela dificuldade na compreensão das próprias fontes de dados. Em especial, no que concerne à complexidade associada na movimen- tação de dados para e de outros sistemas (e.g. reconciliação de bases de dados, processos de fusão das organizações, substituição de sistemas informáticos), a aceitação de valores de quali- dade inferior nos sistemas e o entendimento estrutural das fontes (e.g. a existência num mesmo campo de dois tipos de valores, símbolos com significado especial). Assim, aliado aos problemas existentes, a pouca atenção prestada na manutenção de dados correctos e completos nos reposi- tórios dos metadados do SO são problemas verificáveis e geradores de entraves à implementação com sucesso do SDW [Olson, 2003]. Outro tipo de problemas verificável no SO consiste no modo como os dados são reflectidos num DW. A definição da política de refrescamento dos dados ade- quada às exigências dos consumidores tem necessariamente de ser enquadrada de modo, a que os dados disponibilizados mostrem padrões de actualidade compatíveis à tomada de decisões. Neste contexto, podemos inferir que o ambiente operacional é por excelência o local privilegiado para introduzir normas e princípios de qualidade sobre os dados. Este assunto tem assumido par- ticular destaque dadas as exigências de SDWs cada vez mais capazes e dotados de melhores características em termos do desempenho das consultas, segurança de acesso e ao nível da qua- lidade dos dados apresentada. Esta contingência corresponde às preocupações avançadas em [Kimball & Caserta, 2004] ao ser considerado que o tratamento e limpeza dos dados deve ser con- cretizado, na maioria das suas tarefas, no SO. Porém, a consciência dominante alerta para a pou- ca margem de manobra do administrador do DW em agir sobre o ambiente operacional, porque este assenta em aplicações e sistemas de dados enraizados e consolidados pela estrutura infor- mativa da organização. Assim, a manutenção duma auditoria preventiva e correctiva relativa à qualidade dos dados nas fontes, poder-se-á apresentar como um modo híbrido de antecipar e tratar alguns problemas existentes para que os esforços na construção dum DW possam ser me- lhor correspondidos, enquanto a estrutura funcional e organizativa permanecer inflexível.