• Nenhum resultado encontrado

Capítulo 3 Qualidade dos dados em SDWs

3.4 As razões da fraca qualidade dos dados em SDWs

3.4.2 Natureza operacional

As razões da fraca qualidade dos dados podem ser observadas no âmbito dos motivos operacio- nais responsáveis pela fraca qualidade dos dados num SDW. Assim, para um melhor entendimen- to das causas dos problemas, é possível cruzar essas causas com os diferentes componentes constituintes da arquitectura dum SDW: o SO, a ARD, o repositório do DW e os DMs.

Sistema operacional

O SO assume importância vital nos SDWs porque são a nascente do fluxo circulatório dos dados que percorrem todo o sistema. Como tal, um factor que pode implicar a falta de qualidade dos dados prende-se com os dados existentes ou não nas fontes de informação, isto é, não podemos exigir ao sistema respostas sobre dados que não possui, ou que é impossível obter. Ou de modo mais ténue, sobre dados vincados por falhas de qualidade irrecuperáveis nas diversas proprieda- des que os caracterizam: consistência, acessibilidade, validade, exactidão e relevância.

A recolha e o armazenamento de dados sujos no SO ocorre devido a um leque alargado de ques- tões, como sejam, segundo [Inmon et al., 1998]: a elementos opcionais no software de aquisição de dados, ao facto dos elementos de software serem definidos duma forma e o programador deci- dir doutro modo e a especificações incorrectas desde o princípio. Ainda neste âmbito, em [English, 1999] é realçada a pouca integração dos dados dispersos e redundantes, a aceitação de valores falsos, geralmente, dificilmente reparáveis, a inexistência de uma análise de requisitos que satisfa- ça os anseios dos utilizadores e a proliferação e variedade de erros nos dados no SO das organi- zações. Este é um tema particularmente caro para Olson, pois considera que os processos de tratamento dos dados no SO, em especial, aqueles relacionados com a aquisição dos dados con- dicionam as futuras utilizações dos mesmos [Olson, 2003].

Área de retenção dos dados

Normalmente, a preocupação com a qualidade dos dados existentes no SO ocorre no momento destes serem usados no DW. Neste instante, várias opções podem surgir. A primeira, segundo

English, constitui um dos erros típicos na implementação de SDWs e passa pela assumpção que

as fontes de dados são boas porque o SO funciona bem [English, 2002a]. Uma segunda opção, mais consciente, poderá passar pelo abandono do projecto devido à proliferação de dados irregu- lares no SO que inviabiliza a construção de um SDW fiável e possuidor das características ade- quadas ao uso [Kimball & Caserta, 2004]. Por último, na opção mais comum, os problemas de qualidade dos dados tendem a ser melhor ou pior resolvidos na ARD afim de obter um repositório de dados de melhor qualidade. Este local deverá ser capacitado dos processos necessários para

resolver os problemas relativos aos dados provenientes da diversidade de fontes dispersas e de natureza heterogénea, as incompatibilidades ao nível da estrutura de chaves, da estrutura dos dados, da codificação dos dados, da definição dos dados, da detecção de valores duplicados, das características físicas dos dados, entre outras [Inmon et al., 1998]. Assim, os problemas com suji- dade dos dados são tratados e estes uma vez rectificados são carregados durante o primeiro car- regamento dos dados no DW.

Nos carregamentos subsequentes dos dados, os cuidados e rectificações tendem a ser análogos aos ocorridos no primeiro carregamento. Usualmente, os carregamentos posteriores não resultam de reposições integrais da totalidade dos dados, mas antes de incrementos aos dados já existen- tes e que se designam por carregamentos incrementais. Esta opção é justificada pela redução do volume de dados a incorporar num DW e pelo tempo disponível concedido durante a janela de oportunidade [Chaudhuri & Dayal, 1997]. Assim, a exigência de uma maior prontidão das informa- ções, pelos consumidores finais do sistema, poderá implicar uma maior rapidez deste processo, que ocorre durante uma janela de oportunidade temporal. Porém, a janela de oportunidade poderá não ser suficientemente ampla para albergar integralmente todo o processo de ETL dos dados e em consequência originar a ocorrência de dados imperfeitos ou incompletos no DW. Ora, os con- sumidores finais podem optar pela rapidez ou presença de dados frescos em detrimento da perfei- ção dos dados, pois caso contrário alguns dados poderiam nunca se encontrar disponíveis no momento da tomada das decisões. Na verdade, muitos utilizadores do DW necessitam menos do que dados perfeitos para efectuar as análises, estatísticas e agregações sobre os dados [Cappiel- lo et al., 2004]. Na óptica da tomada de decisão o uso da melhor informação poderá não ser a mais completa o que pode viabilizar a existência de dados não perfeitos no sistema [PMBok, 2000]. Assim, a premência na obtenção de informações apresenta-se como um outro factor para a existência de dados imperfeitos [18]. Assim, a focalização dos recursos em vista a melhoria do desempenho em vez da garantia de uma melhor qualidade dos dados revela-se como mais um erro fulcral na implementação de SDWs [English, 2002a]. Na prática, o desequilíbrio entre as di- mensões dos dados pode originar falhas na qualidade destes.

Neste contexto, verificamos que a ARD se mostra o local, por excelência, guardião da qualidade dos dados, mas igualmente, uma zona susceptível de gerar anomalias nestes porque existem muitos detalhes a merecerem a necessária ponderação de forma a afiançar o cumprimento eficaz e eficiente das tarefas, dos constrangimentos e dos critérios a respeitar. A objectividade e clareza das actividades que envolvem o processo de ETL são um factor condicionante para a obtenção dos dados de acordo com os requisitos definidos [Kimball & Caserta, 2004]. A falha ou debilidade num processo de tratamento dos dados pode ser a causa da existência de problemas a nível da

qualidade dos dados e consequentemente, provocar um impacto negativo na organização. Mesmo considerando que estas questões se encontram em vias de resolução, outros contratempos po- dem surgir que abanam a estrutura de garantia da qualidade dos dados existente, como seja a adição de novas fontes de dados ao SO, a substituição de algumas fontes de dados existentes ou a introdução de dados não estruturados (e.g. mensagens de email, imagens, etc.) [Inmon, 2006b]. A ocorrência destas contingências pode comprometer que alguns dos processos deste local se tornem incompletos, ultrapassados ou incorrectos (e.g. regras de transformação obsoletas ou a alteração das regras do negócio).

Repositório do DW

A imperfeição dos dados contidos num DW deve-se, essencialmente, à circunstância dos dados existentes no repositório assentarem em dados históricos, isto é, os dados existentes no sistema reportam-se a períodos de tempo alargados. Esta situação pode provocar a inoperacionalidade do valor dos próprios dados, em virtude do enquadramento temporal ser outro e das regras ou requi- sitos de negócio terem-se modificado [18]. Deste modo, apesar das condições do negócio serem outras, os dados introduzidos anteriormente mantêm-se inalterados. Mesmo considerando que o SO se apresenta completamente limpo e que os processos de integração e transformação sejam considerados perfeitos (o que não é verdade), continuarão a existir dados sujos no DW, devido à idade e consequente desactualização destes no próprio sistema [Olson, 2003]. Portanto, os dados deterioram-se com o tempo (e.g. fusões ou separações de organizações, a mudança de sistema informático, a mudança do próprio negócio ou os dados pessoais e de gestão dos clientes).

Data marts

Os DMs são a camada directamente em contacto com os consumidores e por isso podem revelar questões particularmente críticas em relação aos dados. Estas questões podem-se perspectivar como anomalias de interpretação, credibilidade e utilidade dos dados apresentados e que decor- rem da origem semântica dos dados e da multiplicidade de consumidores existentes. Mesmo con- siderando-se, por hipótese, a correcção dos dados, a variedade de consumidores, certamente, origina diferentes interpretações sobre estes. Igualmente problemática revela-se o desprovimento da capacidade de julgamento sobre razoabilidade dos dados por parte dos consumidores, uma vez que estes não possuem qualquer responsabilidade pela integridade dos dados. Daí a impor- tância da credibilidade das fontes de dados presentes no sistema [Ballou & Tayi, 1998].

Ainda neste local é necessário salientar o dinamismo associado ao negócio das organizações e consequentemente às plataformas tecnológicas que lhe servem de suporte porque podem exigir a mudança dos requisitos dos consumidores finais ou a entrada de novos consumidores de informa-

ção no sistema. Pressupondo que um SDW não possui as capacidades para estas novas exigên- cias da organização a reclamação de uma manutenção adequada e precisa que vise a introdução de novas perspectivas sobre os dados e a qualidade dos mesmos torna-se fundamental.