Da qualidade nos dados - A Problemática da Qualidade dos Dados

Capítulo 2- A Problemática da Qualidade dos Dados

2.3 Da qualidade nos dados

2.3.1 A adopção do conceito pelas ciências informáticas

A gestão da qualidade dos dados é uma preocupação assumida desde meados da década de sessenta por parte dos investigadores em estatística [Scannapieco & Catarci, 2002]. As suas preocupações centravam-se no tratamento de conjuntos de dados (e.g. a duplicação de valores no mesmo conjunto de dados). É, ainda hoje, uma área de ocupação nas investigações no ramo da estatística [Brackstone, 2001]. Durante a década de oitenta, as investigações no campo da gestão

assumiram a problemática da qualidade dos dados como fonte de pensamento e objecto de estudo. Apenas no início da década de noventa, o tema mereceu a devida atenção pelas ciências in- formáticas. Pois, até essa altura não se registam investigações, estudos ou livros temáticos. Em [English, 2001] perspectiva-se a história e regulação da qualidade dos dados de forma similar à ocorrida durante as grandes eras agrícola e industrial. Assim, a década de noventa é dividida em duas partes iguais. Na primeira metade, dá-se o nascimento da problemática em torno da qualidade dos dados como área merecedora de devida atenção por parte dos investigadores. Nesta fase surgiram as primeiras investigações a nível académico como sejam: a tese de Mark Hansen, Zero

Defect Data: Tackling the Corporate Data Quality Problem, pelo Massachussets Institute of Tech- nology; o programa de TDQM, desenvolvido por Wang [17] e promovido igualmente pelo mesmo

instituto; a elaboração do primeiro livro sobre o tema, por Redman; o aparecimento das primeiras tecnologias de limpeza dos dados que visavam debelar algumas irregularidades nos dados e surgiram algumas conferências de ciências informáticas abordando o assunto.

Na segunda metade da década de noventa, deu-se um aumento significativo dos problemas rela- cionados com a qualidade dos dados, provocado pelo aumento em qualidade e quantidade das tecnologias de software e pelo aceleramento na perda do controlo dos processos de gestão dos dados [English, 2001]. O crescimento exponencial da circulação e processamento de dados, em especial, motivada pelo uso da Internet e toda a economia vindoura inerente, acentuou os problemas nos dados existentes e potenciou novos conjuntos de falhas nos dados. A par desta tendên- cia, o domínio da qualidade dos dados passou a ser encarado como área de estudo autónoma e, por isso, diversas investigações, estudos, relatórios e soluções de limpeza de dados acentuaram a sua acção em torno da problemática dos dados. O crescimento acentuado de tecnologias de soft-

ware neste sector, a realização de conferências mundiais atraiu muitos investigadores para este

tema, as organizações, tanto públicas como privadas, sentiram a necessidade em possuir dados de elevado grau de qualidade e desassossegaram-se na ânsia de soluções que alcançassem os seus intentos [English, 2001].

Na entrada de milénio assiste-se à tentativa de passagem do domínio da qualidade dos dados a um patamar de amadurecimento da própria ciência dos dados. As desgostosas experiências, cau- sadas pela deficiência da qualidade dos dados, impulsionaram num primeiro momento, as organi- zações a enveredarem esforços no sentido de tratar estas questões e num momento posterior, a encontrarem-se alerta para as reais vantagens em garantir a melhor qualidade dos dados e por isso, assumem a qualidade dos dados como uma das prioridades a resolver [Eckerson, 2002] [Wang, 2004]. A implementação com sucesso de novas plataformas informáticas, como seja: SDW, Enterprise Resource Planning (ERP), Customer Resouce Management (CRM) e aplicações

OLAP, não pactua com dados de qualidade inferior. Assiste-se igualmente a iniciativas no campo legislativo que visam regular e orientar esta área, traduzindo a importância que este assunto tem assumido nos últimos tempos [Wang, 2004] [Kyl, 2005] [2].

2.3.2 As tentativas de definição de qualidade dos dados

As investigações relativas à qualidade dos dados no campo das ciências informáticas têm multipli- cado e abordam um vasto leque de questões inerentes ao tema. Esta proliferação de estudos con- tribui, assim, para um aumento da dificuldade na definição do conceito. Os estudos desenvolvidos, geralmente, não apresentam consenso sobre a abrangência e outros aspectos essenciais deste tema. Os motivos justificam-se tanto por conceitos sobrepostos entre si, como por ópticas divergentes sobre os mesmos termos, como seja a terminologia das características ou dimensões dos dados, a este propósito em [Wand & Wang, 1996] é observado que mesmo o termo exactidão possui diferentes sentidos. As investigações na área da qualidade dos dados são altamente inter- disciplinares e complementares, por isso, contribuem ainda mais para a dificuldade de definição do conceito [Chung et al., 2002].

Dado o emaranhado de caminhos seguidos pelas diferentes investigações, alguns estudos [Scan- napieco & Catarci, 2002] [Rasmussen, 2004] [Wang et al., 1994] tentam expor uma retrospectiva da literatura sobre a qualidade dos dados em torno de três perspectivas: a ontológica ou teórica, a intuitiva e a empírica. Em [Lee et al., 2000b] é acrescentada a perspectiva arquitectural. A perspectiva ontológica define um conjunto de conceitos teóricos baseados na problemática em causa. A perspectiva intuitiva presume a existência de competências e conhecimentos sobre a matéria abordada. Trata-se da constatação das experiências, geralmente negativas, provocadas pela qualidade dos dados. Por fim, a perspectiva empírica pretende adoptar conceitos e práticas empre- gues noutros âmbitos. É o caso da conceptualização dos dados e da sua qualidade intrínseca como se de produtos comuns se tratassem.

A perspectiva ontológica

A perspectiva ontológica concentra-se numa óptica interna, ignorando a análise de requisitos dos consumidores e está orientada para o desenho do sistema e produção dos dados. Assim, é defini- do um conjunto de assumpções, postulados e definições, de modo a gerar as dimensões da qualidade dos dados [Helfert & Herrmann, 2002]. As dimensões servem de base para o desenho do sistema de informação, através da enunciação de objectivos concretos de qualidade dos dados, permitindo a orientação deste no sentido de reflectir os aspectos do mundo real [Wand & Wang, 1996]. Em [Orr, 1998] é oferecido, igualmente, um ponto de vista teórico sobre a qualidade dos

dados, definindo-a como a medida de aceitação entre as vistas dos dados proporcionadas por um sistema de informação e os mesmos dados no mundo real. Enquadram-se igualmente nesta perspectiva teórica as aproximações que visam apresentar taxionomias sobre as deformidades verifi- cadas nos dados [Kim et al., 2003] [Oliveira et al., 2005a].

A perspectiva arquitectural

A perspectiva arquitectural transmite a ideia da utilização de meios tecnológicos (SDW, CRM, ERP) capazes de melhorar o nível de qualidade nos dados, pela focalização da sua acção na forma como os dados se apresentam armazenados e disponíveis para partilha. Esta aproximação assenta no projecto de investigação, The Foundations of Data Warehouse Quality3 - Data Ware-

house Quality (DWQ) e propõe uma plataforma de arquitectura e um repositório de metadados,

que descrevam todos os componentes do DW, num conjunto de meta-modelos que são adiciona- dos a um meta-modelo de qualidade. Este último define para cada meta-objecto do DW as corres- pondentes dimensões e os factores de qualidade relevantes [Vassiliadis et al., 1999]. A investiga- ção pretende centrar-se numa abordagem em que a qualidade dos dados possa ser assegurada numa concepção mais técnica e tem evoluído em vista a apresentar meta-modelos capazes de capturar, igualmente, as componentes dinâmicas do DW. Esta aproximação releva a importância da existência de metadados de boa qualidade para o sucesso de um sistema de gestão da qualidade dos dados [Jarke et al., 2003].

A perspectiva produto-informação (empírica)

A perspectiva empírica defende uma gestão da qualidade dos dados idêntica à gestão da qualidade dos produtos e serviços convencionais. Assim, a informação como produto deverá resultar da aplicação de processos de fabrico, materiais e serviços ao consumidor [Wang et al., 1998]. A complexidade envolvente à definição da qualidade dos produtos e serviços, e explicada pelos seus aspectos de natureza subjectiva, multidimensional [Wand & Wang, 1996] [Pipino et al., 2002] e volátil, revela-se de maneira similar quando aplicada ao domínio dos dados. Estes, apesar de pos- suírem determinadas características divergentes aos produtos e serviços comuns, apresentam questões de gestão idênticas, tanto ao nível de processamento, como ao nível das características ou dimensões inerentes. A este pretexto, em [Wang, 1998], considera-se que para aumentar a produtividade, as organizações devem gerir as informações como gerem os produtos, devendo a qualidade associada ao produto ser aplicada à informação para a obtenção do designado PI. Ain- da à luz do mesmo autor, a informação resulta do tratamento e operacionalidade das matérias-

primas (dados), pelos sistemas de informação (processos). Em [English, 1999] é percepcionada de modo análogo a visão da qualidade dos dados como se da qualidade de um produto se tratas- se. Ainda segundo English, os dados são detentores de características próprias que satisfazem ou não os consumidores e possuem, também, processos próprios na criação, manutenção e utiliza- ção idênticos aos produtos convencionais. Em [Strong et al., 1997], esta linha de pensamento é reforçada, focalizando o ponto de vista do consumidor sobre os dados. A qualidade dos dados é assumida como a aptidão para o uso por parte dos consumidores, para isso, é visualizada a pro- dução e o armazenamento dos dados como um sistema de produção de dados, interagindo com os diversos intervenientes (produtores, administradores e consumidores dos dados). Em [Redman, 2004], é referido que os dados de alta qualidade resultam de processos bem definidos e geridos, que criam, armazenam, movem, manipulam, processam e usam adequadamente os dados. Po- rém, alerta para algumas divergências fulcrais entre os dados e os produtos convencionais. O afastamento entre algumas características dos dados e os produtos e serviços é, igualmente, observado em [Wang, 1998] (e.g. a reutilização dos dados na produção de novas informações).

2.3.3 A multidimensionalidade dos dados

As aproximações, referidas anteriormente, vêm corroborar o estudo [Ballou et al., 2004], que apon- ta para a maioria das investigações centrarem-se na busca do nível de qualidade adequado na perspectiva do utilizador, ou seja, baseiam-se no princípio de fitness for use ou atingir as expecta- tivas do utilizador final. Em [Ballou & Tayi, 1998] é enfatizada a relativização e multidimensionalidade do conceito de qualidade dos dados. A qualidade de determinados dados pode ser conside- rada apropriada para os anseios dum consumidor, ao passo que pode não ser suficiente para outro consumidor. A definição do nível apropriado da qualidade dos dados está dependente do seu contexto [Pipino et al., 2002]. A aprovação da perspectiva multidimensional, associada à qualidade dos dados, surge igualmente por uma iniciativa legislativa, promovida pelo Office of Management

and Budget (OMB). Esta entidade define qualidade dos dados como os dados que oferecem utili-

dade, objectividade e integridade aos consumidores de informação [Kyl, 2005] [2]. Em [Olson, 2003], a qualidade dos dados depende tanto das utilizações pretendidas (óptica percepcional) como dos dados em si mesmos (óptica factual). Ora, este pressuposto configura a constituição dos dados com aspectos de natureza factual e percepcional. A visão factual ou imparcial dos dados permite aferir quantitativamente da qualidade dos mesmos, ou seja, possibilita a avaliação da qualidade dos dados independentemente de outros factores, como sejam os utilizadores ou a de- cisão a tomar. A visão percepcional ou contextual faz depender a qualidade dos dados da utilidade que estes possuem na satisfação das necessidades dos utilizadores ou da decisão a tomar [Skri-

letz, 2002] [Shankaranarayan, 2005]. Em vista a satisfação das utilizações pretendidas, os dados devem respeitar de forma, eficaz e eficientemente, um conjunto de dimensões que garantam a qualidade dos dados para cada caso concreto. A qualidade dos dados deverá envolver os dados certos e correctos no local certo para o consumidor completar a tarefa em mãos [Redman, 2004]. Enquanto que no estudo [Wand & Wang, 1996], é defendida uma noção de qualidade dos dados dependente do uso corrente dos dados. Em decorrência, a qualidade dos dados pode expressar- se numa hierarquia de diferentes categorias de características, que são posteriormente refinadas em dimensões de qualidade dos dados [Jarke et al., 2003]. Assim, é possível ser definida como um valor agregado sobre um conjunto de critérios de qualidade, que indique quanto bons são os dados que possuímos, tendo em conta as exigências do negócio [Müller & Freytag, 2002]. Em suma, a adopção de critérios de medida dos dados tenta transmitir de modo transparente e objec- tivo a qualidade inerente aos mesmos. Esta posição é partilhada em [Brackett, 1996], que considera uma consistente qualidade dos dados, quando o estado da qualidade dos dados é sobejamente compreendido e conhecido.

Do exposto, verifica-se que as investigações se centram em torno do conceito fitness for use, pois assentam em duas traves mestras fundamentais. Por um lado, a exigência de um controlo de qualidade de conformidade dos processos de produção dos dados. Por outro lado, a completa satisfa- ção ou superação das necessidades e desejos dos consumidores dos dados, de forma a estes cumprirem as suas tarefas. Os dados têm qualidade se satisfizerem os requisitos para a sua utili- zação e verifica-se uma falha da qualidade sempre que não satisfaça um requisito [Olson, 2003].

No documento A gestão da qualidade dos dados em ambientes de data warehousing na prossecução da excelência da informação (páginas 37-42)