Uma abordagem para detecção de problemas de qualidade dos dados a partir da avaliação de regras de validação

(1)

PósGraduação em Ciência da Computação

ARTUR DE CARVALHO ALVES

UMA ABORDAGEM PARA DETECÇÃO DE

PROBLEMAS DE QUALIDADE DOS DADOS A

PARTIR DA AVALIAÇÃO DE REGRAS DE

VALIDAÇÃO

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao RECIFE

(2)

Artur de Carvalho Alves Uma abordagem para Detecção de Problemas de Qualidade dos Dados a partir da avaliação de Regras de Validação

Este Trabalho foi apresentado à PósGraduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre Profissional em Ciência da Computação. ORIENTADORA: Profa. Dra. Bernadette Farias Lóscio RECIFE 2017

(3)

Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes, CRB41217 A474a Alves, Artur de Carvalho

Uma abordagem para detecção de problemas de qualidade dos dados a partir da avaliação de regras de validação / Artur de Carvalho Alves. – 2017.

81 f.: il., fig., tab.

Orientadora: Bernadette Farias Lóscio.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn,

Ciência da Computação, Recife, 2017. Inclui referências e anexos.

1. Banco de dados. 2. Qualidade dos dados. I. Lóscio, Bernadette Farias

(orientadora). II. Título. 025.04 CDD (23. ed.) UFPE MEI 201761

(4)

Artur de Carvalho Alves

Uma abordagem para Detecção de Problemas de Qualidade dos

Dados a partir da avaliação de Regras de Validação

Dissertação apresentada ao Programa de PósGraduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre Profissional em 22 de fevereiro de

2017. Aprovado em: ___/___/______. BANCA EXAMINADORA __________________________________________ Profª. Ana Carolina Brandão Salgado Centro de Informática / UFPE __________________________________________ Profª. Maria da Conceição Moraes Batista Universidade Federal Rural de Pernambuco __________________________________________ Profª. Bernadette Farias Lóscio Centro de Informática / UFPE (Orientadora)

(5)

À minha esposa, Angélica. Aos meus pais, dona Ana e seu Osmar. E ao meu irmão, Igor.

(6)

Agradecimentos

Muitas pessoas me ajudaram nesta jornada, desde a decisão de ingresso no curso até a conclusão deste trabalho. Certamente o apoio de muitos parentes e amigos foi de grande importância para que eu continuasse firme no objetivo de cumprir mais esta etapa de minha formação. Portanto, sou muito grato a cada um que se colocou em prol de ajudar, seja no apoio à revisão de um texto, numa palavra de incentivo, ou apenas na compreensão de minha ausência nos eventos festivos.

Inicialmente quero agradecer a quem mais me apoiou durante todo o período do curso, por ter suportado minha ausência em diversos momentos durante as infindáveis semanas de aula; pelas inúmeras tardes e noites passadas sozinha, mesmo estando fisicamente ao meu lado, enquanto eu dava atenção aos diagramas, códigos, métodos e prazos; por ter se mantido ao meu lado para me dar apoio quando os prazos de entrega dos trabalhos coincidiam com os fins de semana ensolarados, deixando de lado o lazer para me apoiar neste projeto. Enfim, agradeço primeiramente a minha esposa, Angélica, que tomou junto comigo a decisão de ingressar no curso, e que por meio de suas ações e palavras me mostrou que compartilhava comigo o objetivo de concluir este projeto.

Devo agradecer aos meus pais, Ana Maria e Osmar, que foram perfeitos na educação necessária para minha formação como uma pessoa simples e que se esforça a compreender e a respeitar todos ao meu redor; que foram insistentes em me mostrar que apenas me esforçando no caminho da educação eu encontraria um futuro melhor; que muitas vezes abriram mão de seus próprios sonhos para permitir que eu e meu irmão pudéssemos construir os nossos.

Agradeço ao meu irmão, Igor Augusto, pelo apoio dado na minha trajetória durante o curso, principalmente nesta etapa final. Conheço e admiro meu irmão desde de seu nascimento, mas nos aproximamos ainda mais depois da experiência de cursar os mesmos cursos técnico e de graduação. Portanto, foi muito importante para mim ter visto o seu sucesso ao concluir seu mestrado na época em que eu começava o meu. Isso me fez pensar que, se ele conseguiu, então eu também seria capaz.

(7)

Certamente não posso deixar de agradecer aos servidores do CIn, que foram excepcionais no exercício de suas atividades e mostraramse profissionais respeitáveis. Dentre eles gostaria de destacar minha orientadora, Bernadette, que me deu todo o apoio necessário no processo de construção deste trabalho.

Também gostaria de agradecer ao apoio trocado com os companheiros de turma. O formato do curso nos proporcionou uma experiência única e inesquecível, e inevitavelmente alguns destes companheiros tornaramse verdadeiros amigos.

Agradeço o apoio de todos os camaradas dos CEFETMG que me deram votos de confiança ao longo desta trajetória. Agradeço também àqueles que me ajudaram a propor um projeto que trouxesse benefício a instituição. E também ao apoio financeiro proporcionado pela instituição.

Agradeço ao Cristiano Nunes, que foi um excelente companheiro de estudos; me deu ouvidos nas horas em que queria reclamar de tudo, me motivou nos dias de baixa estima e me deu dicas importantes ao desenvolvimento do trabalho.

Agradeço também a todos os familiares e amigos que estranharam, mas compreenderam, minha ausência nos encontros e confraternizações. Finalmente, agradeço à Deus por tudo.

(8)

“Não sei. Só sei que foi assim!” Ariano Suassuna (Em: O Auto da Compadecida)

(9)

Resumo

Estudos apontam que diversas empresas e organizações, públicas e privadas, têm acumulado prejuízos por tomarem decisões baseandose em dados de baixa qualidade. Com isso, vimos que desenvolvedores e usuários têm se preocupado cada vez mais com a Qualidade dos Dados. O aumento dessa preocupação fez com que as pesquisas na área crescessem significamente a fim de medir e melhorar a Qualidade dos Dados. Qualidade é um termo subjetivo e na maior parte das vezes está relacionado à satisfação do usuário. Por esse motivo, a Qualidade dos Dados possui um contexto multidimensional e as pesquisas apontam diferentes métodos de avaliação a partir de diferentes conjuntos de Dimensão de Qualidade dos Dados. Para algumas Dimensões de Qualidade, a avaliação é realizada de maneira objetiva, para outras apenas é possível fazer a avaliação a partir de formulários subjetivos aplicados aos usuários dos dados. Trabalhos recentes apontam que é possível melhorar a Qualidade de Dados a partir de métodos automáticos de deteção e correção de Problemas de Qualidade dos Dados. Nesse contexto, a proposta deste trabalho consiste em apresentar uma abordagem para detecção de Problemas de Qualidade dos Dados a partir da avaliação de Regras de Validação. Para isso, é realizada uma associação entre conjuntos de Regras de Validação de Dados e Dimensões de Qualidade dos Dados. Além disso, foi desenvolvido um protótipo capaz de detectar Problemas de Qualidade dos Dados conforme a abordagem proposta. Por fim, a abordagem e o protótipo desenvolvidos foram utilizados em um estudo de caso em cenário real num contexto de migração de dados. Os resultados mostraram que a proposta se mostrou útil na detecção de Problemas de Qualidade dos Dados, e que a correção dos problemas encontrados, de fato, ajudaram no processo de migração dos dados. Palavraschave: Qualidade dos Dados. Regras de Validação de Dados. Problemas de Qualidade dos Dados.

(10)

Abstract

Studies indicate that several companies and organizations, public and private, have accumulated losses by making decisions based on data of low quality. Then, to overcome such problems, developers and users have been increasingly concerned with Data Quality. As a consequence, Data Quality research is growing significantly in order to provide solutions to measure and improve the quality of the data. Quality is a subjective term and is most often related to user satisfaction. For this reason, Data Quality has a multidimensional context and the researches point out different methods of evaluation based on several Data Quality dimensions. For some Data Quality dimensions, the evaluation is performed in an objective way, for others it is only possible to make the subjective evaluations based on the data users opinion. Recent works indicate that automatic methods of detecting and correcting Data Quality Problems may be very useful to improve the data quality . In this context, the proposal of this work is to present an approach to detect Data Quality Problems based on the evaluation of Validation Rules. For this, an association is made between sets of Data Validation Rules and Data Quality Dimensions. In addition, a prototype capable of detecting Data Quality Problems was developed according to the proposed approach. Finally, the developed approach and prototype were used in a case study in a real scenario in a data migration context. The results showed that the proposal proved useful in the detection of Data Quality Problems, and that the correction of those problems, in fact, helped during the process of data migration. Keywords: Data Quality. Validation Rules. Data Quality Problems.

(11)

Lista de Figuras

Figura 1 Cenário motivacional . . . . 17 Figura 2 Cenário de migração de dados . . . . 18 Figura 3 Classificação de Problemas de Qualidade dos Dados . . . . 23 Figura 4 Classificação de Restrições de Integridade . . . . 28 Figura 5 Abordagem para detecção de Problemas de Qualidade . . . . 36 Figura 6 Método utilizado para associar as Regras de Validação às Dimensões de Qualidade . . . . 38 Figura 7 Diagrama de Caso de Uso . . . . 50 Figura 8 Diagrama de Classes . . . . 51 Figura 9 Tela Inicial: Listagem de Conjuntos de Dados . . . . 53 Figura 10 Tela de Visualização de Conjuntos de Dados . . . . 54 Figura 11 Tela de Cadastro de Conjunto de Dados . . . . 55 Figura 12 Tela de Cadastro de Tabela . . . . 55 Figura 13 Tela de Visualização da Tabela, suas colunas e Regras de Validação . . . . 56 Figura 14 Detalhe do cadastro ou edição de uma de Regra de Validação . . . . 57 Figura 15 Tela de visualização das últimas avaliações de um Conjunto de Dados . . . 58 Figura 16 Relatório de Problemas Detectados . . . . 59 Figura 17 Distribuição dos Problemas de Qualidade dos Dados por Dimensão de Qualidade unidades de Belo Horizonte . . . . 65 Figura 18 Distribuição dos Problemas de Qualidade dos Dados por Dimensão de Qualidade unidades do interior . . . . 66

(12)

Lista de Tabelas

Tabela 1 Classificação de Problemas de Qualidade dos Dados . . . . 24 Tabela 2 Associação entre tipos de Regras de Negócio e conceitos do SQL . . . . 26 Tabela 3 Regras de Validação de Dados . . . . 39 Tabela 4 Regras de Validação de Dados e tipos de Restrições de Integridade . . . . 42 Tabela 5 Problemas de Qualidade dos Dados e tipos de Restrições de Integridade . . 44 Tabela 6 Problemas de Qualidade dos Dados e Dimensões de Qualidade . . . . 45 Tabela 7 Associação entre Regras de Validação de Dados e Dimensões de Qualidade . . . . . . . 46 Tabela 8 Views criadas para o Educacenso . . . . 63

(13)

Lista de Abreviaturas e Siglas

AIMQ A methodology for information quality assessment CEP Código de Endereço Postal CPF Cadastro de Pessoa Física CSV Comma Separated Values IEC International Electrotechnical Commission INEP Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira ISO International Organization for Standardization MIT Massachusetts Institute of Technology SGBD Sistema de Gerenciamento de Banco de Dados SQL Structured Query Language TDQM Total Data Quality Management TQM Total Quality Management XML eXtensible Markup Language

(14)

Sumário

1. Introdução . . . . 15 1.1. Motivação . . . . 15 1.2. Caracterização do Problema . . . . 17 1.3. Objetivos: Geral e Específicos . . . . 19 1.4. Organização do Texto . . . . 19 2. Fundamentação Teórica . . . . 20 2.1. Qualidade dos Dados . . . . 20 2.2. Dimensões de Qualidade dos Dados . . . . 21 2.3. Problemas de Qualidade dos Dados . . . . 22 2.4. Restrições de Integridade . . . . 26 2.5. Considerações . . . . 29 3. Trabalhos Relacionados . . . . 30 3.1. Avaliação de Qualidade dos Dados . . . . 31 3.2. Regras de Validação de Dados . . . . 33 3.3. Comparação entre os Trabalhos Relacionados . . . . 33 3.4. Considerações . . . . 34 4. Abordagem proposta para Detecção de Problemas de Qualidade dos Dados . . 35 4.1. Visão Geral da abordagem proposta . . . . 35 4.2. Associação das Regras de Validação de Dados às Dimensões de Qualidade dos Dados . . . . 37 4.2.1. Passo 1: Associação entre Regras de Validação de Dados e tipos de Restrições de Integridade . . . . 38 4.2.2. Passo 2: Associação entre tipos de Restrições de Integridade e Problemas de Qualidade dos Dados . . . . 44

(15)

4.2.3. Passo 3: Associação entre Problemas de Qualidade dos Dados e Dimensões de Qualidade . . . . 45 4.2.4. Passo 4: Associação entre Regras de Validação de Dados e Dimensões de Qualidade . . . . 45 4.3. Considerações . . . . 47 5. Implementação e Avaliação . . . . 48 5.1. Protótipo . . . . 48 5.1.1. Análise do Protótipo . . . . 49 5.1.2. Desenvolvimento do Protótipo . . . . 53 5.2. Aplicação do Estudo de Caso . . . . 60 5.2.1. Cenário do Estudo de Caso . . . . 60 5.2.2. Definição dos Conjuntos de Dados e Regras de Validação . . 62 5.2.3. Problemas detectados . . . . 64 5.3. Considerações Finais . . . . 67 6. Conclusão . . . . 68 6.1. Contribuições do Trabalho . . . . 69 6.2. Trabalhos Futuros . . . . 70 Referências . . . . 72 Anexo 1 Emails trocados com a analista de negócio para validação dos Problemas de Qualidade de Dados detectados . . . . 75 Anexo 1A Email com relatório de problemas detectados nos dados das unidades de Belo Horizonte . . . . 76 Anexo 1B Email com resposta sobre o relatório de problemas detectados nos dados das unidades da capital . . . . 77 Anexo 1C Email com relatório de problemas detectados nos dados das unidades do interior . . . . 78 Anexo 2 Relatório de Problemas de Qualidade detectados nas unidade da capital com a resposta da analista de negócio . . . . 79

(16)

1. Introdução

Este capítulo apresenta uma visão geral do trabalho e o contexto no qual a pesquisa está inserida. São apresentados a motivação que levou à realização deste trabalho, a caracterização do problema abordado pela pesquisa, os objetivos a serem alcançados e a organização dos demais capítulos.

1.1. Motivação

Há décadas, com a rápida proliferação dos sistemas de informações, vimos que desenvolvedores e usuários de sistemas têm se preocupado cada vez mais com a Qualidade dos Dados (Fox et al, 1994). Alguns trabalhos (e.g. Eckerson, 2002; Redman, 1996) apontam o prejuízo que diversas empresas e organizações, públicas e privadas, têm por tomarem decisões baseandose em dados de baixa qualidade.

O aumento da preocupação com a Qualidade dos Dados fez com que, ao longo do tempo, surgissem diversos estudos sobre o tema (Zaveri et al., 2012). As pesquisas na área de Qualidade dos Dados cresceram significativamente a fim de atender às necessidades das organizações em medir e melhorar a qualidade da informação (Lee et al., 2002).

Geralmente, esses trabalhos enfatizam que a Qualidade dos Dados possui características multidimensionais, e suas propostas de avaliação são sempre realizadas sobre aspectos de determinadas Dimensões de Qualidade. Mas, de maneira geral, a Qualidade dos Dados está relacionada ao quanto os dados atendem às necessidades do usuário (Wang, 1998).

Para Orr (1998), a Qualidade dos Dados não precisa ser absoluta, mas deve atender critérios suficientes para que a organização possa tomar decisões suficientes para sua sobrevivência. Com a evolução das pesquisas nessa área, emergiram inúmeras dimensões para definir e avaliar a Qualidade dos Dados. Em sua pesquisa, Arouck (2011) catalogou mais de 100 Dimensões de Qualidade citadas na literatura.

(17)

Segundo Orman et al. (1996), além das Dimensões de Qualidade, surgem também diversas propostas de como avaliar a Qualidade dos Dados. De maneira geral, em diversos trabalhos (e.g. Batini e Scannapieco, 2006; Lee et al., 2002; Pipino et al., 2002; Wang, 1998), a avaliação é realizada pelo uso de um conjunto de métricas adequadas para cada uma das Dimensões de Qualidade a serem analisadas. No trabalho de Pipino et al. (2002), por exemplo, é apresentada uma proposta para melhorar a Qualidade dos Dados cruzando resultados de avaliações objetivas e subjetivas.

No entanto, temse buscado maneiras mais ágeis para melhorar a Qualidade dos Dados. Essas abordagens apontam, de maneira geral, que a melhoria da qualidade pode ser obtida a partir de processos de detecção e correção de problemas de qualidade sem a interferência humana, ou seja, de maneira automática (Krishnan et al., 2016).

Probst (2013) vislumbra, na seção de trabalhos futuros de sua tese, a possibilidade de se fazer uma relação entre as Dimensões de Qualidade dos Dados com conjuntos de Regras de Validação, indicando que, dessa forma, seria possível avaliar a Qualidade dos Dados sobre a percepção de cada dimensão por meio da verificação das Regras de Validação.

No trabalho de Weber et al. (2013) é relatada a importância da verificação das Regras de Validação para garantia da Qualidade dos Dados e é apresentada uma proposta para definição de Regras de Validação, mas ainda assim, sem estabelecer uma relação com Dimensões de Qualidade.

É importante ressaltar algumas premissas que motivaram a realização deste trabalho, como o fato de que dados de boa qualidade aumentam a confiança na tomada de decisão. Da mesma forma, uma base de dados de boa qualidade facilita processos que envolvem extração de dados (e.g.: a migração para outros sistemas, exportação de dados para um Data Warehouse ou publicação de dados abertos), por exemplo (Wang, 1996; Batini e Scannapieco, 2016).

Nesse contexto, a proposta deste trabalho consiste em apresentar uma abordagem para detecção automática de Problemas de Qualidade dos Dados a partir de uma relação entre Dimensões de Qualidade e conjuntos de Regras de Validação de Dados. De forma que, sempre que for detectado que um determinado dado não está em conformidade com as

(18)

Regras de Validação, será possível caracterizar a inconformidade como um Problema de Qualidade dos Dados. Figura 1 Cenário motivacional Fonte: elaborada pelo autor

Portanto, conforme pode ser visualizado na Figura 1, a principal motivação para o desenvolvimento deste trabalho é perceber que a detecção de Problemas de Qualidade dos Dados auxilia no processo de melhoria da qualidade. E que, ciente do nível de qualidade dos seus dados, as organizações terão maior confiança nas tomadas de decisões, nos processos de extração ou migração de dados, ou na publicação dos dados em formato aberto.

Diante disso, este trabalho se propõe a apresentar uma forma de detecção automática de Problemas de Qualidade dos Dados com foco na verificação de Regras de Validação.

1.2. Caracterização do Problema

O presente trabalho foi proposto tendo como foco principal cenários de migração de dados, nos quais o ambiente que recebe as informações possui uma série de restrições quanto à completude, corretude e consistência dos dados, enquanto que o ambiente que produz e mantém tais informações não garante as restrições necessárias. Por tratarse de um processo de migração de dados, é comum optar por melhorar a Qualidade dos Dados no ambiente de origem antes do processo de exportação.

(19)

A Figura 2 apresenta um dos possíveis cenários. Nele, os dados precisam ser migrados de um Sistema X para um Sistema Z. Os dois sistemas possuem Regras de Validação distintas. No cenário proposto, é importante ressaltar que os dados do Sistema X (Dados X) podem possuir qualidade satisfatória em relação às regras do Sistema X (Regras X); mas, antes de efetuar a migração dos dados, é necessário verificar se eles possuem boa qualidade do ponto de vista das regras do Sistema Z (Regras Z). Figura 2 Cenário de migração de dados Fonte: elaborada pelo autor

Considerando, no cenário de migração apresentado, que o Sistema X possui em seu conjunto de dados um registro composto pelos valores Nome = “João Silva”’ e CPF = “123.456.78900” e que possui as Regras de Validação RX1) O nome não pode ser nulo e RX2) O CPF não pode ser nulo. Considerando também que o Sistema Z, que deverá receber os dados do Sistema X, possui as Regras RZ1) O nome não pode ser nulo e RZ2) O CPF deve ser válido. Neste cenário temos que o registro a ser migrado atende todas as regras do Sistema X, mas não atende todas as regras do Sistema Z, pois o CPF armazenado não é um CPF válido. Dessa forma, o registro atende aos critérios de qualidade do Sistema X, mas não atende aos critérios de qualidade do Sistema Z.

No cenário apresentado, é possível perceber que a Qualidade dos Dados é avaliada a partir do ideal de ‘conformidade para o uso’. Que, neste caso, é representada pelos pelas Regras de Validação definidas nos diferentes sistemas. Portanto, considerando tal cenário, temos como problema de pesquisa como detectar Problemas de Qualidade dos Dados a partir da avaliação de Regras de Validação.

(20)

1.3. Objetivos: Geral e Específicos

O objetivo geral deste trabalho consiste em apresentar uma solução para detecção automática de Problemas de Qualidade dos Dados, partindo da relação entre Regras de Validação e Dimensões de Qualidade dos Dados.

Para que o objetivo geral seja alcançado, uma série de objetivos específicos devem ser considerados:

● Identificar uma relação entre conjuntos de Regras de Validação e Dimensões de Qualidade dos Dados;

● Definir uma abordagem para detecção de Problemas de Qualidade dos Dados a partir da avaliação de Regras de Validação;

● Implementar um protótipo para avaliação da abordagem proposta. O protótipo deverá realizar a verificação das Regras de Validação e apresentar relatório dos Problemas de Qualidade detectados;

● Apresentar, por meio de um estudo de caso em um cenário real, que a abordagem proposta para detecção automática de Problemas de Qualidade é capaz de detectar Problemas de Qualidade dos Dados a partir da avaliação de Regras de Validação.

1.4. Organização do Texto

Este trabalho está organizado em 6 (seis) capítulos incluindo essa Introdução. Os demais capítulos estão organizados da seguinte maneira: ● No Capítulo 2 é apresentada a fundamentação teórica; ● No Capítulo 3 são apresentados os trabalhos relacionados; ● No Capítulo 4 é apresentada a abordagem proposta para detecção de problemas de qualidade dos dados; ● No Capítulo 5 são apresentados a implementação do protótipo e a avaliação da abordagem por meio do estudo de caso. ● No Capítulo 6 são apresentados a conclusão, as contribuições e trabalhos futuros.

(21)

2. Fundamentação Teórica

Neste capítulo são apresentados os conceitos necessários ao entendimento do trabalho. São apresentados conceitos de Qualidade dos Dados e de suas principais Dimensões, bem como as definições de Problemas de Qualidade dos Dados e de Restrições de Integridade.

Vale ressaltar que na literatura existem discrepâncias em alguns conceitos. Um forte motivo para isso, se dá pelo fato de que "Qualidade" é um termo subjetivo e pode ser aplicado em diferentes contextos. No entanto, parte dos trabalhos define qualidade como sendo algo que esteja adequado ao uso (Wang e Strong, 1996).

2.1. Qualidade dos Dados

Para Wang e Strong (1996), a Qualidade dos Dados depende de diversos fatores que devem ser avaliados conforme a necessidade dos usuários. Para Batini e Scannapieco (2016) a Qualidade de Dados possui um conceito multidimensional, devido à existência de diversos tipos de dados, de diversas formas de representação e armazenamento, de distintas categorias de frequência de atualização e, entre outras particularidades, de cada sistema de informação.

A ISO divulgou em 2008 a norma ISO/IEC 25012:2008, que define Qualidade dos Dados como o grau em que as características dos dados satisfazem às necessidades quando utilizados em condições específicas. A ISO/IEC 25012:2008 também conceitua as Dimensões de Qualidade previstas no seu modelo, incluindo: Corretude, Completude, Consistência, Credibilidade, Atualidade, Acessibilidade, Conformidade, Confidencialidade, Eficiência, Precisão, Rastreabilidade, Compreensibilidade, Disponibilidade, Portabilidade e Recuperabilidade (ISO, 2008 apud Batini e Scannapieco, 2016).

Conforme apresentado por Batista (2008), Scannapieco (2005), Pipino et al. (2002); para que se possa avaliar a Qualidade dos Dados é necessário verificar diversas Dimensões de Qualidade dos Dados, cada uma descrevendo um aspecto de qualidade distinto.

(22)

2.2. Dimensões de Qualidade dos Dados

Como dito, diversos trabalhos propõem distintos conjuntos de Dimensões de Qualidade dos Dados. Não existe consenso sobre qual o conjunto de Dimensões de Qualidade devem ser considerados para realizar uma avaliação de qualidade. De fato, existem, inclusive, divergências sobre o conceito de determinadas Dimensões de Qualidade. No entanto, percebese que as dimensões de corretude e completude aparecem com unanimidade em diversos trabalhos.

Para Oliveira (2009), dentre as Dimensões de Qualidade dos Dados mais comuns podese citar Corretude, Completude, Consistência, Atualidade, Acessibilidade e Interpretabilidade. A seguir, são definidas cada uma destas Dimensões de Qualidade dos Dados. As definições foram retiradas, principalmente, do trabalho de Batini e Scannapieco (2016) e complementadas pelos trabalhos de Mecela et al. (2002), Pipino et al. (2002), Fuber e Hepp (2011), e Zaveri et al. (2012).

● Corretude A dimensão de corretude indica se determinado dado representa a informação correta. Essa dimensão pode ser dividida em duas: corretude sintática e corretude semântica. A corretude sintática indica se o valor do dado pertence ao domínio de valores possíveis daquela informação. A corretude sintática é medida por meio de funções de comparação. Já a corretude semântica indica se o valor do dado, de fato, reflete a informação correta no mundo real (Batini e Scannapieco, 2016). Tal conceituação é ratificada no trabalho de Zaveri et al. (2012).

● Consistência Segundo Batini e Scannapieco (2016), a dimensão de consistência indica se o dado está de acordo com regras definidas. A verificação da Consistência é feita por meio de restrições de integridade, que podem envolver uma única relação ou mais de uma relação. Já Mecella et al. (2002) afirma que os dados são consistentes quando dois ou mais valores não entram em conflito um com o outro.

● Completude De maneira geral, a dimensão de completude está relacionada ao quanto a informação é completa para a finalidade desejada (Batini e Scannapieco, 2016). O conceito apresentado por Pipino et al. (2002) define que a dimensão de completude indica o quanto de informação não está ausente. Já para Fuber e Hepp

(23)

(2011), completude pode ser classificada em: (a) completude de esquema, que está relacionada ao quanto as classes e propriedades estão presentes no esquema; (b) completude de coluna, que está relacionada ao quanto os valores estão presentes em determinadas colunas; e (c) completude populacional, que é a relação entre as instâncias presentes nas classes representadas em um sistema de informação e toda a população que deveria estar presente.

● Atualidade A dimensão de atualidade indica se os dados estão suficientemente atualizados para a finalidade desejada (Batini e Scannapieco, 2016).

● Interpretabilidade Essa Dimensão de Qualidade avalia o quanto a informação é clara o suficiente para que possa ser utilizada de forma adequada. Normalmente avaliada com base nas informações dos metadados e informações suplementares (Oliveira, 2009).

● Acessibilidade A dimensão de acessibilidade basicamente avalia a facilidade e a velocidade com que os dados podem ser acessados pelo usuário. (Pipino et al., 2002)

As dimensões de corretude, consistência e completude destacamse como as mais relevantes ao contexto deste trabalho; visto que, estas dimensões apresentam características que possibilitam a detecção automática de problemas de qualidade. Por esse motivo o foco do trabalho será na detecção de Problemas de Qualidade relacionados a uma dessas três Dimensões de Qualidade.

2.3. Problemas de Qualidade dos Dados

De maneira geral, Problemas de Qualidade dos Dados são vistos como erros ou inconsistências nos dados armazenados. Porém, considerando o contexto multidimensional, é mais adequado definir Problema de Qualidade como qualquer dificuldade encontrada em uma ou mais Dimensões de Qualidade. Como exemplo, os valores em falta que afetam a dimensão de completude, ou os erros de sintaxe que afetam a dimensão de consistência. Em outras palavras, os problemas de qualidade não devem estar associados apenas à

(24)

corretude da informação, mas também a outros aspectos (Wang and Strong, 1996; Strong et al., 1997).

Existem na literatura algumas propostas para definições hierárquicas dos Problemas de Qualidade dos Dados, entre elas podemos citar Rahm e Do (2000) que, conforme apresentado na Figura 3, classifica os problemas de acordo com a origem dos dados, podendo ser SingleSource ou MultiSource , e também com o nível do problema, podendo ser no esquema ou nos dados. Figura 3 Classificação de Problemas de Qualidade dos Dados conforme Rahm e Do (2000) Fonte: Rahm e Do (2000)

O trabalho de Kim et al. (2003), que utiliza o termo ‘ dirty data ’, apresenta uma classificação bastante extensa e completa, que basicamente contém três grandes grupos de problemas de dados: dados ausentes (e.g.: problema de valor em falta); dados presentes mas incorretos (e.g.: problema de corretude); e dados presentes e corretos mas não utilizáveis (e.g. problema de dados duplicados, erros de sintaxe).

Müller e Freytag (2003), que utiliza o termo ‘ data anomalies ’, divide os Problemas de Qualidade em três categorias: problemas sintáticos, problemas semânticos e problemas de cobertura. Nesse trabalho, os autores vão além dos demais e chegam a associar alguns dos problemas de qualidade às Dimensões de Qualidade de consistência, corretude e completude.

Oliveira et al. (2005) aponta que, apesar dos diferentes termos e nomenclaturas utilizados na literatura (e.g.: errors, anomalies, dirty, issues, problems ), problemas como dados ausentes, dados incorretos, ou representações incorretas comprometem a Qualidade dos Dados.

(25)

Baseandose nos trabalhos de Rahm e Do (2000), Müller e Freytag (2003) e Kim et al. (2003), Oliveira et al. (2005) apresenta uma nova proposta para classificação dos Problemas de Qualidade dos Dados. Ele divide os problemas de qualidade baseandose na hierarquia do modelo de dados relacional, de forma que apresenta as categorias: problemas ao nível de atributo, problemas ao nível de registro, problemas ao nível de tabela, problemas ao nível de múltiplas tabelas ou múltiplas fontes de dados.

A classificação dos Problemas de Qualidade dos Dados definida por Oliveira et al. (2005) é atualizada em Oliveira (2009), apresentando, além da classificação dos problemas, sua relação com cada Dimensão de Qualidade. A Tabela 1 apresenta parte dos problemas definidos no trabalho de Olivera (2009). Os problemas apresentados na tabela foram selecionados pelo grau de proximidade a este trabalho. Tabela 1 Classificação de Problemas de Qualidade dos Dados por Oliveira et al. (2009) Problemas de Qualidade dos Dados Dimensão de Qualidade dos Dados afetada

Atributos Registro Tabela Múltiplas Tabelas ou Fontes de Dados valor Multi valor Valor em falta Completude x Erro de sintaxe Consistência x Erro de ortografia Corretude x Violação de domínio Corretude x Violação de Restrição de Integridade Consistência x x x x Violação de unicidade Consistência x Existência de sinônimos Consistência x Registros duplicados Consistência x x Heterogeneidade de sintaxes Consistência x Fonte: adaptada de Oliveira et al. (2009)

(26)

A seguir é apresentada a definição de Oliveira (2009) para cada um dos Problemas de Qualidade dos Dados mais relevantes ao escopo deste trabalho. Por questão de limitação de escopo devido ao tempo e complexidade, a detecção de Problemas de Qualidade terá enfoque em cada coluna de cada registro. Portanto, abordaremos neste trabalhos apenas Problemas de Qualidade dos Dados relacionados ao nível do atributo.

● Valor em falta : ausência de valor num atributo que é de preenchimento obrigatório (e.g.: atributo nome_produto possui valor nulo);

● Erro de Sintaxe : o valor não respeita a sintaxe estabelecida para o atributo (e.g.: atributo codigo_produto possui o valor ABC123 em vez de ABC123);

● Erro de Ortografia : o valor contém um erro ortográfico acidental (e.g.: atributo cidade_endereco possui o valor RECIFI em vez de RECIFE).

● Violação de Domínio : o valor não pertence ao conjunto de valores válidos para o atributo (e.g.: atributo quantidade_estoque possui um valor negativo)

● Violação de Restrição de Integridade : o valor não respeita uma restrição de integridade definida. (e.g.: atributo quantidade_estoque possui valor maior que zero ao mesmo tempo que o atributo situacao_produto possui valor ‘Sem Estoque’, violando uma restrição de integridade definida pelo usuário)

É possível perceber que, assim como esta pesquisa, o trabalho de Oliveira (2009) também mantém seu escopo nas Dimensões de Qualidade dos Dados de corretude, consistência e completude. Tal motivo se dá pois para essas Dimensões é possível estabelecer um método de avaliação objetivo e, portanto, um método automático de deteção de problemas. Já para outras dimensões como Atualidade, Interpretabilidade ou Acessibilidade, os mecanismos de avaliação são feitos de maneira subjetiva; inviabilizando a detecção automática de problemas (Oliveira, 2009).

Além das classificações dos Problemas de Qualidade dos Dados, é importante elencar os principais motivos que geram tais problemas. Os principais fatores para geração de dados de baixa qualidade podem ser divididos em três: 1) Erros humanos no momento da entrada dos dados, que podem estar associados, principalmente, a erro de digitação, uso

(27)

incorreto de abreviaturas e omissão de valores em atributos obrigatórios. e 2) Falhas de sistema, que podem ocorrer no momento da transmissão, processamento, transformação ou integração dos dados. 3) Problemas inerentes à organização, que podem ocorrer devido a processos falhos, baixa capacitação e conscientização dos funcionários, ou estrutura insuficiente (Oliveira, 2009).

2.4. Restrições de Integridade

Taveter e Wagner (2001) conceitua Regras de Negócio como restrições sobre os dados e sobre as operações que as manipulam. E apresentam as Restrições de Integridade como um dos tipos de Regras de Negócio: 1) Restrições de Integridade ( integrity rules ou integrity constraints ); 2) Regras de derivação; 3) e Regras de reação. O trabalho propõe ainda um quarto tipo de regra não muito discutido, que são as atribuições de permissões.

Taveter e Wagner (2001) definem Restrição de Integridade como uma assertiva que deve ser satisfeita em qualquer estágio de uma empresa vista como um sistema dinâmico discreto. Com uma definição semelhante, Lee et al. (2004) afirmam que uma Restrição de Integridade define uma condição que deve ser verdadeira em relação a um ou mais atributos, de uma ou mais entidades.

O trabalho de Wagner et al. (2005) associa cada um dos três tipos de Regras de Negócio a conceitos definidos pela linguagem SQL. Esta associação se dá conforme a Tabela 2, apresentada a seguir. A partir desta associação é possível compreender melhor a diferenciação entre os tipos de Regras de Negócio propostos. Tabela 2 Associação entre tipos de Regras de Negócio e conceitos do SQL Tipos de Regras de Negócio Conceitos do SQL Restrição de Integridade Cláusulas de DOMAIN , CHECK e CONSTRAINT nas definições de tabelas Regra de Derivação Declarações de CREATE VIEW Regra de Reação Declarações de CREATE TRIGGER Fonte: adaptada de Wagner et al. (2005)

(28)

Lee et al. (2004) traz uma releitura das definições e classificações apresentadas por Date (1990) e Rob e Coronel (2000) para o modelo de dados relacional e classifica as Restrições de Integridade nos seguintes grupos: Integridade de Chave, Integridade Referencial, Integridade de Domínio, Integridade de Vazio, Integridade de Coluna e Restrições definidas pelos usuários, os quais são descritos a seguir:

● Integridade de Chave : estabelece que todas as entradas em uma tabela são únicas e nenhuma parte da chave primária pode ser nula. Normalmente definida pela PRIMARY KEY .

● Integridade Referencial : estabelece que o valor contido em um atributo de chave estrangeira deve necessariamente existir como chave primária na tabela referenciada. Normalmente definida pela FOREIGN KEY .

● Integridade de Domínio : estabelece que todos os valores do atributo devem pertencer ao domínio especificado para o atributo em questão. Normalmente definida pelo tipo de dado e pelas DOMAIN CONSTRAINTS .

● Integridade de Vazio : estabelece que os valores do atributo não podem assumir o valor nulo. Normalmente definida pelo NOT NULL .

● Integridade de Coluna : estabelece que todos os valores do atributo devem pertencer a um intervalo especificado dentro do domínio e atender às regras definidas para o atributo. Normalmente definida pelas CHECK CONSTRAINTS .

● Integridade definida pelo usuário : estabelece regras que restringem os valores além das restrições já definidas. Essas regras podem envolver diferentes colunas e até mesmo diferentes tabelas. Normalmente definida pelas CHECK CONSTRAINTS .

Portanto, para este trabalho é necessário compreender que as Regras de Negócio definem restrições sobre os dados; que parte dessas restrições são definidas pelas Restrições de Integridade; e que as Restrições de Integridade são diferenciadas conforme sua aplicação. Além disso, é importante compreender os conceitos das diferentes classes de

(29)

Restrições de Integridade. Com isso, a Figura 4 resume a taxonomia apresentada para os diferentes tipos de Regras de Negócio e de Restrições de Integridade. Na figura estão destacados os conceitos que são abordados neste trabalho.

Além disso, é importante compreender que, considerando a definição dada para as Restrições de Integridade, é possível definir algumas das Restrições de Integridade a partir de conjuntos de Regras de Validação de Dados. Visto que, parte das Restrições de Integridade são regras sobre os dados que serão armazenados. Essa relação ficará mais clara conforme for apresentada a associação das Regras de Validação de Dados às Restrições de Integridade no Capítulo 4. Figura 4 Classificação de Restrições de Integridade Fonte: elaborada pelo autor a partir de Wagner et al.(2005) e Lee et al. (2004)

(30)

2.5. Considerações

Neste capítulo foi apresentado a fundamentação teórica necessária ao desenvolvimento e a compreensão deste trabalho. Inicialmente, foi apresentada a definição de Qualidade dos Dados bem como apresentadas as principais Dimensões de Qualidade e foram conceituadas aquelas que estão mais inseridas no contexto deste trabalho. Na sequência foram apresentadas as classes de Problemas de Qualidade de Dados, detalhando os problemas que possuem maior ligação com este trabalho e estão inseridas na proposta de deteção de Problemas de Qualidade dos Dados. Por fim, foi apresentado neste capítulo a definição e a classificação de Regras de Negócio e de Restrições de Integridade. O capítulo a seguir apresenta os trabalhos relacionados ao contexto deste trabalho.

(31)

3. Trabalhos Relacionados

Neste capítulo são apresentados alguns trabalhos relacionados com a avaliação da Qualidade dos Dados. Além de trabalhos relacionados à aplicação de regras de Validação de Dados. Cabe enfatizar que existem diversos trabalhos na área, mas são apresentados apenas alguns dos que possuem maior relação com os objetivos deste trabalho. Os trabalhos são apresentados conforme a área relacionada.

Para identificação dos trabalhos relacionados foram consultadas revisões sistemática da literatura e surveys mais recentemente publicados na área de Qualidade dos Dados. Dentre os trabalhos encontrados destacaramse o do Zaveri et al. (2012) e o do Sadiq et al. (2011).

A revisão sistemática da literatura realizada por Zaveri et al. (2012) aponta diversos estudos na área de Qualidade dos Dados com foco em dados conectados (Linked Data). Segundo eles, apesar dos estudos na área terem crescido juntamente com o volume de dados que vêm sendo publicados na Web, o número de publicações ainda é relativamente baixa, o que sugere que a área de pesquisa ainda deve evoluir.

O survey de Sadiq et al. (2011) sugere que, de fato, o aumento da disponibilização de dados de baixa qualidade na Web podem aumentar o risco de que empresas, organizações, governos, agências, comunidades ou indivíduos tomem decisões baseadas em dados estratégicos de baixa qualidade. Nesse trabalho, são apresentados os principais tópicos explorados pelos pesquisadores da área de Qualidade dos Dados e esses tópicos são analisados de acordo com as expectativas dos profissionais que trabalham na área. O resultado aponta que cerca de 70% dos tópicos explorados pelos pesquisadores se aplicam no mercado. Além disso, a pesquisa aponta a necessidade de uma maior conscientização a respeito da importância da Qualidade dos Dados.

(32)

3.1. Avaliação de Qualidade dos Dados

Atualmente, parte dos trabalhos na área de Qualidade dos Dados mantém o objetivo em avaliar os dados em sistemas de domínios específicos, como saúde e finanças. São os casos dos trabalhos de Weiskopf et al. (2013), Dungey et al. (2016), Moore et al. (2016), Millet et al. (2017). Outros trabalhos, como os de Kontokostas et al. (2014) e Hazen et al. (2014), têm o objetivo de apresentar métodos de avaliação de Qualidade do Dados em cenários particulares, como data wharehouse, big data, linked data e spacial data . No entanto, serão detalhados aqui nesta seção apenas as pesquisas que possuem maior relação com o objetivo deste trabalho.

Não há discordância entre os pesquisadores na área de Qualidade dos Dados de que um dos trabalhos mais relevantes sobre avaliação de Qualidade dos Dados foi o trabalho proposto por Richard Wang em 1998. No trabalho de Wang (1998) foi proposta uma abordagem de Gerenciamento da Qualidade Total dos Dados, conhecida como TDQM Total Data Quality Management . Essa abordagem implementa a ideia de controle total, originada pelo TQM Total Quality Management , que consiste em uma estratégia de administração orientada a criar consciência da qualidade em todos os processos organizacionais. Portanto, o TDQM se preocupa no planejamento e controle de qualidade em todos os processos de uma organização. O TDQM ainda está em contínuo desenvolvimento pelo MIT Massachusetts Institute of Technology e pode ser considerada como uma base formal para outras metodologias de gerenciamento, avaliação e melhoria de Qualidade dos Dados.

Também proposto pelo grupo de pesquisadores do MIT, o trabalho de Lee et al. (2002) apresenta uma metodologia para avaliação da qualidade da informação, batizada de AIMQ, com o objetivo de formar uma base para avaliação e benchmarking de qualidade da informação. A metodologia abrange um modelo de qualidade da informação, um questionário para medir a qualidade da informação, e técnicas de análise para interpretar as medidas. Essas técnicas de análise são aplicadas para analisar as diferenças entre os resultados das práticas da organização e os resultados das melhores práticas já catalogadas para cada Dimensão de Qualidade. As técnicas também analisam as lacunas entre as impressões dos profissionais e dos consumidores da informação. Os resultados são úteis para determinar qual a melhor área para as atividades de melhoria de qualidade da

(33)

informação. O maior diferencial do trabalho é avaliar a qualidade utilizando tanto o ponto de vista dos profissionais, quanto dos consumidores. No entanto, um problema desse modelo é que a avaliação da qualidade utiliza o mecanismo de aplicação de questionários, o que torna o processo lento; e, além disso, os resultados não apontam problemas específicos de qualidade, mas apenas as áreas que devem ser melhor avaliadas.

O trabalho de Mecella et al. (2002) apresenta um framework baseado em serviços para gerenciamento da Qualidade dos Dados em sistemas de informação cooperativos. Também é apresentado um modelo XML para representar os dados e os dados de qualidade, assim como um agente para seleção dos melhores dados disponíveis em diferentes serviços. O agente proposto também suporta a melhoria dos dados por meio de feedback aos serviços de origem. Esse trabalho apresenta uma forma de representação XML tanto para os dados como para cada valor de Qualidade dos Dados em cada uma das quatro Dimensões de Qualidade proposta.

No trabalho de Lei et al. (2007) é proposta uma nova abordagem para avaliação da qualidade dos metadados semânticos, que são metadados que descrevem os dados disponíveis e seus relacionamentos. O diferencial de sua proposta é que avalia a qualidade do metadado em si, e não dos algoritmos que o geraram. Ele avalia a qualidade dos metadados em seis aspectos distintos: notações incompletas, inconsistentes, duplicadas, ambíguas, incorretas ou equivocadas. Apesar de não focar na avaliação dos dados em si, a avaliação é realizada a partir das diferenças existentes entre o metadado e os dados contidos no repositório. Dessa forma, os autores apresentam o quantitativo de problemas apresentados, tentando sugerir uma inconsistência nos metadados do repositório. Mas, partindo de outro ponto de vista, essas inconsistências podem significar defeitos nos dados, e não nos metadados.

O Trabalho de Schwab et al. (2015) apresenta um método de avaliação de Qualidade dos Dados de uma base de informações de Análise de Fluxo de Materiais. O método parte do princípio de que, nem todos os dados são perfeitos e, portanto, devese localizar os defeitos dos dados. Definese quatro atributos de dados, semântica, representatividade, proveniência e contexto; e propõese uma função que avalia a qualidade com base nos defeitos dos dados em cada um desses atributos. Portanto, o trabalho de Schwab et al. (2015) apresenta um método de avaliação de Qualidade dos Dados considerando os problemas nos dados em diferentes Dimensões de Qualidade.

(34)

3.2. Regras de Validação de Dados

No trabalho de Weber et al. (2013) é proposto um framework para aplicação de Regras de Validação de Dados em sistemas de bancos de dados orientado a objetos. O objetivo é garantir maior Qualidade dos Dados, e este foi alcançado por meio da aplicação das Regras de Validação, que são gerenciadas pelo usuário e verificadas no banco de dados orientado a objetos. O usuário pode criar regras rígidas, que funcionam como restrições de integridade, ou regras flexíveis, que irão gerar avisos de deficiência na Qualidade dos Dados. Apesar do objetivo ser distinto, os autores relatam a importância da verificação das Regras de Validação para garantia da Qualidade dos Dados.

No trabalho de Probst (2013) é apresentado um framework para aplicação de Regras de Validação de Dados utilizando um modelo de restrição único, que evita inconsistências e redundâncias no processo de validação, de forma que a mesma restrição pode ser verificada em diferentes fases de manipulação do dado em um sistema de informação. O framework já contém as restrições que podem ser implementadas e também traz o conceito de validações rígidas e flexíveis. O autor apresenta uma explicação sobre como a verificação de Regras de Validação pode ser usada para melhorar a Qualidade dos Dados. Além disso, ele questiona a possibilidade de se fazer uma relação entre as Dimensões de Qualidade dos Dados com conjuntos de Regras de Validação; indicando que, dessa forma, seria possível avaliar a Qualidade dos Dados sobre a percepção de cada dimensão por meio das Regras de Validação.

3.3. Comparação entre os Trabalhos Relacionados

Existe uma grande variedade de trabalhos desenvolvidos com foco em melhoria da Qualidade dos Dados. Como mostra o trabalho de Zaveri et al. (2012) os estudos nessa área vêm crescendo significativamente.

Os trabalhos relacionados citados apresentam abordagens que, quando somadas, apontam para uma possível solução ao problema apresentado neste trabalho. O TDQM do Wang (1998) apresenta um processo de melhoria de Qualidade dos Dados. O trabalho do

(35)

Lee et al. (2002) aponta a necessidade de identificar quais as Dimensões de Qualidade que apresentam mais problemas, para que a organização possa priorizar as ações de melhoria de qualidade. Mecella et al. (2002) apresenta uma solução para representação e armazenamento das informações referentes a Qualidade dos Dados. Lei et al. (2007) apresenta uma abordagem para avaliação da qualidade dos metadados, que parte da verificação de corretude entre as definições dos metadados e os dados apresentados. Weber et al. (2013) apresenta um framework para aplicação de Regras de Validação. E, por fim, Probst (2013) aponta a possibilidade de relacionar as regras às Dimensões de Qualidade dos Dados.

A abordagem apresentada neste trabalho difere do caminho adotado pelos diferentes trabalhos aqui apresentados. Com isso, não é possível comparar objetivamente as características de cada abordagem apresentada na literatura com as características da abordagem aqui apresentada. No entanto, cada um dos trabalhos apresentados pode ser visto como fonte de inspiração para a abordagem de detecção automática de Problemas de Qualidade proposta neste trabalho.

3.4. Considerações

Neste capítulo foram apresentados trabalhos relacionados a avaliação de Qualidade dos Dados, bem como trabalhos relacionados ao uso das Regras de Validação de Dados. Por fim, foi apresentada uma comparação dos trabalhos relacionados, bem como uma descrição de como cada abordagem dos trabalhos relacionadas está relacionada a proposta de Deteção de Problemas de Qualidade dos Dados a partir da avaliação de Regras de Validação. O capítulo a seguir apresenta a abordagem proposta.

(36)

4. Abordagem proposta para Detecção de Problemas de

Qualidade dos Dados a partir da avaliação de Regras de

Validação

Neste capítulo, é apresentado o caminho percorrido para alcançar os objetivos do trabalho. Inicialmente, apresentase a abordagem proposta para detecção de Problemas de Qualidade dos Dados.

Após apresentada a proposta, é descrita a associação das Regras de Validação de Dados com as Dimensões de Qualidade. E por fim, é esclarecido como se deu a implementação do protótipo e a realização do estudo de caso.

4.1. Visão Geral da abordagem proposta

A abordagem proposta neste trabalho para a Detecção automática de Problemas de Qualidade dos Dados parte da verificação de Regras de Validação de Dados. Conforme apresentado na Figura 5, a abordagem para Detecção de Problemas de Qualidade prevê cinco etapas, além da etapa de Correção dos Problemas detectados, que não é tratada neste trabalho.

Inicialmente, o ator humano deve definir qual o conjunto de dados será validado. Em seguida, ele define quais as Regras de Validação devem ser avaliadas. Basicamente, para cada coluna a ser validada, o usuário deve definir o conjunto de regras que deverá ser verificado.

Com isso, o sistema avalia as Regras de Validação em cada coluna do conjunto de dados definido com o objetivo de identificar os dados que não estão de acordo com as regras definidas.

Sempre que se encontra uma inconformidade, o sistema a classifica em uma Dimensão de Qualidade. A classificação da inconformidade de uma Regra de Validação em

(37)

uma Dimensão de Qualidade se torna possível devido à associação entre conjuntos de Regras de Validação com as Dimensões de Qualidade dos Dados abordadas neste trabalho: Completude, Corretude e Consistência.

Após a classificação dos problemas, eles são relatados à área responsável pelos dados, que deverá tomar as medidas necessárias para correção dos problemas. Essas medidas podem ser corretivas, onde o usuário apenas corrige manualmente os problemas nos dados; ou preventivas, onde se identifica uma falha no processo de entrada dos dados e trabalhase para que o problema não ocorra novamente, seja por meio de melhor capacitação das pessoas envolvidas, melhoria do processo estabelecido, ou adaptação no sistema.

Ao fim desse processo é esperado que os dados avaliados apresentem um nível de qualidade superior. Seja essa melhoria provocada pela correção dos dados, por uma mudança de processo, por uma melhor capacitação das pessoas envolvidas ou devido a uma melhoria do sistema utilizado. Vale ressaltar que o foco do presente trabalho consiste em automatizar a detecção dos Problemas de Qualidade, e que a correção dos Problemas de Qualidade Dados detectados não faz parte do escopo do trabalho.

Figura 5 Abordagem para detecção de Problemas de Qualidade