• Nenhum resultado encontrado

Uma abordagem para detecção de problemas de qualidade dos dados a partir da avaliação de regras de validação

N/A
N/A
Protected

Academic year: 2021

Share "Uma abordagem para detecção de problemas de qualidade dos dados a partir da avaliação de regras de validação"

Copied!
82
0
0

Texto

(1)

  Pós­Graduação em Ciência da Computação 

                          ARTUR   DE   CARVALHO   ALVES                   

UMA ABORDAGEM PARA DETECÇÃO DE 

PROBLEMAS DE QUALIDADE DOS DADOS A 

PARTIR DA AVALIAÇÃO DE REGRAS DE 

VALIDAÇÃO 

 

 

 

 

 

 

 

 

  Universidade   Federal   de   Pernambuco  posgraduacao@cin.ufpe.br  www.cin.ufpe.br/~posgraduacao      RECIFE 

(2)

      Artur   de   Carvalho   Alves                              Uma   abordagem   para   Detecção   de   Problemas   de   Qualidade   dos   Dados   a   partir   da  avaliação   de   Regras   de   Validação         

Este Trabalho foi apresentado à Pós­Graduação em        Ciência da Computação do Centro de Informática da        Universidade Federal de Pernambuco como requisito        parcial para obtenção do grau de Mestre Profissional em        Ciência   da   Computação.                  ORIENTADORA:    Profa.   Dra.   Bernadette   Farias   Lóscio                    RECIFE  2017 

(3)

                                                        Catalogação   na   fonte  Bibliotecária   Monick   Raquel   Silvestre   da   S.   Portes,   CRB4­1217          A474a Alves,   Artur   de   Carvalho  

Uma abordagem para detecção de problemas de qualidade dos dados a        partir   da   avaliação   de   regras   de   validação   /   Artur   de   Carvalho   Alves.   –   2017. 

      81   f.:   il.,   fig.,   tab.   

      Orientadora:   Bernadette   Farias   Lóscio. 

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn,

       

Ciência   da   Computação,   Recife,   2017.         Inclui   referências   e   anexos.   

1. Banco de dados. 2. Qualidade dos dados. I. Lóscio, Bernadette Farias

        (orientadora).      II.   Título.          025.04      CDD   (23.   ed.)       UFPE­   MEI   2017­61               

(4)

       

Artur   de   Carvalho   Alves 

 

 

Uma   abordagem   para   Detecção   de   Problemas   de   Qualidade   dos 

Dados   a   partir   da   avaliação   de   Regras   de   Validação 

 

 

Dissertação apresentada ao Programa de          Pós­Graduação em Ciência da Computação da        Universidade Federal de Pernambuco, como          requisito parcial para a obtenção do título de        Mestre Profissional em 22 de fevereiro de       

2017.              Aprovado   em:   ___/___/______.        BANCA   EXAMINADORA        __________________________________________  Profª.   Ana   Carolina   Brandão   Salgado  Centro   de   Informática   /   UFPE        __________________________________________  Profª.   Maria   da   Conceição   Moraes   Batista  Universidade   Federal   Rural   de   Pernambuco      __________________________________________  Profª.   Bernadette   Farias   Lóscio  Centro   de   Informática   /   UFPE     (Orientadora)     

(5)

                                                              À   minha   esposa,   Angélica.  Aos   meus   pais,   dona   Ana   e   seu   Osmar.  E   ao   meu   irmão,   Igor. 

(6)

Agradecimentos 

 

Muitas pessoas me ajudaram nesta jornada, desde a decisão de ingresso no curso        até a conclusão deste trabalho. Certamente o apoio de muitos parentes e amigos foi de        grande importância para que eu continuasse firme no objetivo de cumprir mais esta etapa de        minha formação. Portanto, sou muito grato a cada um que se colocou em prol de ajudar,        seja no apoio à revisão de um texto, numa palavra de incentivo, ou apenas na compreensão        de   minha   ausência   nos   eventos   festivos. 

 

Inicialmente quero agradecer a quem mais me apoiou durante todo o período do        curso, por ter suportado minha ausência em diversos momentos durante as infindáveis        semanas de aula; pelas inúmeras tardes e noites passadas sozinha, mesmo estando        fisicamente ao meu lado, enquanto eu dava atenção aos diagramas, códigos, métodos e        prazos; por ter se mantido ao meu lado para me dar apoio quando os prazos de entrega dos        trabalhos coincidiam com os fins de semana ensolarados, deixando de lado o lazer para me        apoiar neste projeto. Enfim, agradeço primeiramente a minha esposa, Angélica, que tomou        junto comigo a decisão de ingressar no curso, e que por meio de suas ações e palavras me        mostrou   que   compartilhava   comigo   o   objetivo   de   concluir   este   projeto. 

 

Devo agradecer aos meus pais, Ana Maria e Osmar, que foram perfeitos na        educação necessária para minha formação como uma pessoa simples e que se esforça a        compreender e a respeitar todos ao meu redor; que foram insistentes em me mostrar que        apenas me esforçando no caminho da educação eu encontraria um futuro melhor; que        muitas vezes abriram mão de seus próprios sonhos para permitir que eu e meu irmão        pudéssemos   construir   os   nossos. 

 

Agradeço ao meu irmão, Igor Augusto, pelo apoio dado na minha trajetória durante o        curso, principalmente nesta etapa final. Conheço e admiro meu irmão desde de seu        nascimento, mas nos aproximamos ainda mais depois da experiência de cursar os mesmos        cursos técnico e de graduação. Portanto, foi muito importante para mim ter visto o seu        sucesso ao concluir seu mestrado na época em que eu começava o meu. Isso me fez        pensar   que,   se   ele   conseguiu,   então   eu   também   seria   capaz. 

(7)

Certamente não posso deixar de agradecer aos servidores do CIn, que foram        excepcionais no exercício de suas atividades e mostraram­se profissionais respeitáveis.        Dentre eles gostaria de destacar minha orientadora, Bernadette, que me deu todo o apoio        necessário   no   processo   de   construção   deste   trabalho.  

 

Também gostaria de agradecer ao apoio trocado com os companheiros de turma. O        formato do curso nos proporcionou uma experiência única e inesquecível, e inevitavelmente        alguns   destes   companheiros   tornaram­se   verdadeiros   amigos. 

 

Agradeço o apoio de todos os camaradas dos CEFET­MG que me deram votos de        confiança ao longo desta trajetória. Agradeço também àqueles que me ajudaram a propor        um projeto que trouxesse benefício a instituição. E também ao apoio financeiro        proporcionado   pela   instituição. 

 

Agradeço ao Cristiano Nunes, que foi um excelente companheiro de estudos; me deu        ouvidos nas horas em que queria reclamar de tudo, me motivou nos dias de baixa estima e        me   deu   dicas   importantes   ao   desenvolvimento   do   trabalho.  

 

Agradeço também a todos os familiares e amigos que estranharam, mas        compreenderam,   minha   ausência   nos   encontros   e   confraternizações.     Finalmente,   agradeço   à   Deus   por   tudo.                           

(8)

                                                                  “Não   sei.   Só   sei   que   foi   assim!”  ­ Ariano   Suassuna   (Em:   O   Auto   da   Compadecida)    

(9)

Resumo 

 

Estudos apontam que diversas empresas e organizações, públicas e privadas, têm        acumulado prejuízos por tomarem decisões baseando­se em dados de baixa qualidade.        Com isso, vimos que desenvolvedores e usuários têm se preocupado cada vez mais com a        Qualidade dos Dados. O aumento dessa preocupação fez com que as pesquisas na área        crescessem significamente a fim de medir e melhorar a Qualidade dos Dados. Qualidade é        um termo subjetivo e na maior parte das vezes está relacionado à satisfação do usuário. Por        esse motivo, a Qualidade dos Dados possui um contexto multidimensional e as pesquisas        apontam diferentes métodos de avaliação a partir de diferentes conjuntos de Dimensão de        Qualidade dos Dados. Para algumas Dimensões de Qualidade, a avaliação é realizada de        maneira objetiva, para outras apenas é possível fazer a avaliação a partir de formulários        subjetivos aplicados aos usuários dos dados. Trabalhos recentes apontam que é possível        melhorar a Qualidade de Dados a partir de métodos automáticos de deteção e correção de        Problemas de Qualidade dos Dados. Nesse contexto, a proposta deste trabalho consiste em        apresentar uma abordagem para detecção de Problemas de Qualidade dos Dados a partir        da avaliação de Regras de Validação. Para isso, é realizada uma associação entre        conjuntos de Regras de Validação de Dados e Dimensões de Qualidade dos Dados. Além        disso, foi desenvolvido um protótipo capaz de detectar Problemas de Qualidade dos Dados        conforme a abordagem proposta. Por fim, a abordagem e o protótipo desenvolvidos foram        utilizados em um estudo de caso em cenário real num contexto de migração de dados. Os        resultados mostraram que a proposta se mostrou útil na detecção de Problemas de        Qualidade dos Dados, e que a correção dos problemas encontrados, de fato, ajudaram no        processo   de   migração   dos   dados.      Palavras­chave:    Qualidade   dos   Dados.   Regras   de   Validação   de   Dados.   Problemas   de  Qualidade   dos   Dados. 

 

 

(10)

Abstract 

 

Studies indicate that several companies and organizations, public and private, have        accumulated losses by making decisions based on data of low quality. Then, to overcome        such problems, developers and users have been increasingly concerned with Data Quality.        As a consequence, Data Quality research is growing significantly in order to provide solutions        to measure and improve the quality of the data. Quality is a subjective term and is most often        related to user satisfaction. For this reason, Data Quality has a multidimensional context and        the researches point out different methods of evaluation based on several Data Quality        dimensions. For some Data Quality dimensions, the evaluation is performed in an objective        way, for others it is only possible to make the subjective evaluations based on the data users        opinion. Recent works indicate that automatic methods of detecting and correcting Data        Quality Problems may be very useful to improve the data quality . In this context, the        proposal of this work is to present an approach to detect Data Quality Problems based on the        evaluation of Validation Rules. For this, an association is made between sets of Data        Validation Rules and Data Quality Dimensions. In addition, a prototype capable of detecting        Data Quality Problems was developed according to the proposed approach. Finally, the        developed approach and prototype were used in a case study in a real scenario in a data        migration context. The results showed that the proposal proved useful in the detection of        Data Quality Problems, and that the correction of those problems, in fact, helped during the        process   of   data   migration.      Keywords:    Data   Quality.   Validation   Rules.   Data   Quality   Problems.         

(11)

Lista   de   Figuras 

    Figura   1   ­   Cenário   motivacional   .   .   .   . 17  Figura   2   ­   Cenário   de   migração   de   dados   .   .   .   .  18  Figura   3   ­   Classificação   de   Problemas   de   Qualidade   dos   Dados   .   .   .   .  23  Figura   4   ­   Classificação   de   Restrições   de   Integridade   .   .   .   . 28  Figura   5   ­   Abordagem   para   detecção   de   Problemas   de   Qualidade   .   .   .   . 36  Figura   6   ­   Método   utilizado   para   associar   as   Regras   de   Validação   às   Dimensões   de  Qualidade      .   .   .   .    38  Figura   7   ­   Diagrama   de   Caso   de   Uso   .   .   .   .  50  Figura   8   ­   Diagrama   de   Classes   .   .   .   .  51  Figura   9   ­   Tela   Inicial:      Listagem   de   Conjuntos   de   Dados   .   .   .   .  53  Figura   10   ­   Tela   de   Visualização   de   Conjuntos   de   Dados   .   .   .   .   54  Figura   11   ­   Tela   de   Cadastro   de   Conjunto   de   Dados   .   .   .   .   55  Figura   12   ­   Tela   de   Cadastro   de   Tabela   .   .   .   .   55  Figura   13   ­   Tela   de   Visualização   da   Tabela,   suas   colunas   e   Regras   de   Validação   .   .   .   .   56  Figura   14   ­   Detalhe   do   cadastro   ou   edição   de   uma   de   Regra   de   Validação   .   .   .   .    57  Figura   15   ­   Tela   de   visualização   das   últimas   avaliações   de   um   Conjunto   de   Dados      .   .   .  58  Figura   16   ­   Relatório   de   Problemas   Detectados   .   .   .   .  59  Figura   17   ­   Distribuição   dos   Problemas   de   Qualidade   dos   Dados   por   Dimensão   de  Qualidade   ­   unidades   de   Belo   Horizonte   .   .   .   .    65  Figura   18   ­   Distribuição   dos   Problemas   de   Qualidade   dos   Dados   por   Dimensão   de  Qualidade   ­   unidades   do   interior   .   .   .   .     66 

 

 

(12)

Lista   de   Tabelas 

    Tabela   1   ­   Classificação   de   Problemas   de   Qualidade   dos   Dados   .   .   .   .  24  Tabela   2   ­   Associação   entre   tipos   de   Regras   de   Negócio   e   conceitos   do   SQL   .   .   .   .   26  Tabela   3   ­   Regras   de   Validação   de   Dados   .   .   .   .  39  Tabela   4   ­   Regras   de   Validação   de   Dados   e   tipos   de   Restrições   de   Integridade   .   .   .   .  42  Tabela   5   ­   Problemas   de   Qualidade   dos   Dados   e   tipos   de   Restrições   de   Integridade   .   .  44  Tabela   6   ­   Problemas   de   Qualidade   dos   Dados   e   Dimensões   de   Qualidade   .   .   .   .  45  Tabela   7   ­   Associação   entre   Regras   de   Validação   de   Dados   e   Dimensões   de   Qualidade   .   .   .      .   .   .   .    46  Tabela   8   ­    Views    criadas   para   o   Educacenso   .   .   .   .  63 

 

 

 

 

(13)

Lista   de   Abreviaturas   e   Siglas 

    AIMQ   ­   A   methodology   for   information   quality   assessment  CEP   ­   Código   de   Endereço   Postal  CPF   ­   Cadastro   de   Pessoa   Física  CSV   ­   Comma   Separated   Values  IEC   ­   International   Electrotechnical   Commission  INEP   ­   Instituto   Nacional   de   Estudos   e   Pesquisas   Educacionais   Anísio   Teixeira  ISO   ­   International   Organization   for   Standardization  MIT   ­      Massachusetts   Institute   of   Technology  SGBD   ­   Sistema   de   Gerenciamento   de   Banco   de   Dados  SQL   ­   Structured   Query   Language  TDQM   ­   Total   Data   Quality   Management  TQM   ­   Total   Quality   Management  XML   ­   eXtensible   Markup   Language   

 

 

 

 

(14)

Sumário 

  1.   Introdução   .   .   .   .  15  1.1.   Motivação   .   .   .   .  15  1.2.   Caracterização   do   Problema   .   .   .   .   17  1.3.   Objetivos:   Geral   e   Específicos   .   .   .   .   19  1.4.   Organização   do   Texto   .   .   .   .   19  2.   Fundamentação   Teórica   .   .   .   .  20  2.1.   Qualidade   dos   Dados   .   .   .   .  20  2.2.   Dimensões   de   Qualidade   dos   Dados   .   .   .   .   21  2.3.   Problemas   de   Qualidade   dos   Dados   .   .   .   .   22  2.4.   Restrições   de   Integridade      .   .   .   .  26  2.5.   Considerações   .   .   .   .  29  3.   Trabalhos   Relacionados   .   .   .   .  30  3.1.   Avaliação   de   Qualidade   dos   Dados   .   .   .   .   31  3.2.   Regras   de   Validação   de   Dados   .   .   .   .   33  3.3.   Comparação   entre   os   Trabalhos   Relacionados   .   .   .   .  33  3.4.   Considerações   .   .   .   .  34  4.   Abordagem   proposta   para   Detecção   de   Problemas   de   Qualidade   dos   Dados   .   .    35  4.1.   Visão   Geral   da   abordagem   proposta   .   .   .   .   35  4.2.   Associação   das   Regras   de   Validação   de   Dados   às   Dimensões   de  Qualidade   dos   Dados   .   .   .   .     37  4.2.1.   Passo   1:   Associação   entre   Regras   de   Validação   de   Dados   e  tipos   de   Restrições   de   Integridade   .   .   .   .    38  4.2.2.   Passo   2:   Associação   entre   tipos   de   Restrições   de   Integridade  e   Problemas   de   Qualidade   dos   Dados   .   .   .   .    44     

(15)

4.2.3.   Passo   3:   Associação   entre   Problemas   de   Qualidade   dos  Dados   e   Dimensões   de   Qualidade   .   .   .   .    45  4.2.4.   Passo   4:   Associação   entre   Regras   de   Validação   de   Dados   e  Dimensões   de   Qualidade   .   .   .   .     45  4.3.   Considerações   .   .   .   .  47  5.   Implementação   e   Avaliação   .   .   .   .  48  5.1.   Protótipo   .   .   .   .  48  5.1.1.   Análise   do   Protótipo   .   .   .   .   49  5.1.2.   Desenvolvimento   do   Protótipo   .   .   .   .   53  5.2.   Aplicação   do   Estudo   de   Caso   .   .   .   .   60  5.2.1.   Cenário   do   Estudo   de   Caso   .   .   .   .   60  5.2.2.   Definição   dos   Conjuntos   de   Dados   e   Regras   de   Validação   .   .    62  5.2.3.   Problemas   detectados   .   .   .   .   64  5.3.   Considerações   Finais   .   .   .   .   67  6.   Conclusão   .   .   .   .  68  6.1.   Contribuições   do   Trabalho   .   .   .   .  69  6.2.   Trabalhos   Futuros   .   .   .   .   70  Referências   .   .   .   .  72  Anexo   1   ­   E­mails   trocados   com   a   analista   de   negócio   para   validação   dos  Problemas   de   Qualidade   de   Dados   detectados   .   .   .   .     75  Anexo   1A   ­   E­mail   com   relatório   de   problemas   detectados   nos   dados   das  unidades   de   Belo   Horizonte   .   .   .   .     76  Anexo   1B   ­   E­mail   com   resposta   sobre   o   relatório   de   problemas   detectados   nos   dados   das   unidades   da   capital   .   .   .   .    77  Anexo   1C   ­   E­mail   com   relatório   de   problemas   detectados   nos   dados   das  unidades   do   interior   .   .   .   .    78  Anexo   2   ­   Relatório   de   Problemas   de   Qualidade   detectados   nas   unidade   da   capital  com   a   resposta   da   analista   de   negócio   .   .   .   .    79 

(16)

1.

Introdução 

 

Este capítulo apresenta uma visão geral do trabalho e o contexto no qual a pesquisa        está inserida. São apresentados a motivação que levou à realização deste trabalho, a        caracterização do problema abordado pela pesquisa, os objetivos a serem alcançados e a        organização   dos   demais   capítulos. 

 

1.1.

Motivação 

 

Há décadas, com a rápida proliferação dos sistemas de informações, vimos que        desenvolvedores e usuários de sistemas têm se preocupado cada vez mais com a        Qualidade dos Dados (Fox et al, 1994). Alguns trabalhos (e.g. Eckerson, 2002; Redman,        1996) apontam o prejuízo que diversas empresas e organizações, públicas e privadas, têm        por   tomarem   decisões   baseando­se   em   dados   de   baixa   qualidade.  

 

O aumento da preocupação com a Qualidade dos Dados fez com que, ao longo do        tempo, surgissem diversos estudos sobre o tema (Zaveri et al., 2012). As pesquisas na área        de Qualidade dos Dados cresceram significativamente a fim de atender às necessidades        das   organizações   em   medir   e   melhorar   a   qualidade   da   informação   (Lee   et   al.,   2002). 

 

Geralmente, esses trabalhos enfatizam que a Qualidade dos Dados possui        características multidimensionais, e suas propostas de avaliação são sempre realizadas        sobre aspectos de determinadas Dimensões de Qualidade. Mas, de maneira geral, a        Qualidade dos Dados está relacionada ao quanto os dados atendem às necessidades do        usuário   (Wang,   1998). 

 

Para Orr (1998), a Qualidade dos Dados não precisa ser absoluta, mas deve atender        critérios suficientes para que a organização possa tomar decisões suficientes para sua        sobrevivência. Com a evolução das pesquisas nessa área, emergiram inúmeras dimensões        para definir e avaliar a Qualidade dos Dados. Em sua pesquisa, Arouck (2011) catalogou        mais   de   100   Dimensões   de   Qualidade   citadas   na   literatura.  

(17)

Segundo Orman et al. (1996), além das Dimensões de Qualidade, surgem também        diversas propostas de como avaliar a Qualidade dos Dados. De maneira geral, em diversos        trabalhos (e.g. Batini e Scannapieco, 2006; Lee et al., 2002; Pipino et al., 2002; Wang,        1998), a avaliação é realizada pelo uso de um conjunto de métricas adequadas para cada        uma das Dimensões de Qualidade a serem analisadas. No trabalho de Pipino et al. (2002),        por exemplo, é apresentada uma proposta para melhorar a Qualidade dos Dados cruzando        resultados   de   avaliações   objetivas   e   subjetivas.  

 

No entanto, tem­se buscado maneiras mais ágeis para melhorar a Qualidade dos        Dados. Essas abordagens apontam, de maneira geral, que a melhoria da qualidade pode        ser obtida a partir de processos de detecção e correção de problemas de qualidade sem a        interferência   humana,   ou   seja,   de   maneira   automática   (Krishnan   et   al.,   2016). 

 

Probst (2013) vislumbra, na seção de trabalhos futuros de sua tese, a possibilidade        de se fazer uma relação entre as Dimensões de Qualidade dos Dados com conjuntos de        Regras de Validação, indicando que, dessa forma, seria possível avaliar a Qualidade dos        Dados sobre a percepção de cada dimensão por meio da verificação das Regras de        Validação. 

 

No trabalho de Weber et al. (2013) é relatada a importância da verificação das        Regras de Validação para garantia da Qualidade dos Dados e é apresentada uma proposta        para definição de Regras de Validação, mas ainda assim, sem estabelecer uma relação com        Dimensões   de   Qualidade. 

 

É importante ressaltar algumas premissas que motivaram a realização deste        trabalho, como o fato de que dados de boa qualidade aumentam a confiança na tomada de        decisão. Da mesma forma, uma base de dados de boa qualidade facilita processos que        envolvem extração de dados (e.g.: a migração para outros sistemas, exportação de dados        para um  Data Warehouse ou publicação de dados abertos), por exemplo (Wang, 1996;            Batini   e   Scannapieco,   2016). 

 

Nesse contexto, a proposta deste trabalho consiste em apresentar uma abordagem        para detecção automática de Problemas de Qualidade dos Dados a partir de uma relação        entre Dimensões de Qualidade e conjuntos de Regras de Validação de Dados. De forma        que, sempre que for detectado que um determinado dado não está em conformidade com as       

(18)

Regras de Validação, será possível caracterizar a inconformidade como um Problema de        Qualidade   dos   Dados.    Figura   1   ­   Cenário   motivacional    Fonte:   elaborada   pelo   autor   

Portanto, conforme pode ser visualizado na Figura 1, a principal motivação para o        desenvolvimento deste trabalho é perceber que a detecção de Problemas de Qualidade dos        Dados auxilia no processo de melhoria da qualidade. E que, ciente do nível de qualidade        dos seus dados, as organizações terão maior confiança nas tomadas de decisões, nos        processos de extração ou migração de dados, ou na publicação dos dados em formato        aberto. 

 

Diante disso, este trabalho se propõe a apresentar uma forma de detecção        automática de Problemas de Qualidade dos Dados com foco na verificação de Regras de        Validação.  

 

1.2.

Caracterização   do   Problema 

 

O presente trabalho foi proposto tendo como foco principal cenários de migração de        dados, nos quais o ambiente que recebe as informações possui uma série de restrições        quanto à completude, corretude e consistência dos dados, enquanto que o ambiente que        produz e mantém tais informações não garante as restrições necessárias. Por tratar­se de        um processo de migração de dados, é comum optar por melhorar a Qualidade dos Dados no        ambiente   de   origem   antes   do   processo   de   exportação. 

(19)

A Figura 2 apresenta um dos possíveis cenários. Nele, os dados precisam ser        migrados de um Sistema X para um Sistema Z. Os dois sistemas possuem Regras de        Validação distintas. No cenário proposto, é importante ressaltar que os dados do Sistema X        (Dados X) podem possuir qualidade satisfatória em relação às regras do Sistema X (Regras        X); mas, antes de efetuar a migração dos dados, é necessário verificar se eles possuem        boa   qualidade   do   ponto   de   vista   das   regras   do   Sistema   Z   (Regras   Z).    Figura   2   ­   Cenário   de   migração   de   dados    Fonte:   elaborada   pelo   autor   

Considerando, no cenário de migração apresentado, que o Sistema X possui em seu        conjunto de dados um registro composto pelos valores Nome = “João Silva”’ e CPF =        “123.456.789­00” e que possui as Regras de Validação RX1) O nome não pode ser nulo e        RX2) O CPF não pode ser nulo. Considerando também que o Sistema Z, que deverá        receber os dados do Sistema X, possui as Regras RZ1) O nome não pode ser nulo e RZ2) O        CPF deve ser válido. Neste cenário temos que o registro a ser migrado atende todas as        regras do Sistema X, mas não atende todas as regras do Sistema Z, pois o CPF        armazenado não é um CPF válido. Dessa forma, o registro atende aos critérios de qualidade        do   Sistema   X,   mas   não   atende   aos   critérios   de   qualidade   do   Sistema   Z. 

  

No cenário apresentado, é possível perceber que a Qualidade dos Dados é avaliada        a partir do ideal de ‘conformidade para o uso’. Que, neste caso, é representada pelos pelas        Regras de Validação definidas nos diferentes sistemas. Portanto, considerando tal cenário,        temos como problema de pesquisa como detectar Problemas de Qualidade dos Dados a        partir   da   avaliação   de   Regras   de   Validação. 

(20)

1.3.

Objetivos:   Geral   e   Específicos 

 

O objetivo geral deste trabalho consiste em apresentar uma solução para detecção        automática de Problemas de Qualidade dos Dados, partindo da relação entre Regras de        Validação   e   Dimensões   de   Qualidade   dos   Dados. 

 

Para que o objetivo geral seja alcançado, uma série de objetivos específicos devem        ser   considerados:  

 

● Identificar uma relação entre conjuntos de Regras de Validação e Dimensões de        Qualidade   dos   Dados;  

● Definir uma abordagem para detecção de Problemas de Qualidade dos Dados a        partir   da   avaliação   de   Regras   de   Validação; 

● Implementar um protótipo para avaliação da abordagem proposta. O protótipo deverá        realizar a verificação das Regras de Validação e apresentar relatório dos Problemas        de   Qualidade   detectados; 

● Apresentar, por meio de um estudo de caso em um cenário real, que a abordagem        proposta para detecção automática de Problemas de Qualidade é capaz de detectar        Problemas   de   Qualidade   dos   Dados   a   partir   da   avaliação   de   Regras   de   Validação.   

1.4.

Organização   do   Texto 

 

Este trabalho está organizado em 6 (seis) capítulos incluindo essa Introdução. Os        demais   capítulos   estão   organizados   da   seguinte   maneira:  ● No   Capítulo   2   é   apresentada   a   fundamentação   teórica;  ● No   Capítulo   3   são   apresentados   os   trabalhos   relacionados;  ● No   Capítulo   4   é   apresentada   a   abordagem   proposta   para   detecção   de  problemas   de   qualidade   dos   dados;  ● No   Capítulo   5   são   apresentados   a   implementação   do   protótipo   e   a   avaliação  da   abordagem   por   meio   do   estudo   de   caso.   ● No   Capítulo   6   são   apresentados   a   conclusão,   as   contribuições   e   trabalhos  futuros.   

(21)

2.

Fundamentação   Teórica 

 

Neste capítulo são apresentados os conceitos necessários ao entendimento do        trabalho. São apresentados conceitos de Qualidade dos Dados e de suas principais        Dimensões, bem como as definições de Problemas de Qualidade dos Dados e de        Restrições   de   Integridade.  

 

Vale ressaltar que na literatura existem discrepâncias em alguns conceitos. Um forte        motivo para isso, se dá pelo fato de que "Qualidade" é um termo subjetivo e pode ser        aplicado em diferentes contextos. No entanto, parte dos trabalhos define qualidade como        sendo   algo   que   esteja   adequado   ao   uso   (Wang   e   Strong,   1996). 

 

2.1.

Qualidade   dos   Dados 

 

Para Wang e Strong (1996), a Qualidade dos Dados depende de diversos fatores        que devem ser avaliados conforme a necessidade dos usuários. Para Batini e Scannapieco        (2016) a Qualidade de Dados possui um conceito multidimensional, devido à existência de        diversos tipos de dados, de diversas formas de representação e armazenamento, de        distintas categorias de frequência de atualização e, entre outras particularidades, de cada        sistema   de   informação. 

 

A ISO divulgou em 2008 a norma ISO/IEC 25012:2008, que define Qualidade dos        Dados como o grau em que as características dos dados satisfazem às necessidades        quando utilizados em condições específicas. A ISO/IEC 25012:2008 também conceitua as        Dimensões de Qualidade previstas no seu modelo, incluindo: Corretude, Completude,        Consistência, Credibilidade, Atualidade, Acessibilidade, Conformidade, Confidencialidade,        Eficiência, Precisão, Rastreabilidade, Compreensibilidade, Disponibilidade, Portabilidade e        Recuperabilidade   (ISO,   2008    apud    Batini   e   Scannapieco,   2016). 

 

Conforme apresentado por Batista (2008), Scannapieco (2005), Pipino et al. (2002);        para que se possa avaliar a Qualidade dos Dados é necessário verificar diversas Dimensões        de   Qualidade   dos   Dados,   cada   uma   descrevendo   um   aspecto   de   qualidade   distinto. 

(22)

2.2.

Dimensões   de   Qualidade   dos   Dados 

 

Como dito, diversos trabalhos propõem distintos conjuntos de Dimensões de        Qualidade dos Dados. Não existe consenso sobre qual o conjunto de Dimensões de        Qualidade devem ser considerados para realizar uma avaliação de qualidade. De fato,        existem, inclusive, divergências sobre o conceito de determinadas Dimensões de Qualidade.        No entanto, percebe­se que as dimensões de corretude e completude aparecem com        unanimidade   em   diversos   trabalhos.  

 

Para Oliveira (2009), dentre as Dimensões de Qualidade dos Dados mais comuns        pode­se citar Corretude, Completude, Consistência, Atualidade, Acessibilidade e        Interpretabilidade. A seguir, são definidas cada uma destas Dimensões de Qualidade dos        Dados. As definições foram retiradas, principalmente, do trabalho de Batini e Scannapieco        (2016) e complementadas pelos trabalhos de Mecela et al. (2002), Pipino et al. (2002),        Fuber   e   Hepp   (2011),   e   Zaveri   et   al.   (2012).  

 

● Corretude ­  A dimensão de corretude indica se determinado dado representa a            informação correta. Essa dimensão pode ser dividida em duas: corretude sintática e        corretude semântica. A corretude sintática indica se o valor do dado pertence ao        domínio de valores possíveis daquela informação. A corretude sintática é medida por        meio de funções de comparação. Já a corretude semântica indica se o valor do dado,        de fato, reflete a informação correta no mundo real (Batini e Scannapieco, 2016). Tal        conceituação   é   ratificada   no   trabalho   de   Zaveri   et   al.   (2012). 

 

● Consistência ­ Segundo Batini e Scannapieco (2016), a dimensão de consistência          indica se o dado está de acordo com regras definidas. A verificação da Consistência        é feita por meio de restrições de integridade, que podem envolver uma única relação        ou mais de uma relação. Já Mecella et al. (2002) afirma que os dados são        consistentes   quando   dois   ou   mais   valores   não   entram   em   conflito   um   com   o   outro.   

● Completude ­ De maneira geral, a dimensão de completude está relacionada ao          quanto a informação é completa para a finalidade desejada (Batini e Scannapieco,        2016). O conceito apresentado por Pipino et al. (2002) define que a dimensão de        completude indica o quanto de informação não está ausente. Já para Fuber e Hepp       

(23)

(2011), completude pode ser classificada em: (a) completude de esquema, que está        relacionada ao quanto as classes e propriedades estão presentes no esquema; (b)        completude de coluna, que está relacionada ao quanto os valores estão presentes        em determinadas colunas; e (c) completude populacional, que é a relação entre as        instâncias presentes nas classes representadas em um sistema de informação e        toda   a   população   que   deveria   estar   presente. 

 

● Atualidade ­ A dimensão de atualidade indica se os dados estão suficientemente        atualizados   para   a   finalidade   desejada   (Batini   e   Scannapieco,   2016).  

 

● Interpretabilidade  ­ Essa Dimensão de Qualidade avalia o quanto a informação é          clara o suficiente para que possa ser utilizada de forma adequada. Normalmente        avaliada com base nas informações dos metadados e informações suplementares        (Oliveira,   2009). 

 

● Acessibilidade ­ A dimensão de acessibilidade basicamente avalia a facilidade e a        velocidade com que os dados podem ser acessados pelo usuário. (Pipino et al.,        2002) 

 

As dimensões de corretude, consistência e completude destacam­se como as mais        relevantes ao contexto deste trabalho; visto que, estas dimensões apresentam        características que possibilitam a detecção automática de problemas de qualidade. Por esse        motivo o foco do trabalho será na detecção de Problemas de Qualidade relacionados a uma        dessas   três   Dimensões   de   Qualidade. 

 

2.3.

Problemas   de   Qualidade   dos   Dados 

 

De maneira geral, Problemas de Qualidade dos Dados são vistos como erros ou        inconsistências nos dados armazenados. Porém, considerando o contexto multidimensional,        é mais adequado definir Problema de Qualidade como qualquer dificuldade encontrada em        uma ou mais Dimensões de Qualidade. Como exemplo, os valores em falta que afetam a        dimensão de completude, ou os erros de sintaxe que afetam a dimensão de consistência.        Em outras palavras, os problemas de qualidade não devem estar associados apenas à       

(24)

corretude da informação, mas também a outros aspectos (Wang and Strong, 1996; Strong        et   al.,   1997). 

 

Existem na literatura algumas propostas para definições hierárquicas dos Problemas        de Qualidade dos Dados, entre elas podemos citar Rahm e Do (2000) que, conforme        apresentado na Figura 3, classifica os problemas de acordo com a origem dos dados,        podendo ser  Single­Source  ou  Multi­Source , e também com o nível do problema, podendo            ser   no   esquema   ou   nos   dados.     Figura   3   ­   Classificação   de   Problemas   de   Qualidade   dos   Dados   conforme   Rahm   e   Do   (2000)    Fonte:   Rahm   e   Do   (2000)   

O trabalho de Kim et al. (2003), que utiliza o termo ‘ dirty data ’, apresenta uma              classificação bastante extensa e completa, que basicamente contém três grandes grupos de        problemas de dados: dados ausentes (e.g.: problema de valor em falta); dados presentes        mas incorretos (e.g.: problema de corretude); e dados presentes e corretos mas não        utilizáveis   (e.g.   problema   de   dados   duplicados,   erros   de   sintaxe). 

 

Müller e Freytag (2003), que utiliza o termo ‘ data anomalies ’, divide os Problemas de              Qualidade em três categorias: problemas sintáticos, problemas semânticos e problemas de        cobertura. Nesse trabalho, os autores vão além dos demais e chegam a associar alguns dos        problemas de qualidade às Dimensões de Qualidade de consistência, corretude e        completude. 

 

Oliveira et al. (2005) aponta que, apesar dos diferentes termos e nomenclaturas        utilizados na literatura (e.g.:  errors, anomalies, dirty, issues, problems ), problemas como                      dados ausentes, dados incorretos, ou representações incorretas comprometem a Qualidade        dos   Dados. 

(25)

Baseando­se nos trabalhos de Rahm e Do (2000), Müller e Freytag (2003) e Kim et        al. (2003), Oliveira et al. (2005) apresenta uma nova proposta para classificação dos        Problemas de Qualidade dos Dados. Ele divide os problemas de qualidade baseando­se na        hierarquia do modelo de dados relacional, de forma que apresenta as categorias: problemas        ao nível de atributo, problemas ao nível de registro, problemas ao nível de tabela, problemas        ao   nível   de   múltiplas   tabelas   ou   múltiplas   fontes   de   dados. 

 

A classificação dos Problemas de Qualidade dos Dados definida por Oliveira et al.        (2005) é atualizada em Oliveira (2009), apresentando, além da classificação dos problemas,        sua relação com cada Dimensão de Qualidade. A Tabela 1 apresenta parte dos problemas        definidos no trabalho de Olivera (2009). Os problemas apresentados na tabela foram        selecionados   pelo   grau   de   proximidade   a   este   trabalho.     Tabela   1   ­   Classificação   de   Problemas   de   Qualidade   dos   Dados   por   Oliveira   et   al.   (2009)  Problemas   de  Qualidade   dos   Dados  Dimensão   de  Qualidade  dos   Dados  afetada 

Atributos  Registro  Tabela  Múltiplas  Tabelas  ou  Fontes  de   Dados  valor  Multi­  valor  Valor   em   falta  Completude          Erro   de   sintaxe  Consistência          Erro   de   ortografia  Corretude          Violação   de   domínio  Corretude          Violação   de   Restrição  de   Integridade  Consistência    Violação   de   unicidade  Consistência          Existência   de  sinônimos  Consistência          Registros   duplicados  Consistência        Heterogeneidade   de  sintaxes  Consistência          Fonte:   adaptada   de   Oliveira   et   al.   (2009)   

(26)

A seguir é apresentada a definição de Oliveira (2009) para cada um dos Problemas        de Qualidade dos Dados mais relevantes ao escopo deste trabalho. Por questão de        limitação de escopo devido ao tempo e complexidade, a detecção de Problemas de        Qualidade terá enfoque em cada coluna de cada registro. Portanto, abordaremos neste        trabalhos   apenas   Problemas   de   Qualidade   dos   Dados   relacionados   ao   nível   do   atributo.   

● Valor em falta : ausência de valor num atributo que é de preenchimento obrigatório          (e.g.:   atributo    nome_produto    possui   valor   nulo); 

 

● Erro de Sintaxe : o valor não respeita a sintaxe estabelecida para o atributo (e.g.:          atributo    codigo_produto    possui   o   valor   ABC123   em   vez   de   ABC­123); 

 

● Erro de Ortografia : o valor contém um erro ortográfico acidental (e.g.: atributo          cidade_endereco    possui   o   valor   RECIFI   em   vez   de   RECIFE). 

 

● Violação de Domínio : o valor não pertence ao conjunto de valores válidos para o          atributo      (e.g.:   atributo    quantidade_estoque    possui   um   valor   negativo) 

 

● Violação de Restrição de Integridade : o valor não respeita uma restrição de              integridade definida. (e.g.: atributo  quantidade_estoque possui valor maior que zero        ao mesmo tempo que o atributo  situacao_produto possui valor ‘Sem Estoque’,        violando   uma   restrição   de   integridade   definida   pelo   usuário) 

 

É possível perceber que, assim como esta pesquisa, o trabalho de Oliveira (2009)        também mantém seu escopo nas Dimensões de Qualidade dos Dados de corretude,        consistência e completude. Tal motivo se dá pois para essas Dimensões é possível        estabelecer um método de avaliação objetivo e, portanto, um método automático de deteção        de problemas. Já para outras dimensões como Atualidade, Interpretabilidade ou        Acessibilidade, os mecanismos de avaliação são feitos de maneira subjetiva; inviabilizando a        detecção   automática   de   problemas   (Oliveira,   2009).  

  

Além das classificações dos Problemas de Qualidade dos Dados, é importante        elencar os principais motivos que geram tais problemas. Os principais fatores para geração        de dados de baixa qualidade podem ser divididos em três: 1) Erros humanos no momento        da entrada dos dados, que podem estar associados, principalmente, a erro de digitação, uso       

(27)

incorreto de abreviaturas e omissão de valores em atributos obrigatórios. e 2) Falhas de        sistema, que podem ocorrer no momento da transmissão, processamento, transformação ou        integração dos dados. 3) Problemas inerentes à organização, que podem ocorrer devido a        processos falhos, baixa capacitação e conscientização dos funcionários, ou estrutura        insuficiente   (Oliveira,   2009). 

 

2.4.

Restrições   de   Integridade 

 

Taveter e Wagner (2001) conceitua Regras de Negócio como restrições sobre os        dados e sobre as operações que as manipulam. E apresentam as Restrições de Integridade        como um dos tipos de Regras de Negócio: 1) Restrições de Integridade ( integrity rules ou            integrity constraints ); 2) Regras de derivação; 3) e Regras de reação. O trabalho propõe        ainda   um   quarto   tipo   de   regra   não   muito   discutido,   que   são   as   atribuições   de   permissões.   

Taveter e Wagner (2001) definem Restrição de Integridade como uma assertiva que        deve ser satisfeita em qualquer estágio de uma empresa vista como um sistema dinâmico        discreto. Com uma definição semelhante, Lee et al. (2004) afirmam que uma Restrição de        Integridade define uma condição que deve ser verdadeira em relação a um ou mais        atributos,   de   uma   ou   mais   entidades. 

 

O trabalho de Wagner et al. (2005) associa cada um dos três tipos de Regras de        Negócio a conceitos definidos pela linguagem SQL. Esta associação se dá conforme a        Tabela 2, apresentada a seguir. A partir desta associação é possível compreender melhor a        diferenciação   entre   os   tipos   de   Regras   de   Negócio   propostos.     Tabela   2   ­   Associação   entre   tipos   de   Regras   de   Negócio   e   conceitos   do   SQL  Tipos   de   Regras   de   Negócio  Conceitos   do   SQL  Restrição   de   Integridade  Cláusulas   de    DOMAIN ,    CHECK    e    CONSTRAINT    nas  definições   de   tabelas  Regra   de   Derivação  Declarações   de    CREATE   VIEW  Regra   de   Reação  Declarações   de    CREATE   TRIGGER  Fonte:   adaptada   de   Wagner   et   al.   (2005)   

(28)

Lee et al. (2004) traz uma releitura das definições e classificações apresentadas por        Date (1990) e Rob e Coronel (2000) para o modelo de dados relacional e classifica as        Restrições de Integridade nos seguintes grupos: Integridade de Chave, Integridade        Referencial, Integridade de Domínio, Integridade de Vazio, Integridade de Coluna e        Restrições   definidas   pelos   usuários,   os   quais   são   descritos   a   seguir: 

 

● Integridade de Chave : estabelece que todas as entradas em uma tabela são          únicas e nenhuma parte da chave primária pode ser nula. Normalmente        definida   pela    PRIMARY   KEY . 

 

● Integridade Referencial : estabelece que o valor contido em um atributo de        chave estrangeira deve necessariamente existir como chave primária na        tabela   referenciada.   Normalmente   definida   pela    FOREIGN   KEY . 

 

● Integridade de Domínio : estabelece que todos os valores do atributo devem          pertencer ao domínio especificado para o atributo em questão. Normalmente        definida   pelo   tipo   de   dado   e   pelas   DOMAIN    CONSTRAINTS . 

 

● Integridade de Vazio : estabelece que os valores do atributo não podem          assumir   o   valor   nulo.   Normalmente   definida   pelo    NOT   NULL . 

 

● Integridade de Coluna : estabelece que todos os valores do atributo devem          pertencer a um intervalo especificado dentro do domínio e atender às regras        definidas  para  o  atributo.  Normalmente  definida  pelas   CHECK  CONSTRAINTS . 

 

● Integridade definida pelo usuário : estabelece regras que restringem os            valores além das restrições já definidas. Essas regras podem envolver        diferentes colunas e até mesmo diferentes tabelas. Normalmente definida        pelas   CHECK    CONSTRAINTS . 

 

Portanto, para este trabalho é necessário compreender que as Regras de Negócio        definem restrições sobre os dados; que parte dessas restrições são definidas pelas        Restrições de Integridade; e que as Restrições de Integridade são diferenciadas conforme        sua aplicação. Além disso, é importante compreender os conceitos das diferentes classes de       

(29)

Restrições de Integridade. Com isso, a Figura 4 resume a taxonomia apresentada para os        diferentes tipos de Regras de Negócio e de Restrições de Integridade. Na figura estão        destacados   os   conceitos   que   são   abordados   neste   trabalho. 

 

Além disso, é importante compreender que, considerando a definição dada para as        Restrições de Integridade, é possível definir algumas das Restrições de Integridade a partir        de conjuntos de Regras de Validação de Dados. Visto que, parte das Restrições de        Integridade são regras sobre os dados que serão armazenados. Essa relação ficará mais        clara conforme for apresentada a associação das Regras de Validação de Dados às        Restrições   de   Integridade   no   Capítulo   4.      Figura   4   ­   Classificação   de   Restrições   de   Integridade    Fonte:   elaborada   pelo   autor   a   partir   de   Wagner   et   al.(2005)   e   Lee   et   al.   (2004)         

(30)

2.5.

Considerações 

 

Neste  capítulo foi apresentado a fundamentação teórica necessária ao        desenvolvimento e a compreensão deste trabalho. Inicialmente, foi apresentada a definição        de Qualidade dos Dados bem como apresentadas as principais Dimensões de Qualidade e        foram conceituadas aquelas que estão mais inseridas no contexto deste trabalho. Na        sequência foram apresentadas as classes de Problemas de Qualidade de Dados,        detalhando os problemas que possuem maior ligação com este trabalho e estão inseridas na        proposta de deteção de Problemas de Qualidade dos Dados. Por fim, foi apresentado neste        capítulo a definição e a classificação de Regras de Negócio e de Restrições de Integridade.        O   capítulo   a   seguir   apresenta   os   trabalhos   relacionados   ao   contexto   deste   trabalho.   

(31)

3.

Trabalhos   Relacionados 

 

Neste capítulo são apresentados alguns trabalhos relacionados com a avaliação da        Qualidade dos Dados. Além de trabalhos relacionados à aplicação de regras de Validação        de Dados. Cabe enfatizar que existem diversos trabalhos na área, mas são apresentados        apenas alguns dos que possuem maior relação com os objetivos deste trabalho. Os        trabalhos   são   apresentados   conforme   a   área   relacionada. 

 

Para identificação dos trabalhos relacionados foram consultadas revisões sistemática        da literatura e surveys mais recentemente publicados na área de Qualidade dos Dados.        Dentre os trabalhos encontrados destacaram­se o do Zaveri et al. (2012) e o do Sadiq et al.        (2011). 

 

A revisão sistemática da literatura realizada por Zaveri et al. (2012) aponta diversos        estudos na área de Qualidade dos Dados com foco em dados conectados (Linked Data).        Segundo eles, apesar dos estudos na área terem crescido juntamente com o volume de        dados que vêm sendo publicados na Web, o número de publicações ainda é relativamente        baixa,   o   que   sugere   que   a   área   de   pesquisa   ainda   deve   evoluir. 

 

O survey de Sadiq et al. (2011) sugere que, de fato, o aumento da disponibilização        de dados de baixa qualidade na Web podem aumentar o risco de que empresas,        organizações, governos, agências, comunidades ou indivíduos tomem decisões baseadas        em dados estratégicos de baixa qualidade. Nesse trabalho, são apresentados os principais        tópicos explorados pelos pesquisadores da área de Qualidade dos Dados e esses tópicos        são analisados de acordo com as expectativas dos profissionais que trabalham na área. O        resultado aponta que cerca de 70% dos tópicos explorados pelos pesquisadores se aplicam        no mercado. Além disso, a pesquisa aponta a necessidade de uma maior conscientização a        respeito   da   importância   da   Qualidade   dos   Dados. 

     

(32)

3.1.

Avaliação   de   Qualidade   dos   Dados 

 

Atualmente, parte dos trabalhos na área de Qualidade dos Dados mantém o objetivo        em avaliar os dados em sistemas de domínios específicos, como saúde e finanças. São os        casos dos trabalhos de Weiskopf et al. (2013), Dungey et al. (2016), Moore et al. (2016),        Millet et al. (2017). Outros trabalhos, como os de Kontokostas et al. (2014) e Hazen et al.        (2014), têm o objetivo de apresentar métodos de avaliação de Qualidade do Dados em        cenários particulares, como  data wharehouse, big data, linked data  e spacial data . No                          entanto, serão detalhados aqui nesta seção apenas as pesquisas que possuem maior        relação   com   o   objetivo   deste   trabalho. 

 

Não há discordância entre os pesquisadores na área de Qualidade dos Dados de        que um dos trabalhos mais relevantes sobre avaliação de Qualidade dos Dados foi o        trabalho proposto por Richard Wang em 1998. No trabalho de Wang (1998) foi proposta uma        abordagem de Gerenciamento da Qualidade Total dos Dados, conhecida como TDQM ­        Total Data Quality Management . Essa abordagem implementa a ideia de controle total,            originada pelo TQM ­  Total Quality Management , que consiste em uma estratégia de                  administração orientada a criar consciência da qualidade em todos os processos        organizacionais. Portanto, o TDQM se preocupa no planejamento e controle de qualidade        em todos os processos de uma organização. O TDQM ainda está em contínuo        desenvolvimento pelo MIT ­  Massachusetts Institute of Technology ­ e pode ser considerada                    como uma base formal para outras metodologias de gerenciamento, avaliação e melhoria de        Qualidade   dos   Dados. 

 

Também proposto pelo grupo de pesquisadores do MIT, o trabalho de Lee et al.        (2002) apresenta uma metodologia para avaliação da qualidade da informação, batizada de        AIMQ, com o objetivo de formar uma base para avaliação e  benchmarking de qualidade da        informação. A metodologia abrange um modelo de qualidade da informação, um        questionário para medir a qualidade da informação, e técnicas de análise para interpretar as        medidas. Essas técnicas de análise são aplicadas para analisar as diferenças entre os        resultados das práticas da organização e os resultados das melhores práticas já catalogadas        para cada Dimensão de Qualidade. As técnicas também analisam as lacunas entre as        impressões dos profissionais e dos consumidores da informação. Os resultados são úteis        para determinar qual a melhor área para as atividades de melhoria de qualidade da       

(33)

informação. O maior diferencial do trabalho é avaliar a qualidade utilizando tanto o ponto de        vista dos profissionais, quanto dos consumidores. No entanto, um problema desse modelo é        que a avaliação da qualidade utiliza o mecanismo de aplicação de questionários, o que torna        o processo lento; e, além disso, os resultados não apontam problemas específicos de        qualidade,   mas   apenas   as   áreas   que   devem   ser   melhor   avaliadas. 

 

O trabalho de Mecella et al. (2002) apresenta um framework baseado em serviços        para gerenciamento da Qualidade dos Dados em sistemas de informação cooperativos.        Também é apresentado um modelo XML para representar os dados e os dados de        qualidade, assim como um agente para seleção dos melhores dados disponíveis em        diferentes serviços. O agente proposto também suporta a melhoria dos dados por meio de        feedback aos serviços de origem. Esse trabalho apresenta uma forma de representação        XML tanto para os dados como para cada valor de Qualidade dos Dados em cada uma das        quatro   Dimensões   de   Qualidade   proposta.  

 

No trabalho de Lei et al. (2007) é proposta uma nova abordagem para avaliação da        qualidade dos metadados semânticos, que são metadados que descrevem os dados        disponíveis e seus relacionamentos. O diferencial de sua proposta é que avalia a qualidade        do metadado em si, e não dos algoritmos que o geraram. Ele avalia a qualidade dos        metadados em seis aspectos distintos: notações incompletas, inconsistentes, duplicadas,        ambíguas, incorretas ou equivocadas. Apesar de não focar na avaliação dos dados em si, a        avaliação é realizada a partir das diferenças existentes entre o metadado e os dados        contidos no repositório. Dessa forma, os autores apresentam o quantitativo de problemas        apresentados, tentando sugerir uma inconsistência nos metadados do repositório. Mas,        partindo de outro ponto de vista, essas inconsistências podem significar defeitos nos dados,        e   não   nos   metadados. 

 

O Trabalho de Schwab et al. (2015) apresenta um método de avaliação de Qualidade        dos Dados de uma base de informações de Análise de Fluxo de Materiais. O método parte        do princípio de que, nem todos os dados são perfeitos e, portanto, deve­se localizar os        defeitos dos dados. Define­se quatro atributos de dados, semântica, representatividade,        proveniência e contexto; e propõe­se uma função que avalia a qualidade com base nos        defeitos dos dados em cada um desses atributos. Portanto, o trabalho de Schwab et al.        (2015) apresenta um método de avaliação de Qualidade dos Dados considerando os        problemas   nos   dados   em   diferentes   Dimensões   de   Qualidade.  

(34)

3.2.

Regras   de   Validação   de   Dados 

 

No trabalho de Weber et al. (2013) é proposto um framework para aplicação de        Regras de Validação de Dados em sistemas de bancos de dados orientado a objetos. O        objetivo é garantir maior Qualidade dos Dados, e este foi alcançado por meio da aplicação        das Regras de Validação, que são gerenciadas pelo usuário e verificadas no banco de        dados orientado a objetos. O usuário pode criar regras rígidas, que funcionam como        restrições de integridade, ou regras flexíveis, que irão gerar avisos de deficiência na        Qualidade dos Dados. Apesar do objetivo ser distinto, os autores relatam a importância da        verificação   das   Regras   de   Validação   para   garantia   da   Qualidade   dos   Dados. 

 

No trabalho de Probst (2013) é apresentado um  framework para aplicação de Regras        de Validação de Dados utilizando um modelo de restrição único, que evita inconsistências e        redundâncias no processo de validação, de forma que a mesma restrição pode ser        verificada em diferentes fases de manipulação do dado em um sistema de informação. O        framework já contém as restrições que podem ser implementadas e também traz o conceito        de validações rígidas e flexíveis. O autor apresenta uma explicação sobre como a        verificação de Regras de Validação pode ser usada para melhorar a Qualidade dos Dados.        Além disso, ele questiona a possibilidade de se fazer uma relação entre as Dimensões de        Qualidade dos Dados com conjuntos de Regras de Validação; indicando que, dessa forma,        seria possível avaliar a Qualidade dos Dados sobre a percepção de cada dimensão por meio        das   Regras   de   Validação. 

 

3.3.

Comparação   entre   os   Trabalhos   Relacionados 

 

Existe uma grande variedade de trabalhos desenvolvidos com foco em melhoria da        Qualidade dos Dados. Como mostra o trabalho de Zaveri et al. (2012) os estudos nessa        área   vêm   crescendo   significativamente. 

 

Os trabalhos relacionados citados apresentam abordagens que, quando somadas,        apontam para uma possível solução ao problema apresentado neste trabalho. O TDQM do        Wang (1998) apresenta um processo de melhoria de Qualidade dos Dados. O trabalho do       

(35)

Lee et al. (2002) aponta a necessidade de identificar quais as Dimensões de Qualidade que        apresentam mais problemas, para que a organização possa priorizar as ações de melhoria        de qualidade. Mecella et al. (2002) apresenta uma solução para representação e        armazenamento das informações referentes a Qualidade dos Dados. Lei et al. (2007)        apresenta uma abordagem para avaliação da qualidade dos metadados, que parte da        verificação de corretude entre as definições dos metadados e os dados apresentados.        Weber et al. (2013) apresenta um framework para aplicação de Regras de Validação. E, por        fim, Probst (2013) aponta a possibilidade de relacionar as regras às Dimensões de        Qualidade   dos   Dados. 

 

A abordagem apresentada neste trabalho difere do caminho adotado pelos diferentes        trabalhos aqui apresentados. Com isso, não é possível comparar objetivamente as        características de cada abordagem apresentada na literatura com as características da        abordagem aqui apresentada. No entanto, cada um dos trabalhos apresentados pode ser        visto como fonte de inspiração para a abordagem de detecção automática de Problemas de        Qualidade   proposta   neste   trabalho. 

 

3.4.

Considerações 

 

Neste capítulo foram apresentados trabalhos relacionados a avaliação de Qualidade        dos Dados, bem como trabalhos relacionados ao uso das Regras de Validação de Dados.        Por fim, foi apresentada uma comparação dos trabalhos relacionados, bem como uma        descrição de como cada abordagem dos trabalhos relacionadas está relacionada a proposta        de Deteção de Problemas de Qualidade dos Dados a partir da avaliação de Regras de        Validação.   O   capítulo   a   seguir   apresenta   a   abordagem   proposta. 

(36)

4.

Abordagem   proposta   para   Detecção   de   Problemas   de 

Qualidade   dos   Dados   a   partir   da   avaliação   de   Regras   de 

Validação 

 

Neste capítulo, é apresentado o caminho percorrido para alcançar os objetivos do        trabalho. Inicialmente, apresenta­se a abordagem proposta para detecção de Problemas de        Qualidade   dos   Dados.  

 

Após apresentada a proposta, é descrita a associação das Regras de Validação de        Dados com as Dimensões de Qualidade. E por fim, é esclarecido como se deu a        implementação   do   protótipo   e   a   realização   do   estudo   de   caso.  

 

4.1.

Visão   Geral   da   abordagem   proposta  

 

A abordagem proposta neste trabalho para a Detecção automática de Problemas de        Qualidade dos Dados parte da verificação de Regras de Validação de Dados. Conforme        apresentado na Figura 5, a abordagem para Detecção de Problemas de Qualidade prevê        cinco etapas, além da etapa de Correção dos Problemas detectados, que não é tratada        neste   trabalho.  

 

Inicialmente, o ator humano deve definir qual o conjunto de dados será validado. Em        seguida, ele define quais as Regras de Validação devem ser avaliadas. Basicamente, para        cada coluna a ser validada, o usuário deve definir o conjunto de regras que deverá ser        verificado. 

 

Com isso, o sistema avalia as Regras de Validação em cada coluna do conjunto de        dados definido com o objetivo de identificar os dados que não estão de acordo com as        regras   definidas. 

 

Sempre que se encontra uma inconformidade, o sistema a classifica em uma        Dimensão de Qualidade. A classificação da inconformidade de uma Regra de Validação em       

(37)

uma Dimensão de Qualidade se torna possível devido à associação entre conjuntos de        Regras de Validação com as Dimensões de Qualidade dos Dados abordadas neste trabalho:        Completude,   Corretude   e   Consistência. 

 

Após a classificação dos problemas, eles são relatados à área responsável pelos        dados, que deverá tomar as medidas necessárias para correção dos problemas. Essas        medidas podem ser corretivas, onde o usuário apenas corrige manualmente os problemas        nos dados; ou preventivas, onde se identifica uma falha no processo de entrada dos dados e        trabalha­se para que o problema não ocorra novamente, seja por meio de melhor        capacitação das pessoas envolvidas, melhoria do processo estabelecido, ou adaptação no        sistema. 

 

Ao fim desse processo é esperado que os dados avaliados apresentem um nível de        qualidade superior. Seja essa melhoria provocada pela correção dos dados, por uma        mudança de processo, por uma melhor capacitação das pessoas envolvidas ou devido a        uma melhoria do sistema utilizado. Vale ressaltar que o foco do presente trabalho consiste        em automatizar a detecção dos Problemas de Qualidade, e que a correção dos Problemas        de   Qualidade   Dados   detectados   não   faz   parte   do   escopo   do   trabalho. 

 

Figura   5   ­   Abordagem   para   detecção   de   Problemas   de   Qualidade 

 

Referências

Documentos relacionados

Silva e Márquez Romero, no prelo), seleccionei apenas os contextos com datas provenientes de amostras recolhidas no interior de fossos (dado que frequentemente não há garantia

dois gestores, pelo fato deles serem os mais indicados para avaliarem administrativamente a articulação entre o ensino médio e a educação profissional, bem como a estruturação

 Caminho simples que contém todas as arestas do grafo (e,. consequentemente, todos os

The SUnSET bovine spermatozoa results demand the use of other translation elongation inhibitors, namely emetine, in place of cycloheximide, a competitive inhibitor of the

À vista de tudo quanto foi dito, a forma mais adequada para compreender a questão parece ser a seguinte: (i) os direitos fundamentais são, em princípio,

Este artigo está dividido em três partes: na primeira parte descrevo de forma sumária sobre a importância do museu como instrumento para construção do conhecimento, destaco

Em relação aos conhecimentos de saúde oral constatou-se que pais/encarregados de educação e crianças estão informados sobre a presença, ou não, de dentes cariados, bem como,

Foi possível recomendar melhorias na gestão, nomeadamente relacionadas com a capacidade instalada face ao serviço pretendido, tendo em conta os recursos presentes e