5. Implementação e Avaliação
5.1. Protótipo
5.1.2. Desenvolvimento do Protótipo
O protótipo foi batizado com o nome DataQualityControl . A escolha do nome teve 7 origem no objetivo do uso da ferramenta, que é o de detectar Problemas de Qualidade em conjuntos de dados e, com isso, auxiliar no controle da Qualidade dos Dados.
A Figura 9 apresenta a tela inicial do protótipo, que é a tela de listagem dos Conjuntos de Dados que estão cadastrados para serem avaliados. A partir desta tela é possível visualizar os detalhes de cada conjunto de dados já cadastrados, cadastrar um novo conjunto de dados, ou visualizar os resultados das últimas avaliações realizadas para cada conjunto de dados. A listagem dos Conjuntos de Dados apresenta o nome e a descrição do Conjunto de Dados, assim como a quantidade de tabelas, colunas e Regras de Validação cadastradas para cada um deles. Figura 9 Tela Inicial: Listagem de Conjuntos de Dados Fonte: elaborada pelo autor 7 O código fonte do protótipo está disponível no repositório https://github.com/arturcalves/dqc
A tela de visualização do Conjunto de Dados, apresentada na Figura 10, mostra os detalhes do Conjunto de Dados já cadastrado, como nome, descrição, informações da conexão com o banco de dados driver, servidor, porta, banco de dados, usuário e senha; além de apresentar quais tabelas foram cadastradas para detecção de Problemas de Qualidade. E para cada tabela cadastrada a tela apresenta a quantidade de colunas e de Regras de Validação já cadastradas. A partir desta tela é possível Visualizar os detalhes de cada Tabela, ou cadastrar uma nova tabela. Figura 10 Tela de Visualização de Conjuntos de Dados Fonte: elaborada pelo autor
A Figura 11 apresenta a tela de cadastro de um Conjunto de Dados. O cadastro é realizado a partir dos dados necessários para a conexão com o banco de dados. Dessa forma, é necessário que o usuário informe o nome e a descrição do conjunto de dados, o driver de conexão com o banco de dados, o endereço e a porta do servidor de banco de dados, o nome do banco de dados, e o usuário e senha para conexão. Antes de efetivar o
cadastro do Conjunto de Dados, é possível efetuar um teste de conexão para certificarse que os dados para conexão estão corretos e que o servidor está acessível. Figura 11 Tela de Cadastro de Conjunto de Dados Fonte: elaborada pelo autor Figura 12 Tela de Cadastro de Tabela Fonte: elaborada pelo autor
Após o cadastro do Conjunto de Dados, devem ser cadastradas as tabelas que serão avaliadas. A Figura 12 apresenta a tela de cadastro de tabelas. Nesta tela a ferramenta apresenta uma relação com todas as tabelas e views , contidas no banco de dados. Portanto, é necessário que o usuário selecione a tabela que precisa ser avaliada e informe, caso deseje, uma descrição para essa tabela. Ao cadastrar uma tabela, o protótipo já adiciona todas as suas colunas para facilitar o cadastro das Regras de Validação.
Portanto, após o cadastro da tabela, é possível cadastrar as Regras de Validação
para cada coluna. A Figura 13 apresenta a tela de visualização da tabela, de suas colunas e das Regra de Validação. A partir dela é possível que o usuário adicione novas colunas, cadastre novas Regras de Validação, e modifique ou exclua as regras já cadastradas.
Figura 13 Tela de Visualização da Tabela, suas colunas e Regras de Validação.
O detalhe da tela de modificação ou cadastro da Regra de Validação é apresentado na Figura 14, onde é possível perceber que, para cadastrar ou modificar uma Regra de Validação, o usuário deve selecionar o tipo de Regra de Validação que deve ser verificada, bem como o argumento a ser utilizado, se for o caso. A lista de tipos de Regras de Validação que podem ser selecionadas pelo usuário é estabelecida a partir do tipo de dado da coluna a ser verificada. Figura 14 Detalhe do cadastro ou edição de uma de Regra de Validação Fonte: elaborada pelo autor
Podese dizer que as telas até aqui apresentadas atuam diretamente na definição dos conjuntos de dados e das Regras de Validação a serem avaliadas; ou seja, estas telas viabilizam as duas primeiras etapas da abordagem proposta, apresentada na Figura 5. Além disso, elas implementam todas as funcionalidades previstas para o ator ‘Colaborador de TI’ apresentadas do Diagrama de Caso de Uso apresentado na Figura 7.
A Figura 15 apresenta a tela de visualização das últimas avaliações realizadas sobre determinado Conjunto de Dados. Nessa tela, é apresentado um gráfico que exibe o histórico das últimas avaliações, onde o analista de negócio pode verificar a evolução dos Problemas de Qualidade detectados. Também é possível visualizar, por meio de um gráfico de pizza, qual a Dimensão de Qualidade possui mais problemas associados. A partir dessa tela também é possível iniciar a execução de uma nova avaliação ou visualizar os detalhes de cada avaliação executada.
Figura 15 Tela de visualização das últimas avaliações de um Conjunto de Dados
Fonte: elaborada pelo autor
A tela de detalhes de cada avaliação apresenta cada um dos problemas de qualidade detectados. Essas informações podem ser verificadas na tela do protótipo ou podem ser extraídas em um relatório CSV (Comma Separated Values). O relatório contém, basicamente, as informações de qual tabela, qual registro e qual coluna contém o problema, além de qual foi o problema detectado. Com isso, é possível que o gestor atue para que o problema seja corrigido.
Um exemplo do relatório extraído é apresentado na Figura 16. No exemplo, que encontrase em destaque no relatório, é possível perceber que a tabela Docente possui um erro no registro cujo CPF é igual a “32569548634” pois a coluna CEP, que possui o valor “30260”, apresentou a mensagem “Não é um CEP válido”.
Figura 16 Relatório de Problemas Detectados
5.2.
Aplicação do Estudo de Caso
Como estudo de caso, a abordagem proposta foi aplicada no CEFETMG com 8 objetivo de melhorar a Qualidade dos Dados do sistema acadêmico da instituição, para assegurar que as informações obtidas a partir desse sistema sejam confiáveis.
Para a avaliação do processo proposto, o estudo de caso contou com o apoio dos gestores do setor de registro escolar da instituição. Eles assumiram o papel de visualizar os problemas encontrados nos dados avaliados, e decidir sobre as ações a serem tomadas para correção dos problemas.
As ações para correção dos problemas detectados podem ser a interferência no sistema para correção da informação, a proposição de mudança nos processos internos, ou até mesmo a solicitação de adaptações no sistema de gestão do setor de registro escolar.
As medidas tomadas para corrigir os problemas não fazem parte do foco do estudo de caso. O objetivo, de fato, é mostrar que a abordagem proposta é capaz de detectar de forma automática os Problemas Qualidade dos Dados existentes da base dados do sistema acadêmico da instituição.
Essa seção está divida em três subseções. A primeira apresenta o cenário real em que foi realizado o Estudo de Caso. A segunda trata do processo de definição dos Conjuntos de Dados e das Regras de Validação de Dados. E a terceira apresenta os resultados obtidos dos relatórios de detecção de problemas.
5.2.1.
Cenário do Estudo de Caso
Definido o propósito ao qual se aplica o processo de melhoria de qualidade, foi realizado um estudo de caso em cenário real. O processo de melhoria de Qualidade dos Dados foi aplicado nos dados do sistema de informações acadêmicas do CEFETMG. A instituição utiliza o QAcadêmico como sistema de controle acadêmico. O QAcadêmico é