5. Implementação e Avaliação
5.2. Aplicação do Estudo de Caso
5.2.1. Cenário do Estudo de Caso
Como estudo de caso, a abordagem proposta foi aplicada no CEFETMG com 8 objetivo de melhorar a Qualidade dos Dados do sistema acadêmico da instituição, para assegurar que as informações obtidas a partir desse sistema sejam confiáveis.
Para a avaliação do processo proposto, o estudo de caso contou com o apoio dos gestores do setor de registro escolar da instituição. Eles assumiram o papel de visualizar os problemas encontrados nos dados avaliados, e decidir sobre as ações a serem tomadas para correção dos problemas.
As ações para correção dos problemas detectados podem ser a interferência no sistema para correção da informação, a proposição de mudança nos processos internos, ou até mesmo a solicitação de adaptações no sistema de gestão do setor de registro escolar.
As medidas tomadas para corrigir os problemas não fazem parte do foco do estudo de caso. O objetivo, de fato, é mostrar que a abordagem proposta é capaz de detectar de forma automática os Problemas Qualidade dos Dados existentes da base dados do sistema acadêmico da instituição.
Essa seção está divida em três subseções. A primeira apresenta o cenário real em que foi realizado o Estudo de Caso. A segunda trata do processo de definição dos Conjuntos de Dados e das Regras de Validação de Dados. E a terceira apresenta os resultados obtidos dos relatórios de detecção de problemas.
5.2.1.
Cenário do Estudo de Caso
Definido o propósito ao qual se aplica o processo de melhoria de qualidade, foi realizado um estudo de caso em cenário real. O processo de melhoria de Qualidade dos Dados foi aplicado nos dados do sistema de informações acadêmicas do CEFETMG. A instituição utiliza o QAcadêmico como sistema de controle acadêmico. O QAcadêmico é
um sistema desenvolvido principalmente em linguagem Delphi e utiliza como sistema de gerenciamento banco de dados o Microsoft SQL Server. O sistema acadêmico é proprietário, possui código fechado e a licença que a organização possui é apenas de uso.
Anualmente o CEFETMG participa do Censo Escolar da Educação Básica, que é o mais importante levantamento estatístico educacional brasileiro sobre as diferentes etapas e modalidades de ensino da Educação Básica e da Educação Profissional. O Censo Escolar é realizado todos os anos, uma vez por ano, e conta com a participação de todas as escolas públicas e privadas do país. (INEP, 2016)
Para a realização do Censo Escolar, o Instituto Nacional de Estudos e Pesquisa Educacionais Anísio Teixeira INEP utiliza um sistema de informações conhecido por EducaCenso. O EducaCenso é a porta de entrada de todas as informações fornecidas pelas escolas do país. Ele utiliza ferramentas Web para a coleta, organização, transmissão e disseminação dos dados censitários, mediante o cruzamento de quatro grupos de informações: cadastro da escola, cadastro dos alunos, cadastro dos profissionais escolares, e cadastro das turmas (INEP, 2016).
Existem duas formas de inserir as informações no EducaCenso: por meio de cadastro manual, através da inserção das informações em diversos formulários disponíveis no sistema EducaCenso; ou por meio de uma migração de dados, através da importação de um arquivo, em formato pré definido pelo INEP , contendo todas as informações 9 necessárias. Normalmente, esse arquivo é gerado pelos sistemas próprios das escolas. Os arquivos são submetidos a uma série de verificações feitas em diversas etapas, a primeira delas é realizada pelo Migradados, sistema que também é responsável pela transferência dos arquivos para o EducaCenso. (SANTOS, 2014)
As informações inseridas pelas instituições no EducaCenso passam por uma série de validações, que servem principalmente para checagem de inconsistências. Uma parte das validações feitas pelo EducaCenso são regras que, muitas vezes, não estão implementadas nos Sistemas de Controle Acadêmico. Por esse motivo, normalmente, a instituição costuma demorar no envio das informações ao EducaCenso devido o tempo que se perde corrigindo os erros encontrados.
9 A definição do formato do arquivo a ser enviado ao Educacenso está disponível no endereço: http://portal.inep.gov.br/web/guest/matriculainicial
O principal problema na entrada dos dados por meio do cadastro manual é o tempo
gasto para preencher cada formulário para cada um dos quatro grupos de informações. Já
quanto ao arquivo de migração, a principal dificuldade é garantir que os dados gerados pelo
Sistema da escola irá passar em todas as regras verificadas pelo Migradados. Essa etapa
tornase um complicador pois, nem sempre, todas as regras impostas pelo INEP são
validadas no sistema acadêmico das instituições. Parte dos problemas encontrados todos os anos dizem respeito a falhas durante os
procedimentos de registro acadêmico, como validações de dados, preenchimento errado ou
incompleto, entre outros. O principal problema é que, por não ter uma ferramenta de
verificação e controle dessas inconsistências, os erros vão se acumulando durante o ano, e
apenas no período de lançamento dos dados no EducaCenso é que se percebe a existência
dos problemas e fazse um grande esforço para corrigir todos os problemas em poucos dias
para viabilizar o lançamento. Portanto, nesse cenário, foi identificada a oportunidade utilizar a abordagem proposta
neste trabalho como parte do processo de melhoria de Qualidade dos Dados do Sistema
Acadêmico com a finalidade de facilitar o lançamento de dados no Educacenso. A proposta
é realizar a detecção de Problemas de Qualidade dos Dados do sistema acadêmico com
base nas Regras de Validação definidas pelo Educacenso. Dessa forma, mesmo que o
sistema acadêmico não tenha as mesmas Regras de Validação, e que não haja condições
de implementálas, visto que o sistema é de código fechado, será possível manter os dados
com a qualidade desejada para a migração dos dados para o Educacenso.
5.2.2.
Definição dos Conjuntos de Dados e Regras de
Validação
Para aplicação do Estudo de Caso, inicialmente, foi configurada uma instância doMicrosoft SQL Server que funcionava como um espelho da base de dados de produção do
QAcadêmico. Essa instância recebe um novo backup da base produção uma vez por
semana, ou quando necessário. Dessa forma, está garantido que os dados de produção estão seguros de qualquer possível falha de implementação ou de segurança do protótipo.
Em seguida, foram criadas views no banco de dados para cada um dos tipos de
registros solicitados pelo Educacenso no arquivo de migração. As views criadas estão
descritas na Tabela 8. Tabela 8 Views criadas para o Educacenso View Descrição VW_EDC_00_ESCOLAS_2015 Informações básicas da Escola VW_EDC_10_ESCOLAS_ESTRUTURA_2015 Informações da estrutura da escola VW_EDC_20_TURMAS_2015 Informações das turmas VW_EDC_30_DOCENTES_2015 Informações básicas dos docentes VW_EDC_40_DOCENTES_DOCS_2015 Informações de documentação dos
docentes VW_EDC_50_DOCENTES_VARIAVEIS_2015 Informações variáveis dos docentes VW_EDC_51_DOCENTES_DOCENCIA_2015 Informações da atuação dos docentes VW_EDC_60_ALUNOS_2015 Informações básicas dos alunos VW_EDC_70_ALUNOS_DOCS_2015 Informações de documentação dos
alunos VW_EDC_80_ALUNOS_PER_LETIVO_2015 Informações das matrículas dos alunos Fonte: elaborada pelo autor Depois de criada cada uma das views , foi realizado o cadastro do Conjunto de Dados
no protótipo, por meio das telas já apresentadas. Foi adicionado um Dataset com a
configuração referente à instância espelhada do sistema de gerenciamento de banco de
dados do Sistema Acadêmico. E, na sequência, foram cadastradas as views como tabelas
do Conjunto de Dados. Depois disso, para cada uma das tabelas ( views ), foram cadastradas
as Regras de Validação de Dados definidas pelo manual do Educacenso. As Regras de Validação de Dados do Educacenso são disponibilizadas uma vez 10
por ano, sempre junto com a liberação do sistema para migração dos dados. Como os
experimentos iniciaram antes da liberação para o censo de 2016, foram então cadastradas
as Regras de Validação de Dados referentes à migração de 2015. Ao final dessa etapa,
10 Os arquivo contendo as Regras de Validação do Educacenso estão disponíveis no endereço: http://portal.inep.gov.br/web/guest/matriculainicial
foram criadas 10 (dez) views, apresentadas na Tabela 8, contendo 411 (quatrocentas e
onze) colunas, e 523 (quinhentas e vinte e três) Regras de Validação de Dados.
5.2.3.
Problemas detectados
Após a criação da infraestrutura necessária, ou seja, a criação das views , o cadastrodos conjuntos de dados e das Regras de Validação, foram realizadas duas avaliações para
detecção de Problemas de Qualidade dos Dados. A primeira foi executada considerando
apenas os dados referentes às unidades de Belo Horizonte. A segunda foi executada
considerando os dados das demais unidades de ensino (Araxá, Contagem, Curvelo,
Divinópolis, Leopoldina, Nepomuceno, Timóteo e Varginha). Inicialmente, a avaliação realizada para os dados das unidades de Belo Horizonte
detectou 69 (sessenta e nove) Problemas de Qualidade e a avaliação para as demais
unidades detectou 336 (trezentos e trinta e seis) Problemas de Qualidade. Com o intuito de validar a avaliação realizada sobre os dados do sistema acadêmico
do CEFETMG, os relatórios gerados foram encaminhados a uma especialista na área de
negócio e solicitado que, para cada problema informado, fosse verificado se o problema
realmente existia e se foi realizada alguma ação para corrigilo. Os emails trocados com a
especialista estão disponíveis no Anexo 1. Já os relatórios enviados e o relatório recebido
com os comentários da especialista estão disponíveis no Anexo 2. Foi realizada a verificação dos relatórios dos Problemas de Qualidade detectados
nas unidades de Belo Horizonte pela analista de negócio. Dos 69 (sessenta e nove)
problemas detectados, 62 (sessenta e dois) foram confirmados como erros realmente
existentes na base de dados. Segundo informações da planilha de retorno da analista de
negócio, dos erros confirmados, apenas um não foi possível providenciar a correção. Tal
problema não pode ser corrigido por tratarse de um problema de completude de esquema,
já que o sistema de origem não possuía um campo previsto para o armazenamento do dado
incompleto. Nenhum retorno foi apresentado quanto ao relatório de Problemas de Qualidade detectados nos dados das unidade de ensino do interior.
Com isso, considerando os dois relatórios de detecção de Problemas de Qualidade
de Dados, foi detectado inicialmente o total de 405 (quatrocentos e cinco) Problemas de
Qualidade. Dos quais 69 foram avaliados. Ou seja, 17,5% dos problemas foram avaliados.
E, dentre os avaliados, 90% dos problemas foram confirmados como Problemas de
Qualidade dos Dados. Quanto aos 10% de problemas detectados que não configuraram um
real Problema de Qualidade dos Dados, percebeuse que havia um erro no cadastro de uma
das Regras de Validação. Tal fato se confirmou ao realizarse nova avaliação após a
correção do cadastro da Regra de Validação e obterse os mesmos 62 (sessenta e dois)
problemas confirmados. Uma nova avaliação também foi realizada sobre os dados das
unidades do interior, fazendo com que a quantidade de problemas detectados caísse para
306 (trezentos e seis). Os problemas que não foram detectados estavam relacionados à
mesma Regra de Validação que possuía erro. Portanto, após efetuada as novas avaliações, o total de problemas detectados caiu
de 405 (quatrocentos e cinco) para 398 (trezentos e noventa e oito). Os problemas foram
distribuídos entre as Dimensões de Qualidade dos Dados conforme apresentado nas Figuras 17 e 18. Figura 17 Distribuição dos Problemas de Qualidade dos Dados por Dimensão de Qualidade unidades da capital Fonte: elaborada pelo autor
Figura 18 Distribuição dos Problemas de Qualidade dos Dados por Dimensão de Qualidade unidades do interior
Fonte: elaborada pelo autor
Como é possível notar nos gráficos apresentados nas Figuras 17 e 18, a Dimensão
de Qualidade que mais apresentou Problemas de Qualidade foi a dimensão de consistência,
que somou 68% dos problemas na capital e 51% dos problemas no interior. Também foi possível perceber que os dados da capital possuem menos problemas
de completude, apenas 8%, enquanto no interior essa dimensão representa 43% do total de
problemas. A partir dessa observação foi possível identificar que pode haver um problema
relacionado ao processo de entrada dos dados; visto que, nas unidades do interior a entrada
é feita de forma manual, enquanto nas unidades da capital a entrada dos dados é feita por
meio de importações de dados automatizadas. Após realizada a detecção dos Problemas de Qualidade dos Dados e a correção dos
dados que possuíam problema, a base do Sistema Acadêmico utilizado neste estudo de
caso tornouse mais livre de erros de tal forma que a migração dos dados desse Sistema
para o Migradados do Educacenso pode ser realizado com maior precisão; visto que, as
Regras de Validação do Educacenso já foram avaliadas e corrigidas antes mesmo de iniciar o processo de migração de dados.
5.3.
Considerações Finais
A definição da abordagem para detecção de Problemas de Qualidade dos Dados,
bem como a implementação do protótipo e a aplicação do estudo de caso em cenário real,
foram suficientes para perceber que é possível estabelecer um processo de melhoria da
Qualidade dos Dados a partir de uma proposta de detecção automática de Problemas de
Qualidade dos Dados com foco na verificação de Regras de Validação. O protótipo desenvolvido deu suporte à abordagem proposta para detecção de
Problemas de Qualidade dos Dados, e contemplou todas as funcionalidade inicialmente
previstas. Além disso, o protótipo possibilitou a aplicação do estudo de caso. E mais do que
isto, foi desenvolvido de maneira genérica suficiente para que possa ser utilizado em outras
aplicações, ou até mesmo em outras instituições. Já os resultados do estudo de caso, demonstraram que a abordagem proposta para
detecção de Problemas de Qualidade dos Dados foi capaz de identificar diversos problemas
na base de dados a partir da verificação de Regras de Validação. Além disso, foi possível
notar que a correção dos problemas detectados elevou a Qualidade dos Dados no Sistema
Acadêmico da instituição. A melhoria da qualidade resultou numa maior confiabilidade nos dados e facilitou o processo de migração dos dados.
6.
Conclusão
Com o aumento da preocupação com a Qualidade dos Dados, as pesquisas na área
cresceram significativamente a fim de atender as necessidades das organizações em medir
e melhorar a qualidade da informação. Pesquisas para avaliação e melhoria da Qualidade
dos Dados abordam seu caráter Multidimensional, e aplicam métodos e métricas distintos
para cada Dimensão de Qualidade (Lee et al., 2002; Batini e Scannapieco, 2016). Algumas pesquisas recentes mostram a possibilidade de avaliar a Qualidade dos
Dados de maneira automática, a partir da detecção de Problemas de Qualidade dos Dados
(Krishnan et al., 2016). Neste contexto, este trabalho apresentou uma abordagem para
detecção de Problemas de Qualidade dos Dados a partir da avaliação de Regras de
Validação. Além da abordagem proposta, foram apresentados o protótipo desenvolvido e o
estudo de caso realizado. A partir dos resultados do desenvolvimento deste trabalho, podemos concluir que foi
possível estabelecer uma correlação entre as Dimensões de Qualidade dos Dados e
conjuntos de Regras de Validação de Dados. É certo que essa correlação apenas foi
estabelecida para conjuntos específicos de Dimensões de Qualidade e de Regras de
Validação. Mas, essa correlação possibilita associar, diretamente, que os problemas
encontrados na verificação de determinadas Regras de Validação de Dados implicam em
menor Qualidade dos Dados em determinada Dimensão de Qualidade. Dessa forma, a partir
da abordagem proposta, é possível não apenas detectar os Problemas de Qualidade dos
Dados, mas também indicar a qual dimensão os problemas estão relacionados. E, além disso, a partir do uso do protótipo implementado, foi possível perceber que
após definidos os conjuntos de dados e as Regras de Validação a serem verificados, a
detecção dos Problemas de Qualidade dos Dados pôde ser realizada de maneira
automática. Por fim, com os resultados extraídos da aplicação do estudo de caso, podemos
perceber que o protótipo implementado se mostrou útil na detecção de problemas, e que os problemas encontrados, de fato, ajudaram no processo de migração dos dados.
6.1.
Contribuições do Trabalho
Com isso, as contribuições deste trabalho foram elencadas conforme os objetivos
definidos inicialmente: ● Identificar uma relação entre conjuntos de Regras de Validação e Dimensões
de Qualidade dos Dados Neste trabalho foi estabelecida uma associação entre Regras de Validação de Dados
e Dimensões de Qualidade dos Dados. Mas, mais do que isso, também foi estabelecido um
método para identificação estar relação. Esse método não apenas subsidiou a abordagem
aqui proposta para detecção de problemas, mas também poderá servir de base para outros
trabalhos na área de Regras de Validação e Qualidade dos Dados. ● Definir uma abordagem para detecção de Problemas de Qualidade dos Dados a
partir da avaliação de Regras de Validação A abordagem proposta prevê a associação entre as Regras de Validação e os
Problemas de Qualidade. A partir dela, é possível que o usuário defina quais dados devem
ser avaliados e quais Regras de Validação devem ser verificadas. Após essa etapa, com
suporte do protótipo desenvolvido, é possível validar se os dados estão em conformidade
com as Regras de Validação, classificar os problemas encontrados conforme as Dimensões
de Qualidade dos Dados e relatar os problemas detectados. ● Implementar um protótipo para avaliação da abordagem proposta. O protótipo
realiza a verificação das Regras de Validação e apresenta relatório dos
Problemas de Qualidade detectados O protótipo, denominado DataQualityControl , foi desenvolvido conforme os requisitos
necessários para dar suporte a abordagem proposta. A partir dele é possível fazer a
detecção de Problemas de Qualidade em dados armazenados em sistemas de
gerenciamento de banco de dados relacionais a partir da avaliação de Regras de Validação
previamente cadastradas. Após a definição do conjunto de dados e das Regras de Validação, o protótipo pode fazer a detecção automática de Problemas de Qualidade.
● Apresentar, por meio de um estudo de caso em um cenário real, que a detecção
automática de Problemas de Qualidade é capaz de detectar problemas
Qualidade dos Dados a partir da avaliação de Regras de Validação Após a definição da abordagem para detecção de problemas e o desenvolvimento do
protótipo para suporte à abordagem proposta, foi realizado um estudo de caso em cenário
real. O estudo de caso se deu no CEFETMG considerando o cenário de migração de dados
do Sistema Acadêmico para o Migradados do Educacenso. A partir do estudo de caso foi
possível detectar Problemas de Qualidade dos Dados na base de dados da instituição. Além
disso, foi possível identificar que a correção dos Problemas de Qualidade detectados
colaborou com o processo de migração de dados.
6.2.
Trabalhos Futuros
Como trabalhos futuros podemos elencar algumas proposições que não foramabordadas no desenvolvimento deste trabalho, bem como novos pontos relevantes. ● Inclusão de outros tipos de Regras de Validação de Dados na abordagem
proposta Considerando a limitação de tempo, o trabalho se limitou a um conjunto específico de
Regras de Validação de Dados, bem como de Restrições de Integridade, visto que se limitou
a integridade de domínio, de vazio e de coluna. Mas entendese que é possível estender o
trabalho a outras Restrições de Integridade, como exemplo as restrições definidas pelo
usuário. E, inclusive, é possível estender o trabalho para abordar outras classes de
Problemas de Qualidade, como exemplo os problemas de violação de restrições de
integridade mais complexas, problemas de unicidade e problemas de erro de ortografia ● Modificação do protótipo para permitir a definição de Regras de Validação mais
complexas Seguindo a linha da inclusão de novos tipos de Regras de Validação, percebese que
definidas pelo usuário. Essas Regras de Validação podem associar duas ou mais colunas,
de uma ou mais tabelas. E motivado pela maior complexidade dessas Regras, seria
interessante estender o protótipo para que ele permita que o usuário escreva Regras de
Validação mais complexas. Nesses casos, pode ser necessário também permitir que o
próprio usuário do protótipo definida a qual Dimensão de Qualidade sua Regra de Validação
criada estará relacionada.