• Nenhum resultado encontrado

5. Implementação e Avaliação

5.2. Aplicação do Estudo de Caso

5.2.1. Cenário do Estudo de Caso

 

Como estudo de caso, a abordagem proposta foi aplicada no CEFET­MG com      8    objetivo de melhorar a Qualidade dos Dados do sistema acadêmico da instituição, para        assegurar   que   as   informações   obtidas   a   partir   desse   sistema   sejam   confiáveis. 

 

Para a avaliação do processo proposto, o estudo de caso contou com o apoio dos        gestores do setor de registro escolar da instituição. Eles assumiram o papel de visualizar os        problemas encontrados nos dados avaliados, e decidir sobre as ações a serem tomadas        para   correção   dos   problemas.  

 

As ações para correção dos problemas detectados podem ser a interferência no        sistema para correção da informação, a proposição de mudança nos processos internos, ou        até   mesmo   a   solicitação   de   adaptações   no   sistema   de   gestão   do   setor   de   registro   escolar.    

As medidas tomadas para corrigir os problemas não fazem parte do foco do estudo        de caso. O objetivo, de fato, é mostrar que a abordagem proposta é capaz de detectar de        forma automática os Problemas Qualidade dos Dados existentes da base dados do sistema        acadêmico   da   instituição.  

 

Essa seção está divida em três subseções. A primeira apresenta o cenário real em        que foi realizado o Estudo de Caso. A segunda trata do processo de definição dos Conjuntos        de Dados e das Regras de Validação de Dados. E a terceira apresenta os resultados obtidos        dos   relatórios   de   detecção   de   problemas. 

 

5.2.1.

Cenário   do   Estudo   de   Caso 

 

Definido o propósito ao qual se aplica o processo de melhoria de qualidade, foi        realizado um estudo de caso em cenário real. O processo de melhoria de Qualidade dos        Dados foi aplicado nos dados do sistema de informações acadêmicas do CEFET­MG. A        instituição utiliza o Q­Acadêmico como sistema de controle acadêmico. O Q­Acadêmico é       

um sistema desenvolvido principalmente em linguagem Delphi e utiliza como sistema de        gerenciamento banco de dados o Microsoft SQL Server. O sistema acadêmico é proprietário,        possui   código   fechado   e   a   licença   que   a   organização   possui   é   apenas   de   uso. 

 

Anualmente o CEFET­MG participa do Censo Escolar da Educação Básica, que é o        mais importante levantamento estatístico educacional brasileiro sobre as diferentes etapas e        modalidades de ensino da Educação Básica e da Educação Profissional. O Censo Escolar é        realizado todos os anos, uma vez por ano, e conta com a participação de todas as escolas        públicas   e   privadas   do   país.   (INEP,   2016) 

 

Para a realização do Censo Escolar, o Instituto Nacional de Estudos e Pesquisa        Educacionais Anísio Teixeira ­ INEP ­ utiliza um sistema de informações conhecido por        EducaCenso. O EducaCenso é a porta de entrada de todas as informações fornecidas pelas        escolas do país. Ele utiliza ferramentas Web para a coleta, organização, transmissão e        disseminação dos dados censitários, mediante o cruzamento de quatro grupos de        informações: cadastro da escola, cadastro dos alunos, cadastro dos profissionais escolares,        e   cadastro   das   turmas   (INEP,   2016). 

 

Existem duas formas de inserir as informações no EducaCenso: por meio de        cadastro manual, através da inserção das informações em diversos formulários disponíveis        no sistema EducaCenso; ou por meio de uma migração de dados, através da importação de        um  arquivo, em formato pré definido pelo INEP , contendo todas as informações      9          necessárias. Normalmente, esse arquivo é gerado pelos sistemas próprios das escolas. Os        arquivos são submetidos a uma série de verificações feitas em diversas etapas, a primeira        delas é realizada pelo Migradados, sistema que também é responsável pela transferência        dos   arquivos   para   o   EducaCenso.   (SANTOS,   2014) 

     

As informações inseridas pelas instituições no EducaCenso passam por uma série        de validações, que servem principalmente para checagem de inconsistências. Uma parte        das validações feitas pelo EducaCenso são regras que, muitas vezes, não estão        implementadas nos Sistemas de Controle Acadêmico. Por esse motivo, normalmente, a        instituição costuma demorar no envio das informações ao EducaCenso devido o tempo que        se   perde   corrigindo   os   erros   encontrados. 

 

9   A   definição   do   formato   do   arquivo   a   ser   enviado   ao   Educacenso   está   disponível   no   endereço:  http://portal.inep.gov.br/web/guest/matricula­inicial 

O principal problema na entrada dos dados por meio do cadastro manual é o tempo       

gasto para preencher cada formulário para cada um dos quatro grupos de informações. Já       

quanto ao arquivo de migração, a principal dificuldade é garantir que os dados gerados pelo       

Sistema da escola irá passar em todas as regras verificadas pelo Migradados. Essa etapa       

torna­se um complicador pois, nem sempre, todas as regras impostas pelo INEP são       

validadas   no   sistema   acadêmico   das   instituições.    Parte dos problemas encontrados todos os anos dizem respeito a falhas durante os       

procedimentos de registro acadêmico, como validações de dados, preenchimento errado ou       

incompleto, entre outros. O principal problema é que, por não ter uma ferramenta de       

verificação e controle dessas inconsistências, os erros vão se acumulando durante o ano, e       

apenas no período de lançamento dos dados no EducaCenso é que se percebe a existência       

dos problemas e faz­se um grande esforço para corrigir todos os problemas em poucos dias       

para   viabilizar   o   lançamento.    Portanto, nesse cenário, foi identificada a oportunidade utilizar a abordagem proposta       

neste trabalho como parte do processo de melhoria de Qualidade dos Dados do Sistema       

Acadêmico com a finalidade de facilitar o lançamento de dados no Educacenso. A proposta       

é realizar a detecção de Problemas de Qualidade dos Dados do sistema acadêmico com       

base nas Regras de Validação definidas pelo Educacenso. Dessa forma, mesmo que o       

sistema acadêmico não tenha as mesmas Regras de Validação, e que não haja condições       

de implementá­las, visto que o sistema é de código fechado, será possível manter os dados       

com   a   qualidade   desejada   para   a   migração   dos   dados   para   o   Educacenso.   

5.2.2.

Definição   dos   Conjuntos   de   Dados   e   Regras   de 

Validação 

  Para aplicação do Estudo de Caso, inicialmente, foi configurada uma instância do       

Microsoft SQL Server que funcionava como um espelho da base de dados de produção do       

Q­Acadêmico. Essa instância recebe um novo backup da base produção uma vez por       

semana, ou quando necessário. Dessa forma, está garantido que os dados de produção        estão   seguros   de   qualquer   possível   falha   de   implementação   ou   de   segurança   do   protótipo. 

Em seguida, foram criadas  views no banco de dados para cada um dos tipos de       

registros solicitados pelo Educacenso no arquivo de migração. As views criadas estão       

descritas   na   Tabela   8.    Tabela   8   ­    Views    criadas   para   o   Educacenso  View  Descrição  VW_EDC_00_ESCOLAS_2015  Informações   básicas   da   Escola  VW_EDC_10_ESCOLAS_ESTRUTURA_2015  Informações   da   estrutura   da   escola  VW_EDC_20_TURMAS_2015  Informações   das   turmas  VW_EDC_30_DOCENTES_2015  Informações   básicas   dos   docentes  VW_EDC_40_DOCENTES_DOCS_2015  Informações de documentação dos       

docentes  VW_EDC_50_DOCENTES_VARIAVEIS_2015  Informações   variáveis   dos   docentes  VW_EDC_51_DOCENTES_DOCENCIA_2015  Informações   da   atuação   dos   docentes  VW_EDC_60_ALUNOS_2015  Informações   básicas   dos   alunos  VW_EDC_70_ALUNOS_DOCS_2015  Informações de documentação dos       

alunos  VW_EDC_80_ALUNOS_PER_LETIVO_2015  Informações   das   matrículas   dos   alunos  Fonte:   elaborada   pelo   autor    Depois de criada cada uma das  views , foi realizado o cadastro do Conjunto de Dados       

no protótipo, por meio das telas já apresentadas. Foi adicionado um  Dataset com a       

configuração referente à instância espelhada do sistema de gerenciamento de banco de       

dados do Sistema Acadêmico. E, na sequência, foram cadastradas as views como tabelas       

do Conjunto de Dados. Depois disso, para cada uma das tabelas ( views ), foram cadastradas       

as   Regras   de   Validação   de   Dados   definidas   pelo   manual   do   Educacenso.     As Regras de Validação de Dados do Educacenso são disponibilizadas uma vez      10     

por ano, sempre junto com a liberação do sistema para migração dos dados. Como os       

experimentos iniciaram antes da liberação para o censo de 2016, foram então cadastradas       

as Regras de Validação de Dados referentes à migração de 2015. Ao final dessa etapa,       

10   Os   arquivo   contendo   as   Regras   de   Validação   do   Educacenso   estão   disponíveis   no   endereço:  http://portal.inep.gov.br/web/guest/matricula­inicial 

foram criadas 10 (dez) views, apresentadas na Tabela 8, contendo 411 (quatrocentas e       

onze)   colunas,   e   523   (quinhentas   e   vinte   e   três)   Regras   de   Validação   de   Dados.    

5.2.3.

Problemas   detectados 

  Após a criação da infraestrutura necessária, ou seja, a criação das  views , o cadastro       

dos conjuntos de dados e das Regras de Validação, foram realizadas duas avaliações para       

detecção de Problemas de Qualidade dos Dados. A primeira foi executada considerando       

apenas os dados referentes às unidades de Belo Horizonte. A segunda foi executada       

considerando os dados das demais unidades de ensino (Araxá, Contagem, Curvelo,       

Divinópolis,   Leopoldina,   Nepomuceno,   Timóteo   e   Varginha).    Inicialmente, a avaliação realizada para os dados das unidades de Belo Horizonte       

detectou 69 (sessenta e nove) Problemas de Qualidade e a avaliação para as demais       

unidades   detectou   336   (trezentos   e   trinta   e   seis)   Problemas   de   Qualidade.    Com o intuito de validar a avaliação realizada sobre os dados do sistema acadêmico       

do CEFET­MG, os relatórios gerados foram encaminhados a uma especialista na área de       

negócio e solicitado que, para cada problema informado, fosse verificado se o problema       

realmente existia e se foi realizada alguma ação para corrigi­lo. Os e­mails trocados com a       

especialista estão disponíveis no Anexo 1. Já os relatórios enviados e o relatório recebido       

com   os   comentários   da   especialista   estão   disponíveis   no   Anexo   2.    Foi realizada a verificação dos relatórios dos Problemas de Qualidade detectados       

nas unidades de Belo Horizonte pela analista de negócio. Dos 69 (sessenta e nove)       

problemas detectados, 62 (sessenta e dois) foram confirmados como erros realmente       

existentes na base de dados. Segundo informações da planilha de retorno da analista de       

negócio, dos erros confirmados, apenas um não foi possível providenciar a correção. Tal       

problema não pode ser corrigido por tratar­se de um problema de completude de esquema,       

já que o sistema de origem não possuía um campo previsto para o armazenamento do dado       

incompleto. Nenhum retorno foi apresentado quanto ao relatório de Problemas de Qualidade        detectados   nos   dados   das   unidade   de   ensino   do   interior. 

Com isso, considerando os dois relatórios de detecção de Problemas de Qualidade       

de Dados, foi detectado inicialmente o total de 405 (quatrocentos e cinco) Problemas de       

Qualidade. Dos quais 69 foram avaliados. Ou seja, 17,5% dos problemas foram avaliados.       

E, dentre os avaliados, 90% dos problemas foram confirmados como Problemas de       

Qualidade dos Dados. Quanto aos 10% de problemas detectados que não configuraram um       

real Problema de Qualidade dos Dados, percebeu­se que havia um erro no cadastro de uma       

das Regras de Validação. Tal fato se confirmou ao realizar­se nova avaliação após a       

correção do cadastro da Regra de Validação e obter­se os mesmos 62 (sessenta e dois)       

problemas confirmados. Uma nova avaliação também foi realizada sobre os dados das       

unidades do interior, fazendo com que a quantidade de problemas detectados caísse para       

306 (trezentos e seis). Os problemas que não foram detectados estavam relacionados à       

mesma   Regra   de   Validação   que   possuía   erro.    Portanto, após efetuada as novas avaliações, o total de problemas detectados caiu       

de 405 (quatrocentos e cinco) para 398 (trezentos e noventa e oito). Os problemas foram       

distribuídos entre as Dimensões de Qualidade dos Dados conforme apresentado nas        Figuras   17   e   18.    Figura   17   ­   Distribuição   dos   Problemas   de   Qualidade   dos   Dados   por   Dimensão   de  Qualidade   ­   unidades   da   capital    Fonte:   elaborada   pelo   autor     

Figura   18   ­   Distribuição   dos   Problemas   de   Qualidade   dos   Dados   por   Dimensão   de  Qualidade   ­   unidades   do   interior 

  Fonte:   elaborada   pelo   autor 

 

Como é possível notar nos gráficos apresentados nas Figuras 17 e 18, a Dimensão       

de Qualidade que mais apresentou Problemas de Qualidade foi a dimensão de consistência,       

que   somou   68%   dos   problemas   na   capital   e   51%   dos   problemas   no   interior.     Também foi possível perceber que os dados da capital possuem menos problemas       

de completude, apenas 8%, enquanto no interior essa dimensão representa 43% do total de       

problemas. A partir dessa observação foi possível identificar que pode haver um problema       

relacionado ao processo de entrada dos dados; visto que, nas unidades do interior a entrada       

é feita de forma manual, enquanto nas unidades da capital a entrada dos dados é feita por       

meio   de   importações   de   dados   automatizadas.    Após realizada a detecção dos Problemas de Qualidade dos Dados e a correção dos       

dados que possuíam problema, a base do Sistema Acadêmico utilizado neste estudo de       

caso tornou­se mais livre de erros de tal forma que a migração dos dados desse Sistema       

para o Migradados do Educacenso pode ser realizado com maior precisão; visto que, as       

Regras de Validação do Educacenso já foram avaliadas e corrigidas antes mesmo de iniciar        o   processo   de   migração   de   dados. 

5.3.

Considerações   Finais 

 

A definição da abordagem para detecção de Problemas de Qualidade dos Dados,       

bem como a implementação do protótipo e a aplicação do estudo de caso em cenário real,       

foram suficientes para perceber que é possível estabelecer um processo de melhoria da       

Qualidade dos Dados a partir de uma proposta de detecção automática de Problemas de       

Qualidade   dos   Dados   com   foco   na   verificação   de   Regras   de   Validação.    O protótipo desenvolvido deu suporte à abordagem proposta para detecção de       

Problemas de Qualidade dos Dados, e contemplou todas as funcionalidade inicialmente       

previstas. Além disso, o protótipo possibilitou a aplicação do estudo de caso. E mais do que       

isto, foi desenvolvido de maneira genérica suficiente para que possa ser utilizado em outras       

aplicações,   ou   até   mesmo   em   outras   instituições.    Já os resultados do estudo de caso, demonstraram que a abordagem proposta para       

detecção de Problemas de Qualidade dos Dados foi capaz de identificar diversos problemas       

na base de dados a partir da verificação de Regras de Validação. Além disso, foi possível       

notar que a correção dos problemas detectados elevou a Qualidade dos Dados no Sistema       

Acadêmico da instituição. A melhoria da qualidade resultou numa maior confiabilidade nos        dados   e   facilitou   o   processo   de   migração   dos   dados.  

 

6.

Conclusão 

 

Com o aumento da preocupação com a Qualidade dos Dados, as pesquisas na área       

cresceram significativamente a fim de atender as necessidades das organizações em medir       

e melhorar a qualidade da informação. Pesquisas para avaliação e melhoria da Qualidade       

dos Dados abordam seu caráter Multidimensional, e aplicam métodos e métricas distintos       

para   cada   Dimensão   de   Qualidade   (Lee   et   al.,   2002;   Batini   e   Scannapieco,   2016).    Algumas pesquisas recentes mostram a possibilidade de avaliar a Qualidade dos       

Dados de maneira automática, a partir da detecção de Problemas de Qualidade dos Dados       

(Krishnan et al., 2016). Neste contexto, este trabalho apresentou uma abordagem para       

detecção de Problemas de Qualidade dos Dados a partir da avaliação de Regras de       

Validação. Além da abordagem proposta, foram apresentados o protótipo desenvolvido e o       

estudo   de   caso   realizado.    A partir dos resultados do desenvolvimento deste trabalho, podemos concluir que foi       

possível estabelecer uma correlação entre as Dimensões de Qualidade dos Dados e       

conjuntos de Regras de Validação de Dados. É certo que essa correlação apenas foi       

estabelecida para conjuntos específicos de Dimensões de Qualidade e de Regras de       

Validação. Mas, essa correlação possibilita associar, diretamente, que os problemas       

encontrados na verificação de determinadas Regras de Validação de Dados implicam em       

menor Qualidade dos Dados em determinada Dimensão de Qualidade. Dessa forma, a partir       

da abordagem proposta, é possível não apenas detectar os Problemas de Qualidade dos       

Dados,   mas   também   indicar   a   qual   dimensão   os   problemas   estão   relacionados.    E, além disso, a partir do uso do protótipo implementado, foi possível perceber que       

após definidos os conjuntos de dados e as Regras de Validação a serem verificados, a       

detecção dos Problemas de Qualidade dos Dados pôde ser realizada de maneira       

automática.     Por fim, com os resultados extraídos da aplicação do estudo de caso, podemos       

perceber que o protótipo implementado se mostrou útil na detecção de problemas, e que os        problemas   encontrados,   de   fato,   ajudaram   no   processo   de   migração   dos   dados. 

6.1.

Contribuições   do   Trabalho 

 

 

Com isso, as contribuições deste trabalho foram elencadas conforme os objetivos       

definidos   inicialmente:    ● Identificar uma relação entre conjuntos de Regras de Validação e Dimensões                     

de   Qualidade   dos   Dados    Neste trabalho foi estabelecida uma associação entre Regras de Validação de Dados       

e Dimensões de Qualidade dos Dados. Mas, mais do que isso, também foi estabelecido um       

método para identificação estar relação. Esse método não apenas subsidiou a abordagem       

aqui proposta para detecção de problemas, mas também poderá servir de base para outros       

trabalhos   na   área   de   Regras   de   Validação   e   Qualidade   dos   Dados.    ● Definir uma abordagem para detecção de Problemas de Qualidade dos Dados a                       

partir   da   avaliação   de   Regras   de   Validação    A abordagem proposta prevê a associação entre as Regras de Validação e os       

Problemas de Qualidade. A partir dela, é possível que o usuário defina quais dados devem       

ser avaliados e quais Regras de Validação devem ser verificadas. Após essa etapa, com       

suporte do protótipo desenvolvido, é possível validar se os dados estão em conformidade       

com as Regras de Validação, classificar os problemas encontrados conforme as Dimensões       

de   Qualidade   dos   Dados   e   relatar   os   problemas   detectados.      ● Implementar um protótipo para avaliação da abordagem proposta. O protótipo                   

realiza a verificação das Regras de Validação e apresenta relatório dos                     

Problemas   de   Qualidade   detectados    O protótipo, denominado  DataQualityControl , foi desenvolvido conforme os requisitos       

necessários para dar suporte a abordagem proposta. A partir dele é possível fazer a       

detecção  de Problemas de Qualidade em dados armazenados em sistemas de       

gerenciamento de banco de dados relacionais a partir da avaliação de Regras de Validação       

previamente cadastradas. Após a definição do conjunto de dados e das Regras de        Validação,   o   protótipo   pode   fazer   a   detecção   automática   de   Problemas   de   Qualidade. 

 

● Apresentar, por meio de um estudo de caso em um cenário real, que a detecção                             

automática de Problemas de Qualidade é capaz de detectar problemas                   

Qualidade   dos   Dados   a   partir   da   avaliação   de   Regras   de   Validação    Após a definição da abordagem para detecção de problemas e o desenvolvimento do       

protótipo para suporte à abordagem proposta, foi realizado um estudo de caso em cenário       

real. O estudo de caso se deu no CEFET­MG considerando o cenário de migração de dados       

do Sistema Acadêmico para o Migradados do Educacenso. A partir do estudo de caso foi       

possível detectar Problemas de Qualidade dos Dados na base de dados da instituição. Além       

disso, foi possível identificar que a correção dos Problemas de Qualidade detectados       

colaborou   com   o   processo   de   migração   de   dados.   

6.2.

Trabalhos   Futuros 

  Como trabalhos futuros podemos elencar algumas proposições que não foram       

abordadas   no   desenvolvimento   deste   trabalho,   bem   como   novos   pontos   relevantes.    ● Inclusão de outros tipos de Regras de Validação de Dados na abordagem                       

proposta     Considerando a limitação de tempo, o trabalho se limitou a um conjunto específico de       

Regras de Validação de Dados, bem como de Restrições de Integridade, visto que se limitou       

a integridade de domínio, de vazio e de coluna. Mas entende­se que é possível estender o       

trabalho a outras Restrições de Integridade, como exemplo as restrições definidas pelo       

usuário. E, inclusive, é possível estender o trabalho para abordar outras classes de       

Problemas de Qualidade, como exemplo os problemas de violação de restrições de       

integridade   mais   complexas,   problemas   de   unicidade   e   problemas   de   erro   de   ortografia    ● Modificação do protótipo para permitir a definição de Regras de Validação mais                       

complexas      Seguindo a linha da inclusão de novos tipos de Regras de Validação, percebe­se que       

definidas pelo usuário. Essas Regras de Validação podem associar duas ou mais colunas,       

de uma ou mais tabelas. E motivado pela maior complexidade dessas Regras, seria       

interessante estender o protótipo para que ele permita que o usuário escreva Regras de       

Validação mais complexas. Nesses casos, pode ser necessário também permitir que o       

próprio usuário do protótipo definida a qual Dimensão de Qualidade sua Regra de Validação       

criada   estará   relacionada. 

Documentos relacionados