3. Caracterização das Tecnologias e dos Dados
3.3. Caracterização e Análise Exploratória das Fontes de Dados
3.3.2. Fonte de Dados Software JPM & Abreu
As fontes de dados fornecidas para esta análise são provenientes de um software de gestão de alunos desenvolvido pela empresa J.P.M & Abreu, LDA que fornece cerca de 95% das escolas/agrupamentos do ensino público português (Abreu, 2004). No caso do concelho de Guimarães, esta empresa apenas não fornece o seu software a um agrupamento de escolas, dos 14 agrupamentos existentes no concelho. O software em questão comtempla todos os ciclos de estudos sendo que o módulo de Alunos permite verificar avaliações, assiduidade, matrículas, listagem de turmas e de alunos, entre outros.
Neste sentido, houve a necessidade de contactar com a empresa de forma a obter o acesso a uma versão experimental do módulo de alunos e assim, poder visualizar e extrair os conjuntos de dados existentes. Desta forma, foi disponibilizada uma versão experimental do módulo de alunos do Software e cedido, por parta da Câmara Municipal de Guimarães, um backup dos dados de um dos agrupamentos de escolas do concelho. Não foi possível o acesso a todos os dados de todos os agrupamentos, pois as bases de dados que suportam este software não se encontram centralizadas, mas sim instaladas localmente em cada um dos estabelecimentos de ensino.
Para este estudo foi realizada uma análise detalhada à qualidade dos dados através da plataforma de análise Talend Open Studio for Data Quality e o Tableau, onde foram avaliados os resultados das análises tendo em conta os seguintes fatores:
Número de registos;
Número de registos nulos;
Número de valores distintos;
Número de registos únicos;
Número de registos duplicados;
61 A partir do backup disponibilizado pelo município de Guimarães, foi possível extrair as fontes de dados presentes na Tabela 9. A aplicação permite descarregar ficheiros do tipo Comma- Separated Values (csv) com os dados referentes aos vários componentes do módulo de alunos. Tabela 9 - Conjuntos de dadas extraídas do Software J.P.M & Abreu
Fonte de dados Descrição
AlunosGeralTotalFinal.csv Conjunto de dados principal referente aos dados dos alunos do agrupamento em questão
Cursos2ºe3ºCiclo.csv Dados dos cursos lecionados no 2º e 3º ciclo do agrupamento
CusosProfissional.csv Dados dos cursos lecionados no ensino Profissional do agrupamento
CursosRecorrente.csv Dados dos cursos lecionados no ensino Recorrente do agrupamento
CursosSecundário.csv Dados dos cursos lecionados no ensino Secundário do agrupamento
Disciplina2ºe3ºCiclo.csv Dados das disciplinas lecionadas no 2º e 3º ciclo do agrupamento
Disciplinas1ºciclo.csv Dados das disciplinas lecionadas no 1ºciclo do agrupamento
DisciplinasProfissional.csv Dados das disciplinas lecionadas no ensino profissional do agrupamento
DisciplinasRecorrente.csv Dados das disciplinas lecionadas no ensino recorrente do agrupamento
DisciplinasSecundário.csv Dados das disciplinas lecionadas no ensino secundário do agrupamento
Escolas.csv Dados das escolas que pertencem ao agrupamento
SituacaoFinalAlunos1º.csv Situação dos alunos do 1º ciclo quanto ao aproveitamento nos anos letivos em que frequentaram o agrupamento
SituacaoFinalAlunos2º3º.csv Situação dos alunos do 2º e 3º ciclo quanto ao aproveitamento nos
anos letivos em que frequentaram o agrupamento
De uma forma geral, é possível afirmar que as fontes de dados existentes carecem de uma grande falta de valores retirando-lhes desta forma bastante qualidade. Tendo em conta as análises efetuadas, fica presente a ideia de uma constante falta de dados em todos os conjuntos anteriormente referidos. Foi, portanto, registado um elevado número de colunas com valores omissos relevantes para este estudo. Para além disso é impossível determinar informação importante como qual a escola a que um determinado aluno pertence.
Dos conjuntos de dados apresentados na Tabela 9, o mais relevante para este estudo, e que se esperava que possuísse informação com qualidade, é o AlunosGeralTotalFinal.csv. Na Tabela 10 é possível ver um excerto dos atributos mais relevantes que foram obtidas. A versão completa com todos os atributos pode ser visualizada em anexo (Anexo A1. Fonte de dados Software JPM & Abreu (AlunosGeralTotal.csv))
62
Tabela 10 - Atributos da fonte de dados do Software J.P.M & Abreu
Atributo Descrição
N_Processo Número do processo do aluno
IdMatricula Identificador do número de matrícula do aluno
Nome Nome do aluno
Nacionalidade Nacionalidade do aluno
Sexo Género do aluno
Morada1 Morada da residência do aluno
0000 Código postal de 4 dígitos
000 Código postal de 3 dígitos
CodigoPostal Código postal
N_BI Número do bilhete de identidade ou cartão de cidadão
ViveComPais Indicação se o aluno vive com os pais
NecEnsiEspecial Indicação se o aluno necessita de ensino especial
Subsidiado Tipo de subsídio que o aluno usufrui
Deficiencia Indicação se o aluno é portador de algum tipo de deficiência
TransporteUtilizado Transporte utilizada na deslocação para a escola
ProfissaoPai Profissão do pai
ProfissaoMae Profissão da mãe
HabilitacoesPai Habilitações literárias do pai
SituaçãoSEPai Situação socioeconómica do pai
ParentescoED Grau de parentesco do encarregado de educação
TipoCartao Tipo de cartão utlizado na escola pelo aluno
LocalidadeMae Local de residência do mãe
Localidade Local de residência do aluno
NºElementosAgrFami Número de elementos do agregado familiar
Deslocado Indicação se o aluno se encontra deslocado da sua região geográfica
Curso Curso que o aluno frequenta
Abandono Indicação se o aluno abandonou a escola
AbandonoData Data em que o aluno abandonou a escola
NIF Número de identificação fiscal do aluno
PercursoCurricularAlternativo Indicação se o aluno teve um percurso curricular alternativo
A qualidade que se esperava não se verificou e, num total de 113 colunas, quase todas apresentam mais de 25% dos dados em falta, o que se apresenta como um valor bastante elevado para os 4434 registos que o conjunto de dados contém. A par deste problema, foram ainda identificados muitos outros como: maioria dos códigos postal e moradas inválidas, não
63 uniformização dos dados inseridos no sistema (Figura 21), números de BI inválidos (Figura 21), NIF inválidos, atributo que seria utilizado como identificador único do aluno, bem como atributos já obsoletos e vários registos duplicados (Figura 22).
Figura 21 - Registos do atributo N_BI
Figura 22 - Qualidade do atributo Nome
Para além de todos estes problemas, neste conjunto de dados era impossível associar um determinado aluno a uma escola pois essa informação não estava presente nos ficheiros de suporte.
Como exemplo, é apresentada na Figura 23 a coluna TextoProfissaoPai do conjunto de dados em questão, e onde fica evidenciado que, apesar de estarem preenchidos, os registos mais frequentes são “Profissão Desconhecida” ou “Sem profissão”, o que inviabiliza estudos futuros que possam necessitar desta informação.
64
Figura 23 - Exemplo do Relatório de qualidade de dados - coluna TextoProfissaoPai
Para além do problema referido anteriormente, evidenciou-se também que não existe para este atributo, bem como tantos outros, uniformização dos dados inseridos, tendo sido detetado para a mesma profissão diversas designações (ex. Operário Fabril, Operário de Fábrica, operário).
Como é possível verificar na Figura 24, existem registos duplicados que se referem ao mesmo aluno. Nestes casos, um dos registos duplicados apresenta normalmente menos informação, sendo também visível que a informação não é sempre concordante entre registos.
65 Por exemplo, nas duas primeiras linhas da Figura 24, para além de se verificar que o número de processo é diferente, dizem respeito ao mesmo aluno, em que na primeira linha o registo encontra-se com as colunas todas preenchidas contrastando com a segunda que só apresenta as cinco primeiras colunas preenchidas.
Relativamente aos conjuntos de dados com informação das disciplinas e dos cursos, verificam- se menos debilidades que o anterior, sendo possível a sua utilização no decorrer do projeto. Quanto aos conjuntos com os dados das escolas e da situação dos alunos, foram também identificadas uma série de problemas que também inviabilizam a sua utilização em estudos futuros. Todas estas anomalias estão devidamente identificadas no relatório de qualidade de dados que pode ser acedido através do seguinte link (Relatório de qualidade).