• Nenhum resultado encontrado

3. Caracterização das Tecnologias e dos Dados

3.3. Caracterização e Análise Exploratória das Fontes de Dados

3.3.2. Fonte de Dados Software JPM & Abreu

As fontes de dados fornecidas para esta análise são provenientes de um software de gestão de alunos desenvolvido pela empresa J.P.M & Abreu, LDA que fornece cerca de 95% das escolas/agrupamentos do ensino público português (Abreu, 2004). No caso do concelho de Guimarães, esta empresa apenas não fornece o seu software a um agrupamento de escolas, dos 14 agrupamentos existentes no concelho. O software em questão comtempla todos os ciclos de estudos sendo que o módulo de Alunos permite verificar avaliações, assiduidade, matrículas, listagem de turmas e de alunos, entre outros.

Neste sentido, houve a necessidade de contactar com a empresa de forma a obter o acesso a uma versão experimental do módulo de alunos e assim, poder visualizar e extrair os conjuntos de dados existentes. Desta forma, foi disponibilizada uma versão experimental do módulo de alunos do Software e cedido, por parta da Câmara Municipal de Guimarães, um backup dos dados de um dos agrupamentos de escolas do concelho. Não foi possível o acesso a todos os dados de todos os agrupamentos, pois as bases de dados que suportam este software não se encontram centralizadas, mas sim instaladas localmente em cada um dos estabelecimentos de ensino.

Para este estudo foi realizada uma análise detalhada à qualidade dos dados através da plataforma de análise Talend Open Studio for Data Quality e o Tableau, onde foram avaliados os resultados das análises tendo em conta os seguintes fatores:

 Número de registos;

 Número de registos nulos;

 Número de valores distintos;

 Número de registos únicos;

 Número de registos duplicados;

61 A partir do backup disponibilizado pelo município de Guimarães, foi possível extrair as fontes de dados presentes na Tabela 9. A aplicação permite descarregar ficheiros do tipo Comma- Separated Values (csv) com os dados referentes aos vários componentes do módulo de alunos. Tabela 9 - Conjuntos de dadas extraídas do Software J.P.M & Abreu

Fonte de dados Descrição

AlunosGeralTotalFinal.csv Conjunto de dados principal referente aos dados dos alunos do agrupamento em questão

Cursos2ºe3ºCiclo.csv Dados dos cursos lecionados no 2º e 3º ciclo do agrupamento

CusosProfissional.csv Dados dos cursos lecionados no ensino Profissional do agrupamento

CursosRecorrente.csv Dados dos cursos lecionados no ensino Recorrente do agrupamento

CursosSecundário.csv Dados dos cursos lecionados no ensino Secundário do agrupamento

Disciplina2ºe3ºCiclo.csv Dados das disciplinas lecionadas no 2º e 3º ciclo do agrupamento

Disciplinas1ºciclo.csv Dados das disciplinas lecionadas no 1ºciclo do agrupamento

DisciplinasProfissional.csv Dados das disciplinas lecionadas no ensino profissional do agrupamento

DisciplinasRecorrente.csv Dados das disciplinas lecionadas no ensino recorrente do agrupamento

DisciplinasSecundário.csv Dados das disciplinas lecionadas no ensino secundário do agrupamento

Escolas.csv Dados das escolas que pertencem ao agrupamento

SituacaoFinalAlunos1º.csv Situação dos alunos do 1º ciclo quanto ao aproveitamento nos anos letivos em que frequentaram o agrupamento

SituacaoFinalAlunos2º3º.csv Situação dos alunos do 2º e 3º ciclo quanto ao aproveitamento nos

anos letivos em que frequentaram o agrupamento

De uma forma geral, é possível afirmar que as fontes de dados existentes carecem de uma grande falta de valores retirando-lhes desta forma bastante qualidade. Tendo em conta as análises efetuadas, fica presente a ideia de uma constante falta de dados em todos os conjuntos anteriormente referidos. Foi, portanto, registado um elevado número de colunas com valores omissos relevantes para este estudo. Para além disso é impossível determinar informação importante como qual a escola a que um determinado aluno pertence.

Dos conjuntos de dados apresentados na Tabela 9, o mais relevante para este estudo, e que se esperava que possuísse informação com qualidade, é o AlunosGeralTotalFinal.csv. Na Tabela 10 é possível ver um excerto dos atributos mais relevantes que foram obtidas. A versão completa com todos os atributos pode ser visualizada em anexo (Anexo A1. Fonte de dados Software JPM & Abreu (AlunosGeralTotal.csv))

62

Tabela 10 - Atributos da fonte de dados do Software J.P.M & Abreu

Atributo Descrição

N_Processo Número do processo do aluno

IdMatricula Identificador do número de matrícula do aluno

Nome Nome do aluno

Nacionalidade Nacionalidade do aluno

Sexo Género do aluno

Morada1 Morada da residência do aluno

0000 Código postal de 4 dígitos

000 Código postal de 3 dígitos

CodigoPostal Código postal

N_BI Número do bilhete de identidade ou cartão de cidadão

ViveComPais Indicação se o aluno vive com os pais

NecEnsiEspecial Indicação se o aluno necessita de ensino especial

Subsidiado Tipo de subsídio que o aluno usufrui

Deficiencia Indicação se o aluno é portador de algum tipo de deficiência

TransporteUtilizado Transporte utilizada na deslocação para a escola

ProfissaoPai Profissão do pai

ProfissaoMae Profissão da mãe

HabilitacoesPai Habilitações literárias do pai

SituaçãoSEPai Situação socioeconómica do pai

ParentescoED Grau de parentesco do encarregado de educação

TipoCartao Tipo de cartão utlizado na escola pelo aluno

LocalidadeMae Local de residência do mãe

Localidade Local de residência do aluno

NºElementosAgrFami Número de elementos do agregado familiar

Deslocado Indicação se o aluno se encontra deslocado da sua região geográfica

Curso Curso que o aluno frequenta

Abandono Indicação se o aluno abandonou a escola

AbandonoData Data em que o aluno abandonou a escola

NIF Número de identificação fiscal do aluno

PercursoCurricularAlternativo Indicação se o aluno teve um percurso curricular alternativo

A qualidade que se esperava não se verificou e, num total de 113 colunas, quase todas apresentam mais de 25% dos dados em falta, o que se apresenta como um valor bastante elevado para os 4434 registos que o conjunto de dados contém. A par deste problema, foram ainda identificados muitos outros como: maioria dos códigos postal e moradas inválidas, não

63 uniformização dos dados inseridos no sistema (Figura 21), números de BI inválidos (Figura 21), NIF inválidos, atributo que seria utilizado como identificador único do aluno, bem como atributos já obsoletos e vários registos duplicados (Figura 22).

Figura 21 - Registos do atributo N_BI

Figura 22 - Qualidade do atributo Nome

Para além de todos estes problemas, neste conjunto de dados era impossível associar um determinado aluno a uma escola pois essa informação não estava presente nos ficheiros de suporte.

Como exemplo, é apresentada na Figura 23 a coluna TextoProfissaoPai do conjunto de dados em questão, e onde fica evidenciado que, apesar de estarem preenchidos, os registos mais frequentes são “Profissão Desconhecida” ou “Sem profissão”, o que inviabiliza estudos futuros que possam necessitar desta informação.

64

Figura 23 - Exemplo do Relatório de qualidade de dados - coluna TextoProfissaoPai

Para além do problema referido anteriormente, evidenciou-se também que não existe para este atributo, bem como tantos outros, uniformização dos dados inseridos, tendo sido detetado para a mesma profissão diversas designações (ex. Operário Fabril, Operário de Fábrica, operário).

Como é possível verificar na Figura 24, existem registos duplicados que se referem ao mesmo aluno. Nestes casos, um dos registos duplicados apresenta normalmente menos informação, sendo também visível que a informação não é sempre concordante entre registos.

65 Por exemplo, nas duas primeiras linhas da Figura 24, para além de se verificar que o número de processo é diferente, dizem respeito ao mesmo aluno, em que na primeira linha o registo encontra-se com as colunas todas preenchidas contrastando com a segunda que só apresenta as cinco primeiras colunas preenchidas.

Relativamente aos conjuntos de dados com informação das disciplinas e dos cursos, verificam- se menos debilidades que o anterior, sendo possível a sua utilização no decorrer do projeto. Quanto aos conjuntos com os dados das escolas e da situação dos alunos, foram também identificadas uma série de problemas que também inviabilizam a sua utilização em estudos futuros. Todas estas anomalias estão devidamente identificadas no relatório de qualidade de dados que pode ser acedido através do seguinte link (Relatório de qualidade).

Documentos relacionados