4. ABORDAGEM PROPOSTA
4.4 COMPREENSÃO E SELEÇÃO DOS DADOS
Para ter início o processo de Mineração de Dados, se faz necessário,
primeiramente, conhecer melhor o ambiente do qual os dados serão extraídos.
da estrutura de armazenamento dos dados no contexto dos Sistemas de
Gestão Acadêmica das IFES. Tais sistemas caracterizam-se como Sistemas de
Informação capazes de oferecer funcionalidades de controle quanto a dados
dos discentes, docentes, cursos e disciplinas (CARVALHO et al., 2012).
Sendo assim, apesar da abordagem proposta pregar pela não utilização
dos dados relativos ao histórico acadêmico dos discentes analisados - visando
uma maior celeridade na predição dos possíveis casos de evasão já a partir do
momento do ingresso do aluno - ainda assim, os Sistemas de Gestão
Acadêmica continuam sendo o principal repositório para essas informações.
Até mesmo porque os dados para treinamento dos algoritmos de classificação
precisam conter as informações acerca da situação final do discente.
Em outras palavras, é preciso saber se o discente cujos dados estão
sendo analisados concluiu o curso com sucesso ou se evadiu para só assim
tornar possível o correto treinamento dos algoritmos. Desconhecidas as
respectivas situações finais dos discentes selecionados para análise não seria
possível o treinamento eficiente dos algoritmos classificadores. Além dos dados
utilizados para treinamento, os dados cadastrais dos alunos ingressantes
também costumam ser importados para os sistemas de gestão acadêmica.
Para fins de experimentação e validação, este trabalho utilizará o
ambiente do Sistema de Informações e Gestão Acadêmica (SIGA9) da
9
Universidade Federal de Pernambuco (UFPE10). No entanto, como a proposta
deste trabalho é a definição de uma abordagem que possa ser adaptada para o
ambiente das demais Instituições Federais de Ensino Superior, será dada
prioridade ao entendimento das informações não específicas da UFPE, cuja
presença, resguardadas as devidas particularidades, deve ser registrada nos
Sistemas de Gestão Acadêmica de outras Instituições Federais de Ensino
Superior, facilitando assim, o processo de replicação das etapas propostas.
Ainda que a estrutura de dados seja um elemento particular e variante de
acordo com a modelagem de cada SGA, as informações aqui utilizadas são
inerentes ao processo de seleção dos discentes e comuns às IFES.
Sendo assim, o estudo terá início com a compreensão da estrutura de
dados que possibilitará a seleção e extração dos dados referentes à evasão. A
compreensão dessa estrutura compõe a abordagem proposta e é parte
essencial para correta identificação dos dados que serão empregados tanto no
treinamento como na validação dos algoritmos. Serão definidos alguns
conjuntos de atributos com base nas informações disponíveis acerca dos
discentes ingressos. A identificação e seleção das situações que irão compor
as amostras escolhidas para teste e validação também constituem etapas
essenciais para o sucesso da atividade de mineração.
Uma vez estabelecida a estratégia de ação, conforme descrita acima, foi
dado início ao levantamento das tabelas do sistema envolvidas no processo,
por meio do acesso à Infraestrutura de Dados ofertado e mantido pelo Núcleo
10
de Tecnologia da Informação (NTI11) da UFPE. Vale lembrar que o
levantamento foi feito com base na estrutura de dados do SIGA e, em seu
respectivo Projeto de Dados, a identificação dos casos de evasão se faz por
meio da Situação Acadêmica do aluno no período letivo consultado.
Esta identificação ocorre de forma similar no ambiente da maioria dos
SGA, tendo alguns, inclusive, um modelo de dados que facilita a identificação
da situação acadêmica final do discente, por meio do registro da informação já
calculada e atualizada em uma coluna específica. Já no ambiente do SIGA-
UFPE essa identificação é um pouco mais complexa e só ocorre por meio da
busca pela última situação acadêmica registrada na respectiva tabela.
Desta forma, tem-se que no modelo de dados adotado, o processo de
identificação da situação acadêmica se dá por meio das informações contidas
nas tabelas siga_situacao_academica e siga_tipo_situacao_academica.
Estas armazenam os dados referentes à situação acadêmica dos discentes nos
respectivos períodos letivos em que são registradas. É possível compreender
melhor a participação das tabelas mencionadas na obtenção das informações
desejadas, observando as estruturas de dados das mesmas, conforme
replicadas abaixo, no Quadro 4.1 e no Quadro 4.2.
11
Quadro 4.1 - Estrutura da tabela siga_situacao_academica
Fonte: O Autor (2016)
Como a situação acadêmica é um conceito amplamente utilizado nos
Sistemas de Gestão Acadêmica das Instituições Federais de Ensino Superior e
essencial para a satisfatória administração das mesmas, sua identificação
costuma ser possível de forma simples na maioria das instituições, sendo em
muitos casos, armazenada na forma de uma tabela tipo como é o que ocorre
no caso da estrutura de dados adotada pelo SIGA-UFPE.
Quadro 4.2 - Estrutura da tabela siga_tipo_situacao_acacademica
Fonte: O Autor (2016)
Para fins de entendimento do que pode vir a caracterizar a evasão, é
preciso, primeiramente, compreender cada uma das possíveis situações
acadêmicas, nas quais os discentes podem se enquadrar. Para exemplificar,
no experimento conduzido no ambiente do SIGA-UFPE a identificação dos
compreensão dos possíveis tipos de situação acadêmica previstas, com base
nos dados de siga_tipo_situacao_academica, mostrados no Quadro 4.3.
Quadro 4.3 - Conteúdo da tabela siga_tipo_situacao_academica
Fonte: O Autor (2016)
É evidente que podem ocorrer variações nas situações acadêmicas
previstas para cada IFES, no entanto, a compreensão dos principais tipos de
situação acadêmica previstos permite a adaptação da situação para a realidade
de cada instituição. Desta forma, tem-se que, em uma ou mais das situações
acadêmicas adotadas pela instituição residem os casos de evasão que se
deseja extrair para treinamento dos algoritmos. No entanto, a identificação das
situações acadêmicas desejadas depende da compreensão das situações
I. Integralizado - Situação acadêmica que descreve o discente habilitado
para formação, porém que ainda não teve a mesma concretizada, por
razões burocráticas ou acadêmicas da natureza do curso. Não se trata
de uma situação acadêmica final, mas já é possível afirmar que a
mesma não reflete casos de ocorrência de evasão uma vez que os
discentes nela enquadrados estão aptos à formação. As ocorrências de
discentes enquadrados nessa situação acadêmica podem ser utilizadas
para treinamento do perfil dos alunos que não se evadem.
II. Formado - Situação acadêmica que descreve o discente que, não só
está habilitado para formação, mas encontra-se efetivamente formado.
Trata-se de uma situação acadêmica final e garante a não ocorrência de
evasão por parte do discente analisado, tendo este concluído o curso de
forma satisfatória sem configurar um caso de evasão. Os registros
enquadrados nessa situação acadêmica podem ser utilizados para
treinamento do perfil dos discentes que não se evadem.
III. Desvinculado - Situação acadêmica que descreve o discente que
perdeu o vínculo que possuía com a instituição, isto é, configura um
abandono dos estudos, sem registro de trancamentos, transferências ou
aproveitamentos. Trata-se de uma situação acadêmica final e os
discentes enquadrados nessa situação acadêmica podem ser utilizados
IV. Matriculado - Situação acadêmica que descreve o discente que possui
um vínculo ativo e se encontra regularmente matriculado, isto é, está
cursando algum componente curricular12. Não se trata de uma situação
acadêmica final, pois o desfecho da vida acadêmica do discente ainda
está em aberto, podendo este vir a se evadir antes da conclusão do
curso, caracterizando assim um caso de evasão ou concluir o curso
conforme esperado, o que não configuraria evasão. Devido à esta
incerteza quanto a situação final do discente, o perfil dos alunos nessa
situação não deve ser considerado no treinamento dos algoritmos.
V. Matrícula vínculo - Situação acadêmica que descreve o discente que
efetivou uma matrícula especial para fins de manutenção do vínculo com
a instituição, sem a necessidade de estar cursando algum componente
curricular. Geralmente ocorre quando o discente está trabalhando em
algum pré-requisito para conclusão do curso. Não se trata de uma
situação acadêmica final, podendo resultar ou não num caso de evasão.
Por esta razão os registros enquadrados nessa situação não devem ser
considerados para treinamento dos algoritmos.
VI. Trancamento - Situação acadêmica que descreve o discente que
efetivou o trancamento do curso, mantendo pelo período determinado
para trancamento, seu vínculo com a instituição. Não se trata de uma
situação acadêmica final, e ainda existe vínculo entre o discente e a
instituição. Por esta razão, os registros enquadrados nessa situação não
12
devem ser considerados para treinamento dos algoritmos, uma vez que
ainda é incerto se irão resultar na conclusão do curso por parte do
discente ou no abandono do mesmo, o que configuraria evasão.
VII. Transferência interna - Situação acadêmica que descreve o discente
transferido para outro curso dentro da mesma instituição. Não se trata
de uma situação acadêmica final, podendo o discente concluir ou se
evadir do curso para o qual foi transferido. Dentro do escopo da
definição de evasão adotada para este trabalho, que visa o combate à
evasão do ponto de vista geral, identificando os casos de abandono do
ensino superior como um todo e não apenas o abandono de um curso
específico, tem-se que os discentes enquadrados nessa situação
acadêmica não configuram evasão a partir da perspectiva adotada. Por
esta razão, estes registros não foram utilizados para treinamento dos
algoritmos durante a experimentação conduzida. Os mesmos podem ser
facilmente inseridos no conjunto de dados submetidos para treinamento
dos algoritmos, caso seja do interesse de outra instituição que venha a
utilizar a abordagem aqui proposta identificar tais alunos.
VIII. Transferência externa - Situação acadêmica que descreve o discente
transferido para instituições de ensino externas. Mais uma vez, tem-se
que, de acordo com a definição de evasão adotada, esta situação não
configura abandono do ensino superior, apenas troca de instituição.
Como este trabalho está inserido no contexto educacional de uma
Instituição Federal de Ensino Superior e da gestão governamental da
educação superior como um todo, não faria sentido submeter este grupo
que a situação acadêmica em questão indica explicitamente a possível
manutenção dos estudos em outra instituição. Desta forma, tem-se que
o discente não abandonou o ensino superior, apenas a instituição. Assim
como ocorre para a situação anterior, estes dados podem ser facilmente
inseridos no conjunto de dados para treinamento dos algoritmos, caso
seja do interesse de outra instituição que venha a utilizar a abordagem
proposta identificar os discentes que abandonam a mesma.
IX. Jubilado - Situação acadêmica que descreve o discente cujo vínculo foi
interrompido por ter se enquadrado nas regras de jubilamento da
instituição. Trata-se de uma situação acadêmica final e pode ser
interpretada como um caso de abandono do ensino superior, tal como se
propõe a identificar este trabalho. Suas causas são complexas e estão
relacionadas também ao problema da retensão, que pelos motivos
expostos na seção de definição dos objetivos, foi deixado de fora do
escopo deste trabalho. Como não ocorre jubilamento na prática no
âmbito da IFES estudada (UFPE) não há discentes enquadrados nessa
situação acadêmica que possam ser utilizados para treinamento dos
algoritmos. Em IFES que possuam estes dados, os mesmos podem ser
considerados se for do interesse da instituição identificar este grupo de
alunos e atuar para reduzir os casos de jubilamento.
As demais situações acadêmicas não são mencionadas por não serem
relevantes para o caso ou por estarem em desuso no sistema ou mesmo
configurarem apenas situações técnicas para fins de administração do sistema.
Outras situações acadêmicas até são utilizadas, mas são exclusivas dos
estabelecido na etapa de definição dos objetivos, dentre as situações
acadêmicas apresentadas, serão analisadas as que podem ser adotadas como
evidência que configure a evasão. Uma vez identificadas estas situações será
possível extrair os dados desejados para treinamento do perfil dos alunos que
se evadem em comparação aos alunos que não se evadem.
Sendo assim, tem-se que os discentes inseridos nas situações
acadêmicas I, II e III (integralizado, formado e desvinculado) constituem o
conjunto de dados necessários para treinamento dos algoritmos. Por meio dos
discentes inclusos nas situações acadêmicas I e II ter-se-á o conjunto amostral
de indivíduos que não evadiram, concluindo os estudos conforme esperado e
não caracterizando desperdício de recursos investidos em sua formação. Tais
casos podem ser considerados o caminho de sucesso, isto é, o desfecho
esperado. Já a partir dos dados dos discentes enquadrados na situação
acadêmica III é possível traçar o perfil daqueles com tendência à evasão.
Uma vez compreendidas as situações acadêmicas previstas pelo
sistema e identificadas em quais se enquadram os dados necessários para
treinamento e teste dos algoritmos é possível dar início ao processo de
extração dos dados para treinamento e predição. O processo de extração será
norteado pelo filtro que retornará apenas os dados referentes aos discentes
enquadrados nas situações acadêmicas I, II e III. No ambiente SIGA-UPFE,
este filtro ocorre por meio dos dados presentes em siga_situacao_academica
e siga_tipo_situacao_academica, cujas estruturas já foram apresentadas no
Quadro 4.1 e no Quadro 4.2. A melhor maneira de identificar os discentes com situação acadêmica integralizado ou formado (não evadidos) e desvinculado
em siga_situacao_academica, uma vez que essa relação organiza os dados
cronologicamente por meio do período letivo.
É relevante ressaltar que, para aplicação da abordagem proposta no
contexto das demais Instituições Federais de Ensino Superior, é preciso estar
atento para a regra de negócio das mesmas, pois é comum um discente
possuir mais de uma situação acadêmica para o mesmo período letivo. Por
exemplo, um discente que em determinado período letivo tenha assumido a
situação integralizado, estando apto para sua formação e, pouco tempo
depois, dentro do mesmo período letivo, ocorra a formatura do discente e o
mesmo assuma a situação acadêmica formado. Nestes casos, é indispensável
o filtro pela data de definição da situação acadêmica, pois a simples consulta
pela situação acadêmica do período letivo mais recente pode retornar
resultados incorretos. Também é importante atentar para a diferença entre a
data de definição e a data de registro ou última alteração da mesma.
Com a definição do filtro que garante a obtenção apenas das situações
acadêmicas relevantes para o treinamento dos algoritmos, basta agora que os
dados sejam extraídos de maneira compatível com o disponível para os
discentes ingressantes. Para tanto, um novo filtro será aplicado quando da
extração dos dados de treinamento na base do SGA, com o objetivo de agrupar
os discentes por período letivo de ingresso, tal como ocorre para os discentes
ingressantes. Desta forma, tem-se que serão extraídos todos os discentes que
tenham ingressado em determinado período letivo e estejam enquadrados nas
situações acadêmicas equivalentes a I, II e III ou demais situações
Respondida a questão acerca de quais grupos de discentes devem ou
não ser considerados, é preciso agora decidir quais os dados (atributos) dos
discentes que devem ser extraídos, de acordo com os critérios abaixo.
Todos os atributos devem ser informações cadastrais coletadas pelas
IFES quando do ingresso do discente por meio de algum dos processos
seletivos adotados. Ou seja, nenhum dos atributos propostos deve
depender de algum evento posterior ao ingresso do discente para que
esteja disponível no ambiente acadêmico do qual será extraído.
Preferencialmente, os atributos devem estar presentes no conjunto de
dados coletado de acordo com o regulamentado após a implementação
do SISU (Sistema de Seleção Unificada), para garantir a compatibilidade
dos dados para todas as Instituições Federais de Ensino Superior.
Preferencialmente, os atributos devem estar presentes no conjunto de
dados coletado pela instituição antes da implementação do SISU
(Sistema de Seleção Unificada), de forma a tornar possível a inclusão
dos dados dos discentes que ingressaram na IFES antes da unificação.
Todos os atributos devem possuir alguma hipótese que o relacione com
a ocorrência ou não da evasão. Por exemplo, tem-se que a idade, o
sexo e o curso escolhido podem estar, de alguma forma, relacionados
ao risco de evasão do discente, enquanto o nome da pessoa é um dado
que não apresenta nenhuma relação lógica com a evasão.
Atendidos os critérios acima, optou-se por utilizar todos os dados
possíveis dentre os disponíveis. Em outras palavras, todos os atributos que
do SIGA-UFPE foram extraídos. No total, 16 atributos foram selecionados para
extração conforme é mostrado em detalhes no Quadro 4.4.
Quadro 4.4 - Atributos selecionados para extração
Fonte: O Autor (2016)
É evidente que podem ser registradas pequenas diferenças em relação
à disponibilidade de dados em cada IFES, no entanto, a tendência é que haja
uma convergência destes dados com a implementação do SISU, por esta razão
os atributos aqui escolhidos levam em conta o modelo utilizado pelo SISU e
objetivam a viabilização da construção do perfil do discente que se evade.
Além dos atributos apresentados, havia também a intenção de incluir
entanto, o mesmo foi desconsiderado devido às diversas mudanças ocorridas
no sistema, inclusive em desacordo com o atualmente adotado pelo SISU, e
devido também ao pouco tempo de implementação das cotas, que por serem
um recurso relativamente novo, a maioria dos discentes ingressantes após a
implementação do mesmo ainda não tiveram tempo de se formar.
Analisando um a um os atributos selecionados para extração, conforme
apresentados no Quadro 4.4, é possível compreender a relevância e também
as particularidades de cada um, além das hipóteses que os relacionam com a
possível tendência à evasão, conforme descritas abaixo.
A001 - Trata-se do CPF do discente e é utilizado apenas para permitir a
identificação do aluno com tendência à evasão, fornecendo assim
subsídios para que ações sejam tomadas por parte da administração.
Por razões óbvias, este dado não será levado em consideração pelos
algoritmos classificadores para a construção do perfil dos discentes,
sendo assim, tem-se que o mesmo é um meta-atributo.
A002 - Trata-se do sexo do discente, identificado como masculino ou
feminino. A relevância deste atributo advém da hipótese de que
discentes de um terminado sexo tem maior ou menor tendência à
evasão, especialmente se considerado o sexo em conjunto com outros
atributos do mesmo aluno, como o curso escolhido, por exemplo.
A003 - Trata-se da idade do discente no momento em que o mesmo
ingressa no ensino superior. A relevância deste atributo advém da
mesmo) no momento em que escolhe o curso para ingressar no ensino
superior influencia, de alguma forma, sua tendência à evasão.
A004 - Trata-se do estado civil do discente, podendo ser classificado
como casado, solteiro ou outros. A relevância deste atributo advém da
hipótese de que as responsabilidades pessoais inerentes ao estado civil
do discente influenciam, de alguma forma, sua tendência à evasão.
A005 - Trata-se da cor/raça declarado pelo discente. A relevância deste
atributo advém da hipótese de que possa existir alguma relação entre
determinados grupos de discentes e a ocorrência ou não da evasão. É
importante ressaltar que este atributo é de preenchimento opcional,
havendo assim muitos registros com cor/raça não informados.
A006 - Trata-se do ano no qual o discente concluiu o ensino médio. A
relevância deste atributo advém da hipótese de que possa haver alguma
relação entre a ocorrência ou não da evasão e o intervalo de tempo
entre a conclusão do ensino médio e o ingresso do discente no ensino