• Nenhum resultado encontrado

4. ABORDAGEM PROPOSTA

4.4 COMPREENSÃO E SELEÇÃO DOS DADOS

Para ter início o processo de Mineração de Dados, se faz necessário,

primeiramente, conhecer melhor o ambiente do qual os dados serão extraídos.

da estrutura de armazenamento dos dados no contexto dos Sistemas de

Gestão Acadêmica das IFES. Tais sistemas caracterizam-se como Sistemas de

Informação capazes de oferecer funcionalidades de controle quanto a dados

dos discentes, docentes, cursos e disciplinas (CARVALHO et al., 2012).

Sendo assim, apesar da abordagem proposta pregar pela não utilização

dos dados relativos ao histórico acadêmico dos discentes analisados - visando

uma maior celeridade na predição dos possíveis casos de evasão já a partir do

momento do ingresso do aluno - ainda assim, os Sistemas de Gestão

Acadêmica continuam sendo o principal repositório para essas informações.

Até mesmo porque os dados para treinamento dos algoritmos de classificação

precisam conter as informações acerca da situação final do discente.

Em outras palavras, é preciso saber se o discente cujos dados estão

sendo analisados concluiu o curso com sucesso ou se evadiu para só assim

tornar possível o correto treinamento dos algoritmos. Desconhecidas as

respectivas situações finais dos discentes selecionados para análise não seria

possível o treinamento eficiente dos algoritmos classificadores. Além dos dados

utilizados para treinamento, os dados cadastrais dos alunos ingressantes

também costumam ser importados para os sistemas de gestão acadêmica.

Para fins de experimentação e validação, este trabalho utilizará o

ambiente do Sistema de Informações e Gestão Acadêmica (SIGA9) da

9

Universidade Federal de Pernambuco (UFPE10). No entanto, como a proposta

deste trabalho é a definição de uma abordagem que possa ser adaptada para o

ambiente das demais Instituições Federais de Ensino Superior, será dada

prioridade ao entendimento das informações não específicas da UFPE, cuja

presença, resguardadas as devidas particularidades, deve ser registrada nos

Sistemas de Gestão Acadêmica de outras Instituições Federais de Ensino

Superior, facilitando assim, o processo de replicação das etapas propostas.

Ainda que a estrutura de dados seja um elemento particular e variante de

acordo com a modelagem de cada SGA, as informações aqui utilizadas são

inerentes ao processo de seleção dos discentes e comuns às IFES.

Sendo assim, o estudo terá início com a compreensão da estrutura de

dados que possibilitará a seleção e extração dos dados referentes à evasão. A

compreensão dessa estrutura compõe a abordagem proposta e é parte

essencial para correta identificação dos dados que serão empregados tanto no

treinamento como na validação dos algoritmos. Serão definidos alguns

conjuntos de atributos com base nas informações disponíveis acerca dos

discentes ingressos. A identificação e seleção das situações que irão compor

as amostras escolhidas para teste e validação também constituem etapas

essenciais para o sucesso da atividade de mineração.

Uma vez estabelecida a estratégia de ação, conforme descrita acima, foi

dado início ao levantamento das tabelas do sistema envolvidas no processo,

por meio do acesso à Infraestrutura de Dados ofertado e mantido pelo Núcleo

10

de Tecnologia da Informação (NTI11) da UFPE. Vale lembrar que o

levantamento foi feito com base na estrutura de dados do SIGA e, em seu

respectivo Projeto de Dados, a identificação dos casos de evasão se faz por

meio da Situação Acadêmica do aluno no período letivo consultado.

Esta identificação ocorre de forma similar no ambiente da maioria dos

SGA, tendo alguns, inclusive, um modelo de dados que facilita a identificação

da situação acadêmica final do discente, por meio do registro da informação já

calculada e atualizada em uma coluna específica. Já no ambiente do SIGA-

UFPE essa identificação é um pouco mais complexa e só ocorre por meio da

busca pela última situação acadêmica registrada na respectiva tabela.

Desta forma, tem-se que no modelo de dados adotado, o processo de

identificação da situação acadêmica se dá por meio das informações contidas

nas tabelas siga_situacao_academica e siga_tipo_situacao_academica.

Estas armazenam os dados referentes à situação acadêmica dos discentes nos

respectivos períodos letivos em que são registradas. É possível compreender

melhor a participação das tabelas mencionadas na obtenção das informações

desejadas, observando as estruturas de dados das mesmas, conforme

replicadas abaixo, no Quadro 4.1 e no Quadro 4.2.

11

Quadro 4.1 - Estrutura da tabela siga_situacao_academica

Fonte: O Autor (2016)

Como a situação acadêmica é um conceito amplamente utilizado nos

Sistemas de Gestão Acadêmica das Instituições Federais de Ensino Superior e

essencial para a satisfatória administração das mesmas, sua identificação

costuma ser possível de forma simples na maioria das instituições, sendo em

muitos casos, armazenada na forma de uma tabela tipo como é o que ocorre

no caso da estrutura de dados adotada pelo SIGA-UFPE.

Quadro 4.2 - Estrutura da tabela siga_tipo_situacao_acacademica

Fonte: O Autor (2016)

Para fins de entendimento do que pode vir a caracterizar a evasão, é

preciso, primeiramente, compreender cada uma das possíveis situações

acadêmicas, nas quais os discentes podem se enquadrar. Para exemplificar,

no experimento conduzido no ambiente do SIGA-UFPE a identificação dos

compreensão dos possíveis tipos de situação acadêmica previstas, com base

nos dados de siga_tipo_situacao_academica, mostrados no Quadro 4.3.

Quadro 4.3 - Conteúdo da tabela siga_tipo_situacao_academica

Fonte: O Autor (2016)

É evidente que podem ocorrer variações nas situações acadêmicas

previstas para cada IFES, no entanto, a compreensão dos principais tipos de

situação acadêmica previstos permite a adaptação da situação para a realidade

de cada instituição. Desta forma, tem-se que, em uma ou mais das situações

acadêmicas adotadas pela instituição residem os casos de evasão que se

deseja extrair para treinamento dos algoritmos. No entanto, a identificação das

situações acadêmicas desejadas depende da compreensão das situações

I. Integralizado - Situação acadêmica que descreve o discente habilitado

para formação, porém que ainda não teve a mesma concretizada, por

razões burocráticas ou acadêmicas da natureza do curso. Não se trata

de uma situação acadêmica final, mas já é possível afirmar que a

mesma não reflete casos de ocorrência de evasão uma vez que os

discentes nela enquadrados estão aptos à formação. As ocorrências de

discentes enquadrados nessa situação acadêmica podem ser utilizadas

para treinamento do perfil dos alunos que não se evadem.

II. Formado - Situação acadêmica que descreve o discente que, não só

está habilitado para formação, mas encontra-se efetivamente formado.

Trata-se de uma situação acadêmica final e garante a não ocorrência de

evasão por parte do discente analisado, tendo este concluído o curso de

forma satisfatória sem configurar um caso de evasão. Os registros

enquadrados nessa situação acadêmica podem ser utilizados para

treinamento do perfil dos discentes que não se evadem.

III. Desvinculado - Situação acadêmica que descreve o discente que

perdeu o vínculo que possuía com a instituição, isto é, configura um

abandono dos estudos, sem registro de trancamentos, transferências ou

aproveitamentos. Trata-se de uma situação acadêmica final e os

discentes enquadrados nessa situação acadêmica podem ser utilizados

IV. Matriculado - Situação acadêmica que descreve o discente que possui

um vínculo ativo e se encontra regularmente matriculado, isto é, está

cursando algum componente curricular12. Não se trata de uma situação

acadêmica final, pois o desfecho da vida acadêmica do discente ainda

está em aberto, podendo este vir a se evadir antes da conclusão do

curso, caracterizando assim um caso de evasão ou concluir o curso

conforme esperado, o que não configuraria evasão. Devido à esta

incerteza quanto a situação final do discente, o perfil dos alunos nessa

situação não deve ser considerado no treinamento dos algoritmos.

V. Matrícula vínculo - Situação acadêmica que descreve o discente que

efetivou uma matrícula especial para fins de manutenção do vínculo com

a instituição, sem a necessidade de estar cursando algum componente

curricular. Geralmente ocorre quando o discente está trabalhando em

algum pré-requisito para conclusão do curso. Não se trata de uma

situação acadêmica final, podendo resultar ou não num caso de evasão.

Por esta razão os registros enquadrados nessa situação não devem ser

considerados para treinamento dos algoritmos.

VI. Trancamento - Situação acadêmica que descreve o discente que

efetivou o trancamento do curso, mantendo pelo período determinado

para trancamento, seu vínculo com a instituição. Não se trata de uma

situação acadêmica final, e ainda existe vínculo entre o discente e a

instituição. Por esta razão, os registros enquadrados nessa situação não

12

devem ser considerados para treinamento dos algoritmos, uma vez que

ainda é incerto se irão resultar na conclusão do curso por parte do

discente ou no abandono do mesmo, o que configuraria evasão.

VII. Transferência interna - Situação acadêmica que descreve o discente

transferido para outro curso dentro da mesma instituição. Não se trata

de uma situação acadêmica final, podendo o discente concluir ou se

evadir do curso para o qual foi transferido. Dentro do escopo da

definição de evasão adotada para este trabalho, que visa o combate à

evasão do ponto de vista geral, identificando os casos de abandono do

ensino superior como um todo e não apenas o abandono de um curso

específico, tem-se que os discentes enquadrados nessa situação

acadêmica não configuram evasão a partir da perspectiva adotada. Por

esta razão, estes registros não foram utilizados para treinamento dos

algoritmos durante a experimentação conduzida. Os mesmos podem ser

facilmente inseridos no conjunto de dados submetidos para treinamento

dos algoritmos, caso seja do interesse de outra instituição que venha a

utilizar a abordagem aqui proposta identificar tais alunos.

VIII. Transferência externa - Situação acadêmica que descreve o discente

transferido para instituições de ensino externas. Mais uma vez, tem-se

que, de acordo com a definição de evasão adotada, esta situação não

configura abandono do ensino superior, apenas troca de instituição.

Como este trabalho está inserido no contexto educacional de uma

Instituição Federal de Ensino Superior e da gestão governamental da

educação superior como um todo, não faria sentido submeter este grupo

que a situação acadêmica em questão indica explicitamente a possível

manutenção dos estudos em outra instituição. Desta forma, tem-se que

o discente não abandonou o ensino superior, apenas a instituição. Assim

como ocorre para a situação anterior, estes dados podem ser facilmente

inseridos no conjunto de dados para treinamento dos algoritmos, caso

seja do interesse de outra instituição que venha a utilizar a abordagem

proposta identificar os discentes que abandonam a mesma.

IX. Jubilado - Situação acadêmica que descreve o discente cujo vínculo foi

interrompido por ter se enquadrado nas regras de jubilamento da

instituição. Trata-se de uma situação acadêmica final e pode ser

interpretada como um caso de abandono do ensino superior, tal como se

propõe a identificar este trabalho. Suas causas são complexas e estão

relacionadas também ao problema da retensão, que pelos motivos

expostos na seção de definição dos objetivos, foi deixado de fora do

escopo deste trabalho. Como não ocorre jubilamento na prática no

âmbito da IFES estudada (UFPE) não há discentes enquadrados nessa

situação acadêmica que possam ser utilizados para treinamento dos

algoritmos. Em IFES que possuam estes dados, os mesmos podem ser

considerados se for do interesse da instituição identificar este grupo de

alunos e atuar para reduzir os casos de jubilamento.

As demais situações acadêmicas não são mencionadas por não serem

relevantes para o caso ou por estarem em desuso no sistema ou mesmo

configurarem apenas situações técnicas para fins de administração do sistema.

Outras situações acadêmicas até são utilizadas, mas são exclusivas dos

estabelecido na etapa de definição dos objetivos, dentre as situações

acadêmicas apresentadas, serão analisadas as que podem ser adotadas como

evidência que configure a evasão. Uma vez identificadas estas situações será

possível extrair os dados desejados para treinamento do perfil dos alunos que

se evadem em comparação aos alunos que não se evadem.

Sendo assim, tem-se que os discentes inseridos nas situações

acadêmicas I, II e III (integralizado, formado e desvinculado) constituem o

conjunto de dados necessários para treinamento dos algoritmos. Por meio dos

discentes inclusos nas situações acadêmicas I e II ter-se-á o conjunto amostral

de indivíduos que não evadiram, concluindo os estudos conforme esperado e

não caracterizando desperdício de recursos investidos em sua formação. Tais

casos podem ser considerados o caminho de sucesso, isto é, o desfecho

esperado. Já a partir dos dados dos discentes enquadrados na situação

acadêmica III é possível traçar o perfil daqueles com tendência à evasão.

Uma vez compreendidas as situações acadêmicas previstas pelo

sistema e identificadas em quais se enquadram os dados necessários para

treinamento e teste dos algoritmos é possível dar início ao processo de

extração dos dados para treinamento e predição. O processo de extração será

norteado pelo filtro que retornará apenas os dados referentes aos discentes

enquadrados nas situações acadêmicas I, II e III. No ambiente SIGA-UPFE,

este filtro ocorre por meio dos dados presentes em siga_situacao_academica

e siga_tipo_situacao_academica, cujas estruturas já foram apresentadas no

Quadro 4.1 e no Quadro 4.2. A melhor maneira de identificar os discentes com situação acadêmica integralizado ou formado (não evadidos) e desvinculado

em siga_situacao_academica, uma vez que essa relação organiza os dados

cronologicamente por meio do período letivo.

É relevante ressaltar que, para aplicação da abordagem proposta no

contexto das demais Instituições Federais de Ensino Superior, é preciso estar

atento para a regra de negócio das mesmas, pois é comum um discente

possuir mais de uma situação acadêmica para o mesmo período letivo. Por

exemplo, um discente que em determinado período letivo tenha assumido a

situação integralizado, estando apto para sua formação e, pouco tempo

depois, dentro do mesmo período letivo, ocorra a formatura do discente e o

mesmo assuma a situação acadêmica formado. Nestes casos, é indispensável

o filtro pela data de definição da situação acadêmica, pois a simples consulta

pela situação acadêmica do período letivo mais recente pode retornar

resultados incorretos. Também é importante atentar para a diferença entre a

data de definição e a data de registro ou última alteração da mesma.

Com a definição do filtro que garante a obtenção apenas das situações

acadêmicas relevantes para o treinamento dos algoritmos, basta agora que os

dados sejam extraídos de maneira compatível com o disponível para os

discentes ingressantes. Para tanto, um novo filtro será aplicado quando da

extração dos dados de treinamento na base do SGA, com o objetivo de agrupar

os discentes por período letivo de ingresso, tal como ocorre para os discentes

ingressantes. Desta forma, tem-se que serão extraídos todos os discentes que

tenham ingressado em determinado período letivo e estejam enquadrados nas

situações acadêmicas equivalentes a I, II e III ou demais situações

Respondida a questão acerca de quais grupos de discentes devem ou

não ser considerados, é preciso agora decidir quais os dados (atributos) dos

discentes que devem ser extraídos, de acordo com os critérios abaixo.

 Todos os atributos devem ser informações cadastrais coletadas pelas

IFES quando do ingresso do discente por meio de algum dos processos

seletivos adotados. Ou seja, nenhum dos atributos propostos deve

depender de algum evento posterior ao ingresso do discente para que

esteja disponível no ambiente acadêmico do qual será extraído.

 Preferencialmente, os atributos devem estar presentes no conjunto de

dados coletado de acordo com o regulamentado após a implementação

do SISU (Sistema de Seleção Unificada), para garantir a compatibilidade

dos dados para todas as Instituições Federais de Ensino Superior.

 Preferencialmente, os atributos devem estar presentes no conjunto de

dados coletado pela instituição antes da implementação do SISU

(Sistema de Seleção Unificada), de forma a tornar possível a inclusão

dos dados dos discentes que ingressaram na IFES antes da unificação.

 Todos os atributos devem possuir alguma hipótese que o relacione com

a ocorrência ou não da evasão. Por exemplo, tem-se que a idade, o

sexo e o curso escolhido podem estar, de alguma forma, relacionados

ao risco de evasão do discente, enquanto o nome da pessoa é um dado

que não apresenta nenhuma relação lógica com a evasão.

Atendidos os critérios acima, optou-se por utilizar todos os dados

possíveis dentre os disponíveis. Em outras palavras, todos os atributos que

do SIGA-UFPE foram extraídos. No total, 16 atributos foram selecionados para

extração conforme é mostrado em detalhes no Quadro 4.4.

Quadro 4.4 - Atributos selecionados para extração

Fonte: O Autor (2016)

É evidente que podem ser registradas pequenas diferenças em relação

à disponibilidade de dados em cada IFES, no entanto, a tendência é que haja

uma convergência destes dados com a implementação do SISU, por esta razão

os atributos aqui escolhidos levam em conta o modelo utilizado pelo SISU e

objetivam a viabilização da construção do perfil do discente que se evade.

Além dos atributos apresentados, havia também a intenção de incluir

entanto, o mesmo foi desconsiderado devido às diversas mudanças ocorridas

no sistema, inclusive em desacordo com o atualmente adotado pelo SISU, e

devido também ao pouco tempo de implementação das cotas, que por serem

um recurso relativamente novo, a maioria dos discentes ingressantes após a

implementação do mesmo ainda não tiveram tempo de se formar.

Analisando um a um os atributos selecionados para extração, conforme

apresentados no Quadro 4.4, é possível compreender a relevância e também

as particularidades de cada um, além das hipóteses que os relacionam com a

possível tendência à evasão, conforme descritas abaixo.

 A001 - Trata-se do CPF do discente e é utilizado apenas para permitir a

identificação do aluno com tendência à evasão, fornecendo assim

subsídios para que ações sejam tomadas por parte da administração.

Por razões óbvias, este dado não será levado em consideração pelos

algoritmos classificadores para a construção do perfil dos discentes,

sendo assim, tem-se que o mesmo é um meta-atributo.

 A002 - Trata-se do sexo do discente, identificado como masculino ou

feminino. A relevância deste atributo advém da hipótese de que

discentes de um terminado sexo tem maior ou menor tendência à

evasão, especialmente se considerado o sexo em conjunto com outros

atributos do mesmo aluno, como o curso escolhido, por exemplo.

 A003 - Trata-se da idade do discente no momento em que o mesmo

ingressa no ensino superior. A relevância deste atributo advém da

mesmo) no momento em que escolhe o curso para ingressar no ensino

superior influencia, de alguma forma, sua tendência à evasão.

 A004 - Trata-se do estado civil do discente, podendo ser classificado

como casado, solteiro ou outros. A relevância deste atributo advém da

hipótese de que as responsabilidades pessoais inerentes ao estado civil

do discente influenciam, de alguma forma, sua tendência à evasão.

 A005 - Trata-se da cor/raça declarado pelo discente. A relevância deste

atributo advém da hipótese de que possa existir alguma relação entre

determinados grupos de discentes e a ocorrência ou não da evasão. É

importante ressaltar que este atributo é de preenchimento opcional,

havendo assim muitos registros com cor/raça não informados.

 A006 - Trata-se do ano no qual o discente concluiu o ensino médio. A

relevância deste atributo advém da hipótese de que possa haver alguma

relação entre a ocorrência ou não da evasão e o intervalo de tempo

entre a conclusão do ensino médio e o ingresso do discente no ensino

Documentos relacionados