4. ABORDAGEM PROPOSTA
4.2 DEFINIÇÃO DOS OBJETIVOS
À luz do que orientam os principais autores da área de Descoberta de
Conhecimento em Bancos de Dados e Mineração de Dados, a abordagem para
Mineração de Dados em Instituições Federais de Ensino Superior aqui
proposta começará com a definição dos seus objetivos. Neste primeiro
momento o foco estará em definir em que consiste a motivação da atividade de
Mineração de Dados, isto é, o que se espera obter como produto final após a
realização das etapas previstas. Uma vez definidos os objetivos será possível a
aplicação da abordagem, de acordo com o que a mesma se propõe a fazer e
de acordo com o escopo traçado para sua atuação.
Conforme visto durante a fundamentação teórica, inúmeras são as
aplicações possíveis para a Mineração de Dados. Desde a livre exploração em
busca do conhecimento escondido nos dados e não previsto anteriormente por
nenhuma hipótese, até a confirmação de teorias já formuladas com base no
conhecimento prévio que se tem acerca de determinado aspecto dos dados.
Esta escolha depende muito do contexto no qual está inserido o negócio e a
análise deste contexto é, inclusive, prática recomendada pelas principais
metodologias para MD sendo o que defende, por exemplo, a CRISP-DM. Por
esta razão, este trabalho foi conduzido de forma a promover, primeiramente, o
estudo do cenário onde a MD iria ocorrer para só depois definir os objetivos.
Sendo assim, após o estudo conduzido, também na etapa de
fundamentação teórica, acerca do contexto educacional no qual estão inseridas
problemas que poderiam ser abordados por meio das possibilidades e recursos
que a Mineração de Dados oferece. Uma vez que, após a etapa inicial de
compreensão do negócio, já foi possível a identificação de questões de
interesse para a mineração, faz mais sentido tratar primeiro as hipóteses já
existentes, explorando a informação que já se possui antes de partir para uma
abordagem que vise a descoberta de novas informações ou padrões.
Por esta razão, este trabalho adotará como objetivo para o processo de
Mineração de Dados proposto o tratamento de questões já conhecidas no meio
educacional e que são tidas, conforme já justificado na fundamentação teórica,
como problemas importantes e de grande impacto para o sucesso da educação
superior no país e, por consequência, de grande relevância, também, para a
administração das IFES. É importante lembrar que a oferta de instrumentos
que forneçam subsídios de forma a contribuir com a melhoria da gestão
administrativa das IFES é um dos objetivos a que se propõe este trabalho.
Desta forma, adotou-se como alternativa para definição do objetivo da
tarefa de MD aqui proposta, um aspecto que se mostrou recorrente durante a
pesquisa conduzida, revelando sua importância para a administração e
também o forte apelo econômico embutido. Trata-se da evasão, caracterizada
como o abandono do curso por parte do discente antes de sua conclusão, sem
constituir trancamento do mesmo, caracterizando não aproveitamento dos
recursos investidos para manter o discente durante o período em que esteve
ativo e sem a concretização da formação do mesmo, ou seja, sem a
O problema da evasão tem sua importância reforçada devido ao fato de
que, na área educacional, naturalmente, os recursos investidos visam à
formação do discente do ponto de vista individual e à qualificação da
população, do ponto de vista global. A evasão prejudica estes objetivos nas
duas perspectivas citadas e configura um desperdício do dinheiro investido na
formação do discente, que no contexto no qual está inserido o projeto de
Mineração de Dados proposto neste trabalho, apresenta como agravante o fato
de que os recursos são, na verdade, recursos públicos provenientes de verbas
educacionais fornecidas pela União e financiadas pelos contribuintes.
Fica claro que a evasão representa um importante problema da
educação, conforme comprovam as pesquisas sobre o tema (LOBO, 2012).
Apesar de se tratar de um problema bastante conhecido, ainda não há uma
estratégia de ação instituída para tratar estes casos logo no momento do
ingresso do discente na instituição. O que se observa é que a maioria das
pesquisas, conforme constatado durante a etapa de fundamentação teórica
deste trabalho, possui como objetivo central a apresentação de números que
revelem o panorama atual no que diz respeito a evasão ou retensão nas
universidades. Outro grupo mais específico até emprega recursos da
Mineração de Dados para prevenção da evasão, porém não oferece subsídios
para discentes ingressantes, pois usa informações do histórico acadêmico do
aluno, só disponíveis após certo momento do curso.
Ocorre que, a simples apresentação dos dados estatísticos acerca do
problema, apesar de mostrar preocupação com o tema e contribuir para o
entendimento do mesmo, não é capaz de, por conta própria, evitar que o
Mineração de Dados para predição da evasão utilizando dados de histórico
acadêmico do discente, apesar de constituírem uma evolução na solução do
problema, não oferecem condições de identificar o risco de evasão já no
momento do ingresso do aluno, não oferecendo, muitas vezes, um intervalo de
tempo suficiente para ações de acompanhamento que poderiam ser propostas
pela administração da instituição de ensino para tratamento da evasão.
Desta forma, conhecendo o problema da evasão e os prejuízos que ela
causa para o ensino superior brasileiro e partindo do princípio de que a
administração precisa de tempo suficiente para propor ações que visem o
tratamento eficiente da evasão, este trabalho busca aplicar a Mineração de
Dados com o objetivo de identificar, a partir das informações fornecidas pelos
alunos ingressos nas Instituições Federais de Ensino Superior padrões nos
dados que revelem uma tendência para evasão para, desta forma, construir um
modelo de classificação, a partir do treinamento de algoritmos de Mineração de
Dados específicos para esse fim, que seja capaz de predizer casos de evasão.
O modelo treinado com dados de alunos ingressos em períodos letivos
anteriores poderia, então, ser aplicado para classificação dos casos futuros de
evasão, sempre com base nos dados socioeconômicos disponíveis.
Sendo assim, este trabalho não se limita à aplicação de tarefas de Data
Mining descritivas visando à identificação das causas da evasão. O objetivo proposto é atuar de forma proativa, por meio da predição de casos futuros para
que os mesmos possam ser tratados com antecedência suficiente pela
administração, de forma a melhorar sua atuação e otimizar os recursos
Em suma, tem-se que este trabalho se propõe a apresentar uma
abordagem de Mineração de Dados eficiente para predição da evasão, por
meio da classificação de amostras futuras, incluindo uma análise que forneça
subsídios para escolha dos algoritmos com melhores índices de acerto e dos
atributos dos dados que mais contribuem para a classificação correta. Estes
fatores influenciam na etapa de treinamento dos algoritmos e, somados à
escolha do próprio algoritmo, contribuem para o sucesso ou fracasso da tarefa
de predição possibilitada pela atividade de mineração.
Para permitir a concretização dos objetivos aqui selecionados é preciso
estabelecer uma definição capaz de delinear o que configura a evasão, tanto
do ponto de vista técnico, como também do ponto de vista da organização
administrativa e acadêmica das Instituições Federais de Ensino Superior. Esta
definição compõe a abordagem proposta e é essencial para a identificação,
extração e tratamento dos registros para treinamento dos algoritmos de
classificação. Para tanto, é levado em conta a definição obtida por meio do
estudo da estrutura de dados do ambiente escolhido para prova de conceito, ou
seja, a base de dados do Sistema de Informação e Gestão Acadêmica (SIGA)
da Universidade Federal de Pernambuco (UFPE) e da própria regra de negócio
que estabelece o que configura a evasão segundo diretrizes do MEC, adotando
a definição que mais contribui para os objetivos do trabalho.
Sendo assim, tem-se que, a evasão, conforme define sua regra de
negócio é caracterizada quando o discente que, sem a concretização da
conclusão do curso, ou sem o explícito trancamento do mesmo, esteja sem
vínculo ativo com a instituição, em outras palavras, sem matrícula efetivada
organizacional dos Sistemas de Gestão Acadêmica das Instituições Federais
de Ensino Superior e a estrutura de dados comumente observada nas bases
de dados destes sistemas, a evasão é identificada por meio da consulta da
última situação acadêmica do discente no período letivo atual. Situações
acadêmicas que revelem a perda do vínculo do discente sem a formação do
mesmo caracterizam os casos de evasão. Mais detalhes sobre a organização
dos dados e estrutura informacional serão vistos mais adiante.
No entanto, para fins de delimitação do escopo e à luz do que dizem as
definições apresentadas para a evasão serão considerados evadidos alunos
que tenham abandonado o ensino superior, excetuando quaisquer outras
situações que configurem, por exemplo, transferência para outras instituições,
desistência do curso (abandonar o curso antes de começar a cursar o mesmo),
mudança de curso e outros casos específicos. A razão da adoção dessa
definição restritiva para a evasão é permitir o tratamento do problema a partir
da perspectiva mais relevante para o panorama da educação superior no país.
Em outras palavras, tem-se que o objetivo é a identificação dos discentes que
realmente desistiram do ensino superior, abandonando efetivamente os
estudos e contrariando o objetivo dos recursos investidos durante a sua
permanência, isto é, a satisfatória formação do indivíduo no nível superior.
Outra delimitação de escopo proposta para atividade de Mineração de
Dados diz respeito à utilização de dados com base na disponibilidade de
informações acerca dos discentes que ingressam nas IFES. Desta forma, tem-
se como principal diferencial da pesquisa aqui proposta a apresentação de uma
abordagem que ofereça bons resultados preditivos utilizando apenas dados
Superior, sem a utilização de dados relativos ao histórico acadêmico do
discente, uma vez que estes dados, apesar de valiosos, exigem uma longa
espera até que o discente venha a cursar, no mínimo, os períodos letivos
iniciais, para só então produzir suficientes dados acadêmicos acerca do seu
desempenho nas disciplinas cursadas, reprovações, faltas, repetências,
quantidade de disciplinas cursadas em cada período entre outros dados.
Para que esta abordagem seja possível, serão utilizados os dados de
alunos ingressos a cada período letivo e, a partir destes, será extraída uma
série de informações sobre os alunos que, tendo ingressado no período letivo
especificado hoje se encontrem formados ou evadidos. Quando se contrasta as
informações do total de alunos ingressos em determinado período com os que,
tendo entrando no mesmo período, tenham se formado ou se evadido, é
possível identificar os casos de alunos retidos. São aqueles que não
apresentaram perda de vínculo com a instituição, ou seja, não configuram
evasão, no entanto, também não se formaram. Em outras palavras, estão
levando mais tempo que o esperado ou estabelecido para a conclusão do
curso, configurando, assim, casos de retenção.
É importante esclarecer que, no escopo deste trabalho, optou-se por não
incluir a predição da retenção, ainda que o tratamento deste cenário possa ser
facilmente inserido no escopo da abordagem proposta, uma vez que na etapa
de compreensão e extração dos dados, serão fornecidos subsídios para
inclusão desta situação. Ocorre que, a retenção costuma ser tratada em
trabalhos que utilizam dados do histórico acadêmico dos discentes
Afinal, uma vez que o algoritmo identifica rendimento acadêmico abaixo do
esperado, é fácil associar este padrão com a ocorrência da retenção.
Além disso, para fins de relevância, do ponto de vista dos desafios
enfrentados nas Instituições Federais de Ensino Superior, de acordo com as
informações levantadas na etapa de fundamentação teórica deste trabalho, foi
possível observar que a evasão configura situação muito mais grave do que a
eventual retenção (LOBO, 2012). Isto se dá, principalmente, pelo fato de que,
enquanto a evasão é um fator definitivo, a retenção possui graus de impacto de
acordo com o tempo que o discente passa retido na instituição.
Desta forma, percebendo a instituição prejuízo por conta da retenção de
um número considerável de alunos por um período prolongado de tempo,
poderá a mesma atuar por meio do instrumento de jubilamento, caso este
esteja em prática na referida instituição. Ocorre que, a abordagem aqui
proposta também busca como forma de validação a oferta de subsídios
valiosos para o ambiente no qual os experimentos serão conduzidos, no caso a
UFPE. No entanto, como esta instituição não aplica o jubilamento na prática
atualmente, a relevância de sua identificação neste trabalho é ainda menor.
Ainda assim, apesar de não inserido no escopo desta pesquisa pelas
razões aqui expostas, para preservar a abrangência da abordagem proposta,
todas as etapas serão conduzidas de forma que, quando contrastadas as
informações do total de alunos ingressos em determinado período letivo com
os que, tendo entrando no mesmo período, já estejam formados ou evadidos,
seja possível identificar os casos que configuram retenção, bastando levar em
possível incluir este grupo de discentes na análise, conforme os objetivos da
IFES onde a tarefa de MD proposta esteja sendo conduzida.
É importante ressaltar que, apesar de definidos aqui os objetivos da
atividade de Mineração de Dados proposta e justificadas as delimitações
adotadas quanto ao escopo do projeto e às estratégias utilizadas para
construção da solução proposta, outras delimitações de escopo ainda devem
ocorrer ao longo da apresentação da abordagem. Por exemplo, mais detalhes
acerca dos dados selecionados, estratégias para extração, ferramentas para a
aplicação dos algoritmos e outras questões serão apresentadas ao longo das
seções seguintes, conforme o desenvolvimento do projeto.