5. RESULTADOS
5.7 ANÁLISE DOS RESULTADOS
Foram propostos cinco experimentos com o objetivo de avaliar o
desejada, isto é, a identificação da evasão por meio da utilização apenas de
dados disponíveis para os discentes ingressantes. Os experimentos propostos
buscaram cobrir uma variedade de cenários e utilizaram técnicas de
amostragem diferentes para validar os resultados para cada cenário.
O primeiro experimento propôs a verificação da viabilidade da
abordagem em um cenário critico, com um número reduzido de registros
disponíveis para treinamento e teste dos algoritmos. Para tanto, um único
conjunto de dados de discentes ingressos em um único ano letivo foi dividido
em subconjuntos para treinamento e teste. O segundo experimento foi proposto
com o objetivo de verificar os resultados obtidos no primeiro. Para tanto, o
mesmo cenário foi utilizado, porém com uma técnica de amostragem distinta.
O cenário que compreende o primeiro e o segundo experimento é
considerado crítico devido à quantidade reduzida de dados utilizados. Em
ambos os experimentos o algoritmo Naive Bayes apresentou os melhores
resultados, oferecendo 72,3% de acurácia de classificação e 66,3% de
precisão de identificação dos casos de evasão no primeiro experimento. No
segundo experimento, que utiliza uma técnica de amostragem diferente, os
números foram muito próximos do primeiro: 71% e 65%, respectivamente.
O terceiro experimento proposto, por sua vez, utiliza um conjunto de
dados maior, porém, nele também ocorre segregação de um mesmo conjunto
de registros em subconjuntos para treinamento e teste. O quarto experimento
foi proposto com o objetivo de verificar os resultados obtidos no terceiro: o
De uma forma geral, a acurácia de classificação obtida no terceiro e no quarto
experimento foi similar ao que foi obtido nos dois primeiros experimentos.
Assim como nos experimentos anteriores, mais uma vez obtiveram
destaque os algoritmos Naive Bayes e Logistic Regression. Ambos ofereceram
uma acurácia de classificação superior a 70%, desta vez, no entanto, o Logistic
Regression ofereceu resultados ligeiramente melhores que o Naive Bayes. No terceiro experimento proposto ele obteve 72% de acurácia de classificação e
71,6% de precisão de identificação da evasão. No quarto experimento os
números foram 71,3% e 69,7%, respectivamente.
Figura 5.1 - Resumo do desempenho dos algoritmos
Fonte: O Autor (2016)
Por fim, o quinto experimento proposto buscou reproduzir um cenário
bastante próximo da realidade: o conjunto de discentes ingressantes no
período letivo mais recente dentre os extraídos foi reservado para predição e
os dados dos discentes ingressantes nos períodos letivos anteriores foram
utilizados para treinamento dos algoritmos. Neste cenário também obtiveram
destaque os algoritmos Naive Bayes e Logistict Regression. A surpresa, no
significativa melhora nos seus índices, passando a oferecer, também, uma
acurácia maior que 70%. Ainda assim, conforme é possível constatar por meio
da Figura 5.1, os algoritmos Naive Bayes e Logistic Regression ofereceram
bons índices e acurácia de classificação consistente em todos os cenários.
5.8 CONSIDERAÇÕES FINAIS
Neste capítulo foram apresentados os resultados obtidos por meio da
aplicação da abordagem proposta no ambiente selecionado para teste e
validação. Esta é a ultima etapa da abordagem, e compreende a validação da
mesma, por meio da análise dos resultados. O objetivo é verificar se os
algoritmos estão sendo capazes de oferecer uma classificação adequada e
eficiente, com base nos dados coletados no ambiente das IFES.
Para tanto, neste capítulo foram apresentados e discutidos os resultados
obtidos, comparando, inclusive, o desempenho de cada algoritmo em cenários
específicos. Os resultados mostraram que os algoritmos Naive Bayes e Logistic
Regression apresentaram resultados consistentes em todos os cenários propostos. O algoritmo Classification Tree também obteve destaque para
cenários com ampla disponibilidade de dados para treinamento.
De uma forma geral, a acurácia de classificação superior a 70%
observada durante os experimentos aponta para a viabilidade da abordagem
proposta, com destaque para o desempenho dos algoritmos Naive Bayes,
Logistic Regression e Classification Tree. Mais detalhes acerca do desempenho da abordagem apresentada, contribuições, limitações e propostas
6. CONCLUSÕES
Este capítulo foca na apresentação das conclusões e considerações
6.1 CONTRIBUÍÇÕES
Neste trabalho foram apresentados e discutidos conceitos relacionados
à Mineração de Dados e ao ambiente escolhido para aplicação da abordagem
proposta. Foi mostrado o cenário atual da educação superior no país e como a
evasão configura um preocupante problema, para a qualidade da educação no
Brasil, para a realização pessoal dos discentes e, especialmente, para a
eficiência administrativa das Instituições Federais de Ensino Superior (IFES).
Em seguida, foi apresentado o estado da arte no âmbito da Mineração
de Dados: como surgiu, como se consolidou e quais são as mais modernas
técnicas e abordagens utilizadas atualmente. Algumas metodologias existentes
foram abordadas para servir de base para a composição da abordagem
proposta, que foi sugerida com especial atenção às etapas de estudo do
negócio, estudo da estrutura dos dados, identificação e extração dos dados,
preparação e transformação dos dados, aplicação do modelo de mineração e
avaliação dos resultados obtidos para validação da abordagem.
O escopo da abordagem proposta foi decidido com base nos objetivos
definidos para a mesma, de acordo com o estudo conduzido durante a etapa
de fundamentação teórica. A abordagem apresentada é especialmente
relevante por propor uma solução para identificação de estudantes propensos à
evasão já a partir do momento do ingresso dos discentes nas IFES. Não são
utilizados dados referentes ao histórico acadêmico dos discentes, permitindo
assim maior agilidade na identificação da evasão e oferecendo, desta forma,
Durante a definição da abordagem, as principais contribuições
apresentadas residem em dois pontos complementares entre si:
O estudo e compreensão das regras de negócio, estrutura de dados e
particularidades do ambiente das IFES, o que permitiu a seleção dos
atributos para submissão aos algoritmos classificadores e;
A análise comparativa do desempenho obtido por meio da aplicação dos
algoritmos classificadores nos dados selecionados, o que permitiu tanto
a verificação da viabilidade da abordagem proposta com base nos
atributos selecionados, como também a identificação dos algoritmos que
oferecem o melhor desempenho para cada cenário.
Os dois pontos acima citados são essenciais para a construção da
abordagem proposta e constituem as principais contribuições do ponto de vista
da eficiência do método de ação proposto para a atividade de Mineração de
Dados em Instituições Federais de Ensino Superior, objetivando a identificação
da evasão de discentes ingressantes na mesma. Outra contribuição relevante
diz respeito à seleção das ferramentas e condução do processo de MD no
ambiente especificado, aplicando as ferramentas e técnicas escolhidas.
6.2 LIMITAÇÕES
Do ponto de vista técnico, este projeto enfrentou algumas limitações,
além das definidas conforme o escopo da abordagem proposta. Um dos
principais problemas encontrados durante a condução da pesquisa diz respeito
à disponibilidade das informações acerca dos discentes. Devido à proposta de
momento de ingresso do discente na instituição, foi preciso reunir um conjunto
de atributos acerca dos discentes que fosse suficiente para o sucesso da
atividade de classificação dos algoritmos.
Ocorre que, as informações coletadas pelas IFES acerca dos discentes
ingressantes passaram por frequentes alterações no decorrer dos anos. Muitos
dados valiosos não estavam disponíveis para o intervalo de tempo necessário.
Por exemplo, informações acerca das cotas utilizadas pelos estudantes para
ingresso na instituição só estavam disponíveis para discentes que ingressaram
nos períodos letivos mais recentes. Ou seja, para alguns cursos, não houve
nem sequer tempo hábil para formação daquele discente. Por esta razão, estes
valiosos dados não puderem ser considerados.
Fica evidente que a busca por dados consistentes e comuns às outras
instituições, limitou bastante o número de atributos utilizados. Outras
imposições de natureza similar foram encontradas devido às limitações na
estrutura de dados da IFES na qual os experimentos foram conduzidos.
Nenhuma das restrições apresentadas, no entanto, prejudicou de forma
relevante o desenvolvimento e a validação da abordagem proposta.
6.3 CONSIDERAÇÕES FINAIS
Os resultados obtidos mostram que a abordagem proposta é capaz de
fornecer alguns indicativos preliminares acerca do risco de evasão dos
discentes ingressos nas IFES. Os atributos selecionados provaram ser capazes
de fornecer índices de acurácia de classificação de até 73,9% no cenário mais
pouco abaixo dos apresentados pelos trabalhos que levam em consideração os
dados do histórico acadêmico do discente, uma vez que estes conseguem
índices que chegam a 80% de acurácia de classificação (MANHÃES, 2015).
Este desempenho é justificável e totalmente compreensível. Ocorre que,
os dados relativos ao desempenho acadêmico do discente, que só são
construídos com o decorrer da vida acadêmica do mesmo na instituição,
possuem um significativo valor na identificação da ocorrência da evasão. O
abandono do ensino superior como um todo costuma ter início com o abandono
de determinadas disciplinas (LOBO, 2012). Desta forma, uma abordagem de
Mineração de Dados que utilize dados do histórico acadêmico do discente
poderá identificar as faltas nas disciplinas cursadas e associá-las, com
bastante precisão, à ocorrência da evasão no semestre seguinte.
Outra abordagem possível seria identificar um desempenho acadêmico
insatisfatório que revele desinteresse do discente pelo curso. Esta informação é
especialmente valiosa quando o baixo desempenho é registrado para uma
disciplina importante para o curso (MANHÃES, 2015). A utilização de atributos
desta natureza, disponíveis apenas quando considerados os dados do histórico
acadêmico do discente, constituem uma vantagem enorme na precisão obtida
durante a classificação dos registros pelos algoritmos.
Ainda assim, os índices de acurácia de classificação e precisão de
identificação da evasão obtidos apenas com a utilização de dados disponíveis
quando do ingresso do discente na instituição, são suficientes para oferecer
uma identificação preliminar do risco de evasão. Esta identificação preliminar
oferecer subsídios para a administração das IFES tomarem providências com
grande tempo hábil disponível acerca dos discentes que estejam ingressando
na instituição e apresentem tendência à evasão.
Desta forma, tem-se que, a abordagem aqui apresentada não substitui,
mas complementa, outras abordagens que utilizam dados do histórico
acadêmico do discente. A recomendação final é que a abordagem proposta
seja utilizada quando do ingresso do discente, para identificar aqueles com
tendência à evasão e incluí-los, desde já, em algum programa de prevenção e
acompanhamento. No decorrer da vida acadêmica dos discentes, as demais
abordagens que utilizam dados do histórico acadêmico dos mesmos poderiam
ser utilizadas, semestre a semestre, para confirmar ou não a ocorrência da
evasão e identificar novos discentes que, apesar de não possuírem um perfil
que revele tendência à evasão, possuem um histórico acadêmico que denuncia
algum risco de abandono dos estudos.
Como conclusão, tem-se que, é válida a utilização da abordagem
proposta para identificação dos casos de evasão, uma vez que a referida
abordagem se apresenta como mais uma alternativa para auxiliar as
instituições no combate à evasão no ensino superior. Seu uso é oportuno,
principalmente, pois trata-se de uma abordagem capaz de fornecer um
indicativo do risco de evasão logo no início da vida acadêmica do discente,
dando às IFES mais tempo para agir, se comparado a outras abordagens que
utilizam dados acadêmicos variantes no tempo. Para melhores resultados, a
utilização da abordagem proposta é recomendada em complemento à
utilização de outras abordagens que ofereçam uma maior precisão na
forma será possível o acompanhamento da evasão já no momento de ingresso
do discente e, semestre a semestre, conforme os períodos letivos cursados.
6.4 TRABALHOS FUTUROS
Neste trabalho foi proposta uma abordagem para Mineração de Dados
visando à identificação prévia de discentes com risco de evasão usando
apenas dados disponíveis a partir do momento do ingresso do estudante, com
ênfase nas particularidades inerentes ao ambiente das Instituições Federais de
Ensino Superior. Após a avaliação dos experimentos conduzidos, a abordagem
apresentada mostrou resultados satisfatórios.
Em complemento ao apresentado, propõe-se o desenvolvimento de um
sistema de alertas, tal como o proposto por (KAMPFF, 2009) para sistemas
baseados em Ambientes Virtuais de Aprendizagem (AVA), no âmbito da
Educação a Distância (EaD). Apesar da abordagem proposta ter sido pensada
para os cursos presenciais ofertados pelas IFES, nada impede que um sistema
computacional de alertas seja desenvolvido para atuar por meio dos Sistemas
de Gestão Acadêmica (SGA) utilizados pelas instituições.
O ideal seria que o sistema de alertas funcionasse de forma incorporada
ao SGA da instituição, fornecendo alertas quando da importação dos dados
dos discentes ingressantes, identificando aqueles com elevado risco de
evasão. O sistema de alertas deverá se basear nos dados obtidos por meio da
aplicação da abordagem aqui proposta. Desta forma, a administração da IFES
discentes incluídos nos grupos de risco. A principal vantagem seria a extensão
REFERÊNCIAS
BAKER, Ryan; ISOTANI, Seiji; CARVALHO, Adriana. Mineração de Dados Educacionais: oportunidades para o Brasil. Revista Brasileira de Informática na Educação, [S.l.], v. 19, n. 2. p. 2-13, 2011.
BALA SUNDAR V; DEVI, T; SARAVANAN, N. Development of a data clustering algorithm for predicting heart. International Journal Of Computer
Applications, [S.l.], v. 48, n. 7, p.8-13, jun. 2012.
BEMFICA, Flávia. Participação das IES privadas cresceu 73% em uma década. Jornal Extra Classe, [S.l.], 2014. Disponível em:
<http://www.extraclasse.org.br/exclusivoweb/2014/04/participacao-das-ies- privadas-cresceu-73-em-uma-decada/>. Acesso em: 06 jun. 2015.
CARVALHO, Rosângela et al. Integração entre o sistema de gestão acadêmica e o sistema de gestão da aprendizagem. Revista Brasileira de Computação Aplicada, Passo Fundo, v. 4, n. 1, p.81-91, mar 2012.
CHAPMAN, Pete et al. CRISP-DM: Step-by-step data mining guide.The Modeling Agency, [S.l.], 2000. Disponível em: <https://the-modeling- agency.com/crisp-dm.pdf>. Acesso em: 08 jun. 2015.
CHIAVENATO, Idalberto. Recursos humanos na empresa: pessoas, organizações e sistemas. 3.ed. São Paulo: Atlas, 1994.
CÔRTES, Sérgio; PORCARO, Rosa; LIFSCHITZ, Sérgio. Mineração de Dados: funcionalidades, técnicas e abordagens. 2002. Trabalho de Conclusão de Curso-(Graduação). PUC-RIO, Rio de Janeiro, 2002.
DIAS, Maria Madalena. Um modelo de formalização do processo de
desenvolvimento de sistemas de descoberta de conhecimento em banco de dados. 2001. Tese-(Doutorado). UFSC, Florianópolis, 2001.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data Mining to Knowledge Discovery in Databases. AI Magazine, [S.l.], v. 17, n. 3, p.37-54. 1996.
GARG, Sumit; SHARMA, Arvind. Comparative analysis of various Data Mining techniques on educational datasets. International Journal of Computer Applications, [S.l.], v. 74, n. 5, p.1-5, jul. 2013.
HAN, Jiawei; KAMBER, Micheline; PEI, Jian. Data Mining: concepts and techniques. 3.ed. Waltham: Elsevier, 2011.
INEP, Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Matrículas no ensino superior crescem 3,8%. Portal INEP, [S.l.], 2014. Disponível em: <http://portal.inep.gov.br/visualizar/-
/asset_publisher/6AhJ/content/matriculas-no-ensino-superior-crescem-3-8>. Acesso em: 08 jun. 2015.
KAMPFF, Adriana. Mineração de Dados Educacionais para geração de alertas em ambientes virtuais de aprendizagem como apoio à prática docente. 2009. Tese-(Doutorado). UFRS, Porto Alegre, 2009.
KDNUGGETS. What main methodology are you using for your analytics, data mining, or data science projects? KDNUGGETS, [S.l.], 2014. Disponível em: <http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science- methodology.html>. Acesso em: 05 set. 2015.
LEHER, Roberto. Universidade no Brasil e na América Latina: tensões e
contradições entre o público e o privado. Revista Brasileira de Educação, Rio de Janeiro, v. 12, n. 34, p. 171-177, abr. 2007.
LOBO, Maria Beatriz. Panorama da evasão no ensino superior brasileiro: aspectos gerais das causas e soluções. ABMES Cadernos, Brasília, n. 25, p. 9-58. 2012.
MACHADO, Roger et al. Estudo bibliométrico em Mineração de Dados e
evasão escolar. In: CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO, 11., 2015, Rio de Janeiro. [Trabalho apresentado]... Rio de Janeiro: [s.n.], 2015.
MAGALHÃES, Elizete et al. Custo do ensino de graduação em instituições federais de ensino superior: o caso da Universidade Federal de Viçosa. Revista de Administração Pública, Rio de Janeiro, n. 44, p.637-666, maio/jun. 2010.
MANHÃES, Laci. Predição do desempenho acadêmico de graduandos utilizando Mineração de Dados Educacionais. 2015. Tese-(Doutorado). UFRJ, Rio de Janeiro, 2015.
MEC, Ministério da Educação; INEP, Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Censo da Educação Superior 2012: resumo técnico. 138 p. Brasília, 2014.
MEC, Ministério da Educação. Documento orientador para superação da evasão e retenção na rede federal de educação profissional, científica e tecnológica. Brasília, 2014.
MEC, Ministério da Educação. Diplomação, retenção e evasão nos cursos de Instituições de Ensino Superior Públicas. Brasília, 1997.
MENEZES, Ebenezer; SANTOS, Thais. Instituições Federais de Ensino
Superior (verbete). Dicionário Interativo da Educação Brasileira. São Paulo: Midiamix Editora, 2002.
ORANGE. Online Documentation. Disponível em: <http://docs.orange.biolab.si/>. Acesso em: 05 fev. 2016.
POCHMANN, Márcio. O mito da grande classe média: capitalismo e estrutura social. São Paulo: Boitempo Editorial, 2014.
PUSHPANJALI; NAYAKI, Jyothi. An efficient way for Data Mining via overlay- based networking for enhanced service. International Journal of Computer Applications, [S.l.], v. 123, n. 16, p.24-30, ago. 2015.
RAMAGERI, Bharati. Data Mining techniques and applications. Indian Journal of Computer Science, [S.l.], v. 1, n. 4, p.301-305, jan. 2011.
RIGO, José; CAZELLA, Silvio; CAMBRUZZI, Wagner ; Minerando Dados Educacionais com foco na evasão escolar: oportunidades, desafios e
necessidades. In: WORKSHOP DE DESAFIOS DA COMPUTAÇÃO APLICADA À EDUCAÇÃO,1., 2012, Curitiba. [Trabalho apresentado]... Curitiba: [s.n.], 2012.
SAMPAIO, Helena. O setor privado de ensino superior no Brasil: continuidades e transformações. Revista Ensino Superior, 2011. Disponível em:
<https://www.revistaensinosuperior.gr.unicamp.br/artigos/o-setor-privado-de- ensino-superior-no-brasil-continuidades-e-transformacoes>. Acesso em: 14 out. 2015.
SANTOS, Luís Paulo. Uma contribuição à discussão sobre a avaliação de desempenho das Instituições Federais de Ensino Superior: uma abordagem da gestão econômica. Revista Contabilidade & Finanças, São Paulo, n. 28, p.86-99, jan/abr. 2002.
SANTOS, Ramon; SIEBRA, Clauirton; OLIVEIRA, Estêvão. Uma abordagem genérica de identificação precoce de estudantes com risco de evasão em um AVA utilizando técnicas de Mineração de Dados. In: CONFERÊNCIA
INTERNACIONAL SOBRE INFORMÁTICA NA EDUCAÇÃO, 19., 2014, Fortaleza. [Trabalho apresentado]... Fortaleza: [s.n.], 2014.
TOKARNIA, Mariana. Censo revela crescimento do número de matrículas no ensino superior em 2012. Agência Brasil, 2013. Disponível em:
<http://memoria.ebc.com.br/agenciabrasil/noticia/2013-09-17/atualizada-censo- revela-crescimento-do-numero-de-matriculas-no-ensino-superior-em-2012>. Acesso em: 06 set. 2015.
WAHBEH, Abdullah et al. A comparison study between Data Mining tools over some classification methods. International Journal Of Advanced Computer Science And Applications: Special Issue on Artificial Intelligence, [S.l.], p. 18-26. 2011.
ZAKI, Mohammed. WONG, Limsoon. Data Mining Techniques. WSPC/Lecture Notes Series. [S.l.], 2003.
ZANDBERGEN, Paul. Data Warehousing and Data Mining: information for Business Intelligence. Study. Disponível em:
<http://study.com/academy/lesson/data-warehousing-and-data-mining- information-for-business-intelligence.html>. Acesso em: 20 nov. 2015