ANÁLISE DOS RESULTADOS - Mineração de dados aplicada à classificação do risco de evasão de disc

5. RESULTADOS

5.7 ANÁLISE DOS RESULTADOS

Foram propostos cinco experimentos com o objetivo de avaliar o

desejada, isto é, a identificação da evasão por meio da utilização apenas de

dados disponíveis para os discentes ingressantes. Os experimentos propostos

buscaram cobrir uma variedade de cenários e utilizaram técnicas de

amostragem diferentes para validar os resultados para cada cenário.

O primeiro experimento propôs a verificação da viabilidade da

abordagem em um cenário critico, com um número reduzido de registros

disponíveis para treinamento e teste dos algoritmos. Para tanto, um único

conjunto de dados de discentes ingressos em um único ano letivo foi dividido

em subconjuntos para treinamento e teste. O segundo experimento foi proposto

com o objetivo de verificar os resultados obtidos no primeiro. Para tanto, o

mesmo cenário foi utilizado, porém com uma técnica de amostragem distinta.

O cenário que compreende o primeiro e o segundo experimento é

considerado crítico devido à quantidade reduzida de dados utilizados. Em

ambos os experimentos o algoritmo Naive Bayes apresentou os melhores

resultados, oferecendo 72,3% de acurácia de classificação e 66,3% de

precisão de identificação dos casos de evasão no primeiro experimento. No

segundo experimento, que utiliza uma técnica de amostragem diferente, os

números foram muito próximos do primeiro: 71% e 65%, respectivamente.

O terceiro experimento proposto, por sua vez, utiliza um conjunto de

dados maior, porém, nele também ocorre segregação de um mesmo conjunto

de registros em subconjuntos para treinamento e teste. O quarto experimento

foi proposto com o objetivo de verificar os resultados obtidos no terceiro: o

De uma forma geral, a acurácia de classificação obtida no terceiro e no quarto

experimento foi similar ao que foi obtido nos dois primeiros experimentos.

Assim como nos experimentos anteriores, mais uma vez obtiveram

destaque os algoritmos Naive Bayes e Logistic Regression. Ambos ofereceram

uma acurácia de classificação superior a 70%, desta vez, no entanto, o Logistic

Regression ofereceu resultados ligeiramente melhores que o Naive Bayes. No terceiro experimento proposto ele obteve 72% de acurácia de classificação e

71,6% de precisão de identificação da evasão. No quarto experimento os

números foram 71,3% e 69,7%, respectivamente.

Figura 5.1 - Resumo do desempenho dos algoritmos

Fonte: O Autor (2016)

Por fim, o quinto experimento proposto buscou reproduzir um cenário

bastante próximo da realidade: o conjunto de discentes ingressantes no

período letivo mais recente dentre os extraídos foi reservado para predição e

os dados dos discentes ingressantes nos períodos letivos anteriores foram

utilizados para treinamento dos algoritmos. Neste cenário também obtiveram

destaque os algoritmos Naive Bayes e Logistict Regression. A surpresa, no

significativa melhora nos seus índices, passando a oferecer, também, uma

acurácia maior que 70%. Ainda assim, conforme é possível constatar por meio

da Figura 5.1, os algoritmos Naive Bayes e Logistic Regression ofereceram

bons índices e acurácia de classificação consistente em todos os cenários.

5.8 CONSIDERAÇÕES FINAIS

Neste capítulo foram apresentados os resultados obtidos por meio da

aplicação da abordagem proposta no ambiente selecionado para teste e

validação. Esta é a ultima etapa da abordagem, e compreende a validação da

mesma, por meio da análise dos resultados. O objetivo é verificar se os

algoritmos estão sendo capazes de oferecer uma classificação adequada e

eficiente, com base nos dados coletados no ambiente das IFES.

Para tanto, neste capítulo foram apresentados e discutidos os resultados

obtidos, comparando, inclusive, o desempenho de cada algoritmo em cenários

específicos. Os resultados mostraram que os algoritmos Naive Bayes e Logistic

Regression apresentaram resultados consistentes em todos os cenários propostos. O algoritmo Classification Tree também obteve destaque para

cenários com ampla disponibilidade de dados para treinamento.

De uma forma geral, a acurácia de classificação superior a 70%

observada durante os experimentos aponta para a viabilidade da abordagem

proposta, com destaque para o desempenho dos algoritmos Naive Bayes,

Logistic Regression e Classification Tree. Mais detalhes acerca do desempenho da abordagem apresentada, contribuições, limitações e propostas

6. CONCLUSÕES

Este capítulo foca na apresentação das conclusões e considerações

6.1 CONTRIBUÍÇÕES

Neste trabalho foram apresentados e discutidos conceitos relacionados

à Mineração de Dados e ao ambiente escolhido para aplicação da abordagem

proposta. Foi mostrado o cenário atual da educação superior no país e como a

evasão configura um preocupante problema, para a qualidade da educação no

Brasil, para a realização pessoal dos discentes e, especialmente, para a

eficiência administrativa das Instituições Federais de Ensino Superior (IFES).

Em seguida, foi apresentado o estado da arte no âmbito da Mineração

de Dados: como surgiu, como se consolidou e quais são as mais modernas

técnicas e abordagens utilizadas atualmente. Algumas metodologias existentes

foram abordadas para servir de base para a composição da abordagem

proposta, que foi sugerida com especial atenção às etapas de estudo do

negócio, estudo da estrutura dos dados, identificação e extração dos dados,

preparação e transformação dos dados, aplicação do modelo de mineração e

avaliação dos resultados obtidos para validação da abordagem.

O escopo da abordagem proposta foi decidido com base nos objetivos

definidos para a mesma, de acordo com o estudo conduzido durante a etapa

de fundamentação teórica. A abordagem apresentada é especialmente

relevante por propor uma solução para identificação de estudantes propensos à

evasão já a partir do momento do ingresso dos discentes nas IFES. Não são

utilizados dados referentes ao histórico acadêmico dos discentes, permitindo

assim maior agilidade na identificação da evasão e oferecendo, desta forma,

Durante a definição da abordagem, as principais contribuições

apresentadas residem em dois pontos complementares entre si:

 O estudo e compreensão das regras de negócio, estrutura de dados e

particularidades do ambiente das IFES, o que permitiu a seleção dos

atributos para submissão aos algoritmos classificadores e;

 A análise comparativa do desempenho obtido por meio da aplicação dos

algoritmos classificadores nos dados selecionados, o que permitiu tanto

a verificação da viabilidade da abordagem proposta com base nos

atributos selecionados, como também a identificação dos algoritmos que

oferecem o melhor desempenho para cada cenário.

Os dois pontos acima citados são essenciais para a construção da

abordagem proposta e constituem as principais contribuições do ponto de vista

da eficiência do método de ação proposto para a atividade de Mineração de

Dados em Instituições Federais de Ensino Superior, objetivando a identificação

da evasão de discentes ingressantes na mesma. Outra contribuição relevante

diz respeito à seleção das ferramentas e condução do processo de MD no

ambiente especificado, aplicando as ferramentas e técnicas escolhidas.

6.2 LIMITAÇÕES

Do ponto de vista técnico, este projeto enfrentou algumas limitações,

além das definidas conforme o escopo da abordagem proposta. Um dos

principais problemas encontrados durante a condução da pesquisa diz respeito

à disponibilidade das informações acerca dos discentes. Devido à proposta de

momento de ingresso do discente na instituição, foi preciso reunir um conjunto

de atributos acerca dos discentes que fosse suficiente para o sucesso da

atividade de classificação dos algoritmos.

Ocorre que, as informações coletadas pelas IFES acerca dos discentes

ingressantes passaram por frequentes alterações no decorrer dos anos. Muitos

dados valiosos não estavam disponíveis para o intervalo de tempo necessário.

Por exemplo, informações acerca das cotas utilizadas pelos estudantes para

ingresso na instituição só estavam disponíveis para discentes que ingressaram

nos períodos letivos mais recentes. Ou seja, para alguns cursos, não houve

nem sequer tempo hábil para formação daquele discente. Por esta razão, estes

valiosos dados não puderem ser considerados.

Fica evidente que a busca por dados consistentes e comuns às outras

instituições, limitou bastante o número de atributos utilizados. Outras

imposições de natureza similar foram encontradas devido às limitações na

estrutura de dados da IFES na qual os experimentos foram conduzidos.

Nenhuma das restrições apresentadas, no entanto, prejudicou de forma

relevante o desenvolvimento e a validação da abordagem proposta.

6.3 CONSIDERAÇÕES FINAIS

Os resultados obtidos mostram que a abordagem proposta é capaz de

fornecer alguns indicativos preliminares acerca do risco de evasão dos

discentes ingressos nas IFES. Os atributos selecionados provaram ser capazes

de fornecer índices de acurácia de classificação de até 73,9% no cenário mais

pouco abaixo dos apresentados pelos trabalhos que levam em consideração os

dados do histórico acadêmico do discente, uma vez que estes conseguem

índices que chegam a 80% de acurácia de classificação (MANHÃES, 2015).

Este desempenho é justificável e totalmente compreensível. Ocorre que,

os dados relativos ao desempenho acadêmico do discente, que só são

construídos com o decorrer da vida acadêmica do mesmo na instituição,

possuem um significativo valor na identificação da ocorrência da evasão. O

abandono do ensino superior como um todo costuma ter início com o abandono

de determinadas disciplinas (LOBO, 2012). Desta forma, uma abordagem de

Mineração de Dados que utilize dados do histórico acadêmico do discente

poderá identificar as faltas nas disciplinas cursadas e associá-las, com

bastante precisão, à ocorrência da evasão no semestre seguinte.

Outra abordagem possível seria identificar um desempenho acadêmico

insatisfatório que revele desinteresse do discente pelo curso. Esta informação é

especialmente valiosa quando o baixo desempenho é registrado para uma

disciplina importante para o curso (MANHÃES, 2015). A utilização de atributos

desta natureza, disponíveis apenas quando considerados os dados do histórico

acadêmico do discente, constituem uma vantagem enorme na precisão obtida

durante a classificação dos registros pelos algoritmos.

Ainda assim, os índices de acurácia de classificação e precisão de

identificação da evasão obtidos apenas com a utilização de dados disponíveis

quando do ingresso do discente na instituição, são suficientes para oferecer

uma identificação preliminar do risco de evasão. Esta identificação preliminar

oferecer subsídios para a administração das IFES tomarem providências com

grande tempo hábil disponível acerca dos discentes que estejam ingressando

na instituição e apresentem tendência à evasão.

Desta forma, tem-se que, a abordagem aqui apresentada não substitui,

mas complementa, outras abordagens que utilizam dados do histórico

acadêmico do discente. A recomendação final é que a abordagem proposta

seja utilizada quando do ingresso do discente, para identificar aqueles com

tendência à evasão e incluí-los, desde já, em algum programa de prevenção e

acompanhamento. No decorrer da vida acadêmica dos discentes, as demais

abordagens que utilizam dados do histórico acadêmico dos mesmos poderiam

ser utilizadas, semestre a semestre, para confirmar ou não a ocorrência da

evasão e identificar novos discentes que, apesar de não possuírem um perfil

que revele tendência à evasão, possuem um histórico acadêmico que denuncia

algum risco de abandono dos estudos.

Como conclusão, tem-se que, é válida a utilização da abordagem

proposta para identificação dos casos de evasão, uma vez que a referida

abordagem se apresenta como mais uma alternativa para auxiliar as

instituições no combate à evasão no ensino superior. Seu uso é oportuno,

principalmente, pois trata-se de uma abordagem capaz de fornecer um

indicativo do risco de evasão logo no início da vida acadêmica do discente,

dando às IFES mais tempo para agir, se comparado a outras abordagens que

utilizam dados acadêmicos variantes no tempo. Para melhores resultados, a

utilização da abordagem proposta é recomendada em complemento à

utilização de outras abordagens que ofereçam uma maior precisão na

forma será possível o acompanhamento da evasão já no momento de ingresso

do discente e, semestre a semestre, conforme os períodos letivos cursados.

6.4 TRABALHOS FUTUROS

Neste trabalho foi proposta uma abordagem para Mineração de Dados

visando à identificação prévia de discentes com risco de evasão usando

apenas dados disponíveis a partir do momento do ingresso do estudante, com

ênfase nas particularidades inerentes ao ambiente das Instituições Federais de

Ensino Superior. Após a avaliação dos experimentos conduzidos, a abordagem

apresentada mostrou resultados satisfatórios.

Em complemento ao apresentado, propõe-se o desenvolvimento de um

sistema de alertas, tal como o proposto por (KAMPFF, 2009) para sistemas

baseados em Ambientes Virtuais de Aprendizagem (AVA), no âmbito da

Educação a Distância (EaD). Apesar da abordagem proposta ter sido pensada

para os cursos presenciais ofertados pelas IFES, nada impede que um sistema

computacional de alertas seja desenvolvido para atuar por meio dos Sistemas

de Gestão Acadêmica (SGA) utilizados pelas instituições.

O ideal seria que o sistema de alertas funcionasse de forma incorporada

ao SGA da instituição, fornecendo alertas quando da importação dos dados

dos discentes ingressantes, identificando aqueles com elevado risco de

evasão. O sistema de alertas deverá se basear nos dados obtidos por meio da

aplicação da abordagem aqui proposta. Desta forma, a administração da IFES

discentes incluídos nos grupos de risco. A principal vantagem seria a extensão

REFERÊNCIAS

BAKER, Ryan; ISOTANI, Seiji; CARVALHO, Adriana. Mineração de Dados Educacionais: oportunidades para o Brasil. Revista Brasileira de Informática na Educação, [S.l.], v. 19, n. 2. p. 2-13, 2011.

BALA SUNDAR V; DEVI, T; SARAVANAN, N. Development of a data clustering algorithm for predicting heart. International Journal Of Computer

Applications, [S.l.], v. 48, n. 7, p.8-13, jun. 2012.

BEMFICA, Flávia. Participação das IES privadas cresceu 73% em uma década. Jornal Extra Classe, [S.l.], 2014. Disponível em:

<http://www.extraclasse.org.br/exclusivoweb/2014/04/participacao-das-ies- privadas-cresceu-73-em-uma-decada/>. Acesso em: 06 jun. 2015.

CARVALHO, Rosângela et al. Integração entre o sistema de gestão acadêmica e o sistema de gestão da aprendizagem. Revista Brasileira de Computação Aplicada, Passo Fundo, v. 4, n. 1, p.81-91, mar 2012.

CHAPMAN, Pete et al. CRISP-DM: Step-by-step data mining guide.The Modeling Agency, [S.l.], 2000. Disponível em: <https://the-modeling- agency.com/crisp-dm.pdf>. Acesso em: 08 jun. 2015.

CHIAVENATO, Idalberto. Recursos humanos na empresa: pessoas, organizações e sistemas. 3.ed. São Paulo: Atlas, 1994.

CÔRTES, Sérgio; PORCARO, Rosa; LIFSCHITZ, Sérgio. Mineração de Dados: funcionalidades, técnicas e abordagens. 2002. Trabalho de Conclusão de Curso-(Graduação). PUC-RIO, Rio de Janeiro, 2002.

DIAS, Maria Madalena. Um modelo de formalização do processo de

desenvolvimento de sistemas de descoberta de conhecimento em banco de dados. 2001. Tese-(Doutorado). UFSC, Florianópolis, 2001.

FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data Mining to Knowledge Discovery in Databases. AI Magazine, [S.l.], v. 17, n. 3, p.37-54. 1996.

GARG, Sumit; SHARMA, Arvind. Comparative analysis of various Data Mining techniques on educational datasets. International Journal of Computer Applications, [S.l.], v. 74, n. 5, p.1-5, jul. 2013.

HAN, Jiawei; KAMBER, Micheline; PEI, Jian. Data Mining: concepts and techniques. 3.ed. Waltham: Elsevier, 2011.

INEP, Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Matrículas no ensino superior crescem 3,8%. Portal INEP, [S.l.], 2014. Disponível em: <http://portal.inep.gov.br/visualizar/-

/asset_publisher/6AhJ/content/matriculas-no-ensino-superior-crescem-3-8>. Acesso em: 08 jun. 2015.

KAMPFF, Adriana. Mineração de Dados Educacionais para geração de alertas em ambientes virtuais de aprendizagem como apoio à prática docente. 2009. Tese-(Doutorado). UFRS, Porto Alegre, 2009.

KDNUGGETS. What main methodology are you using for your analytics, data mining, or data science projects? KDNUGGETS, [S.l.], 2014. Disponível em: <http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science- methodology.html>. Acesso em: 05 set. 2015.

LEHER, Roberto. Universidade no Brasil e na América Latina: tensões e

contradições entre o público e o privado. Revista Brasileira de Educação, Rio de Janeiro, v. 12, n. 34, p. 171-177, abr. 2007.

LOBO, Maria Beatriz. Panorama da evasão no ensino superior brasileiro: aspectos gerais das causas e soluções. ABMES Cadernos, Brasília, n. 25, p. 9-58. 2012.

MACHADO, Roger et al. Estudo bibliométrico em Mineração de Dados e

evasão escolar. In: CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO, 11., 2015, Rio de Janeiro. [Trabalho apresentado]... Rio de Janeiro: [s.n.], 2015.

MAGALHÃES, Elizete et al. Custo do ensino de graduação em instituições federais de ensino superior: o caso da Universidade Federal de Viçosa. Revista de Administração Pública, Rio de Janeiro, n. 44, p.637-666, maio/jun. 2010.

MANHÃES, Laci. Predição do desempenho acadêmico de graduandos utilizando Mineração de Dados Educacionais. 2015. Tese-(Doutorado). UFRJ, Rio de Janeiro, 2015.

MEC, Ministério da Educação; INEP, Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Censo da Educação Superior 2012: resumo técnico. 138 p. Brasília, 2014.

MEC, Ministério da Educação. Documento orientador para superação da evasão e retenção na rede federal de educação profissional, científica e tecnológica. Brasília, 2014.

MEC, Ministério da Educação. Diplomação, retenção e evasão nos cursos de Instituições de Ensino Superior Públicas. Brasília, 1997.

MENEZES, Ebenezer; SANTOS, Thais. Instituições Federais de Ensino

Superior (verbete). Dicionário Interativo da Educação Brasileira. São Paulo: Midiamix Editora, 2002.

ORANGE. Online Documentation. Disponível em: <http://docs.orange.biolab.si/>. Acesso em: 05 fev. 2016.

POCHMANN, Márcio. O mito da grande classe média: capitalismo e estrutura social. São Paulo: Boitempo Editorial, 2014.

PUSHPANJALI; NAYAKI, Jyothi. An efficient way for Data Mining via overlay- based networking for enhanced service. International Journal of Computer Applications, [S.l.], v. 123, n. 16, p.24-30, ago. 2015.

RAMAGERI, Bharati. Data Mining techniques and applications. Indian Journal of Computer Science, [S.l.], v. 1, n. 4, p.301-305, jan. 2011.

RIGO, José; CAZELLA, Silvio; CAMBRUZZI, Wagner ; Minerando Dados Educacionais com foco na evasão escolar: oportunidades, desafios e

necessidades. In: WORKSHOP DE DESAFIOS DA COMPUTAÇÃO APLICADA À EDUCAÇÃO,1., 2012, Curitiba. [Trabalho apresentado]... Curitiba: [s.n.], 2012.

SAMPAIO, Helena. O setor privado de ensino superior no Brasil: continuidades e transformações. Revista Ensino Superior, 2011. Disponível em:

<https://www.revistaensinosuperior.gr.unicamp.br/artigos/o-setor-privado-de- ensino-superior-no-brasil-continuidades-e-transformacoes>. Acesso em: 14 out. 2015.

SANTOS, Luís Paulo. Uma contribuição à discussão sobre a avaliação de desempenho das Instituições Federais de Ensino Superior: uma abordagem da gestão econômica. Revista Contabilidade & Finanças, São Paulo, n. 28, p.86-99, jan/abr. 2002.

SANTOS, Ramon; SIEBRA, Clauirton; OLIVEIRA, Estêvão. Uma abordagem genérica de identificação precoce de estudantes com risco de evasão em um AVA utilizando técnicas de Mineração de Dados. In: CONFERÊNCIA

INTERNACIONAL SOBRE INFORMÁTICA NA EDUCAÇÃO, 19., 2014, Fortaleza. [Trabalho apresentado]... Fortaleza: [s.n.], 2014.

TOKARNIA, Mariana. Censo revela crescimento do número de matrículas no ensino superior em 2012. Agência Brasil, 2013. Disponível em:

<http://memoria.ebc.com.br/agenciabrasil/noticia/2013-09-17/atualizada-censo- revela-crescimento-do-numero-de-matriculas-no-ensino-superior-em-2012>. Acesso em: 06 set. 2015.

WAHBEH, Abdullah et al. A comparison study between Data Mining tools over some classification methods. International Journal Of Advanced Computer Science And Applications: Special Issue on Artificial Intelligence, [S.l.], p. 18-26. 2011.

ZAKI, Mohammed. WONG, Limsoon. Data Mining Techniques. WSPC/Lecture Notes Series. [S.l.], 2003.

ZANDBERGEN, Paul. Data Warehousing and Data Mining: information for Business Intelligence. Study. Disponível em:

<http://study.com/academy/lesson/data-warehousing-and-data-mining- information-for-business-intelligence.html>. Acesso em: 20 nov. 2015

No documento Mineração de dados aplicada à classificação do risco de evasão de discentes ingressantes em instituições federais de ensino superior (páginas 117-132)