METODOLOGIA - A predição da evasão de estudantes de graduação como recurso de apoio fornecido p

A pesquisa elaborada neste trabalho classifica-se como experimental e aplicada. O estudo experimental, segundo Martins e Theóphilo (2009), é uma estratégia de pesquisa que busca a construção do conhecimento por meio da verificação das variáveis identificando as relações causais entre elas. A pesquisa aplicada, por outro lado tem ênfase prática na solução de problemas (COOPER; SCHINDLER, 2011).

Para este estudo adota-se o conceito de evasão proposto por Gaioso (2005, p. 38) e corroborado por Martins (2007) e Baggi e Lopes (2011), já apresentado anteriormente: a evasão ocorre quando o estudante “deixou o curso por qualquer motivo que não seja a obtenção da titulação”, sendo que a evasão não necessariamente possui caráter permanente. Adotam-se ainda os três locus de evasão propostos pela Comissão Especial (BRASIL/MEC, 1997), ou seja, o curso, a instituição e o sistema de ensino. Acrescentam-se neste trabalho mais dois atributos que são o semestre (ou módulo) em curso e a própria disciplina de estudo onde o aluno está matriculado.

Desta forma, o estudante evadido, ou em processo de evasão, realiza uma série de abandonos, em cinco etapas: 1) abandono da disciplina que está cursando; 2) abandono do semestre ou módulo; 3) desistência do curso; 4) saída da instituição (IES); 5) abandono do nível superior como um todo. Depreende-se que a segunda etapa tem como pré-requisito a primeira (seja ela ao longo de um período letivo, seja ela entre um período letivo e outro). Da mesma forma, para alcançar a terceira etapa, ele deverá ter realizado a segunda, que implica ter realizado a primeira. O mesmo vale para a quarta e quinta etapas. Assim, um estudante que alcance as últimas etapas de abandono deverá ter passado antes pela primeira etapa.

Diante dessas constatações, o presente estudo busca dar meios para a ação interventiva sobre o problema da evasão por meio da predição da primeira etapa do abandono, sendo este um pré-requisito para o alcance das outras etapas. Para tanto, valeu-se dos dados armazenados pelo SAE acerca de seus alunos. Como este ITA está restrito apenas ao contexto do acompanhamento educacional de cada aluno, sem conter dados pertinentes a um sistema de registro acadêmico, este estudo limita-se à predição do abandono de disciplinas durante o transcorrer do período letivo.

Para as etapas iniciais deste projeto foi utilizada a base de dados dos estudantes de semestres já concluídos armazenados pelo SAE. A primeira etapa do experimento foi a fase de pré-processamento, onde foram selecionados atributos dos alunos. A escolha destes

atributos se baseia nas escolhas de estudos anteriores e na disponibilidade de dados de alunos contidos no SAE. Desta forma, os dados que foram selecionados são: i) total de questões obrigatórias respondidas pelo aluno (listas de exercícios solicitadas pelo docente), ii) total de questões obrigatórias respondidas corretamente pelo aluno, iii) total de questões avulsas respondidas pelo aluno (realizadas de maneira proativa pelo estudante), iv) total de questões avulsas respondidas corretamente pelo aluno, v) número de acessos realizados ao SAE pelo aluno, vi) nome da disciplina, vii) nome do professor, viii) idade do aluno, ix) sexo do aluno, x) número de visitas do aluno à monitoria e xi) número de solicitações de orientações feitas por aluno ao SAE.

Vale ressaltar que os itens i a v, x e xi não foram apenas analisados na mineração de dados realizada neste trabalho que utilizou seus valores “brutos” referentes a cada estudante. Foram usados também os dados resultantes das análises efetuadas pelo SAE com aplicação da Lógica Fuzzy sobre as variáveis linguísticas mencionadas anteriormente. Duas destas variáveis, chamadas Esforço e Desempenho, são utilizadas pelo SAE na composição do grau de pertinência da apuração fuzzy realizada e que receberá a denominação de Relativo. A média dos valores desse Relativo, obtidas pelo estudante ao longo da disciplina, foi utilizada como a variável xii nessa análise.

Outros atributos, que não estão disponíveis no SAE, não puderam ser analisados na base histórica desse ITA relacionados aos semestres já transcorridos. No entanto, eles foram considerados na última etapa deste estudo, no desenvolvimento de um novo módulo para o SAE, que solicitará aos alunos que informem estes dados, geralmente de registros pessoais, ao sistema. Estes atributos são: xiii) endereço, xiv) estado civil, xv) número de horas semanais reservadas para sua profissão, xvi) tipo de colégio de nível médio cursado pelo aluno (particular, público ou militar), xvii) nível de instrução do pai do aluno e xviii) nível de instrução da mãe do aluno. Desta maneira, estão contemplados quase todos os atributos descritos no Quadro 5 para uma averiguação mais completa e segura na predição almejada.

Para as duas etapas seguintes, de clustering e classificação, foi usada a suíte de mineração de dados WEKA (Waikato Environment for Knowledge Analysis), ferramenta genérica e livre para a mineração que suporta diferentes abordagens de aprendizagem de máquina (WASHIO et al., 2007). Como observado por Dekker et al. (2009) e executado por Campello e Lins (2008), fez-se uso de clusters para agrupar instâncias similares, com o objetivo de criar categorias para classificar a situação de cada aluno. Dois algoritmos diferentes foram utilizados neste experimento: SimpleKMeans e EM. Os dois algoritmos de

clustering foram usados com suas configurações padrões, exceto pelo valor do parâmetro k, configurado para criar cinco clusters. Também foi permitido ao EM sugerir valores para k.

As variáveis de i a v foram utilizadas para a divisão do universo de alunos em clusters, como foi feito em Santos et al. (2013). Apenas estas cinco variáveis foram utilizadas por se acreditar que elas evidenciam o processo de evasão mais claramente do que outras variáveis disponíveis, como x e xi. Assim, um aluno participativo e não propenso à evasão poderia não solicitar ajuda de um monitor, mas ele dificilmente deixaria de realizar tarefas que refletirão em sua nota final. As variáveis vi a ix podem ser causas da evasão, mas não consequências.

A escolha pelo uso de algoritmos de clustering se deve a necessidade de classificar as instâncias extraídas do banco de dados do SAE. Por um lado, esta necessidade acontece pelo fato de não haver uma classificação nativa ao SAE acerca da evasão discente, sendo essencial, portanto, que este dado seja fornecido por outra fonte. Por outro lado, independente da fonte consultada, esta classificação estará dividida em apenas duas classes (evadido ou não evadido), não sendo possível assim observar as nuances dentro de cada classe. Esta etapa foi executada na base de dados dos estudantes fornecida pelo SAE, amostra que inclui 1509 instâncias de um universo de 1721, cada uma representando um aluno que cursou uma disciplina em um dos dois semestres dos anos de 2010, 2011 ou 2012. Dando continuidade ao experimento apresentado em Santos et al. (2013), esta etapa foi aplicada também a todos os semestres, individualmente.

Os estudantes da base fornecida pelo SAE cursavam o Bacharelado em Sistemas de Informação (BSI), o Bacharelado em Ciência da Computação (BCC) ou o Bacharelado em Engenharia de Software (BES), sendo identificados, respectivamente, neste trabalho como alunos de BSI (94 em 2011-1, 99 em 2011-2, 163 em 2012-1 e 118 em 2012-2, total de 474 alunos), de BCC (224 em 2010-1, 146 em 2010-2, 178 em 2011-1, 125 em 2011-2, 147 em 2012-1 e 105 em 2012-2, total de 925 alunos) e de BES (49 em 2011-2 e 61 em 2012-1, total de 110 alunos). Os cursos BSI e BCC foram oferecidos e coordenados por uma IES, enquanto o curso BES pertence à outra IES. As disciplinas analisadas foram: Algoritmo (82 alunos de BSI e 390 alunos de BCC), Introdução à Ciência da Computação (110 alunos de BES), Laboratório de Programação 1 (315 alunos de BCC), Laboratório de Programação 2 (220 alunos de BCC), Linguagem e Técnicas de Programação 1 (219 alunos de BSI) e Linguagem e Técnicas de Programação 2 (173 alunos de BSI). Àqueles quatro professores atuantes em 2012-2 apresentados em Santos et al. (2013), A, B, C e D, foram acrescentados mais três, identificados neste trabalho como E, F e G.

Em seguida, com o objetivo de validar os clusters criados na etapa anterior, estes foram comparados à situação real dos alunos, baseando-se em seu total de faltas ao final de uma disciplina. Todos os alunos com até 25% de faltas foram considerados não-evadidos nesta disciplina. Alunos com mais de 25% e até 50% de faltas foram classificados como possíveis evadidos e, acima desta faixa, evadidos.

Na etapa seguinte foram usados os algoritmos de classificação sobre a base de dados. Uma vez que eles são algoritmos de aprendizagem de máquina supervisionada (enquanto os algoritmos de cluster trabalham com aprendizagem não-supervisionada), há a necessidade que as classes estejam pré-definidas antes de sua utilização (WITTEN; FRANK, 2005). Desta forma, eles podem ser utilizados apenas depois que as instâncias já foram associadas aos clusters, empregados aqui como classes.

O objetivo desta etapa é aprender por meio de um algoritmo de classificação as boas estratégias para associar uma instância da base de dados ao seu cluster correspondente. Desta forma, foi necessária a utilização de algoritmos de classificação capazes de explicar suas escolhas realizadas no processo classificatório, ou seja, o porquê uma instância foi classificada de uma determinada forma. Uma família de algoritmos classificatórios e reconhecidamente possuidores dessa característica são os baseados em regras, como o OneR e NNge. Ambos são utilizados por Martins et al. (2012) em seu experimento semelhante para predizer a evasão escolar por meio de uma base de dados fornecida por um ITA.

Outra família de algoritmos classificatórios e possuidor da capacidade de explicar suas escolhas, recomendada por Dekker et al. (2009) para o problema da predição da evasão, são os baseados em árvores de decisão, como o J48 e o Random Tree. Estes quatro algoritmos, dois baseados em regras e dois em árvores de decisão, foram utilizados nesta etapa do experimento. Todos eles foram usados com suas configurações padrões. Empregou-se o método de cross-validation (10-fold) nesta etapa do experimento, com a justificativa dele possibilitar uma melhor estimativa da margem de erro de classificação (WITTEN; FRANK, 2005). Para o algoritmo OneR, cada variável foi testada em separado, a fim de verificar seu poder preditivo dentro do contexto do funcionamento deste algoritmo. As variáveis i a xii foram utilizadas para a etapa de classificação.

Após as verificações necessárias, realizadas com os algoritmos de mineração de dados no WEKA, teve início a etapa de desenvolvimento do módulo APE (Assistente de Predição da Evasão), que será incorporado ao SAE. Este módulo incorpora o conhecimento descoberto na fase de mineração de dados acerca da evasão discente. Este conhecimento foi construído na

forma de um preditor simples para cada variável utilizada no experimento. Estes preditores têm, cada um, como entrada um parâmetro que será o valor aplicado para definir a fronteira da classificação. Portanto, este valor dividirá o universo analisado por um preditor entre estudantes evadidos e não-evadidos.

Os preditores criados estão organizados como um comitê de classificadores. A importância de organizar os preditores simples em um comitê deve-se ao teorema NFL (WOLPERT; MACREADY, 1997). Uma vez que, de acordo com o teorema, não há nenhum melhor algoritmo para todas as possíveis situações de um determinado problema, decidiu-se unir os esforços destes vários preditores. Desta forma, cada um dará um veredito sobre a situação de um aluno, de acordo com suas características em um dado momento. Será então realizada uma votação e se definirá a classe à qual aquele estudante pertence.

Como o SAE analisa vários dados, provenientes de diferentes perfis de usuários (aluno, monitor, professor), e infere, continuamente, novas informações sobre seus estudantes, o processamento de classificação do potencial de evasão discente pode acontecer em tempo real, como proposto por Martins et al. (2012). Desta forma, será possível acompanhar a evolução de cada aprendiz ao longo de seu período letivo, sendo cada um assistido sobre a situação de transição entre as possíveis classes de evasão. Para tanto, os dados fornecidos pelo ITA (SAE) deverão ser organizados em uma linha do tempo, que evidencia o progresso de cada aluno ao longo do semestre.

Neste estudo, o semestre de 2012-2 será utilizado para a criação de uma linha do tempo com o objetivo de verificar a acurácia do comitê de preditores simples com os dados disponíveis antes do fim de um semestre. Este semestre será dividido em oito momentos posteriores ao momento zero, que corresponde ao início do semestre e não há dados disponíveis sobre um aluno em uma disciplina que está iniciando. Todos os momentos têm entre si e o próximo momento um período de duas semanas e o oitavo momento corresponde ao final de uma disciplina, quando todos os dados estão disponíveis.

Nos estudos de Santos et al. (2013) é ressaltada a discrepância aparente na relação entre alunos percebidos pela mineração de dados como evadidos, onde o professor apenas evidenciava que estes docentes discrepantes (C e D) não incentivam seus alunos a fazer uso do ambiente SAE durante o período letivo analisado. Desta forma, percebeu-se a necessidade de uma medida de confiança para a predição realizada pelo comitê de preditores simples do módulo APE. Valeu-se, então, das técnicas de medição da utilização do SAE apresentadas em Rissoli (2007) e Rissoli e Santos (2011), embora sem fazer uso de lógica fuzzy.

Foram utilizadas duas abordagens distintas, porém complementares, com o objetivo de medir a confiabilidade do resultado fornecido pelo comitê de preditores simples. A primeira busca medir o grau de incentivo do professor aos alunos para o uso do ambiente SAE e a segunda procura medir a proporção entre os alunos evadidos e não-evadidos dentro da turma, de acordo com uma proporção esperada, baseada em observações prévias. Ambas medições se baseiam nas instâncias associadas a um determinado professor em uma determinada disciplina. A variável tempo (semestre) não é considerada, de forma que seja possível aprender com o comportamento passado de um docente em uma disciplina na tentativa de prever seu comportamento futuro nesta mesma disciplina.

A primeira abordagem não depende que seu usuário a alimente com valores prévios. Ela é uma composição de quatro valores: o maior número de questões de lista (obrigatórias) que seus alunos fizeram até o momento nesta disciplina; o dobro da média de questões avulsas realizadas por seus aprendizes; o dobro da média do número de pedidos de orientação feitos por seus alunos ao SAE e o dobro da média do número de pedidos de monitoria feitos por seus alunos ao SAE nesta disciplina. A média dos dois primeiros valores acrescida do terceiro e quarto valores resulta no valor final de incentivo do professor ao uso do SAE. Caso este valor seja maior do que 100, ele é considerado como igual a 100.

A segunda abordagem necessita que cinco parâmetros sejam fornecidos previamente. Cada valor corresponde a uma das cinco categorias sugeridas por Santos et al. (2013) de gradação de seus alunos de acordo com sua propensão à evasão (do menos propenso ao mais propenso). Estes valores significam o tamanho máximo esperado para esta categoria em proporção ao tamanho da turma; portanto, a soma dos cinco valores não pode ser diferente de 100%. O cálculo da proporcionalidade das cinco categorias se dá pela soma da quantidade de aprendizes deste professor em uma disciplina classificados em cada categoria. Caso algum ou alguns destes valores ultrapasse o máximo fornecido pelo parâmetro, utiliza-se apenas o valor máximo no cálculo da soma.

O módulo APE será desenvolvido com a linguagem de programação Java para web e faz uso do banco de dados MySQL, além de respeitar os principais frameworks utilizados pelo SAE (MVC - Model-View-Controller e Front Controller), conforme diagrama de arquitetura, representado na Figura 7.

Figura 7 – Diagrama do Padrão MVC respeitado na implementação do SAE (Fonte: Rissoli et al., 2011).

Um esquema de funcionamento previsto do módulo APE após sua integração ao SAE está indicado na Figura 8 e envolve os dois principais perfis participantes diretos do ensino- aprendizagem (Aluno e Professor).

No documento A predição da evasão de estudantes de graduação como recurso de apoio fornecido por um assistente inteligente (páginas 33-41)