• Nenhum resultado encontrado

5 PROPOSTA

5.4 Modelo de predição

5.4.1 Avaliação do modelo de predição

Segundo HAN, KAMBER e PEI (2012), uma forma de avaliar o desempenho de um modelo de predição é mensurando sua capacidade preditiva. Isso deve ser realizado através da exposição do modelo a um conjunto de dados não vistos durante o treinamento. Caso contrário, ele é incapaz de identificar os ruídos e dificuldades para a generalização de uma informação.

Desta forma, os modelos preditivos aqui utilizados foram avaliados por meio de uma validação cruzada em pastas (K-fold), conforme definido em GANI et al. (1974).

O objetivo deste procedimento foi medir com maior precisão estatística o comportamento preditivo do processo quando deparado com novos dados. Além disso compará-lo com outras abordagens de aprendizagem de máquina supervisionada.

Nessa avaliação o conjunto de dados da amostragem é dividido em k subconjuntos. Sobre eles são realizados k procedimentos de treinamento e testes de classificadores.

66

Em cada procedimento um subconjunto é selecionado como conjunto de testes, enquanto outros (k-1) são selecionados para realização de treinamentos. A cada repetição, o valor da medida de avaliação do classificador é armazenado. Ao final dos testes, computa-se a média das medidas de avaliação obtidas ao longo das k repetições.

Nos experimentos aqui conduzidos, utilizou-se k igual a 4. A escolha desse valor deu-se para a obtenção de um número razoável de exemplos dentro de cada uma dos k-folds. Como medida de avaliação, adotou-se a acurácia dos classificadores preditivos utilizados.

Para os algoritmos de classificação parametrizados, os valores dos parâmetros foram ajustados em cada conjunto de dados utilizados, de maneira a otimizar os resultados obtidos. Os valores testados para os principais modelos de classificação do mercado estão especificados na Quadro 9.

Quadro 9 - Avaliação dos modelos de classificação

Modelo Classificador

Acurácia Melhor conjunto de Parâmetros

Melhor conjunto de Dados

Árvore de Decisão 0.926 'criterion': 'entropy', 'max_depth': 5, 'max_leaf_nodes': None 'periodo_sit_id', 'disciplina_ch', 'etapa_calc_id', 'atividade_tipo_id', 'atividade_data_dt' Regressão Logística

0.635 'solver': 'newton-cg' 'etapa_calc_id'

Random Forest 0.943 'criterion': 'entropy', 'max_depth': None, 'max_features': 'auto', 'n_estimators': 200 'aluno_cod', 'periodo_sit_id', 'disciplina_cod', 'disciplina_ch', 'disciplina_freq', 'etapa', 'etapa_faltas', 'etapa_calc_id', 'atividade_tipo_id', 'atividade_peso', 'qtd_pessoas_domicilio', 'pai_nivel_escol_id', 'resp_fin_trab_sit_id', 'resp_fin_escol_id', 'atividade_data_dt', 'semana', 'dia'

Fonte: autoria própria (2019)

Uma vez avaliado como melhor modelo de classificação, o Random Forest foi mais uma vez executado, agora configurado com os melhores parâmetros e analisando os melhores dados.

67

Esse modelo foi avaliado utilizando uma matriz de confusão. Conforme ilustrado na Figura 23, nessa matriz foram avaliados os dados de 6.388 alunos acima da média e 9.978 alunos abaixo da média (HAN; KAMBER; PEI, 2012).

Figura 23. Sumário de avaliação do melhor modelo de predição

Fonte: autoria própria (2019)

De um suporte de 6.388 alunos classificados como acima da média, 5.714 foram classificados corretamente (alunos acima da média, classificados como acima da média) e 674 alunos foram classificados erroneamente (alunos acima da média, classificados como abaixo da média). Considerando essas métricas, a precisão do modelo em classificar corretamente os alunos que ficarão acima da média equivale a 86% de acerto.

Da mesma forma, de um suporte de 9.878 alunos classificados como abaixo da média, 9.019 alunos foram classificados corretamente (alunos abaixo da média, classificados como abaixo da média) e 969 alunos foram classificados erroneamente (alunos abaixo da média, classificados como acima da média). Considerando essas métricas, a precisão do modelo em fazer este tipo de classificação é de 93% de certeza sobre as predições.

O modelo apresentou ainda um valor de recall equivalente a 90% para classificar alunos abaixo da média e 89% para classificar os alunos acima da média. O que demonstra um alto nível de confiabilidade, uma vez que, considerando todos os verdadeiros positivos (alunos classificados corretamente) e os verdadeiros negativos (alunos classificados erroneamente), o modelo teve uma taxa de erro baixa.

A pontuação F1 pode ser interpretada como uma média ponderada entre a precisão e o recall de um modelo. A considerando os valores de recall e precisão obtidos, o modelo desenvolvido teve uma pontuação F1 igual a 92% para classificar alunos que ficarão abaixo da média e 87% para classificar alunos que ficarão acima da média.

Real

Pre

vi

st

68

De forma que todos os resultados avaliativos do modelo foram acima de 85% de acerto, este foi incorporado a ferramenta SUAP-BI. Nesta foi criada uma interface de planejamento de atividades, onde o professor pode analisar de maneira preditiva as notas dos alunos e a taxa de sucesso de uma atividade, conforme ilustrado na Figura 24.

Figura 24 - Análise preditiva de aprendizagem dos alunos numa atividade

Fonte: autoria própria (2019)

Uma vez que o professor acessa um diário e cadastra uma nova atividade (informando tipo, sigla, descrição, data da avaliação e peso da atividade) o sistema analisa os dados informados junto aos dados socioeconômicos dos alunos registrados, resultando na predição da nota e classificação dos alunos que ficarão acima da média (60). Os resultados dessas análises são apresentados em um gráfico de dispersão disposto na interface gráfica do sistema, conforme ilustrado na Figura 24.

Desta forma, durante o registro de uma atividade, o professor pode intervir em fatores que impactam negativamente o desempenho dos alunos, tais como: tipo da atividade, peso, data, etc.

Para melhor analisar esses fatores, foi utilizada a biblioteca RFECV do scikit learn. Essa é ferramenta recursiva de validação cruzada de características, através dela os atributos do modelo preditivos foram classificados conforme grau de importância para predição de desempenho dos alunos, conforme ilustrado na Figura 25.

69

Figura 25. Características que mais impactam o modelo de predição implementado

Fonte: autoria própria (2019)

Compreende-se através desta análise que o desempenho do aluno em uma atividade é bastante influenciado pela forma que a média de uma etapa é configurada, seguida da: disciplina, identificação do aluno, data da atividade, tipo da atividade, frequência do aluno na disciplina, semana do ano, dia do ano, situação do aluno na disciplina, peso da atividade, etapa da atividade e carga horária da disciplina. Além disso, que dos atributos socioeconômicos do aluno, o que mais impacta a aprendizagem do discente é situação de trabalho do responsável financeiro, seguido do: nível de escolaridade do pai, quantidade de pessoas que residem no domicílio do aluno e escolaridade do responsável financeiro.

70 5.5 Considerações finais do capítulo

Neste capítulo é apresentado um modelo de processo analítico de aprendizagem baseado nos dados socioeconômicos e educacionais dos alunos do IFRN.

O processo aqui proposto foi dividido em 4 camadas de informação extraídas, transformadas e carregadas dinamicamente em uma base dimensional de dados capaz de prover suporte a criação de ferramentas analíticas que auxiliem a tomada de decisão pedagógica na organização.

Para demonstrar flexibilidade do modelo proposto, foram desenvolvidas 3 ferramentas que, a partir de gráficos interativos, processam visualmente os dados educacionais da instituição, relacionando o desempenho acadêmico dos alunos aos sua situação social.

Foi desenvolvido também um modelo preditivo que, através dos dados socioeconômicos e educacionais dos alunos, prevê a taxa de sucesso de uma atividade, classificando os alunos que ficarão cima e abaixo da média em uma avaliação.

Ambos as ferramentas tiveram como objetivo demonstrar como o professor pode usufruir do processo de análise proposto, podendo o professor refletir sobre o contexto de aprendizagem de seus alunos e intervir assertivamente no seu contexto de avaliação.

O processamento analítico proposto tem como elemento central um Data Warehouse. Este demonstrou-se altamente performático e não comprometeu as transações do sistema SUAP, nem acarretou sobrecarrega aos servidores do IFRN. A utilização dessa base foi um diferencial desta proposta, uma vez que grande parte dos trabalhos dessa área de pesquisa se utiliza de métodos de coleta de dados esporádicos, que impossibilitam a produção de processos analíticos contínuos passíveis de resultar em informações úteis a um processo de aprendizagem.

O modelo preditivo implementado utilizou o algoritmo de Random Forest para classificar a situação do aluno (0. abaixo da média; e 1. acima da média). Essa classificação foi realizada a partir da análise quantitativa dos dados de 17 características relacionadas ao perfil social e educacional do aluno, são estas: a identificação do aluno, situação do aluno no período, disciplina da atividade, carga horária da disciplina, frequência do aluno na disciplina, etapa da atividade, número de faltas do aluno na etapa, forma de cálculo da média

71 da etapa, tipo da atividade, peso da atividade, quantidade de pessoas que moram no domicílio do auno, nível de escolaridade do pai do aluno, situação de trabalho do responsável financeiro do aluno, escolaridade do responsável financeiro, data da atividade, semana da atividade, e dia da atividade.

72

Documentos relacionados