• Nenhum resultado encontrado

5.3 Reconhecimento do esforço geral do estudante

5.3.2 Reconhecimento do esforço por estudante: construção das redes bayesianas

dos modelos por atividade, com uma determinação inicial da classe de cada uma das entradas, a aplicação do método BayesNet na ferramenta Weka, seguida da construção e treinamento da rede. Cada registro nos arquivos de treinamento correspondem aos dados de um estudante.

O número de registros disponíveis para o processo de treinamento, foi 68, o que corresponde ao número total de participantes do estudo piloto e estudo de caso. Embora o

número de registros para o treinamento possa ser considerado reduzido, os mesmos permitiram obter um conjunto de probabilidades e um modelo inicial, que pode ser aperfeiçoado futuramente com um treinamento baseado em um número maior de participantes. Esta é uma característica importante dos modelos propostos nesta pesquisa, a possibilidade de recriar as tabelas de probabilidades, refazer o processo de treinamento das redes a partir da disponibilidade de novos dados.

Para determinar a classe de cada entrada para o aprendizado da rede, foram atribuídos pontos aos valores de cada atributo (tabela 23). Após calcular a pontuação total do estudante, foi aplicada a seguinte regra: se a soma for menor ou igual a 0 (zero) o nível de esforço é baixo, caso contrário, é alto.

Tabela 23 - Pontuações para determinação da classe correspondente ao esforço por atividade

Variável Regra e pontuação

Classe_tp_prob_ef BAIXO = -2; MEDIO_BAIXO = -1; MEDIO_ALTO=1 ; ALTO = 2 Classe_tp_hip_ef BAIXO = -2; MEDIO_BAIXO = -1;

MEDIO_ALTO=1 ; ALTO = 2 Classe_tp_cod_ef BAIXO = -2; MEDIO_BAIXO = -1;

MEDIO_ALTO=1 ; ALTO = 2

Classe_vis_pseudo NENHUMA=1; POUCAS=0;MUITAS=-1 Classe_exec_cod NENHUMA=-1; POUCAS=0;MUITAS=1 Classe_nivel_detalhe_prob BAIXO = -2; MEDIO_BAIXO = -1;

MEDIO_ALTO=1 ; ALTO = 2 Classe_nivel_detalhe_hip BAIXO = -2; MEDIO_BAIXO = -1;

MEDIO_ALTO=1 ; ALTO = 2 Classe_nivel_compreensao BAIXO = -2; MEDIO_BAIXO = -1;

MEDIO_ALTO=1 ; ALTO = 2

Classe_ativ_nao_realizadas NENHUMA=1; POUCAS=-1;MUITAS=-3 Grau_semelhanca ALTO=-1; MEDIO=0;BAIXO=1

Fonte: Elaborado pelo autor

As variáveis associadas aos tempos e nível de detalhe tem o mesmo impacto na identificação do esforço do estudante, mas o número de atividades não realizadas é decisivo, por isso, o peso deste atributo é maior, ao deixar de realizar algumas atividades o estudante demonstra claramente um menor nível de esforço. Se forem diversas atividades se pode concluir

que o esforço é menor, mesmo que durante os exercícios feitos ele tenha demonstrado maior dedicação.

Analisando as métricas para classificação supervisionada mostrados na figura 59, é possível perceber que o método BayesNet apresenta boa capacidade de classificar corretamente o conjunto de entradas, tanto nos casos do nível alto, quanto baixo. Além da acuracidade que foi superior a 95%, os indicadores recall e precision apresentam valores altos, o que confere um alto grau de robustez ao modelo.

Figura 59 – Resultados da aplicação do método BayesNet para determinar o esforço por estudante

Fonte: Elaborado pelo autor

A estrutura da rede bayesiana (Figura 71), elaborada na ferramenta Netica segue o padrão mostrado no reconhecimento por atividade, com dependência apenas entre a variável do nível de esforço para as demais. Além disso, o atributo que determina o nível de esforço segue a mesma categorização (“ALTO”, “BAIXO”) usada no reconhecimento do esforço em cada atividade.

É possível verificar que em algumas classes há categorias que aparecem mais raramente, como no caso dos níveis de detalhamento alto e a classe de muitas execuções de código. Tal situação foi verificada também nas redes para reconhecimento da motivação por atividade, embora com menos intensidade. O problema do desequilíbrio de classes é discutido por diversos autores, como Tan (2009) que argumenta que distribuições de dados em classes desequilibradas são comuns em muitas aplicações reais. O autor apresenta exemplos como o número de defeitos em produtos que podem ocorrer muito raramente em uma empresa ou ainda fraudes em cartões cuja ocorrência é de 1 em 100. Nestes casos mesmo que poucas entradas

apresentem as características indicadas, esta informação é relevante para o método de aprendizado de máquina e para o modelo que será obtido.

Em alguns situações as medidas de precisão que avaliam os classificadores podem não se mostrar plenamente adequadas, sendo necessário ajustar as mesmas e o modelo para lidar com as particularidades verificadas nos dados (TAN, 2009). No caso de um modelo probabilístico é necessário verificar as probabilidades associadas, com o objetivo de analisar a influência de cada um dos valores da classe no processo de classificação.

No contexto do trabalho, mesmo que a ocorrência de determinada classe seja rara, ela pode ter influência na determinação do nível de confiança ou esforço, além disso o uso de uma quantidade maior de registros, em trabalhos futuros pode alterar o contexto verificado, com uma incidência maior das classes com baixa representação nos dados usados no treinamento. Diferentes grupos de alunos podem exibir perfis diversos o que pode gerar uma mudança na incidência das categorias o que justifica a manutenção das classes citadas.

Figura 60 – Rede bayesiana para reconhecimento do esforço do estudante

Fonte: Elaborado pelo autor

Na figura 60 são exibidas as probabilidades a priori, obtidas no processo de treinamento da rede, onde é possível verificar uma concentração nas classes que indiquem níveis médio alto e médio baixo. No caso das variáveis de execução do código, visualização e de atividades não realizadas, a maioria dos valores indica poucas ou nenhuma ocorrência. A distribuição para o grau de confiança é mais equilibrada, aproximadamente um terço dos estudantes em cada uma das categorias. Em relação ao nível de esforço, observa-se um número maior de alunos com baixo esforço, o que foi verificado também nos dados do esforço por atividade.

Uma análise das tabelas de probabilidades mostradas na figura 61 indica que a variável correspondente ao nível de compreensão apresenta altas probabilidades nas categorias alto (21.87) e médio alto (68.75) para o nível alto de esforço, enquanto os valores baixo (25) e médio baixo (63.63) estão mais associados a um nível baixo de esforço, o que confirma a influência desta na determinação do esforço. Esta situação já havia sido verificada no reconhecimento por atividade, tendo permanecido no modelo geral do estudante.

Com relação aos atributos inseridos neste modelo, o grau de semelhança e o número de atividades não realizadas, percebe-se que a finalização de todas as atividades têm alta probabilidade para o nível de esforço alto (67.74), da mesma forma um baixo grau de semelhança (70.96). Em ambos os casos, os percentuais associados ao nível de esforço baixo são equilibrados, embora exista uma tendência de maior semelhança e muitas ou poucas atividades não realizadas nos registros de baixo esforço.

Figura 61 – Tabela de probabilidades da rede para reconhecimento do esforço do estudante

Fonte: Elaborado pelo autor