Reconhecimento do esforço por atividade: construção e treinamento das redes

5.1 Reconhecimento do esforço em cada atividade

5.1.3 Reconhecimento do esforço por atividade: construção e treinamento das redes

Para pode classificar os registros utilizados no processo de treinamento dos algoritmos de classificação supervisionada foi necessário definir a classe a qual pertence cada uma das entradas. Esta classificação, a priori foi baseada nos resultados da aplicação dos algoritmos de agrupamento e regras de associação e também em uma análise empírica dos valores das variáveis nos dados coletados durante o estudo de caso.

Para cada atributo, as diferentes categorias foram associadas a pontuações positivas, negativas ou neutras. As classes que indicam tempos e níveis de detalhamento baixos receberam pontuações negativas, enquanto os valores altos receberam pontuação positiva. Níveis médios foram considerados neutros, pois considera-se que não exercem grande influência no esforço demonstrado. É importante ressaltar que foram feitos testes com diferentes pontuações, avaliando em cada caso quantas entradas ficaram em cada classe. A tabela 19 mostra as pontuações finais, usadas para determinação do nível de esforço.

Tabela 19 – Pontuações para determinação da classe correspondente ao esforço por atividade

Variável Regra e pontuação

Classe_tp_prob_ef BAIXO = -1; MÉDIO = 0; ALTO = 1 Classe_tp_hip_ef BAIXO = -1; MÉDIO = 0; ALTO = 1 Classe_tp_cod_ef BAIXO = -1; MÉDIO = 0; ALTO = 1 Classe_prop_ph PROPORCIONAL = 1;

DESPROPORCIONAL = -1 Visualizou_pseudo SIM= -1; NÃO = 1

Execucao_codigo SIM = 1; NÃO = -1

Classe_nivel_detalhe_prob BAIXO = -1; MÉDIO = 0; ALTO = 1 Classe_nivel_detalhe_hip BAIXO = -1; MÉDIO = 0; ALTO = 1 Classe_nivel_compreensao BAIXO = -1; MÉDIO = 0; ALTO = 1

Fonte: Elaborado pelo autor

A tabela acima foi aplicada a cada uma das entradas e para cada uma delas foi calculado o total de pontos, de acordo com o valor das variáveis. A partir desta tabela foi definida uma regra geral para classificar os registros. Se o valor calculado após aplicar as regras for negativo e inferior a -1, considera-se que o esforço geral associado a atividade é baixo. Em caso de um valor positivo, superior a 1, a mesma é categorizada como alto, e nos demais valores, considerou-se médio. A categoria MEDIO indica uma neutralidade, ou seja, não é possível afirmar que o aluno se esforçou pouco, mas também não houve um esforço considerável.

Com a definição da pontuação e das regras para determinação da classe, o passo seguinte foi aplicar métodos de classificação supervisionada, com destaque para o algoritmo ByesNet (redes bayesianas) com o intuito de verificar se o método era capaz de aprender a classificar corretamente as entradas. Em um primeiro momento o objetivo era classificar em três grupos, porém os resultados mostrados abaixo justificam a utilização de apenas duas classes.

A figura 48 mostra os resultados da aplicação do algoritmo em um conjunto de dados com três classes para o esforço (“ALTO”, “MEDIO”, “BAIXO”). Avaliando as métricas e a matriz de confusão é possível constatar que tanto à acuracidade (84,67), quanto os demais índices não foram totalmente satisfatórios. As principais dificuldades estão relacionadas à determinação da classe “MEDIO”, cuja precisão ficou abaixo das demais (0,476).

Outros algoritmos para classificação, como o J48, baseado em árvore de decisão apresentou resultados semelhantes ao método BayesNet. A partir destes resultados, verificou- se a dificuldade de separar as entradas em três classes e foi tomada a decisão de utilizar somente duas classes, alto ou baixo, uma vez que o principal objetivo é identificar os estudantes que

apresentam baixos níveis de esforço. Além disso, o uso das redes bayesianas contribui para indicar a intensidade ou probabilidade de ser baixo ou alto, desta forma, uma classe intermediária tornou-se desnecessária.

Figura 48 – Resultados da classificação do esforço por atividade com 3 classes

Fonte: Elaborado pelo autor

A regra para determinação a priori do esforço foi ajustada para que as entradas cuja soma de pontos fosse inferior a zero fosse classificada como baixo e as demais como alto. Desta forma, as entradas foram segmentadas em duas classes, que passaram a determinar o nível de esforço em cada atividade. O arquivo arff foi novamente gerado, agora com duas classes para o atributo equivalente ao nível de esforço, e o método BayesNet foi novamente aplicado para verificar a capacidade do mesmo em classificar corretamente as entradas. Os resultados com apenas duas categorias é mostrado na figura 49.

Figura 49 – Resultados da classificação do esforço por atividade com 2 classes

Após os ajustes da tabela e da regra utilizada para classificação inicial dos dados, a técnica de Redes Bayesianas foi aplicada com o objetivo de obter uma tabela de probabilidades que será utilizada como base para a implementação do módulo para o reconhecimento do esforço do estudante. Os dados para o treinamento foram os mesmos utilizados na ferramenta Weka, porém, foi preciso criar um arquivo em formato texto.

O software Netica foi utilizado para construção da rede bayesiana, na qual foram definidas as dependências entre os atributos. A arquitetura da Rede Bayesiana é mostrada na figura 61. A estrutura é equivalente a que foi gerada pela aplicação do método BayesNet no Weka, na qual todas as variáveis têm dependência do nível de esforço. Esta estratégia foi adotada considerando o objetivo principal que é a determinação do esforço a partir dos valores dos demais atributos.

Figura 50 – Rede Bayesiana para o reconhecimento do esforço por atividade

Fonte: Elaborada pelo autor

A imagem mostra os percentuais que indicam a distribuição dos valores para cada atributo no conjunto de dados de entrada, sendo que a grande maioria dos registros utilizados no processo foi classificada como baixo esforço (62,2%). Nas demais variáveis, tempos e níveis de detalhe a predominância é da classe neutra (MEDIO), com uma maior quantidade de baixos, em relação ao número de valores altos.

O principal objetivo do processo de treinamento e aprendizado da rede bayesiana é a obtenção da tabela de probabilidades que permite classificar o nível de esforço e inferir sobre as probabilidades de todos os atributos em relação aos valores deste atributo. Os percentuais são calculados pelo software Netica e armazenados em cada uma das variáveis, formando o modelo bayesiano para classificação do esforço.

As tabelas de probabilidades são exibidas na figura 51, que exibe um quadro no qual aparece o nome do atributo (node) e uma tabela que exibe uma coluna inicial com os valores das classes do nível de esforço, seguida de três colunas com as probabilidades relacionadas aos valores do próprio atributo (node). Os números indica a chance dos valores aparecerem combinados em cada entrada, ou seja, uma maior ou menor chance do esforço ser alto ou baixo, dado um valor específico da variável.

Chama a atenção as probabilidades associadas ao nível de detalhamento e compreensão altos e de um nível de esforço baixo. Há uma chance mínima do esforço ser determinado como alto nas situações em que os detalhamentos ou compreensão são avaliados como baixo, o que evidencia a importância de uma avaliação criteriosa por parte do professor na correção dos exercícios. Um alto nível de esforço naturalmente está relacionado a altos percentuais nas categorias alto ou médio.

Observa-se um maior equilíbrio nos percentuais das variáveis que representam os tempos das tarefas. A probabilidade do tempo ser alto nos casos de nível de esforço baixo, por exemplo, é aproximadamente 20% no atributo que indica a classe para especificação dos pontos-chave (classe_tp_prob_ef), o que evidencia uma menor influência desta na determinação do nível de esforço.

Figura 51 – Tabelas de probabilidades da rede bayesiana para o reconhecimento do esforço por atividade

Fonte: Elaborado pelo autor

Considerando a relação entre o nível de compreensão e os níveis de detalhamento mostrados na análise exploratória, foram testadas outras arquiteturas para a rede, sendo uma delas apresentada na figura 52, na qual existe uma dependência entre os níveis de detalhe e a

compreensão. As simulações com diferentes combinações para os valores dos atributos mostraram pequenas diferenças nas probabilidades, mas em todas as situações a classe para o esforço foi a mesma.

Figura 52 – Rede Bayesiana alternativa para o reconhecimento do esforço

Fonte: Elaborado pelo autor

Com a nova arquitetura o impacto da variável que determina o nível de compreensão foi reduzido, especialmente nas situações em que o valor era médio ou alto, entretanto, a influência na definição do nível de esforço não foi acentuada. Após os testes com as diferentes arquiteturas, optou-se pela utilização da primeira, na qual são calculadas as probabilidades dos atributos em relação ao esforço. A estrutura simplificada foi escolhida devido ao fato de não haver uma convicção sobre a existência de uma dependência entre as variáveis citadas e em função da arquitetura ser equivalente aquela que é gerada automaticamente na ferramenta Weka.

No documento Estratégia de ensino e aprendizagem ativa aplicada ao aprendizado de algoritmos e programação : identificação e análise da motivação dos estudantes (páginas 144-149)