5.1 Introdução
O principal objetivo deste trabalho é propor e avaliar a aplicação de técnicas de Aprendizado por Reforço em Sistemas Tutores Inteligentes como mecanismo de individualização da aprendizagem. Este capítulo apresenta uma solução para a tutoria inteligente aplicando o método softmax de seleção de ações e a distribuição de Gibs para a probabilidade de escolha das ações. Esse método guia o aluno ao escolher qual o próximo conteúdo a ser visitado baseado em uma estimativa de qual deles pode produzir melhor desempenho. A solução proposta é avaliada empiricamente no Capítulo 6 deste trabalho.
5.2 Estratégia pedagógica
Em continuidade ao trabalho desenvolvido no Grupo Pireneus desde
1999, o conteúdo do curso é dividido em várioscontextose cada um em cinco
níveis [Melo et al. 2005] [Meireles et al. 2005]. Cada contexto é um pequeno
trecho do curso, um fato, um procedimento, um princípio ou um conceito a ser aprendido. Os níveis são diferentes formas de apresentar o conteúdo de um mesmo contexto. São três níveis principais diferenciados por profundidade de conteúdo compostos por textos e figuras e dois auxiliares, sendo eles:
• Intermediário: apresentação do conteúdo de forma abrangente e
aces-sível com nível de dificuldade mediano;
• Facilitado: onde o mesmo conteúdo do nível intermediário é abordado
utilizando um linguagem de compreensão mais imediata ao custo de alguma exatidão no conteúdo;
5.2 Estratégia pedagógica 46
• Perguntas freqüentes: nível que busca prover de um conjunto de
perguntas importantes e suas respostas;
• Exemplos: exemplificação do conteúdo ou sua aplicação.
Os três primeiros níveis apresentam o mesmo conteúdo utilizando textos e figuras em diferentes níveis de dificuldade. Os outros dois níveis fornecem material de apoio.
Ao iniciar o curso, o aluno sempre é direcionado ao nível intermediário
do primeiro contexto. Após cada nível visitado, um exercíciode múltipla
es-colha é apresentado. Após sua eses-colha, o aluno é guiado automaticamente
para outro nível do mesmo contexto ou para o próximo contexto. Portanto o sistema proposto utiliza a mesma estratégia pedagógica do sistema imple-mentado por MEIRELES [Meireles et al. 2005] e MELO [Melo et al. 2005].
Algumas restrições de navegaçãosão impostas:
• Para avançar para o próximo contexto, é necessário visitar e responder
questões de, no mínimo, dois níveis do contexto atual;
• O aluno é direcionado para o nível intermediário sempre que avança
para o próximo contexto;
• O aluno não pode retornar a um dos contextos anteriores ou visitar um
mesmo nível duas vezes.
O esquema de navegação utilizando a estratégia pedagógica é mos-trado na Figura 5.1.
Figura 5.1:Estratégia pedagógica utilizando contextos e
níveis onde a seta representa um caminho per-corrido.
5.3 Plano de Curso 47
5.3 Plano de Curso
Durante o processo ensino-aprendizagem, o módulo inteligente
de-termina um plano de curso dinâmico, atualizado a cada interação com o
aluno. Ao responder aos exercícios dos níveis, a técnica de aprendizado por re-forço reajusta sua representação das opções de navegação e do aluno de acordo com o grau de acerto da sua resposta. O aluno obtém um diferente plano de curso baseado na integração do grau de acerto de todos os exercícios respon-didos.
5.4 Modelagem do Ambiente
É necessário criar um modelo do ambiente para ser utilizado junto à técnica de aprendizado por reforço. Na solução proposta, o modelo é uma
representação da estratégia pedagógica e as possíveis respostas aos
exercícios. Os modelos mais simples podem considerar apenas as possíveis decisões e o acúmulo de recompensas. Nos mais complexos, pode-se armazenar um histórico de todas as ações selecionadas e considerar, para a tomada de decisão, todos os possíveis caminhos e o possível ganho acumulado para cada um deles até chegar ao último nível a ser visitado.
Foram desenvolvidos um modelo básico, um intermediário e um com-pleto. O modelo básico foi escolhido para implementação, segundo a diretriz
científica de aumentar a complexidade gradativamente1.
5.4.1 Modelo do ambiente
O modelo aplicado é uma versão simples da estratégia pedagógica
onde apenas as possíveis opções de navegação são consideradas. O
conjunto de ações que podem ser escolhidas é dinâmico conforme as restrições de navegação mencionadas e os níveis já visitados. O sistema inteligente tenta
descobrirqual ação(qual o próximo nível) pode produzir ummaior reforço
(fazer com que o aluno obtenha um melhor desempenho). Nesta modelagem, o histórico de navegação apenas acumula os resultados das navegações ante-riores. A Figura 5.2 ilustra como a decisão pode ser tomada no modelo básico.
O histórico do aluno é representado pela tabelaH, como representado
na Tabela 5.1, que armazena a quantidade de visitas em cada nível (k1,2,4ou5),
1O princípio da Lâmina de Occan diz: “Se duas hipóteses explicam os dados com igual eficiência, deve prevalecer a mais simples”
5.5 Função de Valor das Ações 48
Figura 5.2:Representação básica da estratégia
pedagó-gica para a técnica de RL quando o aluno já visitou três níveis de um contexto.
a quantidade de mudança de contexto (k6) e o somátorio das recompensas
(acúmulo) obtidas ao responder aos exercícios de cada nível (Σrk1,2,4,5ou6). As informações do nível intermediário (ou nível 3) são interpretadas como avanço para o próximo contexto. Para a tomada de decisão, são utilizadas somente as linhas correspondentes as opções válidas no instante.
Tabela 5.1:Representação do acúmulo de recompensas.
visitas recompensas nível facilitado k1 Σrk1 nível intermediário - -nível avançado k3 Σrk3 perguntas freqüentes k4 Σrk4 exemplos k5 Σrk5 próximo contexto k6 Σrk6
5.5 Função de Valor das Ações
O aluno é individualizado no sistema pelo acúmulo de
recom-pensas coletadas ao responder aos exercícios de cada nível visitado.
As perguntas objetivas possuem quatro alternativas. Sempre existe uma al-ternativa correta, uma errada, uma parcialmente correta e a opção "não sei". Cada tipo de resposta produz um reforço diferente para a técnica de aprendi-zado de máquina. Este reforço é utiliaprendi-zado para individualizar o plano de curso pelo algoritmo de aprendizado por reforço.
O valor das ações, nessa solução, são calculados a partir do acúmulo de recompensas no passado. A Tabela 5.1 é utilizada para calcular o valor de
5.6 Reforço Para o Aluno 49
cada ação. A Equação 5-1 é uma adaptação da Equação 4-3 para calcular o valor das ações na solução proposta.
Q(a) = H(a,1)
H(a,2) | ∀a={1,2,4,5ou6} (5-1)
Onde a indica um nível selecionado ou o avanço de contexto
(consi-derando que o nível intermediário significa mudança de contexto), H(a,1) é a
quantidade de visitas àquele nível (armazenado na linha a e coluna 1 da
ta-belaH) eH(a,2) é o somatório das recompensas ao visitar o nível (armazenado
na linhaae coluna 2 da tabela H).
5.6 Reforço Para o Aluno
O reforço produzido para o sistema é diferente do produzido para o usuário. O reforço para o sistema é um número que indica a qualidade das ações do sistema. Ele é utilizado pelo algoritmo de reforço para aprender a guiar o aluno. O reforço para o aluno, no presente contexto, se refere a um
feedbackinformativo, na forma de uma mensagem, que é apresentado na tela
do computador. A mensagem informa o grau de acerto nos exercícios, ou nas questões do pré-teste e do teste final.
O conceito de “reforço” na psicologia comportamental refere-se, como processo, ao aumento da probabilidade de ocorrência de uma resposta como decorrência da conseqüencia da mesma com um estímulo reforçador. Como um procedimento, refere-se à operação de apresentação do estímulo reforçador como consequência de uma resposta. No caso do comportamento operante, denomina-se “contingência de reforço” o conjunto possível de condições sob as quais o responder produz estímulos reforçadores [Skinner 1972].
5.7 Avaliação do Aluno
Além dos exercícios, durante o curso, apresentados após cada nível visitado, o aluno é avaliado em outros dois momentos: antes e depois do
curso. Antes da navegação é aplicado um pré-teste e, após, o aluno passa
por umteste final. Ambos os testes cobrem todo o conhecimento abordado no
5.7 Avaliação do Aluno 50
para avaliar o ganho normalizado2, ou seja, a retenção de conhecimento após
utilizar o STI. Na Figura 5.7, pode-se ver a seqüência da aplicação dos testes e dos contextos.
Figura 5.3:Avaliação do aluno - pré-teste, teste final e
exercícios em cada nível.
O ganho normalizado é uma medida que permite avaliar o quanto o aluno aprendeu em relação ao quanto ainda restava para aprender. Pode-se, então, comparar a retenção de conhecimento de alunos com diferentes níveis de conhecimento. O ganho normalizado corrige a distorção entre grandes e
pequenos valores de notas iniciais presente no ganho absoluto3. Os ganhos
absoluto e o normalizado são calculados respectivamente pelas Equações 5-2 e 5-3 abaixo4:
GA= NF −NI
NI ∗100% (5-2)
GN = NF −NI
M −NI ∗100% (5-3)
2O ganho normalizado é utilizado para avaliar o ganho de um aluno quando ele realiza um pré-teste e um pós-teste ao estudar um tema. É uma medida do que foi aprendido pelo máximo que poderia ter sido aprendido.
3Como exemplo da distorção produzida pelo ganho absoluto, considere dois alunos A e B respectivamente com nota inicial 1,0 e 6,0 e nota final 3,0 e 9,0. O aluno A tem um ganho absoluto de 200% enquanto o aluno B tem um ganho absoluto de 50%.
5.8 Especificação do Algoritmo de Reforço 51
Onde GA é ganho absoluto, GN ganho normalizado, NF nota no teste final, NI nota no pré-teste e M a nota máxima que pode ser obtida.
5.8 Especificação do Algoritmo de Reforço
Foi escolhido o método softmax para a escolha das ações e o acúmulo de recompensas para calcular a utilidade das ações. A adaptabilidade e a sim-plicidade foram os critérios utilizados para estas duas escolhas. Este
meca-nismo necessita manter apenas as informações das recompensas coletadas (ka
e Σrka) e as possíveis ações que podem ser escolhidas (a, a ∃ 1,2,3,4,5,6) a cada interação.
Na solução proposta, a temperatura permite determinar, no
inter-valot, se as opções de navegação serão mais ou menos equiprováveis
conside-rando o acúmulo de recompensas nesse instante. Assim, é possível nas
primei-ras interações, garantir maior ou menor exploração5. Ataxa de caimentoda
temperatura reduz constantemente a temperatura, aumentando a diferença de probabilidade da escolha entre as ações com recompensas diferentes.
Os valores para a temperatura e para o caimento podem ser defini-dos a partir de situações conhecidas. É possível avaliar o comportamento do sistema ao utilizar inicialmente valores altos e baixos para a temperatura e quais as conseqüências ao diminuí-la com aceleração alta ou baixa. Essas si-mulações podem ser realizadas pré-definindo as respostas aos exercícios (ou comportamento do aluno) e avaliando o comportamento do sistema. O desem-penho é comparado, utilizando-se diferentes temperaturas para o mesmo con-junto de respostas. Após a definição da temperatura, o mesmo procedimento pode ser realizado com o caimento.
As ações são selecionadas pelo método softmax a partir da distribuição de Gibbs. A Equação 5-4 é utilizada para calcular a probabilidade de seleci-onar cada ação em um determinado instante. Ela é uma adaptação da dis-tribuição de Gibbs (Equação 4-4) para utilizar a função de valor da solução proposta (Equação 5-1).
p(a) = e
Q(a)/τ
Σb=VeQ(b)/τ (5-4)
5A exploração é definida em dois termos, a busca e o aproveitamento de conhecimento. Na busca, também chamada de exploration, novas situações são exploradas para procurar melhores resultados. No aproveitamento do conhecimento, conhecido como exploitation, o conhecimento já adquirido é utilizado para melhorar o desempenho.
5.9 Conclusão 52
A cada interação, as ações que direcionam o aluno a um nível já visitado são excluídas do conjunto de ações possíveis. Quando dois níveis são visitados, a ação que leva ao próximo contexto é adicionada ao conjunto de ações válidas. Utilizando-se essas restrições, na Equação 5-4, V é conjunto de ações válidas. Por exemplo, quando o aluno já visitou o nível intermediário e o facilitado, as ações possíveis são: visitar o nível avançado, visitar o nível perguntas freqüentes, visitar os exemplos ou avançar de contexto. V é o conjunto{3,4,5,6}.
5.9 Conclusão
Este capítulo apresentou a solução proposta, neste trabalho, para a aplicação do Aprendizado por Reforço em Sistemas Tutores Inteligentes. Foram descritos a estratégia pedagógica utilizada, o modelo do ambiente de ensino-aprendizagem aplicado, a forma de aplicação da ténica de aprendizado de máquina e como o aluno é avaliado.