Sistema Proposto - Sistema Tutor Inteligente baseado em Aprendizado por Reforço

5.1 Introdução

O principal objetivo deste trabalho é propor e avaliar a aplicação de técnicas de Aprendizado por Reforço em Sistemas Tutores Inteligentes como mecanismo de individualização da aprendizagem. Este capítulo apresenta uma solução para a tutoria inteligente aplicando o método softmax de seleção de ações e a distribuição de Gibs para a probabilidade de escolha das ações. Esse método guia o aluno ao escolher qual o próximo conteúdo a ser visitado baseado em uma estimativa de qual deles pode produzir melhor desempenho. A solução proposta é avaliada empiricamente no Capítulo 6 deste trabalho.

5.2 Estratégia pedagógica

Em continuidade ao trabalho desenvolvido no Grupo Pireneus desde

1999, o conteúdo do curso é dividido em várioscontextose cada um em cinco

níveis [Melo et al. 2005] [Meireles et al. 2005]. Cada contexto é um pequeno

trecho do curso, um fato, um procedimento, um princípio ou um conceito a ser aprendido. Os níveis são diferentes formas de apresentar o conteúdo de um mesmo contexto. São três níveis principais diferenciados por profundidade de conteúdo compostos por textos e figuras e dois auxiliares, sendo eles:

• Intermediário: apresentação do conteúdo de forma abrangente e

aces-sível com nível de dificuldade mediano;

• Facilitado: onde o mesmo conteúdo do nível intermediário é abordado

utilizando um linguagem de compreensão mais imediata ao custo de alguma exatidão no conteúdo;

5.2 Estratégia pedagógica 46

• Perguntas freqüentes: nível que busca prover de um conjunto de

perguntas importantes e suas respostas;

• Exemplos: exemplificação do conteúdo ou sua aplicação.

Os três primeiros níveis apresentam o mesmo conteúdo utilizando textos e figuras em diferentes níveis de dificuldade. Os outros dois níveis fornecem material de apoio.

Ao iniciar o curso, o aluno sempre é direcionado ao nível intermediário

do primeiro contexto. Após cada nível visitado, um exercíciode múltipla

es-colha é apresentado. Após sua eses-colha, o aluno é guiado automaticamente

para outro nível do mesmo contexto ou para o próximo contexto. Portanto o sistema proposto utiliza a mesma estratégia pedagógica do sistema imple-mentado por MEIRELES [Meireles et al. 2005] e MELO [Melo et al. 2005].

Algumas restrições de navegaçãosão impostas:

• Para avançar para o próximo contexto, é necessário visitar e responder

questões de, no mínimo, dois níveis do contexto atual;

• O aluno é direcionado para o nível intermediário sempre que avança

para o próximo contexto;

• O aluno não pode retornar a um dos contextos anteriores ou visitar um

mesmo nível duas vezes.

O esquema de navegação utilizando a estratégia pedagógica é mos-trado na Figura 5.1.

Figura 5.1:Estratégia pedagógica utilizando contextos e

níveis onde a seta representa um caminho per-corrido.

5.3 Plano de Curso 47

5.3 Plano de Curso

Durante o processo ensino-aprendizagem, o módulo inteligente

de-termina um plano de curso dinâmico, atualizado a cada interação com o

aluno. Ao responder aos exercícios dos níveis, a técnica de aprendizado por re-forço reajusta sua representação das opções de navegação e do aluno de acordo com o grau de acerto da sua resposta. O aluno obtém um diferente plano de curso baseado na integração do grau de acerto de todos os exercícios respon-didos.

5.4 Modelagem do Ambiente

É necessário criar um modelo do ambiente para ser utilizado junto à técnica de aprendizado por reforço. Na solução proposta, o modelo é uma

representação da estratégia pedagógica e as possíveis respostas aos

exercícios. Os modelos mais simples podem considerar apenas as possíveis decisões e o acúmulo de recompensas. Nos mais complexos, pode-se armazenar um histórico de todas as ações selecionadas e considerar, para a tomada de decisão, todos os possíveis caminhos e o possível ganho acumulado para cada um deles até chegar ao último nível a ser visitado.

Foram desenvolvidos um modelo básico, um intermediário e um com-pleto. O modelo básico foi escolhido para implementação, segundo a diretriz

científica de aumentar a complexidade gradativamente1.

5.4.1 Modelo do ambiente

O modelo aplicado é uma versão simples da estratégia pedagógica

onde apenas as possíveis opções de navegação são consideradas. O

conjunto de ações que podem ser escolhidas é dinâmico conforme as restrições de navegação mencionadas e os níveis já visitados. O sistema inteligente tenta

descobrirqual ação(qual o próximo nível) pode produzir ummaior reforço

(fazer com que o aluno obtenha um melhor desempenho). Nesta modelagem, o histórico de navegação apenas acumula os resultados das navegações ante-riores. A Figura 5.2 ilustra como a decisão pode ser tomada no modelo básico.

O histórico do aluno é representado pela tabelaH, como representado

na Tabela 5.1, que armazena a quantidade de visitas em cada nível (k₁_,₂_,₄_ou₅),

1O princípio da Lâmina de Occan diz: “Se duas hipóteses explicam os dados com igual eficiência, deve prevalecer a mais simples”

5.5 Função de Valor das Ações 48

Figura 5.2:Representação básica da estratégia

pedagó-gica para a técnica de RL quando o aluno já visitou três níveis de um contexto.

a quantidade de mudança de contexto (k₆) e o somátorio das recompensas

(acúmulo) obtidas ao responder aos exercícios de cada nível (Σr_k₁_,₂_,₄_,₅_ou₆). As informações do nível intermediário (ou nível 3) são interpretadas como avanço para o próximo contexto. Para a tomada de decisão, são utilizadas somente as linhas correspondentes as opções válidas no instante.

Tabela 5.1:Representação do acúmulo de recompensas.

visitas recompensas nível facilitado k₁ Σr_k₁ nível intermediário - -nível avançado k₃ Σr_k₃ perguntas freqüentes k₄ Σr_k₄ exemplos k₅ Σr_k₅ próximo contexto k6 Σrk6

5.5 Função de Valor das Ações

O aluno é individualizado no sistema pelo acúmulo de

recom-pensas coletadas ao responder aos exercícios de cada nível visitado.

As perguntas objetivas possuem quatro alternativas. Sempre existe uma al-ternativa correta, uma errada, uma parcialmente correta e a opção "não sei". Cada tipo de resposta produz um reforço diferente para a técnica de aprendi-zado de máquina. Este reforço é utiliaprendi-zado para individualizar o plano de curso pelo algoritmo de aprendizado por reforço.

O valor das ações, nessa solução, são calculados a partir do acúmulo de recompensas no passado. A Tabela 5.1 é utilizada para calcular o valor de

5.6 Reforço Para o Aluno 49

cada ação. A Equação 5-1 é uma adaptação da Equação 4-3 para calcular o valor das ações na solução proposta.

Q(a) = ^H⁽^a,¹⁾

H₍_a,₂₎ ^{| ∀}^a⁼^{¹^,²^,⁴^,⁵^ou⁶^} ^(5-1)

Onde a indica um nível selecionado ou o avanço de contexto

(consi-derando que o nível intermediário significa mudança de contexto), H₍_a,₁₎ é a

quantidade de visitas àquele nível (armazenado na linha a e coluna 1 da

ta-belaH) eH(a,2) é o somatório das recompensas ao visitar o nível (armazenado

na linhaae coluna 2 da tabela H).

5.6 Reforço Para o Aluno

O reforço produzido para o sistema é diferente do produzido para o usuário. O reforço para o sistema é um número que indica a qualidade das ações do sistema. Ele é utilizado pelo algoritmo de reforço para aprender a guiar o aluno. O reforço para o aluno, no presente contexto, se refere a um

feedbackinformativo, na forma de uma mensagem, que é apresentado na tela

do computador. A mensagem informa o grau de acerto nos exercícios, ou nas questões do pré-teste e do teste final.

O conceito de “reforço” na psicologia comportamental refere-se, como processo, ao aumento da probabilidade de ocorrência de uma resposta como decorrência da conseqüencia da mesma com um estímulo reforçador. Como um procedimento, refere-se à operação de apresentação do estímulo reforçador como consequência de uma resposta. No caso do comportamento operante, denomina-se “contingência de reforço” o conjunto possível de condições sob as quais o responder produz estímulos reforçadores [Skinner 1972].

5.7 Avaliação do Aluno

Além dos exercícios, durante o curso, apresentados após cada nível visitado, o aluno é avaliado em outros dois momentos: antes e depois do

curso. Antes da navegação é aplicado um pré-teste e, após, o aluno passa

por umteste final. Ambos os testes cobrem todo o conhecimento abordado no

5.7 Avaliação do Aluno 50

para avaliar o ganho normalizado2, ou seja, a retenção de conhecimento após

utilizar o STI. Na Figura 5.7, pode-se ver a seqüência da aplicação dos testes e dos contextos.

Figura 5.3:Avaliação do aluno - pré-teste, teste final e

exercícios em cada nível.

O ganho normalizado é uma medida que permite avaliar o quanto o aluno aprendeu em relação ao quanto ainda restava para aprender. Pode-se, então, comparar a retenção de conhecimento de alunos com diferentes níveis de conhecimento. O ganho normalizado corrige a distorção entre grandes e

pequenos valores de notas iniciais presente no ganho absoluto3. Os ganhos

absoluto e o normalizado são calculados respectivamente pelas Equações 5-2 e 5-3 abaixo4:

GA= ^NF ⁻^NI

NI ^∗^100% ^(5-2)

GN = ^NF ⁻^NI

M −NI ^∗^100% ^(5-3)

2O ganho normalizado é utilizado para avaliar o ganho de um aluno quando ele realiza um pré-teste e um pós-teste ao estudar um tema. É uma medida do que foi aprendido pelo máximo que poderia ter sido aprendido.

3Como exemplo da distorção produzida pelo ganho absoluto, considere dois alunos A e B respectivamente com nota inicial 1,0 e 6,0 e nota final 3,0 e 9,0. O aluno A tem um ganho absoluto de 200% enquanto o aluno B tem um ganho absoluto de 50%.

5.8 Especificação do Algoritmo de Reforço 51

Onde GA é ganho absoluto, GN ganho normalizado, NF nota no teste final, NI nota no pré-teste e M a nota máxima que pode ser obtida.

5.8 Especificação do Algoritmo de Reforço

Foi escolhido o método softmax para a escolha das ações e o acúmulo de recompensas para calcular a utilidade das ações. A adaptabilidade e a sim-plicidade foram os critérios utilizados para estas duas escolhas. Este

meca-nismo necessita manter apenas as informações das recompensas coletadas (k_a

e Σr_k_a) e as possíveis ações que podem ser escolhidas (a, a ∃ 1,2,3,4,5,6) a cada interação.

Na solução proposta, a temperatura permite determinar, no

inter-valot, se as opções de navegação serão mais ou menos equiprováveis

conside-rando o acúmulo de recompensas nesse instante. Assim, é possível nas

primei-ras interações, garantir maior ou menor exploração5. Ataxa de caimentoda

temperatura reduz constantemente a temperatura, aumentando a diferença de probabilidade da escolha entre as ações com recompensas diferentes.

Os valores para a temperatura e para o caimento podem ser defini-dos a partir de situações conhecidas. É possível avaliar o comportamento do sistema ao utilizar inicialmente valores altos e baixos para a temperatura e quais as conseqüências ao diminuí-la com aceleração alta ou baixa. Essas si-mulações podem ser realizadas pré-definindo as respostas aos exercícios (ou comportamento do aluno) e avaliando o comportamento do sistema. O desem-penho é comparado, utilizando-se diferentes temperaturas para o mesmo con-junto de respostas. Após a definição da temperatura, o mesmo procedimento pode ser realizado com o caimento.

As ações são selecionadas pelo método softmax a partir da distribuição de Gibbs. A Equação 5-4 é utilizada para calcular a probabilidade de seleci-onar cada ação em um determinado instante. Ela é uma adaptação da dis-tribuição de Gibbs (Equação 4-4) para utilizar a função de valor da solução proposta (Equação 5-1).

p(a) = ^e

Q(a)/τ

Σ_b₌_VeQ(b)/τ (5-4)

5A exploração é definida em dois termos, a busca e o aproveitamento de conhecimento. Na busca, também chamada de exploration, novas situações são exploradas para procurar melhores resultados. No aproveitamento do conhecimento, conhecido como exploitation, o conhecimento já adquirido é utilizado para melhorar o desempenho.

5.9 Conclusão 52

A cada interação, as ações que direcionam o aluno a um nível já visitado são excluídas do conjunto de ações possíveis. Quando dois níveis são visitados, a ação que leva ao próximo contexto é adicionada ao conjunto de ações válidas. Utilizando-se essas restrições, na Equação 5-4, V é conjunto de ações válidas. Por exemplo, quando o aluno já visitou o nível intermediário e o facilitado, as ações possíveis são: visitar o nível avançado, visitar o nível perguntas freqüentes, visitar os exemplos ou avançar de contexto. V é o conjunto{3,4,5,6}.

5.9 Conclusão

Este capítulo apresentou a solução proposta, neste trabalho, para a aplicação do Aprendizado por Reforço em Sistemas Tutores Inteligentes. Foram descritos a estratégia pedagógica utilizada, o modelo do ambiente de ensino-aprendizagem aplicado, a forma de aplicação da ténica de aprendizado de máquina e como o aluno é avaliado.

CAPÍTULO 6

No documento Sistema Tutor Inteligente baseado em Aprendizado por Reforço (páginas 61-69)