• Nenhum resultado encontrado

2.2 Aprendizagem por Reforço

2.2.2 O Problema da Aprendizagem por Reforço

Um sistema típico de AR constitui-se, basicamente, de um agente interagindo em um ambiente via percepção e ação. Em outras palavras, o agente percebe as situações dadas no ambiente, pelo menos parcialmente, e, baseado nessas medições, seleciona uma ação a tomar no ambiente. A ação tomada muda de alguma forma o ambiente, afetando o estado na tentativa de alcançar o objetivo relacionado, e as mudanças são comunicadas ao agente através de um sinal de reforço. A gura 2.5 a seguir mostra a estrutura de um problema de Aprendizagem por Reforço [54].

42 Capítulo 2. Referencial Teórico

Figura 2.5: A interação agente-ambiente em Aprendizagem por Reforço.

Como os efeitos das ações não podem ser perfeitamente antecipados, o agente deve monitorar o ambiente frequentemente e reagir apropriadamente. Formalmente, o modelo de um sistema AR consiste em [54]:

1. um conjunto de variáveis de estado percebidas pelo agente, onde o conjunto das combinações de valores dessas variáveis forma o conjunto de estados discretos do agente (S);

2. um conjunto de ações discretas, que escolhidas por um agente muda o estado do ambiente (A(s), onde s ∈ S); e,

3. valor das transições de estados, que é passado ao agente através de um sinal de reforço, denominado ganho (valores tipicamente entre [0,1]).

O objetivo do método de Aprendizagem por Reforço é levar o agente a escolher a se- quência de ações que tendem a aumentar a soma de valores de reforço, ou seja, é encontrar a política π, denida como o mapeamento de estados em ações que maximize as medidas do reforço acumuladas no tempo.

Denido o problema e o objetivo central da Aprendizagem por Reforço, a seguir descrevem-se, sucintamente, com base em [54], os cinco componentes elementares deste contexto:

1. Ambiente: todo sistema de AR aprende um mapeamento de situações e ações por experimentação em um ambiente dinâmico. O ambiente no qual está inserido o sistema, em geral, deve ser, pelo menos parcialmente observável através de sen- sores, o que permite que toda informação relevante do mesmo esteja perfeitamente disponível para que o agente possa escolher ações baseadas em estados reais desse ambiente;

2.2. Aprendizagem por Reforço 43

2. Política: uma política expressa pelo termo π representa o comportamento que o sistema AR segue para alcançar o objetivo. Em outras palavras, uma política π é um mapeamento de estados s e ações a em um valor π(s, a). Assim, se um agente AR muda a sua política, então as probabilidades de seleção de ações sofrem mudanças e consequentemente, o comportamento do sistema apresenta variações à medida que o agente vai acumulando experiência a partir das interações com o ambiente. Portanto, o processo de aprendizado no sistema AR pode ser expresso em termos da convergência até uma política ótima (π∗(s, a)) que conduza à solução do problema

de forma ótima;

3. Reforço e Retorno: o reforço é um sinal do tipo escalar (rt+1) que é devolvido

pelo ambiente ao agente assim que uma ação tenha sido efetuada e uma transição de estado (st → st+1) tenha ocorrido. Existem diferentes formas de denir o reforço

para cada transição no ambiente, gerando-se funções de reforço que, intrinseca- mente, expressam o objetivo que o sistema AR deve alcançar. Assim, o agente deve maximizar a quantidade total de reforços recebidos, o que nem sempre implica em maximizar o reforço imediato (rt+1) a receber, uma vez que pode corresponder, tam-

bém, a maximizar o reforço acumulado durante a execução total. Tal acúmulo de reforços recebidos pelo ambiente, referente a uma determinada execução, é chamado de retorno. É justamente este retorno que o agente busca maximizar.

De modo geral, pode-se dizer que o sistema AR busca maximizar o valor esperado de retorno, que pode ser denido como uma função da sequência de valores de re- forço até um tempo T nal. No caso mais simples é um somatório como aparece na equação (2.3):

RT = rt+1+ rt+2+ rt+3+ ... + rT (2.3)

Em muitos casos a interação entre agente e ambiente não termina naturalmente em um episódio (sequência de estados que chegam até o estado nal), mas continua sem limite, como por exemplo, em tarefas de controle contínuo. Para essas tarefas a formulação do retorno é um problema, pois T = ∞ e o retorno que se deseja obter também tende ao innito (RT → ∞).

Para estes problemas, é criada uma taxa de amortização (γ), a qual determina o grau de inuência que têm os valores dos reforços futuros sobre o reforço total (ou retorno). Assim, aplicando a taxa de amortização à expressão do retorno da equação (2.3), têm-se a seguinte equação:

RT = rt+1+ γrt+2+ γ2rt+3+ ... = ∞

X

k=0

γkrt+k+1 (2.4)

onde, 0 < γ < 1. Se γ → 0, o agente tem uma visão míope dos reforços, maxi- mizando apenas os reforços imediatos, e se γ → 1, a visão do reforço abrange todos

44 Capítulo 2. Referencial Teórico

os estados futuros dando maior importância ao estado nal, desde que a sequência RT seja limitada.

Dessa forma, um sistema de AR faz um mapeamento de estados em ações baseado nos reforços recebidos. Com isso, o objetivo do AR é denido usando-se o conceito de função de reforço, a qual é uma função dos reforços futuros que o agente procura maximizar. Ao maximizar essa função, o objetivo será alcançado de forma ótima. É a função de reforço que dene quais são os bons e maus eventos para os agentes; 4. Função de Reforço: as funções de reforço podem ser bastante complicadas, porém existem pelo menos três classes de problemas frequentemente usadas para criar funções adequadas a cada tipo de problema:

• Reforço só no estado nal: nesta classe, as recompensas são todas zero, exceto no estado nal, em que o agente recebe uma recompensa (ex: +1) ou uma penalidade (ex: −1). Como o objetivo é maximizar o reforço, o agente irá aprender que os estados que levaram a uma recompensa são bons e os que levaram a uma penalidade devem ser evitados;

• Tempo mínimo ao objetivo: nesta classe as funções de reforço fazem com que o agente realize ações que produzam o caminho ou trajetória mais curta para alcançar um estado objetivo. Toda ação tem penalidade (-1), sendo que o estado nal é (0). Como o agente tenta maximizar valores de reforço, ele aprende a escolher ações que minimizam o tempo que leva para alcançar o estado nal;

• Minimizar reforços: em certas ocasiões o agente nem sempre precisa ou deve tentar maximizar a função de reforço, podendo também aprender a minimizá- la. Isto é útil quando o reforço é uma função para recursos limitados e o agente deve aprender a conservá-los ao mesmo tempo em que alcança o objetivo. 5. Funções de Valor-Estado: dene-se uma função valor-estado como o mapea-

mento do estado, ou par estado-ação em um valor que é obtido a partir do reforço atual e dos reforços futuros.

Se a função valor-estado considera só o estado s é denotada como V (s), enquanto se é considerado o par estado-ação (s, a), então a função valor-estado é denotada como função valor-ação Q(s, a).

a) Função valor-estado V (s): uma vez que os reforços futuros mantêm depen- dências das ações futuras, as funções valor dependem também da política π que o AR segue. Em um Processo de Decisão Markoviano (ver subseção 2.4.3.2), dene-se uma função valor-estado Vπ(s) dependente da política π

2.2. Aprendizagem por Reforço 45 como a equação: Vπ(s) = Eπ[Rt|st= s] = Eπ[ ∞ X k=0 γkrt+k+1|st = s] (2.5)

onde a função Vπ(s)é o valor esperado do retorno para o estado s

t= s, isto é,

o somatório dos reforços aplicando a taxa de amortização γ.

b) Função valor-ação Q(s, a): se considerar o par estado-ação, a equação para a função valor-estado Qπ(s, a) será a seguinte:

Qπ(s, a) = Eπ[Rt|st= s, at = a] = Eπ[ ∞

X

k=0

γkrt+k+1|st= s, at= a] (2.6)

que é semelhante à equação (2.3), só que considerando o reforço esperado para um estado st = se uma ação at = a.

As equações 2.3 e 2.4 apresentam as funções valor-estado e valor-ação respectiva- mente, que dependem exatamente dos valores de reforço, o qual implica o conheci- mento completo da dinâmica do ambiente como um Processo de Decisão Markoviano (PDM). Na próxima seção resumem-se o processo PDM e suas propriedades.