Reinforcement Learning (Aprendizado por reforço)

(1)

Reinforcement Learning

(Aprendizado por reforço)

Karla Figueiredo DEE/PUC-Rio

Plano de Aulas:

z Reinforcement Learning – Conceitos básicos

– Elementos de um sistema RL/Características

z Fundamentos Teóricos

– Processos de Decisão de Markov – Propriedade de Markov

– Funções de Valor – Aprendizado RL

z Métodos para a solução do problema de RL

– Programação Dinâmica – Monte Carlo

– Diferenças Temporais

z TD

z Aprendizado on-policy e off-policy

– Q-Learning

– SARSA z Eligibility Traces z Estudo de Casos

(2)

Bibliografia

z SUTTON, R.S., BARTO, A.G., Reinforcement Learning: An Introduction, 1998.

z KAELBLING, L.P.; LITTMAN M. L.; MOORE, W.A. Reinforcement Learning: A Survey, JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 4, May 1996, p. 237-285.

z RIBEIRO, C.H.C. A Tutorial on Reinforcement Learning Techniques In: International Joint Conference on Neural Networks ed. : INNS Press, 1999.

z SINGH, S.P.; SUTTON, R.S. Reinforcement learning with replacing eligibility traces, Machine Learning, vol. 22, no. 1, 1996, p. 123-158.

z SUTTON, R.S. Temporal Credit Assignment in Reinforcement Learning, Ph.D. thesis, University Massachusetts, Amherst, MA., 1984.

z BERTSEKAS, D.P. Dynamic Programming: Deterministic and Stochastic Models. Prentice Hall, Englewood Cliffs, NJ, 1987

z BELLMAN, R.E. Dynamic Programming, Princeton, NJ, Princeton University Press, 1957.

• BARTO, A.G. Reinforcement Learning and Adaptive Critic Methods, HANDBOOK OF INTELLIGENT CONTROL: NEURAL, FUZZY, AND ADAPTIVE APPROACHES, NY, White, D.A.; Sofge, D.A. (eds), Van Nostrand, Reinhold, 1992. p.469-491. • Boyan, J.A.; Moore, A.W. Generalization in reinforcement learning: Safely

approximating the value function, G. Tesauro, D. S. Touretzky, and T. K. Leen,

editors, ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7, Cambridge, MA, The MIT Press, 1995.

• BAIRD, L. Residual algorithms: Reinforcement learning with function

approximation, Armand Prieditis and Stuart Russell, editors, Proceedings of the

Twelfth International Conference on Machine Learning, San Francisco, CA, 1995, Morgan Kaufmann., p 30-37.

Bibliografia

(3)

Reinforcement Learning

Conceitos Básicos

Muitas vezes é impraticável o uso de aprendizagem supervisionada

z Como se aprende a escolher ações apenas interagindo com o ambiente?

z Como obter exemplos do comportamento correto e representativo para qualquer situação ?

z E se o agente for atuar em um ambiente desconhecido?

Motivação

Exemplo:

Criança adquirindo coordenação motora

(4)

Histórico

Reinforcement

Learning

Moderno

Psicologia Controle Bellman, 1950s Thorndike, 1910s Lei do Efeito seleção e associação Reinforcement

ReinforcementLearningLearning SupervisedSupervisedLearningLearning

z Aprendizado a partir da interação “learner – environment” z Baseado no “tentativa e erro” z Existe processo de busca (exploration) no espaço z Orientado a objetivo z Aprendizado a partir de padrões entrada -saída. z Baseado em minimizar um erro. z Busca limitada ao valores dos padrões padrões entrada-saída

z Orientado a

(5)

Aprendizado por reforço

Agente

Percepções (sensores)

Estado (modelo do mundo)

Ambiente

Ação Reforço _(+/-)

• O agente recebe do ambienteum valor de resposta (recompensa). • Esta recompensa avalia o desempenho do agente durante o processo

de aprendizado. s_t+1 Ambiente Estado s_t∈S Reforço r_t rt+1 ação a_t∈ A(s_t) Agente

Reinforcement

(6)

O que é aprendizado por reforço ?

z Problema de aprendizagem pode ser definido: –

– Um agente em um ambiente a cada instante Um agente em um ambiente a cada instante

de tempo de tempo tt::

z

zo agente está em um o agente está em um estadoestadoss

z

zexecuta uma executa uma açãoaçãoaa

z

zvai para um vai para um estadoestados’s’

z

zrecebe uma recebe uma recompensarecompensarr

Algumas aplicações

z [Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço:

– Vitória: +100 – Derrota: – 100

– Zero para os demais estados do jogo (delayed reward) – Após 1 milhão de partidas contra ele mesmo, joga tão bem

(7)

Algumas aplicações

z Time Brainstormers da Robocup (entre os 3 melhores nos 3 últimos anos)

– Objetivo: Time cujo conhecimento é obtido 100% por técnicas de aprendizagem por reforço

– RL em situações específicas z 2 atacantes contra 2 defensores

z habilidades básicas

z Inúmeras aplicações em problemas de otimização, de controle, jogos e outros...

Reinforcement Learning

Model-Based Model-Free off-policy on-policy Diferença Temporal Diferença Temporal SARSA Q-learning R-learning Qyna

Programação Dinâmica + Monte Carlo

AHC(Actor Heuristic Critic ou Actor-Critic Method)

(8)

Plano de Aulas:

z Reinforcement Learning

– Conceitos básicos

– Programação Dinâmica – MonteCarlo

z TD

z Q-Learning

z SARSA

– Eligibility Traces

z Estudo de Casos

z Reinforcement Learning são métodos de aprendizado

obtido pela interação de um agentecom o ambiente externo.

z Aprender o mapeamento de estados e ações para escolher as ações ótimas a serem tomadas dado um objetivo do agente.

z A métrica da qualidadeda açãoescolhida é o reforço recebido após ter sido tomada a ação no estado atual.

Reinforcement

(9)

Elementos de um sistema RL

z Ambiente z Agente z Política z Reforço z Retorno z Estado

Elementos de um sistema RL

z

Ambiente:

É o sistema físico externo.

z

Agente:

inserido no ambiente, é o aprendiz e

toma ações que mudam o ambiente.

z

Política (π

_t

):

Mapeamento entre estados e ações.

Representa o comportamento do sistema no

ambiente no tempo t.

A política Π_t(s,a) é a probabilidade da ação a_t=a se s_t=s

(10)

Política de ações (

π

)

z Função que modela o comportamento do agente – Mapeia estados em ações

z Pode ser vista como um conjunto de regras do tipo s_n → a_m

– Exemplo:

zSe estado s = (inimigo próximo, estou perdendo e tempo acabando) então

ação a = (usar magia);

zSe estado s =(outro estado) então ...

z Reforço (r):É um valor escalar, resposta do ambiente

dada uma ação executada pelo agente, é a qualidade imediata da ação tomada para o estado atual.

z A partir do reforço é obtida outra função que é fundamental no processo de aprendizado do agente.

z O reforço representa o que deve ser feito, não como fazer.

Elementos de um sistema RL

(11)

Retorno:

O objetivo do agente é maximizar a seqüência de recompensas recebidas, ou seja, maximizar o Retorno esperado T t t t t r r r r R = ₊₁+ ₊₂+ ₊₃+_L+

∑

∞ = + + + + +

+

=

0 1 3 2 2 1 k k t k t t t t

r

R

γ

_L

γ

Elementos de um sistema RL

Quanto T=4 → γ (taxa de desconto)

Onde: 0<=γ<=1

z Estado (s): A condição atual do ambiente especificada por um conjunto de variáveis adequadas ao problema

– Formado pelas percepções do agente + modelo do mundo; – Deve prover informação para o agente de quais ações

podem ser executadas;

– A representação deste estado deve ser suficiente para que

o agente tome suas decisões.

Elementos de um sistema RL

(12)

• As ações são escolhas feitas pelos agentes; • As recompensas são a base para avaliação das

escolhas;

• Os estados são a base para se fazer as escolhas;

Elementos de um sistema RL

Plano de Aulas:

z Reinforcement Learning

– Conceitos básicos

– Programação Dinâmica – MonteCarlo

z TD

z Q-Learning

z SARSA

– Eligibility Traces

(13)

Reinforcement Learning

Fundamentos Teóricos

Propriedade de

Markov

r

_t₋

_K

r

s

a

No caso mais geral, se a resposta do ambiente em t+1, para uma ação em t depende de todo o histórico de ações até o momento atual, a dinâmica do ambienteé definidapela especificação completada distribuição de probabilidades:

(14)

Propriedade de

Markov

,

a

_t

}

Pr

₊₁

=

₊₁

=

Se o ambiente tem propriedade de Markov, então ele pode prever e o próximo estado e o valor esperado para o retorno dado o estado e a ação atual.

É possível criar soluções incrementais, facilitando a implementação computacional.

Assim a decisão de que ação tomar não pode depender da seqüência de estados anteriores Exemplo:

Um tabuleiro de dama satisfaz esta propriedade, mas de xadrez não

Propriedade de

(15)

Processos de Decisão de

Markov

–

PDM

z Em RL, o ambiente deve ser modelado como um Processo de Decisão de

Markov (Markovian Decision Process MDP)

Um MDP definido:

z Um conjunto de estados S

z Um conjunto de ações A(s)

z Uma função de reforço R(s, s’,a),onde R = S × A → R,

z Uma função de probabilidade P(s, s’,a),onde P = S × A → P

de transição entre estados

z Se o espaço de estados e ações é finito PDM finito – 90% dos problemas RL t s st+1 st+2 st+3 t a at+1 at+2 at+3 1 + t r rt+2 rt+3 ... ...

Processos de Decisão de

Markov

–

PDM

1-β, -3 β, Rsearch 1, Rwait 1-α, Rsearch 1, Rwait α, Rsearch Probabilidades de Transição

Valor Esperado do Reforço

(16)

Processo de Decisão de

Processo de Decisão de MarkovMarkovfinito e discreto no tempofinito e discreto no tempo •ambiente evolui probabilisticamente baseado num conj. finito e

discreto de estados

•o estado possui conj. ações finito, onde a mais adequada deve ser aprendida;

•cada ação executada deve ser avaliada,

•os estados são observados, ações são executadas e reforços são relacionados

Processos de Decisão de

Markov

–

PDM

Exemplos de PDMs

Ociosidade (tempo sem visitas) do lugar visitado atualmente Ir para algum lugar

vizinho do mapa Posição no mapa (atual e passadas) Agente patrulhador (Sangue tirado – sangue perdido) Mover-se em uma determinada direção, lançar magia, bater, etc... Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc... Agente em jogo de luta #capturas – #perdas Mover uma determinada peça Configurações do tabuleiro Agente jogador de damas Recompensas Ações Estados Problema

(17)

Função de Valor

RL→ Função de Valor→ r→a

Funções de Valorsão definidas com respeito a

uma política particular.

z Função de Valor:Valor esperado condicional da função de reforço para um estado e uma ação, seguindo uma política

{

}

⎭ ⎬ ⎫ ⎩ ⎨ ⎧ ₌ = = =

∑

∞ =0 + +1 ) ( k t k t k t t s s E r s s R E s Vπ π π γ

{

}

⎭ ⎬ ⎫ ⎩ ⎨ ⎧ ₌ ₌ = = = =

∑

∞ =0 + +1 , , ) , ( k t t k t k t t ts sa a E r s sa a R E a s Q π π γ π

A função de valor representa o reforço esperado a longo prazo.

Função de valor do estado para π

Função de valor da ação para π

Função de Valor

(18)

Para qualquer π e s a função de valor de s em π é avaliada para os possíveis s´:

Equação de Bellman: Relação valor do estado e dos valores dos estados sucessivos

Função de Valor

A eq. Bellman realiza a média sobre todas as possibilidades, onde o peso são as probabilidades de ocorrência.

Valor deste estado é o valor esperado para o próximo estado + reforço esperado

Backup diagrams: formam a base das operações de atualização

Função de Valor

(19)

Objetivo do RL

O objetivo do RL é maximizaro reforço total (função

valor) obtido a longo prazo

Busca de uma política que

maximize o valor esperado de reforço para cada estado

s do conjunto S

) (

:s∈S →a∈A s

π

Funções de Valor Ótimas

Solucionar RL →encontrar a política ótima.

A π émelhor π´ se o retorno esperado é maior ou igual

para todos os estados.

Se π>= π´, ⇔ Vπ(s) >= Vπ´(s) para todo s ∈ S

Se existe (e sempre existe) uma π que é melhor ou igual

(20)

Funções Valor Ótimas

z Se maximizamos (como definido para encontrar a função valor ótima), temos que:

{

}

{

r Q s a s s a a

}

E a s Q a s Q s s s V r E s V s V t t t t s a t t t a s a = = + = = = + = = + + ∈ + + ∈ , | ) ' , ( max ) , ( max ) , ( | ) ( max ) ( max ) ( 1 * 1 * ) ( * 1 * 1 * ) ( * γ γ π π π π A A

Estas são as equações de otimalidade de Bellman

Funções Valor Ótimas

Estas são as duas formas para a Equação de otimalidade

(21)

Funcões

Valor ótimas

{ }

{

r Q s a s sa a

}

E a s Q a s Q s s s V r E s V s V t t t a t s a t t t a s a = = + = = = + = = + + ∈ + + ∈ , | ) ' , ( max ) , ( max ) , ( | ) ( max ) ( max ) ( 1 * ' 1 * ) ( * 1 1 * ) ( * γ γ π π π π A A

z Das equações de Bellman, temos que a forma de enxergar o ótimo é

Funções Valor ótimas: Políticas Ótimas

Existem funções de valor ótimas (que maximizam o retorno ao longo prazo):

Que representam políticas ótimas:

)

(

max

)

(

*

s

V

s

V

π π

=

Q*(s,a) maxQπ(s,a) π = ) , ( max arg ) ( * * a s Q s π

π

=

V

L

Funções Valor ótimas: Políticas Ótimas

Três Suposições Verdadeiras:

• A dinâmica do ambiente é conhecida; • Recurso computacional suficiente; • Propriedades de Markov.