Reinforcement Learning
(Aprendizado por reforço)
Karla Figueiredo DEE/PUC-Rio
Plano de Aulas:
Plano de Aulas:
z Reinforcement Learning – Conceitos básicos– Elementos de um sistema RL/Características
z Fundamentos Teóricos
– Processos de Decisão de Markov – Propriedade de Markov
– Funções de Valor – Aprendizado RL
z Métodos para a solução do problema de RL
– Programação Dinâmica – Monte Carlo
– Diferenças Temporais
z TD
z Aprendizado on-policy e off-policy
– Q-Learning
– SARSA z Eligibility Traces z Estudo de Casos
Bibliografia
Bibliografia
z SUTTON, R.S., BARTO, A.G., Reinforcement Learning: An Introduction, 1998.
z KAELBLING, L.P.; LITTMAN M. L.; MOORE, W.A. Reinforcement Learning: A Survey, JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 4, May 1996, p. 237-285.
z RIBEIRO, C.H.C. A Tutorial on Reinforcement Learning Techniques In: International Joint Conference on Neural Networks ed. : INNS Press, 1999.
z SINGH, S.P.; SUTTON, R.S. Reinforcement learning with replacing eligibility traces, Machine Learning, vol. 22, no. 1, 1996, p. 123-158.
z SUTTON, R.S. Temporal Credit Assignment in Reinforcement Learning, Ph.D. thesis, University Massachusetts, Amherst, MA., 1984.
z BERTSEKAS, D.P. Dynamic Programming: Deterministic and Stochastic Models. Prentice Hall, Englewood Cliffs, NJ, 1987
z BELLMAN, R.E. Dynamic Programming, Princeton, NJ, Princeton University Press, 1957.
• BARTO, A.G. Reinforcement Learning and Adaptive Critic Methods, HANDBOOK OF INTELLIGENT CONTROL: NEURAL, FUZZY, AND ADAPTIVE APPROACHES, NY, White, D.A.; Sofge, D.A. (eds), Van Nostrand, Reinhold, 1992. p.469-491. • Boyan, J.A.; Moore, A.W. Generalization in reinforcement learning: Safely
approximating the value function, G. Tesauro, D. S. Touretzky, and T. K. Leen,
editors, ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7, Cambridge, MA, The MIT Press, 1995.
• BAIRD, L. Residual algorithms: Reinforcement learning with function
approximation, Armand Prieditis and Stuart Russell, editors, Proceedings of the
Twelfth International Conference on Machine Learning, San Francisco, CA, 1995, Morgan Kaufmann., p 30-37.
Bibliografia
Reinforcement Learning
Conceitos Básicos
Muitas vezes é impraticável o uso de aprendizagem supervisionada
z Como se aprende a escolher ações apenas interagindo com o ambiente?
z Como obter exemplos do comportamento correto e representativo para qualquer situação ?
z E se o agente for atuar em um ambiente desconhecido?
Motivação
Motivação
Exemplo:
Criança adquirindo coordenação motora
Histórico
Histórico
Reinforcement
Reinforcement
Learning
Learning
Moderno
Moderno
Psicologia Controle Bellman, 1950s Thorndike, 1910s Lei do Efeito seleção e associação ReinforcementReinforcementLearningLearning SupervisedSupervisedLearningLearning
z Aprendizado a partir da interação “learner – environment” z Baseado no “tentativa e erro” z Existe processo de busca (exploration) no espaço z Orientado a objetivo z Aprendizado a partir de padrões entrada -saída. z Baseado em minimizar um erro. z Busca limitada ao valores dos padrões padrões entrada-saída
z Orientado a
Aprendizado por reforço
Aprendizado por reforço
Agente
Percepções (sensores)
Estado (modelo do mundo)
Ambiente
Ação Reforço (+/-)
• O agente recebe do ambienteum valor de resposta (recompensa). • Esta recompensa avalia o desempenho do agente durante o processo
de aprendizado. st+1 Ambiente Estado st∈S Reforço rt rt+1 ação at ∈ A(st) Agente
Reinforcement
O que é aprendizado por reforço ?
O que é aprendizado por reforço ?
z Problema de aprendizagem pode ser definido: –
– Um agente em um ambiente a cada instante Um agente em um ambiente a cada instante
de tempo de tempo tt::
z
zo agente está em um o agente está em um estadoestadoss
z
zexecuta uma executa uma açãoaçãoaa
z
zvai para um vai para um estadoestados’s’
z
zrecebe uma recebe uma recompensarecompensarr
Algumas aplicações
Algumas aplicações
z [Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço:
– Vitória: +100 – Derrota: – 100
– Zero para os demais estados do jogo (delayed reward) – Após 1 milhão de partidas contra ele mesmo, joga tão bem
Algumas aplicações
z Time Brainstormers da Robocup (entre os 3 melhores nos 3 últimos anos)
– Objetivo: Time cujo conhecimento é obtido 100% por técnicas de aprendizagem por reforço
– RL em situações específicas z 2 atacantes contra 2 defensores
z habilidades básicas
z Inúmeras aplicações em problemas de otimização, de controle, jogos e outros...
Reinforcement Learning
Reinforcement Learning
Model-Based Model-Free off-policy on-policy Diferença Temporal Diferença Temporal SARSA Q-learning R-learning QynaProgramação Dinâmica + Monte Carlo
AHC(Actor Heuristic Critic ou Actor-Critic Method)
Plano de Aulas:
z Reinforcement Learning
– Conceitos básicos
– Elementos de um sistema RL/Características
z Fundamentos Teóricos
– Processos de Decisão de Markov – Propriedade de Markov
– Funções de Valor – Aprendizado RL
z Métodos para a solução do problema de RL
– Programação Dinâmica – MonteCarlo
– Diferenças Temporais
z TD
z Aprendizado on-policy e off-policy
z Q-Learning
z SARSA
– Eligibility Traces
z Estudo de Casos
z Reinforcement Learning são métodos de aprendizado
obtido pela interação de um agentecom o ambiente externo.
z Aprender o mapeamento de estados e ações para escolher as ações ótimas a serem tomadas dado um objetivo do agente.
z A métrica da qualidadeda açãoescolhida é o reforço recebido após ter sido tomada a ação no estado atual.
Reinforcement
Elementos de um sistema RL
Elementos de um sistema RL
z Ambiente z Agente z Política z Reforço z Retorno z EstadoElementos de um sistema RL
Elementos de um sistema RL
zAmbiente:
É o sistema físico externo.
z
Agente:
inserido no ambiente, é o aprendiz e
toma ações que mudam o ambiente.
z
Política (π
t):
Mapeamento entre estados e ações.
Representa o comportamento do sistema no
ambiente no tempo t.
A política Πt (s,a) é a probabilidade da ação at=a se st=s
Política de ações (
Política de ações (
π
π
)
)
z Função que modela o comportamento do agente – Mapeia estados em ações
z Pode ser vista como um conjunto de regras do tipo sn → am
– Exemplo:
zSe estado s = (inimigo próximo, estou perdendo e tempo acabando) então
ação a = (usar magia);
zSe estado s =(outro estado) então ...
z Reforço (r):É um valor escalar, resposta do ambiente
dada uma ação executada pelo agente, é a qualidade imediata da ação tomada para o estado atual.
z A partir do reforço é obtida outra função que é fundamental no processo de aprendizado do agente.
z O reforço representa o que deve ser feito, não como fazer.
Elementos de um sistema RL
Retorno:
O objetivo do agente é maximizar a seqüência de recompensas recebidas, ou seja, maximizar o Retorno esperado T t t t t r r r r R = +1+ +2+ +3+L+
∑
∞ = + + + + ++
+
+
=
=
0 1 3 2 2 1 k k t k t t t tr
r
r
r
R
γ
γ
L
γ
Elementos de um sistema RL
Elementos de um sistema RL
Quanto T=4 → γ (taxa de desconto)
Onde: 0<=γ<=1
z Estado (s): A condição atual do ambiente especificada por um conjunto de variáveis adequadas ao problema
– Formado pelas percepções do agente + modelo do mundo; – Deve prover informação para o agente de quais ações
podem ser executadas;
– A representação deste estado deve ser suficiente para que
o agente tome suas decisões.
Elementos de um sistema RL
• As ações são escolhas feitas pelos agentes; • As recompensas são a base para avaliação das
escolhas;
• Os estados são a base para se fazer as escolhas;
Elementos de um sistema RL
Elementos de um sistema RL
Plano de Aulas:
z Reinforcement Learning
– Conceitos básicos
– Elementos de um sistema RL/Características
z Fundamentos Teóricos
– Processos de Decisão de Markov – Propriedade de Markov
– Funções de Valor – Aprendizado RL
z Métodos para a solução do problema de RL
– Programação Dinâmica – MonteCarlo
– Diferenças Temporais
z TD
z Aprendizado on-policy e off-policy
z Q-Learning
z SARSA
– Eligibility Traces
Reinforcement Learning
Fundamentos Teóricos
Propriedade de
Propriedade de
Markov
Markov
{
1,'
1,
,
,
1,
1,
1,
1,
0,
0}
Pr
s
t+=
s
r
t+=
r
s
ta
tr
ts
t−a
t−r
t−K
r
s
a
No caso mais geral, se a resposta do ambiente em t+1, para uma ação em t depende de todo o histórico de ações até o momento atual, a dinâmica do ambienteé definidapela especificação completada distribuição de probabilidades:
Propriedade de
Propriedade de
Markov
Markov
Se a resposta do ambiente em t+1 depende apenas do estado atual, pela propriedade de Markov, o estado atual contém a informação dos estados anteriores.
{
s
ts
,'
r
tr
|
s
t,
a
t}
Pr
+1=
+1=
Se o ambiente tem propriedade de Markov, então ele pode prever e o próximo estado e o valor esperado para o retorno dado o estado e a ação atual.
É possível criar soluções incrementais, facilitando a implementação computacional.
Assim a decisão de que ação tomar não pode depender da seqüência de estados anteriores Exemplo:
Um tabuleiro de dama satisfaz esta propriedade, mas de xadrez não
Propriedade de
Processos de Decisão de
Processos de Decisão de
Markov
Markov
–
–
PDM
PDM
z Em RL, o ambiente deve ser modelado como um Processo de Decisão deMarkov (Markovian Decision Process MDP)
Um MDP definido:
z Um conjunto de estados S
z Um conjunto de ações A(s)
z Uma função de reforço R(s, s’,a),onde R = S × A → R,
z Uma função de probabilidade P(s, s’,a),onde P = S × A → P
de transição entre estados
z Se o espaço de estados e ações é finito PDM finito – 90% dos problemas RL t s st+1 st+2 st+3 t a at+1 at+2 at+3 1 + t r rt+2 rt+3 ... ...
Processos de Decisão de
Processos de Decisão de
Markov
Markov
–
–
PDM
PDM
1-β, -3 β, Rsearch 1, Rwait 1-α, Rsearch 1, Rwait α, Rsearch Probabilidades de Transição
Valor Esperado do Reforço
Processo de Decisão de
Processo de Decisão de MarkovMarkovfinito e discreto no tempofinito e discreto no tempo •ambiente evolui probabilisticamente baseado num conj. finito e
discreto de estados
•o estado possui conj. ações finito, onde a mais adequada deve ser aprendida;
•cada ação executada deve ser avaliada,
•os estados são observados, ações são executadas e reforços são relacionados
Processos de Decisão de
Processos de Decisão de
Markov
Markov
–
–
PDM
PDM
Exemplos de PDMs
Ociosidade (tempo sem visitas) do lugar visitado atualmente Ir para algum lugar
vizinho do mapa Posição no mapa (atual e passadas) Agente patrulhador (Sangue tirado – sangue perdido) Mover-se em uma determinada direção, lançar magia, bater, etc... Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc... Agente em jogo de luta #capturas – #perdas Mover uma determinada peça Configurações do tabuleiro Agente jogador de damas Recompensas Ações Estados Problema
Função de Valor
Função de Valor
RL→ Função de Valor→ r→a
Funções de Valorsão definidas com respeito a
uma política particular.
z Função de Valor:Valor esperado condicional da função de reforço para um estado e uma ação, seguindo uma política
{
}
⎭ ⎬ ⎫ ⎩ ⎨ ⎧ = = = =∑
∞ =0 + +1 ) ( k t k t k t t s s E r s s R E s Vπ π π γ{
}
⎭ ⎬ ⎫ ⎩ ⎨ ⎧ = = = = = =∑
∞ =0 + +1 , , ) , ( k t t k t k t t ts sa a E r s sa a R E a s Q π π γ πA função de valor representa o reforço esperado a longo prazo.
Função de valor do estado para π
Função de valor da ação para π
Função de Valor
Para qualquer π e s a função de valor de s em π é avaliada para os possíveis s´:
Equação de Bellman: Relação valor do estado e dos valores dos estados sucessivos
Função de Valor
Função de Valor
A eq. Bellman realiza a média sobre todas as possibilidades, onde o peso são as probabilidades de ocorrência.
Valor deste estado é o valor esperado para o próximo estado + reforço esperado
Backup diagrams: formam a base das operações de atualização
Função de Valor
Objetivo do RL
Objetivo do RL
O objetivo do RL é maximizaro reforço total (função
valor) obtido a longo prazo
Busca de uma política que
maximize o valor esperado de reforço para cada estado
s do conjunto S
) (
:s∈S →a∈A s
π
Funções de Valor Ótimas
Funções de Valor Ótimas
Solucionar RL →encontrar a política ótima.
A π émelhor π´ se o retorno esperado é maior ou igual
para todos os estados.
Se π>= π´, ⇔ Vπ(s) >= Vπ´(s) para todo s ∈ S
Se existe (e sempre existe) uma π que é melhor ou igual
Funções Valor Ótimas
Funções Valor Ótimas
z Se maximizamos (como definido para encontrar a função valor ótima), temos que:
{
}
{
r Q s a s s a a}
E a s Q a s Q s s s V r E s V s V t t t t s a t t t a s a = = + = = = + = = + + ∈ + + ∈ , | ) ' , ( max ) , ( max ) , ( | ) ( max ) ( max ) ( 1 * 1 * ) ( * 1 * 1 * ) ( * γ γ π π π π A AEstas são as equações de otimalidade de Bellman
Funções Valor Ótimas
Funções Valor Ótimas
Estas são as duas formas para a Equação de otimalidade
Funcões
Funcões
Valor ótimas
Valor ótimas
{ }
{
r Q s a s sa a}
E a s Q a s Q s s s V r E s V s V t t t a t s a t t t a s a = = + = = = + = = + + ∈ + + ∈ , | ) ' , ( max ) , ( max ) , ( | ) ( max ) ( max ) ( 1 * ' 1 * ) ( * 1 1 * ) ( * γ γ π π π π A Az Das equações de Bellman, temos que a forma de enxergar o ótimo é
Funções Valor ótimas: Políticas Ótimas
Funções Valor ótimas: Políticas Ótimas
Existem funções de valor ótimas (que maximizam o retorno ao longo prazo):
Que representam políticas ótimas:
)
(
max
)
(
*s
V
s
V
π π=
Q*(s,a) maxQπ(s,a) π = ) , ( max arg ) ( * * a s Q s ππ
=Desta forma, π* representa a política mais ambiciosa
Como é que o RL funciona?
Como é que o RL funciona?
* * Q Q V V → → *
π
π
→
Contínuo e ON-Line, RL age e aprende de modo simultâneo Experiência Política Função de Valor SELEÇÃO DA AÇÃO ALGORITMO DE APRENDIZADO POR REFORÇO * * 2 1 1π
2π
π
→
π→
→
π→
→
→
V
V
V
L
Funções Valor ótimas: Políticas Ótimas
Funções Valor ótimas: Políticas Ótimas
Três Suposições Verdadeiras:
• A dinâmica do ambiente é conhecida; • Recurso computacional suficiente; • Propriedades de Markov.