Reinforcement Learning
(Aprendizado por Reforço)
Karla Figueiredo DEE/PUC-Rio
1
Sumá Sum ário rio
Introdução
– Motivação – Histórico
– Conceitos básicos
Fundamentos Teóricos
– Processos de Decisão de Markov – Propriedade de Markov
– Funções de Valor – Aprendizado RL
Métodos para a solução do problema de RL
– Programação Dinâmica – Monte Carlo
– Diferenças Temporais
TD
Aprendizado on-policy e off-policy
– Q-Learning – SARSA
Eligibility Traces
Estudo de Casos
2
Bibliografia Bibliografia
SUTTON, R.S., BARTO, A.G., Reinforcement Learning: An Introduction, 1998.
http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html
KAELBLING, L.P.; LITTMAN M. L.; MOORE, W.A. Reinforcement Learning: A Survey, JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 4, May 1996, p. 237-285.
http://www.jair.org/media/301/live-301-1562-jair.pdf
RIBEIRO, C.H.C. A Tutorial on Reinforcement Learning Techniques In: International Joint Conference on Neural Networks ed. : INNS Press, 1999.
http://student.vub.ac.be/~aackerma/rlearn2.pdf
SINGH, S.P.; SUTTON, R.S. Reinforcement learning with replacing eligibility traces, Machine Learning, vol. 22, no. 1, 1996, p. 123-158.
SUTTON, R.S. Temporal Credit Assignment in Reinforcement Learning, Ph.D. thesis, University Massachusetts, Amherst, MA., 1984.
BERTSEKAS, D.P. Dynamic Programming: Deterministic and Stochastic Models.
Prentice Hall, Englewood Cliffs, NJ, 1987
BELLMAN, R.E. Dynamic Programming, Princeton, NJ, Princeton University Press,
1957. 3
• BARTO, A.G. Reinforcement Learning and Adaptive Critic Methods, HANDBOOK OF INTELLIGENT CONTROL: NEURAL, FUZZY, AND ADAPTIVE APPROACHES, NY, White, D.A.; Sofge, D.A. (eds), Van Nostrand, Reinhold, 1992. p.469-491.
• Boyan, J.A.; Moore, A.W. Generalization in reinforcement learning: Safely
approximating the value function, G. Tesauro, D. S. Touretzky, and T. K. Leen, editors, ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7, Cambridge, MA, The MIT Press, 1995.
• BAIRD, L. Residual algorithms: Reinforcement learning with function approximation, Armand Prieditis and Stuart Russell, editors, Proceedings of the Twelfth International Conference on Machine Learning, San Francisco, CA, 1995, Morgan Kaufmann., p 30- 37.
Bibliografia
Bibliografia
Reinforcement Learning
Conceitos Básicos
5
Muitas vezes é impraticável o uso de aprendizagem supervisionada
Motiva Motiva ção ç ão
Exemplo:
Criança adquirindo coordenação motora
Robô interagindo com um ambiente para atingir objetivo(s)
6
• Como se aprende a escolher ações apenas interagindo com o ambiente?
• Como obter exemplos do comportamento correto e representativo para qualquer situação ?
• E se o agente for atuar em um ambiente desconhecido?
Teste de Turing: Alan Turing (1950) propôs um teste operacional como definição de Inteligência Artificial
Motiva Motiva ção ç ão
7
“um agente artificial édito inteligentese obtém desempenho equivalente ao humanoem todas as tarefas cognitivas, de forma a enganarum
interrogador”
Para Passar no Teste de Turing-
“Habilidades” necessárias:
Motiva Motiva ção ç ão
–processamento de linguagem natural:-comunicação eficaz na língua falada;
–representação do conhecimento: armazenar informação suprida antes e durante a interrogação;
–raciocínio automatizado: usar a informação
armazenada para responder questões e chegar a conclusões;
–aprendizagem de máquina:se adaptar a novas
9
●Busca por métodos automáticos, capazes de operar sistemas complexos;
●Convergência para solução ótima global;
●Variedade de aplicações em diversos domínios;
9
Motiva Motiva ção ç ão
Histó Hist ó rico rico
Reinforcement Reinforcement
Learning Learning Moderno Moderno
Psicologia Controle
Bellman, 1950s
Thorndike, 1910s Lei do Efeito seleção e associação
10
Histó Hist ó rico rico
Lei do efeito (Thorndike, 1910s)
• todo e qualquer ato que produz satisfação associa-sea esta situação que, quando ela se reproduz, a probabilidade de repetição do ato é maior do que antes;
• a puniçãoe o desprazernão se comparam em absoluto ao efeito positivo da recompensa a uma determinada resposta;
• o efeito de prazer é, portanto, o que fixa o acerto (resposta) acidental;
• em termos pedagógicos, o agradável é o sucesso do ensaio realizado pelo sujeito e o desagradável é o fracasso decorrente de obstáculos;
11
Sob idênticas condições:
•a associação exercitada com maior freqüência será a mais utilizada pelo sujeito;
•a associação exercitada com menor freqüência será a menos utilizada pelo sujeito;
•a associação exercitada mais recentementeserámais forte no conjunto de repertório de respostas do sujeito;
Histó Hist ó rico rico
Lei do exercício (Thorndike, 1910s)
Conceitos B
Conceitos B á á sicos sicos
Aprender por meio de nossas interações com o ambiente – Uma criança não tem um professor, mas possui
habilidades cognitivas;
– Através das interações, a criança descobre as relações de causa e efeito;
– Aprender por meio de interações é uma idéia fundamental de quase todas as teorias de aprendizagem e inteligência
13
O que
O que ééaprendizagem por reforçaprendizagem por reforço?o?
14
Uma classe de problemasclasse de problemasde aprendizagem para a qual existe uma grande diversidade de ttéécnicascnicas
Aprendizagem:
– da utilidade dos estadosutilidade dos estados do ambiente com respeito a esse(s) objetivo(s)
–
– ououde uma polpolíítica de atica de aççãoãomaximizando o grau de satisfação desse(s) objetivo(s)
–– indiretamenteindiretamentevia recepção de reforreforççoo (ou dica) positivo ou negativo quando se encontra em alguns estados
– ou como resultado da execução de uma ação ou uma serie de ações
por um agente com objetivo(s) situado em um ambiente:
Conceitos B
Conceitos Bá á sicos sicos
Reinforcement Learning
Reinforcement Learning Supervised Learning Supervised Learning
Aprendizado a partir da interação “learner – environment”
Baseado em “tentativa e erro”
Existe processo de busca (exploration) no espaço
Orientado a objetivo
Aprendizado a partir de padrões entrada - saída.
Baseado em minimizar um erro.
Busca limitada ao valores dos padrões padrões entrada-saída
Orientado a aproximação de função
15
Conceitos B
Conceitos B á á sicos sicos
• O agenterecebe do ambienteum valor de resposta(recompensa).
• Esta recompensa avalia o desempenho do agente durante o processo de aprendizado.
st+1 Ambiente
Estado stS
Reforço
rt rt+1
ação at A(st) Agente
Reinforcement Learning
Reinforcement Learning
Algumas aplica
Algumas aplica ções ç ões
[Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço:
– Vitória: +100
– Derrota: – 100
– Zero para os demais estados do jogo (delayed reward)
– Após 1 milhão de partidas contra ele mesmo, joga tão bem quanto o melhor jogador humano
17
Algumas aplicações
Time Brainstormers da Robocup (entre os 3 melhores nos 3 últimos anos)
– Objetivo: Time cujo conhecimento é obtido 100% por técnicas de aprendizagem por reforço
– RL em situações específicas
2 atacantes contra 2 defensores
habilidades básicas
Inúmeras aplicações em problemas de otimização, de controle, jogos e outros...
18
Reinforcement Learning Reinforcement Learning
Model-Based Model-Free
off-policy on-policy
Diferen
Diferençça Temporala Temporal
SARSA Q-learning
R-learning
Qyna Programação Dinâmica + Monte Carlo
AHC(Actor Heuristic Critic ou Actor-Critic Method)
Markov
19
Aprendizado por refor Aprendizado por reforççoo
Agente
Percepções (sensores)
Estado (modelo do mundo)
Ação Reforço (+/-)
Conceitos B
Conceitos Bá á sicos sicos
Reinforcement Learning Reinforcement Learning
Aprendizagem por reforço consiste em aprender o que fazer— como mapear situações em ações de maneira a maximizar um sinal de ganho;
Ao aprendiz não é dito que ação tomar, o qual deve aprender quais ações produzem maior ganho por meio de interações
Nas situações mais desafiadores, o ganho não é imediato, mas futuro
21
Sumá Sum ário rio
Introdução
– Motivação – Histórico
– Conceitos básicos
Fundamentos Teóricos
– Processos de Decisão de Markov – Propriedade de Markov
– Funções de Valor – Aprendizado RL
Métodos para a solução do problema de RL
– Programação Dinâmica – Monte Carlo
– Diferenças Temporais
TD
Aprendizado on-policy e off-policy
– Q-Learning – SARSA
Eligibility Traces
Estudo de Casos
22
Reinforcement Learning
Fundamentos Teóricos
23
Propriedade de Markov Propriedade de Markov
1 ', 1 , , , 1, 1, 1 , 1, 0, 0
Pr st s rt rst at rt st at rt r s a No caso mais geral, se a resposta do ambiente em t+1, para
uma ação em t depende de todo o histórico de ações até o momento atual, a dinâmicado ambienteé definida pela especificação completada distribuição de probabilidades:
25
Propriedade de Markov Propriedade de Markov
Quando a probabilidade de transição de um estado s para um estado s’depende apenas do estado s e da ação a adotada em s, isso significa que o estado corrente fornece informação suficientepara o sistema de aprendizado decidir que ação deve ser tomada.
25
Quando o sistema possui esta característica, diz-se que ele satisfaz a propriedade de Markov (Bellman, 1957).
Propriedade de Markov Propriedade de Markov
Se a resposta do ambiente em t+1 depende apenas do estado atual, pela propriedade de Markov, o estado atual contém a informação dos estados anteriores.
st s',rt r |st,at
Pr 1 1
Se o ambiente tem propriedade de Markov, então ele pode prever o próximo estado e o valor esperado para o retorno dado o estado e a ação atual.
É possível criar soluções incrementais, facilitando a implementação computacional.
26
Assim, a decisão de que ação tomar não pode depender da seqüência de estados anteriores
Exemplo:
Um tabuleiro de dama satisfaz esta propriedade
Propriedade de Markov Propriedade de Markov
27
Processos de Decisão de Markov Processos de Decisão de Markov – – PDM PDM
Em RL, o ambiente deve ser modelado como um Processo de Decisão de Markov (Markovian Decision Process MDP)
Um MDP :
Um conjunto de estados S
Um conjunto de ações A(s)
Uma função de reforço R(s, s’,a),onde R= S ×A→R,
Uma função de probabilidade P(s, s’,a),onde P= S ×A→P de transição entre estados
Se o espaço de estados e ações é finito PDM finito – 90% dos problemas RL
st st2
1
st st3
a a a a
1
rt rt2 rt3
... ...
Caracter
Caracteríísticas dos Processo de Decisão de Markov finito sticas dos Processo de Decisão de Markov finito e discreto no tempo:
e discreto no tempo:
•ambiente evolui probabilisticamente baseado num conjunto finito e discreto de estados
•o estado possui conjunto finito de ações, onde a mais adequada deve ser aprendida;
•cada ação executada deve ser avaliada,
•os estados são observados, ações são executadas e reforços são relacionados;
Processos de Decisão de Markov Processos de Decisão de Markov – – PDM PDM
29
Exemplos de PDMs Exemplos de PDMs
Problema Estados Ações Recompensas
Agente jogador de damas
Configurações do tabuleiro
Mover uma determinada peça
#capturas –
#perdas
Agente em jogo de luta
Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc...
Mover-se em uma determinada direção, lançar magia, bater, etc...
(Sangue tirado – sangue perdido)
Agente patrulhador Posição no mapa (atual e passadas)
Ir para algum lugar vizinho do mapa
Ociosidade (tempo sem visitas) do lugar visitado atualmente
30
Processos de Decisão de Markov Processos de Decisão de Markov – – PDM PDM
Probabilidades de Transição Valor Esperado do Reforço
31
Exemplo: Robô Reciclador
Lixo Obstáculo
Domínio robô
Exemplo: Robô Reciclador Exemplo: Robô Reciclador
As decisões devem ser tomadas periodicamente o quando um evento ocorre:
Estado: O agente toma decisões com base no nível de energia da bateria - S = {high, low}
Espaço de ações:
– A(high) = {search, wait}
– A(low) = {search, wait, recharge}
Tabela de Transi
Tabela de Transi ç ç ões ões
33
Grafo de Transi
Grafo de Transiç ç ões ões
34
35
Para os problemas de Reinforcement Learning é suposto que o ambiente tenha a forma de um Processo de Decisão de Markov, desde que seja
satisfeita no ambiente a Propriedade de Markov Obs: Nem todos os algoritmos de RL necessitamde uma modelagem PDM completa do ambiente, mas é necessário ter-se pelo menos a visão do ambientecomo um conjunto de estados e ações.
Processos de Decisão de Markov Processos de Decisão de Markov – – PDM PDM
35
Elementos de um sistema RL Elementos de um sistema RL
Agente
Estado
Ambiente
Política
Função de Reforço
Elementos RL: Agente e Estado Elementos RL: Agente e Estado
Agente: É o aprendiz que inserido no ambiente, toma ações que mudam o ambiente.
Estado (s): A condição atual do ambiente especificada por um conjunto de variáveis adequadas ao problema
– Formado pelas percepções do agente + modelo do mundo;
– Deve prover informaçãopara o agente de quais ações podem ser executadas;
– Tipicamente, estados podem agregarmuitas informações além dos sinais sensoriais
37
A representação deste estado deve ser suficientepara que o agente tome suas decisões (satisfaz a propriedade de Markov)
38
Modelo perceptivo:
mapeia percepções para representação interna do estado do ambiente
– mp: (percepção(t), modelo(estado(ambiente(t-1))))
modelo(estado(ambiente(t)))
Modelo efetivo:
mapeia ação a efetuar para representação interna do estado do ambiente resultando dessa ação
– me: (ação(t), modelo(estado(ambiente(t))))
modelo(estado(ambiente(t+1)))
Elementos RL: Modelo do ambiente
Elementos RL: Modelo do ambiente
39 39
Cada um desses modelos pode ser:
– representado em extensãopor uma tabela, ou
– representado em intençãopor algum formalismo de representação do conhecimento como:
– operadores de próximo estado, regras, lógica, operadores de planejamento
– manualmente codificado, ou
– aprendido com aprendizagem supervisionado
Elementos RL: Modelo do ambiente Elementos RL: Modelo do ambiente
Imita o comportamento do ambiente
Dados um estado e uma ação, o modelo antecipa o próximo estado e o ganho
– Estado corrente no instante t: st
– Ação a ser tomada: at
– Modelo antecipa o próximo estado:
– P(st+1=s | st, at)
•
Modelos do ambiente são usados para planejamento:―Planejamento é qualquer método de decidir um curso de açãoao considerarmos futuras situações
Elementos RL: Modelo do ambiente
Elementos RL: Modelo do ambiente
Elementos RL:
Elementos RL: com x sem modelo com x sem modelo prévio do ambiente
41
Com
Commodelo prmodelo préévio do ambientevio do ambiente
Agente possui modelodo ambiente para prever transiçõesde estado do ambiente causada pelas suas ações
Em ambiente não
determinista, o modelo pode ser apenas estocástico
Sem
Semmodelo prémodelo prévio do ambientevio do ambiente
Agente ignora a priori:
– tanto o valorde cada estadodo ambiente com respeito a seus objetivos
– quanto as transiçõesde estado do ambiente que suas ações podem causar
Elementos RL: sem modelo pr
Elementos RL: sem modelo pr é é vio vio do ambiente
do ambiente
42
Dois tipos de técnicas:
– As que permitem ao agente aprender o valor de ação para a realização dos seus objetivos sem conhecer o estado do ambiente
– As que permitem aprender ambas a função valor e a função de transição de estado
Elementos RL: Pol
Elementos RL: Pol ítica de a í tica de aç ções ( ões ( ) )
A política Πt (s,a) é a probabilidade da ação at= a se st=s
43
Função que modela o comportamento do agente
– Mapeia estados em ações
Pode ser vista como um conjunto de regras do tipo snam
– Exemplo:
Se estado s = (inimigo próximo, estou perdendo e tempo acabando)então
ação a = (usar toda a munição);
Se estado s =(outro estado) então ...
Mapeia estados do ambiente ou transição do ambiente de um estado para um outro, indicando a satisfação imediatado agente no estado resultando da transição em relação aos seus objetivos
• R: estado(ambiente) real, ou
• R: (estado1(ambiente), estado2(ambiente)) real
• R: codifica os objetivos do agente de maneira imediata local
• R: pode ser determinista ou estocástica
Elementos RL: Fun
Elementos RL: Fun ção de Refor ç ão de Reforç ço o
O uso de um sinal de reforço é uma da características mais importantes de RL
O sinal de reforço é a maneira de se comunicar ao agente o que desejamos que ele faça, não como ele deve executar a tarefa
45
•
Em geral não se penaliza um agente por não ter acesso a alguma informação relevante, mas por ter tido conhecimento e depois esquecido. Reforço (r):É um valor escalar, respostado ambiente dada uma ação executada pelo agente, é a qualidade imediata da ação tomada para o estado atual.
Elementos RL: Fun
Elementos RL: Fun ção de Refor ç ão de Reforç ço o
O objetivo do agenteé maximizara seqüência de recompensasrecebidas, ou seja, maximizaro Reforço esperado
T t
t t
t r r r r
R 1 2 3
Elementos RL: Fun
Elementos RL: Fun ção de Refor ç ão de Reforç ço o
46
A função acima faz sentido quando a interação agente- ambiente pode ser quebrada em subsequências
chamadas episódios.
47 47
Cada episódio termina em um estado terminal – Em tarefas episódicas, distingue-se estados não terminais, S, dos estados terminais, S+
Quando a interação agente-ambiente não pode ser quebrada naturalmente em episódios, dizemos que a tarefa é contínua.
Elementos RL: Fun
Elementos RL: Fun ção de Refor ç ão de Reforç ço o
reforço em todos xtodos x em poucospoucos estados
Refor
Reforçço em o em todos todos os estadosos estados
Agente recebe reforçoem todosos estados
Pode facilmente atribuiresse reforçoa esse estadoou a última açãoque executou
Simplificaa atualização da estimativa do valordesse estadoou ação
Refor
Reforçço em o em poucos poucos estadosestados
Agente recebe reforço apenas em poucos estados
Enfrenta o problemada distribuiçãodesse reforço entre as várias ações que executou desde o último reforço
Dificultaatualização da estimativa do valordos
Elementos RL: Fun
Elementos RL: Fun ção de Refor ç ão de Reforç ço o
• As ações são escolhas feitas pelos agentes;
• As recompensas são a base para avaliação das escolhas;
• Os estados são a base para se fazer as escolhas;
Elementos de um sistema RL Elementos de um sistema RL
49
Enquanto a função de reforço indicaos movimento promissores imediatos; a função valorestado indica o ganho total que pode ser acumulado no futuro se iniciarmos no estado em consideração
A função valorindica o ganho potencial de longo termo de um estado, levando em conta os estados que sucedem o estado em consideração
50
Elementos RL:
Elementos RL: Fun Funç ção de Valor ão de Valor
Função de Valor:Valor esperado condicional da função de reforço para um estado e uma ação, seguindo uma política
0
) 1
(
k
t k t k t
t s s E r s s
R E s
V
0
1 ,
, )
, (
k
t t k t k t
t
ts sa a E r s sa a
R E a s
Q
A função de valor representa o reforço esperado a longo prazo.
Função de valor do estado para
Função de valor da ação para
Elementos RL:
Elementos RL: Fun Funç ção de Valor ão de Valor
51
Para qualquer es a função de valor de sem é avaliada para os possíveis s´:
Equação de Bellman:
Relação valor do estado e dos valores dos estados sucessivos
Elementos RL:
Elementos RL: Fun Funç ção de Valor ão de Valor
A eq. Bellman realiza a média sobre todas as possibilidades,
A eq. Bellman realiza a média sobre todas as possibilidades, onde o peso são as probabilidades de ocorrência.
Valor deste estado é o valor esperado para o próximo estado + reforço esperado Backup diagrams: formam a base das operações de atualização
53
Elementos RL:
Elementos RL: Fun Funç ção de Valor ão de Valor
Objetivo do RL Objetivo do RL
O objetivo do RL émaximizaro reforço total (função valor) obtido a longo prazo
Busca de uma política que
maximize o valor esperado de reforço para cada estado sdo conjunto S
) ( :sS aA s
54
Fun
Funç ções de Valor ões de Valor Ó Ótimas timas
Solucionar RL encontrar a política ótima.
A é melhor ´ se o retorno esperado é maior ou igual para todos os estados.
Se >= ´, V(s) >= V´(s) para todo s S
Se existe (e sempre existe) uma que é melhor ou igual a todas as outras políticas, então é ótima
55
Funç Fun ções Valor ões Valor Ó Ótimas timas
Se maximizamos (como definido para encontrar a função valor ótima), temos que:
r Q s a s s a a
E
a s Q a
s Q
s s s V r E
s V s
V
t t t
t s a
t t a t
s a
,
| ) ' , ( max
) , ( max ) , (
| ) ( max
) ( max ) (
1
* 1
* ) (
*
1
* 1
* ) (
*
A A
Estas são as equações de otimalidade de Bellman
Fun
Funç ções Valor ões Valor Ó Ótimas timas
Estas são as duas formas para a Equação de otimalidade de Bellman
57
Funcões
Funcões Valor Valor ótimas ó timas
r Q s a s sa a
E
a s Q a
s Q
s s s V r E
s V s V
t t a t
t s a
t t a t
s a
,
| ) ' , ( max
) , ( max ) , (
| ) ( max
) ( max ) (
1
* 1 '
* ) (
*
1 1
* ) (
*
A A
Das equações de Bellman, a forma de enxergar o ótimo é
58
Fun Funç ções Valor ões Valor ó ótimas: Pol timas: Polí íticas ticas Ó Ótimas timas
Existem funções de valor ótimas (que maximizam o retorno ao longo prazo):
Que representam políticas ótimas:
) ( max )
*(
s V s
V
Q*(s,a)max Q(s,a)
) , ( max arg ) (
* s Q* s a
Desta forma, * representa a política mais ambiciosa respeito de Q*
59
Fun Funç ções Valor ões Valor ó ótimas: Pol timas: Polí íticas ticas Ó Ótimas timas
Três Suposições Verdadeiras:
• A dinâmica do ambiente é conhecida;
• Recurso computacional suficiente;
• Propriedades de Markov.
Como
Como é é que o RL funciona? que o RL funciona?
*
*
Q Q
V V
*
Contínuo e ON-Line, RL age e aprende de modo simultâneo
Experiência
Política Função
de Valor SELEÇÃO DA
AÇÃO
ALGORITMO DE
APRENDIZADO
POR REFORÇO
*
* 2
1
2
1
V
V
V
61
Reinforcement Learningsão métodos de aprendizado obtido pela interaçãode um agentecom o ambiente externo.
Aprender o mapeamentode estadose açõespara escolher as ações ótimas a serem tomadas dado um objetivodo agente.
A métrica da qualidadeda açãoescolhida é o reforço recebido após ter sido tomada a ação no estado atual.
Reinforcement Learning Reinforcement Learning
62
O que
O que éé
aprendizado por refor
aprendizado por reforçço ?o ? Problema de aprendizagem pode ser definido:
–
– Um agente em um ambiente a cada instante Um agente em um ambiente a cada instante de tempo
de tempo tt::
o agente esto agente estááem um em um estadoestadoss
executa uma executa uma aaççãoãoaa
vai para um vai para um estadoestados’s’
recebe uma recebe uma recompensarecompensarr
63
A representação deste estado deve ser suficiente para que o agente tome suas decisões (satisfaz a propriedade de Markov)
Ex: Um tabuleiro de dama satisfaz esta propriedade, mas de xadrez não O ambiente não precisa ser episódico