• Nenhum resultado encontrado

Reinforcement Learning (Aprendizado por reforço)

N/A
N/A
Protected

Academic year: 2021

Share "Reinforcement Learning (Aprendizado por reforço)"

Copied!
22
0
0

Texto

(1)

Reinforcement Learning

(Aprendizado por reforço)

Karla Figueiredo DEE/PUC-Rio

Plano de Aulas:

Plano de Aulas:

z Reinforcement LearningConceitos básicos

Elementos de um sistema RL/Características

z Fundamentos Teóricos

Processos de Decisão de MarkovPropriedade de Markov

Funções de ValorAprendizado RL

z Métodos para a solução do problema de RL

Programação DinâmicaMonte Carlo

Diferenças Temporais

z TD

z Aprendizado on-policy e off-policy

Q-Learning

SARSA z Eligibility Traces z Estudo de Casos

(2)

Bibliografia

Bibliografia

z SUTTON, R.S., BARTO, A.G., Reinforcement Learning: An Introduction, 1998.

z KAELBLING, L.P.; LITTMAN M. L.; MOORE, W.A. Reinforcement Learning: A Survey, JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 4, May 1996, p. 237-285.

z RIBEIRO, C.H.C. A Tutorial on Reinforcement Learning Techniques In: International Joint Conference on Neural Networks ed. : INNS Press, 1999.

z SINGH, S.P.; SUTTON, R.S. Reinforcement learning with replacing eligibility traces, Machine Learning, vol. 22, no. 1, 1996, p. 123-158.

z SUTTON, R.S. Temporal Credit Assignment in Reinforcement Learning, Ph.D. thesis, University Massachusetts, Amherst, MA., 1984.

z BERTSEKAS, D.P. Dynamic Programming: Deterministic and Stochastic Models. Prentice Hall, Englewood Cliffs, NJ, 1987

z BELLMAN, R.E. Dynamic Programming, Princeton, NJ, Princeton University Press, 1957.

• BARTO, A.G. Reinforcement Learning and Adaptive Critic Methods, HANDBOOK OF INTELLIGENT CONTROL: NEURAL, FUZZY, AND ADAPTIVE APPROACHES, NY, White, D.A.; Sofge, D.A. (eds), Van Nostrand, Reinhold, 1992. p.469-491. • Boyan, J.A.; Moore, A.W. Generalization in reinforcement learning: Safely

approximating the value function, G. Tesauro, D. S. Touretzky, and T. K. Leen,

editors, ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7, Cambridge, MA, The MIT Press, 1995.

• BAIRD, L. Residual algorithms: Reinforcement learning with function

approximation, Armand Prieditis and Stuart Russell, editors, Proceedings of the

Twelfth International Conference on Machine Learning, San Francisco, CA, 1995, Morgan Kaufmann., p 30-37.

Bibliografia

(3)

Reinforcement Learning

Conceitos Básicos

Muitas vezes é impraticável o uso de aprendizagem supervisionada

z Como se aprende a escolher ações apenas interagindo com o ambiente?

z Como obter exemplos do comportamento correto e representativo para qualquer situação ?

z E se o agente for atuar em um ambiente desconhecido?

Motivação

Motivação

Exemplo:

Criança adquirindo coordenação motora

(4)

Histórico

Histórico

Reinforcement

Reinforcement

Learning

Learning

Moderno

Moderno

Psicologia Controle Bellman, 1950s Thorndike, 1910s Lei do Efeito seleção e associação Reinforcement

ReinforcementLearningLearning SupervisedSupervisedLearningLearning

z Aprendizado a partir da interação “learner – environment” z Baseado no “tentativa e erro” z Existe processo de busca (exploration) no espaço z Orientado a objetivo z Aprendizado a partir de padrões entrada -saída. z Baseado em minimizar um erro. z Busca limitada ao valores dos padrões padrões entrada-saída

z Orientado a

(5)

Aprendizado por reforço

Aprendizado por reforço

Agente

Percepções (sensores)

Estado (modelo do mundo)

Ambiente

Ação Reforço (+/-)

• O agente recebe do ambienteum valor de resposta (recompensa). • Esta recompensa avalia o desempenho do agente durante o processo

de aprendizado. st+1 Ambiente Estado st∈S Reforço rt rt+1 ação at ∈ A(st) Agente

Reinforcement

(6)

O que é aprendizado por reforço ?

O que é aprendizado por reforço ?

z Problema de aprendizagem pode ser definido: –

– Um agente em um ambiente a cada instante Um agente em um ambiente a cada instante

de tempo de tempo tt::

z

zo agente está em um o agente está em um estadoestadoss

z

zexecuta uma executa uma açãoaçãoaa

z

zvai para um vai para um estadoestados’s’

z

zrecebe uma recebe uma recompensarecompensarr

Algumas aplicações

Algumas aplicações

z [Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço:

– Vitória: +100 – Derrota: – 100

Zero para os demais estados do jogo (delayed reward) – Após 1 milhão de partidas contra ele mesmo, joga tão bem

(7)

Algumas aplicações

z Time Brainstormers da Robocup (entre os 3 melhores nos 3 últimos anos)

– Objetivo: Time cujo conhecimento é obtido 100% por técnicas de aprendizagem por reforço

– RL em situações específicas z 2 atacantes contra 2 defensores

z habilidades básicas

z Inúmeras aplicações em problemas de otimização, de controle, jogos e outros...

Reinforcement Learning

Reinforcement Learning

Model-Based Model-Free off-policy on-policy Diferença Temporal Diferença Temporal SARSA Q-learning R-learning Qyna

Programação Dinâmica + Monte Carlo

AHC(Actor Heuristic Critic ou Actor-Critic Method)

(8)

Plano de Aulas:

z Reinforcement Learning

Conceitos básicos

Elementos de um sistema RL/Características

z Fundamentos Teóricos

Processos de Decisão de MarkovPropriedade de Markov

Funções de ValorAprendizado RL

z Métodos para a solução do problema de RL

Programação DinâmicaMonteCarlo

Diferenças Temporais

z TD

z Aprendizado on-policy e off-policy

z Q-Learning

z SARSA

Eligibility Traces

z Estudo de Casos

z Reinforcement Learning são métodos de aprendizado

obtido pela interação de um agentecom o ambiente externo.

z Aprender o mapeamento de estados e ações para escolher as ações ótimas a serem tomadas dado um objetivo do agente.

z A métrica da qualidadeda açãoescolhida é o reforço recebido após ter sido tomada a ação no estado atual.

Reinforcement

(9)

Elementos de um sistema RL

Elementos de um sistema RL

z Ambiente z Agente z Política z Reforço z Retorno z Estado

Elementos de um sistema RL

Elementos de um sistema RL

z

Ambiente:

É o sistema físico externo.

z

Agente:

inserido no ambiente, é o aprendiz e

toma ações que mudam o ambiente.

z

Política (π

t

):

Mapeamento entre estados e ações.

Representa o comportamento do sistema no

ambiente no tempo t.

A política Πt (s,a) é a probabilidade da ação at=a se st=s

(10)

Política de ações (

Política de ações (

π

π

)

)

z Função que modela o comportamento do agente – Mapeia estados em ações

z Pode ser vista como um conjunto de regras do tipo sn → am

– Exemplo:

zSe estado s = (inimigo próximo, estou perdendo e tempo acabando) então

ação a = (usar magia);

zSe estado s =(outro estado) então ...

z Reforço (r):É um valor escalar, resposta do ambiente

dada uma ação executada pelo agente, é a qualidade imediata da ação tomada para o estado atual.

z A partir do reforço é obtida outra função que é fundamental no processo de aprendizado do agente.

z O reforço representa o que deve ser feito, não como fazer.

Elementos de um sistema RL

(11)

Retorno:

O objetivo do agente é maximizar a seqüência de recompensas recebidas, ou seja, maximizar o Retorno esperado T t t t t r r r r R = +1+ +2+ +3+L+

∞ = + + + + +

+

+

+

=

=

0 1 3 2 2 1 k k t k t t t t

r

r

r

r

R

γ

γ

L

γ

Elementos de um sistema RL

Elementos de um sistema RL

Quanto T=4 → γ (taxa de desconto)

Onde: 0<=γ<=1

z Estado (s): A condição atual do ambiente especificada por um conjunto de variáveis adequadas ao problema

– Formado pelas percepções do agente + modelo do mundo; – Deve prover informação para o agente de quais ações

podem ser executadas;

– A representação deste estado deve ser suficiente para que

o agente tome suas decisões.

Elementos de um sistema RL

(12)

As ações são escolhas feitas pelos agentes;As recompensas são a base para avaliação das

escolhas;

Os estados são a base para se fazer as escolhas;

Elementos de um sistema RL

Elementos de um sistema RL

Plano de Aulas:

z Reinforcement Learning

Conceitos básicos

Elementos de um sistema RL/Características

z Fundamentos Teóricos

Processos de Decisão de MarkovPropriedade de Markov

Funções de ValorAprendizado RL

z Métodos para a solução do problema de RL

Programação DinâmicaMonteCarlo

Diferenças Temporais

z TD

z Aprendizado on-policy e off-policy

z Q-Learning

z SARSA

Eligibility Traces

(13)

Reinforcement Learning

Fundamentos Teóricos

Propriedade de

Propriedade de

Markov

Markov

{

1

,'

1

,

,

,

1

,

1

,

1

,

1

,

0

,

0

}

Pr

s

t+

=

s

r

t+

=

r

s

t

a

t

r

t

s

t

a

t

r

t

K

r

s

a

No caso mais geral, se a resposta do ambiente em t+1, para uma ação em t depende de todo o histórico de ações até o momento atual, a dinâmica do ambienteé definidapela especificação completada distribuição de probabilidades:

(14)

Propriedade de

Propriedade de

Markov

Markov

Se a resposta do ambiente em t+1 depende apenas do estado atual, pela propriedade de Markov, o estado atual contém a informação dos estados anteriores.

{

s

t

s

,'

r

t

r

|

s

t

,

a

t

}

Pr

+1

=

+1

=

Se o ambiente tem propriedade de Markov, então ele pode prever e o próximo estado e o valor esperado para o retorno dado o estado e a ação atual.

É possível criar soluções incrementais, facilitando a implementação computacional.

Assim a decisão de que ação tomar não pode depender da seqüência de estados anteriores Exemplo:

Um tabuleiro de dama satisfaz esta propriedade, mas de xadrez não

Propriedade de

(15)

Processos de Decisão de

Processos de Decisão de

Markov

Markov

PDM

PDM

z Em RL, o ambiente deve ser modelado como um Processo de Decisão de

Markov (Markovian Decision Process MDP)

Um MDP definido:

z Um conjunto de estados S

z Um conjunto de ações A(s)

z Uma função de reforço R(s, s’,a),onde R = S × A → R,

z Uma função de probabilidade P(s, s’,a),onde P = S × A → P

de transição entre estados

z Se o espaço de estados e ações é finito PDM finito – 90% dos problemas RL t s st+1 st+2 st+3 t a at+1 at+2 at+3 1 + t r rt+2 rt+3 ... ...

Processos de Decisão de

Processos de Decisão de

Markov

Markov

PDM

PDM

1-β, -3 β, Rsearch 1, Rwait 1-α, Rsearch 1, Rwait α, Rsearch Probabilidades de Transição

Valor Esperado do Reforço

(16)

Processo de Decisão de

Processo de Decisão de MarkovMarkovfinito e discreto no tempofinito e discreto no tempo •ambiente evolui probabilisticamente baseado num conj. finito e

discreto de estados

•o estado possui conj. ações finito, onde a mais adequada deve ser aprendida;

•cada ação executada deve ser avaliada,

•os estados são observados, ações são executadas e reforços são relacionados

Processos de Decisão de

Processos de Decisão de

Markov

Markov

PDM

PDM

Exemplos de PDMs

Ociosidade (tempo sem visitas) do lugar visitado atualmente Ir para algum lugar

vizinho do mapa Posição no mapa (atual e passadas) Agente patrulhador (Sangue tirado – sangue perdido) Mover-se em uma determinada direção, lançar magia, bater, etc... Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc... Agente em jogo de luta #capturas – #perdas Mover uma determinada peça Configurações do tabuleiro Agente jogador de damas Recompensas Ações Estados Problema

(17)

Função de Valor

Função de Valor

RLFunção de Valorra

Funções de Valorsão definidas com respeito a

uma política particular.

z Função de Valor:Valor esperado condicional da função de reforço para um estado e uma ação, seguindo uma política

{

}

⎭ ⎬ ⎫ ⎩ ⎨ ⎧ = = = =

∞ =0 + +1 ) ( k t k t k t t s s E r s s R E s Vπ π π γ

{

}

⎭ ⎬ ⎫ ⎩ ⎨ ⎧ = = = = = =

∞ =0 + +1 , , ) , ( k t t k t k t t ts sa a E r s sa a R E a s Q π π γ π

A função de valor representa o reforço esperado a longo prazo.

Função de valor do estado para π

Função de valor da ação para π

Função de Valor

(18)

Para qualquer π e s a função de valor de s em π é avaliada para os possíveis s´:

Equação de Bellman: Relação valor do estado e dos valores dos estados sucessivos

Função de Valor

Função de Valor

A eq. Bellman realiza a média sobre todas as possibilidades, onde o peso são as probabilidades de ocorrência.

Valor deste estado é o valor esperado para o próximo estado + reforço esperado

Backup diagrams: formam a base das operações de atualização

Função de Valor

(19)

Objetivo do RL

Objetivo do RL

O objetivo do RL é maximizaro reforço total (função

valor) obtido a longo prazo

Busca de uma política que

maximize o valor esperado de reforço para cada estado

s do conjunto S

) (

:sSaA s

π

Funções de Valor Ótimas

Funções de Valor Ótimas

Solucionar RL →encontrar a política ótima.

A π émelhor π´ se o retorno esperado é maior ou igual

para todos os estados.

Se π>= π´, ⇔ Vπ(s) >= Vπ´(s) para todo s ∈ S

Se existe (e sempre existe) uma π que é melhor ou igual

(20)

Funções Valor Ótimas

Funções Valor Ótimas

z Se maximizamos (como definido para encontrar a função valor ótima), temos que:

{

}

{

r Q s a s s a a

}

E a s Q a s Q s s s V r E s V s V t t t t s a t t t a s a = = + = = = + = = + + ∈ + + ∈ , | ) ' , ( max ) , ( max ) , ( | ) ( max ) ( max ) ( 1 * 1 * ) ( * 1 * 1 * ) ( * γ γ π π π π A A

Estas são as equações de otimalidade de Bellman

Funções Valor Ótimas

Funções Valor Ótimas

Estas são as duas formas para a Equação de otimalidade

(21)

Funcões

Funcões

Valor ótimas

Valor ótimas

{ }

{

r Q s a s sa a

}

E a s Q a s Q s s s V r E s V s V t t t a t s a t t t a s a = = + = = = + = = + + ∈ + + ∈ , | ) ' , ( max ) , ( max ) , ( | ) ( max ) ( max ) ( 1 * ' 1 * ) ( * 1 1 * ) ( * γ γ π π π π A A

z Das equações de Bellman, temos que a forma de enxergar o ótimo é

Funções Valor ótimas: Políticas Ótimas

Funções Valor ótimas: Políticas Ótimas

Existem funções de valor ótimas (que maximizam o retorno ao longo prazo):

Que representam políticas ótimas:

)

(

max

)

(

*

s

V

s

V

π π

=

Q*(s,a) maxQπ(s,a) π = ) , ( max arg ) ( * * a s Q s π

π

=

Desta forma, π* representa a política mais ambiciosa

(22)

Como é que o RL funciona?

Como é que o RL funciona?

* * Q Q V V → → *

π

π

Contínuo e ON-Line, RL age e aprende de modo simultâneo Experiência Política Função de Valor SELEÇÃO DA AÇÃO ALGORITMO DE APRENDIZADO POR REFORÇO * * 2 1 1

π

2

π

π

π

π

V

V

V

L

Funções Valor ótimas: Políticas Ótimas

Funções Valor ótimas: Políticas Ótimas

Três Suposições Verdadeiras:

• A dinâmica do ambiente é conhecida; • Recurso computacional suficiente; • Propriedades de Markov.

Referências

Documentos relacionados

Em trabalhos anteriores (FERREIRA NETTO; CONSONI, 2008; FERREIRA NETTO; PERES; 2008; FERREIRA NETTO et alii, 2009), analisamos comparativamente frases de texto

(2016), utilizou como ferramenta de estudo um aparelho de tomografia computadorizada tridimensional, obtendo imagens e dimensões da clavícula de 249 cadáveres japoneses (131

A estrutura descentralizada de decisão e os mecanismos de avaliação adotados no sistema participativo, com base no controle social e na responsabilidade solidária, po- dem ter

Nem toda equação diferencial pode ser expressa na forma normal (ex.: equações diferenciais que sejam transcedentais na maior derivada). Nesta revisão, nos restringiremos

Equipado com bomba de alta pressão, o pulverizador costal LS-937 possui tanque com capacidade para 25 litros e motor a gasolina Farmech de 2 tempos!. É indicado para

GUILHERME TORRES AFFONSO LUCAS ALMEIDA GONÇALVES MATEUS PEREIRA DOS SANTOS RICARDO LAURINDO PEREIRA ALEXANDRE DE SOUZA FERREIRA RICARDO SILVA PEREIRA DA CRUZ FELIPE GARCIA DOS

Esta cobertura garante ao(s) Beneficiário(s), durante o período de cobertura, o pagamento do Capital Segurado Líquido em caso de morte do Segurado seja natural,

Na combina¸c˜ao de apenas dois CDFGs, esse algoritmo produz um datapath com ´area de interconex˜oes m´ınima, desde que um algoritmo exato para o problema de clique m´aximo