Reinforcement Learning

(1)

Reinforcement Learning

(Aprendizado por Reforço)

Karla Figueiredo DEE/PUC-Rio

1

Sumá Sum ário rio

 Introdução

– Motivação – Histórico

– Conceitos básicos

 Fundamentos Teóricos

– Processos de Decisão de Markov – Propriedade de Markov

– Funções de Valor – Aprendizado RL

 Métodos para a solução do problema de RL

– Programação Dinâmica – Monte Carlo

– Diferenças Temporais

 TD

 Aprendizado on-policy e off-policy

– Q-Learning – SARSA

 Eligibility Traces

 Estudo de Casos

2

(2)

Bibliografia Bibliografia

 SUTTON, R.S., BARTO, A.G., Reinforcement Learning: An Introduction, 1998.

http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html

 KAELBLING, L.P.; LITTMAN M. L.; MOORE, W.A. Reinforcement Learning: A Survey, JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH 4, May 1996, p. 237-285.

http://www.jair.org/media/301/live-301-1562-jair.pdf

 RIBEIRO, C.H.C. A Tutorial on Reinforcement Learning Techniques In: International Joint Conference on Neural Networks ed. : INNS Press, 1999.

http://student.vub.ac.be/~aackerma/rlearn2.pdf

 SINGH, S.P.; SUTTON, R.S. Reinforcement learning with replacing eligibility traces, Machine Learning, vol. 22, no. 1, 1996, p. 123-158.

 SUTTON, R.S. Temporal Credit Assignment in Reinforcement Learning, Ph.D. thesis, University Massachusetts, Amherst, MA., 1984.

 BERTSEKAS, D.P. Dynamic Programming: Deterministic and Stochastic Models.

Prentice Hall, Englewood Cliffs, NJ, 1987

 BELLMAN, R.E. Dynamic Programming, Princeton, NJ, Princeton University Press,

1957. 3

• BARTO, A.G. Reinforcement Learning and Adaptive Critic Methods, HANDBOOK OF INTELLIGENT CONTROL: NEURAL, FUZZY, AND ADAPTIVE APPROACHES, NY, White, D.A.; Sofge, D.A. (eds), Van Nostrand, Reinhold, 1992. p.469-491.

• Boyan, J.A.; Moore, A.W. Generalization in reinforcement learning: Safely

approximating the value function, G. Tesauro, D. S. Touretzky, and T. K. Leen, editors, ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7, Cambridge, MA, The MIT Press, 1995.

• BAIRD, L. Residual algorithms: Reinforcement learning with function approximation, Armand Prieditis and Stuart Russell, editors, Proceedings of the Twelfth International Conference on Machine Learning, San Francisco, CA, 1995, Morgan Kaufmann., p 30- 37.

Bibliografia

(3)

Reinforcement Learning

Conceitos Básicos

5

Muitas vezes é impraticável o uso de aprendizagem supervisionada

Motiva Motiva ção ç ão

Exemplo:

Criança adquirindo coordenação motora

Robô interagindo com um ambiente para atingir objetivo(s)

6

• Como se aprende a escolher ações apenas interagindo com o ambiente?

• Como obter exemplos do comportamento correto e representativo para qualquer situação ?

• E se o agente for atuar em um ambiente desconhecido?

(4)

 Teste de Turing: Alan Turing (1950) propôs um teste operacional como definição de Inteligência Artificial

Motiva Motiva ção ç ão

7

“um agente artificial édito inteligentese obtém desempenho equivalente ao humanoem todas as tarefas cognitivas, de forma a enganarum

interrogador”

 Para Passar no Teste de Turing-

“Habilidades” necessárias:

Motiva Motiva ção ç ão

–processamento de linguagem natural:-comunicação eficaz na língua falada;

–representação do conhecimento: armazenar informação suprida antes e durante a interrogação;

–raciocínio automatizado: usar a informação

armazenada para responder questões e chegar a conclusões;

–aprendizagem de máquina:se adaptar a novas

(5)

9

●Busca por métodos automáticos, capazes de operar sistemas complexos;

●Convergência para solução ótima global;

●Variedade de aplicações em diversos domínios;

9

Motiva Motiva ção ç ão

Histó Hist ó rico rico

Reinforcement Reinforcement

Learning Learning Moderno Moderno

Psicologia Controle

Bellman, 1950s

Thorndike, 1910s Lei do Efeito seleção e associação

10

(6)

Histó Hist ó rico rico

Lei do efeito (Thorndike, 1910s)

• todo e qualquer ato que produz satisfação associa-sea esta situação que, quando ela se reproduz, a probabilidade de repetição do ato é maior do que antes;

• a puniçãoe o desprazernão se comparam em absoluto ao efeito positivo da recompensa a uma determinada resposta;

• o efeito de prazer é, portanto, o que fixa o acerto (resposta) acidental;

• em termos pedagógicos, o agradável é o sucesso do ensaio realizado pelo sujeito e o desagradável é o fracasso decorrente de obstáculos;

11

Sob idênticas condições:

•a associação exercitada com maior freqüência será a mais utilizada pelo sujeito;

•a associação exercitada com menor freqüência será a menos utilizada pelo sujeito;

•a associação exercitada mais recentementeserámais forte no conjunto de repertório de respostas do sujeito;

Histó Hist ó rico rico

Lei do exercício (Thorndike, 1910s)

(7)

Conceitos B

Conceitos B á á sicos sicos

Aprender por meio de nossas interações com o ambiente – Uma criança não tem um professor, mas possui

habilidades cognitivas;

– Através das interações, a criança descobre as relações de causa e efeito;

– Aprender por meio de interações é uma idéia fundamental de quase todas as teorias de aprendizagem e inteligência

13

O que

O que ééaprendizagem por reforçaprendizagem por reforço?o?

14

 Uma classe de problemasclasse de problemasde aprendizagem para a qual existe uma grande diversidade de ttéécnicascnicas

 Aprendizagem:

– da utilidade dos estadosutilidade dos estados do ambiente com respeito a esse(s) objetivo(s)

–

– ououde uma polpolíítica de atica de aççãoãomaximizando o grau de satisfação desse(s) objetivo(s)

–– indiretamenteindiretamentevia recepção de reforreforççoo (ou dica) positivo ou negativo quando se encontra em alguns estados

– ou como resultado da execução de uma ação ou uma serie de ações

por um agente com objetivo(s) situado em um ambiente:

Conceitos B

Conceitos Bá á sicos sicos

(8)

Reinforcement Learning

Reinforcement Learning Supervised Learning Supervised Learning

 Aprendizado a partir da interação “learner – environment”

 Baseado em “tentativa e erro”

 Existe processo de busca (exploration) no espaço

 Orientado a objetivo

 Aprendizado a partir de padrões entrada - saída.

 Baseado em minimizar um erro.

 Busca limitada ao valores dos padrões padrões entrada-saída

 Orientado a aproximação de função

15

Conceitos B

Conceitos B á á sicos sicos

• O agenterecebe do ambienteum valor de resposta(recompensa).

• Esta recompensa avalia o desempenho do agente durante o processo de aprendizado.

s_t+1 ^Ambiente

Estado s_tS

Reforço

r_t r_t+1

ação a_tA(s_t) Agente

Reinforcement Learning

(9)

Algumas aplica

Algumas aplica ções ç ões

 [Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço:

– Vitória: +100

– Derrota: – 100

– Zero para os demais estados do jogo (delayed reward)

– Após 1 milhão de partidas contra ele mesmo, joga tão bem quanto o melhor jogador humano

17

Algumas aplicações

 Time Brainstormers da Robocup (entre os 3 melhores nos 3 últimos anos)

– Objetivo: Time cujo conhecimento é obtido 100% por técnicas de aprendizagem por reforço

– RL em situações específicas

 2 atacantes contra 2 defensores

 habilidades básicas

 Inúmeras aplicações em problemas de otimização, de controle, jogos e outros...

18

(10)

Reinforcement Learning Reinforcement Learning

Model-Based Model-Free

off-policy on-policy

Diferen

Diferençça Temporala Temporal

SARSA Q-learning

R-learning

Qyna Programação Dinâmica + Monte Carlo

AHC(Actor Heuristic Critic ou Actor-Critic Method)

Markov

19

Aprendizado por refor Aprendizado por reforççoo

Agente

Percepções (sensores)

Estado (modelo do mundo)

Ação Reforço (+/-)

Conceitos B

Conceitos Bá á sicos sicos

(11)

Reinforcement Learning Reinforcement Learning

 Aprendizagem por reforço consiste em aprender o que fazer— como mapear situações em ações de maneira a maximizar um sinal de ganho;

 Ao aprendiz não é dito que ação tomar, o qual deve aprender quais ações produzem maior ganho por meio de interações

 Nas situações mais desafiadores, o ganho não é imediato, mas futuro

21

Sumá Sum ário rio

 Introdução

– Motivação – Histórico

– Conceitos básicos

 Fundamentos Teóricos

– Processos de Decisão de Markov – Propriedade de Markov

– Funções de Valor – Aprendizado RL

 Métodos para a solução do problema de RL

– Programação Dinâmica – Monte Carlo

– Diferenças Temporais

 TD

 Aprendizado on-policy e off-policy

– Q-Learning – SARSA

 Eligibility Traces

 Estudo de Casos

22

(12)

Reinforcement Learning

Fundamentos Teóricos

23

Propriedade de Markov Propriedade de Markov



₁ ^'^, ₁ ^, ^, ^, ₁^, ₁^, ₁ ^, ₁^, ₀^, ₀



Pr s_t_ s r_t_  rs_t a_t r_t s_t_ a_t_ r_t_  r s a No caso mais geral, se a resposta do ambiente em t+1, para

uma ação em t depende de todo o histórico de ações até o momento atual, a dinâmicado ambienteé definida pela especificação completada distribuição de probabilidades:

(13)

25

Propriedade de Markov Propriedade de Markov

Quando a probabilidade de transição de um estado s para um estado s’depende apenas do estado s e da ação a adotada em s, isso significa que o estado corrente fornece informação suficientepara o sistema de aprendizado decidir que ação deve ser tomada.

25

Quando o sistema possui esta característica, diz-se que ele satisfaz a propriedade de Markov (Bellman, 1957).

Propriedade de Markov Propriedade de Markov

Se a resposta do ambiente em t+1 depende apenas do estado atual, pela propriedade de Markov, o estado atual contém a informação dos estados anteriores.



^s_t ^s^'^,^r_t ^r ^|^s_t^,^a_t



Pr _₁ _₁ 

Se o ambiente tem propriedade de Markov, então ele pode prever o próximo estado e o valor esperado para o retorno dado o estado e a ação atual.

É possível criar soluções incrementais, facilitando a implementação computacional.

26

(14)

Assim, a decisão de que ação tomar não pode depender da seqüência de estados anteriores

Exemplo:

Um tabuleiro de dama satisfaz esta propriedade

Propriedade de Markov Propriedade de Markov

27

Processos de Decisão de Markov Processos de Decisão de Markov – – PDM PDM

 Em RL, o ambiente deve ser modelado como um Processo de Decisão de Markov (Markovian Decision Process MDP)

Um MDP :

 Um conjunto de estados S

 Um conjunto de ações A(s)

 Uma função de reforço R(s, s’,a),onde R= S ×A→R,

 Uma função de probabilidade P(s, s’,a),onde P= S ×A→P de transição entre estados

 Se o espaço de estados e ações é finito PDM finito – 90% dos problemas RL

st st2

1

st s_t_₃

a a a a

1



rt r_t_₂ r_t_₃

... ...

(15)

Caracter

Caracteríísticas dos Processo de Decisão de Markov finito sticas dos Processo de Decisão de Markov finito e discreto no tempo:

e discreto no tempo:

•ambiente evolui probabilisticamente baseado num conjunto finito e discreto de estados

•o estado possui conjunto finito de ações, onde a mais adequada deve ser aprendida;

•cada ação executada deve ser avaliada,

•os estados são observados, ações são executadas e reforços são relacionados;

Processos de Decisão de Markov Processos de Decisão de Markov – – PDM PDM

29

Exemplos de PDMs Exemplos de PDMs

Problema Estados Ações Recompensas

Agente jogador de damas

Configurações do tabuleiro

Mover uma determinada peça

#capturas –

#perdas

Agente em jogo de luta

Posições/energia dos lutadores, tempo, se está sendo atacado ou não, etc...

Mover-se em uma determinada direção, lançar magia, bater, etc...

(Sangue tirado – sangue perdido)

Agente patrulhador Posição no mapa (atual e passadas)

Ir para algum lugar vizinho do mapa

Ociosidade (tempo sem visitas) do lugar visitado atualmente

30

(16)

Processos de Decisão de Markov Processos de Decisão de Markov – – PDM PDM

Probabilidades de Transição Valor Esperado do Reforço

31

Exemplo: Robô Reciclador

Lixo Obstáculo

Domínio robô

Exemplo: Robô Reciclador Exemplo: Robô Reciclador

As decisões devem ser tomadas periodicamente o quando um evento ocorre:

 Estado: O agente toma decisões com base no nível de energia da bateria - S = {high, low}

 Espaço de ações:

– A(high) = {search, wait}

– A(low) = {search, wait, recharge}

(17)

Tabela de Transi

Tabela de Transi ç ç ões ões

33

Grafo de Transi

Grafo de Transiç ç ões ões

34

(18)

35

Para os problemas de Reinforcement Learning é suposto que o ambiente tenha a forma de um Processo de Decisão de Markov, desde que seja

satisfeita no ambiente a Propriedade de Markov Obs: Nem todos os algoritmos de RL necessitamde uma modelagem PDM completa do ambiente, mas é necessário ter-se pelo menos a visão do ambientecomo um conjunto de estados e ações.

Processos de Decisão de Markov Processos de Decisão de Markov – – PDM PDM

35

Elementos de um sistema RL Elementos de um sistema RL

 Agente

 Estado

 Ambiente

 Política

 Função de Reforço

(19)

Elementos RL: Agente e Estado Elementos RL: Agente e Estado

 Agente: É o aprendiz que inserido no ambiente, toma ações que mudam o ambiente.

 Estado (s): A condição atual do ambiente especificada por um conjunto de variáveis adequadas ao problema

– Formado pelas percepções do agente + modelo do mundo;

– Deve prover informaçãopara o agente de quais ações podem ser executadas;

– Tipicamente, estados podem agregarmuitas informações além dos sinais sensoriais

37

A representação deste estado deve ser suficientepara que o agente tome suas decisões (satisfaz a propriedade de Markov)

38

 Modelo perceptivo:

 mapeia percepções para representação interna do estado do ambiente

– m_p: (percepção(t), modelo(estado(ambiente(t-1))))

modelo(estado(ambiente(t)))

 Modelo efetivo:

 mapeia ação a efetuar para representação interna do estado do ambiente resultando dessa ação

– m_e: (ação(t), modelo(estado(ambiente(t))))

modelo(estado(ambiente(t+1)))

Elementos RL: Modelo do ambiente

(20)

39 39

 Cada um desses modelos pode ser:

– representado em extensãopor uma tabela, ou

– representado em intençãopor algum formalismo de representação do conhecimento como:

– operadores de próximo estado, regras, lógica, operadores de planejamento

– manualmente codificado, ou

– aprendido com aprendizagem supervisionado

Elementos RL: Modelo do ambiente Elementos RL: Modelo do ambiente

 Imita o comportamento do ambiente

 Dados um estado e uma ação, o modelo antecipa o próximo estado e o ganho

– Estado corrente no instante t: s_t

– Ação a ser tomada: a_t

– Modelo antecipa o próximo estado:

– P(s_t+1=s | s_t, a_t)

•

Modelos do ambiente são usados para planejamento:

―Planejamento é qualquer método de decidir um curso de açãoao considerarmos futuras situações

Elementos RL: Modelo do ambiente

(21)

Elementos RL:

Elementos RL: com x sem modelo com x sem modelo prévio do ambiente

41

Com

Commodelo prmodelo préévio do ambientevio do ambiente

 Agente possui modelodo ambiente para prever transiçõesde estado do ambiente causada pelas suas ações

 Em ambiente não

determinista, o modelo pode ser apenas estocástico

Sem

Semmodelo prémodelo prévio do ambientevio do ambiente

 Agente ignora a priori:

– tanto o valorde cada estadodo ambiente com respeito a seus objetivos

– quanto as transiçõesde estado do ambiente que suas ações podem causar

Elementos RL: sem modelo pr

Elementos RL: sem modelo pr é é vio vio do ambiente

do ambiente

42

 Dois tipos de técnicas:

– As que permitem ao agente aprender o valor de ação para a realização dos seus objetivos sem conhecer o estado do ambiente

– As que permitem aprender ambas a função valor e a função de transição de estado

(22)

Elementos RL: Pol

Elementos RL: Pol ítica de a í tica de aç ções ( ões ( )  )

A política Π_t(s,a) é a probabilidade da ação a_t= a se s_t=s

43

 Função que modela o comportamento do agente

– Mapeia estados em ações

 Pode ser vista como um conjunto de regras do tipo s_na_m

– Exemplo:

Se estado s = (inimigo próximo, estou perdendo e tempo acabando)então

ação a = (usar toda a munição);

Se estado s =(outro estado) então ...

Mapeia estados do ambiente ou transição do ambiente de um estado para um outro, indicando a satisfação imediatado agente no estado resultando da transição em relação aos seus objetivos

• R: estado(ambiente) real, ou

• R: (estado1(ambiente), estado2(ambiente)) real

• R: codifica os objetivos do agente de maneira imediata local

• R: pode ser determinista ou estocástica

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

(23)

 O uso de um sinal de reforço é uma da características mais importantes de RL

 O sinal de reforço é a maneira de se comunicar ao agente o que desejamos que ele faça, não como ele deve executar a tarefa

45

•

Em geral não se penaliza um agente por não ter acesso a alguma informação relevante, mas por ter tido conhecimento e depois esquecido.

 Reforço (r):É um valor escalar, respostado ambiente dada uma ação executada pelo agente, é a qualidade imediata da ação tomada para o estado atual.

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

O objetivo do agenteé maximizara seqüência de recompensasrecebidas, ou seja, maximizaro Reforço esperado

T t

t t

t r r r r

R  _₁ _₂ _₃

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

46

A função acima faz sentido quando a interação agente- ambiente pode ser quebrada em subsequências

chamadas episódios.

(24)

47 47

Cada episódio termina em um estado terminal – Em tarefas episódicas, distingue-se estados não terminais, S, dos estados terminais, S⁺

Quando a interação agente-ambiente não pode ser quebrada naturalmente em episódios, dizemos que a tarefa é contínua.

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

reforço em todos xtodos x em poucospoucos estados

Refor

Reforçço em o em todos todos os estadosos estados

 Agente recebe reforçoem todosos estados

 Pode facilmente atribuiresse reforçoa esse estadoou a última açãoque executou

 Simplificaa atualização da estimativa do valordesse estadoou ação

Refor

Reforçço em o em poucos poucos estadosestados

 Agente recebe reforço apenas em poucos estados

 Enfrenta o problemada distribuiçãodesse reforço entre as várias ações que executou desde o último reforço

 Dificultaatualização da estimativa do valordos

Elementos RL: Fun

Elementos RL: Fun ção de Refor ç ão de Reforç ço o

(25)

• As ações são escolhas feitas pelos agentes;

• As recompensas são a base para avaliação das escolhas;

• Os estados são a base para se fazer as escolhas;

Elementos de um sistema RL Elementos de um sistema RL

49

 Enquanto a função de reforço indicaos movimento promissores imediatos; a função valorestado indica o ganho total que pode ser acumulado no futuro se iniciarmos no estado em consideração

 A função valorindica o ganho potencial de longo termo de um estado, levando em conta os estados que sucedem o estado em consideração

50

Elementos RL:

Elementos RL: Fun Funç ção de Valor ão de Valor

(26)

 Função de Valor:Valor esperado condicional da função de reforço para um estado e uma ação, seguindo uma política

 







 



 







 0

) 1

(

k

t k t k t

t s s E r s s

R E s

V^ _ _ 

 







  



 







 0

1 ,

, )

, (

k

t t k t k t

t

ts sa a E r s sa a

R E a s

Q _ 



A função de valor representa o reforço esperado a longo prazo.

Função de valor do estado para 

Função de valor da ação para 

Elementos RL:

Elementos RL: Fun Funç ção de Valor ão de Valor

51

Para qualquer es a função de valor de sem é avaliada para os possíveis s´:

Equação de Bellman:

Relação valor do estado e dos valores dos estados sucessivos

Elementos RL:

Elementos RL: Fun Funç ção de Valor ão de Valor

A eq. Bellman realiza a média sobre todas as possibilidades,

(27)

A eq. Bellman realiza a média sobre todas as possibilidades, onde o peso são as probabilidades de ocorrência.

Valor deste estado é o valor esperado para o próximo estado + reforço esperado Backup diagrams: formam a base das operações de atualização

53

Elementos RL:

Elementos RL: Fun Funç ção de Valor ão de Valor

Objetivo do RL Objetivo do RL

O objetivo do RL émaximizaro reforço total (função valor) obtido a longo prazo

Busca de uma política que

maximize o valor esperado de reforço para cada estado sdo conjunto S

) ( :sS aA s



54

(28)

Fun

Funç ções de Valor ões de Valor Ó Ótimas timas

Solucionar RL encontrar a política ótima.

A é melhor ´ se o retorno esperado é maior ou igual para todos os estados.

Se >= ´, V^(s) >= V^´(s) para todo s S

Se existe (e sempre existe) uma que é melhor ou igual a todas as outras políticas, então é ótima

55

Funç Fun ções Valor ões Valor Ó Ótimas timas

 Se maximizamos (como definido para encontrar a função valor ótima), temos que:

 



^r ^Q ^s â ^s ^s â â



E

a s Q a

s Q

s s s V r E

s V s

V

t t t

t s a

t t a t

s a



















,

| ) ' , ( max

) , ( max ) , (

| ) ( max

) ( max ) (

1

* 1

* ) (

*

1

* 1

* ) (

*





A A

Estas são as equações de otimalidade de Bellman

(29)

Fun

Funç ções Valor ões Valor Ó Ótimas timas

Estas são as duas formas para a Equação de otimalidade de Bellman

57

Funcões

Funcões Valor Valor ótimas ó timas

 



^r ^Q ^s â ^s ^sâ â



E

a s Q a

s Q

s s s V r E

s V s V

t t a t

t s a

t t a t

s a



















,

| ) ' , ( max

) , ( max ) , (

| ) ( max

) ( max ) (

1

* 1 '

* ) (

*

1 1

* ) (

*





A A

 Das equações de Bellman, a forma de enxergar o ótimo é

58

(30)

Fun Funç ções Valor ões Valor ó ótimas: Pol timas: Polí íticas ticas Ó Ótimas timas

Existem funções de valor ótimas (que maximizam o retorno ao longo prazo):

Que representam políticas ótimas:

) ( max )

*(

s V s

V ^

  ^Q^*⁽^s^,^a⁾^^max_ ^Q^⁽^s^,^a⁾

) , ( max arg ) (

* s Q^* s a

  

Desta forma, * representa a política mais ambiciosa respeito de Q*

59

Fun Funç ções Valor ões Valor ó ótimas: Pol timas: Polí íticas ticas Ó Ótimas timas

Três Suposições Verdadeiras:

• A dinâmica do ambiente é conhecida;

• Recurso computacional suficiente;

• Propriedades de Markov.

(31)

Como

Como é é que o RL funciona? que o RL funciona?

*

Q Q

V V



*

 

Contínuo e ON-Line, RL age e aprende de modo simultâneo

Experiência

Política Função

de Valor SELEÇÃO DA

AÇÃO

ALGORITMO DE

A^PRENDIZADO

POR REFORÇO

*

* 2

1

2

1

 

  V

^

  V

^

   V 

61

 Reinforcement Learningsão métodos de aprendizado obtido pela interaçãode um agentecom o ambiente externo.

 Aprender o mapeamentode estadose açõespara escolher as ações ótimas a serem tomadas dado um objetivodo agente.

 A métrica da qualidadeda açãoescolhida é o reforço recebido após ter sido tomada a ação no estado atual.

Reinforcement Learning Reinforcement Learning

62

(32)

O que

O que éé

aprendizado por refor

aprendizado por reforçço ?o ?

 Problema de aprendizagem pode ser definido:

–

– Um agente em um ambiente a cada instante Um agente em um ambiente a cada instante de tempo

de tempo tt::



o agente esto agente estááem um em um estadoestadoss



executa uma executa uma aaççãoãoaa

vai para um vai para um estadoestados’s’

recebe uma recebe uma recompensarecompensarr

63

A representação deste estado deve ser suficiente para que o agente tome suas decisões (satisfaz a propriedade de Markov)

Ex: Um tabuleiro de dama satisfaz esta propriedade, mas de xadrez não O ambiente não precisa ser episódico