lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning)

(1)

lnteligência Artificial

Introdução ao

Aprendizado por Reforço

(Reinforcement Learning)

(2)

Processo Decisório de Markov e Aprendizado por Reforço

Quando falamos sobre Processo decisório de

Markov e formalizamos o problema como uma tupla

<S,A,p,r>. Assumimos que nós sabiamos S,A, p e r e então buscamos uma solução ótima, isto é, uma função ou política que tivesse o maior retorno

esperado.

Inteligência Artificial CTC-17

esperado.

Em aprendizado por reforço (Reinforcement

Learning), nós queremos um agente que tenha um

bom desempenho em um mundo MDP, mas que

começa sem saber nada sobre p ou r

(3)

Como resolver o problema sem p e r?

Idéias?

Opção A: Aprender p e r e depois utilizar as técnicas conhecidas para encontrar a função de valor e

assim a política ótima

Inteligência Artificial CTC-17

Opção B: Estimar a função de valor diretamente

sem explicitamente calcular p ou r.

(4)

Como descobrir políticas sem conhecer as probabilidades e retornos

Inteligência Artificial CTC-17

(5)

Estimativa de Parâmetros

Inteligência Artificial CTC-17

(6)

Problemas com Estimativa de Parâmetros

Inteligência Artificial CTC-17

(7)

Estimar a função de valor diretamente

Inteligência Artificial CTC-17

(8)

Como escolher as ações ?

Inteligência Artificial CTC-17

(9)

Exemplo: Caça-níqueis (Armed bandit)

Inteligência Artificial CTC-17

(10)

Opções….

Agir aleatoriamente?

Mudar de máquina a cada vez que perder…?

Melhor que aleatório, mas não é ótimo

Estimar as probabilidades de cada máquina através

Inteligência Artificial CTC-17

Estimar as probabilidades de cada máquina através de contagem e depois permanece na melhor….

Como estimar?

(11)

Estratégias

Inteligência Artificial CTC-17

(12)

Alguns Resultados com E-greedy

Inteligência Artificial CTC-17

(13)

Lembrando MDP e definindo Função Q..

Inteligência Artificial CTC-17

(14)

PDM e Aprendizado por Reforço

Inteligência Artificial CTC-17

(15)

Exemplo

Inteligência Artificial CTC-17

(16)

Um algoritmo para o aprendizado da Função Q (Q-Learning)

O algoritmo Q-Learning (Watkins, 1989) baseia-se em simulações de Monte Carlo e no algoritmo Robbins- Monro

Simulações Monte-Carlo baseiam-se na amostragem de estados para estimar seus valores (abordagem força bruta)

Algoritmo Robbins-Monro permite aprender uma função onde um de seus parâmetros é uma variável aleatória com distribuição de

Inteligência Artificial CTC-17

de seus parâmetros é uma variável aleatória com distribuição de probabilidade conhecida, utilizando uma taxa de aprendizagem α que se altera ao longo do tempo segundo certas condições.

Maiores informações sobre a dedução do Q-Learning, Monte Carlo e Robbins-Monro podem ser obtidas em:

Reinforcement Learning: An Introduction, Sutton,R. and Barko,A. MIT Press.

1998

(17)

Q-Learning

Inteligência Artificial CTC-17

(18)

Taxa de Aprendizado e Convergência

Inteligência Artificial CTC-17

(19)

Taxa de Aprendizado e Convergência

Inteligência Artificial CTC-17

(20)

Algoritmo Q-Learning

Inteligência Artificial CTC-17

(21)

Um exemplo bastante simples

Inteligência Artificial CTC-17

(22)

Exemplos de aplicações

Inteligência Artificial CTC-17

(23)

Problemas com Q-Learning

Inteligência Artificial CTC-17

(24)

Problemas com Q-Learning - 2

Inteligência Artificial CTC-17

(25)

Q-Learning: Exercício

Inteligência Artificial CTC-17

(26)

Outro algoritmo para RL: SARSA

Inteligência Artificial CTC-17

(27)

Q-Learning x SARSA

Q-Learning

é o método mais usado

É do tipo off-policy (não é necessário seguir uma política)

Sarsa

Inteligência Artificial CTC-17

Por eliminar o uso de uma função de maximização, tende a ser mais rápido que Q-Learning, quando há grande

número de ações possíveis

Tem basicamente as mesmas condições de convergência

Permite descontar diferenças temporais gerando um

Sarsa( λ ) similar a algoritmos TD( λ )

(28)

Conclusões sobre Aprendizado por Reforço

Aprendizado por reforço permite que se aprenda a política ótima, mesmo sem saber previamente a

função de probabilidade de transição (p) ou a função de recompensa imediata (r)

Aprendizado por reforço é uma tecnologia

promissora, há muita pesquisa sendo feita na área e

Inteligência Artificial CTC-17

promissora, há muita pesquisa sendo feita na área e também aplicações real world

Mais referências:

Reinforcement Learning: An Introduction, Sutton,R. and Barko,A. MIT Press. 1998

Bertsekas,D. and Tsitsiklis, J.N. Neurodynamic programming. Athena Scientifc. Belmont.

Massachusetts. 1996