lnteligência Artificial
Introdução ao
Aprendizado por Reforço
(Reinforcement Learning)
Processo Decisório de Markov e Aprendizado por Reforço
Quando falamos sobre Processo decisório de
Markov e formalizamos o problema como uma tupla
<S,A,p,r>. Assumimos que nós sabiamos S,A, p e r e então buscamos uma solução ótima, isto é, uma função ou política que tivesse o maior retorno
esperado.
Inteligência Artificial CTC-17
esperado.
Em aprendizado por reforço (Reinforcement
Learning), nós queremos um agente que tenha um
bom desempenho em um mundo MDP, mas que
começa sem saber nada sobre p ou r
Como resolver o problema sem p e r?
Idéias?
Opção A: Aprender p e r e depois utilizar as técnicas conhecidas para encontrar a função de valor e
assim a política ótima
Inteligência Artificial CTC-17
Opção B: Estimar a função de valor diretamente
sem explicitamente calcular p ou r.
Como descobrir políticas sem conhecer as probabilidades e retornos
Inteligência Artificial CTC-17
Estimativa de Parâmetros
Inteligência Artificial CTC-17
Problemas com Estimativa de Parâmetros
Inteligência Artificial CTC-17
Estimar a função de valor diretamente
Inteligência Artificial CTC-17
Como escolher as ações ?
Inteligência Artificial CTC-17
Exemplo: Caça-níqueis (Armed bandit)
Inteligência Artificial CTC-17
Opções….
Agir aleatoriamente?
Mudar de máquina a cada vez que perder…?
Melhor que aleatório, mas não é ótimo
Estimar as probabilidades de cada máquina através
Inteligência Artificial CTC-17
Estimar as probabilidades de cada máquina através de contagem e depois permanece na melhor….
Como estimar?
Estratégias
Inteligência Artificial CTC-17
Alguns Resultados com E-greedy
Inteligência Artificial CTC-17
Lembrando MDP e definindo Função Q..
Inteligência Artificial CTC-17
PDM e Aprendizado por Reforço
Inteligência Artificial CTC-17
Exemplo
Inteligência Artificial CTC-17
Um algoritmo para o aprendizado da Função Q (Q-Learning)
O algoritmo Q-Learning (Watkins, 1989) baseia-se em simulações de Monte Carlo e no algoritmo Robbins- Monro
Simulações Monte-Carlo baseiam-se na amostragem de estados para estimar seus valores (abordagem força bruta)
Algoritmo Robbins-Monro permite aprender uma função onde um de seus parâmetros é uma variável aleatória com distribuição de
Inteligência Artificial CTC-17
de seus parâmetros é uma variável aleatória com distribuição de probabilidade conhecida, utilizando uma taxa de aprendizagem α que se altera ao longo do tempo segundo certas condições.
Maiores informações sobre a dedução do Q-Learning, Monte Carlo e Robbins-Monro podem ser obtidas em:
Reinforcement Learning: An Introduction, Sutton,R. and Barko,A. MIT Press.
1998
Q-Learning
Inteligência Artificial CTC-17
Taxa de Aprendizado e Convergência
Inteligência Artificial CTC-17
Taxa de Aprendizado e Convergência
Inteligência Artificial CTC-17
Algoritmo Q-Learning
Inteligência Artificial CTC-17
Um exemplo bastante simples
Inteligência Artificial CTC-17
Exemplos de aplicações
Inteligência Artificial CTC-17
Problemas com Q-Learning
Inteligência Artificial CTC-17
Problemas com Q-Learning - 2
Inteligência Artificial CTC-17
Q-Learning: Exercício
Inteligência Artificial CTC-17
Outro algoritmo para RL: SARSA
Inteligência Artificial CTC-17
Q-Learning x SARSA
Q-Learning
é o método mais usado
É do tipo off-policy (não é necessário seguir uma política)
Sarsa
Inteligência Artificial CTC-17
Por eliminar o uso de uma função de maximização, tende a ser mais rápido que Q-Learning, quando há grande
número de ações possíveis
Tem basicamente as mesmas condições de convergência
Permite descontar diferenças temporais gerando um
Sarsa( λ ) similar a algoritmos TD( λ )
Conclusões sobre Aprendizado por Reforço
Aprendizado por reforço permite que se aprenda a política ótima, mesmo sem saber previamente a
função de probabilidade de transição (p) ou a função de recompensa imediata (r)
Aprendizado por reforço é uma tecnologia
promissora, há muita pesquisa sendo feita na área e
Inteligência Artificial CTC-17
promissora, há muita pesquisa sendo feita na área e também aplicações real world
Mais referências:
Reinforcement Learning: An Introduction, Sutton,R. and Barko,A. MIT Press. 1998
Bertsekas,D. and Tsitsiklis, J.N. Neurodynamic programming. Athena Scientifc. Belmont.
Massachusetts. 1996