Emerson de Oliveira Antunes Samir Elias Hachem Kerbage

(1)

DEPARTAMENTO DE CIˆENCIA E TECNOLOGIA INSTITUTO MILITAR DE ENGENHARIA

Se¸c˜ao de Engenharia de Computa¸c˜ao / SE 8

Implementa¸c˜ao de heur´ısticas para a Liga Simulada RoboCup 2D

Rio de Janeiro 2011

(2)

Emerson de Oliveira Antunes Samir Elias Hachem Kerbage

Implementa¸ c˜ ao de heur´ ısticas para a Liga Simulada RoboCup 2D

Monografia de Projeto de Final de Curso ao Curso de Gradua¸c˜ao em Engenharia de Computa¸c˜ao.

Orientador:

Paulo Fernando Ferreira Rosa, PhD

Rio de Janeiro 2011

(3)

EMERSON DE OLIVEIRA ANTUNES SAMIR ELIAS HACHEM KERBAGE

IMPLEMENTAÇ ÃO DE HEURÍSTICAS PARA A LIGA SIMULADA ROBOCUP 2D

Projeto de Final de Curso sob o t´ıtulo “Implementa¸c˜ao de heur´ısticas para a Liga Simulada RoboCup 2D”, defendido por Emerson Oliveira Antunes e Samir Elias Hachem

Kerbage e aprovada em 2011, no Rio de Janeiro, Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Paulo Fernando Ferreira Rosa Orientador

Cap Wallace Anacleto Pinheiro Instituto Militar de Engenharia

Cap Julio Cesar Duarte Instituto Militar de Engenharia

(4)

Este exemplar ´e de propriedade do Instituto Militar de Engenharia, que poder´a inclu´ı- lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento.

E permitida a men¸c˜´ ao, reprodu¸cão parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modifica¸cão de seu texto, em qualquer meio que esteja ou venha a ser fixado, para pesquisa acadêmica, comentários e cita¸cões, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa.

Os conceitos expressos neste trabalho s˜ao de responsabilidade do autor e do orientador.

006.3 Kerbage, Samir Elias Hachem.

A6361 Implementa¸c˜ao de heur´ısticas para a Liga Simulada RoboCup 2D. Antunes, Emerson de Oliveira; Kerbage, Samir Elias Hachem - Rio de Janeiro: Insituto Militar de Engenharia, 2011.

59 p.: il.

Projeto Fim de Curso – Instituto Militar de Enge- nharia – Rio de Janeiro, 2011.

1. Inteligˆencia Artificial. 2. Rob´otica Inteligente. 3.

Heur´ıstica. I Antunes, Emerson de Oliveira. II T´ıtulo III Instituto Militar de Engenharia

CDD 006.3

(5)

O Aprendizado por Refor¸co é uma técnica muita conhecida para a solu¸cão de problemas quando o agente precisa atuar com sucesso em um local desconhecido por meio de tentativa e erro. Esta técnica tem sido utilizada amplamente em robôs autônomos em ambientes desestruturados, apesar do tempo que o agente leva para aprender. Este trabalho apresenta o uso do Aprendizado por Refor¸co acelerado por heur´ıstica no dom´ınio da robótica móvel, utilizando a plataforma de simula¸cão da RoboCup 2D. Esta plataforma vem sendo usada cada dia mais no meio cient´ıfico, pois possibilita fazer inúmeros experimentos com jogadores virtuais, sem sofrer com problemas que comumente são encontrados em sistemas reais, além de manterem sempre as mesmas caracter´ısticas de ambiente.

O principal problema abordado neste trabalho é desenvolver um time com Aprendi- zado por Refor¸co Acelerado por Heur´ıstica na RoboCup 2D. Tal time apresenta diversos desafios, sendo o maior deles o tamanho do ambiente, o que gera grande dificuldade para um agente aprender uma pol´ıtica de decisões. Para solucionar este problema foram pro- postas formas de generalizar os estados, sem causar qualquer interferência no aprendizado.

Foram realizados 18000 treinamentos com o time implementado e os resultados in- dicam que a convergência desse método é lenta, indicando a necessidade de defini¸cão de algumas diretrizes adicionais para o uso da aprendizagem por refor¸co no dom´ınio do futebol de robôs, como a implementa¸cão de estratégias diferentes de acordo com a fun¸cão que cada jogador assume, como as de atacante, zagueiro, meio de campo e goleiro.

Palavras-chave: Inteligˆencia Artificial, Rob´otica Inteligente, Aprendizado por Refor¸co, Heur´ıstica, Q-Learning, RoboCup 2D

(6)

needs to operate successfully in an unfamiliar place through trial and error. This technique has been widely used in autonomous robots in unstructured environments, despite the time that the agent takes to learn. This paper presents the use of Heuristic Accelerated Reinforcement Learning in the field of mobile robotics, using the simulation platform of RoboCup 2D. This platform is being used increasingly in the scientific community, because it makes possible to do many experiments with virtual players, without suffering from problems that are commonly found in real systems, while maintaining all the same features of the environment.

The main problem addressed in this work is to develop a Heuristic Accelerated Rein- forcement Learning Team in the RoboCup 2D competition. This team presents several challenges, the largest being the size of the environment, which creates great difficulty for an agent to learn a policy-making. To solve this problem, ways to generalize the states were proposed, without causing any interference in the learning process.

So far, 18000 trainings with the team were conducted and the results indicate that the convergence of this method is slow. This demonstrate the need to define some additional guidelines for applying the use of reinforcement learning in the field of robot soccer, like implementation of different strategies accordingly to the role that each player takes, such as attacker, defender, midfielder and goalkeeper.

Keywords: Artificial intelligence, Intelligent Robotics, Reinforcement Learning, Heu- ristic, Q-Learning, RoboCup 2D.

(7)

Lista de Figuras Lista de Tabelas

1 Introdu¸c˜ao p. 12

1.1 Objetivos . . . . p. 13 2 Revisão de Literatura e Tópicos Tutoriais p. 15 2.1 Aprendizagem . . . . p. 15 2.1.1 Caracter´ısticas dos ambientes de aprendizagem . . . . p. 15 2.1.2 Agentes Inteligentes . . . . p. 16 2.1.3 Processo Markoviano de Decisão . . . . p. 17 2.1.4 Determina¸cão de uma pol´ıtica ótima . . . . p. 19 2.1.5 Aprendizado por Refor¸co . . . . p. 20 2.1.6 Métodos de aprendizagem por refor¸co . . . . p. 21 2.1.7 O Método de Diferen¸cas Temporais . . . . p. 21 2.1.8 Q-Learning . . . . p. 25 2.2 Acelera¸cão da aprendizagem por refor¸co . . . . p. 26 2.2.1 Generaliza¸cão espacial . . . . p. 27 2.2.2 Imita¸cão . . . . p. 28 2.2.3 Heur´ıstica . . . . p. 28 2.2.4 A fun¸cão heur´ıstica H . . . . p. 30 2.2.5 O algoritmo Q−Learning Acelerado por Heur´ısticas . . . . p. 32

(8)

2.3.3.1 O Simulador . . . . p. 37 2.3.3.2 O ambiente simulado . . . . p. 39 2.4 An´alise do time UvA Trilearn . . . . p. 40

3 Implementa¸c˜ao p. 42

3.1 Modelagem da estratégia para o time . . . . p. 42 3.1.1 Discretiza¸cão dos estados . . . . p. 42 3.1.2 Discretiza¸cão das a¸cões . . . . p. 43 3.1.3 Defini¸cão dos refor¸cos . . . . p. 44 3.2 Implementa¸cão da estratégia . . . . p. 44 3.2.1 Matriz de estados e a¸cões . . . . p. 45 3.2.2 Cr´ıtico . . . . p. 45 3.2.2.1 Análise do melhor instante para colhimento do refor¸co p. 46 3.3 Implementa¸cão das Heur´ısticas . . . . p. 48 3.3.1 Escolha do melhor jogador para fazer o passe . . . . p. 49 3.3.2 Posicionamento dos jogadores no campo . . . . p. 49 3.3.3 Chutar a gol sempre que houver condi¸cões favoráveis . . . . p. 50 3.3.4 Defini¸cão da melhor trajetória do chute à gol . . . . p. 50 3.3.5 Otimiza¸cão do tiro de meta . . . . p. 50 4 Treinamentos e Resultados Experimentais p. 52 4.1 Q-Learning sem Heur´ıstica . . . . p. 53 4.2 Q-Learning com Heur´ısticas - 11 jogadores . . . . p. 54

(9)

4.4 Compara¸c˜ao dos resultados . . . . p. 55

5 Considera¸c˜oes Finais p. 57

5.1 Contribui¸c˜oes . . . . p. 57 5.2 Li¸c˜oes aprendidas . . . . p. 57 5.3 Trabalhos Futuros . . . . p. 58

Referˆencias p. 59

(10)

1 Diagrama esquem´atico de um agente reativo simples (RUSSEL; NORVIG,

2004). . . . p. 17 2 Agente baseado na utilidade (RUSSEL; NORVIG, 2004). . . . p. 17 3 Um modelo geral de agentes com aprendizagem (RUSSEL; NORVIG, 2004). p. 18 4 Funcionamento de um agente com aprendizado por refor¸co. . . . p. 21 5 Uma partida de simula¸cão 2D vista do SoccerMonitor. . . . . p. 37 6 Arquitetura do Sistema de Simula¸cão SoccerServer (REIS, 2003) . . . . p. 38 7 Localiza¸cão e nomes dos marcos de orienta¸cão no SoccerServer (NODA et

al., 1998) . . . . p. 39 8 Arquitetura de camadas do time UVA Trilearn. (BOER; KOK, 2002) . . p. 41 9 Representa¸c˜ao da localiza¸c˜ao do ´ındice (i0) da chave de estados e deter-

mina¸cão do ´ındice (i1) da chave de estados. . . . p. 43 10 Arquitetura de camadas do time . . . . p. 46 11 Histograma do número de ciclos transcorridos a partir da última a¸cão

realizada até fazer um gol. . . . p. 47 12 Histograma do número de ciclos transcorridos a partir da última a¸cão

realizada até sofrer um gol. . . . p. 47 13 Boxplot do número de ciclos transcorridos a partir da última a¸cão reali-

zada até fazer um gol . . . . p. 48 14 Boxplot do número de ciclos transcorridos a partir da última a¸cão reali-

zada até sofrer um gol . . . . p. 48 15 Histograma do número de ciclos transcorridos a partir do último toque

realizado até a constata¸cão da manuten¸cão ou perda da posse de bola. . p. 49

(11)

17 Histograma do n´umero de ciclos transcorridos a partir do ´ultimo chute

realizado até a constata¸cão da manuten¸cão ou perda da posse de bola. . p. 50 18 Escolha da melhor trajetória de chute à gol baseado nos ângulos entre o

jogador, a bola e as traves . . . . p. 51 19 Resultado do saldo de gols para o algoritmo Q-Learning sem heur´ısticas p. 53 20 Resultado do saldo de gols para o algoritmo HAQL em uma partida com

11 jogarores em cada time . . . . p. 54 21 Resultado do saldo de gols para o algoritmo HAQL em uma partida com

5 jogarores em cada time . . . . p. 55 22 Compara¸c˜ao do resultado das se¸c˜oes de treinamento com e sem Heur´ısticas p. 56

(12)

1 Diferen¸cas entre as caracter´ısticas dos dom´ınios do RoboCup e Xadrez.

(REIS, 2003) . . . . p. 35 2 Chave de estados . . . . p. 42 3 Representa¸cão dos ângulos . . . . p. 43 4 Representa¸cão das distâncias . . . . p. 43 5 Refor¸cos com avan¸co em dire¸cão ao gol adversário. . . . p. 44 6 Refor¸cos sem avan¸co em dire¸cão ao gol adversário . . . . p. 44

(13)

1 Introdu¸ c˜ ao

O interesse de pesquisa da comunidade de Inteligência Artificial em Sistemas Multi- agentes tem gerado o crescimento da utiliza¸cão de técnicas de agentes nas mais diversas aplica¸cões em que esses sistemas podem ser usados, como por exemplo: jogos de compu- tadores, interfaces adaptativas, simula¸cão e controle de processos industriais. O futebol de robôs é uma iniciativa de um grupo internacional de pesquisadores em Inteligência Artificial e Robótica Inteligente, a RoboCup Federation, que propõe um problema padrão a ser solucionado: uma partida de futebol de robôs. A RoboCup é uma tentativa de estimular a área de IA (Inteligência Artificial) e, principalmente de Sistemas Multiagen- tes por promover um problema padrão onde uma ampla cadeia de tecnologias podem ser integradas, examinadas e comparadas. A utiliza¸cão do ambiente da RoboCup 2D para simula¸cão de uma partida de futebol (simulador Soccer Server) permite a avalia¸cão de diferentes técnicas de Sistemas Multiagentes como planejamento de estratégias, conhecimento em tempo real, colabora¸cão de agentes, princ´ıpios de agentes autônomos, entre outros, e estimula as pesquisas, investiga¸cões e testes que possibilitem a constru¸cão gra- dativa de agentes avan¸cados. A Robocup possui três categorias, duas delas disputadas entre times de robôs reais de pequeno e médio porte e uma terceira categoria na qual as partidas são disputadas em um simulador, o Soccer Server. Esta última será o foco de nosso estudo. A Robocup 2D foi inicialmente proposta para ser um meio de divulga¸cão da robótica e da pesquisa em inteligência artificial, e fornecer meios para a avalia¸cão de várias teorias, algoritmos e arquiteturas, servindo também como uma ferramenta para a integra¸cão e estudos de como várias tecnologias podem trabalhar em conjunto (BOER;

KOK, 2002). Esta competi¸cão deu oportunidade aos pesquisadores trabalharem nas mais variadas áreas da inteligência artificial, como por exemplo, em sistemas multiagentes, es- tratégia, aprendizado, visão, redes neurais, controle e em muitas outras, pois a cria¸cão de times para o Robocup vai além da simples integra¸cão da Inteligência Artificial. Dentre as aplica¸cões dos estudos envolvidos na Robocup, podemos destacar:

• Roteamento de pacotes de rede;

(14)

• Coordena¸c˜ao de Ve´ıculos n˜ao tripulados;

• Simula¸c˜ao de ambientes desestruturados.

Atualmente, o interesse pelo estudo da rob´otica e inteligˆencia artificial tem sido incenti- vado pelos campeonatos criados pela RoboCup, envolvendo estudantes do mundo todo.

Um pré-requisito para participa¸cão em uma competi¸cão na modalidade de simula¸cão 2D de futebol é a disponibiliza¸cão do código fonte do time participante. Portanto, a partir do código fonte do time UVA Trilearn (BOER; KOK, 2002) com implementa¸cões de técnicas de Aprendizado por Refor¸co (AR) já efetuadas em trabalho de Inicia¸cão à Pes- quisa, é que iremos desenvolver este trabalho, adicionando em seu código mais estratégias de AR e heur´ısticas, com o intuito de acelerar o aprendizado e melhorar o desempenho dos jogadores. Quando se deseja solucionar uma variedade de problemas e quando não existem modelos dispon´ıveis a priori, o Aprendizado por Refor¸co é uma técnica muito atraente, pois o agente irá aprender a cumprir uma fun¸cão de maneira correta em um ambiente desconhecido através de tentativa e erro. No Aprendizado por Refor¸co, o agente aprende por meio da intera¸cão direta entre o agente e o ambiente, e das recompensas recebidas. Estas recompensas são dadas na forma de refor¸cos positivos e negativos, que são usados para sinalizar ao agente se ele está realizando as a¸cões corretas ou não. A tarefa de aprendizagem por refor¸co consiste em usar recompensas observadas para aprender uma pol´ıtica ótima (ou quase ótima) para o ambiente. Em uma plataforma de robôs autônomos cooperativos (e.g., o futebol de robôs), o programa pode ser informado quando ganhou ou perdeu, e pode usar essa informa¸cão para aprender uma fun¸cão de avalia¸cão que forne¸ca estimativas razoavelmente precisas da probabilidade de ganhar a partir de qualquer posi¸cão dada. Apesar de o aprendizagem por refor¸co ser muito indicado como técnica de aprendizagem no ambiente de futebol de robôs, ele apresenta uma deficiência que é a lentidão do aprendizado. É na tentativa de solucionar este problema que se torna importante o uso de heur´ısticas visando acelerá-lo.

1.1 Objetivos

Este projeto tem por objetivo a implementa¸cão de heur´ısticas baseadas no uso de técnicas de aprendizado por refor¸co no dom´ınio da robótica móvel, utilizando a plata-

(15)

forma padrão de simula¸cão da Liga Simulada 2D da RoboCup. O objetivo espec´ıfico desta pesquisa consiste na participa¸cão de competi¸cões locais, nacionais e internacionais de futebol de robôs. Esta plataforma vem sendo usada cada dia mais no meio cient´ıfico por possibilitar a realiza¸cão de inúmeros experimentos com jogadores virtuais, sem sofrer com problemas que comumente são encontrados em sistemas reais, além de manter sempre as mesmas caracter´ısticas de ambiente. Devido à complexidade que envolve a cria¸cão de todos os componentes de um time inteiro, como camada de comunica¸cão e modelagem do mundo, utilizamos como base o time da equipe UvA Trilearn, desenvolvido como trabalho de mestrado da universidade de Amsterdam, para focar o estudo na implementa¸cão de um sistema onde os agentes devem aprender a agir de acordo com a sua posi¸cão no campo, a posi¸cão da bola e dos oponentes. Neste trabalho é utilizado o algoritmo Q-Learning, técnica de aprendizado não supervisionado na qual um agente sem conhecimentos prévios aprende por meio de intera¸cões com o ambiente, recebendo recompensas por suas a¸cões e assim descobrindo a pol´ıtica ótima para a resolu¸cão de um determinado problema. E para tornar essa descoberta mais rápida empregam-se diversas heur´ısticas sobre as estratégias de aprendizado. O Q-Learning foi empregado por ser um dos mais conhecidos algoritmos de Aprendizado por Refor¸co e por já ter sido aplicado com sucesso em uma grande variedade de dom´ınios. Neste trabalho também é aplicada a técnica explora¸cão aleatória -Greedy para que, durante o treinamento, o agente possa explorar com frequência todos os estados para que o treinamento seja mais efetivo.

(16)

2 Revis˜ ao de Literatura e T´ opicos Tutoriais

2.1 Aprendizagem

Em IA existe um campo chamado de Aprendizado de M´aquina (Machine Learning

− ML) que busca a cria¸cão de programas de computador capazes de aprender automa- ticamente com est´ımulos externos de ambientes diversos, baseados em experiências. Em (BIANCHI, 2001) encontramos duas classifica¸cões do aprendizado de máquina, que levam em considera¸cão a forma na qual o agente interage com o ambiente em que está atuando com o intuito de aprender, são elas: supervisionado, semi-supervisionado e não supervisionado.

No aprendizado supervisionado o agente é guiado por um supervisor que o informa sobre o seu desempenho, forncecendo-lhe portanto, informa¸cões a cerca dos resultados esperados para suas a¸cões.

No Aprendizado por Refor¸co não existem exemplos de entrada, nem a especifica¸cão das sa´ıdas. Nele o aprendizado acontece a partir da intera¸cão do agente aprendiz com o ambiente em que está inserido, o qual irá responder às a¸cões do agente, retornando um refor¸co, também denominado de recompensa. A tarefa do agente é aprender um mapeamento das diferentes respostas do ambiente em rela¸cão às diferentes a¸cões que esse agente venha a executar, buscando maximizar as recompensas recebidas a cada intera¸cão com o ambiente, acumuladas ao longo do tempo.

2.1.1 Caracter´ısticas dos ambientes de aprendizagem

Ambientes possuem diversas caracter´ısticas que definem a maneira que esse ambiente pode ter seu estado alterado e como o mesmo reage `as a¸c˜oes executadas pelo agente.

Para que um agente possa interagir com o ambiente em que est´a inserido, primeiro ele

(17)

tem que observar esse ambiente. Um ambiente onde o agente é capaz de observar todas as informa¸cões relevantes para a escolha da a¸cão a ser executada, é denominado ambiente completamente observável. Esses ambientes completamente observáveis são ideais, pois não é necessário que o agente armazene informa¸cões sobre o ambiente ao longo do tempo para ser capaz de selecionar a a¸cão a ser executada.

Entretanto, a presen¸ca de ru´ıdo e a imprecisão na leitura de sensores podem impossi- bilitar que o agente seja capaz de observar todas as variáveis do ambiente que definem um estado. Pode acontecer, ainda, que um agente não seja capaz de observar todas as variáveis que definem um estado. Logo, o ambiente é denominado parcialmente observável.

Depois de observar o estado atual em que se encontra e selecionar a a¸c˜ao a ser executada, ´e conveniente que o agente possa de determinar o estado futuro do ambiente.

Quando é poss´ıvel determinar o estado futuro apenas com a observa¸cão do estado atual e com a informa¸cão de qual a¸cão será executada pelo agente, o ambiente é denominado determin´ıstico. Caso apenas as informa¸cões de estado atual e a¸cão a ser executada pelo agente não sejam suficientes para determinar o estado futuro, esse ambiente é denominado não-determin´ıstico.

Quando se trata da mudan¸ca de estados de um ambiente, caso seu estado seja alterado apenas pela execu¸cão da a¸cão selecionada pelo agente, então é denominado ambiente estático. Do contrário, quando o estado do ambiente pode sofrer altera¸cões enquanto o agente está selecionando qual a¸cão deve ser executada, esse ambiente é denominado dinâmico.

2.1.2 Agentes Inteligentes

Agente é o elemento básico da IA. É ele quem irá perceber e agir num ambiente, através de seus sensores e atuadores. Mas para decidir qual a¸cão tomar sob determinada circunstância é necessário um programa que implemente sua fun¸cão de agente. Existem alguns tipos de programas de agentes, mas neste trabalho nos restringiremos aos agentes reativos, baseados na utilidade e com aprendizagem.

O tipo mais simples de agente é o agente reativo simples. Esses agentes selecionam a¸cões com base na percep¸cão atual, ignorando o restante do histórico de percep¸cões. São, portanto agentes com inteligência limitada e tem sua estrutura ilustrada na Figura 1 .

Já os agentes baseados na utilidade procuram tomar suas decisões segundo a¸cões que lhe são mais úteis, guiados por fun¸cões de utilidade que mapeiam os sentidos captados do

(18)

Figura 1: Diagrama esquem´atico de um agente reativo simples (RUSSEL; NORVIG, 2004).

ambiente em um n´umero real. Suas estruturas s˜ao mostradas na Figura 2 .

Figura 2: Agente baseado na utilidade (RUSSEL; NORVIG, 2004).

Os agentes com aprendizagem não são básicos como os demais e sim utilizados como evolu¸cão dos outros tipos, ou seja, os demais tipos podem evoluir e passar a trabalhar com aprendizado se incorporarem alguns elementos, tais como cr´ıtico, de aprendizado e gerador de problemas.

Nesse trabalho a técnica de aprendizado por refor¸co é usada para implementa¸cão desses agentes inteligentes, dado a complexidade do ambiente (parcialmente observável, não determin´ıstico e dinâmico) na liga simulada 2D e a impossibilidade de emprego de um supervisor para orientar o agente nas tomadas de decisão.

2.1.3 Processo Markoviano de Decis˜ao

Uma das maneiras de formalizar um agente de AR é através do Processo Markoviano de Decisão (Markov Decision Process - MDP), descrito em (RUSSEL; NORVIG, 2004). Uti- lizando o MDP é poss´ıvel modelar matematicamente um agente de AR, isto é, definir as

(19)

Figura 3: Um modelo geral de agentes com aprendizagem (RUSSEL; NORVIG, 2004).

fun¸c˜oes matem´aticas para os componentes de um agente de AR.

A propriedade de Markov define que as transi¸cões de estados são independentes do histórico de estados visitados e a¸cões executadas anteriormente pelo agente.

Um MDP ´e definido da seguinte maneira:

• Um conjunto finito de estados S;

• Um conjunto finito de a¸c˜oesA;

• Uma fun¸c˜ao recompensaR :S×A→R ;

• Uma fun¸cão de transi¸cão de estados T : S×A → Π(S) , onde Π(S) é um mapeamento da transi¸cão de estados em probabilidades.

As fun¸cões de recompensa e transi¸cão de estados são definidas de acordo com as propriedades do ambiente, representando um modelo desse ambiente.

Um agente de AR é composto por quatro componentes: uma pol´ıtica, uma fun¸cão de recompensa, uma fun¸cão valor e uma fun¸cão de transi¸cão de estados.

A pol´ıtica é responsável por selecionar a a¸cão a ser executada, dependendo da situa¸cão em que o agente se encontra, para que uma meta seja alcan¸cada. Seja qual for o estado inicial, essa pol´ıtica deve indicar uma seqüência de a¸cões para se chegar ao objetivo, sendo essa seqüência a que maximiza o ganho de recompensas acumuladas ao longo do tempo até um estado terminal ou até que um critério de parada seja atingido. Uma pol´ıtica que maximiza esse ganho de recompensas acumuladas é tida como uma pol´ıtica ótima.

Uma pol´ıtica pode determinar uma seqüência de a¸cões que não alcance o objetivo, ou

(20)

de recompensa deve retornar um valor que representa, numericamente, uma puni¸cão ou uma gratifica¸cão para cada poss´ıvel a¸cão a ser executada em cada um dos poss´ıveis estados.

Enquanto a fun¸cão recompensa representa uma resposta imediata do ambiente à a¸cão executada pelo agente, a fun¸cão valor representa, para cada a¸cão poss´ıvel a ser executada em determinado estado, o valor máximo de recompensa acumulada que pode ser recebida ao longo do tempo, até que um estado terminal seja atingido.

Por fim, a fun¸cão de transi¸cão de estados é capaz de retornar o estado futuro, seja qual for o estado atual e a a¸cão executada. Essa fun¸cão de transi¸cão de estados depende das propriedades do ambiente no qual o agente de AR está inserido.

Em um ambiente determin´ıstico, a sele¸cão de uma a¸cão a_t∈ A em um estados_t ∈S resulta sempre no mesmo estado futuro s_t+1 ∈ S e a transi¸cão T(s_t, a_t, s_t+1) ocorre com probabilidade 1. Para ambientes não-determin´ısticos, a sele¸cão da a¸cãoat ∈A no estado s_t∈S pode resultar em diferentes estados futuros e a transi¸cãoT(s_t, a_t, s_t+1) é represen- tada por uma distribui¸cão de probabilidades que define os efeitos de cada a¸cãoa_t sobre o conjunto de estados S, que pode ser expressa como a probabilidade de alcan¸car o estado st+1, dado o estado atual st e considerando que a a¸cãoat seja executada, P(st+1|st, at) .

2.1.4 Determina¸c˜ao de uma pol´ıtica ´otima

Com o agente de AR modelado por um MDP, admitindo que as fun¸cões de recompensa e transi¸cão de estados são conhecidas e o ambiente seja determin´ıstico, é poss´ıvel determinar uma pol´ıtica ótimaπ :S →A , para selecionar a próxima a¸cãoa∈A quando observado o estados ∈S, ou seja,π(s) =a .

Pode-se definir o valor acumulado V^π(s_t), que utiliza uma pol´ıtica arbitr´aria π , a partir de um estado inicialst, como mostrado na equa¸c˜ao 2.1:

V^π(st) =

∞

X

i=0

γⁱrt+i (2.1)

onde:

• r_t+i é a seqüência de recompensas recebidas a partir do estado s_t, utilizando a

(21)

pol´ıtica π para selecionar a¸c˜oes;

• γ ´e um fator de desconto que determina o quanto as recompensas futuras ser˜ao consideradas, admitindo o intervalo 0≤γ <1.

Para que uma pol´ıtica ótima, denominada π^∗, seja determinada, a tarefa do agente de AR é aprender uma pol´ıtica π que maximize o valor acumulado V^π(s), para qualquer estados ∈S, como mostrado na equa¸cão 2.2:

π^∗ ≡arg_πmaxV^π(s),∀s∈S (2.2)

Dessa forma, denomina-se V^∗(s) como sendo o valor acumulado ´otimo, aquele que resulta de uma pol´ıtica ´otimaπ^∗ .

2.1.5 Aprendizado por Refor¸co

No Aprendizado por Refor¸co, um agente sem conhecimentos prévios aprende por meio de intera¸cões com o ambiente, recebendo recompensas por suas a¸cões e assim descobrindo a pol´ıtica ótima para a resolu¸cão de um determinado problema. A suposi¸cão principal deste método é a existência de um agente que pode aprender a escolher suas a¸cões que resultarão em um melhor resultado futuro na realiza¸cão de uma tarefa.

Em uma grande variedade de dom´ınios complexos, nos quais não se conhece a solu¸cão de um problema, a op¸cão pelo uso do Aprendizado por Refor¸co pode ser útil (JUNIOR, 2007). Hoje em dia ele é utilizado nas mais diversas áreas como jogos, navega¸cão autônoma de robôs, controle de tráfego, entre outras.

O Aprendizado por Refor¸co é uma técnica de aprendizado não supervisionado devido

`

a não existência de uma representa¸cão de pares de entrada e de sa´ıda. Para cada movi- menta¸cão do agente não é fornecida nenhuma informa¸cão externa que ajude na tomada de suas decisões, tirando aquela que ele mesmo percebe da sua intera¸cão com o ambiente.

O Aprendizado por Refor¸co funciona da seguinte maneira: em um ambiente, a cada intervalo de tempo o agente executa uma a¸cãoa_t. Esta a¸cão é determinada pela pol´ıtica já aprendida e faz o agente ir para o estado s_t+1 e tendo em vista a recompensar_st,at que irá ganhar. A recompensa pode ser dada por valores positivos ou negativos, indicando a correta ou incorreta persegui¸cão do objetivo, respectivamente. A figura 4 apresenta um esbo¸co do funcionamento de um agente no Aprendizado por Refor¸co.

Seguindo este ciclo de funcionamento, o agente poder aprender uma pol´ıtica ´otima

(22)

Figura 4: Funcionamento de um agente com aprendizado por refor¸co.

para o problema, que tem o intuito de maximizar a soma das recompensas que foram recebidas durante o processo de aprendizado do agente.

2.1.6 M´etodos de aprendizagem por refor¸co

Segundo (MARTINS, 2007), existem três classes de métodos para resolver o problema de AR: programa¸cão dinâmica, métodos de Monte Carlo e métodos de diferen¸cas temporais.

Os métodos de programa¸cão dinâmica têm uma base matemática consistente, embora necessitem de um modelo completo do ambiente, ou seja, o conhecimento das fun¸cões de recompensa e transi¸cão de estados.

Métodos de Monte Carlo são conceitualmente simples e não requerem um modelo de ambiente, mas não são apropriados para computa¸cão iterativa, onde uma pol´ıtica é aprendida passo a passo, enquanto os métodos de diferen¸cas temporais não requerem um modelo de ambiente e são, essencialmente, métodos iterativos.

A seguir apresentamos os algoritmos fundamentais para a compreens˜ao desse trabalho.

2.1.7 O M´etodo de Diferen¸cas Temporais

O Método de Diferen¸cas Temporais (TD) é fundamentado por uma base matemática consistente. Esse método calcula, de forma iterativa, uma estimativaV^π do valor acumu- ladoV^π, selecionando as a¸cões seguindo uma pol´ıticaπ . O Método TD exige apenas que o próximo passo s_t+1 seja observado para atualizar a estimativa V^π , sem a necessidade de um modelo do ambiente. A regra de atualiza¸cão da estimativaV^π do Método TD mais simples, conhecido por TD(0), acontece de acordo com as equa¸cões 2.3 e 2.4:

(23)

V^π_t+1(s_t)←V^π_t(s_t) +α_tδ_t⁰ (2.3) δ_t⁰ =r_t+γV^π_t(s_t+1)−V^π_t(s_t) (2.4) Onde:

• st´e o estado atual;

• s_t+1 ´e o estado futuro;

• V^π_t ´e a estimativa atual do valor acumulado V^π na itera¸c˜ao t;

• V^π_t+1 ´e a estimativa futura do valor acumulado V^π na itera¸c˜aot+ 1;

• α_t´e a taxa de aprendizado na itera¸c˜aot, sendo 0< α≤1;

• δ_t⁰ ´e chamado de diferen¸ca temporal, ou erro TD(0), na itera¸c˜ao t, que representa uma estimativa da diferen¸ca entre a estimativa de valor atual V^π_t(s_t) e o valor acumulado esperado r_t+γV^π_t(s_t+1) ;

• r_t é a recompensa recebida na itera¸cãot, quando uma a¸cãoa_t, selecionada a partir da pol´ıtica π , é executada no estado s_t, atingindo o estado s_t+1;

• γ ´e um fator de desconto que determina o quanto as recompensas futuras ser˜ao consideradas, admitindo o intervalo 0≤γ <1.

O algoritmo 1 ´e o TD(0) que se encarrega de calcular a estimativa V^π . Para todo estado s, inicialize V^π(s) com zero

Observe o estado atual s_t repita

Selecione uma a¸c˜aoa_t de acordo com a pol´ıticaπ Receba a recompensa imediata r_t

Observe o novo estado s_t+1

Compute o erro TD(0) conforme a equa¸c˜ao 2.4

Atualize a estimativa do valor acumulado V^π conforme a equa¸c˜ao 2.3 s_t←s_t+1

at´e que algum crit´erio de parada seja atingido;

Algoritmo 1: Algoritmo TD(0) (MARTINS, 2007)

As equa¸cões 2.3 e 2.4 mostram que a estimativa futura V^π_t+1 é atualizada gradual- mente, sendo ponderada com a estimativa atual V^π_t através da taxa de aprendizado α.

Em ambientes determin´ısticos, o valor 1 ´e atribu´ıdo a α, o erro TD(0) δ⁰ ´e calculado e

(24)

a taxa de aprendizadoα <1 , todas as itera¸c˜oes anteriores s˜ao consideradas para calcular a estimativa de valor acumulado V^π.

Segundo (MARTINS, 2007), a taxa de aprendizado α deve decair ao longo do tempo para satisfazer duas condi¸cões de convergência de algoritmos iterativos utilizados em ambientes não determin´ısticos.

Uma maneira de se obter uma taxa de aprendizado α que decai ao longo do tempo é através da equa¸cão 2.5:

α_t= 1

1 +visitast(s) (2.5)

Onde visitas_t(s) é o número de visitas ocorridas ao estado s até a itera¸cãot.

Pode-se expandir o Método TD(0), que calcula a diferen¸ca após uma itera¸cão obser- vando o estado futuro st+1, para uma formula¸cão mais geral que considera a influência das diferen¸cas temporais obtidas em n estados futuros à frente, sendo n o número de itera¸cões. A regra de atualiza¸cão para calcular a estimativaV^π, mostrada na equa¸cão 2.6,

é muito similar à regra da equa¸cão 2.3 :

V^π_t+1(s_t)←V^π_t(s_t) +α_tδ_tⁿ (2.6) No entanto, a diferen¸ca temporal δⁿ_t é definida para considerar os erros TD(0) dos estados futuros,n itera¸cões à frente, conforme a equa¸cão 2.7 :

δ_tⁿ=δ⁰_t +γδ⁰_t+1+γ²δ_t+2⁰ +γ³δ_t+3⁰ ...=δ⁰_t +

∞

X

n=1

γⁿδ_t+n⁰ (2.7) A partir da defini¸cão da diferen¸ca temporal δⁿ , (MARTINS, 2007) apresenta uma formula¸cão que desconta a influência das diferen¸cas temporais futuras independente do fator γ, utilizando um fator λ , admitindo o intervalo 0 ≤ λ ≤ 1, originando o Método TD(λ). Enquanto o fator γ representa o desconto de recompensas futuras, o fator λ representa o desconto das diferen¸cas temporais futuras. Dessa forma, é poss´ıvel definir o erro TD(λ)δ^λ de acordo com a equa¸cão 2.8:

δ_t^λ =δ_t⁰+γλδ_t+1⁰ +γ²λ²δ_t+2⁰ +γ³λ³δ_t+3⁰ ...=δ⁰_t +

∞

X

n=1

(γλ)ⁿδ_t+n⁰ (2.8)

(25)

Além disso é poss´ıvel determinar o erro DT(λ)δ_t^λ recursivamente, conforme a equa¸cão 2.9:

δ_t^λ =δ_t⁰+γλδ^λ_t+1 (2.9)

A regra de atualiza¸cão da estimativaV^π que utiliza o erro TD(λ)δ^λ, que por sua vez considera as recompensas futuras e as diferen¸cas temporais futuras, descontadas ao longo do tempo pelos fatoresγ eλ respectivamente, é definida, então, conforme a equa¸cão 2.10:

V^π_t+1(s_t)←V^π_t(s_t) +α_tδ^λ_t (2.10) Entretanto, não é poss´ıvel implementar diretamente a regra de atualiza¸cão da equa¸cão 2.10, pois ela é não causal, o que significa que as diferen¸cas temporais futuras δ_t+1⁰ , δ_t+2⁰ , δ_t+3⁰ , ..., δ_t+n⁰ são utilizadas para atualizar a estimativa V^π_t+1 na itera¸cão t. Para que o cálculo das atualiza¸cões possa ser feito iterativamente, utiliza-se o rastro de elegibilidade.

Esse rastro de elegibilidade é uma variável de memória associada a cada estado s∈S. O rastro de elegibilidade pode ser definido por acumula¸cão (accumulating trace), conforme a equa¸cão 2.11, ou ainda, por substitui¸cão (replacing trace), conforme a equa¸cão 2.12:

et(s) =







λγet−1(s) se s6=s_t λγet−1(s) + 1 se s=st

(2.11)

e_t(s) =







λγet−1(s) se s6=s_t

1 se s=s_t (2.12)

O rastro de elegibilidade armazena a informa¸cão sobre quais estados foram visitados recentemente. Determina-se o quão recente um estado s foi visitado através de sua elegibilidade e(s), que decai em γλ a cada itera¸cão. Dessa forma, a atualiza¸cão de V^π_t+1, calculada pelo erro DT(0)λ⁰_t , é propagada proporcionalmente aos estados recentemente visitados, conforme mostra a equa¸cão 2.13, através do rastro de elegibilidade e_t(s):

V^π_t+1(s)←V^π_t(s) +αtδ_t⁰et(s),∀s∈S (2.13) O algoritmo TD(λ) ´e apresentado a seguir:

(26)

Receba a recompensa imediata rt

Observe o novo estado s_t+1

Compute o erro TD(0) conforme a equa¸c˜ao 2.4

Atualize o rastro de elegibilidade conforme uma das regras 2.11 ou 2.12 Para todo estado s:

Atualize a estimativa do valor acumuladoV^π(s) conforme a equa¸c˜ao 2.13

Compute o decaimento do rastro e(s)←γλe(s) s_t←s_t+1

Algoritmo 2: Algoritmo TD(λ) (MARTINS, 2007)

2.1.8 Q-Learning

Entre os diversos algoritmos de Aprendizado por Refor¸co existentes, o mais conhecido

é o Q-Learning (WATKINS; DAYAN, 1992). Neste método, para cada a¸cão realizada pelo agente, é computado sua recompensa e o valor esperado ao seguir a melhor pol´ıtica com um desconto. Esta pol´ıtica é aprendida por meio da intera¸cão com o ambiente e, assim, aprendidos quais as melhores a¸cões para chegar a um objetivo. A informa¸cão da pol´ıtica

´e armazenada em uma matriz Q(s, a), que guarda os valores estimados para cada par de estado e a¸c˜ao.

Inicialize Qt (st,at) arbitrariamente repita

Visita o estado s_t.

Selecione uma a¸c˜aoa de acordo com a regra de transi¸c˜ao de estados.

Execute a a¸c˜aoa_t.

Receba o refor¸co r(s_t, a_t) e observe o pr´oximo estado s_t+1. Atualize os valores de Q_t+1(s_t, a_t) de acordo com a equa¸c˜ao 2.14 Atualize o estado s_t←s_t+1.

Algoritmo 3: Algoritmo Q-Learning (WATKINS; DAYAN, 1992)

O Q-Learning tem como principal caracter´ıstica a capacidade de aprender por meio da intera¸cão de uma pol´ıtica ótima π∗, quando não existe um modelo do sistema. Esta pol´ıtica ótima é encontrada escolhendo a a¸cão que maximiza os valores de Q, para um determinado estado. O valor de custo de um estado (fun¸cão valorV(s)) é o valor máximo de Q(s_t, a_t) de um estados_t, para todas as a¸cões poss´ıveis de serem executadas nesse estado.