Davi Carnaúba de Lima Vieira

(1)

Davi Carnaúba de Lima Vieira

MODELO DE REDE NEURAL CRESCENTE DE APRENDIZAGEM POR REFORÇO

Tese de Doutorado

Universidade Federal de Pernambuco [email protected] www.cin.ufpe.br/~posgraduacao

RECIFE 2016

(2)

Davi Carnaúba de Lima Vieira

MODELO DE REDE NEURAL CRESCENTE DE APRENDIZAGEM POR REFORÇO

Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Univer- sidade Federal de Pernambuco como requisito parcial para obtenção do grau de Doutor em Ciência da Computação.

Orientador:Paulo Jorge Leitão Adeodato

RECIFE 2016

(3)

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

V658m Vieira, Davi Carnaúba de Lima

Modelo de rede neural crescente de aprendizagem por reforço / Davi Carnaúba de Lima Vieira. – 2016.

133 f.: il., fig., tab.

Orientador: Paulo Jorge Leitão Adeodato.

Tese (Doutorado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, Recife, 2016.

Inclui referências e apêndices.

1. Inteligência artificial. 2. Redes neurais. 3. Diferença temporal. I.

Adeodato, Paulo Jorge Leitão (orientador). II. Título.

006.31 CDD (23. ed.) UFPE- MEI 2016-151

(4)

Davi Carnaúba de Lima Vieira

Modelo de Rede Neural Crescente de Aprendizagem por Reforço

Tese de Doutorado apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Doutor em Ciência da Computação

Aprovado em: 03/03/2016.

_____________________________________________

Orientador: Prof. Dr. Paulo Jorge Leitão Adeodato

BANCA EXAMINADORA

_____________________________________________

Profa. Dra. Patricia Cabral de Azevedo Restelli Tedesco Centro de Informática / UFPE

________________________________________________

Prof. Dr. Ulisses Martins Dias Faculdade de Tecnologia / UNICAMP

_____________________________________________

Prof. Dr. Carlos Henrique Costa Ribeiro Departamento de Teoria da Computação / ITA

______________________________________________

Prof. Dr. Orivaldo Vieira de Santana Junior Escola de Ciências e Tecnologia / UFRN

_____________________________________________

Prof. Dr. Arthur Plínio de Souza Braga Departamento de Engenharia Elétrica / UFC

(5)

Eu dedico esta tese para meus pais que me deram todo o apoio necessário para concluir este trabalho.

(6)

Agradecimentos

Agradeço primeiramente a Deus por me conceder sabedoria suficiente para concluir esta tese.

Ao meu orientador, Paulo Adeodato, pela orientação.

Aos professores Patrícia Tedesco, Carlos Ribeiro e Ulisses Dias pelas sugestões que contribuíram em muito para o aprimoramento deste trabalho. Novamente aos professores Carlos Ribeiro e Ulisses Dias por toda ajuda oferecida. Novamente ao meu orientador pela humildade, amizade, ensinamentos e correções que foram realizadas no presente trabalho.

Aos professores, Aluízio Ribeiro, Flávia Barros, Francisco Assis, Marcílio de Souto, Pa- trícia Tedesco, Paulo Adeodato, Ricardo Prudêncio e Teresa Ludermir, por todo o conhecimento que me foi passado. À secretária da pós-graduação, Maria do Socorro, por prestar um excelente atendimento. Ao Centro de Informática pela oportunidade.

À minha esposa, Márcia Carine, pela paciência e apoio. Aos meus filhos que implicita- mente me deram forças para concluir esta tese. Aos meus amigos, Nelson Rocha, Kleiton Jatobá, Jaziel Lobo e Antônio Aliberte, pelas palavras de apoio. Ao meu irmão, Daniel Carnaúba, por sempre me desejar o melhor. Aos meus pais por tudo.

Aos meus tios, Manoel Santos e Joana d’Arc, pela ajuda com minha redistribuição. Ao reitor do IFAL, Sérgio Teixeira, por tornar isto possível.

Não poderia esquecer todos os meus amigos que fiz durante minha passagem pelo Centro de Informática e pelos Institutos Federais de Pernambuco e Sergipe. Aos meus amigos do campus Rio Largo - IFAL.

À CAPES pela ajuda financeira.

(7)

Não se afogue nos dados. Monte um tabelão, gere os resultados e interprete.

—PAULO J. L. ADEODATO

(8)

Resumo

Os algoritmos da Aprendizagem por Reforço (AR) têm sido amplamente utilizados para a construção de agentes autônomos. Inspirada no comportamento da aprendizagem animal, a AR é um paradigma que serve como base para algoritmos que aprendem por tentativa e erro. Apesar da sua popularidade e sua sólida base matemática e garantia teórica de convergência para uma solução ótima, a AR apresenta restrições de aplicação em tarefas em que o espaço de estados é muito grande.

Por meio do agrupamento de estados similares é possível reduzir o tamanho do espaço de estados. Uma vez reduzido, o problema pode ser resolvido utilizando os algoritmos tradicionais da AR. A principal questão que se coloca aqui é como efetuar a agregação, de tal modo que, por um lado, se possa obter uma “boa” representação do espaço de estados, e pelo outro lado, o desempenho do modelo não degrade. Este é um dos grandes desafios da AR.

Esta tese propõe agrupar estados similares, por meio do uso do mapa auto-organizável de Fritzke, como forma de reduzir o espaço de estados. A maior parte das pesquisas que envolvem o uso de algoritmos que discretizam o espaço de estados busca aprimorar o momento certo para a partição do espaço de estados, onde particionar e quando parar, enquanto os algoritmos AR permanecem inalterados. Esses trabalhos em geral resultam em algoritmos que não convergem em determinados problemas ou que possuem uma capacidade de aprendizagem “fraca”. O presente trabalho contribui mostrando a fragilidade destes algoritmos ao mesmo tempo em que apresenta uma solução eficaz para o problema.

Esta tese compara o algoritmo proposto com quatro algoritmos AR chamados: Tile Coding(TC),Temporal Difference Adaptive Vector Quantification(TD-AVQ),Q(λ)com Dis- cretização Uniforme (Q(λ)-DU) eInterpolating Growing Neural Gas Q-learning (IGNG-Q).

Os experimentos mostram que o algoritmo proposto foi capaz de encontrar a solução dos cinco ambientes de teste envolvidos. Em comparação com o algoritmo TC, o algoritmo proposto foi capaz de proporcionar uma redução no uso da memória de88%,87%,98%e97%nos ambientes Continuous Maze,Slow Puddle World,Mountain CareAcrobot, respectivamente. No teste, o algoritmo proposto foi o único capaz de produzir uma política utilizável nos ambientesConti- nuous MazeeSlow Puddle World. O presente trabalho também mostra que o algoritmon-step Temporal Difference with Elegibility Traces(TD(nλ)) é mais indicado para o uso em ambientes discretizados que oQ(λ). O uso do algoritmo proposto com Discretização Uniforme (DU) foi capaz de mostrar convergência em problemas onde oQ(λ)não conseguiu. O produto final desta tese é um algoritmo robusto capaz de encontrar em tempo hábil uma solução para todos os ambientes de teste envolvidos.

Palavras-chave: Diferença Temporal. Modelo Adaptativo. Discretização do Espaço de

(9)

Estados.

(10)

Abstract

Reinforcement Learning (RL) algorithms has been widely used for the construction of autonomous agents. Inspired by the behavior of animal learning, RL is a paradigm that serves as basis for algorithms that learn by trial and error. Despite its popularity, solid mathematical foundation and theoretical guarantee of convergence to an optimal solution, RL have applicability constraints on tasks where the state space is too large.

By aggregating similar states one can reduce the state space size. Once reduced, the problem can be solved using traditional RL algorithms. The main question that arises here is how to realize the aggregation, so on the one hand, you can get a “good” representation of the state space, and on the other hand, the model performance does not degrade. This is one of the challenges of RL.

This thesis proposes aggregation of similar states, through the use of Fritzke’s self- organizing map, in order to reduce the state space. Most research involving the use of algorithms that discretize the state space seek to improve the right time for the partition of the state space, where to partition and when to stop, while the RL algorithms remains unchanged. These works often result in algorithms that do not converge on certain problems or have a “weak” learning capacity. This work contributes showing the fragility of these algorithms while presents an effective solution to the problem.

This thesis compares the proposed algorithm with four RL algorithms namely: Tile Coding (TC), Temporal Difference Adaptive Vector Quantization (TD-AVQ), Uniform Discre- tization (DU) and Interpolating Growing Neural Gas Q-learning (IGNG-Q). The experiments show that the proposed algorithm was able to find the solution on five testbed environments.

Compared with TC, the proposed algorithm was able to provide a reduction in memory usage of 88%,87%,98%and97%in the environmentsContinuous Maze,Slow Puddle World,Mountain CarandAcrobotrespectively. In the test, the proposed algorithm was the only capable to found an solution for the environmentsContinuous Mazeand Slow Puddle World. This thesis also shows that the RL algorithm proposed is more suitable for the use in discretized environments than Q(λ). The application of TD(nλ) with DU was able to show convergence in problems whereQ(λ)failed. The final product of this thesis is a robust algorithm able to find in time a solution for all specified test environments.

Keywords: Temporal Difference. Adaptive Model. Discretization of the State Space.

(11)

Lista de Figuras

2.1 Interação agente-ambiente. Adaptado deSutton; Barto(1998). . . 28

2.2 Tarefa com três estados e um estado meta que mostra o atraso na atualização da função valor pelo algoritmo Q-learning. . . 30

2.3 Atualização da função valor realizada pelos algoritmos Q-learningeQ(λ)no ambienteGridworldapós alcançar o estado meta. . . 33

3.1 AmbienteMountain Car. . . 37

3.2 AmbientePuddle World. . . 38

3.3 AmbienteAcrobot. . . 40

3.4 AmbienteContinuous Maze. . . 41

3.5 Carro com quatro rodas construído utilizando o kit Lego Mindstorms EV3. . . 42

3.6 Visão do topo do ambienteSteering Carobservado pela webcam. . . 42

3.7 Visão técnica do ambienteSteering Car. . . 43

3.8 Representação da função valor em um espaço de estados bidimensional particionado em nove regiões disjuntas. . . 45

3.9 Espiral apresentada como entrada para a redeGrowing Neural Gas(GNG). . . 48

3.10 Particionamento do ambienteMountain Carrealizado pelo algoritmo GNG. . . 49

3.11 Discretização uniforme do ambienteGridworld. . . 50

3.12 Exemplo da dependência do caminho no ambienteMaze4×4. . . 51

3.13 FenômenoChatteringobservado no ambienteGridworldquando particionado uniformemente em quatro regiões. . . 52

3.14 Grafo de transição entre os estados da região4do ambienteGridworldparticio- nado uniformemente em quatro regiões. . . 52

3.15 FenômenoChatteringobservado do espaço de políticas. . . 54

3.16 Redução dos efeitos do fenômenoChatteringobservado no ambienteGridworld após tornar a política fixa durante os episódios. . . 54

4.1 Ativação de doistilesem doistilingspelo algoritmo TC . . . 57

4.2 Estrutura da redeMultilayer Perceptron(MLP) utilizada pelo algoritmoNeural Fitted Q-iteration(NFQ). . . 59

4.3 Discretização uniforme e as estimativas do retorno das 4 ações (esquerda, cima, baixo e direita) após convergência da função valor pelo algoritmo Q-learning. . 61

4.4 Oscilação da política devido a dependência do caminho. . . 62

4.5 Processo de refinamento do algoritmo Adaptive Tile Coding (ATC) em um ambiente que requer duas ações diferentes em duas regiões distintasaeb. . . . 63

(12)

4.6 Decaimento de∆V em um problema com apenas um estado no qual o agente recebe recompensa−1a cada passo de tempo. Os parâmetros utilizados foram:

α= 0.1eγ= 0.95. . . 63

4.7 Saturação da função valor e a política derivada dela. . . 66

4.8 Custo dos caminhosP1eP2calculados pelo algoritmo TD-AVQ. . . 68

5.1 AmbienteMountain Car. . . 72

5.2 AmbientePuddle World. . . 74

5.3 AmbienteAcrobot. . . 76

5.4 AmbienteContinuous Maze. . . 76

5.5 Carro com quatro rodas construído utilizando o kit Lego Mindstorms EV3. . . 77

5.6 Visão do topo do ambienteSteering Carobservado pela webcam. . . 78

5.7 Visão técnica do ambienteSteering Car. . . 79

6.1 Partição do espaço de estados realizado pelo algoritmon-step Temporal Diffe- rence Growing Neural Gas with Elegibility Traces(TD(nλ)-GNG) no ambiente Moutain Carapós10,250,500e1000episódios. . . 83

6.2 Estados visitados pelo agente no espaço de estados do ambienteMountain Car. A política encontrada pelo algoritmo proposto percorreu 116 estados. . . 84

6.3 Particionamento realizado pelo algoritmo proposto no ambientePuddle Worlde Continuous Mazeapós1000. . . 85

6.4 Efeito dos parâmetrosceγno crescimento e desempenho do algoritmo proposto. 88 6.5 Aumento da função valor para diferentes valores deγ até sua saturação. . . 89

6.6 Crescimento do algoritmo proposto nos ambientesMountain Car,Steering Car, Puddle World eAcrobot. . . 90

6.7 Esquema do processo de aprendizagem do algoritmo proposto. . . 97

6.8 Desempenho do algoritmo proposto no treinamento do agente nos ambientes Mountain Car,Steering Car,Acrobot,Continuous MazeePuddle World(recompensa acumulada). . . 98

6.9 Custos (max_aQ(s, a)) e (^P^aQ(s, a)) estimado pelo algoritmo proposto após 1000 episódios nos ambientesPuddle WorldeMountain Car, respectivamente. 99 6.10 Sequência de cinco ações desempenhadas pelo algoritmo proposto para guiar o carro até a região meta. . . 100

7.1 Curvas de desempenho dos algoritmos TD(nλ)-GNG, TD(nλ)-DU, TD-AVQ, IGNG-Q, TC e Q(λ)-DU no ambienteMountain Car. . . 103

7.2 Curvas de desempenho dos algoritmos TD(nλ)-GNG, TD(nλ)-DU, TD-AVQ, IGNG-Q, TC e Q(λ)-DU no ambientePuddle World. . . 104

7.3 Curvas de desempenho dos algoritmos TD(nλ)-GNG, TD(nλ)-DU, TC e TD-AVQ no ambienteSlow Puddle World. . . 104

(13)

7.4 Curvas de desempenho dos algoritmos TD(nλ)-GNG, TD(nλ)-DU, TD-AVQ,

TC e Q(λ)-DU no ambienteAcrobot. . . 104

7.5 Curvas de desempenho dos algoritmos TD(nλ)-GNG, TD(nλ)-DU e TC no ambienteContinuous Maze. . . 105

7.6 Particionamento do ambientePuddle World realizado pelo algoritmo TD-AVQ. 105 7.7 Particionamento do ambienteMountain Carrealizado pelo algoritmo IGNG-Q. 106 7.8 Área abaixo da curva de aprendizagem dos algoritmos TD-AVQ, TD(nλ)-GNG, TC, DU e IGNG-Q no ambienteMountain Carcom intervalo de confiança de 95%. . . 107

7.9 Área abaixo da curva de aprendizagem dos algoritmos TD-AVQ, TD(nλ)-GNG, TC, DU e IGNG-Q no ambientePuddle Worldcom intervalo de confiança de95%.108 7.10 Área abaixo da curva de aprendizagem dos algoritmos TD-AVQ, TD(nλ)-GNG, TC eTemporal Differente den-passos(TD(n))-DU no ambienteSlow Puddle Worldcom intervalo de confiança de95%. . . 108

7.11 Área abaixo da curva de aprendizagem dos algoritmos TD-AVQ, TD(nλ)-GNG, TC e DU no ambienteAcrobotcom intervalo de confiança de95%. . . 108

7.12 Área abaixo da curva de aprendizagem dos algoritmos TD(nλ)-GNG, TC e TD(nλ)-DU no ambienteContinuous Mazecom intervalo de confiança de95%. 109 7.13 Desempenho no teste dos algoritmos TD-AVQ, TD(nλ)-GNG, TC e DU no ambienteMountain Car. . . 111

7.14 Desempenho no teste dos algoritmos TD-AVQ, TD(nλ)-GNG, TC e DU no ambientePuddle World. . . 112

7.15 Desempenho no teste do algoritmo TD(nλ)-GNG nos ambientes Continuous MazeeSlow Puddle World. . . 112

7.16 Desempenho no teste dos algoritmos TD-AVQ, TD(nλ)-GNG, TC e DU no ambienteAcrobot. . . 112

A.1 Algoritmo para encontrar o nó mais próximo do sinal de entrada. . . 127

A.2 Algoritmo de busca pelostilesativos. . . 127

A.3 Algoritmo de busca pela região ativa. . . 127

A.4 Função atualização responsável pela atualização da função valor. . . 128

(14)

Lista de Tabelas

4.1 Principais características dos algoritmos TC, NFQ, ATC, IGNG-Q, TD-AVQ, Sarsa Learning Vector Quantization(SLVQ) e Montazeri-GNG. . . 71 7.1 Tempo de aprendizagem em média dos algoritmos TC, IGNG-Q, TD-AVQ,

TD(nλ)-GNG, TD(nλ)-DU e Q(λ)-DU nos ambientes Mountain Car (MC), Pud- dle World (PW), Slow Puddle World (Slow PW), Acrobot e Maze. Os melhores resultados em cada ambiente estão destacados emnegrito. . . 109 7.2 Média de10execuções da memória gasta pelos algoritmos TD(nλ)-GNG, TD-AVQ,

TC, IGNG-Q e DU nos ambientesMountain Car,Acrobot,Continuous Maze, Puddle World eSlow Puddle World. . . 110 7.3 Qualidade da política em média dos algoritmos TC, IGNG-Q, TD-AVQ, TD(nλ)-GNG,

TD(nλ)-DU e Q(λ)-DU nos ambientes Mountain Car (MC), Puddle World (PW), Slow Puddle World (Slow PW), Acrobot e Maze. Os melhores resultados em cada ambiente estão destacados emnegrito. . . 113 7.4 Tempo de execução dos algoritmos TD(nλ)-GNG, TD-AVQ, TC, IGNG-Q e

DU nas etapas de busca pela partição ativa e atualização da função valor. . . 113 8.1 Melhores algoritmos nos quesitos tempo de aprendizagem, memória utilizada e

qualidade da política. . . 117 8.2 Os tipos de Arduínos, seus respectivos processores e, tipo e quantidade de

memória disponível. . . 118 B.1 Configuração dos parâmetros iniciais dos algoritmos TD(nλ)-GNG, TD-AVQ,

TC, IGNG-Q e DU para os ambientesMountain Car,Acrobot,Puddle World, Slow Puddle WorldeContinuous Maze. . . 130 B.2 Espaço de busca dos parâmetros dos algoritmos TD(nλ)-GNG, TD-AVQ, TC,

IGNG-Q e DU. . . 132 B.3 Melhores parâmetros para os algoritmos TD(nλ)-GNG, TD-AVQ, TC, IGNG-Q

e DU para os ambientesMountain Car,AcrobotePuddle World. . . 133

(15)

Lista de Definições

2.1 Propriedade de Markov . . . 26

2.2 Processo de Decisão de Markov . . . 27

2.3 Política Ótima . . . 28

2.4 Q-learning. . . 29

2.5 Política-greedy . . . 29

2.6 Retorno-λ . . . 31

3.1 Processo de Discretização . . . 44

3.2 Dependência do Caminho . . . 50

3.3 Saturação da função valor . . . 53

(16)

Lista de Acrônimos

AM Aprendizagem de Máquina . . . 19

AR Aprendizagem por Reforço . . . 20

ATC Adaptive Tile Coding. . . 62

CHL Competitive Hebbian Learning– CHL DU Discretização Uniforme . . . 49

Q(λ)-DU Q(λ)com Discretização Uniforme . . . 102

TD(nλ)-DU TD(nλ) com Discretização Uniforme . . . 103

GNG Growing Neural Gas. . . 22

IGNG-Q Interpolating Growing Neural Gas Q-learning. . . 64

IA Inteligência Artificial . . . 19

LVQ Learning Vector Quantization. . . 69

MLP Multilayer Perceptron. . . 22

NFQ Neural Fitted Q-iteration. . . 58

PDM Processo de Decisão de Markov . . . 26

PG Progressão Geométrica . . . 53

RPROP Resilient Propagation. . . 60

SLVQ Sarsa Learning Vector Quantization. . . 68

SOM Self-Organized Map- Mapas Auto-Organizáveis . . . 22

TC Tile Coding. . . 56

TD Temporal Difference . . . 71

TD(n) Temporal Differente den-passos. . . 91

TD(nλ) n-step Temporal Difference with Elegibility Traces. . . 24

TD(nλ)-GNG n-step Temporal Difference Growing Neural Gas with Elegibility Traces . . 24

TD-AVQ Temporal Difference Adaptive Vector Quantification. . . 66

(17)

Lista de Símbolos

α Taxa de aprendizado

Parâmetro de exploração

γ Taxa de desconto

λ Taxa de decaimento doElegibility Traces

A Conjunto de ações

G Função das recompensas imediatas

P Probabilidade de transição entre os estados

S Conjunto de estados

π Política de decisão

a^∗ Açãogreedyderivada deQ a_t Ação no instante de tempot

e_t(s, a) Elegibility Tracesdo par estado-ação no instante de tempot

n Número de passos

Q Função valor que mapeia os retornos Rt Retorno após o instante de tempot rt Recompensa no instante de tempot R^λ_t λ-retorno

R⁽ⁿ⁾_t Retorno apósn-passos s_t Estado no instante de tempot

T Último instante de tempo em um episódio t Instante de tempo discreto

(18)

Sumário

1 Introdução 19

1.1 Contextualização . . . 20

1.2 Motivação . . . 21

1.3 Objetivos e Benefícios Esperados . . . 23

1.4 Organização da Tese . . . 24

2 Aprendizagem por Reforço 26 2.1 Propriedade de Markov . . . 26

2.2 Aprendizagem por Reforço . . . 27

2.2.1 Algoritmo Q-learning . . . 29

3 Descrição do Problema 35 3.1 Tarefas Direcionadas à Meta . . . 36

3.1.1 Mountain Car . . . 36

3.1.2 Puddle World . . . 37

3.1.3 Acrobot . . . 39

3.1.4 Continuous Maze . . . 40

3.1.5 Steering Car . . . 41

3.2 Discretização do Ambiente . . . 44

3.2.1 Particionamento Automático . . . 45

3.3 Dependência do Caminho . . . 49

4 Trabalhos Relacionados 56 4.1 Representação Fixa . . . 56

4.2 Representação Adaptativa . . . 60

4.2.1 Adaptação pela Política . . . 60

4.2.2 Adaptação pela Função de Recompensa . . . 65

4.2.3 Adaptação pela Função Valor . . . 68

4.3 Resumo . . . 70

5 Ambientes de Teste 72 5.1 Mountain Car . . . 72

5.2 Puddle World . . . 73

5.3 Acrobot . . . 74

5.4 Continuous Maze . . . 75

5.5 Steering Car . . . 77

(19)

2

6 Algoritmo Proposto 80

6.1 Algoritmo TD(nλ)-GNG . . . 81

6.1.1 Adaptação . . . 81

6.1.2 Refinamento . . . 84

6.1.3 Comportamento e Aprendizagem . . . 91

7 Estudo Comparativo 102 7.1 Tempo de Aprendizagem . . . 103

7.2 Memória Utilizada . . . 110

7.3 Qualidade da Política . . . 110

7.4 Complexidade dos Algoritmos . . . 111

8 Conclusões e Trabalhos Futuros 114 8.1 Proposta . . . 114

8.1.1 Algoritmo TD(nλ) - Particionamento Adaptativo . . . 115

8.1.2 Algoritmo TD(nλ)-GNG . . . 116

8.2 Resultados . . . 116

8.3 Contribuições . . . 118

8.4 Trabalhos Futuros . . . 119

Referências 120 Apêndice 125 A Complexidade dos Algoritmos 126 B Parâmetros Utilizados 129 B.1 Parâmetros Finais . . . 131

(20)

19 19 19

1

Introdução

The last thing that we find in making a book is to know what we must put first.

—BLAISE PASCAL

À medida que a tecnologia evolui, o ser humano se torna cada vez mais dependente dos computadores. Tarefas consideradas complexas serão comumente realizadas por sistemas dotados de “inteligência”. Carros serão capazes de navegar sozinhos e de escolher a melhor rota em função do nível de congestionamento das ruas. Robôs navegarão em ambientes complexos, explorando áreas consideradas de alto risco para os seres humanos. Sistemas inteligentes irão realizar diagnósticos e oferecer o melhor tratamento para determinadas doenças. Em todos estes exemplos, os agentes autônomos podem estar presentes realizando estas tarefas com apenas o monitoramento humano. A área da Inteligência Artificial define um agente como uma entidade que funciona de forma contínua e autônoma, capaz de sentir e atuar no ambiente em que se situa por meio de atuadores e sensores (Russell; Norvig,2003). Em um robô pode-se, por exemplo, considerar como atuador um motor de passo que permite realizar o movimento de um braço mecânico e, como sensor, uma câmera de vídeo que permite a visualização do ambiente.

Situações imprevistas e de incertezas que caracterizam os problemas do mundo real exigem do agente a capacidade de adaptar seu conhecimento automaticamente. Desta forma, ações poderão ser tomadas em situações que nunca foram vistas anteriormente. Ao tentar codificar este tipo de comportamento à mão, o desenvolvedor esbarra em um grande obstáculo: a dificuldade de formalizar o conhecimento humano em forma de algoritmo.

A Aprendizagem de Máquina (AM) é um campo da Inteligência Artificial (IA) que busca desenvolver algoritmos que possam aprender pela experiência. Esta característica oferece uma solução para problemas que exigem o conhecimento humano.

Após a modelagem do problema como uma tarefa de aprendizagem, os algoritmos AM possibilitam a elaboração de agentes que podem aprender pela interação com o ambiente ou por intermédio de exemplos (Russell; Norvig,2003). O surgimento da área da IA permitiu aos pesquisadores direcionarem seus esforços para a construção de algoritmos de aprendizagem mais

(21)

1.1. CONTEXTUALIZAÇÃO 20 eficientes ao invés de focar na solução de problemas específicos.

Esta tese trabalha com um paradigma de aprendizagem conhecido como Aprendizagem por Reforço (AR). A AR oferece meios para desenvolver agentes que podem aprender pela interação com o ambiente. A procura por algoritmos que podem aprender a desempenhar determinadas tarefas com eficiência tem sido o foco dos pesquisadores da área.

1.1 Contextualização

A AR busca desenvolver agentes autônomos que aprendem com o efeito de suas ações.

Imersos em um ambiente inicialmente desconhecido, estes agentes são capazes de aprender uma sequência de ações (política) que possibilite resolver uma determinada tarefa (Crites; Barto, 1996;Singh; Bertsekas,1997; Tesauro,1994;Braga; Araújo,2003). O objetivo do agente é

encontrar uma política que maximize a soma das recompensas ao longo do tempo. A política é considerada ótima se a sequência de ações realizada for a melhor possível para se concluir uma tarefa.

A possibilidade de aprender através da interação com o ambiente torna a AR atrativa em tarefas onde o comportamento esperado não é conhecido. Este tipo de aprendizagem é diferente de outros paradigmas, tais como o não-supervisionado. Neste último, o processo consiste em encontrar semelhanças entre os dados separando-os em grupos para posteriormente serem rotulados. Este é um importante tipo de aprendizagem, mas sozinho não é adequado para aprender pela interação com o ambiente. Na maioria dos casos é impraticável obter exemplos de todos os comportamentos desejados que sejam ao mesmo tempo corretos e representativos para todas as situações em que o agente deve agir (Sutton; Barto,1998).

A AR descreve meios para o desenvolvimento de novos algoritmos que aprendem por tentativa e erro. Explicitamente neste tipo de aprendizagem não existe um professor (Ribeiro, 2002), mas há um crítico que avalia os estados¹ visitados. Widrow; Gupta; Maitra (1973) usaram o termo “learning with a critic” (aprendendo com um crítico) para diferenciar a AR da aprendizagem supervisionada onde, no lugar do crítico, existe umprofessor que instruio agente.

É dever do crítico associar um sinal numérico de recompensa aos estados do ambiente de forma a guiar o agente para que possa concluir o seu objetivo (Ribeiro,2002). Por sua vez, o agente deve aprender, pela sua interação com o ambiente, uma sequência de ações que o leve para estados onde a soma das recompensas seja maior. Há uma série de problemas cujas soluções envolvem ações elementares que são comuns a episódios de sucesso e de insucesso. A sequência é que fará a diferença para o sucesso.

Um episódio refere-se a uma sequência finita de estados e ações que inicia em um estado inicial e termina ao alcançar um estado final. A cada novo episódio, uma nova tentativa é realizada. Através deste processo interativo de tentativa e erro, o agente deve aprender a selecionar as ações que maximizem oretorno,i.e., a soma das recompensas que recebe ao longo

1Informações sobre a situação do ambiente em um determinado instante de tempo.

(22)

1.2. MOTIVAÇÃO 21 do tempo (Kaelbling; Littman; Moore,1996). Esta é uma das principais características que os algoritmos AR devem possuir. Caso contrário, ao realizar ações que resultam em estados que dão a maior recompensa em um dado momento, o agente pode ser levado a outros que não dão.

Para evitar estes estados, os algoritmos AR constroem umafunção valorque estima o retorno a ser recebido entre um dado estado e o estado final. Contudo, em um ambiente que possui muitos estados, torna-se impraticável estimar o retorno para todos eles (Otterlo; Wiering,2012).

A maldição da dimensionalidade (Bellman,1952) é um dos principais problemas que afetam os algoritmos AR. O número de possíveis soluções cresce exponencialmente à medida que o número de estados e ações cresce. Consequentemente, o tempo de aprendizagem também crescerá. Esta característica pode se tornar uma restrição para o uso da AR em problemas onde o número de estados é muito grande. Nestes ambientes, é importante que o espaço de estados seja generalizado.

A generalização permite reduzir o tempo de aprendizagem com o compartilhamento da experiência ganha em um estado com outros que nunca foram vistos (Sutton; Barto,1998). Desta forma, o agente não precisa visitar todos os estados do ambiente para aprender uma política que possibilite maximizar a soma das recompensas recebidas ao longo do tempo. A generalização do espaço de estados pode ser alcançada com a agregação de estados similares² (Bertsekas;

Tsitsiklis,1996). Os estados que se enquadram em uma mesma região, de acordo com alguma métrica de distância, são considerados similares e são agrupados. O resultado deste processo é a discretização do espaço de estados. Uma vez que o espaço de estados é reduzido, o problema pode ser resolvido utilizando os algoritmos AR.

Outra abordagem amplamente utilizada são os aproximadores de funções. O objetivo destes algoritmos é construir uma representação da função valor por meio do ajuste de um conjunto de parâmetros livres (Bertsekas; Tsitsiklis,1996). Independente da abordagem utilizada, a principal questão que se coloca aqui é como obter a generalização, de tal modo que, por um lado, possa se obter uma “boa” representação do espaço de estados, e por outro lado, o desempenho do modelo não degrade. Este é um dos grandes desafios da AR.

1.2 Motivação

Grande parte das pesquisas que envolvem AR buscam meios de utilizá-la em ambientes com variáveis de estado contínuas. Isto se deve ao fato dos problemas do mundo real possuírem esta característica. Nestes ambientes, a quantidade de estados é infinita para uma aplicação direta dos algoritmos AR.

Outra dificuldade deve-se à condição exigida para convergência destes algoritmos. Para que alcancem uma solução, os estados precisam ser revisitados. Isto significa que o agente deve passar pelo mesmo estado mais de uma vez (Sutton,1988). Contudo, em grande parte dos

2São considerados similares, os estados onde as ações produzem resultados semelhantes.

(23)

1.2. MOTIVAÇÃO 22 problemas do mundo real, alguns estados nunca serão vivenciados exatamente como antes. Estes problemas incluem sensores complexos, como os de uma imagem visual. Duas fotos tiradas em instantes de tempo diferentes podem apresentar variações nas tonalidades da cor dos pontos que formam a imagem (Bradski; Kaehler,2008). Em problemas deste tipo, a generalização do espaço de estados torna-se necessária para a convergência de qualquer solução.

Modelos que aproximam funções ou que realizam algum tipo de agregação dos estados podem ser combinados com os algoritmos AR para reduzir os efeitos da maldição da dimensionalidade. Enquanto os algoritmos AR estimam a função valor dos estados ou dos pares estado-ação, modelos como as redes neuraisMultilayer Perceptron(MLP) (Rumelhart; Hinton; Williams, 1988) ou os Self-Organized Map- Mapas Auto-Organizáveis (SOM) (Kohonen; Schroeder;

Huang,2001) generalizam o espaço de entrada e realizam o mapeamento das estimativas do retorno nestes estados (Bertsekas; Tsitsiklis,1996). A ideia por trás deste processo é que as ações possuem um comportamento semelhante quando realizadas em estados similares, assim, o tempo de aprendizagem pode ser reduzido se a experiência é compartilhada entre eles. O desempenho do agente dependerá da qualidade com que estes modelos generalizam o espaço de estados.

A redeGrowing Neural Gas(GNG) deFritzke(1995) é um algoritmo não-supervisionado da classe dos SOM que tem sido estudado no âmbito da AR (Baumann; Kleine büning,2014;

Montazeri; Moradi; Safabakhsh,2011;Whiteson; Taylor; Stone,2007;Handa,2004; Vieira;

Adeodato; Gonçalves, 2013; Braga; Araújo,2003). O objetivo destes estudos consistiu no desenvolvimento de algoritmos adaptativos que dispensam a necessidade de um designer humano para o seu ajuste estrutural. Esta é uma importante característica, pois na maioria dos problemas pouco se sabe a respeito da dinâmica do ambiente. Uma representação fraca pode reduzir drasticamente o desempenho do algoritmo ou, no pior caso, impossibilitar a convergência de uma solução (Bertsekas; Tsitsiklis,1996). A segunda vantagem deve-se à sua capacidade de readaptação a pequenas mudanças do ambiente (Montazeri; Moradi; Safabakhsh,2011). Estas variações incluem ruídos nos sensores que podem mudar a forma como o agente percebe o ambiente.

Uma desvantagem quando se utiliza a rede GNG é a necessidade de se determinar o critério de parada para o crescimento da rede. Enquanto uma quantidade muito grande de nós pode tornar a aprendizagem lenta, uma quantidade muito pequena pode ser insuficiente para encontrar uma solução (Lampton; Niksch; Vakasek, 2010). O ideal é ter novos nós sendo adicionados no curso da aprendizagem até que uma solução seja encontrada. Este problema está presente em qualquer algoritmo que inicie com uma representação mais geral e passe, no decorrer da aprendizagem, para uma representação mais específica do espaço de estados (Sherstov; Stone, 2005). As dificuldades enfrentadas ao tornar este processo automático consistem em determinar o momento para a adição de novos nós, o local onde eles devem ser posicionados e quando o crescimento da rede deve parar.

(24)

1.3. OBJETIVOS E BENEFÍCIOS ESPERADOS 23

1.3 Objetivos e Benefícios Esperados

O principal objetivo deste trabalho é o desenvolvimento de um algoritmo adaptativo como alternativa para a discretização automática do espaço de estados contínuo em tarefas que são direcionadas à meta. É importante citar que nestas tarefas, o agente é “míope” com capacidade de “enxergar” apenas o estado atual. Além disto, o agente não possui nenhum conhecimento prévio sobre o ambiente.

O presente trabalho apresenta uma nova estratégia para a discretização do espaço de estados contínuo que busca evitar o agrupamento de estados não-similares, contribuindo com a redução dos efeitos da maldição da dimensionalidade e da perda da Propriedade de Markov na representação do espaço de estados gerada pela discretização proposta.

Para alcançar o objetivo principal e consolidar o algoritmo proposto como uma abordagem viável e eficiente, seu comportamento é avaliado nos ambientes direcionados a metaPuddle World,Slow Puddle World,Acrobot,Continuous MazeeMountain Car. Estes ambientes são comumentes utilizados comobenchmarkingpara a validação de novos algoritmos, tais como os encontrados em (Handa,2004;Abramson; Pachowicz; Wechsler,2003;Sutton,1996;Konidaris;

Osentoski; Thomas,2011;Baumann; Kleine büning,2014;Sherstov; Stone,2005;Whiteson;

Taylor; Stone,2007;Braga; Araújo,2003) e muitos outros. As principais características destes ambientes que motivaram o seu uso foram as seguintes:

Puddle World - Distribuição não-uniforme das recompensas entre os estados.

Acrobot- Multidimensionalidade.

Continuous MazeeSlow Puddle World- Sequência longa de ações necessária para concluir um episódio.

Mountain Car- Necessidade de se visitar estados distantes do meta antes de ir para estados mais próximos.

Ambientes simulados são interessantes para o teste de novos algoritmos AR, pois elimi- nam a complexidade de implementação dohardwaree mantém muitas das características dos problemas do mundo real. Por exemplo. O ambienteContinuous Mazepoderia representar a planta baixa de uma casa onde o objetivo do robô seria mover-se entre os obstáculos (paredes) até alcançar o cômodo desejado (estado meta). O ruído aplicado na movimentação do agente simularia as imperfeições das rodas, atrito ou imprecisão dos atuadores de um robô do mundo real. Outro exemplo seria o ambienteMountain Car. Neste ambiente, o carro poderia representar uma válvula, onde os movimentos esquerda e direta regulariam a passagem de algum composto químico.

O algoritmo proposto possui dois componentes apresentados no presente trabalho: 1) uma variante da rede GNG para a divisão automática do espaço de estados e 2) uma variante do

(25)

1.4. ORGANIZAÇÃO DA TESE 24 algoritmo Q-learning(Watkins,1989), chamado den-step Temporal Difference with Elegibility Traces(TD(nλ)), para estimar a função valor. Ambos os algoritmos são, respectivamente, apri- moramentos dos processos de discretização e aprendizagem em ambientes AR. A combinação destes algoritmos resultou em um novo algoritmo chamadon-step Temporal Difference Growing Neural Gas with Elegibility Traces(TD(nλ)-GNG).

As principais características do algoritmo TD(nλ)-GNG que contribuem para o processo de aprendizagem em ambientes que possuem o espaço de estados contínuo são:

1. Modelo adaptativo que dispensa o uso de um especialista para particionar o espaço de estados.

2. Refinamento incremental do espaço de estados que dispensa a necessidade de se determinara priorio número de partições.

3. Capacidade de generalização em ambientes AR que possuem espaço de estados contínuo.

4. Aprendizagem realizada de formaon-line, ou seja, o algoritmo aprende ao mesmo tempo em que interage com o ambiente.

5. Não requer um modelo que descreva a dinâmica do ambiente. Esta é uma importante característica, uma vez que raramente é possível obter um modelo computacional do ambiente.

No presente trabalho, pretende-se analisar e comparar o desempenho do algoritmo TD(nλ)-GNG com outros algoritmos em termos de tempo de aprendizagem, memória utilizada, qualidade da solução encontrada e complexidade algorítmica. É esperado que o algoritmo proposto seja capaz de generalizar e encontrar uma solução próxima à ótima em ambientes de aprendizagem AR direcionados à meta. Outro benefício esperado é o uso de uma quantidade menor de partições quando comparado com outros algoritmos adaptativos que discretizam o espaço de estados. Esta característica proporciona em alguns casos uma redução no tempo de aprendizagem e no uso da memória.

1.4 Organização da Tese

Esta tese está organizada em oito capítulos, incluindo esta introdução. As descrições dos próximos capítulos são apresentadas a seguir.

O Capítulo 2 fornece o embasamento teórico necessário para os próximos capítulos.

Neste capítulo serão abordados conceitos sobre a propriedade de Markov, o processo de decisão, o algoritmo Q-learninge a técnicaElegibility Traces.

O Capítulo 3 descreve o problema do uso da AR em ambientes que possuem o espaço de estados contínuo, formaliza o processo de discretização de tais ambientes e descreve o tipo de

(26)

1.4. ORGANIZAÇÃO DA TESE 25 tarefaque se pretende resolver. Serão descritos cinco ambientes de teste que serão utilizados para validar e comparar o algoritmo TD(nλ)-GNG com outras abordagens. Estes ambientes de benchmarking serão utilizados na validação de novos algoritmos. Além disto, dois problemas que ocorrem com a discretização do ambiente serão discutidos, são eles: a dependência do caminho e o fenômenoChattering.

O Capítulo 4 apresenta os trabalhos relacionados exemplificando potenciais problemas que podem ocorrer com o seu uso.

O Capítulo 6 apresenta o algoritmo TD(nλ)-GNG e os resultados preliminares de sua aplicação nos ambientes de teste descritos no Capítulo 3. O algoritmo TD(nλ)-GNG é dividido e apresentado em três subseções chamadas Adaptação (Subseção 6.1.1), Refinamento (Subseção 6.1.2), e Comportamento e Aprendizagem (Subseção 6.1.3).

O Capítulo 7 avalia e compara estatisticamente o desempenho do algoritmo TD(nλ)-GNG com outros algoritmos de aprendizagem. Neste capítulo serão utilizados como medida de desempenho: o tempo de aprendizagem, memória utilizada, qualidade da política e a complexidade dos algoritmos.

O Capítulo 8 apresenta um resumo dos resultados, as principais contribuições, suas limitações e levanta perspectivas de trabalhos futuros.

(27)

26 26 26

2

Aprendizagem por Reforço

Processo de Decisão de Markov (PDM) trata-se de umframeworkintuitivo e fundamental para o uso da AR (Bertsekas; Tsitsiklis,1996;Sutton; Barto,1998;Kaelbling; Littman; Moore, 1996). Nesteframework, um ambiente é representado por um conjunto de estados e controlado por um conjunto de ações. O objetivo do agente é realizar ações que maximizem algum critério de desempenho previamente estabelecido. A AR descreve meios de como alcançar este objetivo pela interação agente-ambiente. Modelando a tarefa como PDM, os algoritmos AR são capazes de encontrar uma política que proporcione uma maior quantidade de recompensas ao longo do tempo. Para isto, os algoritmos AR estimam uma função valor que realiza o mapeamento do retorno nos estados do ambiente. Por sua vez, o agente deve realizar ações que o conduza para estados que possuem uma maior estimativa de retorno.

O propósito deste capítulo é fornecer embasamento teórico para os capítulos seguintes.

Para isto, o presente capítulo foi dividido em duas seções. A primeira descreve a propriedade de Markov e o formalismo PDM. A segunda seção, Seção 2.2, introduz conceitos importantes da AR e apresenta um algoritmo capaz de estimar a função valor por intermédio de um processo incremental. Ainda neste capítulo, serão descritas duas técnicas que podem ser utilizadas para acelerar o processo de aprendizagem dos algoritmos AR.

2.1 Propriedade de Markov

Definição 2.1(Propriedade de Markov). Um ambiente é dito ser Markoviano, ou de possuir a propriedade de Markov, se todas as informações relevantes do ambiente que descrevem o seu estado atual são suficientes para determinar o seu próximo estado e recompensa (Otterlo;

Wiering,2012).

A propriedade de Markov é uma característica fundamental para garantir que os algoritmos AR encontrem uma solução (Sutton,1988;Otterlo; Wiering,2012). Nestes ambientes, os

(28)

2.2. APRENDIZAGEM POR REFORÇO 27 próximos estados podem ser colocados em termos probabilísticos:

ps_t+1=s⁰|s_t, a_t, 2.1 ou seja, dado apenas o estado atuals_t e açãoa_t, ambientes que possuem a propriedade de Markov possibilitam a predição do próximo estados⁰. Assim, a decisão sobre qual ação tomar não depende da sequência de estados anteriores.

Processo de Decisão de Markov

Definição 2.2(Processo de Decisão de Markov). O PDM é umframeworkutilizado para a modelagem de ambientes Makovianos em problemas de decisão sequencial (Puterman,1994).

Nesteframework, o ambiente é representado por um conjunto de estadosS={s¹, s², . . . , s^N}e controlado por um conjunto de açõesA={a¹, a², . . . , a^K}, ondeN eK são respectivamente a quantidade de estados e ações. A probabilidade de transição entre os estados é definida porP_ss^a0 =p(s_t+1=s⁰|st=s, at=a), ou seja, a probabilidade de ir para um estados⁰após realizar uma açãoaem um estados. Como consequência desta transição, um sinal numéricor é recebido de uma função de recompensa imediataG(s⁰). O objetivo é realizar uma sequência de ações que maximize a soma das recompensas recebidas ao longo do tempo. Estes quatro elementos descritos formam a quádrupla(S,A,P,G)que define um PDM (Otterlo; Wiering, 2012).

2.2 Aprendizagem por Reforço

A AR especifica elementos importantes que os algoritmos devem possuir para solucionar PDMs pela interação do agente com o ambiente (Otterlo; Wiering,2012), são eles (Szepesvári, 2010):

Umapolíticade decisãoπ que mapeia os estados em ações (π:S 7→ A).

Umafunção de recompensa G que mapeia os estados em um sinal numérico de recompensa (G:S 7→r).

Umafunção valoroufunção de custoQque mapeia os pares estado-ação em um número que representa a estimativa do valor de retorno (Q:S × A 7→R). Em outras palavras, representa o retorno esperado ao realizar uma açãoa∈ A em um estado s∈ S e seguir uma políticaπlogo após (Ribeiro,2002).

Opcionalmente, ummodelo do ambienteque forneça a probabilidadeP de transição entre os estados.

(29)

2.2. APRENDIZAGEM POR REFORÇO 28 Sutton; Barto (1998) define como sendo parte do ambiente tudo o que o agente não pode controlar. Por exemplo, ainda que os motores de um robô possam ser considerados como parte do agente, o funcionamento exato deles está além do seu controle. O agente pode realizar comandos para movimentá-los, mas o resultado pode ser influenciado por fatores externos. A Figura 2.1 ilustra a interação agente-ambiente. A cada passo de tempo o agente deve realizar uma açãoat, e observar o próximo estadost+1e recompensart+1. Esta interação ocorre em uma sequência finita de tempo discreto,t= 0,1,2,3, . . . , T. No inicio de um episódio, o agente se encontra em um estados_t=0e termina, após uma sequência de estadoss_t=1, s_t=2, . . ., em um estado finals_t=T. Este processo se repete até que o episódio termine.

Conforme descrito no Capítulo 1, um episódio refere-se a uma sequência finita de estados e ações que termina ao alcançar um estado final. Por exemplo, em uma partida de xadrez as peças brancas e pretas iniciam posicionadas nas extremidades do tabuleiro. Este é o estado inicial do jogo. A sequência de movimentos e posições das peças até o fim do jogo (estado final), quando ocorre empate, desistência ou xeque-mate, compõem um episódio.

Agente

Ambiente

açãoat

reforço r_t estado

s_t

r_t+1 s_t+1

Figura 2.1:Interação agente-ambiente. Adaptado deSutton; Barto(1998).

A tarefa do agente é encontrar, na fase de aprendizagem, uma políticaπque permita receber um maior retorno (Sutton; Barto,1998). A busca por políticas que aumentem o retorno permite que o agente visite estados que o levem para uma maior quantidade de recompensas a longo prazo e não para a maior em um dado momento (Otterlo; Wiering,2012).

Definição 2.3(Política Ótima). A política que possibilita ao agente receber a maior quantidade de recompensas acumuladas em uma tarefa é chamada de política ótima.

Em suma, o agente deve ser orientado a maximizar o retorno denotado porR_t: R_t=r_t+1+γr_t+2+γ²r_t+3+. . .=

T−t−1 X n=0

γⁿr_t+n+1 2.2

ondeγé a taxa de desconto, um valor compreendido no intervalo entre0e1. A taxa de desconto permite determinar a importância das recompensas futuras sobre as passadas (Sutton; Barto, 1998). Seγ= 0, o agente é imediatista ao realizar ações que maximizam apenas as recompensas

imediatas. À medida queγ aproxima1, o agente leva mais em conta as recompensas futuras.

Além disto,γ <1garante que o retorno terá um limite bem definido para que os algoritmos AR

(30)

2.2. APRENDIZAGEM POR REFORÇO 29 possam convergir. As subseções seguintes apresentam o algoritmo Q-learningutilizado para estimar incrementalmente o retorno dos estados do ambiente e duas estratégias para acelerar o seu processo de aprendizagem.

2.2.1 Algoritmo Q-learning

Definição 2.4(Q-learning). Q-learning(Watkins,1989) é um algoritmo AR utilizado para estimar incrementalmente o retorno de cada par estado-ação (Sutton; Barto,1998).

Desta forma, não é preciso esperar até o fim do episódio para que a aprendizagem inicie (Otterlo; Wiering,2012). Esta é uma grande vantagem em relação a outros algoritmos que esperam obterR_t para iniciar a aprendizagem (Sutton; Barto,1998). Caso contrário, se o episódio for muito longo, a aprendizagem será lenta. O algoritmoQ-learningestima o retorno de um par estado-ação da seguinte forma. A cada passo de tempot, o algoritmo aproximaQ(s_t, a_t) uma fraçãoαda recompensa imediatar_t+1, e da estimativa de retorno do par, estado sucessor s_t+1e ação onde o retorno é maior:

Q_t+1(s_t, a_t) =Q_t(s_t, a_t) +

∆Qt(st,at)

z }| {

α

r_t+1+γmax

b Q_t(s_t+1, b)−Q_t(s_t, a_t)

2.3 ondeb∈ A,∆Q_t(s_t, a_t)é o incremento aplicado ao par(s_t, a_t)eαé a taxa de aprendizagem.

A expressãor_t+1+γmax_bQ_t(s_t+1, b)−Q_t(s_t, a_t)é chamado de erro de Diferença Temporal (Temporal Difference error - TD error) (Ribeiro,2002), pois representa em um instante de tempot, a diferença entre o retorno estimado (Q_t(s_t, a_t)) e o previsto (r_t+1+γmax_bQ_t(s_t+1, b)) (Ribeiro,2002).

Este algoritmo utiliza uma política flexível para garantir a exploração do espaço de estados e ações. Sendo assim,

Definição 2.5 (Política-greedy). a ação com a maior estimativa de retorno é selecionada com probabilidade1−ou, com uma pequena probabilidade , uma ação aleatória. Este método de exploração, chamado-greedy(Watkins,1989), garante que o agente explore o espaço de estados a procura de políticas melhores.

O algoritmo Q-learning converge para a política ótima independente da política de exploração utilizada, desde que os estados continuem a ser revisitados por uma quantidade infinita de vezes, e a taxa de aprendizagem α decresça no tempo (Otterlo; Wiering, 2012;

Watkins,1989;Bertsekas; Tsitsiklis,1996). Os passos do algoritmo Q-learningsão enumerados a seguir:

1. Observe o estado atuals.

2. Façaa←arg max_bQ(s, b)ou, com probabilidade,a←ação aleatória.

(31)

2.2. APRENDIZAGEM POR REFORÇO 30 3. Realize a açãoae observe o próximo estados⁰e recompensar.

4. AtualizeQpara o par(s, a):

Q(s, a) =Q(s, a) +α

r+γmax

b Q(s⁰, b)−Q(s, a)

5. Faças←s⁰e repita a partir do segundo passo até o fim do episódio.

Retorno-n

Conforme visto anteriormente, o algoritmo Q-learningatualiza a estimativa do retorno de um dado estado utilizando a recompensa imediata e a estimativa do retorno do estado sucessor.

Contudo, a recompensa recebida apósn-passos demoraránepisódios para alcançar um estado hánpassos atrás. Considere a tarefa da Figura 2.2. Nesta tarefa, o agente pode realizar apenas a ação direita que o conduz para o próximo estado imediatamente à direita. O agente recebe um sinal de recompensa0na transição de AparaB e de B paraC e1na transição deC paraD.

Note que a estimativa do retorno no estadoA(Q(A,→)) será atualizado somente no terceiro episódio.

A

inicio 0 B 0 C 1 D

Episódio #1 0 0 0 0 1 1 0

Episódio #2 0 0 1 0 1 1 0

Episódio #3 1 0 1 0 1 1 0

Figura 2.2: Tarefa com três estados representados pelos círculosA,B eCe, um estado final representado pelo círculoD. As setas indicam o próximo estado após a ação direita

ser realizada no estado corrente. Os valores observados acima das setas são as recompensas a serem recebidas ao se realizar a ação direita. Os valores numéricos apresentados dentro dos círculos representam o valorQ(s,→)quandoγ= 1eα= 1. A

Figura apresenta o atraso na atualização deQ(s,→)nos estados anteriores àC.

A Equação 2.3, usada para estimar a função valor, pode ser modificada para acelerar o processo de aprendizagem na tarefa apresentada pela Figura 2.2. Ao invés de atualizarQ(s_t,→) imediatamente após um passo, a atualização pode ser realizada apósn-passos (Sutton; Barto, 1998),

∆Qⁿ_t(st, at) =α

R_t⁽ⁿ⁾−Qt(st, at)

2.4

(32)

2.2. APRENDIZAGEM POR REFORÇO 31 onde o termoR⁽ⁿ⁾_t é expandido de acordo com a quantidadende passos parar_t+1+γr_t+2+ . . .+γⁿ⁻¹rt+n+γⁿmax_bQt(st+n, b), em outros termos,

R_t⁽ⁿ⁾=

n−1 X k=0

γ^kr_t+k+1+γⁿmax

b Q_t(s_t+n, b). 2.5 Desta forma, quandon= 2, o valor deQ(B,→)converge no primeiro episódio enquanto Q(A,→)no segundo episódio. Em vez disto, sen= 3, ambas estimativasQ(A,→)eQ(B,→) convergiriam no primeiro episódio ao mesmo tempo queQ(C,→). Sené maior que a sequência de passos até o estado final, entãoR⁽ⁿ⁾_t =R_t. A notaçãoR⁽ⁿ⁾_t , retorno-n, será utilizada para indicar a quantidadende passos antes que a sequência de recompensas restantes sejam truncadas pelo termoγⁿmax_bQ(st+n, b).

Elegibility Traces

É possível combinar dois ou mais retornos R⁽ⁿ⁾_t com a ponderação de seus valores e ainda manter a garantia de convergência, desde que a soma de seus pesos seja1(Sutton; Barto, 1998). Por exemplo.

Definição 2.6 (Retorno-λ). Em um tipo de retorno chamado retorno-λ, todos os R⁽ⁿ⁾_t de um episódio são combinados ponderando seus valores porλⁿ⁻¹e um fator de normalização (1−λ)para assegurar que os pesos somem1(Sutton; Barto,1998).

Desta forma,R⁽¹⁾_t recebe o maior peso(1−λ)λ⁰,R⁽²⁾_t o segundo maior peso(1−λ)λ¹ e assim sucessivamente (Sutton; Barto,1998). Em outras palavras, o peso diminui emλapós cada passo adicional,

R^λ_t = (1−λ)

T−t−1 X n=1

λⁿ⁻¹R⁽ⁿ⁾_t +λ^T^−t−1Rt. 2.6 onde o termoλ^T−t−1R_trefere-se ao retorno após o estado final ser alcançado eλé um parâmetro com valores entre0e1. Seλ= 0a atualização será realizada da mesma forma que o algoritmo Q-learningapós 1-passo, caso contrário, seλ= 1, o algoritmo utiliza apenas o retorno completo Rt obtido no fim do episódio. Para efeitos de simplificação, assume-se que o estado final é um absorbing state(Sutton; Barto,1998). Neste estado, as interações do agente continuam infinitamente e todas as ações resultam no mesmo estado com recompensa 0. Desta forma, todas as interações após o estado final tornam-se sem efeito, pois as recompensas recebidas serão sempre0. Sendo assim, todos osnretornos recebidos após o estado final serão iguais aR_te a soma dos pesos restantes será igual aλ^T^−t−1(Sutton; Barto,1998). O incremento da função valor para o retorno-λé dado por,

∆Q^λ_t(s_t, a_t) =α^hR^λ_t −Q_t(s_t, a_t)ⁱ 2.7

(33)

2.2. APRENDIZAGEM POR REFORÇO 32 O retorno-λpermite que a ação realizada em um estado anterior receba uma parcelaλ das recompensas futuras. No entanto, esta não é uma estratégia de aprendizagem incremental, pois somente no fim do episódio os retornos estarão disponíveis. A técnica deElegibility Traces implementa o retorno-λde forma incremental, a cada passo de tempot. Para isto, uma memória adicional, cujo valor é denotado pore(s, a), é associada a todo par estado-ação. A cada interação do agente com o ambientee(s, a)é diminuído em função de dois parâmetrosγ eλ, e aumentado (accumulating traces) ou substituído (replacing traces) por1quandos_t+1é o estado sucessor de s_t:

(accumulating traces)

e_t(s, a) =







γλe_t−1(s, a) + 1 ses=s_tea=a_t; γλe_t−1(s, a) caso contrário

2.8

ou (replacing traces)

e_t(s, a) =







1 ses=s_tea=a_t; γλe_t−1(s, a) caso contrário,

2.9

ondeγé o fator de desconto eλé o parâmetro para redução gradual dee_t(s, a). O parâmetroλ determina a contribuição dos estados passados que influenciaram para o agente se localizar em um estado futuro. SegundoSutton; Barto(1998), melhores resultados são geralmente alcançados ao utilizarreplacing traces.

Em um estudo experimental realizado por Singh; Sutton (1996), a aprendizagem é acelerada ainda mais seet(s, a) = 0para todas as outras ações que não foram selecionadas em st. Em outros termos, a atualização deet(s, a)em um instante de tempotpara todo par(s, a) pode ser dado por (Singh; Sutton,1996):

e_t(s, a) =











1 ses=st ea=at;

0 ses=s_t ea6=a_tpara todoa;

γλe_t−1(s, a) ses6=s_t.

2.10

A Figura 2.3(b) exemplifica esta mecânica no último passo de um episódio do ambiente Gridworld para efeitos comparativos com a atualização realizada pelo algoritmo Q-learning (Figura 2.3(c)). OGridworldtrata-se de um ambiente onde os estados são discretos e adjacentes.

Neste ambiente, o objetivo é encontrar um caminho curto até o estado meta. Na Figura 2.3, a direção das setas indica a ação realizada enquanto o tamanho representa a parcela da recompensa a ser recebida pelos estados passados. A Figura 2.3(a) mostra o caminho percorrido pelo agente até o estado meta. No algoritmo Q-learning, a recompensar_t+1recebida em um estados_t+1é utilizada para atualizar apenas a estimativa do estados_tenquanto a mecânica da técnicaElegibility

(34)

2.2. APRENDIZAGEM POR REFORÇO 33 Tracerepassa uma parcela da recompensa para todos os estados passadoss_t, s_t−1, s_t−2, . . . , s_t=0.

1 2 3 4

(a) Caminho Percorrido

1 2 3 4

(b) Q-learningcomElegibility Traces(Q(λ))

1 2 3 4

(c) Q-learning

Figura 2.3:Atualização da função valor no ambienteGridworldapós o agente alcançar o estado meta pelo estado(4,3). A Figura (a) mostra o caminho percorrido pelo agente, enquanto as Figuras (b) e (c) mostram a intensidade da recompensa retropropagada para

os estados anteriores pelos algoritmos Q(λ) e Q-learning, respectivamente. O tamanho das setas indicam a intensidade com que o valor da recompensa foi recebida nestes

estados.

O algoritmo Q-learningquando implementa a técnicaElegibility Traceé chamado de Q(λ)(Watkins,1989). Os passos deste algoritmo são enumerados a seguir:

1. Observe o estado atuals.

2. a←arg max_bQ(s, b)ou, com probabilidade,a←ação aleatória.

3. Realize a açãoae observe o próximo estados⁰e recompensar.

4. a^∗←arg max_bQ(s⁰, b).

5. Façaa⁰←a^∗ou, com probabilidade,a⁰←ação aleatória.

6. δ←r+Q(s⁰, a^∗)−Q(s, a).

7. e(s, a)←1

(35)

2.2. APRENDIZAGEM POR REFORÇO 34 8. Para todo par(s, a)faça:

8.1. Q(s, a) =Q(s, a) +αδe(s, a)

8.2. Sea⁰=a^∗entãoe(s, a) =γλe(s, a)senãoe(s, a) = 0.

8.3. Para toda açãob6=afaçae(s, b) = 0.

9. Faças←s⁰ea←a⁰e repita a partir do terceiro passo até o fim do episódio.

Note que o algoritmoQ(λ)(passo 8.2) não utiliza toda a sequência de recompensas até o fim do episódio; ao invés disto, utiliza apenas a sequência até a próxima ação exploratória, fazendoe(s, a) = 0para todo par(s, a)quandoa6=a^∗. No extremo, se as ações exploratórias são frequentes, então o desempenho do algoritmoQ(λ)será apenas um pouco mais rápido que o Q-learning(Sutton; Barto,1998). O passo 8.3 deve-se à recomendação deSingh; Sutton(1996).

Ambas as técnicas, Retorno-neElegibility Traces, podem ser utilizadas para acelerar a aprendizagem dos algoritmos AR. A técnica Elegibility Traces, no entanto, utiliza uma estratégia mais eficiente de aprendizagem. Esperarn-passos para atualizar a estimativa do retorno pode atrasar a aprendizagem. Independente de qual estratégia for utilizada, estes algoritmos ainda sofrerão da maldição da dimensionalidade (Bellman,1957). O espaço de busca aumenta consideravelmente à medida que o número de estados e ações cresce tornando impraticável o uso destes algoritmos. Este é um dos problemas que será discutido no próximo capítulo.

(36)

35 35 35

3

Descrição do Problema

O processo de aprendizagem incremental proporcionado pelo algoritmo Q-learning, permite que o conhecimento adquirido durante um episódio esteja disponível o quanto antes para o agente. Esta estratégia traz vantagens, como a possibilidade de o agente utilizar o conhecimento recém-adquirido em outros estados do ambiente. Em relação aos algoritmos que precisam esperar o fim do episódio para atualizar a função valor, esta estratégia pode proporcionar uma redução no tempo da aprendizagem, especialmente quando os episódios são longos (Sutton; Barto,1998;

Ribeiro,2002).

O algoritmo Q-learning constrói a função valor em uma tabela onde cada entrada armazena a estimativa do retorno de um par estado-ação. Esta representação possui desvantagens quando utilizada em ambientes que possuem variáveis de estado contínuas. Nestes ambientes, a quantidade de estados é infinita, tornando impraticável este tipo de representação por duas razões principais: 1) memória insuficiente para armazenar a tabela de estimativas (Vieira; Adeodato;

Gonçalves,2010) e 2) custo computacional alto para estimar o retorno de todos os estados do ambiente (Haykin,1998).

Felizmente, em problemas que possuem variáveis de estado contínuas há a possibilidade da existência de estados similares. Nestes estados, uma mesma ação pode produzir resultados semelhantes (Mahadevan; Connell, 1992). A estratégia abordada por este trabalho explora esta característica agrupando os estados similares em regiões discretas a fim de produzir uma representação mais compacta do espaço de estados. Os algoritmos que utilizam esta estratégia devem encontrar meios para detectar estas semelhanças e evitar o agrupamento de estados não-similares que exigem ações diferentes. Este capítulo formaliza o processo de discretização e mostra que o agrupamento de tais estados requerem cuidados para evitar problemas que venham a impossibilitar o agente de encontrar uma solução.

O presente capítulo está organização como segue. A Seção 3.1 descreve o tipo de tarefa que se pretende solucionar com o uso da AR. A problemática e formalização do processo de discretização destes ambientes são apresentados na Seção 3.2 e dois problemas que podem ocorrer com este processo são discutidos em seguida na Seção 3.3.