Comportamento e Aprendizagem - Algoritmo TD(nλ)-GNG

Algoritmo Proposto

6.1 Algoritmo TD(nλ)-GNG

6.1.3 Comportamento e Aprendizagem

Com o objetivo de reduzir a ocorrência da dependência do caminho e do fenômeno Chattering, o algoritmo proposto evita que o agente utilize ações diferentes durante a visita de uma região. Neste caso, a aprendizagem ocorre somente quando uma região diferente é ativada ou quando o episódio termina. Esta estratégia ajuda o agente a monitorar quais ações o levam para regiões diferentes. Enquanto isso, o agente deve acumular as recompensas descontadas.

Estas recompensas são posteriormentes repassadas para outras regiões com a técnicaElegibility Traces. Desta forma, o algoritmo se comporta como o algoritmo Temporal Differente de n-passos(TD(n)) durante a visita de uma região e comoQ(λ)na transição entre as regiões. A combinação destes dois algoritmos deu origem ao TD(nλ):

Q_t+n(s, a) =Q_t(s, a) + a memóriaElegibility Tracepara o par(s, a), respectivamente. O termoR⁽ⁿ⁾_t é o retorno após n-passos que pode ser expandido para

R⁽ⁿ⁾_t = ondené o número de passos até que uma das seguintes condições aconteça: 1) o agente alcance uma região diferente ou 2) o episódio termine. A memóriaeé atualizada conforme equação apresentada a seguir: para todo par(s, a). O algoritmo TD(nλ) mantém a garantia de convergência do algoritmo TD(n) uma vez que a soma dos pesos dos retornos-ncontinua sendo1(ver Prova 6.1) (Sutton; Barto, 1998). Esta condição é necessária para que o algoritmo possua a propriedade da redução do erro Watkins(1989) dos algoritmos TD(n). Os passos do algoritmo TD(nλ) são enumerados a seguir:

1. Observe o estado atuals.

2. Encontre o nówmais próximo des.

3. a←arg max_bQ(w, b)ou, com probabilidade,a←ação aleatória.

4. Realize a açãoae observe o próximo estados⁰e recompensar.

5. Encontre o nów⁰mais próximo des⁰.

6.1. ALGORITMO TD(N λ)-GNG 92 6. R←R+γⁿr.

7. Incremente o valor den.

8. Enquantow=w⁰en < N faça:

8.1. Realize a açãoa, observe o próximo estados⁰, a recompensare, encontre o nów⁰mais próximo des⁰.

8.2. R←R+γⁿr.

8.3. Incremente o valor den.

9. a^∗←arg max_bQ(w⁰, b).

Note que os passos12e13.3se devem, respectivamente, aoreplacing tracese à reco-mendação deSingh; Sutton(1996) que foram discutidos no Capítulo 2, Seção 2.2.1. A condição n < N contida no passo8torna-se necessária quando o algoritmo não refina automaticamente o espaço de estados. Assim, se o agente não alcançar uma região diferente apósN passos, a função valor deve ser atualizada e uma nova ação é escolhida.

Considere um problema onde cada região é ativa durante dois passos (n= 2) e que as atu-alizações ocorrem após mesmo período. Pela Definição 2.6, os retornos-nserão ponderados pela soma dos dois pesos anteriores,(1−λ)λ⁰+ (1−λ)λ¹R⁽²⁾_t ,(1−λ)λ²+ (1−λ)λ³R⁽⁴⁾_t e assim sucessivamente. Seja∆Q^2λ_t (s_t, a_t) =α^hR^2λ_t −Q_t(s_t.a_t)ⁱo incremento aplicado ao par (s_t, a_t) a cada 2-passos; a partir de ∆Q^2λ_t (s_t, a_t) é possível justificar o uso do termo (γλ)² ao invés de(γλ)alcançando∆Q^nλ_t (s, a)para cada novo retorno-ncom a adaptação da prova utilizada porSutton; Barto(1998, p. 177) como segue,

6.1. ALGORITMO TD(N λ)-GNG 93 expandindo os termoR_t⁽²⁾,R⁽⁴⁾_t eR_t⁽⁶⁾e, multiplicando cada um pelos seus pesos associados obtêm-se,

onde a primeira região foi ativa no instante de tempot, a segunda após dois passost+ 2, a terceira após quatro passost+ 4 e assim sucessivamente. Para o caso off-line, onde as atualizações são acumuladas e posteriormente utilizadas para atualizar a função valor ¹, a Equação 6.12 implementa a atualização da função valor da mesma forma que∆Q^nλ_t (s, a)com o decaimento de ecomo proposto pela Equação 6.11 para(n= 2)-passos e(γλ)²(Sutton; Barto,1998). No caso on-line, a atualização realizada pela Equação 6.12 é uma aproximação se a taxa de aprendizagem for pequena o suficiente para garantir que as variações deQdurante os episódios sejam pequenas (Sutton; Barto,1998). A Prova 6.1 mostra que para qualquer sequênciaN den-passos,edeve decair(γλ)ⁿ e que, desta forma, o algoritmo TD(nλ) implementa corretamente oElegibility Traces.

Prova 6.1. SejaN a sequência dosn-passos realizados em um episódio pelo algoritmo TD(nλ), (N_i)_i∈_Noi-ésimo termo desta sequência, ondeN_i=0é o primeiro termo. SejaR^{N λ}_t a soma da

sequênciaN dos retornos-ne seus respectivos pesos que podem ser escritos na seguinte forma:

R^{N λ}_t =

∞ X i=p(t)

1−λ^Nⁱλ^lⁱ^−l^p(t)R^l_tⁱ^−l^p(t)^+Nⁱ

1Neste caso,Qpermanece constante durante o episódio.

6.1. ALGORITMO TD(N λ)-GNG 94 com atualização dada por

∆Q^{N λ}_t (s_t, a_t) =α^hR^{N λ}_t −Q_t(s_t, a_t)ⁱ

onde l_i =^Pⁱ⁻¹_j=0N_j, l₀ = 0, p: l_i 7→i, p(0) = 0 e que o estado final é um absorbing state.

Pretende-se provar que para o caso off-lineas atualizações

|N|−1 são iguais e com isso mostrar queedeve decair de acordo com o número de passos. Note que I_pq é uma função identidade, igual a1sep=qou igual à0caso contrário. Iniciando pelo lado direito da Equação6.13, o termoR^{N λ}_t pode ser expandido para

R_t^{N λ}=1−λ^N⁰λ⁰R^(N_t ⁰⁾+ pode-se desmembrar o últimon-passos do somatório e obter

R⁽ⁿ⁼

6.1. ALGORITMO TD(N λ)-GNG 95 sendo assim,R^{N λ}_t pode ser reescrito como segue,

R^{N λ}_t =R^(N_t ⁰⁾−λ^N⁰γ^N⁰Q_t(s_t+N₀, a_t+N₀)+ uma vez que o estado final é um absorbing state, o restante dos termos após o últimon-passos pode ser descartado, poisreQtserão sempre0.

Agora, observe que o decaimento deeproposto pela Equação6.11pode ser reescrito de forma não recursiva como (Sutton; Barto,1998),

e_t(s, a) =

e que∆Q^nλ_t (s, a)pode ser reescrito para representar um dosn-passos da sequência emN

∆Q^nλ_t (s, a) =α

δi

z }| { hR^N_l ⁱ

i −Q_t(s, a)ⁱe_t(s, a).

6.1. ALGORITMO TD(N λ)-GNG 96 Desta forma, o lado esquerdo da Equação6.13pode ser escrito como,

|N|−1

o que prova a igualdade da Equação6.13para o caso off-line.

A Prova 6.1 pode ser estendida para o casoon-linese assumir que os estados não são revisitados. Neste caso, os dois lados da Equação 6.13 são iguais também para o casoon-line². Isto é verdade, pois durante o episódio, o valorQ_tde um estado será utilizado apenas uma única vez para atualizar a função valor. Desta forma, é possível separar cada termo do somatório da Equação 6.14 e utilizá-los para atualizar a função valor e, com isso, obter o mesmo resultado nos dois casos:on-lineeoff-line.

Em suma, as etapas de Refinamento e Aprendizagem ilustradas pela Figura 6.7 funcionam da seguinte forma. Considere que toda ação é selecionada de uma política-greedyderivada de Q. O algoritmo inicia encontrando os nóswew⁰mais próximos do estado atualse do próximo estados⁰, respectivamente. A ação não se altera enquantow=w⁰, ou seja, enquantoses⁰forem agrupados pelo mesmo nó. Enquanto isso, a função valor não é atualizada, mas as recompensas recebidas são descontadas e acumuladas. A atualização da função valor pode ocorrer: no fim do episódio, quando o retorno-nultrapassa o limite ou quando uma região diferente é ativada, ou seja,w6=w⁰. Um novo nó é adicionado ems⁰se a distância entres⁰ewé maior queρe um dos seguintes casos ocorrer:

1. Rultrapassa o limiteθ em uma região que foi ativa por um longo período de tempo ou,

2. uma região diferente foi ativada e o retorno esperadoR+γⁿQ(w⁰, a)ultrapassa o limiteθ.

Resultados

Os gráficos na Figura 6.8 mostram a média do desempenho após 10 execuções do algoritmo TD(nλ)-GNG nos ambientes:Mountain Car,Steering Car,Puddle World(recompensa

2Confirmado por Richard S. Sutton em uma comunicação por e-mail (2016).

6.1. ALGORITMO TD(N λ)-GNG 97

Figura 6.7:Esquema do processo de aprendizagem do algoritmo proposto.

acumulada),Continuous Mazee Acrobot. O agente foi capaz de concluir todos os episódios sem a necessidade da reinicialização do episódio. Este era um dos problemas existentes nos algoritmos adaptativos apresentados no Capítulo 4 que se pretendia resolver. No inicio da aprendizagem os nós são adicionados rapidamentes devido a uma representação fraca do espaço de estados, mas à medida que o desempenho aumenta, o tamanho da rede tende a convergir.

Neste ponto, a rede GNG possui nós localizados de forma a evitar que a função valor sature em determinadas regiões do espaço de estados. As Figuras 6.9(a) e 6.9(b) mostram, respectivamente, a função valor nos ambientesPuddle WorldeMountain Car. Valores baixos associados próximo a posição0da Figura 6.9(b) ressalta a dificuldade do agente em escapar do vale. Na Figura 6.9(a) é possível observar que o algoritmo proposto associou corretamente um valor baixo para as regiões representadas pelos nós localizados próximos as poças.

O experimento realizado no ambienteSteering Carmostra que o algoritmo TD(nλ)-GNG pode ser utilizado em tarefas do mundo real. A Figura 6.10 mostra a sequência de cinco passos realizados pelo agente para mover o carro para o estado meta. Os passos apresentados pela Figura 6.10 mostram como o algoritmo TD(nλ)-GNG consegue orientar com eficiência as rodas dianteiras para guiar o carro até o estado meta. Note, na Figura 6.10, que no quadro dois a primeira ação foi ir para trás. Esta ação proporcionou espaço suficiente para o carro realizar a curva e alcançar o estado meta após três passos. Uma recompensa menor foi recebida com esta ação devido ao aumento da distância do carro até o estado meta. No entanto, esta ação, aparentemente ruim, foi necessária para terminar o episódio em poucos passos e com um maior retorno.

O presente capítulo apresentou um algoritmo adaptativo capaz de reduzir os efeitos da maldição da dimensionalidade e a ocorrência da dependência do caminho, dois problemas que afetam os algoritmos AR. O algoritmo TD(nλ)-GNG é composto por dois componentes:

1) algoritmo TD(nλ), responsável pela aprendizagem da função valor e, 2) algoritmo GNG, responsável pelo particionamento adaptativo do espaço de estados. Os resultados preliminares

6.1. ALGORITMO TD(N λ)-GNG 98

(a)Puddle World, Mountain Car, Steering Car e Acrobot

(b) Continuous Maze e Slow Puddle World

Figura 6.8:Desempenho do algoritmo proposto no treinamento do agente nos ambientes Mountain Car,Steering Car,Acrobot,Continuous MazeePuddle World(recompensa

acumulada).

6.1. ALGORITMO TD(N λ)-GNG 99

0 0.2 0.4 0.6 0.8 1

x 0

0.2 0.4 0.6 0.8

-160 -140 -120 -100 -80 -60 -40 -20 PaQ(s, a)

(a) Puddle World

-1 -0.5 0 0.5 1

Posição -0.05

0 0.05 Velocidade

-100 -80 -60 -40 -20 0 max_aQ(s, a)

(b) Mountain Car

Figura 6.9: Custos (max_aQ(s, a)) e (^P^aQ(s, a)) estimado pelo algoritmo proposto após 1000 episódios nos ambientesPuddle WorldeMountain Car, respectivamente.

6.1. ALGORITMO TD(N λ)-GNG 100

Figura 6.10:Sequência de cinco ações desempenhadas pelo algoritmo proposto para guiar o carro até a região meta.

6.1. ALGORITMO TD(N λ)-GNG 101 apresentados mostram que o algoritmo TD(nλ)-GNG é capaz de gerar uma representação automática do espaço de estados sem a interverção de um especialista no domínio do problema.

O próximo capítulo compara o algoritmo proposto com 4 algoritmos de aprendizagem AR, são eles: Q(λ)-DU, TD-AVQ, TC e IGNG-Q.

102 102 102

7

No documento Davi Carnaúba de Lima Vieira (páginas 92-103)