Algoritmo Proposto
6.1 Algoritmo TD(nλ)-GNG
6.1.3 Comportamento e Aprendizagem
Com o objetivo de reduzir a ocorrência da dependência do caminho e do fenômeno Chattering, o algoritmo proposto evita que o agente utilize ações diferentes durante a visita de uma região. Neste caso, a aprendizagem ocorre somente quando uma região diferente é ativada ou quando o episódio termina. Esta estratégia ajuda o agente a monitorar quais ações o levam para regiões diferentes. Enquanto isso, o agente deve acumular as recompensas descontadas.
Estas recompensas são posteriormentes repassadas para outras regiões com a técnicaElegibility Traces. Desta forma, o algoritmo se comporta como o algoritmo Temporal Differente de n-passos(TD(n)) durante a visita de uma região e comoQ(λ)na transição entre as regiões. A combinação destes dois algoritmos deu origem ao TD(nλ):
Qt+n(s, a) =Qt(s, a) + a memóriaElegibility Tracepara o par(s, a), respectivamente. O termoR(n)t é o retorno após n-passos que pode ser expandido para
R(n)t = ondené o número de passos até que uma das seguintes condições aconteça: 1) o agente alcance uma região diferente ou 2) o episódio termine. A memóriaeé atualizada conforme equação apresentada a seguir: para todo par(s, a). O algoritmo TD(nλ) mantém a garantia de convergência do algoritmo TD(n) uma vez que a soma dos pesos dos retornos-ncontinua sendo1(ver Prova 6.1) (Sutton; Barto, 1998). Esta condição é necessária para que o algoritmo possua a propriedade da redução do erro Watkins(1989) dos algoritmos TD(n). Os passos do algoritmo TD(nλ) são enumerados a seguir:
1. Observe o estado atuals.
2. Encontre o nówmais próximo des.
3. a←arg maxbQ(w, b)ou, com probabilidade,a←ação aleatória.
4. Realize a açãoae observe o próximo estados0e recompensar.
5. Encontre o nów0mais próximo des0.
6.1. ALGORITMO TD(N λ)-GNG 92 6. R←R+γnr.
7. Incremente o valor den.
8. Enquantow=w0en < N faça:
8.1. Realize a açãoa, observe o próximo estados0, a recompensare, encontre o nów0mais próximo des0.
8.2. R←R+γnr.
8.3. Incremente o valor den.
9. a∗←arg maxbQ(w0, b).
Note que os passos12e13.3se devem, respectivamente, aoreplacing tracese à reco-mendação deSingh; Sutton(1996) que foram discutidos no Capítulo 2, Seção 2.2.1. A condição n < N contida no passo8torna-se necessária quando o algoritmo não refina automaticamente o espaço de estados. Assim, se o agente não alcançar uma região diferente apósN passos, a função valor deve ser atualizada e uma nova ação é escolhida.
Considere um problema onde cada região é ativa durante dois passos (n= 2) e que as atu-alizações ocorrem após mesmo período. Pela Definição 2.6, os retornos-nserão ponderados pela soma dos dois pesos anteriores,(1−λ)λ0+ (1−λ)λ1R(2)t ,(1−λ)λ2+ (1−λ)λ3R(4)t e assim sucessivamente. Seja∆Q2λt (st, at) =αhR2λt −Qt(st.at)io incremento aplicado ao par (st, at) a cada 2-passos; a partir de ∆Q2λt (st, at) é possível justificar o uso do termo (γλ)2 ao invés de(γλ)alcançando∆Qnλt (s, a)para cada novo retorno-ncom a adaptação da prova utilizada porSutton; Barto(1998, p. 177) como segue,
1
6.1. ALGORITMO TD(N λ)-GNG 93 expandindo os termoRt(2),R(4)t eRt(6)e, multiplicando cada um pelos seus pesos associados obtêm-se,
onde a primeira região foi ativa no instante de tempot, a segunda após dois passost+ 2, a terceira após quatro passost+ 4 e assim sucessivamente. Para o caso off-line, onde as atualizações são acumuladas e posteriormente utilizadas para atualizar a função valor 1, a Equação 6.12 implementa a atualização da função valor da mesma forma que∆Qnλt (s, a)com o decaimento de ecomo proposto pela Equação 6.11 para(n= 2)-passos e(γλ)2(Sutton; Barto,1998). No caso on-line, a atualização realizada pela Equação 6.12 é uma aproximação se a taxa de aprendizagem for pequena o suficiente para garantir que as variações deQdurante os episódios sejam pequenas (Sutton; Barto,1998). A Prova 6.1 mostra que para qualquer sequênciaN den-passos,edeve decair(γλ)n e que, desta forma, o algoritmo TD(nλ) implementa corretamente oElegibility Traces.
Prova 6.1. SejaN a sequência dosn-passos realizados em um episódio pelo algoritmo TD(nλ), (Ni)i∈Noi-ésimo termo desta sequência, ondeNi=0é o primeiro termo. SejaRN λt a soma da
sequênciaN dos retornos-ne seus respectivos pesos que podem ser escritos na seguinte forma:
RN λt =
∞ X i=p(t)
1−λNiλli−lp(t)Rlti−lp(t)+Ni
1Neste caso,Qpermanece constante durante o episódio.
6.1. ALGORITMO TD(N λ)-GNG 94 com atualização dada por
∆QN λt (st, at) =αhRN λt −Qt(st, at)i
onde li =Pi−1j=0Nj, l0 = 0, p: li 7→i, p(0) = 0 e que o estado final é um absorbing state.
Pretende-se provar que para o caso off-lineas atualizações
|N|−1 são iguais e com isso mostrar queedeve decair de acordo com o número de passos. Note que Ipq é uma função identidade, igual a1sep=qou igual à0caso contrário. Iniciando pelo lado direito da Equação6.13, o termoRN λt pode ser expandido para
RtN λ=1−λN0λ0R(Nt 0)+ pode-se desmembrar o últimon-passos do somatório e obter
R(n=
6.1. ALGORITMO TD(N λ)-GNG 95 sendo assim,RN λt pode ser reescrito como segue,
RN λt =R(Nt 0)−λN0γN0Qt(st+N0, at+N0)+ uma vez que o estado final é um absorbing state, o restante dos termos após o últimon-passos pode ser descartado, poisreQtserão sempre0.
Agora, observe que o decaimento deeproposto pela Equação6.11pode ser reescrito de forma não recursiva como (Sutton; Barto,1998),
et(s, a) =
e que∆Qnλt (s, a)pode ser reescrito para representar um dosn-passos da sequência emN
∆Qnλt (s, a) =α
δi
z }| { hRNl i
i −Qt(s, a)iet(s, a).
6.1. ALGORITMO TD(N λ)-GNG 96 Desta forma, o lado esquerdo da Equação6.13pode ser escrito como,
|N|−1
o que prova a igualdade da Equação6.13para o caso off-line.
A Prova 6.1 pode ser estendida para o casoon-linese assumir que os estados não são revisitados. Neste caso, os dois lados da Equação 6.13 são iguais também para o casoon-line2. Isto é verdade, pois durante o episódio, o valorQtde um estado será utilizado apenas uma única vez para atualizar a função valor. Desta forma, é possível separar cada termo do somatório da Equação 6.14 e utilizá-los para atualizar a função valor e, com isso, obter o mesmo resultado nos dois casos:on-lineeoff-line.
Em suma, as etapas de Refinamento e Aprendizagem ilustradas pela Figura 6.7 funcionam da seguinte forma. Considere que toda ação é selecionada de uma política-greedyderivada de Q. O algoritmo inicia encontrando os nóswew0mais próximos do estado atualse do próximo estados0, respectivamente. A ação não se altera enquantow=w0, ou seja, enquantoses0forem agrupados pelo mesmo nó. Enquanto isso, a função valor não é atualizada, mas as recompensas recebidas são descontadas e acumuladas. A atualização da função valor pode ocorrer: no fim do episódio, quando o retorno-nultrapassa o limite ou quando uma região diferente é ativada, ou seja,w6=w0. Um novo nó é adicionado ems0se a distância entres0ewé maior queρe um dos seguintes casos ocorrer:
1. Rultrapassa o limiteθ em uma região que foi ativa por um longo período de tempo ou,
2. uma região diferente foi ativada e o retorno esperadoR+γnQ(w0, a)ultrapassa o limiteθ.
Resultados
Os gráficos na Figura 6.8 mostram a média do desempenho após 10 execuções do algoritmo TD(nλ)-GNG nos ambientes:Mountain Car,Steering Car,Puddle World(recompensa
2Confirmado por Richard S. Sutton em uma comunicação por e-mail (2016).
6.1. ALGORITMO TD(N λ)-GNG 97
Figura 6.7:Esquema do processo de aprendizagem do algoritmo proposto.
acumulada),Continuous Mazee Acrobot. O agente foi capaz de concluir todos os episódios sem a necessidade da reinicialização do episódio. Este era um dos problemas existentes nos algoritmos adaptativos apresentados no Capítulo 4 que se pretendia resolver. No inicio da aprendizagem os nós são adicionados rapidamentes devido a uma representação fraca do espaço de estados, mas à medida que o desempenho aumenta, o tamanho da rede tende a convergir.
Neste ponto, a rede GNG possui nós localizados de forma a evitar que a função valor sature em determinadas regiões do espaço de estados. As Figuras 6.9(a) e 6.9(b) mostram, respectivamente, a função valor nos ambientesPuddle WorldeMountain Car. Valores baixos associados próximo a posição0da Figura 6.9(b) ressalta a dificuldade do agente em escapar do vale. Na Figura 6.9(a) é possível observar que o algoritmo proposto associou corretamente um valor baixo para as regiões representadas pelos nós localizados próximos as poças.
O experimento realizado no ambienteSteering Carmostra que o algoritmo TD(nλ)-GNG pode ser utilizado em tarefas do mundo real. A Figura 6.10 mostra a sequência de cinco passos realizados pelo agente para mover o carro para o estado meta. Os passos apresentados pela Figura 6.10 mostram como o algoritmo TD(nλ)-GNG consegue orientar com eficiência as rodas dianteiras para guiar o carro até o estado meta. Note, na Figura 6.10, que no quadro dois a primeira ação foi ir para trás. Esta ação proporcionou espaço suficiente para o carro realizar a curva e alcançar o estado meta após três passos. Uma recompensa menor foi recebida com esta ação devido ao aumento da distância do carro até o estado meta. No entanto, esta ação, aparentemente ruim, foi necessária para terminar o episódio em poucos passos e com um maior retorno.
O presente capítulo apresentou um algoritmo adaptativo capaz de reduzir os efeitos da maldição da dimensionalidade e a ocorrência da dependência do caminho, dois problemas que afetam os algoritmos AR. O algoritmo TD(nλ)-GNG é composto por dois componentes:
1) algoritmo TD(nλ), responsável pela aprendizagem da função valor e, 2) algoritmo GNG, responsável pelo particionamento adaptativo do espaço de estados. Os resultados preliminares
6.1. ALGORITMO TD(N λ)-GNG 98
(a)Puddle World, Mountain Car, Steering Car e Acrobot
0
(b) Continuous Maze e Slow Puddle World
Figura 6.8:Desempenho do algoritmo proposto no treinamento do agente nos ambientes Mountain Car,Steering Car,Acrobot,Continuous MazeePuddle World(recompensa
acumulada).
6.1. ALGORITMO TD(N λ)-GNG 99
0 0.2 0.4 0.6 0.8 1
x 0
0.2 0.4 0.6 0.8
1
y
-160 -140 -120 -100 -80 -60 -40 -20 PaQ(s, a)
(a) Puddle World
-1 -0.5 0 0.5 1
Posição -0.05
0 0.05 Velocidade
-100 -80 -60 -40 -20 0 maxaQ(s, a)
(b) Mountain Car
Figura 6.9: Custos (maxaQ(s, a)) e (PaQ(s, a)) estimado pelo algoritmo proposto após 1000 episódios nos ambientesPuddle WorldeMountain Car, respectivamente.
6.1. ALGORITMO TD(N λ)-GNG 100
Figura 6.10:Sequência de cinco ações desempenhadas pelo algoritmo proposto para guiar o carro até a região meta.
6.1. ALGORITMO TD(N λ)-GNG 101 apresentados mostram que o algoritmo TD(nλ)-GNG é capaz de gerar uma representação automática do espaço de estados sem a interverção de um especialista no domínio do problema.
O próximo capítulo compara o algoritmo proposto com 4 algoritmos de aprendizagem AR, são eles: Q(λ)-DU, TD-AVQ, TC e IGNG-Q.
102 102 102