Algoritmo TD(nλ)-GNG - Complexidade dos Algoritmos

A.4 Função atualização responsável pela atualização da função valor

7.4 Complexidade dos Algoritmos

8.1.2 Algoritmo TD(nλ)-GNG

O algoritmo TD(nλ)-GNG é composto por dois componentes: 1) algoritmo TD(nλ), responsável pela aprendizagem da função valor e, 2) algoritmo GNG, responsável pelo particionamento adaptativo do espaço de estados. O algoritmo GNG modificado (Capítulo 6, Subseções 6.1.1 e 6.1.2) atende às necessidades da estratégia de aprendizagem utilizada, sendo composto de duas etapas: 1) adaptação e 2) refinamento. Estas etapas referem-se, respectivamente, ao movimento e posicionamento de novos nós no espaço de estados.

A movimentação dos nós ocorre quando uma ação produz uma estimativa de retorno maior que a esperada. Para identificar estas ações, o algoritmo avalia a Equação 6.1 que, em outras palavras, move um nó se a recompensa imediata somada à estimativa das recompensas dos estados futuros for maior que a melhor ação do nó. Sendo assim, em decorrência de uma ação exploratória os nós não serão deslocados para outras regiões que podem possuir uma menor estimativa de retorno. Esta estratégia de movimento procura evitar que o algoritmo GNG tente representar políticas que são ruins (menor retorno) (ver Capítulo 3, Seção 3.2).

A etapa de refinamento ocorre em regiões onde a função valor tende a saturar. O algoritmo adiciona novos nós antes que a saturação ocorra, para isto, o retorno-n é monitorado. Um novo nó será adicionado quando o retorno-n alcançar valores maiores que o limite adaptativo calculado pelo algoritmo. O limite é dito adaptativo, pois a depender da recompensa recebida, este limite pode aumentar ou diminuir. Esta estratégia de refinamento pode proporcionar uma redução na ocorrência da dependência do caminho da seguinte forma: se o agente está localizado em uma região que possui a dependência do caminho, então existe pelo menos um estado não-similar que exige uma ação diferente para que a transição para outra região ocorra. Desta forma, uma vez que a política é fixa, o retorno-n alcançará o limite neste estado e um novo nó será adicionado dividindo a região. Visto que a dependência do caminho pode ser resolvida com o refinamento de uma região, esta estratégia possibilita reduzir sua ocorrência.

8.2 Resultados

O uso do algoritmo TD(nλ) em ambientes discretizados que possuem episódios de longa duração mostrou ser mais adequado que os tradicionais algoritmos AR. Houve um ganho significativo no desempenho do agente ao substituir o algoritmo Q(λ) pelo algoritmo TD(nλ). Isto porque a atualização após 1-passo proporcionada pelo algoritmo Q − learning

8.2. RESULTADOS 117 dificultou a aprendizagem do agente, principalmente quando as regiões agrupavam muitos estados. Nos ambientes que possuiam episódios de longa duração, o uso do algoritmo proposto com TD(nλ)-DU foi capaz de mostrar convergência onde o Q(λ) não conseguiu. Ao aplicar o algoritmo TD(nλ)-GNG, o desempenho foi superior em todos os aspectos: 1) tempo de convergência, 2) qualidade da política e 3) memória utilizada.

Esta tese compara o algoritmo proposto com quatro algoritmos AR chamados: TC, TD-AVQ, Q(λ)-DU e IGNG-Q. Os experimentos mostram que o algoritmo proposto foi capaz de encontrar a solução dos cinco ambientes de teste envolvidos. A Tabela 8.1 mostra os algoritmos que obtiveram o melhor desempenho nos quesitos tempo de aprendizagem, memória utilizada e qualidade da política encontrada. Em comparação com o algoritmo TC, o algoritmo proposto foi capaz de proporcionar uma redução no uso da memória de 88%, 87%, 98% e 97% nos ambientes Continuous Maze, Slow Puddle World, Mountain Car e Acrobot, respectivamente. No teste, o algoritmo proposto foi o único capaz de produzir uma política utilizável nos ambientes Continuous Mazee Slow Puddle World.

Tabela 8.1: Melhores algoritmos nos quesitos tempo de aprendizagem, memória utilizada e qualidade da política.

Aprendizagem Memória Qualidade da Política

Puddle World TC TC TC

Mountain Car TD(nλ)-GNG TD(nλ)-GNG TC

Acrobot TC TD(nλ)-GNG TC

Continuous Maze TD(nλ)-GNG TD(nλ)-GNG TD(nλ)-GNG Slow Puddle World TD(nλ)-GNG TD(nλ)-GNG TD(nλ)-GNG

Em ambientes multidimensionais, onde as ações futuras possuem impacto em toda uma sequência correta de ações, o algoritmo proposto mostra obter um desempenho inferior. Isto porque a quantidade de fronteiras entre os nós torna-se maior em problemas multidimensionais (Baumann; Kleine büning,2014). Além disto, estes ambientes irão necessitar de uma quantidade maior de nós para representar o espaço de estados. A representação mais geral feita pelos algoritmos adaptativos impedem que em determinadas regiões do espaço de estados a melhor ação seja realizada. Por outro lado, ao configurar os algoritmos para que realizem uma representação mais específica do espaço de estados percebe-se que a generalização é prejudicada implicando em um aumento no tempo de aprendizagem e uso da memória.

No ambiente Acrobot, o algoritmo proposto foi capaz de convergir utilizando uma quantidade menor de memória devido o uso de uma quantidade menor de partições. Isto foi possível com o ajuste do o parâmetro ρ (ver Seção 6.1.2). Desta forma, em aplicações onde a memória é pouca, o algoritmo proposto se mostra mais adequado para o uso. Um exemplo desta aplicação são as plataformas eletrônicas de prototipagem de baixo custo tais como o Arduíno. A Tabela 8.2 apresenta o processador e a quantidade de memória disponível pelos Arduínos mais utilizados no mercado. Esta plataforma possui três tipos de memórias que possuem propósitos

8.3. CONTRIBUIÇÕES 118 diferentes, são elas:

1. Flash – Utilizada para armazenar o algoritmo de aprendizagem.

2. SRAM – Para armazenar as variáveis, vetores, pilha e todo tipo de dado utilizado em tempo de execução. Esta memória é utilizada para armazenar os tiles ou nós durante a aprendizagem.

3. EEPROM – Memória para o armazenamento de dados geralmente estáticos.

Tabela 8.2: Os tipos de Arduínos, seus respectivos processores e, tipo e quantidade de memória disponível.

Arduíno Processador Memória Flash Memória SRAM Memória EEPROM

Uno Atmega328 32, 0kB 2, 0kB 1, 0kB

Leonardo Atmega32U4 32, 0kB 2, 5kB 1, 0kB

Mega Atmega2560 256, 0kB 8, 0kB 8, 0kB

Os resultados mostram que os algoritmos adaptativos são mais adequados para o uso nestes dispositivos. Os algoritmos que realizam uma representação fixa não proporcionam uma representação flexível do espaço de estados sem a intervenção humana. Desta forma, a quantidade de memória utilizada será maior.

8.3 Contribuições

O presente trabalho apresentou três contribuições: 1) algoritmo para estimar a função valor em ambientes discretizados, 2) prova de que o algoritmo TD(nλ) implementa corretamente o Elegibility Traces e 3) algoritmo para o particionamento automático do espaço de estados.

A primeira contribuição foi a elaboração de um algoritmo AR para estimar a função valor em ambientes discretizados. A maior parte das pesquisas que envolvem o uso dos algoritmos AR buscam meios de como aprimorar a representação do espaço de estados contínuo enquanto os algoritmos AR permanecem inalterados. O presente trabalho quebrou esta tradição ao ter apresentado um novo algoritmo AR capaz de proporcionar um ganho na aprendizagem em ambientes discretizados. Ao comparar os algoritmos TD(nλ) e Q(λ), utilizando os mesmos parâmetros de aprendizagem e representação do espaço de estados, foi possível observar um ganho no desempenho em todos os ambientes de teste.

A segunda contribuição prova que o algoritmo TD(nλ) implementa corretamente o Elegibility Traces(Prova 6.1, página 93). Assim, o algoritmo TD(nλ) mantém a propriedade de convergência do algoritmo TD(n) uma vez que a soma dos pesos dos retornos-n continua igual a 1 (Sutton; Barto,1998). SegundoWatkins(1989), esta condição é necessária para que os algoritmos que combinam os retornos-n possuam a propriedade da redução do erro (Watkins,

8.4. TRABALHOS FUTUROS 119

1989). Por meio desta propriedade é possível mostrar formalmente que o algoritmo TD(nλ) converge para o valores corretos da função valor.

A última contribuição do presente trabalho é a apresentação de um algoritmo para a discretização automática do espaço de estados. O Particionamento automático é preferível, principalmente quando as particularidades do problema que se deseja resolver não são conhecidas. Em casos como este, os algoritmos que particionam automaticamente o espaço de estados são utilizados para detectar estas particularidades e reduzir as chances do agrupamento de estados não-similares. A flexibilidade proporcionada pelo algoritmo proposto permitiu obter uma representação eficiente do espaço de estados com poucos nós, isto porque em determinadas regiões do espaço foi possível utilizar mais nós do que em outras. Uma vez que o consumo de memória (Tabela 7.2, página 110) e recursos computacionais está associado ao número de nós, a capacidade do algoritmo proposto de resolver problemas com uma quantidade menor de nós que a utilizada pelos demais algoritmos comparados viabiliza o uso do algoritmo TD(nλ)-GNG em aplicações onde a quantidade de memória é reduzida.

8.4 Trabalhos Futuros

Como trabalho futuro, planeja-se modificar o algoritmo proposto para que utilize mais de uma camada a fim de permitir o compartilhamento do conhecimento de um nó entre seus vizinhos. A ideia é semelhante ao funcionamento do algoritmo TC onde vários tilings estão sobrepostos com um deslocamento. Desta forma, a função valor pode ser suavizada eliminando o problema dos estados localizados entre as fronteiras dos nós. O número de camadas do algoritmo irá determinar o grau de suavidade que a função valor irá possuir. Contudo, o número de nós irá aumentar

Outro trabalho futuro consiste em reduzir o custo computacional em encontrar o nó mais próximo. Para isto, planeja-se dividir o espaço de busca em listas distribuídas uniformemente no espaço de estados. Estas listas armazenarão os nós mais próximos de acordo com a distância Euclidiana. Ao apresentar uma nova entrada, o algoritmo irá buscar pelo nó apenas na lista mais próxima. A movimentação dos nós exigirá que as listas sejam atualizadas após o deslocamento de um nó, isto aumentará o custo da etapa de adaptação do algoritmo. No entanto, este custo pode ser reduzido ao manter uma variável para cada nó com a distância até a segunda lista mais próxima. Após cada movimento, esta variável é reduzida pelo tamanho do deslocamento do nó. Ao alcançar um valor abaixo de 0 o algoritmo verifica se o nó ainda pertence à lista atual, caso contrário, ele é movido para outra lista.

Como último trabalho futuro, planeja-se obter a prova de convergência do algoritmo TD(nλ).

120 120 120

Referências

Abramson, M.; Pachowicz, P.; Wechsler, H. Competitive reinforcement learning in continuous control tasks. In: INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS. Proceedings. . . [S.l.: s.n.], 2003. v.3, p.1909–1914.

Albus, J. S. A new approach to manipulator control: The cerebellar model articulation controller (CMAC). Journal of Dynamic Systems, Measurement, and Control, [S.l.], v.97, n.3,

p.220–227, 1975.

Barto, A.; Sutton, R.; Anderson, C. Neuronlike adaptive elements that can solve difficult learning control problems. IEEE Transactions on Systems, Man and Cybernetics, [S.l.], v.13, n.5, p.834–846, Set 1983.

Baumann, M.; Kleine büning, H. Adaptive function approximation in reinforcement learning with an interpolating growing neural gas. International Journal of Hybrid Intelligent Systems, [S.l.], v.11, n.1, p.55–69, 2014.

Bellman, R. On the Theory of Dynamic Programming. Proceedings of the National Academy of Sciences of the United States of America, [S.l.], v.38, n.8, p.716–719, 1952.

Bellman, R. Dynamic Programming. 1.ed. Princeton, NJ, USA: Princeton University Press, 1957.

Bertsekas, D. P.; Tsitsiklis, J. N. Neuro-Dynamic Programming. Belmont, MA: Athena Scientific, 1996.

Bodenhausen, U.; Hild, H. Automatic construction of neural networks for special purpose speech recognition systems. In: INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. Anais. . . [S.l.: s.n.], 1995. v.5, p.3327–3330. Boyan, J. A.; Moore, A. W. Generalization in Reinforcement Learning: safely approximating the value function. In: ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7. Anais. . . MIT Press, 1995. p.369–376.

Bradski, D. G. R.; Kaehler, A. Learning Opencv. 1.ed. [S.l.]: O’Reilly Media Inc., 2008. Braga, A. P.; Araújo, A. F. R. A topological reinforcement learning agent for navigation. Neural Computing and Applications, [S.l.], v.12, n.3-4, p.220–236, 2003.

Breslow, L. Greedy Utile Suffix Memory for Reinforcement Learning with Perceptually-Aliased States. [S.l.]: Naval Research Laborary, 1996.

Claussen, C.; Gutta, S.; Wechsler, H. Reinforcement Algorithms Using Functional Approximation for Generalization and Their Application to Cart Centering and Fractal

Compression. In: SIXTEENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE, San Francisco, CA, USA. Proceedings. . . Morgan Kaufmann Publishers Inc., 1999. p.1362–1369. (IJCAI ’99).

REFERÊNCIAS 121 Correa, B.; Gonzalez, A. Evolutionary Algorithms for Selecting the Architecture of a MLP Neural Network: a credit scoring case. In: INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW), 11. Anais. . . [S.l.: s.n.], 2011. p.725–732.

Crites, R.; Barto, A. Improving Elevator Performance Using Reinforcement Learning. In: ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 8. Anais. . . MIT Press, 1996. p.1017–1023.

Ernst, D.; Geurts, P.; Wehenkel, L. Tree-Based Batch Mode Reinforcement Learning. J. Mach. Learn. Res., [S.l.], v.6, p.503–556, Dec. 2005.

Fernández, F.; Borrajo, D. VQQL. Applying Vector Quantization to Reinforcement Learning. In: ROBOCUP-99: ROBOT SOCCER WORLD CUP III. Anais. . . [S.l.: s.n.], 1999. p.292–303. Fritzke, B. A Growing Neural Gas Network Learns Topologies. In: ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 7. Anais. . . MIT Press, 1995. p.625–632.

Fuchida, T.; Aung, K. A proposition of adaptive state space partition in reinforcement learning with Voronoi tessellation. Artificial Life and Robotics, [S.l.], v.18, n.3-4, p.172–177, 2013. Garca, J. et al. A Comparative Study of Discretization Approaches for State Space Generalization in the Keepaway Soccer Task. [S.l.]: Nova Science Publishers, 2010. Gordon, G. J. Chattering in SARSA(lambda). [S.l.]: CMU Learning Lab, 1996.

Han, J.; Kamber, M.; Pei, J. Data Mining: concepts and techniques. 3.ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011.

Handa, H. State space construction of reinforcement learning agents based upon anticipated sensory changes. In: IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS. Anais. . . [S.l.: s.n.], 2004. v.2, p.1115–1120.

Haykin, S. Neural Networks: a comprehensive foundation. 2.ed. Upper Saddle River, NJ, USA: Prentice Hall PTR, 1998.

Jain, R. The art of computer systems performance analysis - techniques for experimental design, measurement, simulation, and modeling. [S.l.]: Wiley, 1991. I-XXVII, 1-685p. (Wiley professional computing).

Kaelbling, L. P.; Littman, M. L.; Moore, A. P. Reinforcement Learning: a survey. Journal of Artificial Intelligence Research, [S.l.], v.4, p.237–285, 1996.

Koenig, S.; Simmons, R. The effect of representation and knowledge on goal-directed exploration with reinforcement-learning algorithms. Machine Learning, [S.l.], v.22, n.1-3, p.227–250, 1996.

Kohonen, T.; Schroeder, M. R.; Huang, T. S. (Ed.). Self-Organizing Maps. 3.ed. Secaucus, NJ, USA: Springer-Verlag New York Inc., 2001.

Konidaris, G.; Osentoski, S.; Thomas, P. Value Function Approximation in Reinforcement Learning using the Fourier Basis. In: TWENTY-FIFTH CONFERENCE ON ARTIFICIAL INTELLIGENCE. Proceedings. . . [S.l.: s.n.], 2011. p.380–385.

REFERÊNCIAS 122 Lampton, A.; Niksch, A.; Vakasek, J. Reinforcement Learning of a Morphing Airfoil-Policy and Discrete Learning Analysis. Journal of Aerospace Computing, Information, and

Communication, [S.l.], v.7, n.8, p.241–260, 2010.

Lee, I. S.; Lau, H. Y. Adaptive state space partitioning for reinforcement learning. Engineering Applications of Artificial Intelligence, [S.l.], v.17, n.6, p.577 – 588, 2004.

Mahadevan, S.; Connell, J. Automatic programming of behavior-based robots using reinforcement learning. Artificial Intelligence, [S.l.], v.55, n.2, p.311 – 365, 1992.

Martinetz, T. M. Competitive Hebbian learning rule forms perfectly topology preserving maps. In: ICANN’93: INTERNATIONAL CONFERENCE ON ARTIFICIAL NEURAL

NETWORKS, Amsterdam. Anais. . . Springer, 1993. p.427–434.

Mccallum, R. A. Instance-Based Utile Distinctions for Reinforcement Learning with Hidden State. In: IN PROCEEDINGS OF THE TWELFTH INTERNATIONAL CONFERENCE ON MACHINE LEARNING. Anais. . . Morgan Kaufmann, 1995. p.387–395.

Montazeri, H.; Moradi, S.; Safabakhsh, R. Continuous State/Action Reinforcement Learning: a growing self-organizing map approach. Neurocomputing, Amsterdam, The Netherlands, v.74, n.7, p.1069–1082, Mar. 2011.

Otterlo, M. van; Wiering, M. Reinforcement Learning and Markov Decision Processes. In: Wiering, M.; Otterlo, M. van (Ed.). Reinforcement Learning. [S.l.]: Springer Berlin Heidelberg, 2012. p.3–42. (Adaptation, Learning, and Optimization, v.12).

Puterman, M. L. Markov Decision Processes: discrete stochastic dynamic programming. 1.ed. New York, NY, USA: John Wiley & Sons, Inc., 1994.

Ribeiro, C. Reinforcement Learning Agents. Artificial Intelligence Review, [S.l.], v.17, n.3, p.223–250, 2002.

Riedmiller, M. Neural fitted Q iteration – first experiences with a data efficient neural reinforcement learning method. In: IN 16TH EUROPEAN CONFERENCE ON MACHINE LEARNING. Anais. . . Springer, 2005. p.317–328.

Riedmiller, M.; Braun, H. A Direct Adaptive Method for Faster Backpropagation Learning: the rprop algorithm. In: IEEE INTERNATIONAL CONFERENCE ON NEURAL NETWORKS. Anais. . . [S.l.: s.n.], 1993. p.586–591.

Rumelhart, D. E.; Hinton, G. E.; Williams, R. J. Neurocomputing: foundations of research. In: Anderson, J. A.; Rosenfeld, E. (Ed.). . Cambridge, MA, USA: MIT Press, 1988. p.673–695. Rummery, G. A.; Niranjan, M. On-line Q-learning using connectionist systems. [S.l.]: Cambridge University Engineering Department, 1994. (166).

Russell, S. J.; Norvig, P. Artificial Intelligence: a modern approach. 2.ed. [S.l.]: Pearson Education, 2003.

Saber, A. S.; El-rashidy, M. A. Article: an effective intelligent self-construction multilayer perceptron neural network. International Journal of Computer Applications, [S.l.], v.98, n.11, p.23–28, July 2014. Full text available.

REFERÊNCIAS 123 Schneider, M. Finite Resolution Geometry for Geographic Information Systems. [S.l.]: Springer-Verlag Berlin Heidelberg, 1997.

Shani, G.; Brafman, R. I. Resolving Perceptual Aliasing In The Presence Of Noisy Sensors. In: ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 17 [NEURAL

INFORMATION PROCESSING SYSTEMS, NIPS 2004, DECEMBER 13-18, 2004,

VANCOUVER, BRITISH COLUMBIA, CANADA]. Anais. . . [S.l.: s.n.], 2004. p.1249–1256. Sherstov, A. A.; Stone, P. Function Approximation via Tile Coding: automating parameter choice. In: Zucker, J.-D.; Saitta, L. (Ed.). SARA. [S.l.]: Springer, 2005. p.194–205. (Lecture Notes in Computer Science, v.3607).

Singh, S.; Bertsekas, D. Reinforcement Learning for Dynamic Channel Allocation in Cellular Telephone Systems. In: IN ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS: PROCEEDINGS OF THE 1996 CONFERENCE. Anais. . . MIT Press, 1997. p.974–980.

Singh, S. P.; Jaakkola, T.; Jordan, M. I. Reinforcement Learning with Soft State Aggregation. In: Tesauro, G.; Touretzky, D.; Leen, T. (Ed.). Advances in Neural Information Processing Systems 7. [S.l.]: MIT Press, 1995. p.361–368.

Singh, S. P.; Sutton, R. S. Reinforcement Learning with Replacing Eligibility Traces. Machine Learning, [S.l.], v.22, n.1-3, p.123–158, 1996.

Smith, A. J. Applications of the self-organising map to reinforcement learning. Neural Networks, [S.l.], v.15, n.8–9, p.1107 – 1124, 2002.

Stone, P.; Sutton, R. S.; Kuhlmann, G. Reinforcement Learning for RoboCup-Soccer Keepaway. Adaptive Behavior, [S.l.], v.13, n.3, p.165–188, 2005.

Sutton, R. S. Learning to Predict by the Methods of Temporal Differences. Machine Learning, Hingham, MA, USA, v.3, n.1, p.9–44, Aug. 1988.

Sutton, R. S. Generalization in Reinforcement Learning: successful examples using sparse coarse coding. In: Touretzky, D.; Mozer, M.; Hasselmo, M. (Ed.). Advances in Neural Information Processing Systems 8. [S.l.]: MIT Press, 1996. p.1038–1044.

Sutton, R. S.; Barto, A. G. Introduction to Reinforcement Learning. 1.ed. Cambridge, MA, USA: MIT Press, 1998.

Szepesvári, C. Algorithms for Reinforcement Learning. [S.l.]: Morgan & Claypool, 2010. Tesauro, G. TD-Gammon, a Self-teaching Backgammon Program, Achieves Master-level Play. Neural Comput., Cambridge, MA, USA, v.6, n.2, p.215–219, Mar. 1994.

Vieira, D.; Adeodato, P.; Gonçalves, P. A Temporal Difference GNG-Based Approach for the State Space Quantization in Reinforcement Learning Environments. In: INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI), 25. Anais. . . [S.l.: s.n.], 2013. p.561–568.

Vieira, D.; Adeodato, P.; Goncalves, P. A Temporal Difference GNG-Based Algorithm That Can Learn to Control in Reinforcement Learning Environments. In: INTERNATIONAL

CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA), 12. Anais. . . [S.l.: s.n.], 2013. v.1, p.329–332.

REFERÊNCIAS 124 Vieira, D. C. L.; Adeodato, P. J. L.; Gonçalves, P. M. Improving reinforcement learning

algorithms by the use of data mining techniques for feature and action selection. In:

INTERNATIONAL CONFERENCE ON SYSTEMS MAN AND CYBERNETICS (SMC). Anais. . . [S.l.: s.n.], 2010. p.1863–1870.

Watkins, C. J. C. H. Learning from Delayed Rewards. 1989. Tese (Doutorado em Ciência da Computação) — King’s College, Cambridge, UK.

Weber, R.; Schek, H.-J.; Blott, S. A Quantitative Analysis and Performance Study for Similarity-Search Methods in High-Dimensional Spaces. In: INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASES, 24., San Francisco, CA, USA. Proceedings. . . Morgan Kaufmann Publishers Inc., 1998. p.194–205. (VLDB ’98).

Whitehead, S.; Ballard, D. Learning to Perceive and Act by Trial and Error. Machine Learning, [S.l.], v.7, n.1, p.45–83, 1991.

Whiteson, S.; Taylor, M. E.; Stone, P. Adaptive Tile Coding for Value Function Approximation. [S.l.]: University of Texas at Austin, 2007. (AI-TR-07-339).

Widrow, B.; Gupta, N. K.; Maitra, S. Punish/Reward: learning with a critic in adaptive threshold systems. IEEE Transactions on Systems, Man and Cybernetics, [S.l.], v.3, n.5, p.455–465, Sept 1973.

126 126 126

A

Complexidade dos Algoritmos

Considere o algoritmo da Figura A.1 utilizados pelos algoritmos TD(nλ)-GNG, TD-AVQ e IGNG-Q para encontrar o nó ativo. Seja d o número de dimensões, a função dist executará em

O(d). Como a função busca chama a função dist para cada nó, então a função busca executará

no tempo O(nd), onde n é o número de nós.

Considere o algoritmo da Figura A.2 utilizado pelo algoritmo TC para encontrar os c-tiles ativos pelo estado s. Seja d o número de dimensões e c o número de tilings, uma vez que há dois laços de repetição aninhados nas linhas 2 e 3, o primeiro repetindo por c vezes o segundo que, por sua vez, repete a linha 3 d vezes, a função busca executará no tempo O(cd).

Considere o algoritmo da Figura A.3 utilizado pelo algoritmo DU para encontrar a partição ativa pelo estado s. Seja d o número de dimensões, a função busca possui apenas um laço de repetição na linha 2 que repete d vezes a linha 4, sendo assim, esta função executará no tempo O(d).

Considere o algoritmo da Figura A.4 utilizado pelos algoritmos TD(nλ)-GNG, TD-AVQ, IGNG-Q, TC e DU para atualizar a função valor. Seja r o número total de regiões que repre- sentam o espaço de estados e a o número de ações, uma vez que há dois laços de repetição aninhados nas linhas 2 e 3, o primeiro repetindo por r vezes o segundo que, por sua vez, repete as linhas 4 à 8 a vezes, a função atualização executará no tempo O(rd).

127

1 Função busca(s):

Entrada: estado atual s.

Saída: nó w1mais próximos de s.

2 d₁= ∞;

3 para todo nó nifaça

4 d = dist(n_i, s); 5 se d < d₁então 6 d1= d; 7 w₁= n_i; 8 retorna w1; 9 Função dist(v₁,v₂): Entrada: vetores v1e v2.

Saída: distância euclidiana entre v1 e v2.

10 sum = 0;

11 para todo dimensão d faça

12 sum = sum + (v1(d) − v2(d))2;

13 retorna

√

sum;

Figura A.1: Algoritmo para encontrar o nó mais próximo do sinal de entrada.

1 Função busca(c, o, t, s):

Entrada: c tilings, deslocamentos o entre os tilings, tamanho t dos tiles e estado atual s.

Saída: os a tiles ativos.

2 para todo tiling c faça

3 para todo dimensão d do estado s faça 4 p_d← f loor((s(d) − o(d))/t(d)); 5 ai← c(p);

6 retorna a;

Figura A.2: Algoritmo de busca pelos tiles ativos.

1 Função busca(k, t, s):

Entrada: vetor k de regiões, tamanho t das regiões e estado atual s. Saída: região ativa.

2 para todo dimensão d do estado s faça 3 p_d← f loor(s(d)/t(d));

4 retorna k(p);

128

1 Procedimento atualização(δ, k, b):

Entrada: erro TD δ, decaimento k e o indicativo de ação exploratória b.

2 para todo região r_ifaça 3 para todo ação a faça

4 Q(r_i, a) ← Q(r_i, a) + αδe(r_i, a);

5 se b então

6 e(ri, a) ← 0

7 senão

8 e(r_i, a) ← e(r_i, a)k;

129 129 129

B

Parâmetros Utilizados

Uma das tarefas do projetista é definir quais serão os valores dos parâmetros de um algoritmo. Estes valores devem ser escolhidos cuidadosamente, pois influenciam diretamente no seu desempenho. Como não há formas teóricas para determinar qual o melhor ajuste, deve-se ajustar seus valores experimentalmente, por meio de um projeto experimental (Jain,1991). Para acelerar este processo, optou-se pelo projeto experimental linear, iniciando a busca com valores que são frequentemente encontrados na literatura.

Os parâmetros iniciais utilizados como ponto de partida para cada algoritmo são apre- sentados na Tabela B.1. Sutton (1996) realizou experimentos conduzidos de forma similar

No documento Modelo de rede neural crescente de aprendizagem por reforço (páginas 117-134)