PROGRAMAÇÃO DINÂMICA HEURÍSTICA DUAL E REDES DE FUNÇÕES DE BASE RADIAL PARA SOLUÇÃO DA EQUAÇÃO DE HAMILTON-JACOBI-BELLMAN EM PROBLEMAS DE CONTROLE ÓTIMO

Texto

(1)˜ U NIVERSIDADE F EDERAL DO M ARANH AO ´ G RADUAÇ AO ˜ EM E NGENHARIA DE E LETRICIDADE P ROGRAMA DE P OS M ESTRADO EM E NGENHARIA DE E LETRICIDADE ´ AREA :. ˜ E C ONTROLE AUTOMAÇ AO. Gustavo Araújo de Andrade. Programaça˜ o Dinâmica Heur´ıstica Dual e Redes de Funço˜ es de Base Radial para Soluça˜ o da Equaça˜ o de ´ Hamilton-Jacobi-Bellman em Problemas de Controle Otimo. São Lu´ıs 2014.

(2) Gustavo Araújo de Andrade. Programaça˜ o Dinâmica Heur´ıstica Dual e Redes de Funço˜ es de Base Radial para Soluça˜ o da Equaça˜ o de ´ Hamilton-Jacobi-Bellman em Problemas de Controle Otimo. Dissertaça˜ o apresentada ao de Programa de Pós Graduaça˜ o em Engenharia de Eletricidade da UFMA, como requisito parcial para a obtença˜ o do grau de MESTRE em Engenharia de Eletricidade.. Orientador: João Viana da Fonseca Neto Doutor em Engenharia Elétrica - UFMA. São Lu´ıs 2014.

(3) Andrade, Gustavo Araújo de Programaça˜ o Dinâmica Heur´ıstica Dual e Redes de Funço˜ es de Base Radial para Soluça˜ o da Equaça˜ o de Hamilton-Jacobi-Bellman em Pro´ blemas de Controle Otimo / Gustavo Araújo de Andrade - São Lu´ıs 110f. Impresso por computador (fotocópia) Orientador: João Viana da Fonseca Neto Dissertaça˜ o (Mestrado em Engenharia de Eletricidade) – Universidade Federal do Maranhão, 2014. 1. Controle o´ timo 2. Aprendizagem por reforço 3. Programaça˜ o dinâmica aproximada 4. Programaça˜ o heur´ıstica dual. I.T´ıtulo. CDU 681.5.015.24.

(4)

(5) Dedicado integralmente a` memória de Raimunda Araújo Barros..

(6) Resumo Neste trabalho o principal objetivo e´ apresentar o desenvolvimento de algoritmos de aprendizagem para execuça˜ o online para a soluça˜ o da equaça˜ o algébrica de Hamilton-JacobiBellman. O conceitos abordados se concentram no desenvolvimento da metodologia para sistemas de controle, por meio de técnicas que tem como objetivo o projeto online de controladores adaptativos são projetados para rejeitar ru´ıdos de sensores, variaço˜ es paramétricas e erros de modelagem. Conceitos de programaça˜ o neurodinâmica e aprendizagem por reforço são abordados para desenvolver algoritmos onde a contextualizaça˜ o de determinado ponto de operaça˜ o faz com que o sistema de controle se adapte e, dessa forma, apresente o desempenho de acordo com as especificaço˜ es de projeto. Desenvolve-se métodos para a estimaça˜ o online do cr´ıtico adaptativo concentrando os esforços em técnicas de estimaça˜ o do gradiente da funça˜ o valor do ambiente. ´ Palavras Chaves: Controle Otimo, Aprendizagem por Reforço, Programaça˜ o Dinâmica Aproximada, Programaça˜ o Heur´ıstica Dual, Redes de Funça˜ o de Base Radial..

(7) Abstract In this work the main objective is to present the development of learning algorithms for online application for the solution of algebraic Hamilton-Jacobi-Bellman equation. The concepts covered are focused on developing the methodology for control systems, through techniques that aims to design online adaptive controllers to reject noise sensors, parametric variations and modeling errors. Concepts of neurodynamic programming and reinforcement learning are are discussed to design algorithms where the context of a given operating point causes the control system to adapt and thus present the performance according to specifications design. Are designed methods for online estimation of adaptive critic focusing efforts on techniques for gradient estimating of the environment value function. Keywords: Optimal Control, Reinforcement Learning, Approximate Dynamic Programming,Dual Heuristic Programming, Radial Basis Function Neural Networks..

(8) Agradecimentos Ao meu orientador Professor João Viana pelo apoio e pela experiência compartilhada através dos anos de convivência e para com quem tenho muita gratidão e amizade. Aos meus colegas do LabSECI pelas discussões, pelo apoio e amizade nesta a´ rdua porém prazerosa caminhada. A todos de que contribu´ıram de forma direta ou indiretamente para minha formaça˜ o ao longo de todo este tempo de vida acadêmica. A Coordenaça˜ o de Aperfeiçoamento de Pessoal (CAPES) pelo apoio financeiro. A minha namorada Hellen Rose pelo companheirismo e por ficar ao meu lado nos piores e nos melhores momentos. A minha fam´ılia, meus irmãos Adva Barros e Antonio Andrade, razão para continuar sempre em frente sem deixar que os obstáculos que a vida impõe me façam desistir. A minha mãe Raimunda Barros, aonde meus pensamentos estão sempre concentrados nos bons momentos..

(9) Onde quer que estejas, cave profundamente! Em baixo esta a fonte! Deixe os homens sombrios a gritar: “Em baixo e´ sempre o inferno!”. Friedrich Nietzsche - A Gaia Ciência..

(10) Sumário. Lista de Figuras. 9. Lista de Tabelas. 11. 1. 2. ˜ INTRODUC ¸ AO. 13. 1.1. Introduça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 1.2. Motivaça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 1.3.1. Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 1.3.2. Objetivos Espec´ıficos . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 1.4. Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 1.5. Organizaça˜ o da Dissertaça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. APRENDIZAGEM POR REFORC ¸ O PARA CONTROLE. 21. 2.1. Introduça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 2.2. Aprendizagem por Reforço . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 2.3. ´ Aprendizagem por Reforço para Controle Otimo . . . . . . . . . . . . . . . .. 24. 2.4. O Problema da Programaça˜ o Dinâmica . . . . . . . . . . . . . . . . . . . . . .. 28. 2.4.1. Iteraça˜ o de Pol´ıtica . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. 2.4.2. Iteraça˜ o de Pol´ıtica Gulosa . . . . . . . . . . . . . . . . . . . . . . . .. 30. Esquemas de Cr´ıtico Adaptativo . . . . . . . . . . . . . . . . . . . . . . . . .. 30. 2.5.1. Programaça˜ o Dinâmica Heur´ıstica - Dual (DHP) . . . . . . . . . . . .. 31. 2.5.2. Pol´ıtica de Controle. 33. 2.5. . . . . . . . . . . . . . . . . . . . . . . . . . . ..

(11) 2.6 3. 2.5.3. O Arranjo do Problema de Estimaça˜ o Paramétrica . . . . . . . . . . .. 34. 2.5.4. Formulaça˜ o para Estimaça˜ o Paramétrica . . . . . . . . . . . . . . . . .. 34. 2.5.5. Formulaça˜ o via Gradiente de Vx . . . . . . . . . . . . . . . . . . . . .. 36. Consideraço˜ es Finais do Cap´ıtulo . . . . . . . . . . . . . . . . . . . . . . . .. 38. ALGORITMOS PARA CONTROLE ONLINE 3.1. Introduça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. 3.2. Adaptativo Cr´ıtico: Concepça˜ o do Núcleo . . . . . . . . . . . . . . . . . . . .. 40. 3.3. Estimador de M´ınimos Quadrados Recursivos (RLS) . . . . . . . . . . . . . .. 41. 3.4. Algoritmo RLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 3.5. Redes Funça˜ o de Base Radial . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. Algoritmo para Soluça˜ o RBF-DHP . . . . . . . . . . . . . . . . . . .. 50. 3.6. Arquitetura Online RBF-RLS para DHP . . . . . . . . . . . . . . . . . . . . .. 52. 3.7. Consideraço˜ es Finais do Cap´ıtulo . . . . . . . . . . . . . . . . . . . . . . . .. 56. 3.5.1. 4. 39. EXPERIMENTOS COMPUTACIONAIS. 57. 4.1. Introduça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59. 4.2. Avaliaça˜ o dos Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59. 4.3. Estudo de Caso: Controle Longitudinal de um F-16 . . . . . . . . . . . . . . .. 61. 4.3.1. Inicializaça˜ o da Simulaça˜ o . . . . . . . . . . . . . . . . . . . . . . . .. 62. 4.3.2. Convergência do Parâmetros - Ciclo de Aprendizagem . . . . . . . . .. 63. Estudo de Caso: Controle de Helicóptero 3DOF . . . . . . . . . . . . . . . . .. 67. 4.4.1. O Modelo Dinâmico do Sistema . . . . . . . . . . . . . . . . . . . . .. 69. Linearizaça˜ o do Modelo . . . . . . . . . . . . . . . . . . . .. 70. 4.4.2. Inicializaça˜ o do Sistema . . . . . . . . . . . . . . . . . . . . . . . . .. 71. 4.4.3. Convergência do Parâmetros - Ciclo de Aprendizagem . . . . . . . . .. 72. Estudo de Caso: Sistema de Controle para o Processo de Laminaça˜ o a Frio . . .. 77. 4.4. 4.4.1.A. 4.5. 7.

(12) 4.6 5. 4.5.1. Inicializaça˜ o do Sistema . . . . . . . . . . . . . . . . . . . . . . . . .. 78. 4.5.2. Convergência do Parâmetros - Ciclo de Aprendizagem . . . . . . . . .. 79. Consideraço˜ es Finais do Cap´ıtulo . . . . . . . . . . . . . . . . . . . . . . . .. 85. ˜ ˜ CONCLUSOES E CONTRIBUIC ¸ OES DO TRABALHO. 86. 5.1. Conclusões Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87. 5.2. Principais Contribuiço˜ es . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87. 5.3. Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 87. A PROBLEMA DLQR A.1 Controle Linear Quadrático no Tempo Discreto (DLQR) . . . . . . . . . . . . B PROPRIEDADES DO PRODUTO DE KRONECKER. 94 95 97. B.1 Definiça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 98. B.2 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. B.2.1. Bilinearidade e Associatividade . . . . . . . . . . . . . . . . . . . . .. 99. B.2.2. Não Comutativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. B.2.3. Propriedade do Produto Misto . . . . . . . . . . . . . . . . . . . . . .. 99. B.2.4. Transposiça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. B.3 Equaço˜ es Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 ˆ C CONVERGENCIA PARA O ALGORITMO DHP. 101. ˜ D ASPECTOS DE IMPLEMENTAC ¸ AO. 103.

(13) Lista de Figuras. 2.1. Sistema de Aprendizagem e Interaça˜ o com o Ambiente . . . . . . . . . . . . .. 24. 2.2. Diagrama de um Sistema de Controle, utilizando PD . . . . . . . . . . . . . .. 29. 3.1. Diagrama do Núcleo do DHP, Variáveis Envolvidas na Tomada de Decisão. . .. 41. 3.2. Topologia Geral de uma Rede RBF . . . . . . . . . . . . . . . . . . . . . . . .. 46. 3.3. Exemplo de Funça˜ o Gaussiana Unidimensional com um Centro c e espalhamento σ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 47. 3.4. Arquitetura online da RBF . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 3.5. Arquitetura online do Sistema, Com enfase nas variáveis atualizadas. Constantes fazem parte do projeto, porém não são atualizadas no ciclos de aprendizagem 53. 4.1. Diagrama para o Sistema de Avaliaça˜ o de Altgoritmos. . . . . . . . . . . . . .. 4.2. Diagrama de Corpo Livre do Avião de Caça F-16, Estabilidade Lateral (Pro-. 60. visório). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 61. 4.3. Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P11 e P12 . . . . . . . . . . . .. 63. 4.4. Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P13 e P22 . . . . . . . . . . . .. 64. 4.5. Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P23 e P33 . . . . . . . . . . . .. 64. 4.6. Estimaça˜ o dos Alvos Móveis d1 , d2 e d3 . . . . . . . . . . . . . . . . . . . . .. 65. 4.7. Custo para a iteraça˜ o k da transiça˜ o de estados . . . . . . . . . . . . . . . . . .. 65. 4.8. Comportamento dos Estados (x1 , x2 , x3 ) e Pol´ıtica de Controle (u1 , u2 ) . . . . .. 66. 4.9. Evoluça˜ o dos Autovalores de Malha fechada em KDHP para o Algoritmo RBF e RLS, respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 66. 4.10 Partes Reais do Helicóptero com 3DOF (Quanser) . . . . . . . . . . . . . . . .. 68. 4.11 Diagrama de Corpo Livre do Sistema do Helicóptero 3DOF . . . . . . . . . . .. 69.

(14) 4.12 Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P11 e P22 . . . . . . . . . . . .. 73. 4.13 Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P33 e P44 . . . . . . . . . . . .. 73. 4.14 Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P55 e P66 . . . . . . . . . . . .. 74. 4.15 Custo Instantâneo para o aprendizado . . . . . . . . . . . . . . . . . . . . . .. 74. 4.16 Comportamento dos Estados (x1 , x2 , x3 , x4 , x5 , x6 ). . . . . . . . . . . . . . . . .. 75. 4.17 Evoluça˜ o do Alvo Móvel (d1 , d2 , d3 , d4 ) para Cada Estado. . . . . . . . . . . .. 75. 4.18 Evoluça˜ o do Alvo Móvel para Cada Estado. . . . . . . . . . . . . . . . . . . .. 76. 4.19 Evoluça˜ o dos Autovalores de Malha fechada em KDHP para o Algoritmo RBF e RLS, respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 4.20 Diagrama do Processo de Laminaça˜ o . . . . . . . . . . . . . . . . . . . . . . .. 77. 4.21 Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P11 e P22 . . . . . . . . . . . .. 80. 4.22 Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P33 e P44 . . . . . . . . . . . .. 80. 4.23 Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P55 e P66 . . . . . . . . . . . .. 81. 4.24 Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P77 e P88 . . . . . . . . . . . .. 81. 4.25 Evoluça˜ o da soluça˜ o de HJB para os Parâmetros P99 e P1010 . . . . . . . . . . .. 82. 4.26 Custo Instantâneo para cada k no Ciclo de Aprendizado . . . . . . . . . . . . .. 82. 4.27 Evoluça˜ o do Alvo Móvel para o Aprendizado online Relativo a (d1 , d2 , d3 , d4 ) .. 83. 4.28 Evoluça˜ o do Alvo Móvel para o Aprendizado online Relativo a (d5 , d6 , d7 , d8 ) .. 83. 4.29 Evoluça˜ o do Alvo Móvel para o Aprendizado online (d9 , d10 ) . . . . . . . . . .. 84. 4.30 Evoluça˜ o dos Autovalores de Malha fechada em KDHP para o Algoritmo RBF e RLS, respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 84.

(15) Lista de Tabelas. 2.1. Esquemas de Critico Adaptativo e os Modelos . . . . . . . . . . . . . . . . . .. 4.1. Inicializaça˜ o do Sistema de Controle e das Variáveis necessárias para a Simulaça˜ o,. 31. para o Estudo de Caso I. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 62. 4.2. Valores de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. 4.3. Inicializaça˜ o do Sistema de Controle e das Variáveis necessárias para a Simulaça˜ o, para o Estudo de Caso II. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.4. 72. Inicializaça˜ o do Sistema de Controle e das Variáveis necessárias para a Simulaça˜ o, Estudo de Caso II. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. D.1 Complexidade Computacional para o Estudo de Caso I . . . . . . . . . . . . . 104 D.2 Complexidade Computacional para o Estudo de Caso II. . . . . . . . . . . . . 105. D.3 Complexidade Computacional para o Estudo de Caso III . . . . . . . . . . . . 105.

(16) Lista de Algoritmos. 1. Algoritmo para a soluça˜ o RLS-DLQR-DHP-(Online) . . . . . . . . . . . . . . .. 44. 2. Algoritmo para a soluça˜ o RBF-DLQR-DHP-(Online) . . . . . . . . . . . . . . .. 51. 3. Algoritmo para a soluça˜ o RBF-RLS-DLQR-DHP-(Online) . . . . . . . . . . . .. 55.

(17) 13. 1 ˜ INTRODUC ¸ AO. ´ Conteudo 1.1. Introduça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 1.2. Motivaça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 1.3.1. Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 1.3.2. Objetivos Espec´ıficos . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 1.4. Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 1.5. Organizaça˜ o da Dissertaça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . .. 20.

(18) 1.1. Introduça˜ o A capacidade do ser humano de tomar decisões com base na sua interaça˜ o com o. ambiente e fazer com que decisões futuras sejam tomadas levando em conta a experiência de interaça˜ o homem-ambiente anterior e´ uma das caracter´ısticas que faz com que o ser humano se diferencie de outros animais com o mesmo ou maior tempo de evoluça˜ o. O aprendizado, principal ferramenta evolutiva de muitos sistemas biológicos, se tornou um campo de pesquisa das mais diversas a´ reas tais como psicologia, filosofia, e neurociência em geral e e´ explorado neste trabalho como uma ferramenta importante para desenvolvimento de sistemas inteligentes. O aprendizado e´ determinado por experiências de inserça˜ o no ambiente em que o indiv´ıduo pretende se adaptar como bem explorado em (HAYKIN, 1999, 2012). Este indiv´ıduo sofre com as caracter´ısticas intr´ınsecas do ambiente, e “aprende” a responder as tais caracter´ısticas e por sua vez, em uma próxima oportunidade, o individuo responderá a` quela situaça˜ o usando o aprendizado adquirido e minimizando os eventuais erros de interaça˜ o proveniente do indiv´ıduo com o ambiente. Para os sistemas de controle o aprendizado esta relacionado com os critérios que o controlador usa para se adaptar as condiço˜ es atuais do sistema. Para tal situaça˜ o existem ligeiras diferenças em relaça˜ o ao aprendizado para outras finalidades. Neste caso o tempo de processamento da informaça˜ o mediada tem restriço˜ es em relaça˜ o a` decisão que influenciou esta consequência. O processamento de dados em um tempo razoável e levando em conta uma alta gama de variáveis envolvidas, requer de de sistemas microprocessados uma grande capacidade de cálculos por ciclo de amostragem , o que pode tornar o processamento de tal sistema demasiado custoso e até inviável. Por processamento de dados temos como objetivo o controle de sistemas dinâmicos ou a filtragem de dados de um determinado comportamento. Desta forma e´ necessário encarar não somente os problemas de “computabilidade” envolvido neste processo, como também o comportamento estável do controlador ou filtro a ser projetado (CARNIELLI e EPSTEIN, 2005). Neste trabalho são abordados problemas envolvendo a especificaça˜ o, projeto online de controle o´ timo e conceitos gerais de controladores para sistemas não lineares, de alta ordem, ou com dinâmica de ru´ıdos não modeláveis. A partir dos conceitos de programaça˜ o neuro-. 14.

(19) dinâmica tem se a utilizaça˜ o da ferramenta de inteligência computacional inserida no contexto de controle de sistemas dinâmicos para resolver os problemas citados anteriormente (SUTTON e BARTO, 1998). A inteligência computacional e´ uma metodologia na busca por soluço˜ es de problemas em que a soluça˜ o de maneiras clássicas ou até mesmo com ferramentas matemáticas mais arrojadas pode ser custosa. Para a concepça˜ o de sistemas de tais tipos e´ necessário o conhecimento de algoritmos bio inspirados, ou seja, sistemas que tem como principal inspiraça˜ o o comportamento e a arquitetura da natureza, seja ela comportamental ou biológica. Dessa forma os sistemas baseados em inteligência computacional tem como principal aspecto a busca pela “semelhança” com caracter´ısticas da natureza, da fisiologia humana e ate mesmo da forma de pensar do ser humano assim como o seu comportamento em uma determinada sociedade. O trabalho apresentado a seguir tem como fonte de inspiraça˜ o, como citado inicialmente, a capacidade de aprendizado do ser humano, afim de se usar os conceitos de aprendizagem por reforço para se obter sistemas de controle o´ timo com capacidade de rejeiça˜ o a pertubaço˜ es na planta e distúrbios do ambiente em geral. A ferramenta usada para desenvolver o processo de aprendizado, de forma que o mesmo aconteça através das próprias ocorrências, ou seja, online. Dessa forma teremos um sistema capaz de aproximar uma soluça˜ o de controle o´ timo e aumentar, em um determinado instante, as margens de estabilidade deste sistema. Nas seço˜ es a seguir são mostrados de maneira objetiva os principais tópicos que motivaram o desenvolvimento de uma metodologia para o projeto e avaliaça˜ o de controladores.. 1.2. Motivaça˜ o Este trabalho e´ motivado por problemas de controle o´ timo, aprendizagem por reforço. e as soluço˜ es apresentadas em (BERTSEKAS, 1995a), (BERTSEKAS, 1995b), (BUSONIU et al., 2010), e ainda em relaça˜ o a estabilidade robusta em (IOANNOU e SUN, 1996). Nestes trabalhos temos a concepça˜ o de algoritmos de programaça˜ o dinâmica para a soluça˜ o de problemas de controle o´ timo, o regulador linear quadrático no tempo discreto (DLQR). Algumas questões levantadas em (MITCHELL, 1997) e (OMIDVAR e ELLIOTT, 1997) tem como principal aspecto os problemas causados por tais algoritmos enquanto se eleva a escala do processamento de dados a ser realizados. Aplicado a este trabalho utiliza-se uma breve análise da 15.

(20) caracter´ısticas computacionais dos algoritmos. Logo, neste caso, serão usados algoritmos desenvolvidos para que o sistema possa ter uma viabilidade m´ınima de se operar embarcado, seja ele de alta ordem ou não linear, isto e´ fatores que influenciam na complexidade computacional considerados no desenvolvimento do projeto. Para os sistemas não lineares e´ importante uma estratégia de controle que tenha a capacidade de operar em todas as regiões desse sistema, contudo, se a lei de controle for baseada em um mapeamento não linear, esse requisito pode ser facilmente estabelecido. Tais critérios, podem ser aplicados para sistemas de ordem alta, pois não havendo a possibilidade de reduça˜ o ou aproximaça˜ o do modelo do mesmo e´ necessário trabalhar um um grande número de variáveis acopladas o que torna, voltando a este mesmo ponto, o sistema de dif´ıcil controle pois o sistema em malha fechada terá obviamente ordem superior ao de malha aberta. Desta forma o problema de controle a solucionar para a proposta neste trabalho e´ melhor detalhada nos cap´ıtulos seguintes. Estes são tópicos incentivadores para obtença˜ o de resultados no sentido de apresentar uma metodologia de projeto e implementaça˜ o eficientes para sistemas de controle complexos e no tempo discreto.. 1.3. Objetivos A partir de critérios gerais e espec´ıficos estabelecidos no decorrer da pesquisa fo-. ram determinados um conjunto de objetivos que traduzem o foco principal do trabalho e são organizados desta maneira para que, desde já, os critérios a serem atingidos fiquem claros para uma boa compreensão de quais são as propostas, a metodologia e os resultados para fins de se esclarecer a contribuiça˜ o da pesquisa.. 1.3.1. Objetivo Geral O principal objetivo deste trabalho e´ desenvolver uma metodologia de controle para. projeto e análise de sistemas que tenham sobre o ambiente a caracter´ıstica de se adaptar e aprender para operar em regiões transitórias e com margem de estabilidade com algum grau de robustez. Ainda como objetivo geral e´ necessário destacar que os sistemas aqui citados e testa16.

(21) dos são, da maneira mais realista poss´ıvel, frutos de observaço˜ es experimentais em plataformas computacionais, e que serão investigados parâmetros de projeto e implementaça˜ o para que o sistema de controle tenha aplicabilidade do ponto de vista de engenharia.. 1.3.2. Objetivos Espec´ıficos Os objetivos espec´ıficos destacados, baseando-se nas premissas gerais, são:. • Projetar uma arquitetura de controle utilizando-se programaça˜ o dinâmica para controle o´ timo; • Projeto e implementaça˜ o computacional do sistema de aprendizado online para controle o´ timo; • Desenvolver e implementar algoritmos online de controle o´ timo via Programaça˜ o Heur´ıstica Dual baseados em Redes de Base Radial; • Investigar a estabilidade do sistema na região transitória do ciclo de aprendizagem; • Desenvolver método para avaliaça˜ o de sistemas de controle o´ timo online via aproximaça˜ o da equaça˜ o de HJB.. 1.4. Estado da Arte Um dos grande entraves nas questões que abordam aprendizado de máquina e siste-. mas de inteligência computacional em geral e´ a adoça˜ o de pol´ıticas que habilitam uma máquina a capacidade de poder responder a est´ımulos que não estão previstos, pelo menos de forma direta, em sua programaça˜ o. O aprendizado de máquina tem como paradigma a busca por estratégias que possam combinar o enorme poder de processamento dos dispositivos atuais e a ideia “humana” de quantificar, qualificar, e tomar decisões não somente baseada em dados pontuais como também em caracter´ısticas que tornam tais decisões acertadas e baseadas em uma experiência usualmente atribu´ıdo a seres humanos. Como notamos em (MITCHELL, 1997) e (OMIDVAR e ELLIOTT, 1997) podemos estimular sistemas computacionais com uma larga escala de dados obtidos a partir de interfaces com o ambiente. A composiça˜ o primária do problema e´ justamente a decisão que deve se incorrer a partir de tais dados, ou seja, o processo 17.

(22) que fará com que a máquina interfira no ambiente e possa, de alguma forma, adequado ao seu próprio funcionamento. A partir da década de 1950 surgiram novos formas de tratar problemas de otimizaça˜ o de sistemas dinâmicos. A partir de tais mudanças aplicadas ao desenvolvimento de processadores mais poderosos a fim de aplicar os algor´ıtimos obtidos. Desta maneira a pesquisa se utiliza da teoria de aprendizagem por reforço moderna ou a programaça˜ o dinâmica aproximada,(do inglês, Approximate Dynamic Programming - ADP) e´ aplicada a problemas de controle o´ timo multivariável afim de se obter, de forma conjunta, caracter´ısticas de sistemas de controle o´ timo e de controle adaptativo com resposta robusta a situaço˜ es adversas e erros de modelagem e de mediça˜ o. Pode se observar nos trabalhos de (FAIRBANK et al., 2013),(ARSLAN, 2004) que as correntes de pesquisa em programaça˜ o neurodinâmica se aplicam aos modos de como o critico adaptativo e´ desenvolvido para obter este mesmo n´ıvel de robustez. Um grande esforço para desenvolver tais técnicas vem sendo explorado de (SUTTON e BARTO, 1998),(BARTO, 2004) (WIERING e VAN OTTERLO, 2011) através de técnica que se utilizam da programaça˜ o dinâmica para resolver problemas relacionados com o aprendizado de máquina, especificado em (HAYKIN, 1999, 2012) como programaça˜ o neurodinâmica que tem como fundamento o aprendizado de máquina pela aprendizagem por reforço do inglês (Reinforcement Learning, RL). As técnicas espec´ıficas de envolvem o aprendizado não supervisionado, bem explorado em (BARTO, 2004) (SUTTON e BARTO, 1998) e ainda as arquiteturas neurais aplicadas a programaça˜ o dinâmica observadas em (BERTSEKAS, 1995b). Desta maneira iniciou-se a aplicaça˜ o de poderosos algor´ıtimos de otimizaça˜ o para a maior variedade de sistemas dinâmicos, obviamente, neste contexto histórico, tais sistemas estavam aliados a ferramentas que envolviam equipamentos bélicos e aeroespaciais (BOUDAREL et al., 1971, BRYSON e HO, 1975). Logo tem-se como uma máxima que rege a programaça˜ o dinâmica, desenvolvida por Ernest Richard Bellman em seus trabalhos (BELLMAN, 1957), que resulta, explicitado de forma bem coerente em (HAYKIN, 1999) como princ´ıpio da otimalidade de Bellman. As equaço˜ es de otimalidade são base fundamental para a programaça˜ o dinâmica e ainda podendo o sistema linearizado em pontos de operaço˜ es aonde e´ poss´ıvel se determinar funço˜ es quadráticas para o estados e aça˜ o de controle, amplamente discutidas em(BERTSEKAS, 1995a) e (BERTSEKAS, 1995b) com o estabelecimento de critérios práticos para a determinaça˜ o de cr´ıticos. 18.

(23) adaptativos para sistemas de aprendizagem e ainda o estabelecimento de critérios quadráticos apresentados em (BRADTKE, 1993) e (LEWIS e SYRMOS, 1995). No contexto de controle o´ timo e´ importante observar que dentre as caracter´ısticas que são observadas como relevantes para a pesquisa esta a contribuiça˜ o em relaça˜ o ao teste e implementaça˜ o de arquiteturas de cr´ıticos adaptativos ja desenvolvidos, vide (LENDARIS et al., 2001),(LENDARIS et al., 2002),(AL-TAMIMI et al., 2007a) e na maioria dos cap´ıtulos de (LEWIS e LIU, 2013). Trabalhos como (AL-TAMIMI et al., 2007b),(DING et al., 2011),(LIN et al., 2006) e (LIN e YANG, 2007) exploram tais esquemas de cr´ıtico adaptativo e mostram as vantagens e desvantagens que cada esquema tem, seja em relaça˜ o a ser livre de modelo ou seja em relaça˜ o a complexidade computacional para um número maior de parâmetros a se estimar. Ate mesmo os estudo que necessitam de investigaça˜ o apurada em relaça˜ o a estabilidade numérica dos sistemas, tema investigado recentemente em (REGO et al., 2013) e (da FONSECA NETO and REGO, 2014). Em relaça˜ o a estabilidade e convergência do algoritmos apresentados trabalhos como (KHAN et al., 2012), (LIU et al., 2011) e (LIU et al., 2012) consideram a possibilidade de aproximar a funça˜ o de custo de maneira a se obter desempenho robusto e considerar caracter´ısticas de ru´ıdos ainda visualizando a o´ tica do projeto de uma aproximador para tal custo, seja ele da fam´ılia LS ou neuro adaptativo. Neste aspecto (JIANG e JIANG, 2012, 2013, 2014) trabalha com o caso de aproximaça˜ o robusta do cr´ıtico adaptativo considerando um aproximador de funça˜ o neural. As caracter´ısticas de RNA’s de funço˜ es de base radial (do inglês,Radial Basis Function - RBF), arquitetura explorada neste trabalho auxiliam na soluça˜ o onde problemas em que o contexto e´ aproximaça˜ o de funço˜ es através de um espaço não linear de alta dimensão, desta forma são exploradas estas caracter´ısticas em (LENDARIS et al., 2002),(YU et al., 2011) e (KARAYIANNIS, 1998). Por fim o trabalho se baseia na literatura clássica de controle digital discreto e de controle adaptativo (ASTROM e WITTEMMAK, 1989) ,(ASTROM e WITTEMMAK, 1997) para estudos de implementaça˜ o e concepça˜ o de sistemas robóticos industriais com a principal finalidade da obtença˜ o de estabilidade numérica e de aplicabilidade a sistemas computacionais dedicados, usando assim conceitos de projetos de sistemas embarcados seja em projeto de microcontroladores e/ou linguagens de descriça˜ o de hardware, do inglês (Hardware Description Language, HDL) (DANIEL D. GAJSKI, 2009),(BERGER, 2001), observando ainda os avanços. 19.

(24) e as vantagens relacionadas em (HU et al., 2008),(WAN et al., 2007),(WANG et al., 2009),(KIS et al., 2008) e (WU et al., 2009).. 1.5. Organizaça˜ o da Dissertaça˜ o A dissertaça˜ o foi organizada de forma a manter, ao mesmo tempo, a coerência da. obtença˜ o de resultados, e a boa prática da apresentaça˜ o dos conceitos para que o leitor possa compreender como a teoria atual esta engajada nesta pesquisa e qual e´ a contribuiça˜ o da mesma. No Cap´ıtulo 1 tem-se os conceitos gerais envolvidos, a motivaça˜ o do trabalho, assim como a especificaça˜ o dos objetivos da pesquisa e a apresentaça˜ o dos mesmos. Já na Seça˜ o 1.4 tem-se o estado da arte do tema proposto na dissertaça˜ o, organizados em tópicos pertinentes e esta pesquisa relacionando com as publicaço˜ es e o contexto delas dentro da contribuiça˜ o aqui proposta. No Cap´ıtulo 2 tem-se a apresentaça˜ o da teoria de programaça˜ o neurodinâmica para que possa ser apresentada posteriormente, a teoria em discussão na pesquisa de programaça˜ o dinâmica aproximada. No Cap´ıtulo 3 tem-se a apresentaça˜ o da teoria de redes neurais, ferramenta de aprendizado para o nosso sistema de controle, necessariamente as RNA’s serão introduzidas como o sub bloco cr´ıtico, o sistema responsável pela lei de adaptaça˜ o do sistema de controle. No mesmo Cap´ıtulo 3 tem-se a apresentaça˜ o da arquitetura online desenvolvida para este sistema de aprendizado. Por fim, no Cap´ıtulo 4, apresenta-se desenvolvimento dos algoritmos desenvolvidos, os testes para projetos de sistemas embarcados assim como os resultados computacionais obtidos. No Cap´ıtulo 5 tem-se as consideraço˜ es finais, tratados sobre a contribuiça˜ o do trabalho e uma perspectiva de trabalhos futuros para a pesquisa.. 20.

(25) 21. 2 APRENDIZAGEM POR REFORC ¸O PARA CONTROLE. ´ Conteudo 2.1. Introduça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 2.2. Aprendizagem por Reforço . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 2.3. ´ Aprendizagem por Reforço para Controle Otimo . . . . . . . . . . . . . .. 24. 2.4. O Problema da Programaça˜ o Dinâmica . . . . . . . . . . . . . . . . . . .. 28. 2.4.1. Iteraça˜ o de Pol´ıtica . . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. 2.4.2. Iteraça˜ o de Pol´ıtica Gulosa . . . . . . . . . . . . . . . . . . . . . . .. 30. Esquemas de Cr´ıtico Adaptativo . . . . . . . . . . . . . . . . . . . . . . .. 30. 2.5.1. Programaça˜ o Dinâmica Heur´ıstica - Dual (DHP) . . . . . . . . . . .. 31. 2.5.2. Pol´ıtica de Controle. . . . . . . . . . . . . . . . . . . . . . . . . . .. 33. 2.5.3. O Arranjo do Problema de Estimaça˜ o Paramétrica . . . . . . . . . .. 34. 2.5.

(26) 2.6. 2.5.4. Formulaça˜ o para Estimaça˜ o Paramétrica . . . . . . . . . . . . . . . .. 34. 2.5.5. Formulaça˜ o via Gradiente de Vx . . . . . . . . . . . . . . . . . . . .. 36. Consideraço˜ es Finais do Cap´ıtulo . . . . . . . . . . . . . . . . . . . . . .. 38. 22.

(27) 2.1. Introduça˜ o A programaça˜ o neurodinâmica estabelece princ´ıpios para aplicaça˜ o e soluça˜ o de. problemas para aprendizagem de sistemas, seja no que se refere a tomada de decisão ou seja em relaça˜ o a problemas de controle e rastreamento. Aprendizagem por reforço remete a questões de como um agente autônomo tem a capacidade de sentir e atuar de maneira o´ tima em seu ambiente de interaça˜ o. Considerando o sistema de controle como um agente, ou ator, tem-se a o´ tica da necessidade da tomada de decisão para determinadas situaço˜ es. A necessidade de aprender esta no contexto de que e´ necessário ao controlador operar em regiões de otimalidade global, desta forma o sistema pode se adaptar de maneira o´ tima as condiço˜ es de operaça˜ o que são apresentadas ao mesmo. Sistemas de controle o´ timo são aplicados aos problemas de controle que necessitam de especificaço˜ es de desempenho bem propostas e de uma soluça˜ o de pol´ıtica de controle que minimiza os custos que o sistema de controle tem para operar a planta em regiões lineares e estáveis. As vezes essas garantias de desempenho e estabilidade levam determinados controladores projetados por meios clássicos a ter que operar em regiões aonde o sistema não pode se estabilizar ou ate mesmo não pode garantir que o mesmo rejeite pertubaço˜ es e falhas no modelo do processo. O processo de projeto de sistemas multivariáveis envolve uma série de análises sobre as condiço˜ es que este sistema apresenta quando operando em malha fechada. Por tal motivo e´ interessante, a partir destas análises, propor uma metodologia de projeto de controladores discretos que realizam sua pol´ıtica de controle considerando as incertezas e pertubaço˜ es presentes em qualquer sistema sujeito a intempéries da natureza. Um dos focos que se pretende e´ garantir, em um processo de aprendizagem online que este controlador se adapta, em um intervalo de tempo desejado, as condiço˜ es que o ambiente apresenta neste instante.. 2.2. Aprendizagem por Reforço A aprendizagem por reforço e´ um processo de aprendizagem baseado no compor-. tamento do sistema, ou seja, a programaça˜ o neurodinâmica aplica os conceitos de tomada de decisão baseada exclusivamente na interaça˜ o do sistema de aprendizagem e o ambiente no qual. 23.

(28) o mesmo esta inserido, levando em conta ainda a presença de incertezas na operaça˜ o do sistema de aprendizagem em relaça˜ o ao ambiente. Neste processo de aprendizagem temos dois importantes blocos que integram o sistema, como mostrado na Figura 2.1.. Figura 2.1: Sistema de Aprendizagem e Interaça˜ o com o Ambiente. Como observado na Figura 2.1 um sistema de controle baseado em aprendizagem por reforço necessita basicamente da parte sensora do sistema para a tomada de decisões. Há um contexto controverso no que se diz respeito de que AR pode está intrinsecamente ligada a programaça˜ o dinâmica. Em (BERTSEKAS, 1995a) AR e´ uma classe de algoritmos que necessariamente aplica-se a tomada de decisão em virtude de mediço˜ es a aproximaço˜ es de custo. Já em (POWELL, 2008, 2011) o contexto de AR e´ exclu´ıdo totalmente da programaça˜ o dinâmica, observando que esta u´ ltima necessita inevitavelmente de conhecimento prévio sobre o comportamento do ambiente.. 2.3. ´ Aprendizagem por Reforço para Controle Otimo A programaça˜ o dinâmica, diferente de técnicas clássicas de controle o´ timo, de-. forma que a estimativa dos custos do sistema venha a se tornar o cr´ıtico adaptativo do sistema. Um dos pontos fortes do projeto do cr´ıtico adaptativo em programaça˜ o dinâmica e´ que tais formulaço˜ es podem se aplicar a problemas envolvendo sistemas estocásticos, pois a parametrizaça˜ o da funça˜ o de aprendizagem pode ser utilizada na forma de uma funça˜ o de distribuiça˜ o de probabilidade. Tem-se o ambiente do sistema, ou seja, a dinâmica representada por f e as pol´ıticas de controle representadas por g e, mesmo assumindo que este e´ um Processo 24.

(29) de Decisão Markoviano a dinâmica do sistema será então. xk+1 = f (xk , yk ). (2.1). yk = g(xk ). A principal funça˜ o da programaça˜ o dinâmica e´ explorar a Funça˜ o Valor do sistema, denotada por V (x) na qual os modelos do sistema de recompensas para os estados x usando-se a pol´ıtica de controle g. Considerando f e g funço˜ es lineares de parâmetros A,B e E tem-se xk+1 = Axk + Buk + Ewk. (2.2). yk = xk , sendo x ∈ ℜn os estados do sistema de ordem n no tempo discreto, u ∈ ℜnxm o vetor de m entradas, w ∈ ℜnxm o vetor de pertubaço˜ es de entrada e y ∈ ℜ p o vetor das p sa´ıdas do ambiente. Portanto o trabalho a se desenvolver e´ aproximar a funça˜ o de custo V (xk ) o´ tima de maneira a se obter a tomada de decisão otimizada. Desta forma a Programaça˜ o Dinâmica Aproximada surge como uma maneira de restringir o esforço computacional para a tomada de decisão do PDM de forma Desta maneira tem-se as equaço˜ es do comportamento linear do sistema. Observa-se portanto, que o sistema e´ modelado de maneira a se obter a resposta a entradas ruidosas de forma que o mesmo apresente comportamento com margem de estabilidade robusta. Tem -se portanto a funça˜ o valor. ∞ V ∗ (xk ) = min max ∑ xiT Qxi + uTi Rui − γ2 wTi wi , u. w. (2.3). i=k. sendo Q > 0 a matriz de ponderaça˜ o de estados, R > 0 a matriz de ponderaça˜ o de controle e γ um valor de projeto relacionado a atenuaça˜ o de pertubaço˜ es. Agora as equaça˜ o da funça˜ o valor e´ tratada de forma a se observar o princ´ıpio da otimalidade de Bellman, logo V ∗ (xk ) = min max {r(xk , uk , wk ) +V ∗ (xk+1 )} = max min {r(xk , uk , wk ) +V ∗ (xk+1 )} u. w. w. u. (2.4). sendo r(xk , uk , wk ) = xkT Qxk +uTk Ruk −γ2 wTk wk a funça˜ o de recompensa quadrática do ambiente, dado por. V ∗ (xk ) = xkT Pk xk ,. (2.5) 25.

(30) sendo P > 0 a soluça˜ o da Equaça˜ o Algébrica de Riccati Generalizada,(EARG) expandida da seguinte forma para o jogo de soma zero em (AL-TAMIMI et al., 2007a) e dada por: T. Pk+1 = A Pk B + Q − . I + BT Pk BR−1. . ET Pk A. h. AT P. BT Pk E E T Pk E − γ2 I. AT P. kB −1 . . . kE. i. BT Pk A ET Pk A. × . (2.6). ,. (2.7). e para o ponto de sela u´ nico obtém-se as seguintes restriço˜ es I−γ2 ET PE > 0 I+BT PB > 0.. (2.8). Aplicando o princ´ıpio da otimalidade de Bellman tem-se. V ∗ (xk ) = min max {r(xk , uk , wk ) +V ∗ (xk+1 )} u w T. T Px = min max xk Qxk + uTk Ruk − γ2 wTk wk + xk+1 k+1 . u. (2.9). w. Substituindo na dinâmica f e g, na Eq.(2.2) e aplicando a um sistema linear dado na Eq. (2.2) tem-se xkT Pk+1 xk = min max {r(xk , uk , wk ) +V ∗ (xk+1 )}. u w n o (2.10) . T T 2 T = min max xk Qxk + uk Ruk − γ wk wk + (Axk + Buk + Ewk )T Pk (Axk + Buk + Ewk ) . u. w. Com o objetivo de maximizar a funça˜ o de custo apresentada, em relaça˜ o a wk tem-se a seguinte condiça˜ o de primeira ordem ∂Vk =0 ∂wk. (2.11). ∂Vk = −2γ2 wk + 2ET Pk (Axk + Buk + Ewk ) . ∂wk. (2.12). tem-se como resultado a Eq.(2.11),. Desta forma a pertubaça˜ o pode ser escrita da seguinte forma −1 wk = γ2 I − ET Pk E ET Pk Axk + ET Pk Buk .. (2.13). Agora, da mesma maneira determina-se a pol´ıtica de controle ∂Vk = 0, ∂uk. (2.14) 26.

(31) e da mesma maneira escreve-se. −1 uk = − I + BT Pk B BT Pk Axk + BT Pk Ewk ,. (2.15). logo substituindo a Eq. (2.13) na Eq. (2.15) tem-se a pol´ıtica o´ tima de controle. −1 −1 × u∗k = I + BT Pk B − BT Pk E ET Pk E − γ2 I −1 BT Pk E ET Pk E − γ2 I ET Pk A + BT Pk A xk , portanto a pol´ıtica o´ tima para a realimentaça˜ o de estados será −1 −1 Ku = I + BT Pk B − BT Pk E ET Pk E − γ2 I ET Pk B × −1 BT Pk E ET Pk E − γ2 I ET Pk A − BT Pk A .. (2.16). (2.17). De forma similar a realimentaça˜ o da pertubaça˜ o de entrada o´ tima tem-se. −1 −1 w∗k = ET Pk E − γ2 I − ET Pk B − I + BT Pk B BT Pk E × −1 BT Pk E I + BT Pk B BT Pk A − ET Pk A xk ,. (2.18). dessa forma o ganho o´ timo sobre a pertubaça˜ o w será. −1 −1 T 2 T T T Kw = E Pk E − γ I − E Pk B − I + B Pk B B Pk E × −1 T T T T B Pk E I + B Pk B B Pk A − E Pk A .. (2.19). Observa-se que os ganhos encontrados são a soluça˜ o o´ tima para a realimentaça˜ o de estados em relaça˜ o a pol´ıtica de controle e a realimentaça˜ o da pertubaça˜ o na planta. Tais ganhos são obtidos de maneira a relaciona o ganho o´ timo com as mediço˜ es realizadas nos sensores. A seguir e´ mostrada a relaça˜ o entre a custo instantâneo e o custo de relaciono na funça˜ o valor, ou seja, se a funça˜ o valor V ∗ (xk ) = xkT Pxk satisfaz a equaça˜ o de HJB. Portanto, escrevendo a Eq. (2.10) da seguinte maneira. xkT Pk+1 xk = ∗ 2 ∗T ∗ ∗ ∗ xkT Qxk + u∗T k Ruk − γ wk wk + Axk + Buk + Ewk. T. Pk Axk + Bu∗k + Ew∗k .. (2.20). 27.

(32) Desta maneira a pode se isolar a soluça˜ o de P, obtendo-se portanto. T 2 T Pk+1 = Q + KT u Ku − γ Kw Kw + (A + BKu + EKw ) Pk (A + BKu + EKw ) T. T = Q + Ku Ku − γ2 KT w Kw + Am f Pk Am f ,. (2.21). sendo Am f = (A + BK + EKw ) a matriz de malha fechada com a politica de controle o´ tima e realimentaça˜ o de estados. A equaça˜ o (2.21) representa a equaça˜ o de Riccati em malha fechada. Os problemas tratados ate são uma abordagem inicial para o desenvolvimento de sistemas de controle baseados em programaça˜ o neurodinâmica. Desta maneira o projeto do sistema de controle consiste em determinar V ∗ (xk ) afim de se obter a soluça˜ o da equaça˜ o de algébrica de Riccati, ou seja, “aprender” no decorrer do funcionamento, as politicas de controle e realimentaça˜ o de pertubaço˜ es o´ timas para tais regiões de operaça˜ o.. 2.4. O Problema da Programaça˜ o Dinâmica A programaça˜ o Dinâmica (PD) consiste na soluça˜ o do problema, basicamente de. otimizaça˜ o, sendo a soluça˜ o o resultado da busca no espaço de soluço˜ es poss´ıvel para cada estágio da decisão posterior. E´ interessante notar que tais estágios são desenvolvidos por meio da aplicaça˜ o de um Processo de Decisão Markoviano (PDM), modelado pelas decisões e os custos que acarretas as mesmas para a próxima transiça˜ o de estados. Assim uma das grandes vantagens do uso de programaça˜ o dinâmica e´ que esta pode ser aplicada a problemas envolvendo formulaço˜ es estocásticas, pois a funça˜ o de aprendizagem Q(x, u, w, ω) e´ usada como uma funça˜ o de probabilidade p(u, w|x, ω). Aplicando as formulaço˜ es mostradas nas Seça˜ o anterior tem-se a proposta de um sistema de controle adaptativo, baseado em programaça˜ o dinâmica, como exemplificado na Figura 2.2.. 28.

(33) Figura 2.2: Diagrama de um Sistema de Controle, utilizando PD. Como bem observado, o sistema necessita de grande poder computacional para que os custos das transiço˜ es estejam dispon´ıveis para o agente, que e´ o subsistema responsável por implementar as pol´ıticas de controle o´ timo. Para a soluça˜ o de problema, que encontra uma pol´ıtica o´ tima de controle, há basicamente duas maneiras, por iteraça˜ o de pol´ıtica e por iteraça˜ o gulosa, detalhadas a seguir.. 2.4.1. Iteraça˜ o de Pol´ıtica Neste método e´ providenciado um laço que alternada entre a avaliaça˜ o e a melhoria. de pol´ıtica. Primeiramente, o algoritmo avalia a pol´ıtica de controle g e obtém a funça˜ o de valor correspondente que venha a satisfazer: Vg (x) = r(x, g(x, w)) +Vg ( f (x, g(x, w))).. (2.22). A funça˜ o mostrada na Eq.(2.22) e´ estimada de maneira a atualizar a pol´ıtica, através da melhoria da politica:. . g(x) = arg min max r(x, g(x, w)) +Vg ( f (x, g(x, w))) . u. w. (2.23). Estas duas medidas são aplicadas ao sistema ate haver a convergência. Em (BRADTKE, 1993) e´ mostrado que a convergência e´ verdadeira se as Eqs. (2.21) e (2.22) forem satisfeitas.. 29.

(34) Iteraça˜ o de Pol´ıtica Gulosa. 2.4.2. Para o caso da Iteraça˜ o de Pol´ıtica Gulosa, tanto a avaliaça˜ o da pol´ıtica quanto a melhoria são executadas ao mesmo tempo. Desta maneira e´ necessário que exista uma avaliaça˜ o de pol´ıtica inicial e um melhoria inicial, pois há interdependência nas Equaço˜ es (2.22) e (2.23). Desta forma a pol´ıtica atual e´ considerada, para cada ciclo, a ser sempre a pol´ıtica o´ tima. A busca e´ feita utilizando-se técnicas iterativas e em cada iteraça˜ o a parametrizaça˜ o da funça˜ o valor e´ atualizada afim de se satisfazer a equaça˜ o da otimalidade de Bellman o que resultara na atualizaça˜ o de Vˆ ∗ tendendo ao valor o´ timo de V ∗ , logo Vˆ ∗ (x) = r(x, gˆ∗ (x, w)) + Vˆ ∗ ( f (x, gˆ∗ (x, w))) . gˆ∗ (x) = arg min max r(x, g(x, w)) + Vˆ ∗ ( f (x, g(x, w))) . u. (2.24). w. O método de iteraça˜ o gulosa de pol´ıtica, a funça˜ o valor estimada e´ tratada como o´ tima em relaça˜ o a nova pol´ıtica estimada de de controle. Desta maneiras as funço˜ es da Eq. (2.24) são avaliadas na ordem inversa pois o foco do algoritmo e´ a pol´ıtica parametrizada gˆ∗ (x, w, ω) em relaça˜ o a parametrizaça˜ o ω e seus resultados induzirão a versão atualizada de Vˆ ∗ .. 2.5. Esquemas de Cr´ıtico Adaptativo O problema de controle o´ timo e´ resolvido de maneira a garantir a estabilidade do. sistema em malha fechada, e as técnicas de soluciona-lo envolve a soluça˜ o da realimentaça˜ o o´ tima em relaça˜ o ao parâmetros de uma dado modelo. Os esquemas de cr´ıtico adaptativo, diferem desta soluça˜ o usual pois tais técnicas utilizam da modelagem do funça˜ o valor do sistemas e a recompensa posterior do sistema. Das muitas variaço˜ es de esquemas de algoritmos de adaptativo critico presentes na literatura podemos destacar os métodos mais presentes neste campo, que são baseados em fatoraça˜ o-TD e métodos baseados em em aprendizagem-Q (WATKINS, 1989). Tais métodos são usados em grande parte nas pesquisas que envolvem Aprendizagem por Reforço em sistemas de controle de processo e sistemas de robótica autônoma. Este métodos foram classificados por (WERBOS, 1992). A classificaça˜ o se baseia principalmente na escolha da funça˜ o de custo e na forma de parametriza-la. A Tabela 2.1 mostra os esquemas classificados e os respectivos modelos de cr´ıticos estimado para se obter a soluça˜ o de Equaça˜ o Algébrica de Riccati Discreta no tempo (DARE). 30.

(35) Tabela 2.1: Esquemas de Critico Adaptativo e os Modelos. Esquemas de Cr´ıtico Adaptativo HDP. Programaça˜ o Dinâmica Heur´ıstica. DHP. Programaça˜ o Heuristica Dual. ADHDP. Programaça˜ o Heuristica - Dependente de Aça˜ o. ADDHP. Programaça˜ o Heuristica Dual - Dependente de Aça˜ o. Modelo V (x) ∂V ∂x Q(x, u) ∂Q ∂x e ∂Q ∂u. Os esquemas apresentados na Tabela 2.1 mostram as variáveis necessárias para a parametrizaça˜ o do alvo móvel do sistema para se obter a estimativa de V (x). O Alvo móvel e´ necessariamente o custo instantâneo calculado para k, e desta forma, tem-se a soluça˜ o P. A forma como e´ apresentada esse alvo, assim como a base no espaço de estados para obte-lo difere os esquemas e na capacidade e velocidade de convergência de cada. A seguir serão introduzidos os dois esquemas que foram utilizados nesse trabalho, um envolvendo a aproximaça˜ o de V no tempo e o outro a aproximaça˜ o da derivada de V em relaça˜ o aos estados dos sistema. Neste trabalho o esquema de projeto de critico adaptativo utilizado e´ a programaça˜ o heur´ıstica dual. (LIN e YANG, 2007)(LENDARIS et al., 2001)(LEWIS e LIU, 2013)(POWELL, 2011). 2.5.1. Programaça˜ o Dinâmica Heur´ıstica - Dual (DHP) A programaça˜ o dinâmica dual (DHP) e´ um método que tem como objetivo a estimaça˜ o. do gradiente do custo no estágio k para avaliar o desempenho das aço˜ es de controle em termos de satisfaça˜ o das especificaço˜ es de projeto, isto e´ , estimar o gradiente de funça˜ o de valor para o cr´ıtico que e´ dada por. Vx =. ∂V (x) . ∂x. (2.25). sendo Vx a funça˜ o valor apresentada V (x) = r(x, g(x)) +V ( f (x), g(x)).. (2.26). Derivando a Eq.(2.26) em relaça˜ o a x, obtém-se a equaça˜ o que viabiliza a determinaça˜ o da aproximaça˜ o da soluça˜ o equaça˜ o HJB. Esta equaça˜ o e´ dada por 31.

(36) ∂V ∂x. ∂r ∂r ∂g ∂V = + + ∂x ∂g ∂x ∂ f. . ∂ f ∂ f ∂g + . ∂x ∂g ∂x. (2.27). Para fins de realizaça˜ o da avaliaça˜ o das aço˜ es, o problema de estimaça˜ o da soluça˜ o HJB utiliza as derivadas parciais da funça˜ o de valor como amostras que de acordo como o lado direito da Eq.(2.27) são dadas por. rx = rg = gx = Vf = fx = fg =. ∂r , ∂x ∂r , ∂g ∂g , ∂x ∂V , ∂f ∂f , ∂x ∂f . ∂g. (2.28) (2.29) (2.30) (2.31) (2.32) (2.33). Na formulaça˜ o do problema e´ utilizada a notaça˜ o representada pelas Eqs.(2.28-2.33). Consequentemente, o lado direito da Eq.(2.27) representa o alvo do algoritmo do gradiente que e´ aproximado por uma modelo parametrizado pela seguinte equaça˜ o. ∂r ∂r ∂g ∂V d(rx , rg , fx , fg , f , w) = + + ∂x ∂g ∂x ∂ f. . ∂ f ∂ f ∂g + , ∂x ∂g ∂x. (2.34). sendo w o vetor de parâmetros que minimiza o erro esperado no problema de alvo móvel dado por. d(rx , rg , fx , fg , f , w) = n

(37)

(38) 2 o 0

(39) arg min E Vx (x, w ) − d(rx , rg , fx , fg , f , w)

(40) . u. O vetor da estimaça˜ o. ∂V ∂x. (2.35). e´ determinado por iteraça˜ o de pol´ıtica ou iteraça˜ o gulosa.. As parametrizaço˜ es do vetor gradiente da funça˜ o de custo em relaça˜ o ao ator e ao critico são formulados para determinaça˜ o on-line dos ganhos do sistemas de controle DLQR. 32.

(41) A formulaça˜ o segue o padrão das definiço˜ es do processo markoviano de decisão (MDP) que são estados, politica de controle, ambiente ou sistema dinâmico e funça˜ o de utilidade. As parametrizaço˜ es DLQR são formadas por modelos lineares e invariantes no tempo do sistema dinâmico, uma lei de controle que e´ uma combinaça˜ o linear dos ganhos e dos estados, a funça˜ o de utilidade que e´ definida pelo projetista e funça˜ o de desempenho representa o custo processo para um dado horizonte de tempo. As parametrizaço˜ es DLQR são dadas pelas Eq.(2.2) e (aplicando a um sistema linear) na Eq. (2.3) com os detalhes mostrados no Apêndice A.. r(xk , uk ) = xkT Qxk + uTk Ruk uk (xk ) = Kxk ,. (2.36) (2.37). sendo r(x, u)ne u(x) o custo instantâneo e a pol´ıtica de controle, respectivamente.. 2.5.2. Pol´ıtica de Controle O problema consiste na determinaça˜ o dos parâmetros P da funça˜ o de valor que. traduz-se no rastreamento do alvo móvel. A lei de controle deve minimizar a funça˜ o de custo. Deste forma, a lei de controle e´ obtida pela determinaça˜ o do ponto extremo funça˜ o de custo que e´ dada por. ∂V (x) = 0. ∂u. (2.38). A lei de controle o´ timo u∗ e´ obtida por meio da determinaça˜ o do ponto extremo da funça˜ o de valor em relaça˜ o a u. Logo, a equaça˜ o que permite a determinaça˜ o do ponto extremo e´ dada por. ∂r ∂V ∂ f + = 0. ∂g ∂ f ∂g. (2.39). As derivadas parciais da Eq.(2.39) foram mostradas para a soluça˜ o geral do problema DHP, nas Eqs. (2.17) e (2.19), aplicando-se desta forma a lei de controle para o regulador linear quadrático uk = Kk x. 33.

(42) 2.5.3. O Arranjo do Problema de Estimaça˜ o Paramétrica As parametrizaço˜ es da aproximaça˜ o para o DLQR pelo método dos m´ınimos qua-. drados e´ dada por. 2xT P = dalvo ,. (2.40). sendo d p as amostras dos estimador em funça˜ o de P, conforme apresentado na Eq.(2.34). Consequentemente, a soluça˜ o da Equaça˜ o HJB e´ dada por. P = (xxT )−1 x dalvo (rx , rg , fx , fg , f , P),. (2.41). sendo as observaço˜ es d p (rx , rg , fx , fg , f , P) dadas por. T dalvo (rx , rg , fx , fg , f , P) = 2xT P + uT RK + xk+1 P(A + BK).. (2.42). Desta forma a partir da Eq. (2.42) e´ obtida a melhoria de pol´ıtica e a etapa do aprendizado aonde o ambiente sofre as consequências da tomada de decisão. Os atributos destas deduço˜ es serão melhores explorados no próximo capitulo a partir da obtença˜ o de um núcleo de estimaça˜ o online de parâmetros do problema nas equaço˜ es (2.25) e (2.40).. 2.5.4. Formulaça˜ o para Estimaça˜ o Paramétrica O problema DHP e´ formulado como estimaça˜ o paramétrica online do gradiente da. funça˜ o de custo em k. A estimaça˜ o da soluça˜ o da Equaça˜ o HJB por meio do método dos m´ınimo quadrados e´ apresentada em duas etapas. Na primeira etapa, substitui-se a parametrizaça˜ o gradiente. ∂V (x) ∂x. no lado direito da Eq.(2.25) e lado esquerdo da Eq.(2.25), a seguir multiplica-se. os lados esquerdo e direito pelo vetor de estado. Consequentemente, tem-se n problemas de m´ınimos de quadrados que são representados por. T. x P=. h. Vx1 Vx2 . . . Vxn. i. .. (2.43) 34.

(43) sendo P o vetor de parâmetros desconhecidos que representam a soluça˜ o da equaça˜ o HJB. No segundo passo, a Eq.(2.43) e´ multiplicada pelo vetor de estados que e´ dado por. xxT P =. i 1 h x Vx1 Vx2 . . . Vxn . 2. (2.44). Substituindo os vetores de estado em termos de n componentes, obtém-se n sistemas de ordem n com n(n + 1)/2 incógnitas que e´ dado por.        . x1 x2 .. . xn. . . . p11 p12 . . . p1n.   h  i   p p . . . p2n  x x . . . x  21 22 n  .  1 2 . .. . . . ...   ..   pn1 pn2 · · · pnn. .       =      . x1 x2 .. . xn.   h i   V V ... V x1 x2 xn .(2.45)   . A forma do novo sistema e´ dada por.        . x11 x12 . . . x1n x21 x22 .. .. . . xn1 xn2. .   . . . x2n    .  . . . ..    · · · xnn. p11 p12 . . . p1n p21 p22 .. .. . . pn1 pn2. . . xV xV   1 x1 1 x2   . . . p2n   x2Vx1 x2Vx2   . = . .. . . . ..   .. .   · · · pnn xnVx1 xnVx2. . . . x1Vxn . . . x2Vxn .. .. . . · · · xnVxn.      . (2.46)   . Desta maneira, tem-se n sistemas lineares, dados por.        . x11 x12 . . . x1n x21 x22 .. .. . . xn1 xn2. .   . . . x2n    ..   ... .   · · · xnn. p1 j. . . xV   1 xj   p2 j   x2Vx j   ..  =  .. .   .   pn j xnVx j.     ,   . (2.47). e os n-sistemas lineares são representados por. . xT1n p1. xT1n p2. xT1n pn. ...   T  x2n p1 xT2n p2 . . . xT2n pn   .. .. .. .. .  . . .  xTnn p1 xTnn p2 · · · xTnn pn. . . xV xV   1 x1 1 x2     x2Vx1 x2Vx2 =   .. ..   . .   xnVx1 xnVx2. . . . x1Vxn . . . x2Vxn .. .. . . · · · xnVxn.     ,   . (2.48). 35.

(44) sendo xin =. h. xi1 xi2 . . . xin. iT. , com i = 1, . . . n and p j com j = 1, . . . n são as respectivas. colunas de P. Os n-sistemas possuem n2 variáveis desconhecidas e estas não estão presentes simultaneamente em todos os n sistemas lineares, mas estão distribu´ıdas nos n−1 sistemas subsequentes. Desta a forma, a ordem do sistema de equaço˜ es lineares pode ser reduzida. Os vetores desconhecidos e de observaça˜ o dos n − 1 sistemas são dados por. p2 = .. .. h. pn =. h. dx2 = .. .. h. dxn =. h. p12 p22 · · · pn2. p1n p2n · · · pnn. iT. iT (2.49). 2.5.5. x1Vx2 x2Vx2 · · · xnVx2. x1Vxn x2Vxn · · · xnVxn. iT. iT. .. Formulaça˜ o via Gradiente de Vx Das propriedades do produto de kronecker:. vec(XAY ) = (Y T ⊗ X)vec(A). (2.50). e´ importante ressaltar que maiores informaço˜ es sobre o produto de kronecker estão dispon´ıveis no Apêndice B. Portanto tem-se o gradiente da funça˜ o de custo. V (x) = xT Px = (xT ⊗ xT )vec(P),. (2.51). contudo a Eq. (2.51) pode ser escrita da seguinte forma. . ∂V (x) ∂x. T. = vec(2xT PP) = 2(I ⊗ xT )vec(P),. (2.52) 36.

(45) sendo ainda xT =. h. x1 x2 . . . xn. i. (2.53). e a matriz.     P=   . p11 p12 . . . p1n p21 p22 . . . p2n .. .. . . . . .. . . pn1 pn2 . . . pnn.     ,   . (2.54). portanto, tem-se a seguinte estrutura. x¯ · vec(P) = dalvo .. (2.55). Expandindo a Eq.(2.55) para o exemplo ilustrado de um sistema de terceira ordem tem-se   p11      p21       p31         p12  1 0 0         vec(2xT PI) = 2  0 1 0  ⊗ [ x1 x2 x3 ]   p22  , (2.56)        p32  0 0 1      p13       p23    p33 e aplicando desta forma o tensor de kronecker . . 2x 2x2 2x3 0 0 0 0 0  1  vec(2xT PI) =  0 0 0 2x1 2x2 2x3 0 0  0 0 0 0 0 0 2x1 2x2.          0   0    2x3        . p11. .   p21    p31    p12    p22  ,   p32    p13    p23   p33. (2.57). 37.

(46) logo, desenvolvendo-se e´ poss´ıvel obter  2x p + 2x2 p21 + 2x3 p31  1 11  vec(2xT PI) =  2x1 p12 + 2x2 p22 + 2x3 p32  2x1 p13 + 2x2 p23 + 2x3 p33.    . . (2.58). Agora o sistema de equaço˜ es e´ reduzido, satisfazendo-se a condiça˜ o de que P = PT , logo.  . 2x x x 0 0  1 2 3  vec(2xT PI) =  0 x1 0 2x2 x3  0 0 x1 0 x2. 2.6.     0   0    2x3    . p11. .   2p12    2p13  .  p22    2p23   p33. (2.59). Consideraço˜ es Finais do Cap´ıtulo Neste cap´ıtulo apresentou-se os conceitos a respeito da aplicaça˜ o de controle o´ timo. e aprendizagem por reforço. A conceitualizaça˜ o dos paradigmas apresentados aqui e´ de importância vital para compreensão da contribuiça˜ o do trabalho. Desta maneira foram observado conceitos gerais de aprendizagem por reforço, suas formulaço˜ es e os esquemas utilizados para a soluça˜ o do problema de programaça˜ o dinâmica aproximada. Os esquemas apresentados aqui serão melhor explorados no próximos cap´ıtulo onde os métodos de soluça˜ o da parametrizaça˜ o dos mesmo são apresentados por formulaço˜ es utilizando redes neurais artificiais e m´ınimos quadrados recursivo.. 38.

(47) 39. 3 ALGORITMOS PARA CONTROLE ONLINE. ´ Conteudo 3.1. Introduça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. 3.2. ´ Adaptativo Cr´ıtico: Concepça˜ o do Nucleo . . . . . . . . . . . . . . . . . .. 40. 3.3. Estimador de M´ınimos Quadrados Recursivos (RLS) . . . . . . . . . . .. 41. 3.4. Algoritmo RLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 3.5. Redes Funça˜ o de Base Radial . . . . . . . . . . . . . . . . . . . . . . . . .. 45. Algoritmo para Soluça˜ o RBF-DHP . . . . . . . . . . . . . . . . . .. 50. 3.6. Arquitetura Online RBF-RLS para DHP . . . . . . . . . . . . . . . . . .. 52. 3.7. Consideraço˜ es Finais do Cap´ıtulo . . . . . . . . . . . . . . . . . . . . . .. 56. 3.5.1.

(48) 3.1. Introduça˜ o Neste cap´ıtulo serão abordados os conceitos desenvolvidos para que o esquema de. cr´ıtico adaptativo apresentado no Cap´ıtulo 2 seja implementado em algor´ıtimos de controle aonde o sistema opera em aprendizagem por reforço, ou seja o algor´ıtimo e´ adaptativo com uma lei de adaptaça˜ o baseada em mediço˜ es online e tomada de decisões que levam em conta os estado futuros do sistema. O objetivo principal e´ apresentar o núcleo do sistema de controle baseado na soluça˜ o aproximada para o cr´ıtico adaptativo. O núcleo consiste do estimador paramétrico que determina a melhoria da pol´ıtica e controle quando o sistema esta no estado transitório ou perturbado. No cap´ıtulo anterior pode-se ver que o sistema foi estruturado para que se implementasse o núcleo de controle constitu´ıdo pelo cr´ıtico adaptativo. Neste aspecto são explorados sistemas para aproximaça˜ o da funça˜ o de custo tais como M´ınimos Quadrados Recursivos (RLS) e aproximadores de funço˜ es de dimensão não linear, neste caso as Redes Neurais de Funça˜ o de Base Radial. Um algor´ıtimo baseado nestes dois métodos foi desenvolvido e será mostrado a seguir assim como os resultados e seu desempenho e´ observado no cap´ıtulo posterior.. 3.2. ´ Adaptativo Cr´ıtico: Concepça˜ o do Nucleo O conceito que se explora aqui e´ de que a arquitetura de controle já foi definida. para um sistema linear ou linearizado em faixas estreitas de operaça˜ o e desta forma e´ desenvolvida uma metodologia de controle baseado em Regulaça˜ o Linear Quadrática no tempo Discreto (DLQR). Desta forma a metodologia de controle e´ definida como linear e deixa algumas particularidades a se explorar no projeto que tornam o sistema em malha fechada com boas respostas a erros de modelagem como mudanças de parâmetros e a ru´ıdos intr´ınsecos dos sistemas de controle. De maneira geral o desenvolvimento deste núcleo consistem no projeto de um sistema de tomada de decisão que seja capaz de fornecer uma soluça˜ o o´ tima para um determinado sistema em um intervalo de tempo suficiente para que o sistema de controle não fique sub amostrado e se torne instável.Todos os conceitos estão portanto ligados a forma que os esquemas serão aplicados. Neste caso para se implementar o DLQR foi feito o arranjo a partir do esquema de critico adaptativo baseado em Programaça˜ o Heur´ıstica Dual (DHP) como já citado, um método que torna a convergência mais rápida sem necessariamente adicionar instabilidade ao algoritmo. 40.

(49) O diagrama mostrado na Figura 3.1 ilustra as variáveis que os algoritmos desenvolvidos manipulam afim de se obter uma pol´ıtica de controle o´ tima.. Figura 3.1: Diagrama do Núcleo do DHP, Variáveis Envolvidas na Tomada de Decisão. A Figura 3.1 mostra ainda nos detalhes do núcleo do cr´ıtico adaptativo as variáveis necessárias para a implementaça˜ o do esquema DHP, observando, como mostrado no Cap´ıtulo 2 que o sistema interage com o ambiente e estabelece critérios para a tomada de decisão, desta forma assim operando como um algoritmo de aprendizagem por reforço.. 3.3. Estimador de M´ınimos Quadrados Recursivos (RLS) O método dos m´ınimos quadrados tem sido utilizado desde sua formulaça˜ o em 1692. por Gauss para a soluça˜ o dos mais diversos problemas de engenharia e ciência. Apresenta-se aqui as principais equaço˜ es do método RLS e suas variantes para resolver on-line para equaça˜ o HJB. Detalhes a respeito da deduça˜ o da equaço˜ es podem ser obtidos com mais detalhes em (ASTROM e WITTEMMAK, 1997). Inicialmente, considera-se que o problema da aproximaça˜ o da equaça˜ o HJB para HDP dual pode ser formulado na forma de uma modulo Box-Jenkis (modelo de regressão) dada por. i dalvo = ϕTi θi ,. (3.1). 41.