Aprendizagem por Reforço e Programação Dinâmica Aproximada para Controle Ótimo: Uma Abordagem para o Projeto Online do Regulador Linear Quadrático Discreto com Programação Dinâmica Heurística Dependente de Estado e Ação.

Texto

(1)Universidade Federal do Maranhão Centro de Ciências Exatas e Tecnologia Programa de Pós-Graduação em Engenharia de Eletricidade. Aprendizagem por Reforço e Programação Dinâmica Aproximada para Controle Ótimo:. Uma Abordagem para o Projeto Online do Regulador Linear Quadrático Discreto com Programação Dinâmica Heurística Dependente de Estado e Ação Patrícia Helena Moraes Rêgo. São Luís 2014.

(2) Universidade Federal do Maranhão Centro de Ciências Exatas e Tecnologia Programa de Pós-Graduação em Engenharia de Eletricidade. Aprendizagem por Reforço e Programação Dinâmica Aproximada para Controle Ótimo:. Uma Abordagem para o Projeto Online do Regulador Linear Quadrático Discreto com Programação Dinâmica Heurística Dependente de Estado e Ação Patrícia Helena Moraes Rêgo. Tese apresentada ao Programa de Pós-Graduação em Engenharia de Eletricidade da UFMA como parte dos requisitos necessários para a obtenção do título de Doutora em Engenharia de Eletricidade na área de Automação e Controle.. São Luís 2014.

(3) Rêgo, Patrícia Helena Moraes Aprendizagem por reforço e programação dinâmica aproximada para controle ótimo: uma abordagem para o projeto online do regulador linear... / Patrícia Helena Moraes Rêgo. - São Luís, 2014. 291f. Impresso por computador (fotocópia). Orientador: João Viana da Fonseca Neto. Tese (Doutorado) - Universidade Federal do Maranhão, Programa de Pós-Graduação em Engenharia de Eletricidade, 2014. 1. Programação dinâmica. 2. Aprendizagem por reforço. 3. Controle multivariável.. I.Título. CDU 621.3: 004.

(4)

(5) "A ciência vive de sucessivas soluções dadas a porquês cada vez mais sutis, cada vez mais próximos à essência dos fenômenos".. Pasteur.

(6) À minha mãe (in. memoriam ),. Enilde Rodrigues Moraes Rêgo, pela sua. incansável dedicação dispensada a mim, e pelo amor, compreensão e carinho que sempre estiveram presentes nas nossas relações, e neste sentido, venho enfatizar que os seus ensinamentos são parâmetros que utilizo na condução de meus objetivos e o quanto é satisfatório render homenagens a quem está sempre viva em nossa memória..

(7) Agradecimentos A Deus minha fonte de inspiração, conhecimento e sabedoria. À minha mãe (in memoriam ) que me proporcionou os valores que deram base para o meu futuro, e aos meus familiares. Ao Prof. Dr. João Viana da Fonseca Neto pelo grande empenho como orientador, desde o projeto de dissertação do mestrado, fato que enfatizo a sua participação com grande relevância no que tange a discussão da pesquisa cientíca como mola propulsora para geração do conhecimento, agradeço também, pelo incentivo que ele me despertou para esta difícil linha de pesquisa na área de Automação e Controle. À Universidade Estadual do Maranhão (UEMA) por ter oportunizado a minha participação e inclusão ao PPGEE e aos meus colegas do Departamento de Matemática e Informática, pelo incentivo, e nalmente aos professores que compõem a banca examinadora, e meus amigos de laboratórios (LCP e LABSECI) que contribuíram para realização deste trabalho cujo m é a promoção do bem comum. Enm, a todos que colaboraram para que este propósito se concretizasse, fazendo sugestões, trocando idéias e apoiando-nos..

(8) Resumo Apresenta-se nesta tese uma proposta de uma abordagem unicada de teorias de programação dinâmica, aprendizagem por reforço e aproximação de função que tem por objetivo o desenvolvimento de métodos e algoritmos para projeto online de sistemas de controle ótimo. Esta abordagem é apresentada no contexto de programação dinâmica aproximada que permite aproximar a solução de realimentação ótima de modo a reduzir a complexidade computacional associada com métodos convencionais de programação dinâmica para controle ótimo de sistemas multivariáveis. Especicamente, no quadro de programação dinâmica heurística e programação dinâmica heurística dependente de ação, esta proposta é orientada para o desenvolvimento de soluções aproximadas online, numericamente estáveis, da equação de Hamilton -Jacobi -Bellman do tipo Riccati associada ao problema do regulador linear quadrático discreto que tem por base uma formulação que combina estimativas da função valor por meio de uma estrutura RLS (do inglês Recursive Least-Squares ), diferenças temporais e melhorias de política. O desenvolvimento das metodologias propostas, neste trabalho, tem seu foco principal voltado para a fatoração U DU T que é inserida neste quadro para melhorar o processo de estimação RLS de políticas de decisão ótimas do regulador linear quadrático discreto, contornando-se problemas de convergência e estabilidade numérica relacionados com o mal condicionamento da matriz de covariância da abordagem RLS.. Palavras-Chave:. Programação Dinâmica, Aprendizagem por Reforço, Programação Dinâmica Heurística, Controle Multivariável, Controle Ótimo, Regulador Linear Quadrático Discreto, Mínimos Quadrados Recursivos..

(9) Abstract In this thesis a proposal of an unied approach of dynamic programming, reinforcement learning and function approximation theories aiming at the development of methods and algorithms for design of optimal control systems is presented. This approach is presented in the approximate dynamic programming context that allows approximating the optimal feedback solution as to reduce the computational complexity associated to the conventional dynamic programming methods for optimal control of multivariable systems. Specically, in the state and action dependent heuristic dynamic programming framework, this proposal is oriented for the development of online approximated solutions, numerically stable, of the Riccati-type Hamilton-Jacobi-Bellman equation associated to the discrete linear quadratic regulator problem which is based on a formulation that combines value function estimates by means of a RLS (Recursive Least-Squares) structure, temporal dierences and policy improvements. The development of the proposed methodologies, in this work, is focused mainly on the U DU T factorization that is inserted in this framework to improve the RLS estimation process of optimal decision policies of the discrete linear quadratic regulator, by circumventing convergence and numerical stability problems related to the covariance matrix ill-conditioning of the RLS approach.. Keyword:. Dynamic Programming, Reinforcement Learning, Heuristic Dynamic Programming, Multivariable Control, Optimal Control, Discrete Linear Quadratic Regulator, Recursive Least-Squares..

(10) Lista de Tabelas 5.1. Complexidade - Etapa de Avaliação de Política . . . . . . . . . . .. 6.1. Parâmetros. θ1 , θ5 , θ8. e. θ10. - Estatísticas - Processo de estimação. RLSµ -HDP-DLQR otimístico, para um ciclo de 1150 iterações. 6.2. Parâmetros. θ2 , θ3. e. θ4. Parâmetros. θ6 , θ7. e. θ9. 6.5. Parâmetros. e. θ10. . . . . .. ções.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Parâmetros. T. θ2 , θ3. e. θ4. θ6 , θ7. e. θ9. Parâmetros. 133. - Estatísticas - Processo de estimação RLSµ .. 133. - Estatísticas - Processo de estimação RLSµ -. otimístico, para um ciclo de 1150 iterações.. θ1 , θ5 , θ8. 130. otimístico, para um ciclo de 1150 itera-. -HDP-DLQR otimístico, para um ciclo de 1150 iterações.. Parâmetros. 129. - Estatísticas - Processo de estimação. U DU T -HDP-DLQR. U DU T -HDP-DLQR 6.7. . . . . .. RLSµ -. U DU 6.6. θ1 , θ5 , θ8. 129. - Estatísticas - Processo de estimação RLSµ -. HDP-DLQR otimístico, para um ciclo de 1150 iterações. 6.4. . .. - Estatísticas - Processo de estimação RLSµ -. HDP-DLQR otimístico, para um ciclo de 1150 iterações. 6.3. 108. e. θ10. .. 134. - Estatísticas: Média e Desvio Padrão -. Processo de estimação RLSµ -HDP-DLQR otimístico, para um ciclo de 100000 iterações. . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8. Parâmetros. θ2 , θ3. e. θ4. - Estatísticas:. 141. Média e Desvio Padrão -. Processo de estimação RLSµ -HDP-DLQR otimístico, para um ciclo de 100000 iterações. . . . . . . . . . . . . . . . . . . . . . . . . . . 6.9. Parâmetros. θ6 , θ7. e. θ9. - Estatísticas:. 142. Média e Desvio Padrão -. Processo de estimação RLSµ -HDP-DLQR otimístico, para um ciclo de 100000 iterações. . . . . . . . . . . . . . . . . . . . . . . . . . .. i. 142.

(11) 6.10 Parâmetros. θ1 , θ5 , θ8. e. θ10. - Estatísticas: Média e Desvio Padrão -. Processo de estimação RLSµ -. U DU T -HDP-DLQR. otimístico, para. um ciclo de 100000 iterações. . . . . . . . . . . . . . . . . . . . . . 6.11 Parâmetros. θ2 , θ3. e. θ4. - Estatísticas:. Processo de estimação RLSµ -. Média e Desvio Padrão -. U DU T -HDP-DLQR. otimístico, para. um ciclo de 100000 iterações. . . . . . . . . . . . . . . . . . . . . . 6.12 Parâmetros. θ6 , θ7. e. θ9. - Estatísticas:. Processo de estimação RLSµ -. 142. 143. Média e Desvio Padrão -. U DU T -HDP-DLQR. otimístico, para. um ciclo de 100000 iterações. . . . . . . . . . . . . . . . . . . . . .. 143. 6.13 Ocorrências associadas com a perda da positividade da matriz de covariância. Γk. para um ciclo de 1200 iterações - Processo de esti-. mação RLSµ -HDP-DLQR, com fator de esquecimento. µ = 0.9.. . .. 146. 6.14 Ocorrências associadas com a perda da positividade da matriz de covariância. Γk. para um ciclo de 15072 iterações - Processo de esti-. mação RLSµ -HDP-DLQR, com fator de esquecimento. µ = 0.97.. .. 149. 6.15 Ocorrências associadas com a perda da positividade da matriz de covariância. Γk. para um ciclo de 3000 iterações - Processo de esti-. mação RLSµ -HDP-DLQR, com fator de esquecimento. µ = 0.95.. .. 156. 6.16 Ocorrências associadas com a perda da positividade da matriz de covariância. Γk. para um ciclo de 3000 iterações - Processo de esti-. mação RLSµ -HDP-DLQR, com fator de esquecimento. µ = 0.96.. .. 157. 6.17 Ocorrências associadas com a perda da positividade da matriz de covariância. Γk. para um ciclo de 20000 iterações - Processo de esti-. mação RLSµ -HDP-DLQR, com fator de esquecimento. µ = 0.94.. .. 162. 6.18 Ocorrências associadas com a perda da positividade da matriz de covariância. Γk. para um ciclo de 3500 iterações - Processo de esti-. mação RLSµ -HDP-DLQR, com fator de esquecimento. µ = 0.93.. .. 165. 6.19 Perturbação paramétrica. p1. . . . . . . . . . . . . . . . . . . . . .. 173. 6.20 Perturbação paramétrica. p2. . . . . . . . . . . . . . . . . . . . . .. 174. ℜnθ. E.1. Operações básicas com vetores em. E.2. Operações básicas com matrizes em. ii. . . . . . . . . . . . . . . .. ℜnθ ×nθ. . . . . . . . . . . . . .. 235 235.

(12) Lista de Figuras 1.1. Estrutura de Aprendizado por Reforço com Ator/Crítico. . . . . .. 2.1. Comparativo Aprendizagem por Reforço e Aprendizagem Supervisionada.. 2.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 25. Estrutura de Aprendizado por Reforço com Ator/Crítico (Dissertação de Leandro Rocha Lopes - PPGEE - UFMA). . . . . . . . .. 6.1. 3. Diagrama de Blocos do Fluxo de Avaliação do Projeto. Online. 42. de. Controle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 123. 6.2. Diagrama Esquemático de um Circuito Elétrico de Ordem 4. . . .. 125. 6.3. Evolução do processo iterativo para os parâmetros pii para um ciclo de 1150 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . . 6.4. Evolução do processo iterativo para os parâmetros. p12 , p13. para um ciclo de 1150 iterações, com fator de esquecimento. 0.92 6.5. - Algoritmo RLSµ -HDP-DLQR Otimístico.. p23 , p24. para um ciclo de 1150 iterações, com fator de esquecimento. 6.6. - Algoritmo RLSµ -HDP-DLQR Otimístico.. Número de condição da matriz de covariância. p14. µ =. . . . . . . . . . .. Evolução do processo iterativo para os parâmetros. 0.92. e. e. 127. p34. µ =. . . . . . . . . . .. Γ(k). 127. 128. e parâmetro de. positividade durante o processo de estimação RLSµ -HDP-DLQR otimístico com fator de esquecimento. µ = 0.92,. para um ciclo de. 1150 iterações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.7. Comportamento de convergência dos parâmetros de 1150 iterações, com fator de esquecimento. pii. para um ciclo. µ = 0.92. - Algoritmo. RLSµ -U DU T -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. iii. 130. 131.

(13) 6.8. Comportamento de convergência dos parâmetros. p12 , p13. um ciclo de 1150 iterações, com fator de esquecimento Algoritmo RLSµ 6.9. U DU T -HDP-DLQR. Γ(k). e. p34. G(k). para. µ = 0.92. 132. da matriz de cova-. U DU T -HDP-DLQR. µ = 0.92,. otimístico com fator de es-. para um ciclo de 1150 iterações. . . . . . . .. 6.11 Comportamento de convergência dos parâmetros de 5000 iterações, com fator de esquecimento. pii. µ = 0.92. 6.12 Comportamento de convergência dos parâmetros. - Algoritmo. p12 , p13. um ciclo de 5000 iterações, com fator de esquecimento. e. p14. µ = 0.92. p23 , p24. um ciclo de 5000 iterações, com fator de esquecimento. e. p34. -. de 5000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. pii. µ = 0.92. -. - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. p12 , p13. um ciclo de 5000 iterações, com fator de esquecimento Algoritmo RLSµ -. U DU T -HDP-DLQR. U DU T -HDP-DLQR. p14. e. p34. -. Γ(k). 138. para. µ = 0.92. -. Otimístico. . . . . . . . . . .. 6.17 Número de condição da matriz de covariância. 138. para. µ = 0.92. p23 , p24. um ciclo de 5000 iterações, com fator de esquecimento Algoritmo RLSµ -. e. Otimístico. . . . . . . . . . .. 6.16 Comportamento de convergência dos parâmetros. 136. para um ciclo. µ = 0.92. 6.15 Comportamento de convergência dos parâmetros. 136. para. Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . 6.14 Comportamento de convergência dos parâmetros. 135. para. Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . 6.13 Comportamento de convergência dos parâmetros. 134. para um ciclo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . .. RLSµ -. 132. e parâmetro de positividade durante o processo de. estimação RLSµ quecimento. -. Otimístico. . . . . . . . . . .. 6.10 Número de condição do fator Cholesky riância. para. µ = 0.92. p23 , p24. um ciclo de 1150 iterações, com fator de esquecimento. U DU T -HDP-DLQR. p14. Otimístico. . . . . . . . . . .. Comportamento de convergência dos parâmetros. Algoritmo RLSµ -. e. 139. e parâmetro de. positividade durante o processo de estimação RLSµ -HDP-DLQR otimístico com fator de esquecimento. µ = 0.92,. para um ciclo de. 5000 iterações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. iv. 140.

(14) 6.18 Número de condição do fator Cholesky riância. Γ(k). da matriz de cova-. e parâmetro de positividade durante o processo de. estimação RLSµ quecimento. G(k). U DU T -HDP-DLQR. µ = 0.92,. otimístico com fator de es-. para um ciclo de 5000 iterações. . . . . . . .. 6.19 Evolução do processo iterativo para os parâmetros. p11 , p44 , p14 e p24. para um ciclo de 1400 iterações, com fator de esquecimento - Algoritmo RLSµ -HDP-DLQR Otimístico.. µ = 0.9. . . . . . . . . . . . . .. Γ(k). 6.20 Número de condição da matriz de covariância. 140. 144. e parâmetro de. positividade para um ciclo de 1400 iterações, com fator de esquecimento. µ = 0.9. - Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . .. 6.21 Evolução do processo iterativo para os parâmetros. p24. p11 , p44 , p14. 145. e. para um ciclo de 17500 iterações, com fator de esquecimento. µ = 0.97. - Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . . . . .. 6.22 Número de condição da matriz de covariância. Γ(k). 147. e parâmetro. de positividade para um ciclo de 17500 iterações, com fator de esquecimento. µ = 0.97. - Algoritmo RLSµ -HDP-DLQR Otimístico.. 6.23 Evolução do processo iterativo para os parâmetros. p11 , p44 , p14 e p24. para um ciclo de 5000 iterações, com fator de esquecimento - Algoritmo RLSµ -. U DU T -HDP-DLQR. riância. Γ(k). U DU. G(k). da matriz de cova-. -HDP-DLQR Otimístico.. µ = 0.9. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . .. 6.25 Evolução do processo iterativo para os parâmetros. p24. p11 , p44 , p14. 151. e. para um ciclo de 10000 iterações, com fator de esquecimento. µ = 0.97. - Algoritmo RLSµ -. U DU T -HDP-DLQR. 6.26 Número de condição do fator Cholesky ância. Γ(k). mento. G(k). Otimístico. . . . .. 151. da matriz de covari-. para um ciclo de 10000 iterações, com fator de esqueci-. µ = 0.97. - Algoritmo RLSµ -. U DU T -HDP-DLQR. 6.27 Evolução do processo iterativo para os parâmetros. p24. 150. e parâmetro de positividade para um ciclo de 5000. iterações, com fator de esquecimento. T. µ = 0.9. Otimístico. . . . . . . . . .. 6.24 Número de condição do fator Cholesky. 148. Otimístico.. p11 , p44 , p14. 152. e. para um ciclo de 5000 iterações, com fator de esquecimento. µ = 0.95. - Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . . . . .. v. 153.

(15) 6.28 Evolução do processo iterativo para os parâmetros. p24. p11 , p44 , p14. e. para um ciclo de 5000 iterações, com fator de esquecimento. µ = 0.96. - Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . . . . .. 6.29 Número de condição da matriz de covariância. Γ(k). 153. e parâmetro de. positividade para um ciclo de 3000 iterações, com fator de esquecimento. µ = 0.95. - Algoritmo RLSµ -HDP-DLQR Otimístico.. 6.30 Número de condição da matriz de covariância. Γ(k). . . . .. 154. e parâmetro de. positividade para um ciclo de 5000 iterações, com fator de esquecimento. µ = 0.95. - Algoritmo RLSµ -HDP-DLQR Otimístico.. 6.31 Número de condição da matriz de covariância. Γ(k). . . . .. 155. e parâmetro de. positividade para um ciclo de 5000 iterações, com fator de esquecimento. µ = 0.96. - Algoritmo RLSµ -HDP-DLQR Otimístico.. Lk εk. 6.32 Norma do fator de esquecimento. de esquecimento. para um ciclo de 10000 iterações, com fator. para um ciclo de 10000 iterações, com fator. µ = 0.96 - Algoritmo RLSµ -HDP-DLQR Otimístico.159. 6.34 Evolução do processo iterativo para os parâmetros. p24. 157. µ = 0.95 - Algoritmo RLSµ -HDP-DLQR Otimístico.159 Lk εk. 6.33 Norma do fator. . . . .. p11 , p44 , p14. e. para um ciclo de 30000 iterações, com fator de esquecimento. µ = 0.94. - Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . . . . .. 6.35 Número de condição da matriz de covariância. Γ(k). 160. e parâmetro. de positividade para um ciclo de 30000 iterações, com fator de esquecimento. µ = 0.94 Lk εk. 6.36 Norma do fator de esquecimento. - Algoritmo RLSµ -HDP-DLQR Otimístico.. para um ciclo de 30000 iterações, com fator. µ = 0.94 - Algoritmo RLSµ -HDP-DLQR Otimístico.163. 6.37 Evolução do processo iterativo para os parâmetros. p24. 161. p11 , p44 , p14. e. para um ciclo de 5000 iterações, com fator de esquecimento. µ = 0.93. - Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . . . . .. 6.38 Número de condição da matriz de covariância. Γ(k). 164. e parâmetro de. positividade para um ciclo de 5000 iterações, com fator de esquecimento. µ = 0.93. 6.39 Norma do fator esquecimento. - Algoritmo RLSµ -HDP-DLQR Otimístico.. Lk εk. . . . .. 164. para um ciclo de 6000 iterações, com fator de. µ = 0.93. - Algoritmo RLSµ -HDP-DLQR Otimístico.. vi. 165.

(16) Lk εk. 6.40 Norma do fator de esquecimento 6.41 Norma do fator esquecimento. para um ciclo de 17500 iterações, com fator. µ = 0.97 - Algoritmo RLSµ -HDP-DLQR Otimístico.166. Lk εk. para um ciclo de 2000 iterações, com fator de. µ = 0.9. - Algoritmo RLSµ -HDP-DLQR Otimístico. .. 6.42 Evolução do processo iterativo para os parâmetros. p24. - Algoritmo RLSµ -. U DU T -HDP-DLQR. 6.43 Número de condição do fator Cholesky riância. Γ(k). U DU. T. G(k). Otimístico. . . . .. da matriz de cova-. -HDP-DLQR Otimístico.. µ = 0.95. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . .. 6.44 Evolução do processo iterativo para os parâmetros. p11 , p44 , p14. 168. e. para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.96. - Algoritmo RLS-µ -. U DU T -HDP-DLQR. 6.45 Número de condição do fator Cholesky riância. Γ(k). G(k). Otimístico.. . . .. 168. da matriz de cova-. e parâmetro de positividade para um ciclo de 8000. iterações, com fator de esquecimento. U DU T -HDP-DLQR. Otimístico.. µ = 0.96. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . .. 6.46 Evolução do processo iterativo para os parâmetros. p11 , p44 , p14. 169. e. para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.94. - Algoritmo RLSµ -. U DU T -HDP-DLQR. 6.47 Número de condição do fator Cholesky riância. Γ(k). G(k). Otimístico. . . . .. 169. da matriz de cova-. e parâmetro de positividade para um ciclo de 8000. iterações, com fator de esquecimento. U DU T -HDP-DLQR. Otimístico.. µ = 0.94. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . .. 6.48 Evolução do processo iterativo para os parâmetros. p24. 167. e parâmetro de positividade para um ciclo de 5000. iterações, com fator de esquecimento. p24. e. para um ciclo de 5000 iterações, com fator de esquecimento. µ = 0.95. p24. p11 , p44 , p14. 166. p11 , p44 , p14. 170. e. para um ciclo de 5000 iterações, com fator de esquecimento. µ = 0.93. - Algoritmo RLSµ -. U DU T -HDP-DLQR. 6.49 Número de condição do fator Cholesky riância. Γ(k). G(k). Otimístico. . . . .. 170. da matriz de cova-. e parâmetro de positividade para um ciclo de 5000. iterações, com fator de esquecimento. U DU T -HDP-DLQR. Otimístico.. vii. µ = 0.93. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . .. 171.

(17) 6.50 Variação paramétrica do tipo. p1 com α = 10 e β = 0.001 - Evolução. do processo iterativo para os parâmetros. U DU. -HDP-DLQR Otimístico.. 6.51 Variação paramétrica do tipo. para um ciclo de 10000. µ = 0.92. iterações, com fator de esquecimento. T. pii. . . . . . . . . . . . . . . . . . . .. p12 , p13 e p14 para um ciclo. de 10000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. p23 , p24 e p34 para um ciclo. de 10000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. 176. p1 com α = 10 e β = 0.001 - Evolução. do processo iterativo para os parâmetros. RLSµ -. µ = 0.92 - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. 6.52 Variação paramétrica do tipo. 176. p1 com α = 10 e β = 0.001 - Evolução. do processo iterativo para os parâmetros. RLSµ -. - Algoritmo RLSµ -. µ = 0.92 - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. p1. 6.53 Variação paramétrica do tipo. de condição do fator Cholesky. com. G(k). 177. α = 10 e β = 0.001 - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.54 Variação paramétrica do tipo. p1. com. α = 10. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU T -HDP-DLQR. Otimístico.. 6.55 Variação paramétrica do tipo. pii. µ = 0.92. - Algoritmo RLSµ 178. p1 com α = 10 e β = 10 - Evolução do p12 , p13 e p14 para um ciclo de µ = 0.92. - Algoritmo 178. p1 com α = 10 e β = 10 - Evolução do. processo iterativo para os parâmetros. p23 , p24 e p34 para um ciclo de. 10000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. - Evolução. Otimístico. . . . . . . . . . . . . . . . .. 6.56 Variação paramétrica do tipo. RLSµ -. β = 10. 177. para um ciclo de 10000. 10000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. e. . . . . . . . . . . . . . . . . . . .. processo iterativo para os parâmetros. RLSµ -. U DU T -HDP-. µ = 0.92. - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. viii. 179.

(18) p1. 6.57 Variação paramétrica do tipo de condição do fator Cholesky. com. G(k). α = 10. e. β = 10. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.58 Variação paramétrica do tipo. p1. com. α = 10 e β = 1013. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU T -HDP-DLQR. U DU T -HDP-. Otimístico.. 6.59 Variação paramétrica do tipo. p1. pii. para um ciclo de 10000. µ = 0.92. - Algoritmo RLSµ -. α = 10 e β = 10. do processo iterativo para os parâmetros. p12 , p13. 13. U DU T -HDP-DLQR. p1. com. α = 10 e β = 10. do processo iterativo para os parâmetros. U DU. - Evolução. µ = 0.92 - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. 6.61 Variação paramétrica do tipo. p1. de condição do fator Cholesky. com. G(k). 180. p23 , p24 e p34 para um ciclo. de 10000 iterações, com fator de esquecimento RLSµ -. -. Otimístico. . . . . . . . . . . . . . . . .. 6.60 Variação paramétrica do tipo. T. para um. µ = 0.92. 13. 180. - Evolução. p14. e. ciclo de 10000 iterações, com fator de esquecimento RLSµ -. - Evolução. . . . . . . . . . . . . . . . . . . . com. 179. α = 10. e. β = 1013. 181. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.62 Variação paramétrica do tipo. p2. com. iterações, com fator de esquecimento Otimístico.. 6.63 Variação paramétrica do tipo. p2. para um ciclo de 15000. µ = 0.92. - Algoritmo RLSµ -. iterações, com fator de esquecimento. pii. para um ciclo de 15000. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . .. ix. 182. α = 1 e β = 0.001 - Evolução. do processo iterativo para os parâmetros. HDP-DLQR Otimístico.. pii. . . . . . . . . . . . . . . . . . . . com. 181. α = 1 e β = 0.001 - Evolução. do processo iterativo para os parâmetros. U DU T -HDP-DLQR. U DU T -HDP-. 182.

(19) 6.64 Variação paramétrica do tipo. p2. com. α = 1 e β = 0.001 - Evolução. do processo iterativo para os parâmetros. p12 , p13 e p14 para um ciclo. de 15000 iterações, com fator de esquecimento RLSµ -. U DU. T. µ = 0.92 - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. 6.65 Variação paramétrica do tipo. p2. com. α = 1 e β = 0.001 - Evolução. do processo iterativo para os parâmetros. p12 , p13 e p14 para um ciclo. de 15000 iterações, com fator de esquecimento. µ = 0.92 - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . . 6.66 Variação paramétrica do tipo. p2. com. p23 , p24 e p34 para um ciclo. de 15000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. µ = 0.92 - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. 6.67 Variação paramétrica do tipo. p2. com. p23 , p24 e p34 para um ciclo. de 15000 iterações, com fator de esquecimento. µ = 0.92 - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . .. p2. de condição do fator Cholesky. com. G(k). 184. α = 1 e β = 0.001 - Evolução. do processo iterativo para os parâmetros. 6.68 Variação paramétrica do tipo. 183. α = 1 e β = 0.001 - Evolução. do processo iterativo para os parâmetros. RLSµ -. 183. α=1. e. β = 0.001. 184. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 15000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-. . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.69 Variação paramétrica do tipo. p2. de condição do fator Cholesky. com. G(k). α=1. e. β = 0.001. 185. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 15000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR. Otimístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.70 Variação paramétrica do tipo. p2. com. α=1. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU. T. -HDP-DLQR Otimístico.. x. pii. e. β = 0.01. 185. - Evolução. para um ciclo de 10000. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . .. 186.

(20) 6.71 Variação paramétrica do tipo. p2. com. α=1. do processo iterativo para os parâmetros iterações, com fator de esquecimento HDP-DLQR Otimístico.. pii. - Evolução. para um ciclo de 10000. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . .. 6.72 Variação paramétrica do tipo. p2. com. α=1. do processo iterativo para os parâmetros. U DU T -HDP-DLQR. β = 0.01. e. - Evolução. µ = 0.92 - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. 6.73 Variação paramétrica do tipo. p2. com. α=1. do processo iterativo para os parâmetros. β = 0.01. e. - Evolução. µ = 0.92 - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . .. p2. com. α=1. do processo iterativo para os parâmetros. U DU T -HDP-DLQR. β = 0.01. e. - Evolução. µ = 0.92 - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. 6.75 Variação paramétrica do tipo. p2. com. α=1. do processo iterativo para os parâmetros. β = 0.01. e. - Evolução. µ = 0.92 - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . .. de condição do fator Cholesky. p2. com. G(k). 188. p23 , p24 e p34 para um ciclo. de 10000 iterações, com fator de esquecimento. 6.76 Variação paramétrica do tipo. 187. p23 , p24 e p34 para um ciclo. de 10000 iterações, com fator de esquecimento RLSµ -. 187. p12 , p13 e p14 para um ciclo. de 10000 iterações, com fator de esquecimento. 6.74 Variação paramétrica do tipo. 186. p12 , p13 e p14 para um ciclo. de 10000 iterações, com fator de esquecimento RLSµ -. β = 0.01. e. α=1. e. β = 0.01. 188. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-. . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.77 Variação paramétrica do tipo de condição do fator Cholesky. p2. com. G(k). α=1. e. β = 0.01. 189. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR. Otimístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. xi. 189.

(21) 6.78 Variação paramétrica do tipo. p2. com. α=1. do processo iterativo para os parâmetros. U DU. -HDP-DLQR Otimístico.. 6.79 Variação paramétrica do tipo. p2. com. iterações, com fator de esquecimento. - Algoritmo RLSµ -. α=1 pii. e. β = 0.1. p2. com. processo iterativo para os parâmetros. para um ciclo de 10000. µ = 0.92. - Algoritmo RLSµ -. p12 , p13 e p14 para um ciclo de µ = 0.92. - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. 6.81 Variação paramétrica do tipo. p2. com. processo iterativo para os parâmetros. p12 , p13 e p14 para um ciclo de µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . .. p2. com. processo iterativo para os parâmetros. RLSµ -. U DU. p23 , p24 e p34 para um ciclo de µ = 0.92. - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. 6.83 Variação paramétrica do tipo. p2. com. processo iterativo para os parâmetros. p23 , p24 e p34 para um ciclo de µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . .. condição do fator Cholesky. p2. com. G(k). 192. α = 1 e β = 0.1 - Evolução do. 10000 iterações, com fator de esquecimento. 6.84 Variação paramétrica do tipo. 191. α = 1 e β = 0.1 - Evolução do. 10000 iterações, com fator de esquecimento. T. 191. α = 1 e β = 0.1 - Evolução do. 10000 iterações, com fator de esquecimento. 6.82 Variação paramétrica do tipo. 190. α = 1 e β = 0.1 - Evolução do. 10000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. 190. - Evolução. . . . . . . . . . . . . . . . . . . . . . . .. 6.80 Variação paramétrica do tipo. RLSµ -. - Evolução. . . . . . . . . . . . . . . . . . . .. do processo iterativo para os parâmetros. HDP-DLQR Otimístico.. β = 0.1. para um ciclo de 10000. µ = 0.92. iterações, com fator de esquecimento. T. pii. e. α=1. e. β = 0.1. 192. - Número de. da matriz de covariância. Γ(k). e. parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-. . . . . . . . . . . . . . . . . . . . . . . . . . .. xii. 193.

(22) 6.85 Variação paramétrica do tipo condição do fator Cholesky. p2. com. G(k). α=1. e. β = 0.1. - Número de. da matriz de covariância. Γ(k). e. parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR. Otimístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.86 Variação paramétrica do tipo. p2. com. α = 0.25 e β = 10 - Evolução. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU T -HDP-DLQR. Otimístico.. 6.87 Variação paramétrica do tipo. p2. para um ciclo de 8000. µ = 0.92. iterações, com fator de esquecimento. pii. p2. com. µ = 0.92. µ = 0.92. - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. 6.89 Variação paramétrica do tipo. p2. com. p12 , p13 e p14 para um ciclo. de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . .. p2. com. p23 , p24 e p34 para um ciclo. de 8000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. µ = 0.92. - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. 6.91 Variação paramétrica do tipo. p2. com. 196. α = 0.25 e β = 10 - Evolução. do processo iterativo para os parâmetros. p23 , p24 e p34 para um ciclo. de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . .. xiii. 195. α = 0.25 e β = 10 - Evolução. do processo iterativo para os parâmetros. RLSµ -. 195. α = 0.25 e β = 10 - Evolução. do processo iterativo para os parâmetros. 6.90 Variação paramétrica do tipo. 194. p12 , p13 e p14 para um ciclo. de 8000 iterações, com fator de esquecimento. U DU. - Algoritmo RLSµ -. α = 0.25 e β = 10 - Evolução. do processo iterativo para os parâmetros. RLSµ -. 194. para um ciclo de 8000. . . . . . . . . . . . . . . . . . . . . . . .. 6.88 Variação paramétrica do tipo. T. - Algoritmo RLSµ -. α = 0.25 e β = 10 - Evolução. do processo iterativo para os parâmetros. HDP-DLQR Otimístico.. pii. . . . . . . . . . . . . . . . . . . . com. 193. 196.

(23) 6.92 Variação paramétrica do tipo. p2. de condição do fator Cholesky. com. G(k). α = 0.25. e. β = 10. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 8000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-. . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.93 Variação paramétrica do tipo. p2. de condição do fator Cholesky. com. G(k). α = 0.25. e. β = 10. 197. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR. Otimístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.94 Variação paramétrica do tipo. p2. de condição do fator Cholesky. com. G(k). α = 0.25. e. β = 10. 197. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 3000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR. Otimístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.95 Variação paramétrica do tipo. p2 com α = 0.25 e β = 1013 - Evolução. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU T -HDP-DLQR. Otimístico.. 6.96 Variação paramétrica do tipo. pii. para um ciclo de 8000. µ = 0.92. p2 com α = 0.25 e β = 10. iterações, com fator de esquecimento. pii. - Evolução. - Algoritmo RLSµ -. p2 com α = 0.25 e β = 10. 13. - Evolução. µ = 0.92. - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. 6.98 Variação paramétrica do tipo. 199. p12 , p13 e p14 para um ciclo. de 8000 iterações, com fator de esquecimento. U DU. 198. para um ciclo de 8000. µ = 0.92. do processo iterativo para os parâmetros. RLSµ -. 13. . . . . . . . . . . . . . . . . . . . . . . .. 6.97 Variação paramétrica do tipo. T. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . .. do processo iterativo para os parâmetros. HDP-DLQR Otimístico.. 198. 199. p2 com α = 0.25 e β = 1013 - Evolução. do processo iterativo para os parâmetros. p12 , p13 e p14 para um ciclo. de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . .. xiv. 200.

(24) 6.99 Variação paramétrica do tipo. p2 com α = 0.25 e β = 1013 - Evolução. do processo iterativo para os parâmetros. p23 , p24 e p34 para um ciclo. de 8000 iterações, com fator de esquecimento RLSµ -. U DU. T. µ = 0.92. - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. 6.100Variação paramétrica do tipo. p2 com α = 0.25 e β = 1013 - Evolução. do processo iterativo para os parâmetros. p23 , p24 e p34 para um ciclo. de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . . 6.101Variação paramétrica do tipo. 200. p2. de condição do fator Cholesky. α = 0.25 e β = 1013. com. G(k). 201. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 8000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-. . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.102Variação paramétrica do tipo. p2. de condição do fator Cholesky. α = 0.25 e β = 10. com. G(k). 13. 201. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR. Otimístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.103Variação paramétrica do tipo. p2. com. α = 0.25 e β = ∞ - Evolução. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU T -HDP-DLQR. Otimístico.. 6.104Variação paramétrica do tipo. p2. pii. para um ciclo de 8000. µ = 0.92. p12 , p13 e p14 para um ciclo. de 8000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. p2. com. U DU. µ = 0.92. - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. xv. 203. p23 , p24 e p34 para um ciclo. de 8000 iterações, com fator de esquecimento RLSµ -. - Algoritmo. α = 0.25 e β = ∞ - Evolução. do processo iterativo para os parâmetros. T. µ = 0.92. Otimístico. . . . . . . . . . . . . . . . .. 6.105Variação paramétrica do tipo. 203. α = 0.25 e β = ∞ - Evolução. do processo iterativo para os parâmetros. RLSµ -. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . com. 202. 204.

(25) 6.106Variação paramétrica do tipo. p2. com. α = 0.25 e β = ∞ - Evolução. do processo iterativo para os parâmetros iterações, com fator de esquecimento HDP-DLQR Otimístico.. pii. para um ciclo de 8000. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . .. 6.107Variação paramétrica do tipo. p2. com. 204. α = 0.25 e β = ∞ - Evolução. do processo iterativo para os parâmetros p12 , p13 e p14 para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . . 6.108Variação paramétrica do tipo. p2. com. 205. α = 0.25 e β = ∞ - Evolução. do processo iterativo para os parâmetros p23 , p24 e p34 para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . . 6.109Variação paramétrica do tipo. p2. de condição do fator Cholesky. com. G(k). α = 0.25. e. β=∞. 205. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 8000 iterações, com fator de esquecimento DLQR Otimístico.. - Algoritmo RLSµ -U DU T -HDP-. µ = 0.92. . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.110Variação paramétrica do tipo. p2. de condição do fator Cholesky. com. G(k). α = 0.25. e. β=∞. 206. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR. Otimístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 206. 6.111Média das estimativas para os parâmetros. θ1 , θ2. e. θ3 .. . . . . . . .. 208. 6.112Média das estimativas para os parâmetros. θ4 , θ5. e. θ6 .. . . . . . . .. 208. 6.113Comparação de desempenho de RLS-TD(0), RLS-TD(0.402), RLSTD(0.04) e RLS-TD(0.505) para os parâmetros. θ1 , θ2. e. θ3 .. . . . .. 209. 6.114Comparação de desempenho de RLS-TD(0), RLS-TD(0.402), RLSTD(0.04) e RLS-TD(0.505) para os parâmetros. xvi. θ4 , θ5. e. θ6 .. . . . .. 209.

(26) H.1. p1. Variação paramétrica do tipo. α = 10. com. β = 0.001. e. - Com-. portamento dos estados com revitalização para o modelo de quarta ordem para um ciclo de 10000 iterações, com fator de esquecimento. µ = 0.92.. Os estados são inicializados com. 0.005 0.005]T. e a revitalização com. Algoritmo RLSµ H.2. xrevit = [0.1 0.1 0.1 0.1]T. U DU T -HDP-DLQR. Variação paramétrica do tipo. x0 = [0.22 − 0.25 − -. Otimístico. . . . . . . . . . .. 244. p1 com α = 10 e β = 0.001 - Compor-. tamento do controlador com revitalização de estado para o modelo de quarta ordem para um ciclo de 10000 iterações, com fator de esquecimento místico. H.3. µ = 0.92 - Algoritmo RLSµ -U DU T -HDP-DLQR Oti-. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p1. com. α = 10. e. β = 0.001. 245. - O. comportamento dos traços e os autovalores associados do modelo de malha fechada para um ciclo de 10000 iterações, com fator de esquecimento místico. H.4. µ = 0.92 - Algoritmo RLSµ -U DU T -HDP-DLQR Oti-. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p1. com. α = 10. e. β = 10. 13. 245. - Com-. portamento dos estados com revitalização para o modelo de quarta ordem para um ciclo de 10000 iterações, com fator de esquecimento. µ = 0.92.. Os estados são inicializados com. 0.005 0.005]T. e a revitalização com. Algoritmo RLSµ H.5. U DU T -HDP-DLQR. Variação paramétrica do tipo. p1. com. x0 = [0.22 − 0.25 −. xrevit = [0.1 0.1 0.1 0.1]T. -. Otimístico. . . . . . . . . . .. α = 10. e. β = 10. 13. 246. - Compor-. tamento do controlador com revitalização de estado para o modelo de quarta ordem para um ciclo de 10000 iterações, com fator de esquecimento místico. H.6. µ = 0.92 - Algoritmo RLSµ -U DU T -HDP-DLQR Oti-. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p1. com. α = 10. e. β = 1013. 247. - O com-. portamento dos traços e os autovalores associados do modelo de malha fechada para um ciclo de 10000 iterações, com fator de esquecimento místico.. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-DLQR. Oti-. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. xvii. 247.

(27) H.7. Variação paramétrica do tipo. p2. com. α = 1. e. β = 0.001. - Com-. portamento dos estados com revitalização para o modelo de quarta ordem para um ciclo de 15000 iterações, com fator de esquecimento. µ = 0.92.. 0.005 0.005]T. e a revitalização com. Algoritmo RLSµ H.8. x0 = [0.22 − 0.25 −. Os estados são inicializados com. xrevit = [0.1 0.1 0.1 0.1]T. U DU T -HDP-DLQR. Variação paramétrica do tipo. p2. -. Otimístico. . . . . . . . . . .. com. α = 1. e. β = 0.001. 248. - Com-. portamento dos estados com revitalização para o modelo de quarta ordem para um ciclo de 15000 iterações, com fator de esquecimento. µ = 0.92.. x0 = [0.22 − 0.25 −. Os estados são inicializados com. 0.005 0.005]. T. e a revitalização com. xrevit = [0.1 0.1 0.1 0.1]T. -. Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . H.9. Variação paramétrica do tipo. p2. com. α=1. e. β = 0.001. 249. - Compor-. tamento do controlador com revitalização de estado para o modelo de quarta ordem para um ciclo de 15000 iterações, com fator de esquecimento místico.. µ = 0.92 - Algoritmo RLSµ -U DU T -HDP-DLQR Oti-. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. H.10 Variação paramétrica do tipo. p2. com. α=1. e. β = 0.001. 250. - Compor-. tamento do controlador com revitalização de estado para o modelo de quarta ordem para um ciclo de 15000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR Otimístico.. H.11 Variação paramétrica do tipo. p2. com. α=1. e. β = 0.001. 250. - O com-. portamento dos traços e os autovalores associados do modelo de malha fechada para um ciclo de 15000 iterações, com fator de esquecimento místico.. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-DLQR. Oti-. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. H.12 Variação paramétrica do tipo. p2. com. α=1. e. β = 0.001. 251. - O com-. portamento dos traços e os autovalores associados do modelo de malha fechada para um ciclo de 15000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR Otimístico.. xviii. .. 251.

(28) H.13 Variação paramétrica do tipo. p2. com. α = 0.25. e. β = 1013. - Com-. portamento dos estados com revitalização para o modelo de quarta ordem para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92.. Os estados são inicializados com. 0.005 0.005]T. e a revitalização com. Algoritmo RLSµ -. U DU T -HDP-DLQR. H.14 Variação paramétrica do tipo. p2. com. x0 = [0.22 − 0.25 −. xrevit = [0.1 0.1 0.1 0.1]T. -. Otimístico. . . . . . . . . . .. α = 0.25. e. β = 10. 13. 252. - Com-. portamento dos estados com revitalização para o modelo de quarta ordem para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92.. Os estados são inicializados com. 0.005 0.005]. T. e a revitalização com. x0 = [0.22 − 0.25 −. xrevit = [0.1 0.1 0.1 0.1]T. -. Algoritmo RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . H.15 Variação paramétrica do tipo. p2. com. α = 0.25. e. β = 1013. 253. - Com-. portamento do controlador com revitalização de estado para o modelo de quarta ordem para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-DLQR. Otimístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . H.16 Variação paramétrica do tipo. 254. p2 com α = 0.25 e β = 1013 - Compor-. tamento do controlador com revitalização de estado para o modelo de quarta ordem para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR Otimístico.. H.17 Variação paramétrica do tipo. p2. com. α = 0.25. e. β = 1013. 254. - O. comportamento dos traços e os autovalores associados do modelo de malha fechada para um ciclo de 8000 iterações, com fator de esquecimento místico.. µ = 0.92 - Algoritmo RLSµ -U DU T -HDP-DLQR Oti-. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. H.18 Variação paramétrica do tipo. p2. com. α = 0.25. e. β = 10. 13. 255. - O. comportamento dos traços e os autovalores associados do modelo de malha fechada para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR Otimístico.. xix. 255.

(29) p2. H.19 Variação paramétrica do tipo. com. α = 1, 5. e. β = ∞. - Com-. portamento dos estados com revitalização para o modelo de quarta ordem para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92.. Os estados são inicializados com. 0.005 0.005]T. xrevit = [0.1 0.1 0.1 0.1]T. e a revitalização com. Algoritmo RLSµ -. U DU T -HDP-DLQR. H.20 Variação paramétrica do tipo. x0 = [0.22 − 0.25 − -. Otimístico. . . . . . . . . . .. 256. p2 com α = 1, 5 e β = ∞ - Comporta-. mento do controlador com revitalização de estado para o modelo de quarta ordem para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -. H.21 Variação paramétrica do tipo. p2. com. U DU T -HDP-DLQR. Otimístico. 257. α = 1, 5 e β = ∞ - O compor-. tamento dos traços e os autovalores associados do modelo de malha fechada para um ciclo de 8000 iterações, com fator de esquecimento. µ = 0.92 I.1. - Algoritmo RLSµ -. U DU T -HDP-DLQR. Variação paramétrica do tipo. p1. com. α = 10. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU I.2. T. -HDP-DLQR Otimístico.. Variação paramétrica do tipo. p1. pii. I.3. U DU. com. α = 10. p1. com. e. β = 0.1. - Evolução. µ = 0.92 - Algoritmo e. β = 0.1. - Evolução. µ = 0.92 - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. Variação paramétrica do tipo de condição do fator Cholesky. p1. com. G(k). 259. p23 , p24 e p34 para um ciclo. de 10000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. 258. p12 , p13 e p14 para um ciclo. α = 10. do processo iterativo para os parâmetros. I.4. - Algoritmo RLSµ -. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. RLSµ -. - Evolução. . . . . . . . . . . . . . . . . . . .. de 10000 iterações, com fator de esquecimento RLSµ -. β = 0.1. 257. para um ciclo de 10000. µ = 0.92. do processo iterativo para os parâmetros. T. e. Otimístico. . . . .. α = 10. e. β = 0.1. 259. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-. . . . . . . . . . . . . . . . . . . . . . . . . . .. xx. 260.

(30) I.5. p1. Variação paramétrica do tipo. α = 10. com. do processo iterativo para os parâmetros. I.6. - Evolução. para um ciclo de 2200. µ = 0.92. iterações, com fator de esquecimento HDP-DLQR Otimístico.. pii. β = 10. e. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . .. p1. Variação paramétrica do tipo. α = 10. com. do processo iterativo para os parâmetros. β = 10. e. - Evolução. p12 , p13 e p14 para um ciclo. de 2200 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . . I.7. p1. Variação paramétrica do tipo. α = 10. com. do processo iterativo para os parâmetros. β = 10. e. - Evolução. µ = 0.92. - Algoritmo. RLSµ -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . . . . . . Variação paramétrica do tipo. p1. de condição do fator Cholesky. G(k). α = 10. com. 261. p23 , p24 e p34 para um ciclo. de 2200 iterações, com fator de esquecimento. I.8. 261. e. β = 10. 262. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 2200 iterações, com fator de esquecimento. µ = 0.92. - Algoritmo RLSµ -HDP-DLQR. Otimístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I.9. Variação paramétrica do tipo. p2. com. α=1. processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU T -HDP-DLQR I.10. Otimístico.. Variação paramétrica do tipo. p2. pii. I.11. µ = 0.92. com. p2. com. processo iterativo para os parâmetros. α=1. e. β=1. - Evolução do. µ = 0.92. - Algoritmo. α=1. e. β=1. 263. - Evolução do. p23 , p24 e p34 para um ciclo de µ = 0.92. - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. xxi. 263. p12 , p13 e p14 para um ciclo de. 10000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. - Algoritmo RLSµ -. Otimístico. . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. RLSµ -. - Evolução do. para um ciclo de 10000. 10000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. β=1. . . . . . . . . . . . . . . . . . . .. processo iterativo para os parâmetros. RLSµ -. e. 262. 264.

(31) I.12. Variação paramétrica do tipo condição do fator Cholesky. p2. α=1. com. G(k). β=1. e. - Número de. da matriz de covariância. Γ(k). e. parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico. I.13. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . . . . .. p2. Variação paramétrica do tipo. com. I.14. p2. pii. para um ciclo de 10000. µ = 0.92. iterações, com fator de esquecimento Otimístico.. . . . . . . . . . . . . . . . . . . .. α = 1 e β = 10 - Evolução do. processo iterativo para os parâmetros. p12 , p13 e p14 para um ciclo de. 10000 iterações, com fator de esquecimento RLSµ I.15. U DU T -HDP-DLQR. µ = 0.92. p2. com. α = 1 e β = 10 - Evolução do. processo iterativo para os parâmetros. p23 , p24 e p34 para um ciclo de. Variação paramétrica do tipo. RLSµ -. U DU. T. µ = 0.92. condição do fator Cholesky. p2. com. G(k). α=1. e. β = 10. 265. - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. 265. - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. 10000 iterações, com fator de esquecimento. I.16. - Algoritmo RLSµ -. com. Variação paramétrica do tipo. 264. α = 1 e β = 10 - Evolução do. processo iterativo para os parâmetros. U DU T -HDP-DLQR. U DU T -HDP-. 266. - Número de. da matriz de covariância. Γ(k). e. parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico. I.17. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p2. com. α=1. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU T -HDP-DLQR I.18. Otimístico.. Variação paramétrica do tipo. pii. U DU. β = 100. 266. - Evolução. para um ciclo de 10000. µ = 0.92. - Algoritmo RLSµ 267. p2 com α = 1 e β = 100 - Evolução do p12 , p13 e p14 para um ciclo de. 10000 iterações, com fator de esquecimento RLSµ -. e. . . . . . . . . . . . . . . . . . . .. processo iterativo para os parâmetros. T. U DU T -HDP-. µ = 0.92. - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. xxii. 267.

(32) I.19. Variação paramétrica do tipo. p2 com α = 1 e β = 100 - Evolução do. processo iterativo para os parâmetros. p23 , p24 e p34 para um ciclo de. 10000 iterações, com fator de esquecimento RLSµ I.20. U DU. T. µ = 0.92. - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p2. de condição do fator Cholesky. G(k). com. α=1. e. β = 100. 268. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico. I.21. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p2. com. iterações, com fator de esquecimento. I.22. Otimístico.. Variação paramétrica do tipo. p2. pii. para um ciclo de 10000. µ = 0.92. p12 , p13 e p14 para um ciclo. de 10000 iterações, com fator de esquecimento RLSµ I.23. U DU. p2. com. p23 , p24 e p34 para um ciclo. de 10000 iterações, com fator de esquecimento. I.24. U DU T -HDP-DLQR. µ = 0.92 - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p2. de condição do fator Cholesky. com. G(k). 269. α = 10 e β = 0.01 - Evolução. do processo iterativo para os parâmetros. RLSµ -. µ = 0.92 - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. 269. α = 10 e β = 0.01 - Evolução. do processo iterativo para os parâmetros. T. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . com. 268. α = 10 e β = 0.01 - Evolução. do processo iterativo para os parâmetros. U DU T -HDP-DLQR. U DU T -HDP-. α = 10. e. β = 0.01. 270. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico. I.25. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p2. com. α = 10. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU. T. U DU T -HDP-. -HDP-DLQR Otimístico.. pii. e. β = 0.1. - Evolução. para um ciclo de 10000. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . .. xxiii. 270. 271.

(33) I.26. Variação paramétrica do tipo. p2. com. α = 10. do processo iterativo para os parâmetros. RLSµ I.27. U DU. µ = 0.92 - Algoritmo. -HDP-DLQR Otimístico. . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p2. com. α = 10. do processo iterativo para os parâmetros. I.28. U DU T -HDP-DLQR. β = 0.1. e. - Evolução. µ = 0.92 - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. p2. Variação paramétrica do tipo de condição do fator Cholesky. com. G(k). 271. p23 , p24 e p34 para um ciclo. de 10000 iterações, com fator de esquecimento RLSµ -. - Evolução. p12 , p13 e p14 para um ciclo. de 10000 iterações, com fator de esquecimento. T. β = 0.1. e. α = 10. β = 0.1. e. 272. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 10000 iterações, com fator de esquecimento DLQR Otimístico. I.29. µ = 0.92. - Algoritmo RLSµ -. . . . . . . . . . . . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. p2. com. α = 1, 5. do processo iterativo para os parâmetros iterações, com fator de esquecimento. U DU I.30. T. -HDP-DLQR Otimístico.. Variação paramétrica do tipo. p2. pii. I.31. α = 1, 5. p2. com. β=∞. - Evolução. µ = 0.92. - Algoritmo. e. β=∞. - Evolução. µ = 0.92. - Algoritmo. Otimístico. . . . . . . . . . . . . . . . .. p2. Variação paramétrica do tipo de condição do fator Cholesky. com. G(k). 273. p23 , p24 e p34 para um ciclo. de 8000 iterações, com fator de esquecimento. I.32. e. 273. p12 , p13 e p14 para um ciclo. α = 1, 5. do processo iterativo para os parâmetros. U DU T -HDP-DLQR. - Algoritmo RLSµ -. Otimístico. . . . . . . . . . . . . . . . .. Variação paramétrica do tipo. RLSµ -. - Evolução. . . . . . . . . . . . . . . . . . . . com. 272. para um ciclo de 8000. de 8000 iterações, com fator de esquecimento. U DU T -HDP-DLQR. β=∞. e. µ = 0.92. do processo iterativo para os parâmetros. RLSµ -. U DU T -HDP-. α = 1, 5. e. β=∞. 274. - Número. da matriz de covariância. Γ(k). e parâmetro de positividade para um ciclo de 8000 iterações, com fator de esquecimento DLQR Otimístico.. µ = 0.92. - Algoritmo RLSµ -. U DU T -HDP-. . . . . . . . . . . . . . . . . . . . . . . . . . .. xxiv. 274.

(34) Lista de Abreviaturas e Siglas AC ACDs AD ADDHP. Adaptive Critic (Crítico Adaptativo) Adaptive Critic Designs (Projetos Críticos Adaptativos) Action Dependent (Dependente de Ação) Action Dependent Dual Heuristic Programming (Programação Heurística Dual Dependente de Ação). ADHDP. Action Dependent Heuristic Dynamic Programming (Programação Dinâmica Heurística Dependente de Ação). ADP. Approximate/Adaptive Dynamic Programming (Programação Dinâmica Aproximada/Adaptativa). DARE. DHP DLQR. Discrete Algebraic Riccati Equation (Equação Algébrica de Riccati Discreta) Dual Heuristic Programming (Programação Heurística Dual) Discrete Linear Quadratic Regulator (Regulador Linear Quadrático Discreto). DP HDP. Dynamic Programming (Programação Dinâmica) Heuristic Dynamic Programming (Programação Dinâmica Heurística). HJB. Hamilton-Jacobi-Bellman. IP. Iteração de Política. LQ LQG/LTR. Linear Quadratic (Linear Quadrático) Linear Quadratic Gaussian /Loop Transfer Recovery (Gaussiano Linear Quadrático/ Recuperação da Malha de Transferência). LQR LS MIMO. Linear Quadratic Regulator (Regulador Linear Quadrático) Least-squares (Mínimos Quadrados) Multiple-Input and Multiple-Output (Múltiplas-Entradas e Múltiplas-Saídas). PDM RL RLS TD. Processo de Decisão Markoviano. Reinforcement Learning (Aprendizagem por Reforço) Recursive Least-Squares (Mínimos Quadrados Recursivos) Temporal Dierence (Diferença Temporal) xxv.

(35) Sumário 1 Introdução. 2. 1.1. Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.2. Motivação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.3. Aprendizagem por Reforço Moderna. 1.4. Controle Ótimo. 1.5. Perspectivas sobre Programação Dinâmica Aproximada. Online. . . . . . . . . . . . . . . . .. 7. . . . . . . . . . . . . . . . . . . . . . . . .. 10. . . . . . .. 12. 1.5.1. Aproximações de Funções Valor. . . . . . . . . . . . . . . .. 13. 1.5.2. Projeto de Controlador Ótimo Independente de Modelo . .. 15. 1.5.3. Aprendizagem. 1.5.4. Observabilidade Parcial. Online. de Controladores Ótimos. . . . . . .. 16. . . . . . . . . . . . . . . . . . . .. 17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. 1.6. Contribuições. 1.7. Organização da Proposta de Tese. 1.8. Artigos Publicados. . . . . . . . . . . . . . . . . . .. 20. . . . . . . . . . . . . . . . . . . . . . . . . . .. 22. 1.8.1. Artigos Publicados em Periódicos. . . . . . . . . . . . . . .. 1.8.2. Artigos Publicados em Anais de Congressos. . . . . . . . .. 2 Aprendizagem por Reforço. 22 22. 24. 2.1. Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 2.2. O Problema de Aprendizagem por Reforço. . . . . . . . . . . . . .. 26. Formulação do Problema . . . . . . . . . . . . . . . . . . .. 27. Programação Dinâmica . . . . . . . . . . . . . . . . . . . . . . . .. 29. 2.2.1 2.3. Bellman. 2.3.1. Equação de. e Política Ótima . . . . . . . . . . . .. 31. 2.3.2. Iteração de Política . . . . . . . . . . . . . . . . . . . . . .. 32. 2.3.3. Iteração Gulosa. 33. 2.3.4. Iteração de Valor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. xxvi. 34.