• Nenhum resultado encontrado

Introdução A complexidade dos sistemas dinâmicos, devido aos requisitos de desempe-

1.5 Perspectivas sobre Programação Dinâmica Apro ximada

1.5.4 Observabilidade Parcial

É importante abordar processos dinâmicos nos quais nem todos os estados podem ser observados diretamente da planta. Na literatura ADP, tais processos têm sido referidos como parcialmente observáveis, e eles surgem na maioria das aplicações em sistemas de controle no mundo real quando um agente sofre de capacidades sensoriais limitadas que o impede de recuperar um sinal de estado a partir de suas percepções.

Em controle ótimo linear quadrático para processos parcialmente observáveis, métodos de controle dual no qual o estado x é estimado por um ltro de Kalman tem desempenhado um papel importante na prática. No caso do LQR, a inser- ção do ltro de Kalman tem sido bastante útil, mas isto tem ocasionado perdas nas propriedades de margens de fase e ganho garantidas pelo LQR. Entretanto, tais propriedades de robustez tem sido frequentemente recuperadas por meio da metodologia LTR (Loop Transfer Recovery).

Métodos de ADP geralmente requerem, de alguma forma, a disponibilidade da informação completa dos estados internos do processo dinâmico a ser controlado. Processos parcialmente observáveis têm sido extensivamente estudados por pes- quisadores interessados em construir agentes autônomos que aprendem por meio da interação com seu ambiente (Ng e Jordan, 2000), (Hauskrecht, 2000), (Baxter e Bartlett, 2001), (Porta et al., 2006). O trabalho de Lewis e Vamvoudakis (Lewis e Vamvoudakis, 2011) apresenta desenvolvimentos em estruturas ator-crítico para

processos dinâmicos parcialmente observáveis baseados somente na realimentação da saída do sistema.

Werbos (Werbos, 2012) fornece uma discussão sobre o que acontece quando um paradigma independente de modelo, tal como ADHDP, é aplicado diretamente a um processo parcialmente observável. Se ações de controle u são escolhidas de modo a maximizar a função valor Q, o crítico simplesmente não teria a informação necessária para tomar as melhores decisões. Com efeito, a verdadeira função Q é uma função do estado x e da ação u. O procedimento óbvio é criar algum tipo de estimativa atualizada de x, digamos bx. Werbos sugere algumas formas padrões para desenvolver uma estimativa de estado, a qual pode ser usada como a entrada principal para uma rede crítica ou uma rede de ação: ltro de Kalman esten- dido, ltro de partícula, treinamento de uma rede TLRN (time-lagged recurrent network) para predizer x a partir da saída Y em dados simulados, extração da saída dos nodos recorrentes de uma rede neural usados para modelar a planta. Por exemplo, o sucesso do mundo real de White e Sofge (White e Sofge, 1992) ao usar ADHDP dependeu do fato que eles usaram ltragem de Kalman estendida para criar esse tipo de estimativa. Eles usaram ADHDP para treinar um crítico o qual aproximou Q como uma função de bx e u.

1.6 Contribuições

As principais contribuições propostas nesta tese são explicitadas nos Capítulos 5 e 6. Três principais contribuições podem ser identicadas:

• A caracterização e solução do problema de estimacão paramétrica RLS for- mulado no quadro de programação dinâmica aproximada e aprendizagem por reforço para obter soluções aproximadas online, numericamente estáveis, da equação HJB-Riccati associada ao problema de controle ótimo DLQR. O fenômeno da instabilidade numérica é caracterizado aqui e se refere à uma classe de problemas onde as variáveis atualizadas na implementação com- putacional dos métodos RLS para solução online de controle ótimo DLQR perdem suas propriedades teóricas. Exemplos de tais propriedades são a si- metria e a positividade da matriz de covariância da abordagem RLS. Devido

à problemas de mal condicionamento dessa matriz, a solução para uma polí- tica de decisão ótima para um dado ponto de operação pode não convergir. • O desenvolvimento de algoritmos RL ator-crítico para a solução online de sistemas de controle ótimo de tempo discreto. Especicamente, os algorit- mos online consistem em uma abordagem baseada em estimação paramé- trica RLS, métodos de diferenças temporais e versões aproximadas de ite- ração de política que fazem uso da informação de estado de tempo discreto para resolver em uma maneira online a equação HJB-Riccati subjacente ao problema DLQR no contexto de programação dinâmica aproximada. • Uma metodologia RL ator-crítico baseada na fusão de métodos RLS, apren-

dizagem TD(λ) e melhorias de políticas para solução online de controle DLQR, tendo em vista a formulação de estratégias de iteração de polí- tica para acelerar o processo de aprendizagem da política de controle ótima DLQR. As estratégias são avaliadas em termos do efeito do parâmetro λ do vetor de elegibilidade por meio de estatísticas de primeira e segunda ordem. Pesquisas anteriores relacionadas à paradigmas ator-crítico adaptativos base- ados em aproximadores RLS da função valor podem ser encontradas em (Khan et al., 2012), (Al-Tamimi, 2007), (Al-Tamimi et al., 2007a), (Bradtke e Barto, 1996) e (Bradtke et al., 1994). Contudo, estabilidade numérica dos métodos RLS é um assunto que não tem sido discutido no contexto de aprendizagem por reforço e programação dinâmica aproximada para controle ótimo online. Sob esta óptica, este é o primeiro trabalho onde se propõe a formulação e solução de problemas de estabilidade numérica relacionados com o mal condicionamento da matriz de covariância da abordagem RLS para aproximações da função valor.

O método de solução proposto, neste trabalho, para resolver problemas de convergência e estabilidade numérica dos métodos RLS, via fatoração UDUT, é

visto como uma melhoria no processo de estimação de políticas de decisão ótima DLQR uma vez que a fatoração UDUT contorna problemas relacionados à perda

da simetria e positividade da matriz de covariância do RLS. A contribuição aqui é vista em dois estágios. No primeiro, avalia-se o comportamento do processo de estimação da solução da equação HJB-Riccati do problema DLQR por meio do número de condição e parâmetro de positividade da matriz de covariância do

RLS. Estes valores são usados em uma estratégia para avaliar o comportamento do processo iterativo da solução da equação HJB-Riccati. No segundo estágio, a fatoração UDUT é inserida no processo de inversão da matriz de autocorrelação

do método RLS.

Um desenvolvimento anterior sobre aprendizagem TD(λ) com aproximação da função valor usando a abordagem RLS é apresentado no trabalho de Xu e outros (Xu et al., 2002). Eles propuseram e analisaram aprendizagem RLS-TD(λ) para solução de problemas de aprendizagem por reforço. Contudo, os resultados de convergência fornecidos por eles são válidos para avaliações de políticas de controle que são xadas ao longo do tempo. Mais recentemente, Cheng e outros (Cheng et al., 2012) sugeriram um novo algoritmo ator-crítico incremental baseado em diferenças temporais, aplicando-se aprendizagem RLS-TD(λ) para avaliação do crítico. No entanto, ainda não existem provas de convergência para paradigmas de iteração de política otimística baseados em aprendizagem RLS-TD(λ).

A abordagem proposta nesta tese foca-se sobre os princípios de iteração de política otimística estabelecida por Bertsekas e Tsitsiklis, (Bertsekas e Tsitsiklis, 1996), um dos assuntos mais promissores no campo de Programação Neurodi- nâmica. Aqui são fornecidas as primeiras ideias sobre métodos de iteração de política otimística baseados na fusão de aprendizagem TD(λ), métodos RLS e melhorias de políticas, e aplicações são realizadas sobre o problema de controle DLQR online. Esta proposta é direcionada para aproximações online de iteração de política para solução DLQR no sentido que as melhorias de política são reali- zadas em cada passo de tempo ao longo da realização de trajetória de estado em direção à política ótima DLQR.