Reinforcement learning no controle de processos químicos
Reinforcement learning in the control of chemical processes
DOI:10.34117/bjdv6n3-399
Recebimento dos originais: 10/02/2020 Aceitação para publicação: 25/03/2020
Douglas Goulart
Universidade Federal do Rio Grande [email protected]
Renato Dutra Pereira
Universidade Federal do Rio Grande
RESUMO
Os sistemas de automação e controle de processos apresentam um diferencial competitivo no contexto atual, considerando várias iniciativas para incentivar a disseminação dos paradigmas da Indústria 4.0 no setor Industrial. Este trabalho, com o objetivo de aplicar técnicas de inteligência artificial e aprendizado de máquina em engenharia de sistemas em processos, implementou uma técnica de controle baseada em dados no controle de três reatores CSTR em série. O algoritmo de Reinforcement Learning foi acoplado ao simulador do processo. A metodologia desenvolvida foi validada quando, em comparação ao controlador clássico PI, apresentou boa performance no controle automático regulatório de concentração na saída do último reator.
Palavras-Chave: Aprendizado de Máquina; Engenharia de Processos; Inteligência Artificial ABSTRACT
The automation and process control systems present a competitive advantage in the current context, considering several initiatives to encourage the dissemination of the Industry 4.0 paradigms in the Industrial sector. This work, with the objective of applying artificial intelligence techniques and machine learning in process systems engineering, implemented a data-based control technique in the control of three CSTR reactors in series. The Reinforcement Learning algorithm was coupled to the process simulator. The methodology developed was validated when, compared to the classic PI controller, it performed well in the automatic regulatory control of concentration at the output of the last reactor.
Keywords: Machine Learning; Process engineering; Artificial intelligence 1 INTRODUÇÃO
Nos últimos anos houve uma expansão dos sistemas de automação na indústria de processos. Dessa forma, a obtenção de informações confiáveis tem se tornado mais acessível, permitindo que as metodologias baseadas em dados sejam cada vez mais viáveis. Além disso, uma parcela significativa dos processos químicos não é bem representada por modelos lineares, e os modelos não-lineares são de complexa solução analítica.
Machine Learning (ML, Aprendizado de Máquina) surge na área de controle de processos
(2006) se baseia na ideia de que os sistemas computacionais podem aprender com os dados, identificar padrões, tomar decisões e se adaptar, com mínima intervenção humana.
Com o fim de avaliar e validar o controle baseado em dados, no escopo da indústria química, foi aplicada a abordagem de Reinforcement Learning, no caso dos três reatores contínuos perfeitamente agitados (CSTR) em série.
2 METODOLOGIA
Em Aprendizado de Máquina o Reinforcement Learning (RL) ganhou espaço por ser livre de modelos físico-matemáticos, on-line, e de aprendizado passo-a-passo, através da interação com o ambiente.
Em RL um agente aprende a realizar determinada tarefa interagindo com o ambiente, tomando decisões sem supervisão, continuamente (Sutton e Barto,1998). O ambiente fornece ao agente valores numéricos, as recompensas, de acordo com o estado que se encontra. O objetivo do agente deve ser maximizar as recompensas acumuladas ao longo das iterações.
Neste trabalho o ambiente é composto pelos três reatores CSTR de volumes iguais e constantes, em série, de operação contínua e isotérmica, assumindo reações elementares de primeira ordem, onde o componente A reage irreversivelmente para formar o produto B.
Tendo em vista que o objetivo do controlador seja manter a concentração de A no terceiro tanque constante (operação regulatória), são necessárias as equações diferenciais de balanço de massa (eq. 1, 2 e 3) para o componente A em cada tanque.
Eq. 1
Eq. 2
Eq. 3
Definindo as variáveis CA0; τ=V/F = 2 min; k=0,5 s-1; e as condições iniciais: CA1(0)=0,4
kmol/m3; CA2(0)=0,2 kmol/m3; CA3(0)=0,1 kmol/m3; O sistema de equações é resolvido pelo método
de Euler. (Luyben,1989).
ser atingido. O processo simulado em loop fechado, controlado por Reinforcement Learning é ilustrado pela Figura 1.
Figura 1 – Diagrama do processo em loop fechado.
Fonte: Os autores.
O agente (controlador) tem seu aprendizado baseado em recompensas, e assim ele aprende as ações a serem tomadas em cada estado, é necessário definir a função-recompensa, onde dividiu-se o espaço de estados em intervalos com uma recompensa crescente quanto mais próximo do setpoint.
Com os elementos ambiente, agente, espaço de estados, espaço de ações e recompensa definidos, os algoritmos de simulação dos reatores em série e RL foram acoplados, em Scilab 6.0.0.
3 RESULTADOS E DISCUSSÃO
Foram executadas 200 simulações de aprendizado, com passos de tempo de 0,01min, usando 25 blocos de recompensa. O resultado das concentrações CA1, CA2 e CA3 via controle por RL, são
apresentados na Figura 2, junto ao resultado da mesma simulação controlada por um controlador clássico Proporcional-Integral (PI, Kc=30, Taui=5min, Luyben, 1989)
Figura 2– Comportamento Dinâmico (a) com Reinforcement Learning e (b) com Controlador Digital P+I (a) (b)
Fonte: Os autores
Pode-se observar, no controle via RL, que a variável controlada CA3 apresentou um leve
desvio de menos de 5% no final da simulação, justificável pois o final da simulação é muito variável, enquanto o início, por ser sempre o mesmo, acaba sendo revisitado e o RL fica bem treinado nestes estados.
Esse desvio pode ser corrigido com a otimização da resposta em função dos parâmetros da metodologia tais como: número de simulações e blocos de recompensa, bem como constantes envolvidas no aprendizado do RL.
Quando comparada com o controle digital PI, a estratégia baseada em RL é melhor no início do processo, onde foi mais bem treinada, mantendo a variável CA3 controlada, sem oscilações.
4 CONSIDERAÇÕES FINAIS
Foi avaliado e validado o uso de RL no controle automático regulatório da concentração no sistema de 3 CSTR em série, através de implementação própria no software Scilab.
Os resultados obtidos são compatíveis com o esperado, devendo haver mais estudos para otimizar o desempenho em função dos parâmetros do Reinforcement Learning, bem como para avaliar a resposta da estabilidade e desempenho do controlador em malha fechada.
REFERÊNCIAS
LUYBEN, William L. Process modeling, simulation and control for chemical engineers. McGraw-Hill Higher Education, 1989.
BISHOP, Christopher M. Pattern recognition and machine learning., 2006.
SUTTON, R. S., BARTO, A. G. Reinforcement learning: An introduction, v.1. MIT press Cambridge, 1998.