• Nenhum resultado encontrado

Reinforcement learning no controle de processos químicos / Reinforcement learning in the control of chemical processes

N/A
N/A
Protected

Academic year: 2020

Share "Reinforcement learning no controle de processos químicos / Reinforcement learning in the control of chemical processes"

Copied!
5
0
0

Texto

(1)

Reinforcement learning no controle de processos químicos

Reinforcement learning in the control of chemical processes

DOI:10.34117/bjdv6n3-399

Recebimento dos originais: 10/02/2020 Aceitação para publicação: 25/03/2020

Douglas Goulart

Universidade Federal do Rio Grande [email protected]

Renato Dutra Pereira

Universidade Federal do Rio Grande

RESUMO

Os sistemas de automação e controle de processos apresentam um diferencial competitivo no contexto atual, considerando várias iniciativas para incentivar a disseminação dos paradigmas da Indústria 4.0 no setor Industrial. Este trabalho, com o objetivo de aplicar técnicas de inteligência artificial e aprendizado de máquina em engenharia de sistemas em processos, implementou uma técnica de controle baseada em dados no controle de três reatores CSTR em série. O algoritmo de Reinforcement Learning foi acoplado ao simulador do processo. A metodologia desenvolvida foi validada quando, em comparação ao controlador clássico PI, apresentou boa performance no controle automático regulatório de concentração na saída do último reator.

Palavras-Chave: Aprendizado de Máquina; Engenharia de Processos; Inteligência Artificial ABSTRACT

The automation and process control systems present a competitive advantage in the current context, considering several initiatives to encourage the dissemination of the Industry 4.0 paradigms in the Industrial sector. This work, with the objective of applying artificial intelligence techniques and machine learning in process systems engineering, implemented a data-based control technique in the control of three CSTR reactors in series. The Reinforcement Learning algorithm was coupled to the process simulator. The methodology developed was validated when, compared to the classic PI controller, it performed well in the automatic regulatory control of concentration at the output of the last reactor.

Keywords: Machine Learning; Process engineering; Artificial intelligence 1 INTRODUÇÃO

Nos últimos anos houve uma expansão dos sistemas de automação na indústria de processos. Dessa forma, a obtenção de informações confiáveis tem se tornado mais acessível, permitindo que as metodologias baseadas em dados sejam cada vez mais viáveis. Além disso, uma parcela significativa dos processos químicos não é bem representada por modelos lineares, e os modelos não-lineares são de complexa solução analítica.

Machine Learning (ML, Aprendizado de Máquina) surge na área de controle de processos

(2)

(2006) se baseia na ideia de que os sistemas computacionais podem aprender com os dados, identificar padrões, tomar decisões e se adaptar, com mínima intervenção humana.

Com o fim de avaliar e validar o controle baseado em dados, no escopo da indústria química, foi aplicada a abordagem de Reinforcement Learning, no caso dos três reatores contínuos perfeitamente agitados (CSTR) em série.

2 METODOLOGIA

Em Aprendizado de Máquina o Reinforcement Learning (RL) ganhou espaço por ser livre de modelos físico-matemáticos, on-line, e de aprendizado passo-a-passo, através da interação com o ambiente.

Em RL um agente aprende a realizar determinada tarefa interagindo com o ambiente, tomando decisões sem supervisão, continuamente (Sutton e Barto,1998). O ambiente fornece ao agente valores numéricos, as recompensas, de acordo com o estado que se encontra. O objetivo do agente deve ser maximizar as recompensas acumuladas ao longo das iterações.

Neste trabalho o ambiente é composto pelos três reatores CSTR de volumes iguais e constantes, em série, de operação contínua e isotérmica, assumindo reações elementares de primeira ordem, onde o componente A reage irreversivelmente para formar o produto B.

Tendo em vista que o objetivo do controlador seja manter a concentração de A no terceiro tanque constante (operação regulatória), são necessárias as equações diferenciais de balanço de massa (eq. 1, 2 e 3) para o componente A em cada tanque.

Eq. 1

Eq. 2

Eq. 3

Definindo as variáveis CA0; τ=V/F = 2 min; k=0,5 s-1; e as condições iniciais: CA1(0)=0,4

kmol/m3; CA2(0)=0,2 kmol/m3; CA3(0)=0,1 kmol/m3; O sistema de equações é resolvido pelo método

de Euler. (Luyben,1989).

(3)

ser atingido. O processo simulado em loop fechado, controlado por Reinforcement Learning é ilustrado pela Figura 1.

Figura 1 – Diagrama do processo em loop fechado.

Fonte: Os autores.

O agente (controlador) tem seu aprendizado baseado em recompensas, e assim ele aprende as ações a serem tomadas em cada estado, é necessário definir a função-recompensa, onde dividiu-se o espaço de estados em intervalos com uma recompensa crescente quanto mais próximo do setpoint.

Com os elementos ambiente, agente, espaço de estados, espaço de ações e recompensa definidos, os algoritmos de simulação dos reatores em série e RL foram acoplados, em Scilab 6.0.0.

3 RESULTADOS E DISCUSSÃO

Foram executadas 200 simulações de aprendizado, com passos de tempo de 0,01min, usando 25 blocos de recompensa. O resultado das concentrações CA1, CA2 e CA3 via controle por RL, são

apresentados na Figura 2, junto ao resultado da mesma simulação controlada por um controlador clássico Proporcional-Integral (PI, Kc=30, Taui=5min, Luyben, 1989)

(4)

Figura 2– Comportamento Dinâmico (a) com Reinforcement Learning e (b) com Controlador Digital P+I (a) (b)

Fonte: Os autores

Pode-se observar, no controle via RL, que a variável controlada CA3 apresentou um leve

desvio de menos de 5% no final da simulação, justificável pois o final da simulação é muito variável, enquanto o início, por ser sempre o mesmo, acaba sendo revisitado e o RL fica bem treinado nestes estados.

Esse desvio pode ser corrigido com a otimização da resposta em função dos parâmetros da metodologia tais como: número de simulações e blocos de recompensa, bem como constantes envolvidas no aprendizado do RL.

Quando comparada com o controle digital PI, a estratégia baseada em RL é melhor no início do processo, onde foi mais bem treinada, mantendo a variável CA3 controlada, sem oscilações.

4 CONSIDERAÇÕES FINAIS

Foi avaliado e validado o uso de RL no controle automático regulatório da concentração no sistema de 3 CSTR em série, através de implementação própria no software Scilab.

Os resultados obtidos são compatíveis com o esperado, devendo haver mais estudos para otimizar o desempenho em função dos parâmetros do Reinforcement Learning, bem como para avaliar a resposta da estabilidade e desempenho do controlador em malha fechada.

(5)

REFERÊNCIAS

LUYBEN, William L. Process modeling, simulation and control for chemical engineers. McGraw-Hill Higher Education, 1989.

BISHOP, Christopher M. Pattern recognition and machine learning., 2006.

SUTTON, R. S., BARTO, A. G. Reinforcement learning: An introduction, v.1. MIT press Cambridge, 1998.

Imagem

Figura 1 – Diagrama do processo em loop fechado.

Referências

Documentos relacionados

Estima-se que a diversidade de espécies na Mata Atlântica e no Brasil seja muito maior e o baixo número de táxons conhecidos se dá por falta de identificação ao

Sem ater-se à distinção entre Física Clássica, Moderna e Contemporânea na listagem de Ostermann e Moreira (1998), é importante observar que, apesar do trabalho refletir o anseio

Figura 4 – Efeito antioxidante de animais tratados com farinha de sorgo e quinoa submetidos ao estresse com fluoreto de sódio (NaF) por sete dias, dieta-

A participação foi observada durante todas as fases do roadmap (Alinhamento, Prova de Conceito, Piloto e Expansão), promovendo a utilização do sistema implementado e a

auxiliar na criação de KPI’s. Fonte: Elaborado pela autora com base nos Quadros de 1 a 10 dessa dissertação.. O Quadro 13 apresenta os resultados trabalhados e que possuem

Algoritmo Robbins-Monro permite aprender uma função onde um de seus parâmetros é uma variável aleatória com distribuição de. Inteligência

 Agente possui modelo do ambiente para prever transições de estado do ambiente causada pelas suas ações.  Em

Tais como os especificados no artigo 59 da Lei nº 9.394/96: I - currículos, métodos, técnicas, recursos educativos e organização específica, para atender às suas necessidades;