Predição da temperatura do ferro-gusa em um alto-forno utilizando redes neurais LSTM

(1)

RODRIGO SEIDEL

PREDIÇÃO DA TEMPERATURA DO FERRO-GUSA EM UM ALTO-FORNO UTILIZANDO REDES NEURAIS LSTM

Serra 2022

(2)

PREDIÇÃO DA TEMPERATURA DO FERRO-GUSA EM UM ALTO-FORNO UTILIZANDO REDES NEURAIS LSTM

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Computação Aplicada do Instituto Federal do Espírito Santo para obtenção do Título de Mestre em Computação Aplicada.

Orientador: Prof. Dr. Leandro Colombi Resendo Coorientadora: Profª. Drª. Karin Satie Komati

Serra 2022

(3)

Bibliotecária Valmir Oliveira de Aguiar - CRB6/ES 566 S458p

2022 Seidel, Rodrigo

Predição da temperatura do ferro-gusa em um alto-forno utilizando redes neurais LSTM / Rodrigo Seidel. - 2022.

63 f.; il.; 30 cm

Orientador: Prof. Dr. Leandro Colombi Resendo.

Coorientador: Prof. Dr. Karin Satie Komati

Dissertação (mestrado) - Instituto Federal do Espírito Santo, Programa de Pós-graduação em Computação Aplicada, 2022.

1. Redes neurais (Computação). 2. LSTM. 3. Siderurgia - temperatura. 4. Altos-fornos. 5. Ferro gusa. I. Resendo, Leandro Colombi. II. Komati, Karin Satie. III. Instituto Federal do Espírito Santo. IV. Título.

CDD 006.32

(4)

PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA

RODRIGO SEIDEL

PREDIÇÃO DE TEMPERATURA DO FERRO-GURRA EM UM ALTO-FORNO UTILIZANDO REDES NEURAIS LSTM

Dissertação apresentada ao Programa de Pós- Graduação em Computação Aplicada do Instituto Federal do Espírito Santo, como requisito parcial para obtenção de título de Mestre em Computação.

Aprovado em 15 de dezembro de 2022

COMISSÃO EXAMINADORA

Prof. Dr. Leandro Colombi Resendo Instituto Federal do Espírito Santo

Orientador

Profª. Drª. Karin Satie Komati Instituto Federal do Espírito Santo

Orientadora

Prof. Dr. Jefferson Oliveira Andrade Instituto Federal do Espírito Santo

Membro Interno

Prof. Dr. Thiago Meireles Paixão Instituto Federal do Espírito Santo

Membro externo Prof. Dr. Filipe Wall Mutz

Universidade Federal do Espírito Santo Membro externo

Documento assinado digitalmente conforme descrito no(s) Protocolo(s) de Assinatura constante(s) neste arquivo, de onde é possível verificar a autenticidade do mesmo.

(5)

Emitido em 16/12/2022

FOLHA DE ROSTO Nº 52/2022 - CMPCA (11.02.32.01.07.08) NÃO PROTOCOLADO)

(Nº do Protocolo:

(Assinado digitalmente em 19/12/2022 17:13 ) JEFFERSON OLIVEIRA ANDRADE

COORDENADOR DE CURSO - TITULAR SER-CCSI (11.02.32.01.08.02.04)

Matrícula: 1208144

(Assinado digitalmente em 16/12/2022 14:53 ) KARIN SATIE KOMATI

PROFESSOR DO ENSINO BASICO TECNICO E TECNOLOGICO SER-DPPGE (11.02.32.11)

(Assinado digitalmente em 16/12/2022 14:21 ) LEANDRO COLOMBI RESENDO

COORDENADOR DE CURSO - TITULAR CMPCA (11.02.32.01.07.08)

(Assinado digitalmente em 16/12/2022 19:05 ) THIAGO MEIRELES PAIXAO

PROFESSOR DO ENSINO BASICO TECNICO E TECNOLOGICO SER-CGEN (11.02.32.01.08.02)

Para verificar a autenticidade deste documento entre em https://sipac.ifes.edu.br/documentos/ informando seu número: 52, ano: 2022, tipo: FOLHA DE ROSTO, data de emissão: 16/12/2022 e o código de verificação:

ad9db48e62

(6)

O documento acima foi assinado digitalmente com senha eletrônica através do Protocolo Web, conforme Portaria UFES nº 1.269 de 30/08/2018, por

FILIPE WALL MUTZ - SIAPE 1154884 Departamento de Informática - DI/CT Em 02/02/2023 às 01:27

Para verificar as assinaturas e visualizar o documento original acesse o link:

https://api.lepisma.ufes.br/arquivos-assinados/643273?tipoArquivo=O

(7)

Aos meus pais Bernadete e Irineu, por me conduzirem pelos melhores caminhos e pelas abdicações em nome da educação dos filhos, e ao meu irmão Rodolfo, que me acompanhou nesta caminhada.

À minha esposa Melissa, por caminhar ao meu lado me incentivando e apoiando, e às minhas filhas Pietra e Ayla, pela compreensão que foi necessária em diversos momentos durante esse período.

Ao meu orientador, Professor Doutor Leandro Colombi Resendo, pela dedicação, apoio, confiança e competência na orientação deste trabalho.

À minha coorientadora, Professora Doutora Karin Satie Komati, pelo apoio e confiança que muito ajudaram o desenvolvimento deste trabalho.

Aos membros da banca examinadora, por aceitarem o convite, dispondo de seu tempo e conhecimento na análise deste trabalho.

Aos colegas do Mestrado Profissional em Computação Aplicada, pelo companheirismo, pelas conversas e pela troca de experiências, que promoveram um ambiente saudável de convivência e aprendizado.

Aos demais professores e funcionários do Instituto Federal do Espírito Santo - Campus Serra, por proporcionarem uma estrutura para o desenvolvimento deste trabalho.

(8)

Em razão da importância da siderurgia na economia nacional e da complexidade inerente à operação de um alto-forno, se torna necessário o estudo de meios para otimizar a operação desse equipamento e o consumo de recursos. Desta forma, este trabalho tem como principal contribuição a investigação do uso da rede neural LSTM (Long Short-Term Memory neural network) para realização da predição de temperatura do ferro-gusa produzido por um alto-forno. Considerando a importância da temperatura neste processo e os diversos fatores que podem influenciá-la, é possível que essa predição apoie o trabalho dos operadores do alto-forno, de forma a se otimizar o consumo de recursos para se manter o equipamento em funcionamento, podendo se refletir também na qualidade do ferro-gusa produzido.

Utilizando os dados de operação do alto-forno como uma série temporal, foram avaliadas diversas configurações da rede neural LSTM. Foi realizado um estudo do histórico e da arquitetura das redes neurais LSTM e através dos resultados experimentais, a rede neural foi ajustada para, em seu melhor desempenho, uma camada de 2.048 neurônios. Foram realizadas avaliações comparativas e estudos de ablação (ablation studies) para averiguar a qualidade do modelo proposto e os resultados foram positivos. Com os resultados obtidos utilizando os dados do alto-forno como uma série temporal, concluiu-se que o uso da LSTM é satisfatório e que aprimoramento destes experimentos poderá atender as necessidades desse setor siderúrgico.

Palavras-chave: Temperatura. Regressão. Rede Neural. LSTM. Ferro-Gusa. Alto-forno.

(9)

Due to the importance of the steel industry in the national economy and the inherent complexity of a blast furnace operation, it is necessary to study ways to optimize its operation and the consumption of resources. Thus, this work has as its main contribution the use of the LSTM (Long Short-Term Memory) neural network to perform the temperature prediction of the hot metal being produced. Considering the importance of temperature in this process and the various factors that can influence it, an automatic system for temperature prediction can support the work of blast furnace operators, in order to optimize the consumption of resources to keep the blast furnace operanting, which can also be reflected in the quality of the hot metal produced. Using the blast furnace operation data as a time series, several configurations of the LSTM neural network were evaluated. A study of the history and architecture of LSTM neural networks was performed and through the experimental results, the neural network was adjusted to, at its best performance, a layer of 2.048 units. Comparative evaluations and ablation studies were carried out to verify the quality of the proposed model and the results were positive.

With the results obtained from the experiments using the blast furnace operationg data as time series, it is concluded that the use of LSTM is satisfactory and that improvement of these experiments can meet the needs of this steel sector.

Keywords: Temperature. Regression. Neural Network. LSTM. Hotmetal. Blast furnace.

(10)

Figura 1 – Estrutura típica de um alto-forno . . . 13

Figura 2 – Finalidade do bias . . . 29

Figura 3 – Estrutura perceptron . . . 29

Figura 4 – Rede neural Feed-Forward com uma camada de entrada, uma camada oculta e uma camada de saída. . . 31

Figura 5 – Rede Neural Recorrente totalmente conectada . . . 32

Figura 6 – Célula de Rede Neural Recorrente . . . 33

Figura 7 – Exploding error problem . . . 34

Figura 8 – Legenda operações célula LSTM . . . 37

Figura 9 – Esquema célula LSTM . . . 37

Figura 10 – Arquiteturas LSTM e BiLSTM . . . 38

Figura 11 – Princípio básico bagging . . . 42

Figura 12 – Repetição da Última Temperatura. . . 52

Figura 13 – Ablação da LSTM usando apenas a temperatura como entrada. . . 53

Figura 14 – Random Forest utilizando todas as características como entrada. . . 53

Figura 15 – Modelo estatístico VAR . . . 53

Figura 16 – Média móvel com janela de tamanho 4. . . 54

Figura 17 – Média móvel com janela de tamanho 16. . . 54

Figura 18 – Rede neural com 1 camada LSTM com 2.048 neurônios. . . 54

Figura 19 – Rede neural com 2 camadas LSTM com 1.024 neurônios. . . 54

Figura 20 – Rede neural com 2 camadas BiLSTM com 1.024 neurônios. . . 55

Figura 21 – Rede neural com 2 camadas LSTM com 2.048 neurônios. . . 55

Figura 22 – Rede neural com 1 camada LSTM com 4 neurônios. . . 55

(11)

AF - Alto-forno

RMSE -Root Mean Square Error

R2 -R Squared

MdRAE -Median Relative Absolute Error MAPE -Mean Absolute Percentual Error

LSTM -Long Short-Term Memory Neural Network BiLSTM -Bidirectional LSTM

NMPC -Non-linear Model Predictive Control MHE -Moving Horizon Estimation

SVR -Support Vector Regression

RF -Random Forest

PCA -Principal Component Analysis

ARIMA -Autoregressive Integrated Moving Average IA - Inteligência Artificial

MLP -MultiLayer Perceptron

RFE -Recursive Feature Elimination RNN -Recurrent Neural Network FCM -Fuzzy C-Means

NARX -Nonlinear Autoregressive Network with Exogenous Inputs PCHIP -Piecewise cubic Hermite interpolating polynomial

GBRT -Gradient Boosted Regression Trees

GSPSO -Golden Sine Particle Swarm Optimization ANN - Redes Neurais Artificiais

FFND -Feed-Forward Neural Network BPTT -Backpropagation Through Time

(12)

CNN -Convolutional Neural Network VAR -Vector Autoregression

AIC -Akaike Information Criterion GPU -Graphics Processing Unit RAM -Random Access Memory

(13)

1 INTRODUÇÃO . . . . 12

1.1 PROPOSTA DE TRABALHO . . . 14

1.2 OBJETIVO GERAL . . . 15

1.3 OBJETIVOS ESPECÍFICOS . . . 15

1.4 ORGANIZAÇÃO DO TRABALHO . . . 15

1.5 PUBLICAÇÃO ASSOCIADA . . . 16

2 TRABALHOS CORRELATOS . . . . 17

2.1 PREDIÇÃO EM ALTO-FORNO UTILIZANDO TÉCNICAS DE IA . . . 17

2.2 PREDIÇÃO EM ALTO-FORNO COM TÉCNICAS DE IA E SÉRIES TEMPORAIS MULTIVARIADAS . . . 20

3 MATERIAIS E MÉTODOS . . . . 26

3.1 COLETA E PRÉ-PROCESSAMENTO BASE DE DADOS . . . 26

3.2 MODELOS PROPOSTOS . . . 28

3.2.1 Long Short-Term Memory - LSTM . . . 28

3.2.1.1 Perceptron . . . 28

3.2.1.2 Learning Rate e a Regra de Aprendizado Delta . . . 30

3.2.1.3 Redes Neurais Feed-Forward e o Backpropagation . . . 30

3.2.1.4 RNN . . . 32

3.2.1.5 Vanishing Error Problem . . . 34

3.2.1.6 LSTM . . . 35

3.2.1.7 Hiperparâmetros . . . 37

3.2.1.8 Explorando a LSTM . . . 39

3.2.2 Random Forest . . . 40

3.2.2.1 Árvores de decisão . . . 40

3.2.2.2 Bagging ouBootstrap aggregation . . . 41

3.2.3 Vetor Autoregressivo - VAR . . . 41

3.3 MÉTRICAS . . . 43

3.4 OS MODELOS NO CONTEXTO DA TEMPERATURA DO FERRO-GUSA EM UM ALTO-FORNO . . . 44

4 RESULTADOS E DISCUSSÕES . . . . 48

4.1 DISCUSSÕES GERAIS . . . 55

5 CONCLUSÕES E TRABALHOS FUTUROS . . . . 57

REFERÊNCIAS . . . . 58

(14)

1 INTRODUÇÃO

A siderurgia tem grande representatividade na economia do Brasil. De acordo com o Instituto Aço Brasil (BRASIL, 2021), a indústria brasileira do aço foi responsável por 1,7%

da produção mundial em 2020, posicionando o país na 9ª colocação no ranking mundial de produtores do item. Na América Latina, o Brasil manteve-se na 1ª posição, com 56,1%

da produção da região. No mesmo ano, a produção de ferro-gusa foi de aproximadamente 24.517.000 toneladas e a produção de aço bruto e de laminados foram de aproximadamente 30.971.000 e 21.664.000 toneladas, respectivamente (BRASIL, 2020).

Os alto-fornos são estruturas fundamentais na siderurgia e compõem sistemas extremamente complexos, a Figura 1 ilustra a estrutura típica de um alto-forno. Um alto-forno é construído com placas de aço soldadas e possuem sua superfície interna revestida por tijolos refratários, com o objetivo de proteger o corpo do alto-forno e melhorar a estabilidade da temperatura interna, reduzindo a perda de calor (SILVA, 2012). O alto-forno é carregado com carga metálica (sucata, sínter, pelotas, minério granulado, etc) e coque (material sólido obtido a partir do carvão mineral), inseridos no topo do alto-forno. O coque é usado para fornecer estrutura física para permeabilidade de gases para a redução do minério de ferro. O ar é enriquecido com oxigênio e depois aquecido com outros combustíveis auxiliares que são injetados no interior do alto-forno pelas ventaneiras. As ventaneiras estão na zona de combustão que alimenta a zona de fusão, onde a carga de entrada é fundida. O objetivo básico do alto-forno é retirar o oxigênio dos óxidos de ferro, produzindo o ferro-gusa, a principal matéria prima para a produção do aço. Outro coproduto do processo é a escória que, por ter a densidade mais baixa, permanece na camada superior da mistura.

Além dos materiais inseridos, um dos principais fatores que influenciam o processo de obtenção do ferro-gusa é a temperatura. A temperatura controla a taxa das reações químicas no processo de combustão e tem um efeito fundamental no produto final (MAJEDI;

SALEM, 2010). Se a temperatura começar a cair, a capacidade de fusão da carga metálica e do processo de redução diminuirão, logo o equilíbrio térmico do forno será reduzido.

Quando há um aumento na temperatura, a zona de fusão torna-se instável, comprometendo a qualidade do produto, a integridade do alto-forno e aumentando a possibilidade de acidentes. Desta forma, o controle da temperatura tem um papel fundamental e influencia diversos indicadores importantes como o custo com o consumo de energia e material, o controle do processo (que proporciona o aumento do tempo de vida do alto-forno e equipamentos envolvidos), a qualidade do produto final e a segurança. Em diversas siderúrgicas, o controle de temperatura é realizado por operadores que realizam ações de ajuste com o objetivo de manter a temperatura próxima a um valor que, de forma geral, fica em torno de 1.500^◦C, podendo variar por siderúrgica. Estas ações são escolhidas com base em uma série de parâmetros, e cada uma delas pode gerar efeitos de curto prazo

(15)

Figura 1 – Estrutura típica de um alto-forno

Fonte: adaptado de Silva (2012).

(minutos), médio prazo (1 a 2 horas) ou longo prazo (até 8 horas) (ASSIS; CARVALHO;

IRGALIYEV, 2019; JIMÉNEZ et al., 2004).

As informações coletadas para apoiar as ações de controle da temperatura são originadas de diversas fontes e contabilizam centenas de variáveis de processo que são periodicamente monitoradas e armazenadas. São coletadas temperaturas medidas por termopares espalhados por toda a carcaça do forno, dados dos materiais, medições da composição química dos gases no topo do alto-forno, resultados de cálculos clássicos realizados pela equipe de operação, variáveis de atuação da equipe de operação, pressões medidas por sensores, temperatura dos gases em diversas posições do alto-forno, carga térmica das ventaneiras e a temperatura do ferro-gusa que está sendo produzido (DÍAZ; FERNÁNDEZ; SUÁREZ-RAMÓN, 2019).

Uma característica importante no alto-forno é a existência de “atraso” de até 8 horas entre as ações dos operadores e a mudança da temperatura do ferro-gusa produzido. Existe, portanto, uma correlação temporal não óbvia entre as variáveis de controle e a temperatura do metal quente, resultando em mudanças ao longo do tempo.

É com base nas informações mencionadas que operadores do alto-forno interagem com o processo. Contudo, ações humanas em um ambiente tão complexo podem levar à resultados

(16)

sub-ótimos por diversos fatores, como excesso de tarefas e cansaço. Assim, é possível que a automatização deste processo, com o uso de métodos baseados em otimização, possibilite alcançar um aumento de produtividade, redução de custos, redução de acidentes, padronização de atuação entre equipes e aumento da tempo de vida útil dos equipamentos.

1.1 PROPOSTA DE TRABALHO

Os artigos de Lughofer et al. (2021) e de Boto et al. (2022) tratam do problema de predição da temperatura do metal líquido no alto-forno e utilizaram técnicas semelhantes às usadas nesse trabalho. O primeiro trabalho tratou os dados disponibilizados como uma série temporal, avaliou várias técnicas de seleção de características e teve como uma das premissas a interpretabilidade do modelo por parte dos especialistas, além de realizar a predição da temperatura para o momento seguinte e também para momentos posteriores. Já o segundo trabalho também explorou técnicas de seleção de características e não trabalhou os dados como série temporal, usando quatro algoritmos de regressão:

floresta aleatória, Gradient Boosting, XGBoost e redes neurais. O trabalho de Li et al.

(2019) investigou a predição do teor de silício no alto-forno, avaliando técnicas de seleção de características para realização da regressão através do LSTM (do inglês, Long Short-Term Memory).

Este trabalho propõe e avalia modelos para predição da temperatura do ferro-gusa produzido pelo alto-forno a partir de diversos dados. Dentre estes estão os dados de ações realizadas por operadores com objetivo de controlar a temperatura. Como as ações realizadas em um instante influenciam o processo por um período definido de tempo à partir da sua execução, a predição de temperatura se configura como um problema de regressão em séries temporais. Dados históricos sobre o processo foram coletados, pré-processados, organizados em série temporal e utilizados para treinar redes neurais do tipo LSTM (HOCHREITER; SCHMIDHUBER, 1997; GOODFELLOW; BENGIO;

COURVILLE, 2016) na tarefa de predição de temperatura do ferro-gusa.

Apesar de algumas semelhanças com trabalhos anteriores, salientamos que nosso trabalho se difere dos outros por considerar a experiência dos especialistas para a seleção de quase uma centena de variáveis relacionadas a um processo complexo e não linear, e por realizar experimentos com algoritmos visando entendimento da evolução no tempo da variação da temperatura do ferro-gusa, o que trás como benefícios a melhoria de sua qualidade e a estabilidade do alto-forno (SU et al., 2019). No processo de produção do ferro-gusa, a sua temperatura reflete o consumo de energia e o estado térmico do forno e sua qualidade.

Se a temperatura for muito alta, não apenas grandes quantidades de combustível são consumidas, mas também podem ocorrer fugas e causar enormes aumentos na perda de produtividade e no custo de manutenção. Inversamente, quando a temperatura é muito baixa, não só pode levar ao entupimento dos furos do alto-forno, mas também eleva o custo

(17)

de produção dos processos siderúrgicos subsequentes (ZHANG; KANO; MATSUZAKI, 2019b).

Há ainda a comparação da LSTM com outros modelos de regressão e também buscou-se explorar o uso LSTM variando a quantidade de recurso computacional necessário, visando demonstrar até onde o aumento do uso de recursos implica em melhores resultados.

Adicionalmente, também buscamos explorar a utilização de técnicas de data augmentation que geram padrões sintéticos visando aumentar a capacidade de generalização de modelos treinados e reduziroverfittingjunto a LSTM. A base de dados dos experimentos foi coletada de um alto-forno em produção entre os anos de 2019 e 2021. As métricas utilizadas para avaliar os resultados são: a raiz do erro médio quadrático (Root Mean Square Error - RMSE), o erro percentual médio absoluto (Mean Absolute Percentage Error - MAPE), o coeficiente de determinação R² (R squared), e o erro absoluto relativo mediano (Median Relative Absolute Error - MdRAE).

1.2 OBJETIVO GERAL

O objetivo principal deste trabalho é realizar a predição automática da temperatura do ferro-gusa de um alto-forno usando dados históricos de sensores e de ações dos operadores de um alto-forno em operação.

1.3 OBJETIVOS ESPECÍFICOS

Como objetivos específicos pretende-se realizar:

• Levantamento e análise dos dados disponíveis.

• Estudo bibliográfico para identificação dos métodos de predição mais usados na literatura.

• Seleção e pré-processamento de características.

• Investigação da viabilidade do uso da rede neural LSTM e coleta dos resultados.

• Comparação quantitativa e qualitativa dos resultados obtidos com a LSTM com métodos baseline.

1.4 ORGANIZAÇÃO DO TRABALHO

O restante do trabalho está organizado da seguinte forma: no Capítulo 2 é feita uma apresentação de trabalhos correlatos recentes. O Capítulo 3 descreve o problema, o conjunto de dados e os tratamentos realizados nesses dados, bem como apresenta os

(18)

modelos utilizados para predição da temperatura. No Capítulo 4 são apresentados os experimentos quantitativos e qualitativos realizados. No Capítulo 5 temos as considerações finais, conclusões do trabalho realizado até o momento e proposta de trabalhos futuros.

1.5 PUBLICAÇÃO ASSOCIADA

Os resultados preliminares deste trabalho foram publicados em:

R. Seidel, K. Komati, T. O. dos Santos, F. de A. Boldt, F. W. Mutz e L. C. Resendo, Predição da Temperatura do Ferro-Gusa em um Alto-Forno utilizando Redes Neurais LSTM, In: Computer on the Beach, 2022.

Adicionalmente, destacamos que o trabalho apresentado recebeu menção honrosa no evento.

(19)

2 TRABALHOS CORRELATOS

Neste capítulo, os trabalhos correlatos estão organizados nas seguintes seções: a Seção 2.1 apresenta trabalhos sobre predição na área de siderurgia que usam técnicas de IA; e a Seção 2.2 apresenta trabalhos que utilizam séries temporais multivariadas para predição de temperatura ou algum outro tipo de energia em alto-forno.

2.1 PREDIÇÃO EM ALTO-FORNO UTILIZANDO TÉCNICAS DE IA

Carvalho (2019) apresentou um método para a predição do consumo de combustível, teor de sílica (visando estabilidade térmica do processo) e teor de enxofre (visando garantir qualidade do produto a ser entregue a aciaria). Para desenvolver o sistema, foram comparadas três redes neurais artificiais com características diferentes e um ensemble formado pelas três. Ensembles são conjuntos de modelos com características distintas que trabalham de forma combinada para obter resultados melhores (MURPHY, 2012).

Utilizando como métrica o Root Mean Square Error (RMSE), foi demonstrado que o ensemble obteve melhores resultados na predição do consumo de combustível, teor de sílica e teor de enxofre.

O trabalho de Hashimoto et al. (2019) apresentou um guia operacional do controle de temperatura de um alto-forno. Baseado em um modelo transiente, o controle com modelo preditivo não-linear (Non-linear Model Predictive Control - NMPC) e a estimativa de horizonte móvel (moving horizon estimation - MHE) foram adotados para fornecer aos operadores ações de controle adequadas, minimizando a influência indesejável de perturbações. Os resultados da validaçãoonlinedemonstraram que o sistema de orientação operacional desenvolvido reduziu com sucesso a variância da temperatura do metal em 1,9^◦C.

Destacamos que este foi o único trabalho encontrado que se propõe a criar recomendações para os operadores de alto-forno para o controle da temperatura.

No trabalho de Zhang, Kano e Matsuzaki (2019a) também foi indicada a importância da predição da temperatura do metal quente em um alto-forno com objetivo de manter a operação estável no processo de fabricação de ferro. No trabalho foram avaliados diversos modelos preditivos, entre eles LSTM, regressão por vetores de suporte (Support Vector Regression - SVR) (MURPHY, 2012), florestas aleatórias (Random Forest - RF) (MURPHY, 2012), CNN, entre outros modelos. Os dados foram coletados em intervalos

de uma hora, totalizando 24.000 amostras, cada uma com 216 características mais a variável de saída. As amostras foram divididas aleatoriamente em três conjuntos: 75%

para treinamento, 10% para validação e 15% para teste. Foram utilizados como métricas de avaliação o RMSE e o R2 (r squared). Resultados demonstraram que redes neurais rasas são preferíveis em detrimento de redes profundas para a previsão instantânea de temperatura devido ao seu custo reduzido e que regressão por processos Gaussianos (Gaussian Process

(20)

Regression) e SVR são preferíveis para previsões de temperatura 1h ou 2h à frente.

O trabalho de Gois et al. (2019) propôs a realização da predição do consumo total de combustível no alto-forno utilizando uma rede neural MLP MultiLayer Perceptron, com uma camada de entrada e uma intermediária, cada uma com 19 neurônios, uma camada de saída com 1 neurônio. Utilizou-se 19 variáveis de entrada, com base nos dados históricos médios de operação de um alto-forno. Foi verificado que que o modelo apresentou bons resultados com R2 (R squared) de 0,837 e RMSE (root mean squared error) de 12,7.

No trabalho de Hu et al. (2021) é proposto um método de previsão da temperatura do alto-forno baseado em ensembles de modelos do tipo extreme learning machines (HUANG;

WANG; LAN, 2011). As características de entrada foram selecionadas usando um algoritmo de otimização evolucionário multi-objetivo. O modelo preditivo foi treinado buscando maximizar a acurácia e a robustez. A efetividade do método de predição proposto é verificado com experimentos baseados em dados de produção. Nos experimentos, os autores afirmam que obtiveram bons resultados utilizando 19 variáveis de entrada.

Em Gao-peng et al. (2021), foi realizada a predição do teor de silício no metal quente, uma vez que esse é apontado como fator de grande importância para o controle da temperatura do alto-forno. O trabalho combinou redes neurais convolucionais (Convolutional Neural Networks - CNN), mecanismo de atenção e redes neurais recorrentes (GOODFELLOW;

BENGIO; COURVILLE, 2016). Mecanismos de atenção são métodos que imitam as características da observação humana, ou seja, quando as pessoas observam algo, geralmente não alocam toda a sua energia em todos os objetos que veem, mas concentram sua atenção em alguns pontos importantes de observação. As partes que recebem atenção tendem a carregar informações mais valiosas do que aquelas que não recebem atenção. Prestar atenção aos detalhes dos principais alvos e suprimir informações inúteis trará um melhor efeito de ajuste ao modelo. Nesse trabalho, o mecanismo de atenção é introduzido na previsão da temperatura do alto-forno, de forma que ao prestar atenção à importância de cada variável para os dados gerais, o mecanismo de atenção aloca o peso das variáveis e distingue a importância das variáveis, o que pode reduzir o impacto do ruído de dados na previsão do modelo e tornar o modelo mais estável. Neste artigo foi utilizada uma fórmula de cálculo da matriz de peso do mecanismo de atenção definida pelo próprio autor. Foram utilizadas 7 variáveis de entrada que, de acordo com os autores, eram sujeitos a grandes ruídos, atrasos e flutuações. Resultados experimentais mostraram que o erro de predição deste modelo é inferior ao de outros modelos da literatura, o que fornece uma nova solução para pesquisas investigando o teor de silício em alto-fornos.

No trabalho apresentado por Cardoso, Felice e Baptista (2022) é proposta a utilização de uma rede neural artificial (ANN) para prever o teor de silício no metal quente. Para isso foi feita uma avaliação da utilização de variadas quantidades de neurônios na camada

(21)

oculta (10, 20, 25, 30, 40, 50, 75, 100, 125, 150, 170 e 200) buscando identificar o melhor número de neurônios nesta camada. A base de dados utilizada continha 82.500 amostras, sendo referente a 1.110 dias de operação, e foram selecionadas 75 características.

As características eram referentes a sopro de ar, gás na parte superior do alto-forno, temperaturas, combustível, minério, metal quente e escória. O tratamento de dados envolveu a remoção de outliers, normalização das variáveis e separação dos dados em dois grupos, 70.125 amostras para treino e 12.375 para teste. Foi utilizada a métrica MSE (mean square error) para comparação da performance dos modelos verificados. Foi identificado como melhor resultado a utilização de 30 neurônios na camada oculta, obtendo-se na predição do teor de silício um MSE de 0,0006.

O trabalho de Boto et al. (2022) apresentou três modelos orientados a dados para predição de indicadores relacionados ao processo de produção de aço. Foi utilizada uma nova abordagem baseada em ensembles, com métodos de seleção de recursos e quatro algoritmos de regressão - Random Forest, Gradient Boosting, XGBoost e redes neurais. O primeiro modelo (SM) criado foi para a predição do índice de fundibilidade, que é uma medida de desempenho do processo de refino, influenciada principalmente pela formação de micro-inclusões sólidas no metal líquido, que afeta a qualidade do aço. O segundo modelo (CC) foi criado para predição da temperatura no ponto médio da face superior do tarugo, antes da desempenadeira, durante o processo de lingotamento contínuo. Já o terceiro modelo (HR) foi criado para predição das temperaturas mínima e média do tarugo antes da laminação contínua. A métrica utilizada para seleção de características e medida da performance dos modelos construídos foi o Coeficiente de Determinação (R²). Para seleção de características foram testados os métodos utilizando Coeficiente de Correlação de Pearson, Regressão Linear Univariada, Informação Mútua, Seleção Recursiva e Meta Estimator, também foi considerada a utilização de todas as variáveis disponíveis. O melhor resultado da seleção de características foi obtido com o método Meta Estimator, reduzindo a quantidade de características do primeiro modelo (SM) de 54 características para 30, sendo o R² de 0,43, do segundo modelo (CC) de 26 características para 14, R² de 0,92 e do terceiro (HR), de 22 para 14 características com R² de 0,86. Em seguida, utilizando as características selecionadas através do uso do Meta Estimator, foram avaliados os quatro modelos de regressão, sendo que os resultados mostraram que o Random Forest foi o que apresentou os melhores resultados de forma quantitativa, obtendo um coeficiente de determinação no primeiro modelo (SM) de 0,44, no segundo (CC) de 0,94 e no terceiro (HR) de 0,98.

(22)

2.2 PREDIÇÃO EM ALTO-FORNO COM TÉCNICAS DE IA E SÉRIES TEMPORAIS MULTIVARIADAS

No trabalho de Sala et al. (2018) foi proposta uma abordagem baseada em dados organizados em série temporal multivariada para se realizar a predição da temperatura final do aço líquido produzido e a concentração química de fósforo, manganês, enxofre e carbono no forno que transforma metal líquido em aço líquido. A predição foi baseada em dois conjuntos de dados: o primeiro, um conjunto de características estáticas que demonstram o comportamento físico-químico do forno, que representou uma solução baseada em dados mais clássica. Este primeiro conjunto foi preparado após avaliação de todas as características estáticas disponíveis e seleção das mais relevantes, utilizando o modelo GBRT (Gradient Boosted Regression Trees); o segundo conjunto de dados foi composto pelas características do primeiro conjunto mais características de 10 sensores mais relevantes, selecionados por engenheiros de processo, organizados em série temporal.

Para composição deste segundo conjunto de dados foi utilizado o pacote Python TSFresh (CHRIST et al., 2018) que extrai diversas características de uma série temporal, dentre elas componentes de frequência, valores estatísticos, entropia, número de picos, entre vários outros. Os dois conjuntos possuiam 6.868 amostras que foram divididas em 70% para treino e 30% para teste, porém não foram embaralhadas para se preservar a série temporal.

Foi estudada a aplicação dos modelosRidge Regression,Random Forest Regression e GBRT (Gradient Boosted Regression Trees) para cada uma das cinco variáveis alvo. Optou-se por modelos interpretáveis de regressão visando medir e interpretar a importância das variáveis de entrada, o que poderia levar a uma expansão do conhecimento e melhoria no processo de produção de aço. Os hiper-parâmetros dos modelos foram ajustados por meio de busca aleatória e validação cruzada de 5 vezes no conjunto de treinamento.

Utilizando o primeiro conjunto de dados, um modelo GBRT foi treinado para cada uma das cinco variáveis alvo. Este conjunto de dados continha 265 características e os parâmetros foram otimizados utilizando busca aleatória. Este modelo GBRT foi utilizado para identificar as características mais relevantes neste conjunto de dados. Para todas as variáveis alvo observou-se o mesmo comportamento ao se analisar o gráfico de erro (RMSE) no treinamento e validação em 1000 iterações: um range ótimo 50 a 100 variáveis.

Considerando o custo/benefício, foram selecionadas 50 variáveis como sendo mais relevantes.

Considerando estas 50 variáveis selecionadas, o GBRT obteve o melhor resultados em todas as variáveis alvo, exceto na temperatura. Na temperatura, o modelo com melhor resultado foi o Ridge Regression com RMSE de 0,79 na etapa de teste. O segundo conjunto de dados continha 3088 características e também utilizando GBRT e analisando o gráfico de erro (RMSE) no treinamento e validação em 1000 iterações, optou-se por se trabalhar com as 300 características mais importantes. Estas 300 características foram concatenadas as outras 50 características do primeiro conjunto, e este conjunto final utilizado com os

(23)

modelos estudados. Com este segundo conjunto de dados o GBRT obteve melhor RMSE em todas as variáveis alvo, exceto na temperatura, na qual quem obteve o melhor resultado foi o Ridge Regression com RMSE de 0,73.

No trabalho de Li et al. (2019) foi posposto um modelo para prever o percentual de teor de silício no alto-forno, que utilizou a Random Forest - Recursive Feature Elimination (RF-RFE) em conjunto com a LSTM. A RF-RFE foi utilizada para selecionar conjuntos de características com as características mais discriminativas, visando a redução de dimensionalidade e a seleção de características, mantendo a informação útil e removendo informação redundante. O algoritmo RF-RFE é inicializado com todas as características disponíveis e são removidas características, a cada iteração, com a menor pontuação em um critério de classificação, até que o conjunto final seja obtido (YAN; ZHANG, 2015).

Em seguida a LSTM é utilizada para realização da predição do teor de silício de um processo não linear, trabalhando com uma série temporal multivariada. O conjunto de dados continha 8.000 amostras com 22 características, além da variável alvo “teor de silício”. Utilizando o processo com a RF-RFE com foram selecionadas 13 características que continham mais informação, visando a otimização do modelo. Foi feito o comparativo de performance da LSTM com uma rede neural recorrente (RNN) utilizando o conjunto de dados selecionado. A LSTM obteve melhor resultado, apresentando o RMSE de 0,036.

Concluiu-se que os resultados mostram que a LSTM pode alcançar um bom desempenho e pode fornecer melhor garantia para processos não lineares de sistemas de alto-fornos complexos, além de fornecer uma referência para os operadores do alto-forno avaliarem antecipadamente e manterem a qualidade do conteúdo de silício de metal quente dentro da faixa normal.

O trabalho de Fontes, Vasconcelos e Brito (2020) realizou a predição da temperatura e do teor de silício do metal quente através da proposta de um algoritmo baseado em Fuzzy C-Means (FCM), que permitiu que se divida e agrupe o conjunto de dados com base em um critério de otimização, em conjunto com um modelo autorregressivo não linear exógeno (NARX). O FCM foi utilizado para se fazer o agrupamento (clustering) dos conjuntos de dados. O clustering é uma técnica de modelagem de dados utilizada para agrupar um conjunto de objetos de tal maneira que os objetos no mesmo grupo (cluster) sejam mais semelhantes entre si do que os de outros clusters. Ou seja, o objetivo é obter similaridade dentro de clusters e dissimilaridade entre clusters. A dissimilaridade está ligada ao conceito de distância, calculada usando a diferença entre dois objetos a serem agrupados (XU; WUNSCH, 2005). Já o modelo NARX é um tipo de rede neural que simula o processo com base em variáveis de entrada e saída atrasadas (desta forma tendo relação com a características do alto-forno de um atraso nos efeitos provocados na temperatura do ferro-gusa por ações executadas pelos operadores (CHANDRASEKAR et al., 2017)). Utilizada em predições com séries temporais demonstrou capacidade de

(24)

localizar padrões de longo prazo (GUZMAN; PAZ; TAGERT, 2017).

Esse trabalho utilizou dados referentes a um período de 6 meses, totalizando 6.500 amostras, coletadas a cada 30 minutos. Para se obter dados uniformemente espaçados, o pré processamento dos dados se iniciou aplicando-se o algoritmo de interpolação Piecewise cubic Hermite interpolating polynomial (PCHIP) que tem como objetivo produzir interpoladores que preservem propriedades como monotonicidade ou convexidade dos dados. Este de interpolação satisfaz as condições de interpolação de Hermite, ou seja, a função é determinada por seus valores e os valores de sua primeira derivada nos pontos de interpolação (RABBATH; CORRIVEAU, 2019; MUSTAFA et al., 2013);

em seguida foram substituidos os valores faltantes pela média móvel (utilizando janela tamanho 5) da característica em questão; feita a substituição dos outliersutilizando desvio absoluto mediano (MAD - median absolute deviation); e em seguida foi feita a seleção de variáveis com apoio dos operadores que identificaram, entre centenas de características, as consideradas mais importantes em relação as variáveis alvo. Com as características selecionadas foi calculada a covariância entre elas e as variáveis alvo, características com grande covariância com as variáveis alvo foram mantidas. Também foi avaliado a redundância de características através da utilização coeficiente de regressão que descreve o grau de colinearidade entre duas características. Variáveis que apresentaram informações redundantes foram descartadas. Em seguida foi realizado a clusterização de características aplicando-se o algoritmo FCM que selecionou 19 características. O método proposto apresentou resultados muito bons, sendo utilizado o RMSE como métricas. Para predição da temperatura do metal quente obteve-se o RMSE de 0,955, já para a predição do teor de silício obteve-se o RMSE de 0,007.

No trabalho apresentado por Lughofer et al. (2021) foi proposto a predição de (i) temperatura do metal quente produzido, (ii) teor de silício e (iii) capacidade de refrigeração.

Este trabalho utilizou modelos com arquitetura fuzzy, ou seja, modelos que permitem expressar os relacionamentos entre as variáveis através de regras if-else, o que é mas facilmente interpretável trazendo desta forma transparência e entendimento para os especialistas. Partindo de um conjunto de 373 variáveis, foi feito um trabalho com especialistas para uma primeira seleção de variáveis, na qual foram selecionadas 30, sendo tais com amostras coletadas a cada 5 minutos. No trabalho considerou-se o delay time (tempo máximo que uma variável pode influenciar na predição de um valor futuro, estimado por especialistas) de 650 minutos para as variáveis alvo (i) temperatura do metal quente produzido e (ii) teor de silício. Já para o alvo (iii) capacidade de refrigeração o delay time foi considerado 8 horas. Para a predição da capacidade de refrigeração, visando garantir que variáveis que influenciam neste alvo não fossem perdidas, foram selecionadas mais 64 variáveis (sendo descartadas variáveis consideradas redundantes ou que explicitamente não apoiavam o objetivo). Para as duas primeiras variáveis alvo (temperatura metal quente

(25)

e teor de silício), a partir das 30 variáveis de entrada selecionadas, considerando-se o delay time de 650 minutos e a coleta de dados a cada 5 minutos, isso leva a 130 amostras anteriores (time lags) que podem influenciar na variável alvo. Estes time lags foram colocados juntos com as 30 variáveis iniciais, produzindo assim uma matriz com 30×130

= 3.900 características. Já para a predição da capacidade de refrigeração, foram 30 variáveis mais 64 adicionais, com delay time de 8h e amostras coletadas a cada 5 minutos, totalizando 96 time lags. Estes time lags foram colocados com as 30+64 variáveis iniciais, o que resultou em uma matriz com (30 + 64)×96 = 9.024 características.

Sobre os dados foi realizada a redução de dimensionalidade com a premissa de se manter modelos interpretáveis pelos especialistas, de forma a aumentar a possibilidade de fomentar interpretações adicionais no processo. A partir daí foi realizado um ranking de características de acordo com sua importância na predição das variáveis alvo. Para se classificar as características foi realizada uma seleção direta que executa uma ortogonalização da variável alvo da seguinte forma: (i) o algoritmo recebe como entrada a matriz com as características; (ii) para cada característica é executada uma regressão univariada da variável alvo e obtida a correlação entre elas; (iii) é selecionada a característica de maior correlação com a variável alvo, armazenada em uma lista de variáveis já selecionadas e removida a variável da lista de variáveis disponíveis; em seguida (iv) é realizada a regressão da variável alvo com a lista de variáveis já selecionadas; (v) é subtraída a contribuição de todas as variáveis já selecionadas da variável alvo (ortogonalização da variável dependente);

(vi) volta ao passo 2 e repita os passos seguintes até que o número de variáveis selecionadas seja o número máximo de variáveis; (vii) desta forma chega-se a uma lista ordenada de características mais importantes em relação a variável alvo.

O período de predição variou de 80 a 140 min, pois foi identificado com especialistas que este é o período mais importante a se trabalhar, para ser possível reagir adequadamente com antecedência quando os valores preditos não atenderem às expectativas dos operadores.

No caso da predição do teor de silício, as três técnicas de modelagem trabalhadas - (i) Fuzzy Axis-Parallel (clássica), (ii) Fuzzy Generalizada (proposta do trabalho) e (iii) Feedforward Neural Network - tiveram desempenho semelhante, principalmente para o horizonte de previsão de 100 min. Já no caso da predição da temperatura do metal quente, a modelagem fuzzy clássica (Fuzzy Axis-Parallel) acabou com erros significativamente piores e o modelo proposto (Fuzzy Generalizada) demonstrou melhores resultados, frente aos demais modelos trabalhados. Foi feita avaliação da predição em relação a tendência variável alvo utilizando o modelo proposto: para a variável alvo temperatura do metal quente observou-se que 80,36% das tendências puderam ser previstos corretamente com uma média atraso de 22,78 min; já para o teor de silício 74,75% das tendências podem ser previstas corretamente, com um atraso médio de 19,34 min; utilizando o modelo Feedforward Neural Network, respectivamente, apenas 75,89% e 70,63% das tendências

(26)

com atrasos semelhantes puderam ser previstos corretamente. Foi utilizada a métrica mean absolut error) (MAE) para comparar a performance dos modelos, de forma que, para o modelo proposto, considerando somente os pontos em que a tendência foi identificada corretamente, o MAE para a temperatura do metal quente de 5,12^◦, e considerando todas as amostras o MAE de 9,89^◦; já para o teor de silício o MAE de 0,053% em massa para as amostras com tendência corretamente identificada, e considerando todas as amostras obteve-se o MAE de 0,098% em massa o que levou ao entendimento de que, uma vez que o modelo reconhece a tendência correta, um erro muito menor (metade) da previsão pode ser esperado. Como a interpretabilidade era um dos objetivos do modelo proposto, identificou-se que o resultado obtido utilizou cinco variáveis de entrada para a predição da temperatura do metal quente. Para a predição da variável alvo “capacidade de refrigeração”

o modelo proposto produziu melhores resultados frente aos outros modelos utilizados.

A Tabela 1 apresenta um resumo dos trabalhos apresentados neste capítulo. As colunas da tabela apresentam, na sequência: a referência do trabalho; a variáveis alvo; os modelos propostos; as métricas utilizadas; e os resultados obtidos.

(27)

Tabela1–Trabalhoscorrelatos Autor(es)AlvoModeloMétricaResultado Carvalho(2019)-consumocombustível -teordesílica-3redesneuraisdiferentes -comitêcomas3redesneuraisRMSEComitêcommelhoresresultados Hashimotoetal.(2019)temperaturaalto-fornoModelopreditivonãolinear+ estimativadehorizontemóvelRMSE1,9◦C Zhang,KanoeMatsuzaki(2019a)temperaturadometalquente

-Partialleastsquares(PLS) -LocallyweightedPLS(LW-PLS) -Supportvectorregression(SVR) -Gaussianprocessregression(GPR) -RandomForest(RF) -outros

RMSE-momentoseguinte:1,142◦C(SVR) -próxima1h:9,924◦C(GPR) -próximas2h:12,901◦C(SVR) Goisetal.(2019)consumodecombustívelMultilayerPerceptronRMSE12,7Kg Gao-pengetal.(2021)teordesilícioRedeneuralconvolucional+ mecanismosdeatenção+ redesneuraisrecorrentesMSE0,00453% Cardoso,FeliceeBaptista(2022)teordesilícioRedeNeuralArtificial(ANN)MSE0,0006% Botoetal.(2022)

-índicedefundibilidade(SM) -temperaturanopontomédio dafacesuperiordotarugo(CC) -temperaturasmínimaemédia dotarugo(HR)

-RandomForest -GradientBoosting -XGBoost -Redesneurais

R2

RandomForest -SM:0,44 -CC:0,94 -HR:0,98 Salaetal.(2018)-temperaturadometalquente -concentraçãoquímicade diversoselementos

-GradientBoostedRegressionTrees (GBRT) -RidgeRegression,-RandomForestRegressionRMSE-temperatura:0,73◦C(RidgeRegression) Lietal.(2019)teordesilícioRandomForestcomeliminação recursivadecaracterística+LSTMRMSE0,036% Fontes,VasconceloseBrito(2020)-teordesilício -temperaturadometalquenteFuzzyC-Means(FCM)+NARXRMSE-teorsilício:0,007% -temperaturametalquente:0,955◦C Lughoferetal.(2021)-temperaturadometalquente -teordesilício -capacidadederefrigeração

-FuzzyAxis-Parallel(clássica) -FuzzyGeneralizada -FeedforwardNeuralNetworkMAE

-temperaturametalquente:9,89◦C (FuzzyGeneralizada) -teorsilício:0,098% (FuzzyGeneralizada) Fonte:Elaboradopeloautor.

(28)

3 MATERIAIS E MÉTODOS

Neste capítulo são descritos os procedimentos para coleta e pré-processamento da base de dados utilizada para treinar e avaliar os modelos. A seguir é apresentado uma descrição dos modelos e das métricas usadas para comparação dos resultados.

3.1 COLETA E PRÉ-PROCESSAMENTO BASE DE DADOS

Durante a produção do ferro-gusa, centenas de variáveis são coletadas descrevendo o estado do alto-forno e das substâncias que entram e saem do equipamento. Todos os dados, exceto aqueles relacionados à introdução (carga) e coleta (drenagem) de materiais são adquiridos a cada 30 minutos. Os dados de carga são coletados sempre que materiais são introduzidos no topo do alto-forno e os dados de drenagem do ferro-gusa são coletados no momento em que ele é retirado do alto-forno. Estas atividades podem ser realizadas em intervalos que variam de poucos minutos até uma hora. A temperatura do ferro-gusa, a variável que desejamos predizer, é medida durante a retirada do material.

Para uniformizar o período das medições e considerando a frequência da maioria dos sensores, foi convencionado que os pacotes de dados são produzidos a cada 30 minutos.

Um pacote de dados é um vetor de números reais contendo medições das variáveis. Nos casos em que foi realizada mais de uma medição no período, é retornada a média das medições da(s) variável(is) em questão. Durante toda a coleta da base de dados, não houve falta de dados nos intervalos de 30 minutos. Não foram coletadas amostras nos momentos em que o alto-forno estava fora de uso, sendo essa situação identificada através da variável de volume de sopro.

A base de dados utilizada contém 40.013 amostras, coletadas nos anos de 2019 a 2021.

Inicialmente, cada amostra possuía um total de 430 atributos provenientes de sensores (termopares na carcaça do alto-forno, sensores no topo do equipamento para medição de pressão, temperatura e composição química dos gases), ações de controle de operadores e resultados de cálculos metalúrgicos utilizados para avaliação do estado do processo. Com o objetivo de reduzir o número de atributos e identificar aqueles mais relacionados com os objetivos deste trabalho, foram realizadas entrevistas com especialistas e engenheiros de processo. Como resultado, foram selecionados 92 atributos para compor a base de dados final. Os atributos são descritos na Tabela 2. A coluna Nomeda tabela indica a categoria da fonte de dados, a coluna Qtd indica o número de valores naquela categoria, e a coluna Descrição traz uma explicação dos dados coletados. A variável objetivo, a temperatura do ferro-gusa, faz parte destes atributos.

Os dados foram organizados em três conjuntos sem interseção, a saber treino, validação e teste. A divisão foi feita com base nos períodos de aquisição. O conjunto de treino

(29)

Tabela 2 – Atributos selecionados para a base de dados.

Nome Qtd Descrição

Temperaturas 28 Temperaturas de sensores na região inferior do alto-forno.

Cargas Térmicas 38 Medição de energia perdida pelas ventaneiras existentes ao redor do alto-forno.

Indicadores Calculados

10 Indicadores produzidos por modelos metalúrgicos, sendo eles: índice de permeabilidade, taxa de carvão O₂, vazão gás rampa, relação CO/CO₂, velocidade de produção de ferro-gusa, coke rate, PCI rate calculado, redução direta, perda térmica do stave e umidade na carga (kg/tonelada gusa).

Carga de

Materiais

4 Dados dos materiais carregados no topo do alto-forno:

taxa de coque da carga, taxa de escória da carga, relação M/C (minério/coque) e umidade do coque.

Operação 8 Dados de operação do alto-forno: volume de sopro, umidade do ar de sopro, temperatura do ar de sopro, taxa de coque, taxa de O₂, pressão do ar de sopro, pressão do topo e composição de H₂ no topo.

Drenagem 4 Dados coletados na drenagem do ferro-gusa:

identificador do furo de drenagem, se é a primeira drenagem do furo, casa de corrida (lado do alto-forno) do furo e temperatura do ferro-gusa (alvo de predição deste trabalho).

compreende o período de 01/01/2019 até 20/11/2020 e contém com 31.455 amostras. O conjunto de validação compreende o período de 21/11/2020 até 31/12/2020 e contém com 2.000 amostras. O conjunto de teste compreende o período de janeiro a maio de 2021 e totaliza 6.558 amostras.

Os valores dos sensores e das temperaturas por vezes alcançavam valores na ordem dos milhares. Antes de usar os dados como entrada para a rede neural, eles foram normalizados.

Considere a situação em que os dados de um sensor são, em geral, próximos de zero e raramente existem picos com valores grandes. Mesmo com a normalização tradicional (de tornar a média zero e o desvio padrão unitário (LEARN, 2021)), os valores do sensor nos picos podem continuar tendo magnitude significativamente maiores que 1. Estes valores podem introduzir instabilidades no treinamento e nas predições feitas pelas redes neurais.

Assim, foi realizada a normalização de acordo com a Equação 1, ou seja, a partir da subtração da média, seguida pela divisão pelo máximo valor absoluto de forma a garantir que a magnitude máxima seria 1. Os parâmetros utilizados na normalização foram obtidos a partir do conjunto de treinamento e utilizados para normalizar todos os conjuntos.

(30)

Xn= X−X

|max(X)| (1)

sendo X_n o valor normalizado, X o valor de entrada, X a média dos valoresX.

3.2 MODELOS PROPOSTOS

3.2.1 Long Short-Term Memory - LSTM

As redes neurais do tipo Long Short-Term Memory (LSTM) são redes recorrentes muito utilizadas para processamento de séries temporais (HOUDT; MOSQUERA; NÁPOLES, 2020; HOCHREITER; SCHMIDHUBER, 1997; GOODFELLOW; BENGIO; COURVILLE, 2016). Devido à sua capacidade de armazenar informações em sua memória interna e ao uso de funções de ativação não-lineares em cada camada, o modelo LSTM pode capturar tendências não-lineares nos dados e lembrar informações anteriores por um longo tempo.

As Redes Neurais Artificiais (ANN) são inspiradas nos sistemas de aprendizado biológico e modelam suas funções básicas. Estes sistemas são redes complexas de neurônios interconectados. Nas redes neurais artificiais, os neurônios são simples unidades que aceitam um vetor de entradas de valores reais e produzem uma única saída de valor real.

O tipo de rede neural padrão mais comum é a Feed-Forward Neural Network (FFNN).

Nela os neurônios são organizados em camadas: uma camada de entrada, outra de saída e ao menos uma camada intermediária, chamada camada oculta (hidden layer). As FFND são limitadas a tarefas estáticas (não recorrentes – não dependem de valores passados dos parâmetros envolvidas). Modelos que trabalham tarefas dinâmicas consideram valores passados dos parâmetros envolvidos (recorrentes). É possível estender a FFNN para tarefas dinâmicas, sendo necessário para isso introduzir sinais de etapas anteriores de volta a rede.

Estas redes com conexões recorrentes são chamadas de Redes Neurais Recorrentes (RNN) que conseguem considerar informações de parâmetros passados (WILLIAMS; ZIPSER, 1989). Porém as RNN não conseguem armazenar informações para janelas temporais grandes, por conta de sinais de etapas anteriores desaparecerem (gradient vanishing problem) (NOH, 2021). Este problema de memória curta foi trabalhado com as Redes Neurais de Memória-Curta Longa (LSTM - Long Short-Term Memory Recurrent Neural Networks), que são um tipo de RNN. As redes LSTM são capazes de considerar informações de parâmetros anteriores em quantidades maiores de etapas de tempo (STAUDEMEYER;

MORRIS, 2019).

3.2.1.1 Perceptron

O tipo mais básico de neurônio artificial é chamado de Perceptron. Perceptrons consistem em um número de entradas externas, um limite e uma saída externa. Em muitas

(31)

Figura 2 – Finalidade do bias

Fonte: Elaborado pelo autor.

Figura 3 – Estrutura perceptron

Fonte: adaptado de Staudemeyer e Morris (2019).

configurações, há uma parte invariável da previsão, que é chamada de bias (viés). Por exemplo, considere uma situação em que as entradas de uma classificação binária, com amostras de −1 ou +1, são centradas na média, porém a média dessa predição não é 0, pois está fora do domínio. Isso tenderá a ocorrer em situações em que a distribuição da classe binária é altamente desequilibrado. Neste caso, a abordagem sem o bias não é suficiente para a previsão. Surge assim a necessidade de se incorporar uma variável de bias adicional b que captura essa parte invariável da previsão. Em resumo o bias é um termo que desloca o hiperplano de separação da origem do espaço das amostras, conforme demonstrado na Figura 2. O perceptron recebe um vetor de entrada de valores reais e todos eles são multiplicados por pesos, sendo adicionado ao resultado um valor fixo, o bias.

Assim, o bias ajuda a treinar o modelo mais rápido e com melhor qualidade.(AGGARWAL et al., 2018; SHYNK; BERSHAD, 1991). Esta estrutura pode ser visualizada na Figura 3.

Na fase de treinamento do perceptron, ele aprende esses pesos com base nos dados de

(32)

treinamento. São somados todos os valores de entrada, multiplicados pelos respectivos pesos, e o bias. O resultado é avaliado pela função de ativação, através da qual o neurônio é ativado ou não. A saída do perceptron é sempre booleana: se a soma for maior que o limite estabelecido (normalmente zero) o perceptron é ativado e a saída será 1; caso contrário o neurônio não é ativado, ou seja, a saída será −1. Esta saída é definida pela Equação 2 (AGGARWAL et al., 2018).

y =







1, se ^Pⁿ_i=1Wixi+b >0;

−1, caso contrário.

(2)

sendoW_io peso da entradai,x_i o valor da entrada ebobias. O somatório da multiplicação dos pesos pelos valores de entrada mais o bias é chamado de Estado do Perceptron. Um único perceptron é limitado a aprender somente funções que são linearmente separáveis.

3.2.1.2 Learning Rate e a Regra de Aprendizado Delta

O treinamento do perceptron se dá através da aprendizagem supervisionada, ou seja, durante a fase de treinamento o perceptron produz uma saída e a compara com a saída esperada do dado de treinamento. A partir da ocorrência do erro, os pesos são modificados de acordo com a taxa de aprendizado e, sendo o problema linearmente separável, ocorrerá a convergência (MURPHY; GRAY; STEWART, 2017). A taxa de aprendizado é uma constante que determina o quanto os pesos serão modificados. O vetor de pesos são inicializados de maneira randômica. O algoritmo somente irá convergir em direção a um ótimo se os dados de treinamento forem linearmente separáveis e se a taxa de aprendizado for suficientemente pequena. A regra de aprendizado Delta, base do algoritmobackpropagation, se aplica tanto aos casos que são linearmente separáveis ou não. São calculados os erros entre a saída calculada e a saída esperada dos exemplos de treinamento e modificados os pesos de acordo com a Equação 3.

W_i^′ =Wi+ ∆W_i; (3)

com ∆W_i =η(d−y)x_i (4)

sendo W o vetor de pesos, η a taxa de aprendizado (learning rate), d a saída esperada,y a saída calculada e x o valor da entrada. A modificação dos pesos se dá pela utilização do algoritmo de gradiente descendente que altera os pesos na direção do erro mínimo global.

3.2.1.3 Redes Neurais Feed-Forward e o Backpropagation

Nas redes neuraisFeed-Forward, os neurônios são organizados em camadas e cada neurônio calcula os pesos a serem aplicados em seus inputs. Os neurônios de entrada recebem

(33)

Figura 4 – Rede neuralFeed-Forward com uma camada de entrada, uma camada oculta e uma camada de saída.

Fonte: adaptado de Staudemeyer e Morris (2019).

sinais do ambiente em que estão e os neurônios de saída entregam os sinais ao ambiente.

Neurônios que não estão diretamente ligados ao ambiente ou seja, estão entre os neurônios de entrada e saída são chamados de neurônios ocultos (AGGARWAL et al., 2018). Essas redes não possuem ciclos e são totalmente conectadas, ou seja, cada neurônio provê um input para cada neurônio de uma camada posterior, como ilustrado na Figura 4. Os neurônios são ativados de acordo com a função de ativação utilizada, podendo ser a função escada (Equação 2) ou outra função, por exemplo, a função Sigmoid. Esta função transforma um valor de entrada x em um outro dentro do intervalo entre 0 e 1. Ela é descrita pela Equação 5.

y = 1

(1−e^−1.s) (5)

com s sendo s =

n

X

i=1

W_ix_i+b, (6)

sendo W_i o peso, x_i o valor da entrada e b o bias. As redes neurais Feed-Forward multicamadas que utilizam a funçãoSigmoidcomo função de ativação conseguem representar funções não lineares (STAUDEMEYER; MORRIS, 2019).

Uma das técnicas de aprendizado das redes neurais é o algoritmo de backpropagation. Essa técnica utiliza o gradiente descendente para atualizar os pesos em redes multicamadas.

Ele utiliza o erro gerado pela rede, iniciando a partir da camada de saída em direção a camada de entrada, buscando com a atualização dos pesos garantir menores taxas de erro, tornando o modelo mais confiável (WERBOS, 1990). Para que seja possível aplicar o algoritmo é necessário que a função de ativação seja diferenciável, de modo que se permita