OS MODELOS NO CONTEXTO DA TEMPERATURA DO FERRO-GUSA

Neste trabalho, as redes neurais recebem como entrada os últimos 32 pacotes de dados separados em janelas, coletados a cada meia-hora, e produzem como saída uma estimativa da temperatura de ferro-gusa que será obtida na próxima medição. É importante enfatizar que as temperaturas anteriores fazem parte dos pacotes de dados. A escolha por utilizar janelas de 32 pacotes foi baseado no fato de que existe uma “atraso” entre a ação sobre as variáveis de controle e a temperatura do ferro-gusa. Ações realizadas em até 8 horas antes da medição podem influenciar a temperatura do produto (CARVALHO, 2019). Há uma correlação de tempo complexa entre as variáveis de controle e a temperatura do metal quente, resultando em mudanças ao longo do tempo. A janela de 32 pacotes corresponde a 16 horas de operação. Foram utilizadas 16h, ao invés de 8h, para tornar o sistema robusto a possíveis atrasos nas medições. Portanto, para predizer a temperatura do instante t, a rede neural recebe como entrada as medições no intervalo de t−16h até t, inclusive as temperaturas, porém, excluindo a temperatura a ser predita.

Além da LSTM tradicional, também foi avaliada a performance da Bidirectional LSTM (BiLSTM) (GRAVES; SCHMIDHUBER, 2005). Este modelo processa a série temporal na direção crescente de tempo e na direção decrescente, integrando os dados em seu estado

interno. Esta estratégia permite que a rede utilize dados do início e do fim da série em suas predições sem a necessidade de memorizar estas informações por muitos passos.

Foram avaliadas diversas configurações de hiperparâmetros das redes neurais, incluindo o número de camadas, 1 ou 2, e o número de neurônios por camadas, variando de 4 a 2.048.

O estado da rede ao final do processamento da série temporal é utilizado como entrada para uma camada de saída com 1 neurônio e uma função de ativação linear. Também foram realizados experimentos adicionais com a LSTM, com duas camadas de 2.048 neurônios, utilizando técnicas de aumento de dados (data augmentation) para gerar padrões sintéticos visando aumentar a capacidade de generalização de modelos treinados e reduzir overfitting (IWANA; UCHIDA, 2021). Embora tenha sido aplicada a técnica de jittering, através da qual se simula a adição de ruído no conjunto de dados, a fim de aumentar a robustez dos dados de treinamento contra vários tipos de sensores e seus ruídos multiplicativos e aditivos (RASHID; LOUIS, 2019), os resultados destes experimentos indicaram que o uso destas técnicas adicionais não levaram a obtenção de melhores resultados.

Para o treinamento das redes neurais, foi utilizado o otimizador Adam (KINGMA; BA, 2014) e batches de tamanho 32. A rede foi treinada por 1.000 épocas com taxa de aprendizado com decaimento linear iniciando em 10⁻³ e com valor final de 10⁻⁶. Ao final do treinamento foi selecionado o modelo com melhor performance no conjunto de validação.

O conjunto de teste foi utilizado para avaliar os modelos.

A performance das redes neurais LSTM e BiLSTM foram comparadas com algunsbaselines para averiguar a qualidade de suas predições. O primeiro baseline é um método que prediz a temperatura do instante t como sendo igual a temperatura do instante t−1. Métodos de aprendizado de máquina para séries temporais comumente apresentam comportamento similar à esta estratégia visto que ela, em geral, leva à bons valores nas métricas de avaliação. Contudo, esta função não é desejável na prática, uma vez que ela desconsidera as tendências reais dos dados e funções mais sofisticadas que podem ser calculadas à partir das entradas e pode ser que se torne imprecisa em diversas situações, já que a temperatura pode mudar rapidamente e de forma imprevisível, assim, se a temperatura anterior estiver incorreta, a predição da temperatura continuará a ser feita de maneira incorreta.

O segundobaselineé a predição da temperatura como sendo a média móvel da temperatura do ferro-gusa. A média móvel consiste em calcular a média aritmética das observações mais recentes da série temporal (MORETTIN; TOLOI, 2018). De acordo com Silva et al. (2016), a média móvel pode ser um método eficiente de estimativa quando a variável é estacionária, i.e., quando seus valores variam em torno de um valor médio. Foram avaliadas médias móveis considerando 4, 8 e 16 valores de temperatura mais recentes. Com janelas menores que 4, a média móvel passa a se comportar como o método que repete as temperaturas anteriores. O melhor resultado foi obtido usando a janela de 4 valores, mas

também são reportados os valores com a janela de tamanho 16, visto que é o tamanho de janela usado pelos demais modelos.

Adicionalmente, foi realizado um estudo de ablação para verificar se as variáveis medidas estavam de fato contribuindo para predições feitas pelas redes neurais (MEYES; SCHNEIDER;

MEISEN, 2020). A análise por ablação (ablation analysis) é útil na busca de arquiteturas otimizadas de redes neurais profundas e para examinar a robustez de uma rede neural a danos estruturais. A pergunta à qual a análise por ablação quer responder é qual a relevância individual e do papel efetivamente desempenhado por seus módulos internos para a manutenção do desempenho global deste método de aprendizado. Assim, uma versão da LSTM foi treinada usando como entrada apenas as 32 temperaturas anteriores (sem os dados das demais variáveis). Neste experimento, foi utilizada uma rede com duas camadas LSTM e foram avaliadas configurações com 128 e 1.024 neurônios. Os resultados desta avaliação, a partir do conjunto de teste, foram que a rede com duas camadas de 128 neurônios obteve RMSE de 9,60^◦C, com tempo de treinamento de 4,17 horas, enquanto a rede com 1.024 neurônios obteve-se RMSE de 9,57^◦C, com tempo de treinamento de 7 horas. O melhor resultado obtido foi alcançado com 1.024 neurônios e, portanto, os resultados são reportados para esta configuração.

Adicionalmente foram avaliados outros dois modelos: oRandom Forest (RF) e o Vetor Autoregressivo (VAR). Para o modelo RF foram utilizados os valoresdefaultde hiperparâmetros do modelo Random Forest Regressor (LEARN, 2022). O resultado desta avaliação obtido a partir do conjunto de teste foi um RMSE de 9,75^◦C. Já no caso do modelo VAR foi utilizado o modelo do pacote statsmodels (STATSMODELS, 2022b) e realizadas as seguintes etapas:

• Foi realizado o Teste Aumentado de Dickey-Fuller (Augmented Dickey-Fuller Test) para verificação de estacionariedade de todas as características da série temporal (MUSHTAQ, 2011), conforme necessidade descrita na Seção 3.2.3. Foi identificado que apenas uma das características, do total de 92, poderia representar uma série temporal não estacionária, relacionada ao grupo de Cargas Térmicas (ver Tabela 2); por conta disso a característica foi removida dos conjuntos de treino, validação e teste somente para o experimento com o uso do modelo VAR.

• Em seguida foi realizado o Teste de Causalidade de Granger (STATSMODELS, 2022a), no qual foram verificados de 1 até 32 atrasos (maxlag = 32) utilizando todas as características disponíveis, exceto a removida por não ter comportamento estacionário.

O Teste de Causalidade de Granger testa a hipótese nula, ou seja, que os valores passados em um série temporal não causam as outras séries temporais, de forma que, se o valor obtido neste teste for menor o nível de significância p-value de 0,05, pode-se rejeitar com segurança a hipótese nula (ROSSI; WANG, 2019).

– Inicialmente foram mantidas no modelo apenas as características com p-value menor que 0,05 em relação a variável alvo, que totalizou 55 características, entretanto ao se executar o modelo VAR com esta quantidade de características o processo falhava por falta de recursos de memória RAM (o modelo necessitava alocação de centenas de GB de memória, tentou-se executar em outros equipamentos, dispondo inclusive de GPU, porém a falha foi a mesma).

– Por conta disso foram selecionadas apenas as características p-value igual a zero, desta forma foram selecionadas 25 características além da variável alvo (ver Tabela 2), sendo:

∗ 8 características do grupo de Temperaturas;

∗ 5 do grupo de Cargas Térmicas;

∗ 7 características do grupo de Indicadores Calculados;

∗ 1 do grupo de Carga de Materiais;

∗ 4 características do grupo de Operação.

• Com estas características, foi executado o modelo VAR recebendo o parâmetro p (quantidade de atrasos) de 1 até 32. Foi selecionado o modelo que utilizou p igual a 26, pois apresentou o menor AIC (Akaike Information Criterion), que é uma métrica que mensura a qualidade de um modelo estatístico, definida como a Equação 18, e permite a comparação de modelos; adicionalmente, menores valores de AIC representam uma maior qualidade (CAVANAUGH; NEATH, 2019). Ao final o modelo VAR treinado obteve RMSE de 23,94^◦C a partir do conjunto de teste.

AIC = 2k−2ln(L) (18)

sendo, L o valor máximo da função de probabilidade do modelo e k o número de parâmetros estimados (PINTO, 2016).

4 RESULTADOS E DISCUSSÕES

Com objetivo de verificar se o treinamento das redes neurais foram bem sucedidos e o nível de generalização para dados diferentes daqueles usados no treinamento, a Tabela 3 traz o RMSE de diversas configurações das redes para os conjuntos de validação e teste. A coluna NC representa o número de camadas das redes, a coluna NN representa o número de neurônios e a coluna TT representa o tempo de treinamento em horas. A tabela permite avaliar se as redes foram capazes de aprender o conjunto de treino, se houve generalização para dados novos considerando a performance nos conjuntos de validação e teste, e se os resultados para o conjunto de validação foram superotimistas dado que foram escolhidos os modelos com melhor performance neste conjunto.

Tabela 3 – Resultado do treinamento das LSTMs.

Tipo NC NN TT-horas RMSE-^◦C (Validação)

RMSE-^◦C (Teste)

LSTM 1 4 2,5 10,98 13,63

1 8 2,5 10,63 14,00

1 16 2,5 12,45 16,29

1 32 2,5 10,87 14,81

1 64 2,5 10,43 15,49

1 128 3 9,99 14,72

1 256 3 10,09 13,48

1 512 3 9,75 12,90

1 1024 3,5 9,65 12,37

1 2048 8 9,75 11,75

2 4 4 10,65 13,18

2 8 4 11,01 13,54

2 16 4 11,54 16,42

2 32 4 10,32 14,83

2 64 4 10,45 14,63

2 128 4 10,01 13,03

2 256 4 9,80 13,02

2 512 4 9,75 13,25

2 1024 7,5 9,71 11,87

2 2048 12 9,69 12,13

BiLSTM 2 128 4 10,15 13,95

2 1024 18 9,83 12,46

Random Forest - - 0,08 8,53 9,75

VAR - - 0,58 19,90 23,94

Como pode ser observado analisando a coluna do RMSE no conjunto de validação, todas as configurações do modelo LSTM foram capazes de obter uma boa performance no conjunto de validação. Em geral, o erro neste conjunto diminuiu à medida que o número de neurônios aumentava. Contudo, utilizar quantidades maiores de neurônios não levou a melhorias significativas, como pode ser observado verificando-se a pequena variação do RMSE das redes com 128 neurônios até 2.048 neurônios. Nas redes de 1 camada com

2.048 neurônios e 2 camadas com 1.024 e 2.048 neurônios observou-se uma grande variação no tempo de treinamento. A configuração de 2.048 neurônios na LSTM com 2 camadas (RMSE de 9,69^◦C) e de 1.024 neurônios na LSTM com 1 camada (RMSE de 9,65^◦C) foram aquelas que alcançaram menor RMSE no conjunto de validação. O modelo Random Forest apresentou a melhor performance no conjunto de validação obtendo o RMSE de 8,53^◦C no conjunto de validação, já o modelo VAR obteve obteve o maior RMSE, com valor de 19,90^◦C. Outro ponto a se destacar é o tempo de treinamento bem inferior destes dois últimos modelos frente aos modelos LSTM, uma vez que oRandom Forest teve o tempo de treinamento de 0,08h (aproximadamente 5 minutos) e o VAR de 0,58h (aproximadamente 35 minutos); os modelos LSTM tiveram como menor tempo de treinamento 2,5 horas e como maior tempo, 12 horas. O modelo BiLSTM com 2 camadas de 1024 neurônios teve o maior tempo de treinamento, 18 horas.

O aumento no número de neurônios também levou a ganhos de performance no conjunto de teste, como pode ser observado analisando a última coluna da tabela. Este fato sugere que não houve superajuste (overfitting) aos dados de treinamento. A configuração de 2.048 neurônios na LSTM com 1 camada (11,75^◦C) e de 1.024 neurônios na LSTM com 2 camadas (11,87^◦C) foram as redes com o menor erro neste conjunto (marcados em itálico na tabela), mesmo sendo aquelas com os maiores números de parâmetros. O melhor resultado obtido dentre as configurações avaliadas do modelo LSTM foi através da rede com 2.048 neurônios na LSTM com 1 camada (11,75^◦C) - marcado em negrito na tabela.

Não foram avaliadas redes maiores por limitações dos equipamentos disponíveis. O modelo Random Forest obteve o melhor erro no conjunto de teste, com RMSE de 9,75^◦C, já o modelo VAR obteve o maior erro obtendo RMSE de 23,94^◦C.

A Tabela 4 compara a performance dos modelos neurais, com os modelos adicionais (Random Forest e VAR) e com os baselines propostos no conjunto de teste, sendo apresentadas as métricas obtidas de MAPE, R² e percentual de erro inferior a 7^◦C e inferior a 20^◦C, além da métrica RMSE; está em negrito o melhor resultado na respectiva métrica. As linhas LSTM e BiLSTM trazem os melhores valores alcançados usando estes modelos. A linha Repetição traz os resultados para o método que repete a última temperatura medida. A linha LSTM (Ablação) apresenta os resultados para a LSTM que não recebe como entrada os valores das variáveis do processo, mas apenas as temperaturas.

Por fim, as linhas Média Móvel J4 e Média Móvel J16 trazem os resultados obtidos com janelas de tamanho 4 e 16, respectivamente. Observa-se que o modelo estatístico VAR não obteve boa performance frente aos modelos LSTM e Random Forest, apresentando o maior RMSE, os menores percentuais de erros nas faixas destacadas, o menor R² e um dos maiores percentuais MAPE. Em relação a métrica MAPE, pode-se observar que os modelos que os modelos que obtiveram menores RMSE tiveram menores MAPE, sendo que os modelos LSTM (Ablação), LSTM e Random Forest apresentaram os melhores

resultados nesta métrica.

Tabela 4 – Performance dos modelos no conjunto de teste.

Método RMSE-^◦C MAPE-% R² % ≤ 7^◦C % ≤ 20^◦C

LSTM (Ablação) 9,57 0,57 0,84 74,51 94,20

Repetição 10,20 1,70 0,82 76,66 93,51

Média Móvel J4 12,75 1,63 0,71 56,11 89,30

Média Móvel J16 16,42 1,43 0,53 37,08 80,03

LSTM 11,75 0,58 0,75 52,48 92,03

BiLSTM 12,46 0,63 0,72 48,35 90,33

Random Forest 9,75 0,39 0,83 73,05 93,84

VAR 23,94 1,26 0 24,78 61,48

Foi comparado o desempenho dos modelos neurais e dos modelos Random Forest e VAR com os modelos baseline (Repetição, Média Móvel J4 e Média Móvel J16) e o modelo de Ablação utilizando a métrica MdRAE, o que pode ser visto na Tabela 5. Verifica-se que o desempenho da LSTM em comparação aos baselines é melhor (quando MdRAE < 1).

Entretanto, quando se compara os modelos LSTM com o modelo LSTM (ablação) observa-se melhor desempenho do modelo ablação (quando MdRAE > 1), porém observou-se um desempenho quase equivalente (quando MdRAE = 1), sendo o modelo LSTM (ablação) um pouco superior, quando comparado com a LSTM com 1 camada e 2048 neurônios (marcado em negrito na tabela). Quanto ao modelo Random Forest observa-se melhor performance quando comparados aos baselines (quando MdRAE < 1), exceto em relação ao baseline Média Móvel J4. Já o modelo VAR apresentou melhor performance apenas quando comparado ao modelo de Ablação (quando MdRAE > 1). Já a Tabela 6 apresenta a comparação dos modelos LSTM com os modelos Random Forest e VAR utilizando também a métrica MdRAE. Pode-se observar que todos os modelos LSTM avaliados obtiveram desempenho superior (quando MdRAE < 1) quando comparados com os outros dois modelos.

As Figuras 12 a 22 comparam a evolução real da temperatura e os valores preditos pelos modelos em 200 amostras do conjunto de teste. O mesmo período é exibido em todas as figuras para permitir a comparação das predições, exceto para o modelo estatístico VAR, para o qual são apresentadas as 200 amostras inicias do conjunto de teste. Nas figuras, a legenda indica os modelos que geraram as curvas, o eixo x é o número da amostra e o eixo y é a temperatura.

Os métodos que alcançaram menor RMSE no teste final foram, respectivamente, a LSTM treinada utilizando apenas as temperaturas como entrada com RMSE de 9,57^◦C, MAPE de 0,57% e R² de 0,84, e o métodoRandom Forest com RMSE de 9,75^◦C, MAPE de 0,39%

e R² de 0,83. Apesar da métrica melhor, pode ser notado nas Figuras 13 e 14 que esta versão da LSTM e o métodoRandom Forest se aproximaram ao comportamento de repetir a temperatura anterior (comportamento semelhante ao método de Repetição - Figura 12).

Tabela 5 – Comparativo de desempenho entre os modelos e osbaselinesno conjunto de teste utilizando a métrica MdRAE

Tipo NC NN MdRAE

Repetição

MdRAE Média Móvel J4

MdRAE Média Móvel J16

MdRAE LSTM (Ablação)

LSTM 1 4 0,38 0,40 0,45 1,20

1 8 0,40 0,42 0,49 1,31

1 16 0,49 0,52 0,58 1,60

1 32 0,44 0,46 0,53 1,42

1 64 0,49 0,51 0,58 1,55

1 128 0,44 0,46 0,54 1,42

1 256 0,41 0,42 0,48 1,31

1 512 0,38 0,40 0,46 1,23

1 1024 0,35 0,37 0,44 1,16

1 2048 0,32 0,34 0,39 1,03

2 4 0,36 0,38 0,44 1,15

2 8 0,39 0,41 0,47 1,24

2 16 0,52 0,54 0,63 1,70

2 32 0,45 0,48 0,54 1,45

2 64 0,45 0,48 0,54 1,46

2 128 0,38 0,40 0,45 1,21

2 256 0,38 0,40 0,46 1,21

2 512 0,38 0,40 0,46 1,25

2 1024 0,33 0,35 0,40 1,08

2 2048 0,34 0,37 0,42 1,11

BiLSTM 2 128 0,41 0,43 0,50 1,33

2 1024 0,35 0,38 0,43 1,17

Random Forest - - 0,67 1,44 0,39 0,16

VAR - - 2,40 5,00 1,76 0,79

Este fato se manifesta no gráfico como um desalinhamento nas curvas causado pelo atraso nas predições. Como o ambiente interno do alto-forno é complexo, existem muitos fatores correspondentes que influenciam a temperatura do ferro-gusa produzido. Assim, entende-se que é importante utilizar um modelo que consiga identificar e se adaptar aos diversos fatores que podem causar a variação na temperatura, utilizando os parâmetros anteriores de características relacionadas ao alto-forno como entrada do modelo. A temperatura do ferro-gusa é um fator importante que pode refletir a condição do alto-forno e a qualidade do ferro-gusa (SU et al., 2019), logo conclui-se que, em geral, repetir a temperatura anterior não é uma estratégia desejável.

O modelo estatístico VAR apresentou o maior erro dentre os modelos avaliados, no qual foi obtido RMSE igual a 23,94^◦C. Analisando o gráfico da evolução real com os valores preditos na Figura 15 observa-se que o modelo não conseguiu se adaptar às especificidades do problema, além de apresentar a característica descrita por Villani (2009) que indicam que previsões de longo prazo do modelo VAR convergem para a média incondicional, de forma

Tabela 6 – Comparativo de desempenho entre modelos LSTM e os modelosRandom Forest e VAR no conjunto de teste utilizando a métrica MdRAE

Tipo NC NN MdRAE

Random Forest

MdRAE VAR

LSTM 1 4 0,40 0,51

1 8 0,43 0,55

1 16 0,53 0,67

1 32 0,47 0,60

1 64 0,53 0,65

1 128 0,48 0,58

1 256 0,43 0,54

1 512 0,41 0,51

1 1024 0,38 0,47

1 2048 0,35 0,43

2 4 0,39 0,49

2 8 0,42 0,52

2 16 0,56 0,69

2 32 0,48 0,62

2 64 0,49 0,61

2 128 0,41 0,51

2 256 0,41 0,51

2 512 0,42 0,53

2 1024 0,36 0,46

2 2048 0,37 0,48

BiLSTM 2 128 0,44 0,54

2 1024 0,38 0,49

Figura 12 – Repetição da Última Temperatura.

Fonte: Elaborado pelo autor.

que é possível confirmar a ocorrência desta característica ao se verificar o comportamento da temperatura predita.

O melhor resultado com a média móvel foi alcançado realizando a média de 4 valores anteriores com RMSE de 12,75^◦C, MAPE de 1,63% e R² de 0,71. As Figuras 16 e 17 comparam as predições obtidas usando as janelas de tamanho 4 e 16, respectivamente.

Observa-se uma grande suavização de picos e vales em relação às temperaturas reais. Além disso, é visível a existência de um atraso nas predições que se torna mais evidente com o aumento da janela. A média móvel não considera tendências para prever valores futuros

Figura 13 – Ablação da LSTM usando apenas a temperatura como entrada.

Fonte: Elaborado pelo autor.

Figura 14 – Random Forest utilizando todas as características como entrada.

Fonte: Elaborado pelo autor.

Figura 15 – Modelo estatístico VAR

Fonte: Elaborado pelo autor.

nem utiliza informações das variáveis de controle.

Dentre as redes neurais que receberam as entradas completas, a que apresentou o menor erro foi a que utilizou 1 camada LSTM com 2048 neurônios. Ela alcançou um RMSE 11,75^◦C, MAPE de 0,58% eR² de 0,75. As configurações com 2 camadas LSTM e BiLSTM com 1024 neurônios e com 2 camadas com 2048 neurônios também foram satisfatórias com RMSE de 11,87^◦C, 12.46^◦C e 12,13^◦C, respectivamente; e MAPE de 0,59%, 0,63% e 0,61%, respectivamente. As Figuras 18, 19, 20 e 21 comparam as predições feitas por estes 4 modelos. As curvas para as redes com 1 camada LSTM e 2048 neurônios e 2 camadas LSTM com 1024 e 2048 neurônios são similares e não aparentam possuir atraso. O fato destas redes apresentarem valores pequenos de erro e, aparentemente, não terem aprendido funções triviais e indesejáveis, indicam que elas são os melhores modelos para uso em um contexto real. A curva da rede com camadas BiLSTM aparenta atraso em alguns trechos do início e meio do gráfico.

A rede neural com uma camada LSTM e 4 neurônios apresentou RMSE maior que as anteriores, mas ainda assim razoáveis. Em princípio, elas poderiam ser consideradas como

Figura 16 – Média móvel com janela de tamanho 4.

Fonte: Elaborado pelo autor.

Figura 17 – Média móvel com janela de tamanho 16.

Fonte: Elaborado pelo autor.

alternativas de baixo custo em contextos com recursos limitados e possui ainda o menor tempo de treinamento dentre as redes neurais. A Figura 22 traz a curva que descreve as predições aprendidas por este modelo. Embora a curva apresente atrasos eventuais e uma suavização esperada devido ao número limitado de parâmetros, a rede é capaz de predizer os valores em vários trechos.

Figura 18 – Rede neural com 1 camada LSTM com 2.048 neurônios.

Fonte: Elaborado pelo autor.

Figura 19 – Rede neural com 2 camadas LSTM com 1.024 neurônios.

Fonte: Elaborado pelo autor.

Figura 20 – Rede neural com 2 camadas BiLSTM com 1.024 neurônios.

Fonte: Elaborado pelo autor.

Figura 21 – Rede neural com 2 camadas LSTM com 2.048 neurônios.

Fonte: Elaborado pelo autor.

Figura 22 – Rede neural com 1 camada LSTM com 4 neurônios.

Fonte: Elaborado pelo autor.

No documento Predição da temperatura do ferro-gusa em um alto-forno utilizando redes neurais LSTM (páginas 46-57)