PREVISÃO DO CONSUMO DE GÁS NO PROCESSO DE PELOTIZAÇÃO ATRAVÉS DE SÉRIES TEMPORAIS MULTIVARIADAS

(1)

PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA

VINÍCIUS MARQUES DE OLIVEIRA

Serra 2022

(2)

PREVISÃO DO CONSUMO DE GÁS NO PROCESSO DE PELOTIZAÇÃO ATRAVÉS DE SÉRIES TEMPORAIS MULTIVARIADAS

Dissertação apresentada ao Programa de Pós- Graduação em Computação Aplicada do Instituto Federal do Espírito Santo, como requisito parcial para o grau de mestre em Computação Aplicada.

Orientador: Prof. Dr. Jefferson Oliveira Andrade Orientadora: Profª. Drª. Karin Satie Komati

Serra 2022

(3)

Bibliotecário: Valmir Oliveira de Aguiar - CRB6/ES 566 O48p

2022 Oliveira, Vinícius Marques

Previsão do consumo de gás no processo de pelotização através de séries temporais multivariadas / Vinícius Marques de Oliveira. - 2022.

93 f.; il.; 30 cm

Orientador: Prof. Dr. Jefferson Oliveira Andrade.

Coorientador: Prof. Drª. Karin Satie Komati

Dissertação (mestrado) - Instituto Federal do Espírito Santo, Programa de Pós-graduação em Computação Aplicada, 2022.

1. Redes neurais (Computação). 2. Pelotização. 3. Gás -

aplicação. 4. AutoML. 5. Aprendizagem por computador. I. Andrade, Jefferson Oliveira. II. Komati, Karin Satie. III. Instituto Federal do Espírito Santo. IV. Título.

CDD 006.32

(4)

PREVISÃO DO CONSUMO DE GÁS NO PROCESSO DE PELOTIZAÇÃO ATRAVÉS DE SÉRIES TEMPORAIS

MULTIVARIADAS

Dissertação apresentada ao Programa de Pós-Graduação em Computação Aplicada do Instituto Federal do Espírito Santo, como requisito parcial para obtenção de título de Mestre em Computação.

Aprovado em 08 de dezembro de 2022.

COMISSÃO EXAMINADORA

Dr. Jefferson Oliveira Andrade Instituto Federal do Espírito Santo

Orientador

Dr.ª Karin Satie Komati Instituto Federal do Espírito Santo

Orientadora

Dr. Leandro Colombi Resendo Instituto Federal do Espírito Santo

Membro Interno

Dr. Henrique Silva Furtado Consultor Independente

Membro Externo

Dr. Jorge Leonid Aching Samatelo Universidade Federal do Espírito Santo

Membro Externo

(5)

SISTEMA INTEGRADO DE PATRIMÔNIO, ADMINISTRAÇÃO E CONTRATOS

Emitido em 15/03/2023

FOLHA DE ROSTO Nº 24/2023 - SER-DPPGE (11.02.32.11) NÃO PROTOCOLADO)

(Nº do Protocolo:

(Assinado digitalmente em 15/03/2023 16:40 ) JEFFERSON OLIVEIRA ANDRADE

COORDENADOR DE CURSO - TITULAR SER-CCSI (11.02.32.01.08.02.04)

Matrícula: 1208144

(Assinado digitalmente em 15/03/2023 16:12 ) KARIN SATIE KOMATI

PROFESSOR DO ENSINO BASICO TECNICO E TECNOLOGICO SER-DPPGE (11.02.32.11)

(Assinado digitalmente em 15/03/2023 16:19 ) LEANDRO COLOMBI RESENDO

COORDENADOR DE CURSO - TITULAR CMPCA (11.02.32.01.07.08)

Visualize o documento original em https://sipac.ifes.edu.br/documentos/ informando seu número: 24, ano: 2023, tipo: FOLHA DE ROSTO, data de emissão: 15/03/2023 e o código de verificação: e236125df5

(6)

Agradeço primeiramente à minha mãe por todo esforço e dedicação e por me ensinar, principalmente por exemplos, que a educação e o conhecimento são os melhores caminhos para o desenvolvimento pessoal. À minha esposa, pela paciência e incetivos no momentos difíceis, aos orientadores, pelo suporte e instrução na caminhada, e aos colegas da Vale, por todo o apoio e conhecimento compartilhado.

(7)

(8)

O consumo de gás em uma planta de pelotização tem um papel de grande relevância no processo, tanto por seu impacto financeiro quanto pelo potencial impacto ambiental de um consumo acima do necessário. A previsão do consumo é uma alternativa para que medidas possam ser tomadas visando um consumo mais otimizado. Neste trabalho buscou-se desenvolver um modelo de previsão de consumo de gás, utilizando modelos de aprendizado de máquina, de tal forma, que a previsão superasse as previsões de métodos estatísticos clássicos. Para isto foram utilizados métodos de seleção de características, redução de dimensionalidade e exploração de parâmetros e arquiteturas de redes neurais com diferentes metodologias de AutoML. Os resultados das predições dos modelos resultantes foram avaliados pela métrica raiz quadrada do erro médio RMSE (do inglês Root Mean Squared Error), e apresentaram uma redução do RMSE de 0,7 (melhor modelo estatístico) para 0,32, com o modelo de RNN obtido com o framework NEAT, assim como potenciais a serem explorados por outras metodologias de exploração de parâmetros.

Palavras-chave: Pelotização, Consumo de Gás, Séries Temporais Multivariadas, Redes Neurais, AutoML.

(9)

The consumption of gas in a pelletizing plant plays a very important role in the process, both due to its financial impact and the potential environmental impact of consumption above what is necessary. Consumption forecast is an alternative so that measures can be taken aiming at a more optimized consumption. In this work, we sought to develop a gas consumption forecasting model, using machine learning models, in such a way that the forecast surpassed the forecasts of classical statistical methods. For this, methods of feature selection, dimensionality reduction and exploration of parameters and neural network architectures with different AutoML methodologies were used. The results of the predictions of the resulting models were evaluated by the metric Root Mean Squared Error (RMSE), and showed a reduction of the RMSE from 0.7 (best statistical model) to 0.32, with the RNN model obtained with framework NEAT, as well as potentials to be explored by other parameter exploration methodologies.

Keywords: Pelletizing, Gas Consumption, Multivariate Time Series, Neural Networks, AutoML.

(10)

Figura 1 – Balança comercial 2021. . . 13

Figura 2 – Fluxo do Processo de Pelotização. . . 14

Figura 3 – Fluxo dos experimentos. . . 18

Figura 4 – Os diferentes conjuntos de dados da dissertação. . . 37

Figura 5 – Fluxo dos ventiladores no forno de grelha móvel. . . 38

Figura 6 – Perfil térmico de um forno tipo grelha móvel. . . 39

Figura 7 – Tela de controle dos queimadores. . . 40

Figura 8 – Controle estatístico do consumo de gás. . . 40

Figura 9 – Fluxo entre o conjunto de dados “bruto” e o “tratado”. . . 42

Figura 10 – Decomposição sazonal da variável alvo (consumo específico de gás). . . 44

Figura 11 – Fluxo de métodos para a seleção de características. . . 46

Figura 12 – Fluxo do processo para geração dos conjuntos de dados restritos. . . . 47

Figura 13 – Resultado dos classificadores para os 4 conjuntos de dados. . . 50

Figura 14 – Valores reais versus predições para os 4 conjuntos de dados. . . 51

Figura 15 – Relação entre neuro-evolução, otimização de parâmetros e NAS. . . 55

Figura 16 – Fluxo de seleção de arquitetura e parâmetros das RNA. . . 56

Figura 17 – Relação entre Computação Neural e Evolucionária . . . 58

Figura 18 – Exemplo de dinâmica de gerações de populações. . . 60

Figura 19 – Exemplo de geração de pais e filhos gerados no processo de reprodução. 61 Figura 20 – Exemplo do fluxo de DEAP. . . 61

Figura 21 – Exemplo do fluxo de criação de uma rede neural com o NEAT. . . 64

Figura 22 – Exemplo do fluxo dos processos evolutivos para RNA com o NEAT. . . 65

Figura 23 – Exemplo do fluxo de etapas do NAS . . . 66

Figura 24 – Valores reais versus predições para os 4 conjuntos de dados. . . 72

Figura 25 – Dispersão e histograma - NAS-AK/MLP . . . 73

Figura 26 – Dispersão e histograma - DEAP/LSTM . . . 73

Figura 27 – Dispersão e histograma - NEAT/RNN . . . 73

Figura 28 – Comparação entre o predito e real 2 desvios padrões dos modelos NAS- AK/MLP, DEAP/LSTM e NEAT/RNN . . . 74

Figura B.1 – Exemplo de uma MLP . . . 89

Figura B.2 – Sentido de retro-propagação do erro em uma rede . . . 90

Figura B.3 – Rede neural recorrente . . . 91

Figura B.4 – Fluxo de uma Rede neural recorrente . . . 91

Figura B.5 –Long Short-Term Memory (LSTM) . . . 92

(11)

Tabela 1 – Resultados dos métodos de aprendizado de máquina . . . 52

Tabela 2 – Parâmetros e valores do genoma via DEAP. . . 62

Tabela 3 – Parâmetros e valores via NAS . . . 67

Tabela 4 – Parâmetros e valores do genoma via NAS-AK . . . 68

Tabela 5 – Resultados dos métodos estatísticos . . . 69

Tabela 6 – Melhores parâmetros por método/modelo - parte I. . . 70

Tabela 7 – Melhores parâmetros por método/modelo - parte II. Iterações = número de iterações por época de treinamento . . . 70

Tabela 8 – Resultados dos métodos de AutoML . . . 70

Tabela 9 – Resumo dos resultados dos experimentos . . . 75

Tabela 10 – Resultados dos experimentos no conjunto de dados 2019 . . . 76

(12)

1 INTRODUÇÃO . . . . 13

1.1 JUSTIFICATIVA . . . 15

1.2 O PROBLEMA . . . 16

1.3 HIPÓTESE . . . 17

1.4 PROPOSTA . . . 17

1.5 OBJETIVOS . . . 19

1.5.1 Objetivo geral . . . 19

1.5.2 Objetivos específicos . . . 19

1.6 PRODUÇÃO BIBLIOGRÁFICA . . . 20

1.7 ORGANIZAÇÃO DO TRABALHO . . . 20

2 TRABALHOS CORRELATOS . . . . 21

2.1 CONSUMO DE GÁS EM FORNOS . . . 21

2.2 IA EM FORNOS . . . 23

2.3 SELEÇÃO DE CARACTERÍSTICAS DE SÉRIES TEMPORAIS MULTI- VARIADAS . . . 26

2.4 PREDIÇÃO DE SÉRIES TEMPORAIS MULTIVARIADAS COM IA . . 30

2.5 EXPLORAÇÃO DE hiper-PARÂMETROS E ARQUITETURAS DE RE- DES NEURAIS . . . 32

2.6 NEURO-EVOLUÇÃO . . . 33

2.7 AUTOML EM ARQUITETURAS DE REDES NEURAIS PARA PREDI- ÇÃO DE SÉRIES TEMPORAIS MULTIVARIADAS . . . 35

3 MATERIAIS, MÉTODOS DE SELEÇÃO DE CARACTERÍSTI- CAS E MÉTRICAS . . . . 37

3.1 MÉTRICA . . . 37

3.2 CONJUNTOS DE DADOS “BRUTOS” . . . 38

3.3 CONJUNTOS DE DADOS “TRATADOS” . . . 41

3.4 SELEÇÃO DE CARACTERÍSTICAS . . . 45

3.4.1 Métodos de seleção de características. . . 45

3.4.2 Normalização e PCA . . . 47

3.4.3 Métodos de aprendizado de máquina . . . 48

3.5 RESULTADOS DA SELEÇÃO DE CARACTERÍSTICAS . . . 50

4 MÉTODOS ESTATÍSTICOS E DE AUTOML . . . . 55

4.1 MÉTODOS ESTATÍSTICOS . . . 57

4.2 METODOLOGIAS DE APRENDIZADO DE MÁQUINA AUTOMATIZADO 57 4.2.1 Redes Neurais Evolucionárias . . . 58

4.2.1.1 Computação evolucionária . . . 59

4.2.1.2 DEAP . . . 60

4.2.1.3 NEAT . . . 63

(13)

4.2.2.1 NAS desenvolvido pelo autor . . . 66

4.2.2.2 AutoKeras . . . 67

5 EXPERIMENTOS, RESULTADOS E DISCUSSÃO . . . . 69

5.1 RESULTADOS DOS MÉTODOS ESTATÍSTICOS . . . 69

5.2 RESULTADOS DO DESENVOLVIMENTO DOS MODELOS COM AS METODOLOGIAS ESCOLHIDAS . . . 69

5.3 DISCUSSÃO . . . 74

5.4 TESTES DE IMPLANTAÇÃO . . . 76

6 CONCLUSÃO . . . . 78

6.1 Trabalhos Futuros . . . 79

REFERÊNCIAS . . . . 80

APÊNDICE A – Estatística descritiva dos dados . . . . 87

APÊNDICE B – Modelos . . . . 89

(14)

1 INTRODUÇÃO

As ligas metálicas têm grande importância na sociedade moderna devido a sua presença em diversos produtos de nosso cotidiano, tais como veículos, computadores e ferramentas, sendo na maior parte das vezes o principal componente o ferro. A produção mundial de ferro em 2021 foi de 2,6 bilhões de toneladas métricas, sendo o Brasil responsável por 13,7% da produção mundial (STATISTA, 2022). O minério de ferro e seus concentrados representou em 2022 aproximadamente 16,4% das exportações na balança comercial brasileira (FAZCOMEX, 2022). A Figura 1 apresenta uma gráfico do tipo treemap¹, em que é possível verificar que o minério de ferro e seus concentrados estão em 1º lugar nas exportações, seguido da soja e dos óleos brutos de petróleo.

Figura 1 – Balança comercial 2021.

Fonte: FAZCOMEX (2022)

A extração do minério de ferro ocorre em minas e o material passa por diversas etapas, como britagem, beneficiamento e classificação, entre outras. Na classificação, o minério de ferro é segregado conforme o tamanho do grão, o que será determinante sobre sua utilização futura na cadeia produtiva (LUZ; LINS, 2018). O principal produto é o lump ore, granulados com diâmetro maior que 6,3 mm que podem ser utilizados diretamente em alto fornos. Os finos de minério são a parcela dos granulados com diâmetro entre 6,3 mm e 0,149 mm são chamados de sinter feed e menores que 0,149 mm, de pellet feed.

Estes finos de minério eram tratados como rejeitos, pois a sua utilização direta em alto fornos acarretava elevação do custo com combustível, atualmente, os finos de minério são submetidos a processos de aglomeração antes de serem utilizados nos alto fornos.

O processo de aglomeração é a junção dos finos de minério gerando um novo produto de maior diâmetro e com propriedades físicas e mecânicas diferenciadas. Existem basicamente dois tipos de processos de aglomeração: sinterização e pelotização. Ambos os processos tem

1 Treemapé uma técnica de visualização para representar dados hierárquicos usando retângulos aninhados

(15)

o mesmo objetivo, mas apresentam diferenças, uma delas é que a pelotização é mais cara e mais complexa do que a sinterização (FONSECA; CAMPOS, 2018). Outra diferença é que por ter menor resistência mecânica, normalmente a sinterização está integrada ao alto forno, a pelotização, suportando mais facilmente o deslocamento por longos transportadores e estocagem por períodos maiores, está integrada à mina ou ao porto.

Este trabalho irá abordar o processo de pelotização, criado para conferir à mistura de finos de minério de ferro elevada resistência mecânica ao manuseio e propriedades metalúrgicas, quando submetidas ao processo de redução em fornos.

Figura 2 – Fluxo do Processo de Pelotização.

Fonte: Elaborado pelo autor (2020).

A Figura 2 apresenta o fluxo do processo de pelotização. Na descrição do fluxo são usados termos com inicial maiúscula entre aspas duplas para facilitar a visualização dos termos na figura. O minério proveniente das minas é transportado por via férrea e empilhado no pátio de finos, as pilhas formadas, representadas na figura como “Empilhamento”, são recu- peradas pelas recuperadoras de finos de forma mais homogênea possível. São adicionados

“Fundentes” para controle de PH, e “Antracito” (carvão mineral) para redução do custo de transformação e direcionadas para a “Moagem”, utilizando correias transportadoras.

Na “Moagem”, o minério passa por um processo de cominuição para a redução do tamanho das partículas, em que adquire a consistência de polpa pela adição de água recuperada de outras etapas do processo, complementada pela água da “Bacia de decantação”. A polpa

(16)

então é direcionada para tanques de “Homogeneização” através de bombas centrifugas, para armazenamento, homogeneização química e física, enviada através de bombas de recalque para a “Filtragem”, com o objetivo de retirada da umidade excessiva, até o valor ideal para manipulação do material e direcionada para a “Prensa”, que tem por objetivo elevar a superfície específica da polpa, que agora com o teor de umidade adequado próximo a 9% é tratada por polpa retida.

Após adicionado “Aglomerante”, sendo normalmente utilizado Bentonita, segue para

“Mistura”, passando por nova homogeneização em cilindros mecânicos circulantes, chamados de misturadores. No “Pelotamento”, discos de rolagem promovem a formação dos aglomerados conhecidos como pelotas cruas ou verdes. As pelotas são classificadas por seu tamanho no “Peneiramento PC” (Pelotas Cruas), para então alimentar o processo de “Queima”. Na queima, as pelotas cruas são endurecidas por processamento térmico, chamadas daí em diante por pelota queimada (PQ), passando por nova classificação de tamanho no “Peneiramento PQ” e finalizando no “Empilhamento PQ” (MEYER, 1980).

1.1 JUSTIFICATIVA

Nas últimas décadas, principalmente a partir da década de 90, exigências de qualidade, baixo custo e preocupação ambiental têm aumentado, exigindo sistemas de controle mais robustos e a busca por alternativas operacionais para o alcance desses objetivos. Um exemplo dessas alternativas foi a substituição dos óleos combustíveis por gás natural nos fornos de endurecimento de pelotas (processo de “Queima” da Figura 2), devido características que atendem a maior parte dos objetivos acima mencionados, como: oferta, condições de abastecimento, preço, facilidade de manejo e menor risco de ocorrências ambientais (VALE, 2016).

Uma justificativa deste trabalho é a economia dos custos de produção, dado que o consumo de gás natural é responsável por 35% do orçamento de uma planta de pelotização, de acordo com dados de 2015 da Vale (VALE, 2015), informação corroborada em artigo de 2018 que indica o percentual de 34% (CRUZ et al., 2018). Além disso, aproximadamente 20% da produção de gás carbônico (CO2) proveniente da pelotização e mineração de ferro estão associados a combustão do gás natural. Logo, promover um consumo racional e otimizado desse combustível, contribui para redução das emissões provenientes dessa etapa do processo, sendo outra justificativa do trabalho (SANTOS et al., 2007).

O controle operacional de injeção de combustível no forno é realizado através de indicadores de processo de combustão, tais como a temperatura e a pressão do ar de combustão. Os componentes principais do consumo de gás são: queimadores, ventiladores de processo e válvulas auxiliares (MOURA, 2017). Os queimadores (dispositivos semelhantes a maçaricos) se encarregam da manutenção da temperatura, aumentando ou reduzindo a vazão de gás

(17)

dentro do forno buscando manter a temperatura ajustada para cada etapa do processo.

Ventiladores de processo são os responsáveis pela manutenção da pressão e fluxo de ar quente, através do controle de rotação e aberturas de saída de fluxo.

1.2 O PROBLEMA

Uma dificuldade é que o consumo de gás é derivado de muitas variáveis, sendo que a maior parte das relações não são lineares (MOURA et al., 2016). Além disso, na usina de pelotização do estudo de caso, a configuração de parâmetros do controle operacional de injeção de combustível no forno é um processo dispendioso e demorado, que aciona vários setores internos. Para lidar com a grande quantidade de variáveis, optou-se por tratar os vários parâmetros de controle operacionais reais como séries temporais multivariadas. Uma série temporal (univariada) é uma sequência de pontos de dados que ocorrem em ordem sucessiva ao longo de algum período de tempo. Uma série temporal multivariada é uma série temporal que apresenta mais de uma variável dependente do tempo. Cada variável depende não apenas de seus valores anteriores, mas também dos valores anteriores das outras variáveis. Essa dependência pode ser usada para prever valores futuros (MORETTIN;

TOLOI, 2020).

A previsão de séries temporais multivariadas tem várias aplicações práticas, porém inter- dependências complexas e não lineares, entre os intervalos de tempo de amostragem ou mesmo entre as próprias séries, podem dificultar a tarefa (SHIH; SUN; LEE, 2019). A limitação da linearidade dos dados, também se aplica ao método de previsão de séries temporais com Vetores de Suporte (SVR), não sendo bem aplicada em séries temporais multivariadas. Uma alternativa para séries temporais multivariadas é o vetor de auto regressão (VAR), mas que também apresenta fragilidades em caso de não linearidades dos dados. Por isso diferentes abordagens vem sendo propostas, em que modelos de redes neurais têm se mostrado promissores (WAN et al., 2019) e são capazes de lidar com relações não lineares entre as variáveis que não são facilmente tratáveis pelos modelos esta- tísticos (SHIH; SUN; LEE, 2019), (WAN et al., 2019) e (GONZALEZ-VIDAL; JIMENEZ;

GOMEZ-SKARMETA, 2019). Dados estes resultados, a pretensão é usar estas técnicas para o estudo de caso específico.

A questão a que se quer responder é: os modelos de aprendizado de máquina também apresentarão bons resultados para a predição de consumo de gás no processo de pelotização sob a forma de séries temporais multivariadas ?

Bons resultados com redes neurais dependem da seleção da arquitetura mais adequada ao problema. A maior parte dos trabalhos recentes nessa área, se debruça em comparar e propor diferentes arquiteturas para os mais diversos problemas. Embora seja possível se otimizar parâmetros através da experimentação, trabalhos como os de Miikkulainen

(18)

et al. (2019), defendem que a abordagem de tentativa e erro é muito dispendiosa para redes neurais que podem chegar a centenas de milhares de hiper-parâmetros. Uma solução é o AutoML (aprendizado de máquina automatizado), que é o processo de automação total ou parcial da aplicação do aprendizado de máquina a um problema do mundo real (TELIKANI et al., 2021). O AutoML pode ser visto principalmente por dois tipos de tarefas (JACKSON, 2020): o NAS (do inglês Neural Architecture Search), que é a busca pela melhor arquitetura; e a segunda é a otimização de hiper-parâmetros, que é a busca pelos melhores hiper-parâmetros de uma arquitetura de rede neural.

1.3 HIPÓTESE

A hipótese deste trabalho é que é possível selecionar arquiteturas e hiper-parâmetros de redes neurais artificiais de modo a produzir uma rede neural artificial que seja capaz de fazer predição de séries temporais multivariadas com erro menor do que os métodos estatísticos clássicos.

1.4 PROPOSTA

A proposta para a dissertação é avaliar e comparar as redes neurais construídas através de técnicas de exploração de hiper-parâmetros, para um estudo de caso de previsão do consumo de gás em um alto-forno de uma mineradora localizada no estado do Espírito Santo. A base de dados coletada (denominada de conjunto de dados “bruto”) é composta por dados reais, foram coletadas 36 variáveis do processo de pelotização durante 90 dias de operação, coletados em intervalos de 4 horas. A Figura 3 apresenta um resumo do fluxo dos experimentos.

O conjunto de dados “bruto” passa por um processo de limpeza de dados, que será a entrada para os métodos estatísticos (GARCIA-HIERNAUX; CASALS; JEREZ, 2009):

ARIMA (do inglês, Autoregressive Integrated Moving Average), VARMAX (do inglês, Vector Autoregressive Moving Average model with eXogenous variables) e GARCH (do inglês, Generalized AutoRegressive Conditional Heteroskedasticity). A métrica de análise é feita via raiz quadrada do erro quadrático médio (RMSE, do inglês, Root Mean Squared Error) e tempo de execução. Estes resultados serão o “baseline”, que servirão, tanto como prova de conceito, quanto como padrão de comparação para os resultados que forem gerados posteriormente através dos métodos de aprendizado de máquina.

Seguindo a metodologia de Gonzalez-Vidal, Jimenez e Gomez-Skarmeta (2019), após a limpeza de dados no conjunto de dados “bruto” é feito um processo de conversão para a forma tabular, gerando o conjunto de dados “tratado”, que por sua vez passará por três métodos de seleção de características: correlação de Pearson, AdaBoost e floresta aleatória (PAVITHRA; JAYALAKSHMI, 2021 in press).

(19)

Figura 3 – Fluxo dos experimentos.

São gerados 9 resultados derivados dos 3 conjuntos de dados com seleção de características que serão avaliados por 3 modelos de aprendizado de máquina: AdaBoost, floresta aleatória e MLP (do inglês, MultiLayer Perceptron). É selecionado o conjunto que obtiver o melhor resultado, dentre os três, e este será usado como entrada dos métodos de AutoML. A seleção de características auxilia na compreensão de quais variáveis de processo são mais relevantes no consumo específico de gás, através do escore de importância calculados pelos algoritmos.

O conjunto de dados selecionado é a entrada para os métodos de AutoML. Foram utilizadas 4 formas de AutoML: o NAS desenvolvida pelo próprio autor, o NAS usando o AutoKeras, o framework DEAP (do inglêsDistributed Evolutionary Algortithm) e oframework NEAT

(20)

(do inglês NeuroEvolution of Augmenting Topologies). As redes neurais escolhidas foram:

MLP, RNN (do inglês Recurrent Neural Network), LSTM (do inglês, Long Short Term Memory) e a CNN-1d, ou Conv1d, (do inglês, Convolutional Neural Network). Nem todos os modelos de redes neurais passaram por todas as abordagens de exploração de hiper-parâmetros. A técnica NEAT é capaz de lidar com 2 tipos de redes: o MLP e o RNN. Nas técnicas NAS, NAS-AK e DEAP, foi possível trabalhar com os tipos de redes LSTM, Conv1d e a MLP. No total foram exploradas 11 arquiteturas.

Ainda coletam-se os resultados das três melhores arquiteturas de AutoML sobre o conjunto de dados “tratado”, sem a seleção de características. Com este mesmo conjunto de dados, são coletados os resultados com AdaBoost, floresta aleatória e MLP. Desta forma, será possível avaliar se os resultados dos métodos melhoram, ou não, com o processo de seleção de características. Ou ainda, se a seleção de características é um passo útil ao processo.

Ao final, tomando como referência base os resultados dos métodos estatísticos, serão comparados os vários resultados dos métodos de aprendizado de máquina e os das redes neurais resultantes das técnicas de exploração de hiper-parâmetros e arquitetura. E assim, avaliar se a hipótese é verdadeira ou não. Comparando se as técnicas de AutoML são capazes de promover uma redução no erro de predição dos modelos, sendo menores que a dos métodos estatísticos, para o problema de consumo específico de gás.

A limitação da proposta é o fato de que os resultados dos modelos treinados neste trabalho são do estudo de caso de uma planta de pelotização específica e pode não ser possível generalizar o resultado para quaisquer outras plantas de pelotização.

1.5 OBJETIVOS 1.5.1 Objetivo geral

Investigar arquiteturas de redes neurais usando técnicas de AutoML para o problema da previsão do consumo de gás no processo de pelotização, através de séries temporais multivariadas.

1.5.2 Objetivos específicos

Os objetivos específicos identificados para se atingir o objetivo geral proposto são:

• Coletar o conjunto de dados dos experimentos;

• Modelar a relação entre o consumo de gás e as variáveis selecionadas;

• Compreender quais as características mais relevantes para o consumo específico de gás;

(21)

• Comparar os resultados dos modelos de predição baseados em aprendizado de máquina com os resultados dos modelos estatísticos clássicos;

• Comparar as técnicas de AutoML para a geração de redes neurais profundas;

• Analisar os resultados dos vários métodos e modelos através do erro (RMSE) e do tempo de execução;

• Avaliar se a seleção de características é uma etapa a se manter ou não no processo;

• Coletar um conjunto de dados reais que não foram usados na etapa de treinamento e testes dos métodos e modelos anteriores. Testar os métodos/modelos neste novo conjunto.

1.6 PRODUÇÃO BIBLIOGRÁFICA

Foi publicado um artigo em evento nacional (OLIVEIRA; KOMATI; ANDRADE, 2021):

OLIVEIRA, V. M. ; KOMATI, K. S. ; ANDRADE, O. J.. Seleção de Características de Séries Temporais Multivariadas do Consumo de Gás na Pelotização de Minério de Ferro. In: XXVIII Simpósio de Engenharia de Produção (SIMPEP 2021), 2021, online. Anais do XXVIII Simpósio de Engenharia de Produção (SIMPEP 2021), 2021.

O artigo ganhou a menção honrosa por ser considerado o melhor artigo da área de Pesquisa Operacional no evento.

1.7 ORGANIZAÇÃO DO TRABALHO

O presente trabalho está organizado da seguinte forma. No Capítulo 2, serão apresentadas os trabalhos correlatos aos temas abordados. No Capítulo 3 temos a descrição dos dados coletados, formação dos conjuntos de dados e métricas de avaliação. O Capítulo 4 apresenta os métodos estatísticos e de AutoML utilizados. No Capítulo 5 são descritos os experimentos, a discussão dos resultados e teste de implantação. O Capitulo 6 apresenta a conclusão e a proposta de trabalhos futuros.

(22)

2 TRABALHOS CORRELATOS

Neste capítulo discorreremos sobre trabalhos com temas correlatos ao desta pesquisa. Os trabalhos correlatos apresentados são divididos em sete grupos:

1. artigos que versam sobre consumo de gás em processos térmicos, mesmo sem o uso de técnicas de IA;

2. trabalhos na área de siderurgia que usam técnicas de IA;

3. artigo sobre metodologia de seleção de características de séries multivariadas;

4. artigos que usam séries temporais multivariadas para predição de combustível ou algum tipo de energia usando técnicas de IA;

5. trabalhos sobre busca por arquiteturas eficientes de redes neurais sem o uso de neuro- evolução;

6. trabalhos sobre busca por arquiteturas eficientes de redes neurais com o uso de neuro- evolução;

7. artigo sobre busca por arquiteturas eficientes de redes neurais para predição de séries temporais multivariadas.

2.1 CONSUMO DE GÁS EM FORNOS

Nesta seção são citados e descritos 7 (sete) trabalhos, em ordem cronológica, que propõem modelos matemáticos para análise de fornos. Ao final da seção, apresenta-se um quadro resumo simplificados das variáveis analisadas em cada modelo.

Um dos primeiros trabalhos relacionados a otimização de fornos que utilizam gás natural como combustível data do fim da década de 90 (AUSTIN; IMOGAMI; YAGI, 1997), utilizando um modelo para calcular a velocidade do gás combustível, temperatura do forno e a fração volumétrica das fases. Para isso, se baseou nas variáveis das composições dos diferentes materiais utilizados no alto forno: minério de ferro, coque, gás natural e umidade. Para cada reação conhecida aplicou equações de transferência de calor descritas na literatura.

Segundo Pomerleau, Desbiens e Hodouin (2003), o custo dos fornos está em seu alto consumo de energia, justificando o estudo de um modelo que permitisse a otimização das relações que regem esse consumo. Em seu trabalho é proposto a utilização de um Modelo de Controle Interno, onde se tem um objetivo de minimização sujeito a certas condições de contorno. Os resultados obtidos serviram como ações de orientação para a operação, apresentando fácil implementação e possibilidade de ajuste a diferentes plantas.

(23)

Dadam (2005) construiu um modelo matemático para análise térmica, conseguindo isolar a influência de algumas variáveis, destacando-se a área interna da carga e a composição interna do material do forno. A diferença é que o trabalho de Dadam et al. (2005) lidou com um forno para endurecimento de um produto diferente do minério, modelou um forno de cerâmica vermelha. A semelhança é que o forno modelado também utiliza gás natural e carbono como combustível.

Bravim (2010) percebeu grande oscilação da pressão durante a observação das malhas de controle da vazão de gás em uma planta. Esse tipo de observação foi possível graças a utilização de um modelo em que foi possível ajustar a velocidade doset pointdo controlador através do tempo de resposta da vazão. A comparação entre o comportamento previsto e o real levou a constatação de um possível agarramento em válvulas e a sugestão de utilização de um novo tipo de controlador em campo para mitigar essa oscilação.

Possani (2012) propôs um modelo matemático de um forno de pelotização para simulação de diferentes condições. As variáveis propostas por Possani (2012) exploram as relações entre a altura do leito de pelotas, a composição granulométrica do leito de pelotas e o consumo de gás com os fenômenos de transferência de calor. A coleta dos dados foi feita por planta de produção em escala reduzidapot grade. Os resultados do modelo permitiram inferir diversos parâmetros em um tempo hábil e o ambiente pôde ser utilizado para avaliação de melhorias e propostas para novos fornos.

Seguindo o observado por outros autores, o trabalho proposto por Cavalcante (2016), usa como variável a distribuição granulométrica e outros parâmetros de controle operacional, para estimar o percentual de espaços vazios contido no leito de pelotas. Dessa forma, estabelecendo uma relação entre essas variáveis e o consumo de combustível e a qualidade física do material. Ao fim do trabalho, apresenta-se uma tabela com valores ótimos de espaços vazios estimados para diferentes cenários de consumo de combustível, custos e qualidade.

A análise de eficiência de combustão conduzida por Moura (2017), evidenciou os vários fatores envolvidos no consumo de gás com variáveis estruturais, térmicas, químicas e fluidodinâmicas. Seu trabalho focou na conversão estequiométrica e como tornar a mistura ar-combustível o mais eficiente possível na câmara de combustão.

O objetivo desta seção foi analisar as variáveis mais utilizadas ao longo dos últimos anos para a construção de modelos de predição. No Quadro 1 apresenta-se um resumo, em que cada linha é um trabalho citado nesta seção e as colunas são as variáveis utilizadas nos modelos propostos nos estudos.

(24)

Quadro 1 – Variáveis usadas nos modelos matemáticos dos trabalhos citados na Seção 2.1.

Autores Altura de

Camada Área de

carga do forno Pressão do

combustível Vazão de

combustível Distribuição

Granulométrica Velocidade

do Forno Temperatura Ar de Combustão

Austin, Imogami e Yagi (1997) x x x

Pomerleau, Desbiens e Hodouin (2003) x x x x x

Dadam (2005) x x x x

Bravim (2010) x x x

Possani (2012) x x x x x

Cavalcante (2016) x x x x

Moura (2017) x x x

2.2 IA EM FORNOS

Nesta seção, são apresentados 3 trabalhos que usam técnicas de IA em fornos de pelotização, os trabalhos de Chagas et al. (2017), Zhang, Kano e Matsuzaki (2019) e Abreu, Bianchi e Silva (2021).

O trabalho de Chagas et al. (2017) se propõe à determinação de quais fatores tem maior impacto na permeabilidade do leito de pelotas usando o método de redes neurais artificiais.

Buscando compreender as variáveis que afetam significativamente a permeabilidade do leito de pelotas, Chagas et al. (2017) alimentou uma rede neural com arquitetura perceptron multi camadas, do tipo feedforward, composta de 7 neurônios, recebendo os dados de entrada, seguido de uma camada oculta com 15 neurônios, definidos pela expressão de Kolmogorov¹, i.e., N = 2n + 1, onde N é o número de neurônios e n é o número de variáveis de entrada (KOLMOGOROV, 1957). A camada de resposta conta com 1 neurônio, retornando a permeabilidade do leito estimada. Através de uma análise das variáveis mais relevantes, verificou-se que o desvio padrão do diâmetro, a esfericidade e a altura do leito de pelotas afetam a permeabilidade do leito. O modelo computacional foi capaz de prever a contrapressão do leito de pelotas por meio de características geométricas das pelotas, permitindo, assim, melhorar a geração de pelota crua, a fim de garantir a redução do consumo de combustível e energia, melhoria da qualidade final e melhor produtividade.

O trabalho de Zhang, Kano e Matsuzaki (2019) fornece um estudo comparativo entre dez métodos preditivos para a temperatura do metal quente em um alto-forno industrial.

Foram avaliados dois cenários: para predição do tempo atual (um passo à frente, one- step-ahead prediction) e predição de múltiplos passos à frente (multi-step-ahead). E foram comparados o desempenho de previsão e o tempo computacional de dez métodos, que são investigados do ponto de vista da aplicação. A seguir uma breve descrição dos modelos:

• Mínimos quadrados parciais (PLS, do inglêsPartial Least Squares): método de regressão que reduz as variáveis a um conjunto menor de componentes não correlacionados e

1 Segundo Elbrächter et al. (2019, pag. 2), o artigo seminal de Kolmogorov (1957), quando interpretado no contexto de redes neurais, mostrou que qualquer função contínua denvariáveis pode ser representada através de uma rede neural de duas camadas de largura 2n+ 1.

(25)

efetua regressão de mínimos quadrados para esses componentes no lugar dos dados originais.

• PLS com diferentes pesos (LW-PLS, do inglês Locally Weighted Partial Least Squares):

semelhante ao modelo anterior, porém atribuindo diferentes pesos para as variáveis de entrada utilizando o método de avaliação de similaridade.

• Regressão com vetor de Suporte (SVR, do inglês Support Vector Regression): modelo que encontra uma linha de separação, mais comumente chamada de hiperplano, entre dados de duas classes. Essa linha busca maximizar a distância entre os pontos mais próximos em relação a cada uma das classes.

• Regressão com processo gaussiano (GPR, do inglês Gaussian Process Regression):

modelo probabilístico que assume um processo gaussiano entre as variáveis de entrada e saída, buscando os melhores modelos pelas médias e covariâncias das predições.

• Floresta aleatória (RF): Modelo de aprendizado de máquina, construindo várias árvores de decisões durante a fase de treinamento e predizendo a variável alvo pelos critérios das amostras aleatórias de cada árvore, a melhor divisão de características utilizada para fornecer a melhor predição é escolhida.

• Árvores de decisão impulsionadas: Utiliza árvores de decisão semelhantes ao modelo anterior, porém com uma técnica de otimização para redução do erro.

• Rede neural rasa: Modelo computacional composto por um número de elementos de processamento de dados altamente interconectados operando em paralelo, chamados de neurônios. Na rede neural rasa, os neurônios formam uma camada para receber os dados de entrada, uma camada escondida para processamento dos dados e estabelecimento das relações e uma camada com um único neurônio fornecendo a predição da variável alvo.

• Rede neural profunda (DNN, do inglês Deep Neural Network): Conceitualmente o mesmo do modelo anterior, porém utiliza-se de 2 ou mais camadas escondidas para processamento das relações entre os dados de entrada.

• Memória de Longo e curto prazo (LSTM, do inglêsLong Short-Term Memory): Também é uma rede neural profunda, porém a forma de processamento das relações entre as variáveis de entrada ocorre através da identificação das relações de dependência de longo prazo entre as entradas e a variável alvo.

• Redes neurais convolucionais (CNN, do inglês Convolutional Neural Network): Rede neural profunda que utiliza 3 camadas com distintas e específicas funções nas tarefas de processamento das relações entre as variáveis de entrada e a variável alvo. A camada convolucional utiliza um filtro para mapeamento das características das variáveis de

(26)

entrada, a segunda camada é para o armazenamento das informações das característi- cas mapeadas e a terceira camada é alimentada com essas informações consolidadas, realizando os devidos processamentos das relações para obter a predição da variável alvo.

O alto forno abordado por Zhang, Kano e Matsuzaki (2019), se divide em zonas submetidas a diferentes ambientes de temperatura e pressão, sendo alimentado por minério de ferro, coque e calcário. A energia para transformação desses materiais no processo é proveniente de gás natural, óleo combustível e carvão mineral não processado (coal). O objetivo é obter metal liquido com qualidade consistente. Um controle mais preciso do processo é difícil pelo ambiente operacional agressivo em que ocorre, altas pressões e temperaturas associadas a reações físico-químicas complexas, como transferência de calor não uniforme e fluxo de fluídos em variadas fases. A temperatura do metal líquido é o indicador chave, permitindo agregar em uma informação qual o estado de várias das dificuldades relatadas, estas entendidas como a qualidade do metal, além do consumo de energia e o estado térmico do forno.

O trabalho de Zhang, Kano e Matsuzaki (2019) propõe a predição da temperatura do metal líquido no momento, 1 e 2 horas adiante da amostragem dos dados de entrada, que consistem em 216 variáveis de processo como temperatura do topo do forno, umidade do minério, pressão do alto forno entre outros, para realizar a predição optou por comparar 10 modelos, divididos em redes neurais, rasa e profundas, modelos de aprendizado de máquina e métodos estatísticos mais conhecidos. Para avaliar o desempenho dos modelos foram escolhidos 3 critérios: A raiz quadrada do erro médio (RMSE), o coeficiente de correlação (R) e o tempo de execução computacional em segundos. O tempo computacional dos modelos foram dispostos em uma tabela, com os métodos divididos em modelagem online e offline. Na predição da temperatura do metal líquido no momento o melhor modelo foi a rede neural profunda (DNN) tanto em RMSE de 1.142, como em R de 0.99, com tempo computacional de 0,15s no online e 2,193e+03s no offline, seguido de perto pelo modelo de redes neurais rasas com tempo menor de 0.07s e 1.513e+03, RMSE de 1.536 e R de 0.99. Para 1 e 2h a frente, os melhores modelos foram GPR e SVR, respectivamente com tempos de execução de 0,42s e 374.8s para GPR, 1.8s e 34.4s nas predições online e offline. Baseado na proximidade dos resultados, e no menor tempo tempo de execução os autores apontam o modelo de rede neural rasa como o mais indicado para predições da temperatura no momento e os modelos GPR e SVR para os intervalos de tempo a frente.

No trabalho de Abreu, Bianchi e Silva (2021), o problema abordado é o ganho de superfície especifica (SE), variável esta que no processo de pelotização, promove melhora das propriedades físicas e mecânicas das pelotas, mas que em caso de uma baixa eficiência na etapa de prensagem pode levar a sérios distúrbios, acarretando em graves prejuízos financeiros e/ou

(27)

de imagem junto aos clientes com o não atendimento de alguma propriedade acordada no processo de compra e venda, buscando responder às perguntas “quais são as principais variáveis que interferem na eficiência da prensagem? e quais os possíveis ajustes nas variáveis promovem o melhor ganho na etapa?”.

Para responder a estes questionamentos, o trabalho identifica as variáveis mais influentes, testando as variáveis escolhidas em modelos de aprendizado de máquina para predizer a SE resultante de um determinado cenário. A complexidade da etapa de prensagem está no conjunto de variáveis envolvidas (pressão dos rolos, taxa de alimentação, umidade do material, dentre outros) que precisam ser parametrizados e monitorados durante a operação. Os resultados de SE medidos em laboratório chegam em intervalos de 4 em 4 horas, tempo necessário entre um ajuste nas variáveis e a avaliação de seu resultado.

Buscando uma alternativa a esse elevado intervalo, os autores testaram um conjunto de dados com 15 variáveis de processos como dados de entrada, tendo como variável alvo a SE após a etapa de prensagem. Os dados foram processados para a identificação de outliers, mantendo os inliers como entrada dos modelos. Foram utilizados 8 modelos de aprendizado de máquina: floresta aleatória, árvore de decisão, SVM (do inglês Support Vector Machine, em português Máquina de Vetores de Suporte), Naive Bayes, KNN (do inglêsk-nearest neighbors algorithm, em português k-vizinhos mais próximos), Rede Neural, AdaBoost e Regressão Logística. A identificação da importância das variáveis foi analisado pelas métricas de Ganho de Informação, Taxa de Ganho de Informação, Gini, Anova, Qui- quadrado e FCBF (do inglês Relief aand Fast Based Correlation Filter). O desempenho dos modelos foi medido pela acurácia e AUC (Area Under Curve).

A variável identificada com maior relevância foi a umidade do minério durante a alimentação da prensa. O modelo com os melhores resultados foi a floresta aleatória com 90% de acurácia e 0,957 de AUC, quando alimentado com as 8 variáveis identificadas como as mais relevantes. O software utilizado para a execução dos modelos por Abreu, Bianchi e Silva (2021), conta com um recurso para projetar diversas árvores de decisão atendendo as metas de SE desejadas pelos autores, sendo possível utilizar os valores das regras de decisão como o ajuste otimizado do processo para o ganho de SE pretendido.

2.3 SELEÇÃO DE CARACTERÍSTICAS DE SÉRIES TEMPORAIS MULTIVARIADAS Nos últimos anos, principalmente a partir de 2000, a maioria dos trabalhos envolvendo a análise de dados vem tendo que lidar com centenas, ou até mesmo, dezenas de milhares de variáveis. Guyon e Elisseeff (2003) propõem algumas técnicas para lidar com este problema, tendo como solução central a seleção de características. O objetivo da seleção é a melhora do desempenho de predição, permitindo a construção de preditores mais rápidos, com menor custo computacional, e um melhor entendimento do processo que

(28)

está sendo observado. No trabalho, são citados alguns exemplos de artigos em que foi possível observar a redução de características aplicando algumas das técnicas descritas.

Em um deles, um trabalho relacionado a observação de perfil genético e a manifestação de câncer, a seleção foi de 60.000 para alguns poucos milhares. Em outro trabalho, sobre um problema de classificação de textos, foi de centenas de milhares de palavras para um conjunto de 15.000.

A maioria dos algoritmos de seleção de características incluem algum tipo de ranqueamento de importância da variável como principal mecanismo de seleção por sua simplicidade, escalabilidade e sucesso empírico. Um dos critérios de ranqueamento mais conhecido, e utilizado, é a correlação de Pearson, em que o coeficiente de determinação (R), é utilizado como seletor. No entanto, os autores destacam a fragilidade do uso deste coeficiente, por ser extremamente sensível a relações lineares, atribuindo importância a características que podem não agregar tanto ao objetivo. O classificador de variável única também é citado como uma forma de seleção, procedendo a escolha de acordo com a capacidade da variável individualmente contribuir para a capacidade de predição da variável alvo. Outro citado no trabalho, é a classificação teórica de informação, que seleciona a variável, baseado em quanto de informação a mesma adiciona ao processo de predição.

No trabalho são demonstrados alguns subconjuntos de dados em gráficos de dispersão e histogramas, para a visualização de como alguns dados se apresentam de formas re- dundantes e assim, não contribuindo significativamente para a predição. Destaca ainda que, inicialmente, alguns dados poderiam ser considerados inúteis por algum critério de ranqueamento, mas que quando combinado a outros dados, podem agregar na melhora da predição. Evidenciando assim, a vantagem dos critérios que valorizam os subconjuntos de variáveis, em oposição àquelas que atribuem um melhor ranqueamento à capacidade preditiva da variável de forma individual.

Dando continuidade ao processo de seleção de características, são apresentadas algumas técnicas de formação destes subconjuntos, em alinhamento com o ranqueamento de importância supracitado, sendo elas:

• Wrapper, em que algoritmos de aprendizado de máquina são utilizados para a pontuação do subconjunto de acordo com seu critério preditivo, porém como pontuado pelos autores, de uma forma black box, sem deixar claro ao usuário quais os critérios utilizados;

• Filters selecionam os subconjuntos de características ao estabelecer passos de pré processamento, avaliando independentemente os preditores, retirando e incluindo ao conjunto, atribuindo pontuações no processo;

• Embedded, desempenham a seleção de características através de treinamento, combi-

(29)

nando uma série de algoritmos de aprendizados de máquinas, atribuindo pontuação aos subconjuntos com melhor desempenho preditivo;

• Nested Subset Methods, estimam as mudanças no valor da predição ao realizar mudanças no espaço de subconjuntos de características.

Guyon e Elisseeff (2003) relatam as vantagens da redução da dimensionalidade espacial dos dados, com as vantagens na redução dos custos de desenvolvimento, armazenagem e processamento, e que, mesmo quando isso não for um problema, a redução de dimensionalidade espacial deve ser considerada, por implicar uma melhora de desempenho dos preditores. Para isso sugerem a aplicação de técnicas lineares, mais simples, como PCA, LDA, Clustering, quando o problema abordado for não-supervisionado, e até mesmo técnicas como transformações de Fourier.

A validação das características selecionadas é a última das etapas sugeridas no trabalho, sendo sugerido a aplicação de validação cruzada, teste estatísticos ou através de métricas de desempenho. Ao se observar um conjunto de trabalhos e as técnicas utilizadas por estes, a conclusão que os autores chegam é que métodos como Wrapper e Embedded, tem desempenho superior, quando comparados com métodos mais simples, como o ranqueamento por correlação utilizado individualmente. Os autores propõem um checklist de fácil entendimento, que ao se responder as perguntas, os interessados são direcionados para as técnicas e métodos propostos no artigo.

O trabalho de Gonzalez-Vidal, Jimenez e Gomez-Skarmeta (2019), propõe uma metodologia para lidar com informações de consumo de energia elétrica, permitindo a extração de percepções necessárias para as causas do aumento de consumo de energia elétrica. O consumo de energia elétrica vem crescendo com o aumento das populações nas cidades, sendo necessárias medidas para otimizar a eficiência energética. Com este objetivo, vários meios de monitoramento e gestão de recursos automáticos estão surgindo, gerando um grande número de informações acerca das variáveis envolvidas no consumo de energia elétrica. O conjunto de dados utilizada no trabalho foi composta de 49 características:

temperatura (°C), temperatura aparente (°C), ponto de orvalho (°C), umidade (%), velocidade do vento (m/s) - médias; pressão ao nível do mar (mbar), visibilidade (km) e precipitações nos últimos hora (mm). umidade (média, mínima e máxima) (%), radiação (média e máxima) (W/m²), velocidade do vento (média e máxima) (m/s²), direção do vento (média) (°), precipitação (mm), ponto de orvalho (°C) edeficit de pressão de vapor (kPa), estação, dia da semana, feriado, data e hora), ou variáveis de entrada, coletadas em 2 fontes diferentes (Weather Underground Web Service e The Research Institute of Agriculture and Food Development of Murcia - IMIDA3) e 1 variável alvo, o consumo de energia elétrica (kW/h), coletadas em 1 intervalo de 1h, formando assim umdataframe de 50 colunas por 3.500 linhas.

(30)

A primeira parte da metodologia utilizada em (GONZALEZ-VIDAL; JIMENEZ; GOMEZ- SKARMETA, 2019), propõe uma transformação do conjunto de dados para ser processada por algoritmos de aprendizado de máquina, já que por se tratar de uma série temporal, a ordem dos eventos é de vital importância, diferente de problemas de aprendizado de máquinas mais comuns, em que cada ponto é independente. Esta transformação foi feita adotando uma defasagem temporal dos atributos, atribuindo o valor de uma janela deslizante de tempo para que a informação temporal fosse incorporada ao conjunto de dados de forma tabular, permitindo o processamento pelos algoritmos de aprendizado de máquina. A janela escolhida pelos autores foi de 4 passos, ou seja, as informações de 4 períodos anteriores seriam incorporados na base, como no exemplo para consumo de energia, energia(t+ 0), energia(t−1), energia(t−2), energia(t−3). As variáveis estação, dia da semana, feriado não foram defasadas, os autores trataram estas como atributos de intervenção, julgando que a defasagem não seria necessária, a variável data/hora foi excluída após a transformação, por terem utilizado um índice de tempo artificial, a partir de então. Sendo assim, após a transformação, a nova base passou a ser composta de 187 características e 1 variável alvo.

Com esta base, é iniciado uma redução de dimensionalidade, buscando facilitar o desempenho de modelos de predição, existem várias formas de promover esta redução, porém os autores escolheram a seleção de características, por sua demonstrada efetividade, simplicidade de entendimento, tornando os modelos mais compreensivos. A estratégia de seleção foi dividida em 2 etapas: Estratégia de busca e Avaliação, de forma resumida, a estratégia de busca realiza a seleção por critérios estabelecidos pelo usuário e este conjunto selecionado é avaliado por algoritmos de predição, sendo escolhido como características, aquelas selecionadas e que promoveram a melhor predição utilizando determinado algoritmo, de acordo com as métricas utilizadas.

Gonzalez-Vidal, Jimenez e Gomez-Skarmeta (2019), utilizaram como estratégias de busca, 4 métodos (Wrapper Multi e Univariado; Filter Multi e Univariado) e para a avaliação 5 algoritmos de aprendizado de máquina (floresta aleatória, IBK, regressão linear, SVM e processo gaussiano) com 4 métricas de avaliação (RMSE, MAE, tamanho do modelo e tempo de treinamento), passando por 10 validações cruzadas por 3 repetições e um teste estatístico t pareado com 0,05% de significância, para elencar os resultados conforme a relevância estatística. A seleção de características pelo método Wrapper Multivariado apresentou os melhores resultados com o algoritmo floresta aleatória utilizando a métrica MAE, a base resultante da seleção foi um conjunto de 8 características sendo elas: energia(t−1), radmax(t−0), feriado, energia(t−3), horaartificial, radmed(t−3), sensacaotermica(t−2) e temp(t−2). Com as características selecionadas, os autores realizaram uma série de predições para 1, 2 e 3 passos a frente, utilizando um programa em linguagem Java.

A metodologia apresentou uma melhora do MAE de 42,28% e de 36,62% no RMSE,

(31)

quando comparado com a mesma predição realizada sem nenhum processo de seleção de características.

A conclusão dos autores é que a metodologia proposta, aplicando a transformação dos dados, selecionando as características e realizando uma predição com estas, efetivamente reduz a complexidade dos modelos e as métricas de avaliação de predição, quando comparado com outros trabalhos relatados na literatura.

2.4 PREDIÇÃO DE SÉRIES TEMPORAIS MULTIVARIADAS COM IA

Uma série temporal univariada é uma sequência de pontos de dados que ocorrem em ordem sucessiva ao longo de algum período de tempo. Frequentemente, uma série temporal é uma sequência de amostragens tomada em pontos sucessivos igualmente espaçados no tempo.

Portanto, é uma sequência de dados em tempo discreto (MORETTIN; TOLOI, 2020).

O uso de séries temporais para fazer previsões é uma parte fundamental das decisões de negócios em todos os setores da economia e do serviço público. As empresas de varejo devem estimar quanto estoque precisam (STAUDT F. H.AND GUETNER, 2020); as empresas de energia precisam saber se devem aumentar a capacidade para acompanhar a demanda nos próximos anos (TEIXEIRA, 2020). A análise de dados de séries temporais é uma ferramenta essencial nesse processo de previsão.

A modelagem de série temporal univariada é a abordagem de previsão mais comumente usada. Ela permite analisar taxas de crescimento, tendências e sazonalidade de dados históricos de consumo, por exemplo. No entanto, existe um pressuposto fundamental para o uso deste método: supõe-se que todos os fatores externos que afetam a série temporal continuarão a afetá-la de forma estacionária (MORETTIN; TOLOI, 2018). Esta suposição nem sempre é verdadeira, fatores externos podem afetar a variável alvo de modo não estacionário.

O consumo de gás no processo de pelotização, por exemplo, pode ser alterado por mudanças nas características do minério, por condições climáticas, e por diversos outros fatores.

Compreender esse comportamento complexo requer mais do que apenas uma previsão de série temporal univariada simples, e é neste ponto que a análise de série temporal multivariada se faz necessária.

Uma série temporal multivariada é uma série temporal que apresenta mais de uma variável dependente do tempo. Cada variável depende não apenas de seus valores anteriores, mas também dos valores anteriores das outras variáveis. Essa dependência pode ser usada para prever valores futuros. Os modelos de séries temporais multivariadas tipicamente envolvem um grande número de parâmetros desconhecidos. Este problema se agrava quando há interdependências complexas e não linearidades (MORETTIN; TOLOI, 2018). Exemplos

(32)

de aplicações de previsão de dados de série temporal multivariada incluem a previsão do consumo de eletricidade, produção de energia solar, e previsão do tempo.

Devido aos padrões temporais complexos e interdependências entre séries temporais multivariadas, um grande número de modelos de previsão foram desenvolvidos. Wan et al. (2019) elaboraram um trabalho em que questionam como esses modelos atuam em uma determinada tarefa de previsão e se há uma oportunidade na comparação do desempenho desses modelos em diferentes tarefas. Para este fim, conduziram uma avaliação sistemática de modelos de previsão representativos: (i) um modelo estatístico clássico ARIMA, (ii) três modelos de aprendizado de máquina ridge (a restrição da regressãoridge é uma restrição de norma 2 e aplica uma penalidade relativamente homogênea a todos os coeficientes do modelo), (iii) SVR (Support Vector Regression), (iv) KNN (K-nearest neighbors algorithm), (v) quatro modelos de aprendizado profundo, CNN, RNN (redes neurais recursivas), redes de longos e curtos prazos (LSTNet) e uma nova proposta de rede híbrida que utiliza convolucionais para dependências temporais e espaciais (STGCN).

Na avaliação dos modelos foram utilizados oito conjuntos de dados de séries temporais multivariadas. Chegou-se à conclusão de que quando os conjuntos de dados exibem padrões periódicos evidentes, os modelos de aprendizagem profunda têm melhor desempenho. Caso contrário, em conjuntos de dados que apresentam informações não periódicas, os modelos estatísticos como ARIMA têm melhor desempenho. Para as séries temporais multivariadas que envolvem explicitamente interdependências gráficas entre elas, por exemplo, a topologia da rede rodoviária na série temporal espaço-temporal de volumes de tráfego em rotas múltiplas, a rede convolucional hibrida (STGCN) pode incorporar as interdependências gráficas em seus modelos de previsão, atingindo os melhores resultados.

Os métodos de modelagem tradicionais têm padrões complexos e podem se mostrar inefici- entes para capturar dependências multivariadas no longo prazo para a precisão de previsão.

Para resolver este problema, o trabalho de Yin et al. (2019) propõem alguns modelos de aprendizagem profunda baseados nos métodos de Rede Neural Recorrente (RNN) e Rede Neural Convolucional (CNN). Para melhorar a precisão da previsão e minimizar a dependência de dados multivariados de série temporal para dados não periódicos, dois conjuntos de dados foram utilizados, um com informações meteorológicas formado por 8 variáveis (umidade, temperatura do ar, pressão atmosférica etc) sendo o número de partículas menores que 2,5 micrômetros (PM 2,5) a variável alvo, e outro formado por 2 variáveis relacionadas ao consumo de eletricidade, sendo a variável alvo a demanda horária de eletricidade.

As bases de dados foram analisados por um novo modelo de Rede Convolucional Temporal Multivariada (M-TCN do inglês, Multivariate Temporal Convolution Network). Neste modelo, a predição de série temporal multivariável é construída como um cenário de

(33)

sequências para conjuntos de dados não periódicos. São propostos os blocos residuais multicanais em paralelo com estrutura assimétrica baseada em rede neural de convolução profunda. Os resultados são comparados com LSTM, LSTM convolucional (ConvLSTM, da versão em inglês Convolutional LSTM), Rede de Convolução Temporal (TCN, do inglês Temporal Convolutional Network) e Atenção Multivariada LSTM-FCN (MALSTM- FCN, do inglês Multivariate Attention LSTM-FCN), que indicam melhora significativa da precisão de predição, robusto e generalização do modelo.

2.5 EXPLORAÇÃO DE hiper-PARÂMETROS E ARQUITETURAS DE REDES NEU- RAIS

O Deep Learning permitiu um progresso notável nos últimos anos em uma variedade de tarefas, como reconhecimento de imagem, reconhecimento de fala e tradução automática.

Um aspecto crucial para este progresso são as arquiteturas neurais. As arquiteturas atualmente empregadas foram desenvolvidos, principalmente, manualmente por especialistas humanos, o que é um processo demorado e propenso a erros. Assim, há um interesse crescente nos métodos de busca de arquiteturas neurais automatizadas.

No trabalho de Elsken, Metzen e Hutter (2019), os pesquisadores fornecem uma visão geral dos trabalhos existentes neste campo de pesquisa. Os autores destacam que os trabalhos recentes, comparando os desempenhos em bases de dados conhecidas, como CIFAR10, se dão em parte por fatores múltiplos, fornecendo poucas informações sobre porque arquiteturas específicas funcionam bem e quão semelhante seriam as arquiteturas derivadas em execuções para outras bases. O método NAS é dividido em três dimensões:

Espaço de Busca, define quais arquiteturas podem ser representadas em princípio, incorpora conhecimento prévio sobre propriedades típicas de arquiteturas adequadas para uma tarefa, podendo reduzir o tamanho do espaço de busca e simplificar a busca; Estratégia de Busca, detalha como explorar o espaço de busca, engloba o equilíbrio entre desempenho e risco de convergência prematura para uma região de arquiteturas sub-ótimas, o que deve ser evitado; Estratégia de Estimativa de Desempenho, processo de estimar o desempenho preditivo em si.

Um exemplo de espaço de busca citado no trabalho, foi parametrizado da seguinte forma:

Número de camadas, tipo de funções de ativação que podem ser utilizadas em cada camada, número de neurônios por camada, filtros, tamanhos dos kernels. Os métodos de estratégia de busca mais utilizados são busca aleatória, otimização Bayesiana e hill climbing, podendo também ser utilizados abordagens de neuro-evolução. A estimativa de desempenho é a etapa mais delicada, devido ao elevado custo computacional de executar o treinamento e validação de todo o conjunto de dados, considerando que o problema envolvido pode envolver muitos dados. A maioria dos trabalhos têm se debruçado nesta etapa, discutindo as melhores formas de proceder para se atingir os melhores resultados,

(34)

com o menor custo computacional. Elsken, Metzen e Hutter (2019) citam alguns métodos utilizados na literatura: Lower fidelity estimates, Learning Curve Extrapolation, Weight Inheritance/ Network Morphisms, One-Shot Models/ Weight Sharing. Ao fim os autores discutem direções futuras para o NAS, citando problemas de multi-tarefa e multi-objetivo e propondo a utilização do NAS em domínios menos explorados, dado o sucesso do processo em atividades de reconhecimento de imagens.

No artigo de Jin, Song e Hu (2019), é proposto uma estrutura de Otimização Bayesi- ana para guiar a dinâmica de alteração dos hiper-parâmetros da rede buscando maior eficiência da arquitetura neural. A estrutura desenvolve um sistema neural e um algoritmo de otimização, estruturado em árvore, para explorar eficientemente o espaço de busca. Experimentos em conjuntos de dados de referência foram feitos para demonstrar o desempenho do framework desenvolvido. O sistema foi construído em aprendizado de máquina automatizado (AutoML), utilizando o AutoKeras. O método NAS mostrou bom desempenho nos experimentos, utilizando como métrica a taxa de erro nas bases de dados de imagens MNIST, CIFAR10 e FASHION, tendo superado vários métodos tradicionais de ajuste de hiper-parâmetros, como GridSearch, e métodos de busca de arquitetura neural, como SEAS e NASBOT.

2.6 NEURO-EVOLUÇÃO

Entre os vários métodos para realizar o NAS, os métodos de Computação Evolutiva (CE) recentemente, ganharam muita atenção.

A revisão feita por Stanley et al. (2019) analisam vários aspetos chaves da neuro-evolução moderna, incluindo computação em larga escala, os benefícios da novidade e da diversidade, o poder da codificação indireta e as contribuições do campo para meta-aprendizagem e pesquisa de arquitetura. Os autores afirmam que grande parte do aprendizado de máquina recente se concentrou no aprendizado profundo, no qual os pesos da rede neural são treinados por meio de variantes de descida de gradiente estocástica. Uma abordagem alternativa vem do campo da neuro-evolução, que aproveita algoritmos evolutivos para otimizar redes neurais, inspirados no fato de que os próprios cérebros naturais são produtos de um processo evolutivo. A neuro-evolução permite utilizar recursos importantes que normalmente não estão disponíveis para abordagens baseadas em gradiente, incluindo desenvolver blocos de construção de redes neurais (por exemplo, funções de ativação), hiper-parâmetros, arquiteturas e até mesmo algoritmos para aprender por si mesmos. A neuro-evolução também difere do aprendizado profundo (e aprendizado de reforço profundo) por manter uma população de soluções durante a pesquisa, permitindo exploração extrema e paralelização massiva. Finalmente, como a pesquisa em neuro-evolução (até recentemente) se desenvolveu em grande parte isolada da pesquisa de rede neural baseada em gradiente, desenvolveram-se muitas técnicas exclusivas e eficazes que também devem ser eficazes em

(35)

outras áreas de aprendizado de máquina.

No trabalho de Waring, Lindvall e Umeton (2020), os autores visam fornecer uma revisão da literatura existente no campo do aprendizado de máquina automatizado (AutoML) para ajudar os profissionais de saúde a utilizar melhor os modelos de aprendizado de máquina disponíveis, ainda que com conhecimento limitado em ciência de dados. Também identificaram potenciais oportunidades e barreiras ao uso do AutoML na área da saúde, bem como os aplicativos existentes do AutoML na área da saúde. Uma revisão de 101 artigos revelou que essas técnicas automatizadas podem igualar ou melhorar o desempenho humano especializado em determinadas tarefas de aprendizado de máquina, geralmente em um período de tempo menor, sendo a principal limitação, a capacidade de obter estes sistemas que funcionem de forma eficiente em larga escala, ou seja, além de conjuntos de dados retrospectivos de pequeno e médio porte. A utilização de técnicas de aprendizado de máquina demonstrou potencial para melhorar os resultados de saúde, reduzir os custos de saúde e avançar na pesquisa clínica, ainda que, a maioria dos hospitais não esteja implantando soluções de aprendizado de máquina. Sendo uma das razões o fato dos profissionais de saúde geralmente não possuírem a experiência em aprendizado de máquina necessária para construir um modelo de sucesso, implantá-lo em produção e integrá-lo ao fluxo de trabalho clínico. A fim de tornar as técnicas de aprendizado de máquina mais fáceis de aplicar e reduzir a demanda por especialistas humanos, o AutoML surgiu como um campo em crescimento que busca selecionar, compor e parametrizar automaticamente modelos, de modo a obter bons resultados em uma determinada tarefa e/ou conjunto de dados.

O artigo de Liu et al. (2021), revisa mais de 200 artigos dos mais recentes Métodos NAS baseados em EC, à luz dos componentes principais, para discutir sistematicamente seus princípios de projeto, bem como justificativas. Devido à complexidade da implantação da EC na estratégia de busca, os autores concluem que seria melhor a utilização de estratégias convencionais, como a busca aleatória, destacando que por ser um campo novo, mais trabalhos precisam ser desenvolvidos e que não é possível afirmar para diferentes bases, dado que foi necessário a observação de trabalhos com bases conhecidas para uma justa comparação, não sendo possível afirmar a proximidade de resultados com dados maiores ou com relações mais complexas.

Rainville et al. (2012) apresentam o DEAP (Distributed Evolutionary Algorithm in Python) do português, Algoritmos Evolucionários Distribuídos em Python), uma estrutura de computação evolutiva para prototipagem rápida e teste de ideias. O projeto se destaca da maioria dos outros frameworks existentes na medida em que busca tornar as estruturas de dados explícitas e transparentes, em oposição ao tipo de estrutura de caixa preta mais comum. Ele também incorpora paralelismo fácil, onde os usuários não precisam se