BÁRBARA DE OLIVEIRA AVALIAÇÃO DA PERFORMANCE DE SISTEMAS DE REFRIGERAÇÃO INDUSTRIAIS COM TÉCNICAS DE MACHINE LEARNING LONDRINA 2021

(1)

BÁRBARA DE OLIVEIRA

AVALIAÇÃO DA PERFORMANCE DE SISTEMAS DE

REFRIGERAÇÃO INDUSTRIAIS COM TÉCNICAS DE

MACHINE LEARNING

LONDRINA 2021

(2)

BÁRBARA DE OLIVEIRA

AVALIAÇÃO DA PERFORMANCE DE SISTEMAS DE

REFRIGERAÇÃO INDUSTRIAIS COM TÉCNICAS DE

MACHINE LEARNING

Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel em Ciência da Computação.

Orientador: Prof(a). Dr(a). Jandira Guenka Palma

LONDRINA 2021

(3)

Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração Automática do Sistema de Bibliotecas da UEL

Oliveira, Bárbara.

Avaliação da performance de sistemas de refrigeração industriais com técnicas de machine learning / Bárbara Oliveira. - Londrina, 2021.

37 f. : il.

Orientador: Jandira Palma.

Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) -Universidade Estadual de Londrina, Centro de Ciências Exatas, Graduação em Ciência da Computação, 2021.

Inclui bibliografia.

1. Machine learning - TCC. 2. Eficiência energética - TCC. 3. Re?frigeração industrial - TCC. I. Palma, Jandira. II. Universidade Estadual de Londrina. Centro de Ciências Exatas. Graduação em Ciência da Computação. III. Título.

CDU 519

(4)

BÁRBARA DE OLIVEIRA

AVALIAÇÃO DA PERFORMANCE DE SISTEMAS DE

REFRIGERAÇÃO INDUSTRIAIS COM TÉCNICAS DE

MACHINE LEARNING

Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel em Ciência da Computação.

BANCA EXAMINADORA

Orientador: Prof(a). Dr(a). Jandira Guenka Palma

Universidade Estadual de Londrina

Prof. Dr. Segundo Membro da Banca Universidade/Instituição do Segundo Membro da Banca – Sigla instituição

Prof. Dr. Terceiro Membro da Banca Universidade/Instituição do Terceiro Membro da Banca – Sigla instituição

Prof. Ms. Quarto Membro da Banca Universidade/Instituição do Quarto Membro da Banca – Sigla instituição

(5)

AGRADECIMENTOS

Os agradecimentos principais são direcionados à Jandira G. Palma que orientou este trabalho, também Bruna de Oliveira, Murilo C. Barbosa, e todos aqueles que con-tribuíram para que a produção deste trabalho acadêmico fosse possível. Agradecimentos especiais são direcionados ao Departamento de Ciência da Computação da Universidade Estadual de Londrina e a empresa Less Energy pelo suporte e fornecimento dos dados para a pesquisa.

(6)

"Você deve ser a mudança que deseja ver no mundo." Mahatma Ghandi

(7)

OLIVEIRA, B.. Avaliação da performance de sistemas de refrigeração industriais

com técnicas de machine learning. 2021. 39f. Trabalho de Conclusão de Curso

(Ba-charelado em Ciência da Computação) – Universidade Estadual de Londrina, Londrina, 2021.

RESUMO

Em sistemas de refrigeração de alta performance, nota-se dificuldades na manutenção e controle do sistema, devido ao nível de complexidade, quantidade de variáveis e sensibili-dade dos equipamentos. E este ainda é um ramo bastante tradicional, principalmente no Brasil, no que diz respeito a tecnologias e métodos empregados. O presente trabalho tem como objetivo auxiliar no processo de análise destes sistemas, a partir da criação de um processo para avaliação da performance dos ambientes refrigerados, por meio da aplicação de técnicas de machine learning que, buscam um padrão entre os dados de determinado ambiente e apresentam uma classificação para o ambiente apresentado quanto a sua per-formance energética, com base nos resultados do cálculo das principais cargas térmicas do ambiente. Para a resolução deste processo, foram avaliados os principais algoritmos em-pregados na indústria para classificação, são eles: Random Forest, Support vector machine (SVM) and Multilayer Perceptron (MLP). Dentre eles, o que obteve os melhores resulta-dos foi o MLP, o processo de desenvolvimento se mostrou eficiente, podendo inclusive ser aplicado para outros problemas.

(8)

OLIVEIRA, B.. Performance evaluation software to industrial refrigeration

sys-tems with machine learning techniques. 2021. 39p. Final Project (Bachelor of Science

in Computer Science) – State University of Londrina, Londrina, 2021.

ABSTRACT

In high performance refrigeration systems, there are difficulties in maintaining and con-trolling the system, due to the level of complexity, number of variables and sensitivity of the equipments. So in a very traditional branch yet, mainly in Brazil, the present work aims to assist in the analysis process of these systems, creating a process to evaluate the performance of refrigerated environments, through the application of machine learning techniques, which seek a pattern among the data of a given environment and present a classification for the environment presented as to its energy performance, based on the results of the calculation of the main thermal loads of the environment. For the implemen-tation of this process, the main algorithms employed in the industry for classification as to energy efficiency will be evaluated, they are: RandomForest, Support vector machine (SVM) and Multilayer Perceptron (MLP). Among them, the one that obtained the best results was the MLP, the others did not achieve satisfactory results, but the development process proved to be efficient, and can even be applied to other problems.

(9)

LISTA DE ILUSTRAÇÕES

Figura 1 – Ciclo teórico da refrigeração por compressão de vapor . . . 13 Figura 2 – Funcionamento do cross-validation . . . . 18 Figura 3 – Representação dos classificadores lineares em um espaço bidimensional 21 Figura 4 – Diagrama de atividades do processo de desenvolvimento dos modelos

de classificação . . . 24 Figura 5 – Distribuição de valores da classificação dos ambientes . . . 38 Figura 6 – Distribuição de valores de capacidade máxima de produção dos ambientes 38 Figura 7 – Distribuição de valores de temperatura de entrada do produto . . . 38 Figura 8 – Distribuição de valores de temperatura de saída do produto . . . 39 Figura 9 – Distribuição de valores da capacidade total dos evaporadores . . . 39

(10)

LISTA DE TABELAS

Tabela 1 – Tabela comparativa de algoritmos para classificação . . . 18 Tabela 2 – Legenda da matriz de confusão . . . 19

(11)

SUMÁRIO

1 INTRODUÇÃO . . . . 12

2 REVISÃO BIBLIOGRÁFICA . . . . 13

2.1 Refrigeração industrial . . . 13

2.1.1 Eficiência energética . . . 14

2.2 Ciência de dados e a Indústria 4.0 . . . . 14

2.2.1 Ciência de dados aplicada a eficiência energética . . . 15

2.3 Machine Learning . . . . 16

2.3.1 Revisão bibliográfica de machine learning aplicada a refrigeração . . . 17

2.3.2 Random Forest . . . . 20

2.3.3 Support Vector Machine (SVM) . . . 21

2.3.4 Redes Neurais - Multilayer Perceptron (MLP) . . . . 22

3 PROPOSTA DE DESENVOLVIMENTO DE UM SISTEMA PARA AVALIAÇÃO DA PERFORMANCE DE REFRIGE-RAÇÃO . . . . 24

3.1 Preparação dos dados . . . . 24

3.1.1 Carregamento da base de dados . . . 25

3.1.2 Seleção dos dados . . . 25

3.1.3 Estudo das características dos dados . . . 25

3.1.4 Geração de variações dos dados . . . 25

3.1.5 Classificação dos conjuntos de dados . . . 26

3.2 Desenvolvimento do modelo . . . . 26

3.2.1 Treinamento do algoritmo . . . 26

3.2.2 Teste do modelo . . . 26

3.2.3 Ajuste de parâmetros do modelo . . . 26

4 DESENVOLVIMENTO DE UM SISTEMA PARA AVALI-AÇÃO DA PERFORMANCE DE REFRIGERAVALI-AÇÃO COM ESTUDO DE CASO NA INDÚSTRIA ALIMENTÍCIA . . . 27

4.1 Preparação dos dados . . . . 27

4.1.1 Carregamento da base de dados . . . 27

4.1.2 Seleção dos dados . . . 27

4.1.3 Estudo das características dos dados . . . 28

4.1.4 Geração de variações dos dados . . . 28

(12)

4.2 Desenvolvimento do modelo . . . . 29

4.2.1 Treinamento do algoritmo . . . 29

4.2.2 Teste do modelo . . . 29

4.2.3 Ajuste de parâmetros do modelo . . . 30

4.3 Análise dos resultados . . . . 30

4.3.1 Random Forest . . . . 30

4.3.2 SVM . . . 31

4.3.3 MLP . . . 31

4.3.4 Comparação dos resultados . . . 32

5 CONCLUSÃO . . . . 33

REFERÊNCIAS . . . . 34

(13)

12

1 INTRODUÇÃO

Em grandes frigoríficos, o consumo de energia elétrica representa em torno de 60% das despesas, sendo o setor industrial o maior consumidor de energia elétrica, consumindo cerca de 30% de toda energia gerada no país [1]. Logo nota-se a importância da eficiência energética para o setor industrial. Representa uma grande economia, que poderia ser convertida em lucro ou investimento, e um menor impacto ambiental, por diminuir o desperdício de energia. Por isso as indústrias vem investindo cada vez mais em eficiência energética. O setor industrial foi o que mais economizou energia entre os anos 2000 e 2017 através de investimentos em eficiência energética [2].

Por se tratar de uma área em ascensão, este trabalho propõe um método de análise dos sistemas de refrigeração industriais, através da implementação de algoritmos de

ma-chine learning que, vão buscar um padrão entre os dados e apresentar uma classificação

quanto a performance do ambiente inserido. Contribuindo para a manutenção adequada dos sistemas de refrigeração industriais e a diminuição de gastos com energia, possibili-tando um melhor aproveitamento do sistema, e uma melhor performance do ambiente. Além disso, agrega conhecimento a área de refrigeração industrial e a inteligência de arti-ficial, por avaliar a contribuição e o comportamento dos algoritmos em diferentes tarefas. Outros trabalhos semelhantes ja foram desenvolvidos na área, porém poucos com foco em sistemas de refrigeração e aplicação de técnicas de computação, a maioria dos trabalhos na área são referentes a otimização de cálculos e disposição dos equipamentos de refrigeração, e se encontram no ramo da engenharia.

A seguir serão realizados os seguintes procedimentos descritos neste documento, divididos nos seguintes capítulos: cap. 2, onde serão desenvolvidos os temas bases desta pesquisa, cap. 3, onde sera descrito o processo proposto, no cap 4, sera apresentado a aplicação do processo proposto, e por fim, no cap. 5, a conclusão e considerações finais deste trabalho.

(14)

13

2 REVISÃO BIBLIOGRÁFICA

Para que se alcance os objetivos deste trabalho, se faz necessário o conhecimento dos objetos de estudo que influenciam direta e indiretamente esta pesquisa, são eles: a refrigeração industrial juntamente com a eficiência energética, suas principais caracterís-ticas e métricas, que servirão de base para a criação e avaliação do processo proposto; a ciência de dados com aplicação a indústria 4.0, visando a promoção da eficiência energé-tica, área em que se insere esta pesquisa; e machine learning, juntamente com todas as técnicas utilizadas.

2.1 Refrigeração industrial

A refrigeração é um recurso essencial, seja para a conservação de alimentos, produ-ção de materiais, ou até conforto térmico. Na indústria, a refrigeraprodu-ção se encontra em di-versos setores, como construção, manufatura, química, têxtil, eletrônica e, principalmente, na indústria de alimentos [3]. A refrigeração industrial se difere do condicionamento de ar a que estamos acostumados em diversos aspectos, como componentes, projeto, mercado e manutenção. Embora ambos compartilhem do mesmo fim, resfriar determinado ambiente, e mesmo ciclo de refrigeração, a refrigeração industrial apresenta componentes e plantas mais complexas que o condicionamento de ar, tendo como consequência um alto custo de manutenção e necessidade de mão de obra especializada, justificando as pesquisas e investimentos na área. Esta pesquisa tera como objeto de estudo os sistemas de refrige-ração por compressão a vapor, cujo desenvolvimento se deu na década de 1920, e ainda é largamente utilizado mundialmente [4]. O ciclo de refrigeração deste tipo de sistema é mostrado na Figura 1.

Figura 1 – Ciclo teórico da refrigeração por compressão de vapor

(15)

14

A partir do ciclo de refrigeração ilustrado na Figura 1, nota-se que o compressor é um dos principais componentes no sistema de refrigeração, ele comprime o fluido refrige-rante promovendo sua circulação no sistema. A seguir o vapor do fluido refrigerefrige-rante entra no condensador, onde é resfriado até que condense e seja enviado para a válvula de expan-são, onde perde presexpan-são, transformando uma parcela do líquido em vapor. Em seguida, essa mistura é separada no vaso separador, que envia o vapor de volta ao compressor, recomeçando o ciclo, e o líquido para o evaporador, que vai aquecer retirando calor do ambiente refrigerado, transformando o líquido em vapor novamente que é enviado de volta ao compressor, recomeçando o ciclo [5]. Nota-se que os equipamentos dependem um do outro para o funcionamento adequado do ciclo, juntamente com o correto manejo da sala refrigerada, sendo necessário alto conhecimento e monitoramento do sistema para que seja promovida de fato a eficiência em energia e performance da instalação.

2.1.1 Eficiência energética

Na indústria, os sistemas de refrigeração são bastante complexos e servem diver-sos tipos de salas, funcionando em tempo quase contínuo, gerando um alto consumo de energia elétrica. Por isso a eficiência energética é de vital importância nas indústrias de refrigeração. Além de gerar uma economia de capital, contribui com a sustentabilidade das fontes de energia, impacta diretamente na qualidade do produto e na performance dos equipamentos, afinal equipamentos com defeito acabam sobrecarregando o sistema e consumindo mais energia que o esperado. [3]. Para a realização de uma análise da efici-ência energética em um sistema de refrigeração industrial existem algumas métricas que nos dão informações importantes do estado em que o sistema se encontra, as principais são [3]:

∙ Coeficiente de performance (COP): Mostra a relação entre energia útil (no caso de frigoríficos a energia retirada do sistema para manter certa temperatura numa câ-mara fria) e trabalho aplicado ao sistema (gasto energético), representando quantas vezes a energia útil é maior que o trabalho aplicado. Ou seja, quanto maior esse valor, mais eficiente é o sistema. No entanto, existe um valor máximo que esse valor pode assumir, para que as leis da termodinâmica não sejam violadas. Esse valor depende dos parâmetros da instalação. [3].

∙ Cargas térmicas dos ambientes: Indica a demanda energética necessária a partir da avaliação da quantidade de calor no ambiente [3].

2.2 Ciência de dados e a Indústria 4.0

A indústria tem como característica a produção de uma enorme quantidade de informação. Porém, estes dados não são de fácil acesso e interpretação, nem estão

(16)

to-15

talmente conectados, dificultando a geração de conhecimento. O campo de estudos que pesquisa formas de analisar e transformar dados em conhecimento para determinada área é a ciência de dados. A qual é composta pela interseção de ciência da computação, es-tatística e domínios de aplicação. Da ciência da computação temos tecnologias de alta performance para lidar com os mais diversos tipos, escalas e análises de dados. Da estatís-tica temos as técnicas de análise exploratória e visualização de dados. E dos domínios de aplicação, seja no campo empresarial ou cientifico, temos os desafios a serem trabalhados e estudados através da ciência de dados [6]. A ciência de dados aplicada a indústria de forma a conectar objetos físicos, sistemas, máquinas e aplicações, no gerenciamento de dados e operações analíticas trabalhando juntos para criar valor a empresa, consolidam a quarta revolução industrial, conhecida como indústria 4.0 [7].

2.2.1 Ciência de dados aplicada a eficiência energética

O artigo Looking at energy through the lens of industry 4.0: A systematicliterature

review of concerns and challenges[8] faz uma revisão bibliográfica dos trabalhos publicados

até o ano de 2019 que propõe métodos para predizer, monitorar, e gerenciar, a produção ou o consumo de energia na indústria 4.0. Mais de 2.500 publicações dos últimos 10 anos foram selecionadas e validadas de forma que respondessem as perguntas propostas pelo autor quanto as necessidades das indústrias e o que as pesquisam vem propondo quanto a eficiência energética [8]. As principais respostas obtidas são:

∙ Principais objetivos dos estudos em termos de energia na indústria 4.0 - Economia de energia e aumento da consciência do real consumo/economia de energia.

∙ As dificuldades na gestão da energia, monitoramento e na implementação

de estratégias de economia de energia:

– Variedade de equipamentos e sistemas elétricos

– Dificuldade em armazenar e manipular energia

– Medidas em tempo real do consumo de energia

– Grande quantidade de dados

– Falta de capacidade energética

– Integração de dados

– Falta de sistemas de gestão

– Coleta de rendimentos energéticos

– Integração de baterias recarregáveis

(17)

16

– Gerenciamento de redes de sensores – Aplicação de técnicas de coleta de energia – Estratégias de planejamento

– Gerenciamento de dados – Monitoramento energético

Com base nas necessidades descritas, este trabalho propõe: amenizar as dificulda-des de integração de dados gerados e a falta de sistema de gestão de energia elétrica na indústria, com foco na refrigeração, através de um software de auxílio a tomada de de-cisão e análise de performance dos ambientes refrigerados, contribuindo para uma maior consciência do real consumo e desempenho dos equipamentos de refrigeração.

2.3 Machine Learning

Machine learning é uma tecnologia que permite que sistemas computacionais

re-solvam problemas a partir do aprendizado sobre a experiência gerada da "observação"de exemplos fornecidos [9]. Portanto é importante ter um conjunto de dados de qualidade, variado e em larga escala para que seja gerado um bom modelo. Também se faz neces-sário atenção a escolha do algoritmo a ser utilizado, que deve modelar bem os dados, o tipo de problema que se tem, e possibilitar a resposta que se procura. Pode-se classificar um algoritmo de machine learning pelo tipo de aprendizado que se utiliza, podendo ser: [10][11].

∙ Aprendizado Supervisionado: aprendem um padrão a partir da exposição a um con-junto de dados pré-classificados, em muitas situações, são capazes de generalizar com alto grau de precisão, chegando ao número completo de entradas possíveis. Usado em problemas que o humano tem certo conhecimento ou expertise. Uma caracterís-tica deste tipo de aprendizado é, quanto maior e mais variada a base de dados de treinamento, melhor o resultado alcançado.

∙ Aprendizado Não-Supervisionado: não requer treinamento ou pré classificação dos dados. Usado quando não se conhece bem o problema ou quando deseja-se descobrir algum padrão ou relacionamento desconhecido entre os dados.

∙ Aprendizado Semi-Supervisionado: permite que sejam usados ambos, dados pré-classificados ou não, como conjunto de treinamento. Usado quando o processo de pré-classificação dos dados é muito caro ou o conjunto de dados muito restrito. ∙ Aprendizado Reforçado: usa o mecanismo de feedback para o aprendizado. Quando

o algoritmo prevê um resultado correto recebe um sinal positivo, uma "premiação", e quando prevê um resultado incorretamente recebe uma "punição"[10].

(18)

17

Um algoritmo de machine learning também pode ser classificado pelo tipo de tarefa que ele realiza. As principais tarefas em que machine learning é aplicada são [10]:

∙ Regressão ∙ Classificação ∙ Clustering

∙ Redução de dados ∙ Detecção de anomalias

2.3.1 Revisão bibliográfica de machine learning aplicada a refrigeração

Foram identificados na literatura trabalhos cuja proposta de solução e objeto de estudo se assemelha a esta. Foi buscado na base Scopus trabalhos cujo titulo, resumo ou palavras chave contivessem as palavras (em inglês): refrigeração industrial e machine

lear-ning. O resultado foi: 13 trabalhos no total, 5 dentro da área de ciência da computação, 2

documentos de conferência e 2 artigos. São eles: aplicação de métodos data-driven para o cálculo de COP [12]; teste de capacidade de compressores através de redes neurais recor-rentes [13]; proposta de um método de monitoramento industrial comparando os seguintes métodos: análise discriminante, redes neurais, SVM e máquinas de aprendizado extremo [14]; comparação de métodos de machine learning supervisionada e não-supervisionada na identificação de falhas em sistemas de refrigeração [15]. O principal trabalho referenci-ado foi o de (Beisheim,B. Rahimi-Adli,K. Krämer,S. Engell,S., 2019)[16], que através de modelos matemáticos e clusterização atinge resultados satisfatórios na análise de grande quantidade de dados de equipamentos industriais, com o objetivo de promover a eficiência energética. E sugere como pesquisa futura, que sejam feitas sub-análises em setores para compor uma análise geral da indústria. Similar a proposta deste trabalho, analisar sepa-radamente os ambientes do sistema de refrigeração para compreender o estado do sistema como um todo.

Dentre os principais algoritmos de machine learning aplicados a eficiência energé-tica levantados no review[8], os que podem ser usados para classificação são: redes neurais, árvores de decisão e SVM. As principais características destes algoritmos são mostrados na Tabela 1, com a adição do algoritmo random forest, escolhido por ter como base um dos algoritmos apresentados, as árvores de decisão, e sendo mais poderoso computaci-onalmente. Os critérios para a montagem da tabela foram escolhidos de forma que a análise resulte num algoritmo de velocidade, acurácia e tratamento de dados adequados ao problema.

No processo de teste do modelo sera usado o método de cross-validation. Uma técnica muito utilizada para avaliar a capacidade de generalização de um modelo que visa

(19)

18

Tabela 1 – Tabela comparativa de algoritmos para classificação

Fonte: adaptado de (Kaur,J. Singh,D. Kaur,M., 2019)[17]

a predição de novos objetos. Essa técnica se baseia na repartição do conjunto de entrada em subconjuntos mutualmente exclusivos, onde um número de modelos é gerado igual ao número de partições feitas, e onde cada modelo utiliza conjuntos de treino de teste diferentes, por exemplo: suponha que um conjunto de dados tenha sido dividido em 10 partes e numerado de 1 a 10. Para a criação do primeiro modelo, utilizados os conjuntos de 2 até 10 para treino e o conjunto 1 para teste. Para o segundo modelo, utilizamos o 2 conjunto para teste e o restante para treino, e assim por diante. Como mostra a Figura 2.

Figura 2 – Funcionamento do cross-validation

Para avaliação do desempenho dos modelos, serão utilizadas as métricas: matriz de confusão, acurácia e Receiver Optimization Characteristics (ROC), sendo estas as métricas mais comunmente utilizadas na avaliação da performance de classificadores [18]:

(20)

pro-19

blemas multi-classe. A matriz de confusão indica a quantidade de predições certas e erradas em cada classe. Possibilitando a visualização rápida e clara do desempenho do modelo para cada classe. A matriz de confusão é configurada como mostra a Tabela 2.

Tabela 2 – Legenda da matriz de confusão

Fonte: autor

∙ Acurácia: Definida pela taxa de acertos sobre a quantidade de amostras de entrada.

𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝐴𝑐𝑒𝑟𝑡𝑜𝑠𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠

𝑇 𝑜𝑡𝑎𝑙 (2.1)

∙ ROC: Uma vez que o resultado de sistemas de classificação geralmente estão situados dentro de um intervalo contínuo, é necessário definir um limiar de decisão para se classificar e contabilizar o número de predições positivas e negativas. Para cada limiar são calculados valores de sensibilidade e especificidade, que são dispostos em um gráfico denominado curva ROC, apresentando no eixo das ordenadas os valores de sensibilidade e nas abscissas o seu complemento.

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = 𝐴𝑐𝑒𝑟𝑡𝑜𝑠𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠

𝑇 𝑜𝑡𝑎𝑙𝑑𝑒𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (2.2)

𝐸𝑠𝑝𝑒𝑐𝑖𝑓 𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 𝐴𝑐𝑒𝑟𝑡𝑜𝑠𝑁 𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠

𝑇 𝑜𝑡𝑎𝑙𝑑𝑒𝑁 𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠 (2.3)

Uma das medidas para comparação de sistemas é justamente a área sobre a Curva (AUC), uma vez tendo a curva ROC em mãos, basta aplicar um método de integral numérica, sendo o número obtido um discriminante da qualidade do sistema, quanto maior melhor [19].

A seguir serão descritos os algoritmos selecionados, seu funcionamento, vantagens, e aplicação. Com exceção das árvores de decisão, que serão apresentadas dentro do algo-ritmo random forest.

(21)

20

2.3.2 Random Forest

O algoritmo random forest tem como base a estrutura de árvores de decisão. Em uma árvore de decisão a informação é consistentemente dividida seguindo um parâmetro especificado, até chegar a um resultado, um nó final chamado folha [17]. O desenvolvimento de uma árvore de decisão envolve dois passos: indução e poda. Na etapa de indução é construída a estrutura de árvore, com informação armazenada hierarquicamente em seus nós e galhos. E na etapa de poda todas as estruturas desnecessárias são removidas da árvore, diminuindo a complexidade e a ocorrência de sobreajuste [20].

Considerada a estrutura mais apropriada para classificação multi classe, a árvore de decisão é a base do random forest. Um algoritmo altamente eficiente de aprendizado supervisionado que pode ser usado para ambas as tarefas de regressão ou classificação. O random forest funciona da seguinte forma: é selecionado estocasticamente grupos de dados para formar árvores de decisão, cada árvore faz uma predição, e em seguida é feita uma votação, o resultado mais votado é retornado [20]. É um algoritmo do tipo caixa preta, ou seja, não é fácil rastrear o tipo de processamento executado pelo algoritmo para se chegar ao resultado [21].

Este esquema de geração de floresta e votação faz com que o algoritmo lide bem com dados de entrada com valores faltando ou com ruído, porém aumenta o tempo de execução do algoritmo, sendo considerado de velocidade moderada [17], O tempo com-putacional de processamento do random forest pode ser expresso pela seguinte fórmula cT√𝑀 Nlog(N), tendo como c uma constante, T o numero de árvores, M o número de

variáveis, e N o número de amostras [21].

Para o desenvolvimento de um modelo random forest são seguidos os seguintes passos:

1. Seleção dos dados de treinamento e teste: selecionar o conjunto de dados de treina-mento e teste do algoritmo. É importante que para o conjunto de treinatreina-mento sejam adquiridos dados variados e em quantidade satisfatória, acima de 200 amostras por classe [22]. O conjunto de dados de teste pode ser bem menor, em torno de 20% a 30% do tamanho da base de treinamento, mas é importante que ele contenha amos-tras de todas as classes criadas, para melhor avaliação do poder de classificação do método.

2. Desenvolvimento e ajuste de parâmetros: deve ser escolhida a linguagem ou ferra-menta de impleferra-mentação do método. Então os parâmetros do algoritmo podem ser ajustados de forma que se obtenha um melhor resultado para o problema estudado. No random forest é necessário ajustar: a quantidade de árvores gerada, a quantidade de atributos analisados por cada árvore e o número de iterações.

(22)

21

3. Teste e comparação de resultados: para o teste os parâmetros são variados de acordo com o padrão da literatura e características da base de dados utilizada. Os resultados são comprados de forma a encontrar a melhor configuração. Essa comparação é feita sobre as métricas de aprendizado supervisionado, as principais são: acurácia, matriz de confusão, taxa de erro, precisão e revocação.

2.3.3 Support Vector Machine (SVM)

A classificação com SVM se baseia em encontrar um plano de separação ótimo entre duas classes, através do cálculo de distância das features que se encontram na borda de divisão de diferentes classes, como mostra a Figura 3. Portanto, é esperado que o algoritmo tenha um alto grau de generalização, de tolerância a ruídos e requira data sets menores no seu treinamento para alcançar uma taxa de acurácia satisfatória. [23].

Figura 3 – Representação dos classificadores lineares em um espaço bidimensional

Fonte: SVM Tutorial: Classification, Regression, and Ranking[24]

O algoritmo inicialmente foi projetado para resolução de problemas lineares biná-rios. Hoje com algumas mudanças é possível adapta-lo para diferentes necessidades. Por exemplo, para suportar problemas de classificação não linear, SVMs mapeiam os valores de entrada para dimensões maiores em que seja possível delimitar os valores de entrada de acordo com suas classes, esse processo é chamado kernel trick, e se da através da im-plementação de outros tipos de kernel além do linear. Sendo Kernel um tipo de função de similaridade entre dois vetores, a SVM pode aprender qualquer padrão através de vetores, desde que se possa computar uma função de similaridade entre qualquer par de dados [24]. O SVM ganhou notoriedade na resolução de problemas de classificação e regressão principalmente pela sua flexibilidade e poder, provenientes da possibilidade da escolha do

(23)

22

kernel a ser utilizado, de acordo com a necessidade do problema e das características da

base de dados, sendo os principais: linear, polinomial e gaussiano [25].

2. Desenvolvimento e ajuste de parâmetros: deve ser escolhida a linguagem ou ferra-menta de impleferra-mentação do método. Então os parâmetros do algoritmo podem ser ajustados de forma que se obtenha um melhor resultado para o problema estudado. Para SVM é necessário ajustar: o parâmetro de complexidade C, que determina um ponto de equilibrio entre a maximização da margem e a minimização do erro, e o tipo de kernel utilizado, podendo ser: linear, polinomial, sigmoid ou radial, dependendo da complexidade do problema.

2.3.4 Redes Neurais - Multilayer Perceptron (MLP)

Rede neural é uma classe de modelos inspirados no sistema nervoso do cérebro humano. Eles podem emular funções complexas como tomada de decisão e geração de padrões. MLPs são um tipo de rede neural, que como o cérebro humano, consiste em um sistema de unidades de processamento, chamados neurônios, conectados entre si [26].

MLPs contém a seguinte estrutura, uma camada de entrada, uma camada de saída, N camadas ocultas, e K neurônios distribuídos em suas camadas. Taxa de aprendizado, número de camadas ocultas, e número de neurônios, são parâmetros que devem ser defi-nidos de forma a otimizar a classificação. Principalmente o numero de neurônios, que tem um papel importante na avaliação de performance [27].

Na maioria dos casos, MLPs treinam com base em um grupo com entradas e saídas esperadas, então aprendem um modelo de correlação entre os dados de entrada e saída. MLPs podem detectar relações não-lineares complexas através de um processo de aprendizado que envolve o ajuste do ’peso’ de conexões existentes entre os neurônios.

(24)

23

Permitindo que executem duas importantes funções: classificação de padrões e filtragem adaptativa não-linear [26].

2. Desenvolvimento e ajuste de parâmetros: deve ser escolhida a linguagem ou fer-ramenta de implementação do método. Então os parâmetros do algoritmo podem ser ajustados de forma que se obtenha um melhor resultado para o problema es-tudado. Para MLP, é necessário ajustar: quantidade de camadas ocultas, taxa de aprendizado e número de épocas (iterações).

(25)

24

3 PROPOSTA DE DESENVOLVIMENTO DE UM SISTEMA

PARA AVALIAÇÃO DA PERFORMANCE DE

REFRIGE-RAÇÃO

O presente trabalho propõe, a partir da análise das características do ambiente e equipamentos da indústria, gerar um relatório de classificação de performance da refrigera-ção do ambiente a partir dos modelos de machine learning mais utilizados na classificarefrigera-ção de eficiência na indústria, são eles: random forest, SVM, e MLP.

O processo de desenvolvimento da proposta consiste em duas categorias: prepara-ção dos dados e desenvolvimento do modelo. A preparaprepara-ção dos dados é feita apenas uma vez. Para que haja uma comparação justa entre os modelos, todos usarão o mesmo con-juntos de dados. A fase de desenvolvimento do modelo é executada com cada algoritmo de classificação selecionado. Ilustrado na Figura 4.

Figura 4 – Diagrama de atividades do processo de desenvolvimento dos modelos de clas-sificação

Fonte: autor

3.1 Preparação dos dados

Durante a fase de preparação dos dados sera identificado o tipo de fonte de dados a ser utilizada, a seleção dos atributos, suas principais características, necessidade e tipo de tratamento de características indesejáveis nos dados e classificação das amostras. O principal objetivo desta fase é definir o escopo do modelo e preparar um conjunto de

(26)

25

dados de treinamento adequado, ou seja, que aumente as chances de desenvolvimento de um bom modelo de classificação.

3.1.1 Carregamento da base de dados

Para o inicio deste processo é necessário ter definido o setor em que sera aplicada a solução e como os dados serão coletados, se sera a partir da concessão de terceiros ou se sera necessário definir uma estratégia de coleta de dados. Também a forma de exploração mais adequada a esses dados, que podem estar no formato de planilhas, banco de dados, formulário, texto, imagem, entre outros formatos. É recomendado o acesso a uma base de dados real, contribuindo para a coerência dos dados e, consequentemente, do resultado do modelo, mas não é um passo essencial, também é possível trabalhar apenas com dados gerados aleatoriamente ou seguindo alguma regra.

3.1.2 Seleção dos dados

Nesta etapa é definido o método de avaliação das amostras, e então são selecionados apenas os atributos necessários para o tipo de avaliação escolhido.

3.1.3 Estudo das características dos dados

É interessante que seja estudado o comportamento das variáveis. Se existem cons-tantes, se existem outliers, se existe quantidade suficiente de dados, entre outras caracte-rísticas. Para que seja avaliado a qualidade dos dados e se existe a necessidade de criação de mais amostras. Caso seja identificado a necessidade de geração de amostras (a partir de uma base de dados prévia ou não), então deve-se fazer um estudo do comportamento dos dados selecionados no ambiente real, levantando valores padrão, faixas de valores, entre outras características, que servirão de base na geração das amostras, com intuito de gerar valores mais próximos da realidade.

3.1.4 Geração de variações dos dados

Em classificadores supervisionados é de vital importância que se tenha um conjunto de entrada de tamanho que garanta dados variados e em boa quantidade, dependendo do algoritmo utilizado, para expor o modelo a diferentes cenários [22]. Se a quantidade ou variedade dos dados obtidos não for suficiente para o treinamento do modelo, pode ser feita a geração de mais dados, a partir de variações dos dados existentes e o estudo feito previamente das características dos dados trabalhados. Para isso existem diversas técni-cas que podem ser empregadas, que exploram a distância entre os valores existentes, ou seguem regras inferidas a partir de outras pesquisas ou algum engenheiro de conhecimento consultado.

(27)

26

3.1.5 Classificação dos conjuntos de dados

Com a base de dados pronta, é feita a última etapa de preparação dos dados, a classificação das amostras quanto ao método escolhido, para que o modelo aprenda como deve interpretar cada caso apresentado, e para que seja possível avaliar o desempenho do modelo desenvolvido, através da comparação da classificação "tradicional"e a classificação do modelo de machine learning.

3.2 Desenvolvimento do modelo

O processo de desenvolvimento do modelo segue o fluxo comum de desenvolvimento de modelos de machine learning, treinamento, teste e ajuste de parâmetros, descritos a seguir.

3.2.1 Treinamento do algoritmo

Nesta fase devem ser definidos como e quais parâmetros de entrada serão variados, de acordo com o algoritmo escolhido. Então os dados de treinamento são enviados como entrada do algoritmo configurado, gerando um modelo de classificação.

3.2.2 Teste do modelo

A seguir este modelo deve ser testado com o conjunto de dados de teste, diferente do conjunto de dados de treinamento, mas em quantidade bem menor. Não é impor-tante a quantidade de amostras, mas que contenha exemplos variados. Então é avaliada a qualidade do modelo através das métricas de performance de machine learning.

3.2.3 Ajuste de parâmetros do modelo

O processo de treinamento e teste do modelo, deve ser executado quantas vezes fo-rem necessárias, ajustando os parâmetros do algoritmo escolhido da forma que foi definido, buscando alcançar um melhor resultado.

(28)

27

4 DESENVOLVIMENTO DE UM SISTEMA PARA

AVALI-AÇÃO DA PERFORMANCE DE REFRIGERAVALI-AÇÃO COM

ESTUDO DE CASO NA INDÚSTRIA ALIMENTÍCIA

Com base nas etapas do processo, apresentadas no capitulo anterior, a seguir sera explicado como se deu a realização de cada etapa no desenvolvimento deste trabalho.

4.1 Preparação dos dados

Durante a fase de preparação dos dados foram identificados o tipo de fonte de dados a ser utilizada, a seleção dos atributos, suas principais características, necessidade e tipo de tratamento de características indesejáveis nos dados e classificação das amostras. O principal objetivo desta fase é definir o escopo do modelo e preparar um conjunto de dados de treinamento adequado, ou seja, que aumente as chances de desenvolvimento de um bom modelo de classificação.

4.1.1 Carregamento da base de dados

Para o desenvolvimento desta pesquisa, foi obtido acesso a um conjunto de da-dos reais de refrigeração industrial, concedida-dos pela empresa Less Energy, especializada em refrigeração industrial e eficiência energética, em formato de planilhas e com total anonimato das empresas clientes.

4.1.2 Seleção dos dados

A base de dados cedida consistia em um conjunto de planilhas, com uma página para cada ambiente e tipo de equipamento, sendo que, junto com o ambiente também con-tinha informações do evaporador, necessárias neste estudo. Os únicos arquivos utilizados foram as páginas de ambientes de refrigeração de pescados, por questão de simplificação do tratamento e classificação dos dados.

O método de avaliação dos ambientes refrigerados escolhido foi o cálculo de cargas térmicas, definido pelo protocolo da Ashrae 2018 [4]. A partir dos requisitos do cálculo de cargas térmicas, foram selecionados como dados de entrada dos modelos: capacidade má-xima de produção da sala, temperatura de entrada do produto, temperatura de saída do produto, tempo de operação do maquinário, calor especifico do produto (acima e abaixo), calor latente do produto, temperatura da sala, temperatura externa a sala, umidade ex-terna a sala, tempo de porta aberta, fluxo de passagens pela porta, e capacidade total dos evaporadores, totalizando 14 atributos. Também foram identificados e removidos as cons-tantes: largura da porta, altura da porta, tipo de produto e tempo de congelamento. São

(29)

28

medidas importantes no cálculo de cargas térmicas mas que não agregam ao treinamento do modelo.

4.1.3 Estudo das características dos dados

Nesta etapa foi identificado que não havia quantidade suficiente de amostras. Den-tre os algoritmos apresentados, o mais sensível a variação da quantidade de amostras é o SVM, tendo boas métricas a partir de 200 amostras por classe, os demais se mantiveram com diferenças minímas de performance a partir de 100 amostras por classe [22], então foi definida a necessidade de geração de no mínimo 200 amostras por classe, com 3 classes totalizando no mínimo 600 amostras no total.

Para a geração das amostras, foram definidos as seguintes regras para os atributos, junto com um especialista da área: capacidade máxima entre 2000 e 10000 kg/h, tempera-tura de entrada entre 20 e 30 grausoC, temperatura de saída entre -5 e 5 grausoC, tempo de operação entre 20 e 30 horas, temperatura externa entre 20 e 35 o_{C, quanto ao calor}

especifico acima, calor especifico abaixo e calor latente, são valores tabelados em função do tipo de produto congelado, neste caso foi selecionado aleatoriamente entre os tipos de peixe: bacalhau, arenque, salmão e atum, e quanto a capacidade dos evaporadores, foi definido aleatoriamente um valor entre 10% abaixo e 10% acima da capacidade máxima. Sendo este estudo realizado em apenas um setor na indústria, o de pescados, não foram identificados outliers, os dados possuem baixa variação. Quanto aos dados faltando, apesar de ser algo comum nas indústrias que não dispõe de ferramentas necessárias, não serão avaliados neste estudo, por inviabilizar a classificação pelo cálculo de cargas térmicas e possivelmente dificultar a classificação do modelo, mas é um ponto interessante a ser explorado.

4.1.4 Geração de variações dos dados

A partir das regras definidas no estudo das características dos dados, foi desen-volvido um algoritmo em Python que implementa as regras definidas e gera uma planilha com as novas amostras, em que, cada linha é uma amostra e cada coluna um tipo de atributo.

4.1.5 Classificação dos conjuntos de dados

A partir dos dados de entrada teremos como saída a classificação do ambiente refri-gerado em: subprodução, equilibrado ou superprodução, sendo classificados como subpro-dução ambientes que não produzem energia necessária para suprir a demanda, causando queda de produção ou falhas no maquinário, e como superprodução ambientes que gastam mais energia que precisam, podendo melhorar o manejo da sua instalação para economizar ou aumentar a produção. A classificação dos dados de treinamento foram feitos a partir

(30)

29

da análise humana, junto a um especialista, através da comparação do cálculo de cargas térmicas total do ambiente com a capacidade dos evaporadores, que devem suportar tal carga térmica para que o ambiente seja classificado como equilibrado.

Tendo como base estes resultados e os estudos de refrigeração apresentados ante-riormente, foi gerado um data-set em que cada classe contém 250 amostras, totalizando 750 amostras.

4.2 Desenvolvimento do modelo

O processo de desenvolvimento do modelo segue o fluxo comum de desenvolvimento de modelos de machine learning, treinamento, teste e ajuste de parâmetros, descritos a seguir.

4.2.1 Treinamento do algoritmo

Os modelos de classificação: random forest, SVM e MLP, foram desenvolvidos atra-vés do software open source Weka para estudos de machine learning. O treinamento dos algoritmos de classificação foram executados através do método cross-validation, definido para 2 partes (folds), e os parâmetros de entrada de cada algoritmo foram definidos da seguinte forma:

∙ Random forest: foram variados o número de árvores, geradas entre 500 e 1.000 com passo 100, e o número de dados selecionados aleatoriamente para a construção das árvores (atributos), de 0 a 5 com passo 1 [28].

∙ SVM: foram testados valores entre 20 _{e 2}10 _{para o parâmetro C, e o tipo de kernel}

definido foi o polinomial devido a natureza complexa do problema [29].

∙ MLP: foram testados valores entre 2 e 7 para a quantidade de camadas ocultas, e para a taxa de aprendizado, valores entre 0,1 e 0,3, e o número de épocas foi definido como 1.000 para todos os testes devido a potência da máquina utilizada.

4.2.2 Teste do modelo

Os testes foram realizados através do método cross-validation, definido na seção 2. As métricas escolhidas para análise da performance dos modelos foram as mais indicadas e comumente utilizadas na avaliação da performance de classificadores multiclasse: matriz de confusão, acurácia e ROC, definidas na seção 2.3.1 [18].

(31)

30

4.2.3 Ajuste de parâmetros do modelo

O processo de treinamento e teste do modelo foi executado ajustando os parâmetros escolhidos e definidos para cada algoritmo, da forma que todas as possibilidades fossem testadas. Os resultados de cada teste são guardados e comparados através das métricas escolhidas, com o intuito de se encontrar a configuração de parâmetros que resulte em um melhor modelo de classificação para este problema.

4.3 Análise dos resultados

Neste capitulo sera apresentado e discutido os resultados de performance dos mo-delos implementados: Random Forest, SVM e MLP, através das métricas definidas na seção 2.3.1.

4.3.1 Random Forest

A partir do treinamento realizado, como definido na seção 4.2.1, o melhor resul-tado obtido foi o de configuração: 900 árvores e 3 atributos. A seguir sera apresenresul-tado e discutido os resultados das métricas de performance do modelo:

∙ Acurácia: 34%

∙ ROC área média: 0,5 ∙ Matriz de confusão

Conclui-se que, no teste o modelo classificou corretamente aproximadamente 34% das amostras, um valor bem abaixo do esperado. Na matriz de confusão fica evidente como o modelo não conseguiu classificar bem as amostras, contendo alto número de clas-sificações erradas. O baixo valor obtido pela área sobre a curva ROC mostra que o modelo não obteve sensibilidade quanto a variação dos dados de diferentes classes. Portanto fica comprometida a confiabilidade do modelo, não sendo indicado como classificador para este problema.

(32)

31

4.3.2 SVM

A partir do treinamento realizado, como definido na seção 4.2.1, o melhor resultado obtido foi o de configuração: C = 512. A seguir sera apresentado e discutido os resultados das métricas de performance do modelo:

∙ Acurácia: 57%

Conclui-se que, no teste o modelo classificou corretamente aproximadamente 57% das amostras, um valor um pouco abaixo do esperado. Na matriz de confusão observa-se um comportamento razoável, contendo alto número de classificações certas mas também alto número de classificações erradas. O valor obtido pela área sobre a curva ROC é aceitável, portanto o modelo teve certa sensibilidade ás diferentes classes mas, não obteve sucesso suficiente para representar um método confiável.

4.3.3 MLP

A partir do treinamento realizado, como definido na seção 4.2.1, o melhor resultado obtido foi o de configuração:5 camadas ocultas e taxa de aprendizado de 0,1. A seguir sera apresentado e discutido os resultados das métricas de performance do modelo:

∙ Acurácia: 71%

(33)

32

Conclui-se que, no teste o modelo classificou corretamente aproximadamente 71% das amostras, um valor considerado bom. Na matriz de confusão observa-se um compor-tamento bom, contendo alto número de classificações certas e um número de classificações erradas razoável. O valor obtido pela área sobre a curva ROC é muito bom, significando alta sensibilidade do modelo ás diferentes classes.

4.3.4 Comparação dos resultados

Quanto a desempenho, o MLP foi o algoritmo que melhor se adequou ao problema. Os demais algoritmos obtiveram resultados abaixo da média, o que inviabiliza a aplicação destes para a resolução deste problema. Em todos os modelos observa-se uma queda de desempenho na classificação de ambientes equilibrados, possivelmente por seus valores terem margem próxima a subprodução abaixo e a superprodução acima, tornando difícil a diferenciação entre as classes, principalmente as que contem valores próximos a margem. Baseado na Tabela 1, foi observado que, apesar dos algoritmos escolhidos serem bem conceituados na literatura, apresentando alta acurácia, eles não apresentaram resul-tados muito bons neste problema. Também verificou-se que o random forest realmente foi o algoritmo de velocidade mais baixa, devido ao seu método e quantidade de dados alta que foi dada de entrada. Quanto a valores faltando e outliers, não são características presentes na base de dados, não sendo possível avaliação destas características.

(34)

33

5 CONCLUSÃO

No presente trabalho, foi criado um processo para avaliação da performance dos ambientes refrigerados quanto a cargas térmicas, por meio da aplicação de técnicas de

machine learning, podendo ser implementado no desenvolvimento de outros sistemas na

indústria. A aplicação desenvolvida se mostrou eficiente como auxiliar a análise de ambi-entes de refrigeração de pescados, possibilitando a classificação do ambiente quanto a sua performance, que permite a identificação de necessidade de criação de um plano de ação visando aumento da performance. No entanto, indica-se a realização de mais pesquisas no aprimoramento do algoritmo de classificação. Os algoritmos apresentados obtiveram resultados insatisfatórios na classificação da performance dos ambientes de refrigeração, com exceção do MLP, que melhor se adequou ao problema. Em pesquisas futuras, agrega-ria conhecimento na área de eficiência energética diversificar o tipo de indústagrega-ria, sistema de refrigeração ou tipo de avaliação usada para classificação, ou até regressão dependendo do caso, utilizando diversas técnicas computacionais, de forma a otimizar os ambientes refrigerados e reduzir o tempo de análise.

(35)

34

REFERÊNCIAS

[1] FRIGORíFICO, R. Refrigeração x Energia elétrica. Disponível em: <http://www. refresque.com.br/Downloads/Reducao-Consumo-Energia-Eletrica_Artigo.pdf>. [2] IEA. Energy efficiency in Brazil. Disponível em: <https://www.iea.org/articles/

energy-efficiency-in-brazil-2>.

[3] VENTURINI, O. J.; PIRANI, M. J. EFICIÊNCIA ENERGÉTICA EM SISTEMAS

DE REFRIGERAÇÃO INDUSTRIAL E COMERCIAL. [S.l.]: Elétrobras, 2005.

[4] ASHRAE. Refrigeration. In: . [S.l.]: Ashrae research, 2018. cap. 1.

[5] JABARDO, J.; STOECKER, W. Refrigeração Industrial. third. [S.l.]: blucher, 2018. [6] SKIENA, S. S. The Data Science Design Manual. [S.l.]: Springer, 2017.

[7] PICCIALLI, F.; BESSIS, N.; JUNG, J. J. Data science challenges in industry 4.0.

IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS, v. 16, n. 9, 2020.

[8] RIGHI, R. da R. Looking at energy through the lens of industry 4.0: A systematic literature review of concerns and challenges. 2020.

[9] FRANK, M.; DRIKAKIS, D.; CHARISSIS, V. Machine-learning methods for computational science and engineering. Computation, v. 8, n. 1, 2020. Cited By :1. Disponível em: <www.scopus.com>.

[10] KANG, Z.; CATAL, C.; TEKINERDOGAN, B. Machine learning applications in production lines: A systematic literature review. Computers and Industrial

Engineering, v. 149, 2020. Disponível em: <www.scopus.com>.

[11] B., C. Inteligência Artificial. [S.l.]: LTC, 2010.

[12] CIRERA, J. et al. Data-driven operation performance evaluation of multi-chiller system using self-organizing maps. In: . [s.n.], 2018. v. 2018-February, p. 2099–2104. Cited By 5. Disponível em: <https://www.scopus.com/inward/record.uri?eid= 2-s2.0-85046954850&doi=10.1109%2fICIT.2018.8352513&partnerID=40&md5= acf04b68319f842fbd5487647ff8f943>.

[13] ANTONELO, E.; FLESCH, C.; SCHMITZ, F. Reservoir computing for detection of steady state in performance tests of compressors. Neurocomputing, v. 275, p. 598–607, 2018. Cited By 3. Disponível em: <https://www.scopus.com/inward/record.uri? eid=2-s2.0-85030026523&doi=10.1016%2fj.neucom.2017.09.005&partnerID=40& md5=5e2e9ca6f02ae50bd6b7d66beaa276cb>.

[14] POTOčNIK, P.; GOVEKAR, E. Semi-supervised vibration-based classification and condition monitoring of compressors. Mechanical Systems and Signal

Processing, v. 93, p. 51–65, 2017. Cited By 24. Disponível em: <https:

//www.scopus.com/inward/record.uri?eid=2-s2.0-85015301271&doi=10.1016%2fj. ymssp.2017.01.048&partnerID=40&md5=94f193bf1994d7d768497aeacf02c4e9>.

(36)

35

[15] SANTANA, A. et al. Machine learning application for refrigeration showcase fault discrimination. In: . [s.n.], 2017. p. 10–13. Cited By 4. Disponível em: <https://www. scopus.com/inward/record.uri?eid=2-s2.0-85015384004&doi=10.1109%2fTENCON. 2016.7847948&partnerID=40&md5=1a3c019680a97d2f9192df285c30fd3a>.

[16] BEISHEIM, B. et al. Energy performance analysis of continuous processes using surrogate models. Energy, v. 183, p. 776–787, 2019. Cited By :2. Disponível em: <www.scopus.com>.

[17] KAUR, J.; SINGH, D.; KAUR, M. Recent advancements in various machine learning techniques. International Journal of Innovative Technology and

Exploring Engineering, v. 8, n. 9 Special Issue 4, p. 10–19, 2019. Disponível em:

<www.scopus.com>.

[18] XIAO, J. .; LU, Z. .; XU, Q. . A new android malicious application detection method using feature importance score. In: ACM International Conference Proceeding

Series. [s.n.], 2018. p. 145–150. Disponível em: <www.scopus.com>.

[19] PRATI, R. C. Curvas ROC para avaliação de classificadores. p. 1–8.

[20] JAIN, S.; KUMAR, V. Garment categorization using data mining techniques.

Symmetry, v. 12, n. 6, 2020. Disponível em: <www.scopus.com>.

[21] GISLASON, P. O.; BENEDIKTSSON, J. A.; SVEINSSON, J. R. Random forests for land cover classification. Pattern Recognition Letters, v. 27, n. 4, p. 294–300, 2006. Cited By :1010. Disponível em: <www.scopus.com>.

[22] FARIA, M. et al. Avaliação da influência do número de amostras de treinamento no índice kappa. In: . [S.l.: s.n.], 2015.

[23] FOODY, G.; MATHUR, A. Toward intelligent training of supervised image classifications: directing training data acquisition for SVM classification. REMOTE

SENSING OF ENVIRONMENT, 93, n. 1-2, p. 107–117, OCT 30 2004. ISSN

0034-4257.

[24] YU, H.; KIM, S. Svm tutorial: Classification, regression, and ranking. Handbook of

Natural Computing, 01 2012.

[25] MORENO, P.; HO, P.; VASCONCELOS, N. A Kullback-Leibler divergence based kernel for SVM classification in multimedia applications. In: Thrun, S and Saul, K and Scholkopf, B (Ed.). ADVANCES IN NEURAL INFORMATION PROCESSING

SYSTEMS 16. [S.l.: s.n.], 2004. (ADVANCES IN NEURAL INFORMATION

PROCESSING SYSTEMS, 16), p. 1385–1392. ISBN 0-262-20152-6. ISSN 1049-5258. 17th Annual Conference on Neural Information Processing Systems (NIPS), CANADA, DEC 08, 2003.

[26] HUSSEIN, E. A. et al. Groundwater Prediction Using Machine-Learning Tools.

ALGORITHMS, 13, n. 11, NOV 2020.

[27] MORAES, R.; VALIATI, J. F.; NETO, W. P. G. Document-level sentiment classification: An empirical comparison between SVM and ANN. EXPERT

SYSTEMS WITH APPLICATIONS, 40, n. 2, p. 621–633, FEB 1 2013. ISSN

(37)

36

[28] PROBST, P.; WRIGHT, M. N.; BOULESTEIX, A.-L. Hyperparameters and tuning strategies for random forest. WIREs Data Mining and Knowledge Discovery, v. 9, n. 3, p. e1301, 2019. Disponível em: <https://onlinelibrary.wiley.com/doi/abs/10. 1002/widm.1301>.

[29] ZHOU, J.; SHI, J.; LI, G. Fine tuning support vector machines for short-term wind speed forecasting. Energy Conversion and Management, v. 52, n. 4, p. 1990 – 1998, 2011. ISSN 0196-8904. Disponível em: <http://www.sciencedirect.com/science/ article/pii/S0196890410005078>.

(38)

(39)

38

Figura 5 – Distribuição de valores da classificação dos ambientes

Figura 6 – Distribuição de valores de capacidade máxima de produção dos ambientes

(40)

39

Figura 8 – Distribuição de valores de temperatura de saída do produto