Predição de falhas em equipamentos de refrigeração com técnicas de aprendizado de máquina

(1)

(2)

(3)

Eduardo Schwinden Leal

Dissertação submetida ao Programa de Pós-Graduação em Engenharia de Automação e Sistemas para a obten-ção do Grau de Mestre em Engenharia de Automaobten-ção e Sistemas.

Orientador: Prof. Jomi Fred Hubner

Florianópolis 2019

(4)

Ficha de identificação da obra elaborada pelo autor,

através do Programa de Geração Automática da Biblioteca Universitária da UFSC.

Leal, Eduardo

Predição de falhas em equipamento de refrigeração com técnicas de aprendizado de máquina / Eduardo Leal ; orientador, Jomi Fred Hubner, 2019.

92 p.

Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Automação e Sistemas, Florianópolis, 2019. Inclui referências.

1. Engenharia de Automação e Sistemas. 2. Aprendizado de máquina. 3. Refrigeração. 4. Predição de falhas. 5.

Manutenção preditiva. I. Fred Hubner, Jomi. II.

Universidade Federal de Santa Catarina. Programa de Pós Graduação em Engenharia de Automação e Sistemas. III. Título.

(5)

Eduardo Schwinden Leal

Predição de falhas em equipamentos de refrigeração com técnicas de aprendizado de máquina

O presente trabalho em nível de mestrado foi avaliado e aprovado por banca examinadora composta pelos seguintes membros:

Prof. Carlos Alberto Flesch, Dr. EMC/UFSC

Prof. Felipe Gomes de Oliveira Cabral, Dr. DAS/UFSC

Prof. Marcelo Ricardo Stemmer, Dr. DAS/UFSC

Certiﬁcamos que esta é a versão original e final do trabalho de conclusão que foi julgado adequado para obtenção do título de mestre em Engenharia de Automação e Sistemas.

Prof. Jomi Fred Hubner, Dr. Orientador

Prof. Werner Kraus Junior, Dr.

Coordenador do Programa de Pós-Graduação em Engenharia de Automação e Sistemas

Florianópolis, 07 de Agosto de 2019

Werner Kraus

Junior:53108523953

Assinado de forma digital por Werner Kraus Junior:53108523953 Dados: 2019.08.07 18:07:37 -03'00'

Jomi Fred

Hubner:5963347696

8

Digitally signed by Jomi

Fred Hubner:59633476968

Date: 2019.08.09 17:39:03

-03'00'

(6)

(7)

AGRADECIMENTOS

Agradeço ao meu orientador pelos ensinamentos valiosos, conselhos, dedicação e por me capacitar para a pesquisa cientíﬁca.

À minha família pelo incentivo, amor e pelos valores passados de estudo, busca do cres-cimento pessoal e dedicação.

À empresa Sensorweb, que forneceu todos os dados do trabalho e que foi responsável por me proporcionar amizades, crescimento e um grande aprendizado durante o tempo em que ﬁz parte da equipe.

Em especial à minha esposa, que me acompanhou por todo o processo do mestrado me dando suporte inestimável, amor e incentivo durante os momentos de desânimo. O apoio dela tornou a jornada mais leve e fácil.

(8)

(9)

RESUMO

Equipamentos de refrigeração em ambientes da área da saúde são de extrema importância para o armazenamento de insumos como medicamentos, sangue e vacinas. Um desvio significativo na temperatura desses equipamentos, seja por falha ou outro motivo, pode ser o suficiente para o completo descarte desses insumos. Sistemas de monitoramento de temperatura podem cole-tar as temperaturas de tempos em tempos e notificar os responsáveis no caso de a temperatura ultrapassar os valores preestabelecidos. No entanto, esse mecanismo é reativo. Neste trabalho, são apresentadas técnicas de aprendizado de máquina para predizer falhas nesses tipos de equi-pamento, a fim de antecipar uma falha e evitar perdas de insumos. Os resultados desse trabalho mostram que é possível predizer falhas nesses equipamentos observando somente a tempera-tura para o conjunto de dados estudado e assumindo algumas premissas. No decorrer desse trabalho, são comparadas técnicas de aprendizado de máquina e são mostrados os aspectos do desenvolvimento de algoritmos para a tarefa.

(10)

(11)

ABSTRACT

Refrigeration equipments in the health sector are of extreme importance for storing contents such as medicine, blood and vaccines. A signiﬁcant change in the equipment’s temperature, ei-ther because of failure or any oei-ther reason, may be sufﬁcient for discarding the stored products. Temperature monitoring systems can collect temperature data in regular intervals and generate an alert if the temperature surpasses a predetermined range, however this logic is reactive. In the present work, we study machine learning techniques for predicting failures in refrigeration systems in order to avoid product losses. The results of this work show that it is possible to predict failures in the equipments of the obtained data set by only observing the temperature and considering some premises. In the following of this work, we compare machine learning techniques and show the development aspects of the algorithms for the task.

(12)

(13)

LISTA DE ILUSTRAÇÕES

Figura 1 – Evolução da temperatura livre de faltas para um estado de falta e depois falha 22 Figura 2 – Exemplo de Transformada de Fourier para um refrigerador operando de

forma normal . . . 34

Figura 3 – Exemplo de Transformada de Fourier para um refrigerador operando de forma anormal . . . 35

Figura 4 – Exemplo de Transformada de Fourier de Curto Termo . . . 36

Figura 5 – Atributos sobre a Transformada de Fourier de Curto Termo . . . 36

Figura 6 – Padrões de cartas de controle . . . 38

Figura 7 – Exemplos de função de Autocorrelação para refrigeradores operando dife-rentes . . . 39

Figura 8 – Sistema de refrigeração simpliﬁcado de compressão de vapor . . . 41

Figura 9 – Malha de controle simpliﬁcada de um sistema de refrigeração . . . 42

Figura 10 – Padrões de comportamento de temperatura de um sistema de refrigeração com controle liga/desliga . . . 43

Figura 11 – Taxonomia dos algoritmos de predição de falhas . . . 45

Figura 12 – Diagrama da abordagem em 2 estágios. . . 47

Figura 13 – Classiﬁcador N classes. N = 3 . . . 48

Figura 14 – Função ES. . . 49

Figura 15 – Tarefas do pré-processamento . . . 54

Figura 16 – Erro de valor “0“ . . . 55

Figura 17 – Padrões de cartas de controle . . . 56

Figura 18 – Diferentes escolhas de tamanho de janela . . . 57

Figura 19 – Janelas deslizantes no tempo . . . 58

Figura 20 – Ganho de segmentação para atributo . . . 61

Figura 21 – Matriz de correlação para a métrica Correlação de Tendência . . . 62

Figura 22 – Tarefas da detecção de faltas por uso de classiﬁcadores . . . 67

Figura 23 – Rede Neural da arquitetura 1 . . . 71

Figura 24 – Rede Neural da arquitetura 2 . . . 72

Figura 25 – Tarefas da detecção de faltas por uso de algoritmos de detecção de anomalias 73 Figura 26 – Exemplo de faltas detectadas pelo algoritmo Máquina de Vetores de Suporte de Uma Classe . . . 74

Figura 27 – Exemplo do método da proporção . . . 75

Figura 28 – Exemplo da métricaα-count . . . 76

Figura 29 – Predição de falhas dentro da janela de alerta ótima . . . 85

Figura 30 – Predição de falhas antecipadamente . . . 86

(14)

(15)

LISTA DE TABELAS

Tabela 1 – Área sob a curva (AUC), Probabilidade de detecção (PD) e Probabilidade de Falso Alarme (PF) para os diferentes algoritmos de classiﬁcação e técnicas de marcação. Janela de 8 horas . . . 79 Tabela 2 – Probabilidade de Falso Alarme (PF) para diferentes combinações de

algorit-mos Máquina de Vetores de Suporte de Uma Classe e diferentes tamanhos de janela de extração de atributos . . . 79 Tabela 3 – Área sob a curva (AUC), Probabilidade de detecção (PD) e Probabilidade

de Falso Alarme (PF) para os diferentes tamanhos de janela de extração de atributos e conjuntos de atributos. Resultados para os algoritmos de classi-ﬁcação . . . 80 Tabela 4 – Probabilidade de Falso Alarme (PF) para os diferentes tamanhos de janela

de extração de atributos e conjuntos de atributos. Resultados para os algo-ritmos de detecção de anomalias (semi-supervisionado) . . . 80 Tabela 5 – Área sob a curva (AUC), Probabilidade de detecção (PD) e Probabilidade

de Falso Alarme (PF) para os diferentes algoritmos de classiﬁcação super-visionada e técnicas de marcação sobre casos isolados. Janela de extração de 8 horas. . . 81 Tabela 6 – Probabilidade de Falso Alarme (PF) para diferentes combinações de

algorit-mos Máquina de Vetores de Suporte de Uma Classe e diferentes tamanhos de janela de extração de atributos sobre casos isolados . . . 81 Tabela 7 – TJ, TA e TN médios para diferentes parâmetros K e limiares de detecçãoαT 83

Tabela 8 – TJ, TA e TN para diferentes parâmetros de tamanho de janela (J) e proporção (P) . . . 83 Tabela 9 – TJ, TA e TN médios para diferentes conjuntos de atributos . . . 84 Tabela 10 – TJ, TA e TN para diferentes algoritmos de detecção de faltas . . . 84

(16)

(17)

LISTA DE SÍMBOLOS

td Instante em que houve a detecção da falta que provoca a falha tf Instante da falha

j Tamanho da janela temporal para extração de atributos p Passo da janela temporal para extração de atributos k Intervalo de tempo ﬁxo para a marcação de dados

L Tamanho da janela temporal para o cálculo do método da proporção P Limiar para o método da proporção predizer uma falha

K Fator de amortecimento para o contadorα-count

αT Limiar para o métodoα-count predizer uma falha

C Número de casos de falha

t fmin Instante mínimo aceitável para uma falha ser notiﬁcada

(18)

(19)

LISTA DE ABREVIATURAS E SIGLAS ES Estado de saúde do equipamento

STFT Short-Time Fourier Transform (Transformada de Fourier de Curto Termo)

NOLDS Nonlinear measures for Dynamical Systems (Atributos não-lineares para sistemas dinâmicos)

SPC Statistical Process Control (Controle estatístico de processo) ACF Autocorrelation Function (Função de autocorrelação)

TSFRESH Extração de atributos de séries temporais baseada em testes escaláveis de hipóteses PD Probabilidade de detecção de uma falta

PF Probabilidade de falsos alarmes (falsos positivos) AUC Área sob a curva ROC

TA Taxa de acertos (proporção de predições que ocorreram no intervalo de tempo t fmin<t f < t f_max)

TN Taxa de não predição (proporção de casos em que o algoritmo não fez nenhuma predição)

TJ Taxa de acertos na janela (proporção que ocorreu no intervalo t fmin<t f < t fmax,

(20)

(21)

SUMÁRIO 1 INTRODUÇÃO . . . 21 1.1 CONTEXTUALIZAÇÃO . . . 21 1.2 OBJETIVO GERAL . . . 23 1.3 ORGANIZAÇÃO DA DISSERTAÇÃO . . . 23 2 APRENDIZADO DE MÁQUINA . . . 25 2.1 APRENDIZADO SUPERVISIONADO . . . 25 2.2 APRENDIZADO NÃO-SUPERVISIONADO . . . 28 2.3 APRENDIZADO SEMI-SUPERVISIONADO . . . 29 2.4 SÉRIES TEMPORAIS . . . 30 2.5 ENGENHARIA DE ATRIBUTOS . . . 33 2.6 SELEÇÃO DE ATRIBUTOS . . . 39

3 PREDIÇÃO DE FALHAS EM SISTEMAS DE REFRIGERAÇÃO . . . 41

3.1 SISTEMAS DE REFRIGERAÇÃO . . . 41 3.2 MANUTENÇÃO DE EQUIPAMENTOS . . . 42 3.2.1 Manutenção corretiva . . . 43 3.2.2 Manutenção preventiva . . . 43 3.2.3 Manutenção preditiva . . . 44 3.3 PREDIÇÃO DE FALHAS . . . 44

3.3.1 Predição de falhas com técnicas de aprendizado de máquina . . . 46

3.3.2 Trabalhos relacionados . . . 49

4 PREPARAÇÃO DOS DADOS . . . 53

4.1 COLETA DOS DADOS . . . 53

4.2 PRÉ-PROCESSAMENTO . . . 54

4.3 EXTRAÇÃO E SELEÇÃO DE ATRIBUTOS . . . 55

4.3.1 Extração de atributos . . . 58 4.3.2 Seleção de atributos . . . 59 4.3.3 Método de seleção . . . 61 4.4 CONCLUSÃO . . . 66 5 DETECÇÃO DE FALTAS . . . 67 5.1 CLASSIFICAÇÃO SUPERVISIONADA . . . 67

5.1.1 Marcação dos dados . . . 67

5.1.2 Balanceamento dos dados . . . 69

5.1.3 Separação dos dados . . . 69

5.1.4 Normalização . . . 69

(22)

5.2 DETECÇÃO DE ANOMALIAS . . . 73 5.3 CONCLUSÃO . . . 74 6 PREDIÇÃO DE FALHAS . . . 75 6.1 MÉTODO DA PROPORÇÃO . . . 75 6.2 MÉTODOα-COUNT . . . 76 7 RESULTADOS . . . 77 7.1 AVALIAÇÃO DOS MÉTODOS DE DETECÇÃO DE FALTAS . . . 77 7.1.1 Influência dos algoritmos e marcação . . . 78 7.1.2 Influência do tamanho da janela de extração . . . 79 7.1.3 Resultados sobre casos isolados . . . 80 7.2 AVALIAÇÃO DOS MÉTODOS DE PREDIÇÃO DE FALHAS . . . 81 8 CONCLUSÕES . . . 89 8.1 CONTRIBUIÇÕES . . . 89 8.2 SUGESTÕES PARA TRABALHOS FUTUROS . . . 90

(23)

21

1 INTRODUÇÃO

1.1 CONTEXTUALIZAÇÃO

O armazenamento de insumos sensíveis à temperatura como sangue, plasma, vacinas e alguns medicamentos é crítico. A submissão desses a temperaturas inadequadas pode degradá-los, provocando, além da necessidade do descarte, a possibilidade do uso dos mesmos sem nenhum conhecimento dos eventos ocorridos. A instrumentação de refrigeradores, freezers e ultra-freezers com sensores de temperatura possibilita o monitoramento e expõe aos responsá-veis a real qualidade térmica em tempo real e histórica. Tais instrumentos e sistemas permitem o envio de alertas instantâneos se a temperatura ultrapassar os limites preestabelecidos e, assim, evitam perdas de insumos. No entanto, esse mecanismo é reativo, ou seja, só gera alertas se a temperatura extrapolar esses limites. É comum que, no uso cotidiano dos freezers, as aberturas de porta provoquem o aquecimento da temperatura interna e que, dependendo da duração dessas aberturas, o aquecimento ultrapasse o limite. No entanto, deverá retornar aos padrões nominais assim que a porta feche. Num cenário onde a porta esteja fechada, outros fatores podem fazer com que a temperatura extrapole os limites aceitáveis de operação, como a má regulagem dos parâmetros do equipamento, as rotinas automáticas de degelo ou mesmo uma falha.

Tradicionalmente, em lugares onde não se pode perder o conteúdo refrigerado, são em-pregadas rotinas de manutenção agendadas de tempos em tempos para fazer a inspeção e avali-ação das condições de funcionamento. Mas mesmo onde essa rotina é realizada, equipamentos podem apresentar falhas inesperadas na operação, ou porque não foi detectada nenhuma ano-malia durante a visita preventiva, ou porque os primeiros sinais de desgaste só surgiram tempos depois. Uma falha inesperada traz transtornos emergenciais, custo e a necessidade de ações rápidas e efetivas para que os materiais armazenados não sofram grande variação térmica.

A automatização da identiﬁcação de comportamentos anômalos e da predição de falhas tem o potencial de diminuir ou até eliminar a necessidade de manutenções regulares, já que visa estimar quando a falha irá acontecer. Alguns comportamentos anômalos não necessaria-mente levam o equipamento a uma falha catastróﬁca, mas podem indicar operação fora do ponto ótimo, com padrões de consumo de energia acentuado ou diminuição da vida útil (BEHFAR; YUILL; YU, 2017). Comportamentos anômalos podem ser observados no histórico de leituras de sensores de temperatura, corrente elétrica, vibração do compressor, entre outros. Como o monitoramento das temperaturas dos equipamentos de refrigeração é importante e já é feito em muitas instalações, a predição de falhas baseando-se apenas na temperatura é interessante por não necessitar da instalação adicional de sensores, diminuindo custos.

É possível encontrar diversas definições sobre falta e falha na literatura nacional e inter-nacional. Apesar de haverem tentativas de normalização, ainda há divergências tanto no meio acadêmico quanto no industrial. Nesta dissertação, foi adotada a mesma definição do livro (Stephen B. Johnson et al., 2011) que é baseada na definição da ISO 10303-226.

(24)

(25)

1.2. Objetivo geral 23

tísticas e de aprendizado de máquina são empregadas sobre os dados dos sensores, então, para gerar um modelo preditivo. Este trabalho se concentrará na abordagem orientada a dados e tem como hipótese que apenas com o histórico de temperatura do refrigerador é possível predi-zer falhas nesses equipamentos (GROOVER; FRANKE, 2007), (TAYLOR; CORNE, 2003). O histórico de dados indexados pela unidade de tempo é denominado de série temporal, e o pro-blema de predição de falhas orientada a dados pode ser visto como um propro-blema de detecção de anomalias, detecção de padrões ou previsão de séries temporais.

1.2 OBJETIVO GERAL

O objetivo deste trabalho é predizer falhas em equipamentos de refrigeração com técnicas de aprendizado de máquina a partir de séries temporais de temperatura.

São os objetivos especíﬁcos deste trabalho:

• Avaliar diferentes atributos sobre séries temporais de temperatura • Avaliar tamanhos de janelas para a extração de atributos

• Avaliar técnicas de marcação de dados para o aprendizado supervisionado

• Avaliar algoritmos de aprendizado de máquina para detectar faltas em refrigeradores • Avaliar algoritmos para predizer falhas em refrigeradores a partir das faltas detectadas • Determinar a melhor combinação das técnicas avaliadas para a predição de falhas

O escopo está limitado a métodos de aprendizado de máquina aplicados sobre séries tem-porais de temperatura. Comparações com métodos de predição de falhas baseadas em modelos físico-matemáticos não fazem parte do escopo, bem como métodos que usem outras variáveis, tais como corrente elétrica, vibração e outras.

Os resultados foram avaliados sobre casos reais de falha em refrigeradores, através de métricas derivadas da matriz de confusão.

1.3 ORGANIZAÇÃO DA DISSERTAÇÃO

O trabalho está organizado da seguinte maneira. O Capítulo 2 aborda os temas de apren-dizado de máquina, séries temporais e atributos sobre séries temporais. Depois, o Capítulo 3 reúne temas de sistemas de refrigeração, manutenção de equipamentos e faz a revisão da lite-ratura sobre predição de falhas, tanto de forma geral quanto aplicada ao tema deste trabalho. Os Capítulos 4, 5 e 6 mostram o desenvolvimento, decisões e aplicação das diferentes técnicas usadas para a resolução do problema. Os resultados são apresentados e discutidos no Capítulo 7 e por ﬁm o Capítulo 8 mostra as conclusões, contribuições e propostas para trabalhos futuros.

(26)

(27)

25

2 APRENDIZADO DE MÁQUINA

Este capítulo faz uma breve fundamentação teórica sobre aprendizado de máquina, séries temporais, engenharia de atributos e seleção de atributos. Esses tópicos são importantes para o decorrer do trabalho pois auxiliam no entendimento de conceitos que norteiam o desenvolvi-mento das técnicas para a predição de falhas adotadas.

Aprendizado de máquina é um subconjunto da Inteligência Artiﬁcial e se baseia em da-dos para inferir padrões e generalizar informações (SEGARAN, 2007). Essas generalizações permitem fazer predições sobre dados não vistos durante a fase de aprendizagem. Para tal, um modelo é treinado com os dados fornecidos, ajustando-se de forma que melhor os represente. Dependendo de como é feito o processo de aprendizado, é possível classiﬁcar os algoritmos em supervisionado, não-supervisionado e semi-supervisionado.

2.1 APRENDIZADO SUPERVISIONADO

Para o aprendizado supervisionado é necessário que cada exemplo de treinamento (en-trada) possua um valor objetivo (saída), ou seja, que seja conhecido, a priori, o que cada um dos exemplos representa para o problema em questão. Por exemplo, se o problema é classiﬁcar o comportamento de uma máquina em normal de um anormal e há exemplos conhecidos con-siderados normais e anormais, é possível usar técnicas de aprendizado supervisionado. Neste trabalho são usados os seguintes algoritmos supervisionados:

2.1.1 Árvore de Decisão

Árvores de decisão se assemelham a fluxogramas, onde o fluxo de informação é unidireci-onal e no formato de uma árvore. Por isso, a árvore gerada ao final pode ser lida e interpretada. Cada nó representa um teste sobre um determinado atributo (ex: temperatura maior do que 10◦_{C, marca do equipamento), e as ramificações que partem de cada nó são os possíveis}

resul-tados do teste (ex: Sim, Não, Electrolux, Fanem). O teste pode ser o próprio atributo se for do tipo categórico, ou então alguma expressão booleana para lidar com atributos numéricos. O fi-nal de cada ramificação da árvore contém as classes de saída, ou seja, as classificações para cada amostra apresentada à árvore (ex. Ocorrerá falha, Não ocorrerá falha) (MITCHELL, 1997).

No processo de treinamento, a cada iteração, o algoritmo deve escolher o teste sobre o atributo que deve ser feito no nó em questão. Para isso, calcula uma métrica que indica quão bem cada atributo separa o conjunto de dados de acordo com as suas respectivas classes, e o melhor teste é então atribuído ao nó. Desse nó, partem todas as ramiﬁcações possíveis desse teste e, se um novo nó não melhora a separação dos dados em relação ao nó corrente, ou seja, a métrica de impureza continua igual ou aumenta, então o nó corrente é marcado como saída.

As medidas de impureza Ganho de Informação e Gini são escolhas comuns como mé-tricas para a escolha do teste sobre o atributo de cada nó. O Ganho de Informação calcula a redução na entropia ao particionar os dados de treinamento de acordo com o atributo em

(28)

ques-26 Capítulo 2. Aprendizado de máquina

tão, já a Gini baseia-se na probabilidade dos valores das classes do subconjunto particionado. Para ambas métricas, quanto menor, melhor a separação.

Esse algoritmo tem a capacidade de lidar tanto com dados categóricos quanto numéricos e, neste último caso, examina a possibilidade de criar um nó avaliando a métrica de impureza para todos os pontos de corte possíveis, que são os pontos médios entre cada um dos valores existentes no conjunto de dados quando ordenados (MITCHELL, 1997).

2.1.2 Máquinas de Vetores de Suporte

A máquina de vetores de suporte é um algoritmo de aprendizado bastante versátil, capaz de aprender padrões lineares e não-lineares e de realizar atividades de classiﬁcação, regressão e detecção de outlier. A ideia desse algoritmo é determinar um plano de separação dos exemplos de treinamento, também chamado de hiperplano, que maximize a margem até os exemplos de treinamento mais próximos, chamados de vetores de suporte.

Quando os dados de treinamento não são linearmente separáveis, encontrar o hiperplano que melhor separe os dados pode não ser viável. Para contornar esse problema, é possível aplicar uma transformação nos dados de forma que se tornem então separáveis por um plano. Essas transformações são chamadas de kernels, e podem ser do tipo linear, polinomial, função base radial, sigmoidal, entre outras. (GERON, 2017).

2.1.3 Redes Neurais Artificiais

Inspiradas no funcionamento elementar do cérebro, as redes neurais artiﬁciais tem grande poder de aprender comportamentos complexos e tem ganho destaque a medida em que o poder computacional foi aumentando e mais dados estão disponíveis para fazer o treinamento. O elemento principal das redes neurais são os neurônios, que são conectados entre si através de ligações precisamente projetadas para cada uso. Nas redes perceptron, o neurônio é modelado através de uma função, chamada função de ativação, e pode estar conectado com 1 ou mais neurônios da rede. Cada uma dessas conexões é direcional e tem um peso associado a ela. A função de cada neurônio é alimentada com a soma de todas as conexões ligadas a ele na entrada e o valor de saída da função é usado para alimentar os neurônios a ela conectados e assim por diante.

A rede neural perceptron multicamada conta com camadas do tipo perceptron: uma ca-mada de entrada, uma ou mais caca-madas intermediárias (também chaca-madas de caca-madas escon-didas) e uma de saída.

O processo de treinamento, chamado de retropropagação, é baseado usualmente no mé-todo Descida do Gradiente e consiste em medir o erro na saída para cada exemplo de trei-namento e avaliar a inﬂuência desse erro em cada neurônio da camada anterior, repetindo o processo até a camada de entrada. Baseado na contribuição do erro em cada neurônio, o peso da conexão é ajustado de forma a minimizar o erro total ﬁnal (MITCHELL, 1997).

(29)

2.1. Aprendizado supervisionado 27

2.1.4 Classificador Naive Bayes

O classiﬁcador Naive Bayes aborda o problema de aprendizado de uma forma probabi-lística, usando o teorema de Bayes como base da formulação. O termo Naive é usado pois se assume que todas as evidências são independentes, ou seja, não tem relação causal. O teorema de Bayes promove uma maneira de se calcular a probabilidade a posteriori (P(H|e)) de uma hipótese (H) dada uma evidência (e). Para o cálculo, usa a probabilidade da hipótese a priori P(H), a probabilidade de se observar a evidência dada a hipótese P(e|H) e a probabilidade da evidência ocorrer (P(e)), segundo a fórmula:

P(H|e) = P(e|H)P(H)

P(e) (2.1)

Para aplicar esse teorema a um problema de classiﬁcação, os eventos e são interpretados como os atributos do conjuntos de dados (ex. temperatura alta, ciclos presentes), denotados na equação 2.1 como ei, i ∈ [1,n], e os valores de saída da classe y são denotados como yj, que são

os j possíveis valores para a classe de saída (ex. falta presente, funcionamento sem faltas).

P(Hj|e1∩ ... ∩ en) = P(e1∩ ... ∩ en|Hj).P(Hj)

P(e1∩ ... ∩ en) (2.2)

No classificador Naive Bayes, uma classificação é feita simplesmente ativando uma ou mais evidências e calculando a fórmula para todos os valores de classe possíveis. A saída do classificador com maior probabilidade a posteriori P(Hj,e) será escolhida. No caso de um tipo de observação ser categórico (Verdadeiro, Falso, Quente, Frio), as probabilidades a priori são triviais de serem calculadas, basta computar as frequências do conjunto de dados de treina-mento. Para uma observação do tipo numérica, é uma prática comum supor que a distribuição de probabilidade da mesma no conjunto de dados de treinamento é gaussiana. Portanto, o cál-culo das probabilidades condicionais segue a formulação 2.3 e o classificador é chamado então de Classificador Naive Bayes Gaussiano (MITCHELL, 1997):

P(ei|Hj) =√ 1 2πσ2_j

e−

(ei−µ j)2

2σ2j _(2.3)

Em que: σ é o desvio padrão eµ é a média 2.1.5 Regressão Logística

Apesar do nome sugerir uma tarefa de regressão, o algoritmo de Regressão Logística pode ser usado para classiﬁcação com a vantagem de poder também reportar a probabilidade da classe. Para isso, usa uma função sigmoidal (eq. 2.4), que é um caso especial da função logística, para modelar o comportamento da classe de saída h(x) em função dos atributos do vetor de entrada x (eq. 2.5).

g(z) = 1

(30)

28 Capítulo 2. Aprendizado de máquina

h(x) = g(θTx) = 1

(1 + e−θTx) (2.5)

Em que: θ é o vetor de conjunto de parâmetros que combina linearmente os atributos x. Combinados dessa forma, a função h(x) usa os atributos x ponderados para resultar uma função sigmoidal com valores de saída entre 0 e 1, que indicam a probabilidade da classe (GERON, 2017).

2.1.6 k-vizinhos próximos

O k-vizinhos próximos (k-NN em inglês) é considerado como um algoritmo do tipo “pre-guiçoso”, pois posterga o aprendizado para o momento da inferência, ou seja, não há uma etapa de treinamento como na maioria dos algoritmos de aprendizado de máquina, os dados históricos são simplesmente armazenados. No momento de realizar uma inferência, um novo dado é clas-siﬁcado de acordo com a maioria das classes dos k vizinhos mais próximos. Para determinar os vizinhos mais próximos, usa um critério de distância (ex. euclidiana), calculada entre o dado a ser classiﬁcado e todo o conjunto armazenado. No entanto, algumas otimizações podem ser feitas para reduzir o espaço de busca (MITCHELL, 1997).

2.1.7 Adaboost

O classificador Adaboost pertence a uma categoria de algoritmos de aprendizado de má-quina chamada de “ensemble”, que significa uma união de algoritmos para formar um outro com a intenção de melhorar a capacidade de aprendizagem. O termo boost ou boosting indica que múltiplos classificadores são usados em sequência, e que cada classificador subsequente irá focar nos erros de classificação anteriores. Algoritmos como Árvores de Decisão e Máquinas de Vetores de Suporte podem ser usados como classificadores base para o boosting.

No classificador Adaboost, as amostras classificadas erroneamente no classificador j são ponderados de forma a ter um peso maior sobre as amostras classificadas corretamente. Ao fim do treinamento de cada classificador, o mesmo recebe um pesoαj de acordo com a taxa de

classificações erradas, da mesma forma que cada amostra classificada erroneamente recebe um peso maior wi. Dessa forma, o classificador j + 1 terá um foco maior nessas amostras. Para

o pesoαj, quanto mais classiﬁcações erradas o classiﬁcador j obteve, menor o peso atribuído.

Esse peso é significativo no momento da predição, já que para essa tarefa, o classificador Ada-boost conta com a predição de cada um dos N classificadores gerados durante o treinamento, sendo usada uma votação ponderada das mesmas para gerar o resultado (GERON, 2017).

2.2 APRENDIZADO NÃO-SUPERVISIONADO

Quando há um conjunto de treinamento sem classes ou valores de saída, é possível usar técnicas não-supervisionadas. O objetivo dessas técnicas não é predizer uma saída, mas agrupar

(31)

2.3. Aprendizado semi-supervisionado 29

dados que tem similaridade entre si (clustering), ou então inferir regras sobre o conjunto de dados (regras de associação).

2.2.1 Clusterização k-means

O algoritmo k-means tem como objetivo unir os dados que mais se assemelham entre si em k grupos (clusters), de forma independente, ou seja, sem conhecimento prévio sobre como os dados são relacionados, apenas considerando uma métrica de distância para comparar os dados.

A primeira etapa para o treinamento desse algoritmo consistem em inicializar os k cen-troides em posições aleatórias no espaço de atributos. Então, para cada dado do conjunto de treinamento, a distância do vetor de atributos até cada um dos centroides é calculada e esse dado é atribuído ao centroide mais próximo. Após repetir esse procedimento para todos os dados do treinamento, a nova posição de cada centroide é ajustada se tornando a posição média entre to-dos os dato-dos atribuíto-dos a seu respectivo cluster. Esse procedimento é repetido até que um certo critério de parada seja atendido, seja atingir o mínimo local de uma função custo ou então não haver mudança signiﬁcativa na posição dos centroides ao longo de algumas iterações completas (WU, 2012).

2.3 APRENDIZADO SEMI-SUPERVISIONADO

Este tipo de aprendizado é útil em cenários nos quais há poucos dados com saídas conhe-cidas, ou conjuntos de dados altamente desbalanceados, ou seja, muitos dados com um tipo de saída e poucos com outros tipos de saída.

2.3.1 Máquina de Vetor de Suporte de Uma Classe

Apesar de ter sido inspirado na Máquina de Vetores de Suporte tradicional, este algoritmo é do tipo semi-supervisionado e é usado no contexto chamado de detecção de novidades ou detecção de anomalias. De forma geral, ele é capaz de determinar o que é um comportamento considerado normal para então classiﬁcar novos dados como normais, ou seja, semelhantes aos dados vistos durante o treinamento, ou como anormais, se diferem muito do anteriormente visto.

O processo de treinamento é alimentado apenas com dados considerados normais, o que é útil em cenários onde não se têm muitos dados anômalos catalogados. Assim como nas Máquinas de Vetores de Suporte, esse algoritmo encontra uma fronteira de decisão, ou um hiperplano. No entanto, nesse caso, a estratégia é usar uma transformação de kernel sobre o espaço de atributos e então calcular os vetores de suporte maximizando a separação dos dados com a origem (MA; PERKINS, 2003).

(32)

2.4 SÉRIES TEMPORAIS

Séries temporais são coleções de observações coletadas e indexadas sequencialmente no tempo. Há aplicações e relevância na economia, engenharia e ciências de um modo geral. Podem ser usadas para estudar e entender fenômenos, padrões, fazer previsões, correlacionar eventos, entre outras aplicações. Na engenharia, exemplos incluem variáveis monitoradas de sensores, eventos de alarmes, entre outros.

A análise de séries temporais pode trazer informações ricas sobre comportamentos e adi-cionar maior entendimento sobre a evolução das séries no tempo. A seção seguinte aborda métricas descritivas sobre séries temporais.

2.4.1 Descrição de séries temporais

Usualmente, o primeiro passo na análise de séries temporais é gerar um gráfico com os dados para obter simples métricas descritivas. É possível identificar as características mais mar-cantes tanto graficamente quanto matematicamente. São as métricas descritivas mais comuns:

2.4.1.1 Tendência

A tendência é uma evolução de longo período dos valores da série e que não tem relação com o calendário ou apresenta efeitos irregulares.

A análise da tendência vai depender se é desejado medir a tendência de fato ou remover essa componente para analisar flutuações locais. Uma simples análise de média pode ser o suficiente para inferir a tendência, porém outras técnicas podem ser mais eficazes em alguns cenários. A tendência de uma série pode ser extraída através de regressão, onde um algoritmo de otimização encontra os parâmetros de uma função que melhor descreva os dados da série, minimizando o erro total. Outra técnica para a extração de uma curva de tendência é através da técnica de filtragem. Na filtragem, uma transformação é aplicada sobre a série temporal para que ressalte as dinâmicas mais lentas. Essa transformação pode ser aplicada diretamente sobre a série temporal ou passando por uma etapa de transformação frequencial, capturando apenas as frequências mais baixas. Também é possível, para a extração da tendência, usar a técnica de diferenciação. Nessa técnica, calcula-se a diferença da amostra da série t + 1 com a t, gerando, com esse valor da diferença, uma nova série. A diferenciação tem capacidade de anular os efeitos e variações mais longas da série, ou seja, a tendência. Por essa técnica, então, a tendência é removida e, ao subtrair essa série da série original, obtemos a curva de tendência (CHATFIELD, 2004).

2.4.1.2 Sazonalidade

Sazonalidade é um efeito sistemático e altamente relacionado com o calendário, ocor-rendo de forma cíclica. Por exemplo, a ﬂutuação no consumo de água durante as estações de inverno e verão.

(33)

2.4. Séries temporais 31

2.4.1.3 Ruído

O ruído é uma componente aleatória, também chamada de residual, e é o restante da série quando as componentes de tendência e sazonalidade são removidas. Os ruídos resultantes são ﬂutuações irregulares, ou seja, não são sistemáticos e nem previsíveis. Idealmente, esse ruído é do tipo branco, ou seja, tem distribuição espectral homogênea para todas as frequências.

2.4.1.4 outliers

Os outliers são valores espúrios que não são consistentes com o restante dos dados, ou seja, pertencem a extremos de uma distribuição de probabilidade.

A partir das propriedades descritivas como tendência, sazonalidade e ruído, é possível re-presentar uma série temporal como um modelo aditivo ou multiplicativo (CHATFIELD, 2004). No modelo aditivo, a série temporal pode ser vista como um somatório dessas propriedades:

Série temporal = Tendência + efeito sazonal + ruído

De forma análoga, no modelo de decomposição multiplicativa a série pode ser vista como a multiplicação das componentes de tendência, efeito sazonal e ruído:

Série temporal = Tendência * efeito sazonal * ruído

2.4.2 Processos estocásticos

Processo estocástico é um fenômeno estatístico que evolui no tempo de acordo com leis probabilísticas, portanto uma componente aleatória é sempre presente. Apesar da componente aleatória, frequentemente a evolução da série segue uma dependência serial, ou seja, o instante futuro t +1 tem relação com o t ou até t −x amostras passadas (CHATFIELD, 2004). São exem-plos de processos estocásticos o tamanho de uma ﬁla, a temperatura em minutos consecutivos e o preço de ações.

Matematicamente, é possível modelar processos estocásticos como:

• Puramente randômico (white noise), onde cada elemento da série é aleatório a partir de uma população de média e variância constantes

• Passeio Aleatório, onde o instante t+1 é igual ao instante t somado de um valor aleatório • Processo de Média Móvel (MA) modela apenas séries estacionárias (média e variância constantes) e assume que uma amostra da série sofre a inﬂuência de q erros passados, ou seja, que uma perturbação aleatória inﬂuencia as próximas amostras no tempo, cada erro com um pesoθq.

(34)

Em que: Xt é a saída do processo de média móvel no instante t; µ é a média da série

temporal;εt é o erro no instante t;θqé o peso do erro no instante t − q; e q é a ordem do

processo de média móvel

• Processo Autorregressivo (AR), assim como no processo de média móvel, o processo auto-regressivo considera inﬂuências passadas, mas, nesse caso, não dos valores aleató-rios passados, mas dos p valores passados da própria série, também com um pesoϕipara

cada uma dessas amostras:

Xt=µ+εt+ p

∑

i=1

ϕiXt−i (2.7)

Em que: Xt é a saída do processo autorregressivo no instante t; µ é a média da série

temporal; εt é o erro no instante t; ϕi é o peso do processo autorregressivo no instante

t − i; e p é a ordem do processo autorregressivo.

• ARMA compõe uma combinação do processo autorregressivo com o de média móvel, somados: Xt=µ+εt+ p

∑

i=1 ϕiXt−i+ q

∑

i=1 θiεt−i (2.8)

Em que: Xt é a saída do processo ARMA no instante t; µ é a média da série temporal;

εt é o erro no instante t; ϕi é o peso do processo autorregressivo no instante t − i; e p

é a ordem do processo autorregressivo; εt é o erro no instante t; θi é o peso do erro no

instante t − i; e q é a ordem do processo de média móvel.

• ARIMA segue a mesma composição matemática do processo ARMA, porém adiciona uma etapa anterior, que é a diferenciação. Os processos ARIMA são usados quando a série apresenta tendência e, por isso, a diferenciação removerá essa componente. Para modelar um processo com ARIMA, deve-se determinar p, q e d, onde:

– p: ordem do processo AR (autorregressivo) – d: número de atrasos de diferenciação – q: ordem do processo MA (média móvel)

Com esses parâmetros escolhidos, um algoritmo de otimização encontra os pesos que melhor representem a série, ou seja, que minimizem o erro de ajuste.

2.4.3 Correlação e Autocorrelação

A medida de correlação indica o quanto duas séries estão correlacionadas, ou seja, o quanto ambas evoluem no tempo de forma semelhante entre si. Por exemplo, se o fogão for

(35)

2.5. Engenharia de atributos 33

ligado para aquecer a água, é seguro aﬁrmar que a temperatura da água tem correlação alta com o tempo, já que ela aumenta à medida que o tempo passa. A fórmula para o cálculo de correlação r é expresso como:

r = _√∑(xi− x)(yi− y) ∑(xi− x)2∑(yi− y)2

(2.9) Em que: x e y são grandezas entre as quais se quer avaliar a correlação; x e y são as médias das variáveis x e y. Uma correlação forte entre duas séries temporais não necessariamente signiﬁca que há uma causalidade entre elas, ou seja, que a variação de uma provocou uma variação na outra.

Autocorrelação é a função que mede a correlação entre observações de uma mesma série temporal, mas com diferentes atrasos (lags) entre si (CHATFIELD, 2004). Esses coeﬁcientes de correlação fornecem informações sobre o modelo de probabilidade que gerou os dados e são obtidos pela fórmula:

rk= ∑ N−k

t=1(xt− y)(xt+k− x)

∑N_t=1(xt− x)2 (2.10)

Em que: k é a quantidade de lags, ou seja, a quantidade de amostras de deslocamento da série no tempo. Quando k = 0, a autocorrelação vale 1. N é a quantidade total de amostras. 2.4.3.1 Correlograma

O correlograma, ou função de autocorrelação, é um gráfico produzido com o coeficiente de correlação r versus a quantidade de lags k. A interpretação do correlograma pode trazer importantes informações, porém nem sempre é fácil. Séries com média e variância constantes costumam apresentar correlação de curto termo caracterizado por um valor de r inicialmente alto, seguido de poucos coeficientes maiores do que zero, porém rapidamente decrescentes. Esse comportamento indica que poucas amostras passadas têm grande influência na amostra atual, portanto o efeito de amostras mais antigas pouco ou nada influenciam o momento atual (CHATFIELD, 2004).

2.5 ENGENHARIA DE ATRIBUTOS

Nem todos os algoritmos de aprendizado de máquina são capazes de trabalhar com sé-ries temporais diretamente. Para esses casos, é necessário transformar os dados para extrair os atributos mais importantes e assim obter um conjunto de dados de menor dimensão e que repre-senta bem o comportamento dos dados. Essa extração pode acontecer no domínio do tempo, no domínio frequencial ou no domínio tempo-frequencial. Idealmente, independente do domínio, os atributos extraídos devem ser capazes de diferenciar um comportamento normal das primei-ras faltas ou sinais de degradação. Quanto mais cedo os atributos reﬂetirem uma mudança no comportamento da série temporal, mais cedo essa mudança será detectada e portanto haverá mais tempo até que ocorra uma falha.

(36)

(37)

(38)

(39)

2.5. Engenharia de atributos 37

que demonstram o contrário quando está prestes a falhar.

Os coeficientes de Lyapunov fornecem uma medida do quanto a série diverge de uma evolução previsível. Caso ao menos um dos coeﬁcientes seja positivo, há um grande indicativo de que o sistema é caótico (XINMIN; Du Baoxiang; YONG, 2007).

Outras medidas de não-linearidade incluem:

• Expoente Hurst: mede a memória de longo período de uma série temporal, ou seja, as dependências estatísticas que não são originadas de padrões cíclicos (HURST, 1951) • Dimensão de Correlação: medida de complexidade (GRASSBERGER; PROCACCIA,

1983)

• Análise de Flutuações Destendenciadas: assim como o Expoente Hurst, mede a memória de longo período de uma série temporal (PENG et al., 1994)

2.5.3 Controle Estatístico de Processo

O controle estatístico de processos faz uso de métodos estatísticos para estabelecer pa-râmetros e limites de controle para monitoramento e assim garantir qualidade e eficiência do processo. Esses limites de controle auxiliam na detecção de mudanças sutis no funcionamento para indicar ajustes necessários no processo ou até mesmo manutenções em equipamentos. Com os limites de controle determinados, são criados os gráficos para monitorar desvios do processo, chamados de cartas de controle e, através dessas cartas, são identificados os seis pa-drões mais comuns de funcionamento (normais e anormais) de um processo industrial: normal, cíclico, tendência crescente, tendência decrescente, aumento repentino na média e diminuição repentina na média (DRAIN, 1997), como mostra a Figura 6.

Pham e Wani (1997) e Addeh (2014) sugerem atributos para fazer o reconhecimento au-tomatizado dos seis padrões mais comuns. São os atributos:

• Inclinação (coeﬁciente angular de equação de reta) • Número de cruzamentos sobre a reta média

• Número de cruzamentos sobre a reta de tendência

• Coeﬁciente cíclico: indica o quanto se assemelha de um padrão cíclico

• Inclinação média de dois segmentos de reta (deve-se encontrar a melhor separação em dois segmentos de reta e fazer a média de inclinação entre as duas)

• Diferença de inclinação (encontra os melhores segmentos de reta e subtrai as duas incli-nações)

(40)

(41)

(42)

• Melhor resultado de classiﬁcação com modelos mais generalizados (ALHONNORO; SI-ROLA, 2008).

• Visualização compacta: habilitar a visualização para melhor clareza dos dados e observar possíveis padrões

É possível categorizar os métodos de seleção de atributos em filtro e wrapper, (BOLóN-CANEDO; SáNCHEZ-MAROñO; ALONSO-BETANZOS, 2015) (VISALAKSHI; RADHA, 2014). Os métodos de filtro apenas consideram o atributo em questão atribuindo um peso para classificá-lo em relação aos demais. Automaticamente, os atributos menos relevantes serão mal classificados e terão menor prioridade para fazer parte do conjunto final de atributos. Nessa categoria, encontram-se métodos como Chi-quadrado, Coeficientes de Correlação e Ganho de Informação. Já os métodos do tipo wrapper agrupam os atributos em grupos de acordo com alguma estratégia. Cada um desses grupos é avaliado de acordo com algum critério de perfor-mance e comparado com os outros grupos. O critério de perforperfor-mance é o resultado do próprio algoritmo de aprendizado de máquina. Ou seja, esses métodos avaliam concomitantemente o aprendizado de máquina e a seleção dos atributos e, por esse motivo, são muito mais custosos computacionalmente.

Além da seleção de atributos, outros métodos como Análise dos Principais Componen-tes (PCA), Decomposição de Valor Singular (SVD) e Mapas auto-organizados, aplicam uma transformação nos dados para obter um conjunto menor de atributos (JAVED et al., 2015).

Nesse capítulo, os algoritmos de aprendizado de máquina usados no trabalho foram breve-mente explicados, bem como uma breve introdução à séries temporais, que descreve a natureza dos dados disponíveis para as análises. Por ﬁm, foram mostrados os atributos extraídos sobre as séries temporais, que têm como objetivo descrever o comportamento da série num espaço de poucas dimensões. O entendimento desses fundamentos é essencial para o decorrer do trabalho e a aplicação dos mesmos são explorados nas seções seguintes.

(43)

(44)

(45)

(46)

44 Capítulo 3. Predição de falhas em sistemas de refrigeração

manutenção são traçados. É importante salientar que diferentes componentes de um mesmo equipamento podem ter tempos de degradação diferentes, portanto as equipes de manutenção podem considerar diferentes MTTF para cada um deles se julgarem necessário. A estimativa de tempo até a falha fornece apenas o tempo médio, no entanto falhas catastróﬁcas podem ocorrer muito antes do intervalo de manutenção, assim como um equipamento pode durar mais tempo do que o tempo médio. Essas incertezas dão margem para ineﬁciências já que uma falha que ocorre antes da manutenção agendada traz os mesmos transtornos que a manutenção corretiva, e uma manutenção agendada feita num equipamento que poderia ter uma vida útil maior faz com que essa “sobrevida” não seja aproveitada (MOBLEY, 2002).

3.2.3 Manutenção preditiva

A premissa da manutenção preditiva é que, através do monitoramento regular da condição do equipamento, é possível estimar o estado de degradação do equipamento e assim predizer se uma falha irá ou não acontecer. Baseado nessa informação, a manutenção é executada, maxi-mizando assim os intervalos entre as manutenções quando o equipamento tem uma sobrevida e, ao mesmo tempo, prevendo falhas antecipadas. Por causa da otimização nas manutenções causada por essa estratégia, há um aumento na produtividade e redução de custos (MOBLEY, 2002).

3.3 PREDIÇÃO DE FALHAS

Na literatura, são encontradas três atividades chave que contribuem para a composição de uma solução de predição de falhas, no entanto, dependendo da abordagem, nem todas são necessárias para a predição. São elas:

• Detecção de faltas: encontrar padrões anormais (faltas) de funcionamento • Diagnóstico: determinar a causa da falta ou da falha

• Prognóstico: inferir o momento em que a falha ocorrerá, ou seja, quanto tempo ainda há de funcionamento

Para (SCHWABACHER; GOEBEL, 2007), o processo inicia detectando uma falta e, en-tão, o diagnóstico de faltas classiﬁca tal falta, apontando a localização e a causa do desvio. Por ﬁm, o prognóstico de falhas tem como objetivo predizer quando uma falha irá ocorrer, ou seja, estimar o tempo de vida do equipamento até a falha. Para Schwabacher, uma etapa é pré-requisito para a seguinte. O autor (SALFNER; LENK; MALEK, 2010) traz um entendimento diferente sobre o processo. Ele aborda a predição de falhas como um mecanismo integrado responsável por detectar e determinar se uma falta ou uma sucessão de faltas provocará uma falha ou não, sem abordar o prognóstico. Numa etapa posterior, o diagnóstico pode ser apli-cado para entender a causa da falha. No trabalho (JIN et al., 2016) é feita a detecção de faltas

(47)

(48)

3.3.1 Predição de falhas com técnicas de aprendizado de máquina

Os métodos baseados em dados são mais genéricos do que os baseados em modelo pois não dependem de um especialista de domínio para gerar os modelos, portanto independem do tipo de equipamento analisado. Esses métodos se baseiam em dados históricos para inferir o estado de degradação do equipamento ou identiﬁcar comportamentos para então predizer uma falha. As entradas para esse tipo de método são dados numéricos provenientes de sensores ou transformações feitas sobre os dados originais. Nesse contexto, técnicas de mineração de dados e aprendizado de máquina podem ser aplicadas para predizer uma falha. Dependendo do tipo de resposta dada pelo método, é possível categorizá-los em classiﬁcação e regressão.

3.3.1.1 Predição de falhas com classificação

Na predição de falhas com classificação, o objetivo é desenvolver classificadores que sejam capazes de predizer se uma falha irá ocorrer ou não. Létourneau (2005) propõe uma metodologia genérica usando classificadores como árvores de decisão e redes bayesianas para predizer se uma falha ocorrerá ou não. Os algoritmos são supervisionados e, por isso, devem ser treinados com dados marcados como sem falta ou com falta. Os dados são marcados como falta nos últimos k dias antes da falha e os demais como livres de falta. Dessa maneira, os classificadores treinados são capazes de dizer se um novo dado pertence àquele comportamento que leva a uma falha ou não. Han (2010) usa máquinas de vetores de suporte como classifica-dores binários em cascata, sendo o primeiro classificador como a etapa de detecção de faltas e cada um dos posteriores são responsáveis por detectar um determinado tipo de falta, ou seja, diagnosticando-a. Heo e Lee (2018) desenvolvem e avaliam diferentes configurações de redes neurais multi-layer perceptron para detectar e diagnosticar faltas de um processo industrial. Ince (2016b) usa redes neurais convolucionais para detectar faltas em rolamentos. Uma vantagem dessa abordagem é que ela combina as etapas de extração de atributos com a de classificação, já que essas redes tem a capacidade de trabalhar diretamente com dados brutos e extrair padrões autonomamente deles. Outras abordagens incluem o uso dos algoritmos k-NN (SUSTO et al., 2015) e Naive Bayes (PIZZA et al., 1998).

Quando não há dados categorizados, ou seja, sem indicativo sobre o que é um dado de falta ou não, os algoritmos chamados de não supervisionados podem ser usados. Esses algo-ritmos são capazes de separar e agrupar dados com comportamentos semelhantes, de forma autônoma. O algoritmo não supervisionado k-means clustering é usado em (YIAKOPOULOS; GRYLLIAS; ANTONIADIS, 2011) para detectar faltas em rolamentos e num segundo está-gio usado também para o diagnóstico. Para o estáestá-gio de detecção de faltas, é usado k = 2, ou seja, um cluster agrupa o comportamento considerado livre de faltas e o outro com faltas. Ou-tros métodos como Hierarchical Clustering (ZHANG et al., 2017) e Gaussian Mixture Models (ZHANG et al., 2017) também têm sido usados para detecção e diagnóstico de faltas.

Dado que equipamentos foram projetados para não quebrar, é comum haver poucos ou até nenhum dado histórico de falta. Para esses casos, os métodos semi-supervisionados podem

(49)

(50)

(51)

(52)

A existência de faltas pode afetar o comportamento termodinâmico do sistema na forma de mudanças na temperatura, pressão e energia (BEHFAR; YUILL; YU, 2017). Segundo Groo-ver (2007), a curva de temperatura de um freezer é como uma impressão digital do equipamento. O funcionamento livre de faltas de um freezer mostra uma série de picos e vales na temperatura, espaçados de forma regular, com ciclos bem definidos. Quando o freezer começa a mostrar pa-drões de temperaturas como mudanças bruscas na média, picos ou vales aberrantes, alterações nos padrões cíclicos ou oscilação mínima de temperatura, indica que o equipamento precisa de manutenção. Os autores concluem que, apenas com o histórico das temperatura dos ultra-freezers, é possível detectar faltas que possam levar a uma falha. No entanto, essa inspeção é feita de forma manual por um profissional especializado, ou seja, não há nenhuma forma de automação no processo. Somente com a presença do padrão “ausência ou oscilação mínima de temperatura”, o artigo mostra que há uma chance 2.9 vezes maior de ocorrer uma falha no equipamento. Os resultados e análises apresentados pelos autores consideram um ambiente de funcionamento livre de perturbações, ou seja, apenas usaram os dados coletados durante o pe-ríodo noturno onde nenhum dos ultra-freezers eram abertos para a retirada ou o carregamento de insumos. Taylor (2003) mostra um tipo de falta detectável a partir da temperatura nas câma-ras refrigeradas dos freezers de supermercado causada pelo acúmulo de gelo nos evaporadores. O gelo acumulado diminui a eficiência de refrigeração drasticamente até que o equipamento não seja mais capaz de manter a temperatura dentro dos limites estabelecidos. Antes de chegar nessa situação de falha, a perda gradativa da eficiência é percebida numa demora maior para a temperatura retornar aos valores nominais após uma abertura de porta ou ciclo de degelo. Pela ausência de dados reais de falta, o autor simula uma falta para testar a metodologia de detecção através de um algoritmo de Sistemas Imunológicos Artificiais (DASGUPTA, 1998).

Wichman e Braun (2008) usam, além da temperatura dentro do refrigerador, outros sen-sores de temperatura posicionados em diversos pontos do refrigerador para detectar 5 tipos de faltas. A partir de modelos matemáticos baseados nessas temperaturas, outras grandezas de operação do equipamento são inferidas, como pressão, vazão e potência. Por ﬁm, as variáveis reais e as inferidas são combinadas de forma que representem cada uma das faltas. A detecção dessas faltas é feita se a evolução das variáveis combinadas extrapolar um limite estabelecido. Os autores validam o método em equipamentos reais, obtendo resultados satisfatórios apenas para algumas das faltas. Tassou (2005) usa dados de temperatura em vários pontos de um sis-tema de refrigeração em laboratório para detectar vazamento de gás e diagnosticar o nível de gás no sistema. Os dados dos sensores são usados para o treinamento de redes neurais para que aprendam o comportamento livre de falta, e um resíduo para cada valor predito pela rede e o real é gerado. Na etapa seguinte de diagnóstico, um sistema especialista determina se há vazamento, se a carga de gás está baixa ou alta.

Ao invés da temperatura, outros trabalhos se utilizam do sinal de energia para detectar e diagnosticar faltas. Mavromatidis (2013) usa redes neurais para aprender o comportamento livre de faltas do consumo de energia dos subsistemas de um refrigerador. Se o resíduo entre o predito pelas redes e os reais for maior do que um limiar, considera que há uma falta. Num

(53)

3.3. Predição de falhas 51

segundo estágio, se a falta for persistente por 5 amostras consecutivas, classiﬁca entre 4 estágios de probabilidade de falha: normal, baixa, alta, e falha, de acordo com a porcentagem do desvio da falta acima do valor considerado livre de faltas, respectivamente: menos de 10%, 10 a 20%, 20 a 30% e mais de 30%. Fisera e Stluka (2012) usam sensores do compressor (temperatura e pressão na saída do compressor) para criar um modelo de consumo de energia desse componente e comparar com o consumo real para detectar faltas. Srinivasan (2015) traz como hipótese de que qualquer falta pode ser detectada através de sinais de energia. Para isso, encontra um modelo SARIMA sobre dados livres de falta e detecta uma falta se o erro de predição for maior do que um limar.

Uma abordagem mais simples é monitorar variáveis do sistema de acordo com limites. Xu e Liu (2013) fazem um estudo dos modos de falha para equipamentos de refrigeração e chega num conjunto de 8 variáveis em potencial para serem monitoradas a ﬁm de detectar faltas com potencial de falha. A falta é detectada quando uma ou mais dessas variáveis ultrapassarem os limites preestabelecidos. O artigo não trata de padrões irregulares que, mesmo que apresentando valores dentro da faixa estabelecida, podem indicar uma falha em potencial.

Algumas instalações de refrigeradores possuem um sistema de monitoramento da tempe-ratura, capaz de alarmar quando há um desvio. Essas notiﬁcações de alarmes podem servir de entrada para redes neurais (TAYLOR; CORNE, 2004) e sistemas especialistas de regras (TAY-LOR et al., 2002) para detectar faltas.

A maioria dos autores se ocupa somente em detectar e diagnosticar faltas em sistemas de refrigeração sem afirmar, através de modelos e algoritmos, se haverá uma falha ou não em decorrência da falta encontrada. Como esses trabalhos focam em detectar tipos específicos de falta, como vazamento de gás ou falha no compressor, conclui-se então que uma vez a falta detectada, ou ela leva automaticamente a uma falha, ou então a falta encontrada já é motivo suficiente para acionar a manutenção a fim de trazer o equipamento para as condições normais de operação. Além disso, foram encontrados apenas dois trabalhos que usam somente um sen-sor de temperatura dentro do compartimento refrigerado. Um que usa dados reais (GROOVER; FRANKE, 2007) mas o processo de detecção e análise é feito por pessoas especialistas, e outro que insere faltas artificialmente (TAYLOR; CORNE, 2003) e faz a detecção com Sistemas Imu-nológicos Artificiais. No entanto, foi mostrado que há diversas abordagens para predizer uma falha aplicadas a outros tipos de equipamento, que foram usadas como base para o desenvolvi-mento deste trabalho.

(54)

(55)

53

4 PREPARAÇÃO DOS DADOS

Neste capítulo, é relatada a coleta e preparação dos dados usados no trabalho. Quais são os dados disponíveis, o processo de eliminação de dúvidas e premissas. A avaliação dos dados disponíveis guiou a trajetória de pesquisa pois estabeleceu as restrições para o projeto.

4.1 COLETA DOS DADOS

A base de dados usada neste trabalho foi fornecida pela empresa Sensorweb (www.sensorweb.com.br), contendo aproximadamente 2000 equipamentos divididos entre refrigeradores, freezers,

ultra-freezers e crio-ultra-freezers. A Sensorweb atua no mercado de Internet das Coisas para a cadeia do frio na saúde, ou seja, monitora a temperatura em cada equipamento de refrigeração de hos-pitais, clínicas e notifica os usuários no evento de uma temperatura permanecer fora da faixa preestabelecida, que pode se dar por más configurações do equipamento, porta aberta, ou falha. A sonda de temperatura é posicionada no mesmo compartimento onde os produtos armazena-dos se encontram. A base histórica para esses equipamentos varia de 1 a 5 anos, dependendo do contrato com o cliente. Juntamente com esses dados de temperatura, foram extraídas, também da plataforma Sensorweb, anotações de ocorrência de manutenção dos equipamentos. Essas anotações são feitas por alguns clientes de forma manual. No entanto, nem todos os clientes têm como prática fazer anotações e, quando as fazem, não há indicativo do motivo da falha. Havendo essas informações disponíveis, é possível segmentar os casos de falha pelo motivo de manutenção e treinar algoritmos especializados para cada um, além de considerar tempos até a falha específicos, que têm impacto na escolha do tamanho das janelas de marcação dos dados e de avaliação dos resultados. Por esse motivo, foram investigados, junto aos clientes, os rela-tórios de manutenção que apontassem os motivos das manutenções, mas pouco foi encontrado. Não é uma prática comum a todos os clientes manter esse histórico e, quando o mantém, nem sempre são claros o suficiente, ou são poucos, ou são apenas um relatório de várias peças troca-das. Foram encontrados portanto, 23 casos e desses, poucos casos repetiam o motivo da falha, o que tornaria estatisticamente fraca a estratégia de agrupar os casos por tipo da falha. Por esse motivo, foram usados os casos de manutenção anotados pelos clientes como fonte para serem coletados os casos de falha, que foram tratados sem distinção do motivo.

Apesar de conseguir um total de 3393 anotações com menção de “manutenção”, “defeito” ou “reparo”, foi necessária uma etapa de avaliação sobre cada um deles a ﬁm de determinar po-tenciais fontes de dúvida. Foi considerado, neste trabalho, um caso de falha como sendo a incapacidade de o equipamento manter a temperatura abaixo de 10°C. Portanto, muitos casos foram eliminados por não possuírem essa característica. Possivelmente são casos em que a manutenção pode ter sido acionada por um ruído audível, um gotejamento indesejado, uma luz queimada, ou mesmo uma manutenção preventiva para averiguar o estado de saúde do equipa-mento. Ou seja, nesses casos, não houve relação com a temperatura e, portanto, foram descarta-dos. Num segundo momento, casos que não possuíam um comportamento típico oscilatório de

(56)

(57)

(58)

(59)

(60)

(61)

4.3. Extração e seleção de atributos 59

dos. Esses 411 atributos foram agrupados for referência ou por pacote de extração, conforme a nomenclatura abaixo:

• STFT (Transformada de Fourier de Curto Termo): Os atributos são as amplitudes para as 25 primeiras frequências. Experimentalmente, foi percebido que, para os casos de falha, tanto para momentos livres de falta quanto para momentos de falta, não há grande inﬂuência de frequências maiores do que a 25ł.

• STFT-atributos: Os 4 atributos calculados sobre a decomposição espectral do STFT (Cen-tro de massa, Frequência de pico, Energia, Área).

• Não-lineares (NOLDS): Expoente Hurst (hurst_rs), Dimensão de Correlação (corr_dim),

Análise de Flutuações Destendenciadas (dfa), Coeﬁcientes de Lyapunov (lyap_e_a,lyap_e_b,lyap_e_c lyap_r) (SCHöLZEL, 2016)

• Controle Estatístico de Processo (SPC): Inclinação (slope) , Número de cruzamentos sobre a reta média (n_crossings_mean), Número de cruzamentos sobre a reta de ten-dência (n_crossings_slope), Coeﬁciente cíclico (c_member), Inclinação média de dois segmentos de reta (avg_slope_seg), Diferença de inclinação (slope_diff), Área sob a reta média (apml), Área sob a reta de tendência (apsl), Área sob os segmentos de reta (area_trend_seg), Variação máxima de valor em curto período de tempo (mvsasti) • Função de Autocorrelação (ACF): Os atributos são os valores de autocorrelação para os

primeiros 25 lags. Foi observado empiricamente que essa quantidade é suﬁciente para descrever os comportamentos dos casos.

• ACF-atributos: Área sob a função (area), Quantidade de vezes que cruza o eixo x

(number_crossing_zero), Lag em que a função cruza o eixo x pela primeira vez (first_crossing_zero Lag em que a função tem amplitude mínima (min_amplitude).

• Pacote TSFRESH: São 63 métodos que, com diferentes parametrizações, extraem 794 atributos. Foram descartados os componentes frequenciais pois são redundantes já que usamos a STFT. A lista de atributos pode ser consultada em (CHRIST et al., 2018).

4.3.2 Seleção de atributos

Na seção 2.6, foram discutidos alguns métodos para a seleção de atributos e as justiﬁ-cativas para tal tarefa. No entanto, são métodos genéricos para a seleção de atributos. Coble (2011) propõe três métricas para avaliar atributos ou funções de indiquem o estado de saúde do equipamento (ES) e, a partir delas, escolher os atributos mais signiﬁcativos. São elas:

• Monotonicidade: assumindo que um equipamento não tem um mecanismo de autocura, o estado de saúde do equipamento não pode voltar ao que era antes uma vez que mudou de

(62)

60 Capítulo 4. Preparação dos dados

valor. Essa métrica indica, então, uma tendência positiva ou negativa e pode ser calculada pela Equação 4.1 (JAVED et al., 2015):

M = nd p N − 1− ndn N − 1 (4.1) Em que: N representa o número de observações, nd p o número de derivadas positivas e ndno número de derivadas negativas. M = 1 signiﬁca alta monotonicidade e M = 0 para o oposto.

• Correlação de tendência: mede a correlação entre o valor da série e o tempo. Ou seja, mede o quanto a série cresce ou decresce com o tempo e pode ser calculado pela Equa-ção 2.9 e tem valores na faixa [-1,+1], em que -1 representa que a funEqua-ção é decrescente e +1 crescente.

• Capacidade de prognóstico: indica a variância no valor crítico de falha de uma população de casos de falha. Uma alta variabilidade no valor da função ES onde o equipamento falha traz problemas ao se estabelecer um limiar de falha para essa função e, portanto, a tarefa de prognóstico seria diﬁcultada

Apesar de essas métricas terem sido propostas para o prognóstico, elas podem ser úteis para uma tarefa de detecção de faltas também pois, se os atributos tiverem bons índices de Monotonicidade e Correlação de tendência, há boas chances de que sejam bons indicadores dos estados “livre de falta” e “falta” e, portanto, os algoritmos de aprendizado de máquina podem distinguir os dois comportamentos de forma eﬁcaz. Como o foco deste trabalho não é estimar o temo até a falha, a métrica Capacidade de Prognóstico não foi usada.

As métricas Monotonicidade e Correlação de Tendência avaliam a evolução crescente ou decrescente de um atributo, assumindo que a degradação do equipamento é gradual. No entanto, pode não ser necessariamente o caso de alguns refrigeradores, pois podem mostrar mudanças abruptas de comportamento. Nesses casos, essas métricas poderiam falhar em capturar atri-butos que reﬂitam essas mudanças. Para isso, é proposta neste trabalho a métrica Ganho de segmentação.

Ganho de segmentação:

Esta métrica tem como objetivo encontrar o melhor ponto de separação em dois momen-tos, intuitivamente os estados de não-falta e falta, de forma que maximize a distância entre os dois segmentos de reta encontrados. A métrica é então a distância máxima encontrada e esse processo é feito sobre os dados normalizados com a técnica Min-Max (subseção 5.1.4) para que os valores ﬁquem numa faixa conhecida e padrão para qualquer caso.

Diferentes tamanhos de janela para a extração dos atributos resultam em diferentes clas-siﬁcações das métricas, portanto os grupos ﬁnais de atributos determinados pelas três métricas podem ser diferentes.

(63)

(64)

(65)

4.3. Extração e seleção de atributos 63

• Índice da porcentagem do centro de massa • índice da última localização do máximo • Soma dos valores

Correlação de Tendência (8h)

• Módulo da soma das mudanças de valor • Valor da autocorrelação para o lags 1 e 2

• Média das mudanças de valor entre 2 quantis (0,0.8) • Mediana

• Quantil (0.1)

• Razão entre a quantidade de valores únicos sobre o total de valores Ganho de Segmentação (8h)

• Índice do centro de massa do absoluto da Transformada de Fourier • Frequência de pico da Transformada de Fourier

• Quantidade de cruzamentos da reta de tendência • Valor da autocorrelação para os lags 1, 2 e 4 • Presença de valor mínimo repetido

• Superioridade do desvio padrão r vezes o máximo - mínimo (r = 0.2 e 0.25) • Quantidade de picos da série

• Quantil 0.1

• Simetria da distribuição da série Monotonicidade (2 dias)

• Área entre a reta média e a série temporal • Módulo da Energia

• Coeﬁciente de correlação da regressão linear sobre valores da série agregadas por partes • Índice da primeira localização do máximo

(66)

64 Capítulo 4. Preparação dos dados

• Índice da primeira localização do mínimo • índice da última localização do mínimo

• Erro padrão da regressão linear sobre série temporal • Soma dos valores recorrentes

• Soma dos valores

Correlação de Tendência (2 dias)

• Índice do centro de massa do absoluto da Transformada de Fourier • Média

• Coeﬁciente de autocorrelação de lag 1

• Média das mudanças de valor entre 2 quantis (0,0.8) • Média das mudanças de valor entre 2 quantis (0.2,0.8) • Média das mudanças de valor entre 2 quantis (0,1) • Variância das mudanças de valor entre 2 quantis (0,0.8) • Quantis 0.1, 0.3, 0.6, 0.7, 0.8

Ganho de Segmentação (2 dias)

• Coeﬁciente de autocorrelação lag 1

• Lag da função de autocorrelação em que o eixo zero é cruzado pela primeira vez • Número de cruzamentos do eixo zero da função de autocorrelação

• Análise de Flutuações Destendenciadas (PENG et al., 1994) • Índice do centro de massa do absoluto da Transformada de Fourier • Frequência de pico da Transformada de Fourier

• Média das mudanças de valor entre 2 quantis (0,1)

• Superioridade do desvio padrão r vezes o máximo - mínimo (r = 0.2) • Mínimo