• Nenhum resultado encontrado

Detecção de Falhas de Processos Industriais em Múltiplos Pontos de Operação via Análise Externa Linear e Não Linear

N/A
N/A
Protected

Academic year: 2021

Share "Detecção de Falhas de Processos Industriais em Múltiplos Pontos de Operação via Análise Externa Linear e Não Linear"

Copied!
61
0
0

Texto

(1)

CENTRO TECNOLÓGICO

DEPARTAMENTO DE ENGENHARIA ELÉTRICA

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

DETECÇÃO DE FALHAS DE PROCESSOS INDUSTRIAIS EM

MÚLTIPLOS PONTOS DE OPERAÇÃO VIA ANÁLISE EXTERNA

LINEAR E NÃO LINEAR

DISSERTAÇÃO DE MESTRADO

JÚLIO CÉSAR OLIVEIRA FARIA

VITÓRIA

2018

(2)

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO

CENTRO TECNOLÓGICO

DEPARTAMENTO DE ENGENHARIA ELÉTRICA

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

DETECÇÃO DE FALHAS DE PROCESSOS INDUSTRIAIS EM

MÚLTIPLOS PONTOS DE OPERAÇÃO VIA ANÁLISE EXTERNA

LINEAR E NÃO LINEAR

JÚLIO CÉSAR OLIVEIRA FARIA

Dissertação de Mestrado apresentada como requisito parcial para obtenção do título de Mestre em Engenharia Elétrica.

Orientador: Prof. Dr. Celso José Munaro.

VITÓRIA

2018

(3)

Dados Internacionais de Catalogação-na-publicação (CIP) (Biblioteca Setorial Tecnológica,

Universidade Federal do Espírito Santo, ES, Brasil)

Faria, Júlio César Oliveira, 1988-

F224d Detecção de falhas de processos industriais em múltiplos

pontos de operação via análise externa linear e não linear / Júlio César Oliveira Faria. – 2018.

65 f. : il.

Orientador: Celso José Munaro.

Dissertação (Mestrado em Engenharia Elétrica) –

Universidade Federal do Espírito Santo, Centro Tecnológico. 1. Localização de falhas (Engenharia). 2. Análise

multivariada. 3. Modelos lineares (Estatística). 4. Modelos não lineares (Estatística). 5. Controle de processo. 6. Análise externa. I. Munaro, Celso José. II. Universidade Federal do Espírito Santo. Centro Tecnológico. III. Título.

CDU: 621.3 Elaborada por Sandra Mara Borges Campos – CRB-6 ES-000593/O

(4)
(5)

A minha família pelo incentivo constante ao longo desta jornada, aos colegas da Vale pela oportunidade e suporte, a equipe do projeto de parceria entre Vale e UFES pelas discussões e contribuições essenciais para a elaboração deste trabalho e ao professor Dr. Celso José Munaro pela dedicação, paciência e empenho na orientação desta dissertação.

(6)

Os métodos de controle estatístico multivariado de processos com foco em detecção de falhas têm grande potencial de extrair informações relevantes dos dados gerados por instrumentos e sistemas de controle das plantas industriais, que normalmente são subutilizados. Porém, as técnicas tradicionais de controle estatístico multivariado não devem ser utilizadas para processos que operam em múltiplos pontos de operação, devido a incapacidade de distinguir uma falha de uma mudança normal de operação. Essa limitação dificulta o uso destas técnicas em processos reais. Neste contexto, este trabalho apresenta estudos e propõe cinco métodos baseados em Análise Externa não linear e Análise Externa com múltiplos modelos lineares, para detecção de falhas em processos industriais, que naturalmente são não lineares e trabalham em múltiplos pontos de operação. Estes métodos serão aplicados a um simulador benchmark da literatura e no monitoramento de um processo real de vibrações de um ventilador de processo de grande porte, usado em um forno de pelotização de minério de ferro. Os resultados mostram que os métodos propostos conseguem distinguir falhas de variações normais de pontos de operação de processos industriais, mantendo o nível de alarmes falsos no valor especificado. Adicionalmente, os resultados mostram que estes métodos têm potencial de detectar falhas automaticamente de forma antecipada, possibilitando ações corretivas que podem diminuir ou até evitar danos a equipamentos de determinado processo, gerando um potencial de ganhos financeiros.

(7)

The methods of multivariate statistical control of processes focused on fault detection have great potential to extract relevant information from the data generated by instruments and control systems of industrial plants, which are usually underutilized. However, traditional multivariate statistical control techniques should not be used for processes operating at multiple points of operation due to the inability to distinguish a failure from a normal change of operation. This limitation makes it difficult to use these techniques in real processes. In this context, this work presents studies and proposes five methods based on Nonlinear External Analysis and External Analysis with multiple linear models, to detect failures in industrial processes, which are naturally nonlinear and work at multiple points of operation. These methods will be applied to a literature benchmark simulator and to the monitoring of a real vibration process of a large process fan used in an iron ore pelletizing furnace. The results show that the proposed methods can distinguish failures from normal variations of operating points of industrial processes, keeping the level of false alarms in the specified value. Additionally, the results show that these methods have the potential to detect failures automatically in advance, allowing for corrective actions that may reduce or even avoid damages to equipment of a certain process, generating a potential for financial gains.

(8)

1 Introdução... 8

1.1 Objetivos e estrutura da dissertação ... 9

1.2 Contribuições da dissertação e publicações ... 9

2 Revisão da Literatura ... 11

2.1 Controle Estatístico de Processo Multivariado ... 11

2.2 Análise Externa ... 13

2.3 Análise de Componentes Principais (Principal Component Analysis - PCA) ... 15

3 Metodologia proposta ... 18

3.1 Análise Externa com Múltiplos Modelos Lineares - AEML ... 21

3.1.1 Treinamento - AEML ... 22

3.1.2 Monitoramento de falhas - AEML ... 23

3.2 Análise Externa com Múltiplos Modelos Lineares Baseado em RANSAC - AEML-R .... 25

3.2.1 Treinamento - AEML-R ... 25

3.2.2 Monitoramento de falhas – AEML-R ... 27

3.3 Análise Externa não linear ... 29

3.3.1 Treinamento – Análise Externa não linear ... 29

3.3.2 Monitoramento de falhas – Análise Externa não linear ... 30

4 Estudos de caso ... 31

4.1 Reator contínuo do tipo tanque agitado (Continuous Stirred Tank Reactor - CSTR) .. 31

4.2 Monitoramento de vibrações de um ventilador de forno de pelotização ... 41

5 Conclusão ... 53

(9)

1

Introdução

Técnicas de controle estatístico de processos (CEP) vêm sendo largamente utilizadas para o monitoramento de processos industriais, sendo cruciais para analisar a crescente quantidade de dados gerados por instrumentos e equipamentos de forma a contribuir para a melhoria contínua de produtividade e qualidade dos produtos (C. Tong, 2013).

Cartas de controle Shewhart, CUSUM e EWMA são técnicas de controle estatístico univariado consolidadas há décadas, geralmente aplicadas a indicadores críticos do processo, chamados de Key Performance Indicators (KPIs).

Técnicas de controle estatístico baseadas em Análise de Componentes Principais (Principal Component Analysis - PCA), Mínimos Quadrados Parciais (Partial Least Squares -

PLS) e suas variantes dinâmicas e recursivas são as metodologias multivariadas mais

difundidas, geralmente usadas para monitorar variáveis internas de um processo (C. Tong, 2013). Diferente do CEP univariado, essas técnicas levam em consideração as correlações entre as variáveis e reduzem sua dimensionalidade, de forma a simplificar as análises e desprezar informações não relevantes.

As técnicas de CEP tradicionais não conseguem diferenciar uma mudança de ponto de operação de uma falha de processo, desta forma, elas devem ser usadas para monitorar variáveis com comportamento estacionário, que trabalham em um único ponto de operação (S. J. Zhao, 2004). Esta limitação não dificulta o uso das técnicas univariadas, pois os KPIs de uma planta industrial que são alvos destas análises, geralmente possuem apenas um ponto de operação. Entretanto, as técnicas de CEP multivariado têm como objetivo monitorar variáveis internas de um processo industrial, que normalmente trabalham em múltiplos pontos de operação, devido a demandas distintas de produção, variações nas características dos insumos, entre outros fatores (M. Kano, 2004). Por não conseguir diferenciar falhas de mudanças de ponto de operação, o uso destas técnicas multivariadas em processos reais gera muitos alarmes falsos, criando resistência ao seu uso.

Neste contexto, é essencial o desenvolvimento de técnicas de CEP multivariado que sejam capazes de distinguir variações normais dos pontos de operação e falhas no processo.

A técnica chamada de Análise Externa proposta por Kano (2004) é uma metodologia que se destaca para tratar deste problema. Nesta metodologia, as variáveis do processo

(10)

são divididas em dois grupos, variáveis externas e principais, e assume-se que as variáveis principais podem ser explicadas pelas variáveis externas através de um modelo de regressão. Os resíduos resultantes da diferença entre as variáveis principais medidas e estimadas são utilizados para a detecção de falhas e diagnósticos. Desta forma, as variáveis monitoradas passam a ser independentes de variações da região de operação, podendo ser analisadas pelas técnicas tradicionais de CEP multivariado. Entretanto, originalmente esta metodologia utiliza modelo de regressão linear, dificultando o seu uso para processos industriais reais.

1.1 Objetivos e estrutura da dissertação

Esta dissertação tem como objetivo estudar, propor e comparar metodologias baseadas na junção de CEP multivariado e análise externa linear e não linear para detectar falhas em processos industriais que possuem múltiplos pontos de operação.

Este trabalho está organizado da seguinte forma: no capítulo 2 é feita uma revisão da literatura, apresentando os métodos mais difundidos de CEP multivariado usados para detecção de falhas, assim como a Análise Externa. No capítulo 3 são apresentadas cinco metodologias de monitoramento de falhas de processos industriais que possuem múltiplos pontos de operação. No capítulo 4 são apresentados dois estudos de caso, onde as cinco técnicas propostas no capítulo 3 e a análise externa proposta por Kano (2004) são aplicadas a um simulador benchmark da literatura e no monitoramento de um processo real de vibrações de um ventilador de processo de grande porte, usado em um forno de pelotização de minério de ferro da mineradora Vale S.A. Por fim, o capítulo 5 traz as conclusões finais e sugestões de trabalhos futuros.

1.2 Contribuições da dissertação e publicações

Outros trabalhos da literatura já apresentaram técnicas de análise externa não linear em conjunto com técnicas de controle estatístico multivariado com o objetivo de detecção de falhas de processos industriais (Ge, 2008).

Os procedimentos para obter os múltiplos modelos lineares dos dois primeiros métodos propostos no capítulo 3 apresentam originalidade, enquanto que para os outros métodos propostos, técnicas de modelagem não lineares já difundidas na literatura em conjunto com análise externa e PCA foram utilizadas, sendo que o uso dos métodos de

(11)

regressão polinomial e Random Forest na abordagem de análise externa não foram encontradas na literatura.

Foram geradas as seguintes publicações associadas a esta dissertação: (Faria, J., 2017) e (Assis, A., 2017).

(12)

2 Revisão da Literatura

Neste capítulo é apresentada a revisão da bibliografia, sendo que a seção 2.1 apresentará as técnicas de controle estatístico multivariado mais estudadas e as técnicas que vêm sendo desenvolvidas para monitorar processos em múltiplos pontos de operação. Na seção 2.2 é detalhado o método de Análise Externa e na seção 2.3 é apresentado o uso de PCA na estrutura de monitoramento de falhas em conjunto com a Análise Externa. 2.1 Controle Estatístico de Processo Multivariado

O controle estatístico de processo multivariado é uma das classes de metodologias baseadas em dados históricos utilizadas para detecção de falhas. A Figura 1 mostra uma classificação destes métodos, separando por técnicas qualitativas e quantitativas.

Figura 1 – Classificação de métodos baseados em dados históricos (Venkatasubramanian, 2003)

As técnicas mais difundidas e estudadas de CEP multivariado para monitoramento de processos industriais são PCA e PLS. Essas técnicas têm a capacidade de trabalhar com um volume grande de dados e conseguem reduzir a dimensionalidade dos processos, desprezando informações não relevantes, de forma a simplificar as análises e aumentar a sensibilidade às falhas. Na Figura 2 são mostrados exemplos de artigos que utilizam essas técnicas e suas variantes.

(13)

Artigos de monitoramento estatístico de processo multivariado

PCA (R. Dunia, 1996) (Bakshi, s.d.) PLS (L. H. Chiang, 2001) (G. A. Cherry, 2006) (M. A. B. Shams, 2011) (S. Gu, 2015) (Y. Gao, 2016) (X. Wanga, 2003) (T. Komulainen, 2004) (H. W. Lee, 2009) (R. Muradore, 2012) (F. Harrou, 2015) (S. Yin, 2015) RPCA DPCA (W. Li, 2000) (H. D. Jin, 2006) (L. M. Elshenawy, 2012) (I. Portnoy, 2016) PCA não linear (P. Cui, 2008) (Z. Ge, 2009) (Y. Zhang, 2012) (X. Deng, 2013) (J. C. Kun, 2002) (L. Rongyu, 2006) (T. J. Rato, 2013) (Qin, 1998) (S. Mu, 2006) RPLS (J. C. Kun, 2002) (G. Lee, 2004) DPLS (G. Lee, 2004) (Y. Zhang, 2010) PLS não linear

Figura 2 - Artigos relacionados a PCA , PLS e suas variantes usadas como ferramentas de monitoramento de processos

As variações destas metodologias mostradas na Figura 2, foram desenvolvidas para serem aplicadas a processos com características específicas:

 Para processos em que a dinâmica não pode ser desprezada, utiliza-se atrasos das variáveis de processo como novas variáveis. A variação do PCA incorporando a dinâmica é chamado de PCA dinâmico (Dynamic Principal Component Analysis - DPCA) ou PLS dinâmico (Dynamic Partial Least Squares– DPLS) para o caso de se usar o PLS.

 Para se trabalhar com processos variantes no tempo, é essencial o uso de modelos adaptativos, também chamados de algoritmos recursivos, dando origem as metodologias PCA recursiva (Recursive Principal Component Analysis – RPCA) e PLS recursivo (Recursive Partial Least Squares – RPLS).  Para processos não lineares, outras variações foram desenvolvidas, algumas

delas chamadas de Kernel PCA (KPCA) e Kernel PLS (KPLS).

Alguns autores utilizam combinações das variações listadas acima para processos não lineares variantes no tempo (X. Liu, 2009), (M. Ding, 2010), (I. B. Khediri, 2011) e processo não lineares, dinâmicos e variantes no tempo (Y. Zhang, 2012).

Tipicamente, os cálculos das estatística T² de Hotelling e estatística Q, também chamada de soma de erro de predição (sum of prediction error - SPE), são usados para

(14)

detectar falhas na estrutura de monitoramento de processos baseados em CEP multivariado a partir da comparação com um limiar estatístico (Qin, 2012). Como alternativa uma combinação das duas estatísticas acima pode ser utilizada.

Todas as técnicas citadas acima não devem ser utilizadas para monitorar variáveis que possuem múltiplos pontos de operação, visto que não possuem a capacidade de diferenciar uma mudança normal de ponto de operação de uma falha de processo. Em S. J. Zhao (2004) e G. Yong (2015) é proposto o uso de múltiplos modelos PCA, sendo um modelo treinado para cada região de operação. Porém, esta metodologia requer o treinamento de muitos modelos, tendo em vista que o modelo somente vale em uma estreita faixa de operação, o que também torna o monitoramento mais complexo, visto que é necessária técnicas para identificar qual modelo deverá ser utilizado para detecção de falhas de uma nova amostra. Alternativas para monitoramento de processos com múltiplos pontos de operação podem ser encontradas em J. Yu (2008), S. Tan (2012) e C. Tong (2013).

2.2 Análise Externa

Nesta secção é apresentada a metodologia de Análise Externa, proposta por Kano (2004). Os conceitos desta técnica são utilizados nas metodologias propostas neste trabalho, apresentadas no capítulo 3. Considere uma matriz de dados de treinamento ∈

ℜ de um determinado processo, onde e são o número de amostras e variáveis,

respectivamente. As variáveis de podem ser divididas em dois grupos:

= [ ] (1)

onde ∈ ℜ é uma matriz que contém as variáveis externas , que determinam os

pontos de operação do processo e que normalmente são variáveis de entrada, e ∈

ℜ é uma matriz que contém as variáveis principais , que são as variáveis a serem

monitoradas e que são afetadas por . A matriz pode ser decomposta em duas partes:

= + (2)

onde é a parte de explicada por , e são os resíduos de , que não são explicados por . Para processos com não linearidades desprezíveis, pode ser utilizado um modelo

(15)

de regressão linear baseado em mínimos quadrados ordinários (MQO), tendo como entrada e como saída. Desta forma, a matriz de coeficientes de regressão pode ser obtida:

= ( ) (3)

A partir de , as variáveis principais estimadas podem ser calculadas:

= (4)

Espera-se que os resíduos sejam independentes dos pontos de operação, tendo em vista que a influência das variáveis que determinam os pontos de operação foi retirada das variáveis principais, sendo possível o uso de técnicas tradicionais de controle estatístico multivariado para detecção de falhas. Os resíduos podem ser calculados da seguinte forma:

= − (5)

Para processos em que as não linearidades não podem ser desprezadas, modificações nesta metodologia precisam ser feitas. Z. Ge (2008) propôs uma metodologia de Análise Externa não linear baseada em SVR (support vector regression) e Y. Zheng (2016) propôs o uso de Análise Externa em conjunto com uma variação de PLS, chamada de Projeção Concorrente para Estruturas Latentes (Concurrent Projection to Latent Structures - CPLS) proposta por S. J. Qin (2013). Autores como Patan (2008) não mencionam a metodologia de Análise Externa, porém utilizam os mesmos conceitos em suas técnicas para modelos baseados em redes neurais, como mostrado na Figura 3, onde são utilizadas variáveis de entrada de um processo para explicar variáveis de saídas e gerar resíduos, que serão avaliados com foco no monitoramento de falhas.

(16)

PROCESSO Geração de resíduos Avaliação de resíduos Entrada u(k) Falhas f Distúrbios d Saída y(k) Resíduos r Falhas f

Figura 3 – Monitoramento de falhas baseados na avaliação de resíduos (Patan, 2008) 2.3 Análise de Componentes Principais (Principal Component Analysis - PCA)

O uso de PCA em uma estrutura de monitoramento de falhas baseada em Análise Externa mapeia as amostras dos resíduos do modelo de Análise Externa , no espaço de componentes principais que são ortogonais e possuem dimensão reduzida. O modelo PCA é obtido a partir de um conjunto de amostras sem a presença de falhas, contidas na

matriz de resíduos de Análise Externa ∈ ℜ , calculado a partir da equação (5). É

premissa para o uso de PCA que os resíduos sejam sinais temporais aleatórios com distribuição gaussiana.

A matriz de covariância amostral de pode ser calculada da seguinte forma:

=

(6)

onde é a matriz de covariância amostral. A partir da decomposição de valores singulares de :

(17)

podemos encontrar a matriz diagonal , que contém os autovalores de em ordem

decrescente ( ≥ ≥ ⋯ ≥ ≥ 0), que representam a variância de cada componente

e a matriz composta pelos autovetores de , identificada como .

Componentes que possuem pouca variância devem ser desprezadas, de forma a diminuir a dimensionalidade do sistema e evitar problemas numéricos, tendo em vista que a matriz contendo os autovalores Λ é invertida no cálculo da estatística , como mostrado no equação 9. Vários métodos para determinar as componentes que serão desprezadas foram desenvolvidos, como o de porcentagem acumulada de variância (cumulative percent variance - CPV), análise paralela e predição da soma do quadrado dos resíduos (prediction residual sum of squares - PRESS) (L. H. Chiang, 2001). Neste trabalho utilizaremos o método CPV, que determina a quantidade mínima de componentes necessárias para explicar uma porcentagem da variância total e despreza o restante. A variância total retida será de 90%.

Para mapear uma nova amostra de resíduos do modelo de Análise Externa no espaço das componentes principais são utilizadas as componentes retidas dos autovetores que estão associadas aos maiores autovalores:

= (8)

onde ∈ ℜ é uma nova amostra dos resíduos, ∈ ℜ representa os valores dos

resíduos mapeados nas componentes principais e ∈ ℜ é a matriz formada pelos

autovetores das componentes principais não descartadas.

Para realizar o monitoramento de falhas novas amostras de são projetadas nas componentes principais e a estatística de Hotelling pode ser calculada:

= =

(9)

onde é a estatística de Hotelling.

O limite de controle estatístico para a estatística de Hotelling é então calculado:

(18)

onde T é o limiar estatístico e ( , − ) é a distribuição F, com graus de liberdade n e n − d e nível de confiança α.

A estatística , também chamada de SPE, também pode ser calculada:

= ( − ) (11)

= (12)

onde é a matriz identidade de mesma dimensão que .

O limite de controle estatístico para a estatística é calculado usando a distribuição , que pode ser aproximada pelas seguintes equações:

= ( ) + 1 + ( ) (13)

= ∑ (14)

ℎ = 1 − (15)

(19)

3 Metodologia proposta

Neste capítulo são propostos cinco métodos baseados em Análise Externa e PCA para detectar falhas em processos industriais que operam em múltiplos pontos de operação e que possuem não linearidades. Dois métodos são baseados em Análise Externa com múltiplos modelos lineares e três métodos são baseados em Análise Externa com modelos não lineares.

Estes métodos são divididos em duas etapas:

 Treinamento: etapa off line usada para geração dos modelos de análise externa e PCA a partir de amostras do processo em situação de normalidade

 Monitoramento de falhas: etapa on line onde novas amostras são disponibilizadas e a detecção de falha pode ocorrer. São utilizados somente dados históricos neste trabalho, sendo simulado o monitoramento de processo on line

Os métodos com múltiplos modelos lineares utilizam modelos de regressão estáticos, com a seguinte estrutura:

⋮ =

1

1

1

. ⋮ + ⋮

(16)

onde é a amostra da variável de saída, é a amostra da variável de entrada , é

o coeficiente de regressão da variável e é o erro de modelagem da amostra .

A estrutura usada não possui parte auto-regressiva, tendo em vista que o objetivo da análise externa é somente retirar a influência das variáveis externas sobre as variáveis principais.

Para justificar o uso destes métodos, é utilizado um exemplo de válvula de controle, comum em todo tipo de indústria, simulada pelas equações abaixo:

( ) =

( , , , , )

( )

(17)

(20)

apresentadas por Al-Duwaish e Naem (2001), sendo ( ) a pressão de controle, ( ) a posição da haste da válvula e ( ) o fluxo através da válvula. A Figura 4 mostra graficamente a relação entre ( ) e ( ).

Figura 4 - Válvula de controle (posição x fluxo)

A partir da equação (17) e Figura 4, observa-se uma relação não linear entre a posição e fluxo da válvula, o que é normal em processos industriais reais.

A Figura 5a identifica graficamente um modelo de regressão linear baseado em MQO, tendo como entrada ( ) e saída ( ), a Figura 5b mostra um exemplo de múltiplos modelos lineares e a Figura 5c mostra um modelo não linear polinomial de sexta ordem, enquanto que as Figura 5d-f mostram os respectivos resíduos dos modelos em função de

(21)

Figura 5 - Comparação de modelos lineares (a), múltiplos modelos lineares (b) e modelo polinomial. d) a f) mostram os resíduos dos modelos

Observa-se que o modelo linear da Figura 5a apresenta elevados valores absolutos dos resíduos (Figura 5d) quando comparado aos outros modelos, mesmo com o processo operando sem falhas. Ao utilizar-se deste modelo linear em uma abordagem de Análise Externa para detectar falhas, como descrito no item 2.2 e 2.3, estes elevados resíduos são considerados normais na etapa de treinamento, gerando baixa sensibilidade as falhas durante o monitoramento. Ou seja, os valores absolutos dos resíduos de treinamento devem apresentar média próxima a zero afim de melhorar a sensibilidade às falhas. Desta forma, espera-se que os métodos propostos neste trabalho, baseados em múltiplos

(22)

modelos lineares e modelos não lineares apresentem uma sensibilidade às falhas superior a metodologia de Análise Externa linear original.

Os métodos propostos, em conjunto com o método de Análise Externa linear proposto por Kano (2004), identificado por AEL, são aplicados a dois estudos de caso no capítulo 4, e são gerados os índices de falsos positivos (FP) e falsos negativos (FN) (Hossin, 2015) para a comparação entre as metodologias, sendo que FP é um índice que contabiliza os alarmes de falhas falsos e FN é um índice que contabiliza a quantidade de amostras que a metodologia considerou normal com o processo em falha, sendo que quanto menor seu valor, maior a sensibilidade às falhas.

Os níveis aceitáveis de FP estão associados ao nível de confiança usado para calcular o limiar estatístico da estatística T , que para este trabalho foi de 95%. Desta forma, valores próximos de 5% de FP ou alarmes falsos são aceitáveis.

A porcentagem de variância mantida pelas componentes principais em todos os métodos será de 90%.

Visando avaliar a generalização dos modelos gerados, é utilizado o método de validação cruzada k-fold (T. Hastie, 2001) em todos os métodos propostos com = 5. Ou seja, as matrizes de dados de treinamento dos modelos têm suas amostras dividas em cinco conjuntos, sendo que quatro são usados para treinamento e um para validação. O procedimento de treino se repete por cinco vezes, alterando os conjuntos de treino e validação. São escolhidos os modelos associados aos conjuntos que minimizam a norma dos resíduos dos modelos de Análise Externa.

3.1 Análise Externa com Múltiplos Modelos Lineares - AEML

O método proposto nesta seção faz uso de múltiplos modelos de Análise Externa linear e é identificado como AEML (Análise Externa com Múltiplos Modelos Lineares), onde cada modelo é utilizado em uma determinada região de operação. Os múltiplos modelos de Análise Externa são criados a partir do cálculo e classificação de submodelos de regressões lineares, a partir de uma janela móvel das amostras dos dados. A partir dos resíduos dos modelos de Análise Externa, o monitoramento de falhas é realizado utilizando PCA e estatística T .

O método proposto é dividido em duas partes: treinamento (Seção 3.1.1) e monitoramento de falhas (Seção 3.1.2).

(23)

3.1.1 Treinamento - AEML

Considere o conjunto de dados de treinamento = [ ] ∈ ℜ ( ) de um

determinado processo em funcionamento normal, composto por amostras contendo as matrizes de variáveis externas e variáveis principais . Dividiremos a matriz em segmentos com amostras em sequência. A partir destes segmentos, modelos de

regressão com matrizes de coeficientes são calculados usando as matrizes e ,

com = 1, … , ( ⁄ , obtidas para cada segmento com amostras, usando MQO: )

= (

)

(18)

É essencial que a escolha do segmento contenha variações das variáveis externas (sinal rico), que são os sinais de entrada do modelo. Ou seja, o segmento deve possuir informações do processo em mais de um ponto de operação, para que seja possível capturar as relações entre as variáveis externas e principais.

Posteriormente as matrizes são convertidas para vetores linhas, conforme equações abaixo: de:

=

(19)

para:

=

(20)

O próximo passo é agrupar os vetores linhas em uma matriz com ⁄ linhas (truncar se ⁄ não for inteiro):

=

(21)

onde cada linha de contém os coeficientes de regressão do modelo para um segmento de dados. O algoritmo de agrupamento k-means (D. Arthur, 2007) é então aplicado às

(24)

linhas da matriz para agrupar modelos com coeficientes similares. O número de clusters, e consequentemente o número de modelos, é selecionado analisando a norma dos resíduos dos modelos de Análise Externa. Se o aumento do número de modelos não reduz a norma dos resíduos, não é mais necessário o aumento de clusters.

Definido o número de clusters, os dados associados a todos os modelos que foram agrupados são utilizados para recalcular o modelo de regressão do grupo, assegurando-se assim uma melhor representatividade dos dados do grupo pelo modelo.

Os resíduos de cada modelo de Análise Externa são normalizados e posteriormente utilizados para treinar um modelo PCA, conforme detalhado na seção 2.4. São armazenados a média e desvio padrão dos resíduos para que possam ser utilizados na normalização de novas amostras durante a fase de monitoramento de falhas.

Durante o monitoramento de falhas, quando uma nova amostra é disponibilizada, é necessário avaliar qual modelo de Análise Externa e PCA deverá ser usado. Para isto é utilizado um classificador do tipo Random Forest (Breiman, 2001) tendo como entrada as variáveis externas rotuladas na etapa de treinamento. É calculado a matriz de confusão do classificador usando 80% das amostras disponíveis para treinamento e 20% para validação, de forma a garantir que o classificar esteja conseguindo identificar corretamente os modelos a serem utilizados.

3.1.2 Monitoramento de falhas - AEML

Durante o monitoramento de falhas, a partir de novas amostras de variáveis externas, o classificador Random Forest identifica o modelo a ser usado.

Com o modelo de Análise Externa e PCA definido, os resíduos são calculados utilizando a equação (5). Posteriormente os resíduos são normalizados pela média e desvio padrão calculados na etapa de treinamento. A partir da equação (9) a estatística é calculada e comparada com o limiar estatístico calculado conforme equação (10) para detecção das falhas.

Um resumo dos passos do método será apresentado a seguir. Treinamento:

1. Coleta de amostras de variáveis do processo em operação normal na matriz

2. Divisão de em conjuntos para realizar validação cruzada k-fold. − 1 conjuntos serão usados para geração dos modelos, que chamaremos de

(25)

, e 1 conjunto será usado para validação dos modelos, que chamaremos

de .

3. Divisão de em segmentos com amostras

4. Estimação dos parâmetros, via MQO, dos modelos dos segmentos, tendo as variáveis externas como entrada e principais como saída

5. Agrupamento dos modelos dos segmentos em clusters usando k-means 6. Estimação dos parâmetros, via MQO, de um modelo para cada cluster usando

os dados dos modelos agrupados

7. Cálculo dos resíduos usando dados de treinamento e modelos

8. Normalização dos resíduos

9. Geração de modelo PCA a partir dos resíduos normalizados 10. Cálculo do limiar estatístico

11. Treinamento de um classificador usando como entrada as variáveis externas rotuladas durante o agrupamento, contidas em

12. Verificação da matriz de confusão do classificador

13. Rotulação das amostras de validação utilizando o classificador

14. Cálculo dos resíduos usando dados de validação e modelos selecionados

pelo classificador

15. Cálculo da norma dos resíduos

16. Repetir os passos 3 a 15 por vezes, usando todas as combinações possíveis de conjuntos de treinamento e validação

17. Escolher os modelos gerados a partir dos conjuntos de treinamento e validação com menor norma dos resíduos para serem usados na etapa de monitoramento Monitoramento:

1. Obtenção de nova amostra

2. Divisão das colunas de em variáveis externas e principais

3. Seleção do modelo usando o classificador a partir da amostra das variáveis externas

4. Cálculo do resíduo usando o modelo selecionado 5. Normalização do resíduo correspondente ao modelo 6. Teste estatístico do resíduo normalizado

(26)

3.2 Análise Externa com Múltiplos Modelos Lineares Baseado em RANSAC - AEML-R

Assim como o método AEML, esse método propõe o uso de múltiplos modelos de Análise Externa linear, onde cada modelo será utilizado em uma determinada região de operação. Os múltiplos modelos são criados a partir da metodologia consenso de amostra aleatória (random sample consensus – RANSAC). Esse método é identificado como AEML-R (Análise Externa com Múltiplos Modelos Lineares via RANSAC). Assim como no método AEML, a partir dos resíduos dos modelos, a detecção de falha é realizada utilizando PCA e estatística .

O método proposto é dividido em duas partes: treinamento (Seção 3.2.1) e monitoramento de falhas (Seção 3.2.2).

3.2.1 Treinamento - AEML-R

A metodologia RANSAC foi proposta por Fischler (1981) para modelar sistemas retirando a influência de amostras atípicas, que podem comprometer a qualidade do modelo. Para utilizar esta metodologia, algumas escolhas devem ser feitas:

1. Estrutura do modelo a ser gerado

2. Função de distância, associada ao erro de modelagem 3. Máxima distância permitida

4. Quantidade mínima de amostras para geração de um modelo 5. Número máximo de iterações

6. Número máximo de modelos

A partir das entradas definidas, esta metodologia busca iterativamente um modelo com a estrutura escolhida que maximize o número de amostras que apresentem distância menor que a máxima definida. Essas amostras são chamadas inliers e as amostras que possuem distância maiores que a máxima definida são chamadas de outliers. As distâncias são calculadas a partir da função de distância escolhida. Somente serão validados modelos que possuem um número mínimo de inliers.

A metodologia proposta nesta seção utiliza a metodologia RANSAC de forma iterativa para gerar os múltiplos modelos lineares. Inicialmente o algoritmo RANSAC é

(27)

utilizado para todas as amostras disponíveis. Posteriormente o algoritmo é utilizado novamente para os outliers do modelo anterior e assim sucessivamente.

A Figura 6 mostra este método aplicado ao exemplo de válvulas de controle detalhado no início do capítulo 3.

Figura 6 – Exemplo de múltiplos modelos lineares usando RANSAC para uma válvula de controle (posição x fluxo)

Na primeira iteração do algoritmo RANSAC, é gerado um modelo linear que possui as amostras em verde como inliers, identificado na Figura 6. O segundo modelo gerado possui as amostras em azul como inliers e o terceiro modelo possui as amostras em amarelo como inliers. As amostras em vermelho são outliers do último modelo e não respeitam a máxima distância permitida para nenhum modelo. As máximas distâncias permitidas são representadas pelas linhas tracejadas.

Neste trabalho utiliza-se uma estrutura de modelo baseada em MQO e a função de distância será a norma euclidiana do erro de modelagem, os mesmos parâmetros usados no exemplo da Figura 6.

A máxima distância permitida deve ser escolhida de acordo com a variabilidade das variáveis, que varia para cada aplicação, sendo que valores pequenos dificultam a geração dos modelos e valores elevados podem aumentar a norma dos resíduos dos modelos gerados e consequentemente diminuir a sensibilidade de detecção de falhas.

É essencial que a escolha da quantidade mínima de amostras para geração de um modelo seja feita de forma a garantir que o conjunto de dados usados contenha variações das variáveis externas (sinal rico), que são os sinais de entrada do modelo. Ou seja, o segmento deve possuir informações do processo em mais de um ponto de operação, para

(28)

que seja possível capturar as relações entre as variáveis externas e principais. Valores muito elevados dificultarão a geração de modelos.

O número máximo de iterações deve ser suficiente para que o algoritmo consiga encontrar os modelos de forma iterativa a partir dos parâmetros definidos.

O número máximo de modelos deve ser definido avaliando-se a quantidade de amostras que foram consideradas outliers do último modelo gerado, tendo em vista que estão associados as amostras que possui distância maior que a máxima permitida para todos os modelos.

Estas escolhas podem ser trabalhosas e em alguns casos a geração de gráficos como o da Figura 6, que ilustram a geração dos modelos, ajudam nas escolhas.

Os resíduos de cada modelo linear de Análise Externa são normalizados e posteriormente são utilizados para treinar um modelo PCA, conforme detalhado na seção 2.4. São armazenados a média e desvio padrão dos resíduos para serem utilizados na normalização de novas amostras durante a fase de monitoramento de falhas.

Assim como no método AEML, durante o monitoramento de falhas, quando uma nova amostra é disponibilizada, é necessário avaliar qual modelo de Análise Externa e PCA deverá ser usado. Para isto será utilizado um classificador do tipo Random Forest (Breiman, 2001) tendo como entrada as variáveis externas rotuladas na etapa de treinamento. Será calculado a matriz de confusão do classificador usando 80% das amostras disponíveis para treinamento e 20% para validação, de forma a garantir que o classificador esteja conseguindo identificar corretamente os modelos a serem utilizados. 3.2.2 Monitoramento de falhas – AEML-R

Durante o monitoramento de falhas, a partir de novas amostras de variáveis externas, o classificador Random Forest identifica o modelo a ser usado.

Com o modelo de análise externa e PCA definido, os resíduos são calculados utilizando a equação (5). Posteriormente os resíduos são normalizados pela média e desvio padrão calculados na etapa de treinamento. A partir da equação (9) a estatística pode ser calculada e comparada com o limiar estatístico calculado conforme equação (10) para detecção das falhas.

Um resumo dos passos do método será apresentado a seguir. Treinamento:

(29)

1. Coleta de amostras de variáveis do processo em operação normal na matriz

2. Divisão de em conjuntos para realizar validação cruzada k-fold. − 1 conjuntos serão usados para geração dos modelos, que chamaremos de , e 1 conjunto será usado para validação dos modelos, que chamaremos

de .

3. Aplicação de RANSAC a , gerando um modelo de regressão linear via

MQO

4. Aplicação de RANSAC aos outliers do modelo gerado anteriormente até que não seja mais possível a geração de um novo modelo

5. Cálculo dos resíduos usando dados de treinamento e modelos

6. Normalização dos resíduos

7. Cálculo do modelo PCA a partir dos resíduos normalizados 8. Cálculo do limiar estatístico

9. Treinamento de um classificador usando como entrada as variáveis externas rotuladas durante o agrupamento, contidas em

10. Verificação da matriz de confusão do classificador

11. Rotulação das amostras de validação utilizando o classificador

12. Cálculo dos resíduos usando dados de validação e modelos selecionados

pelo classificador

13. Cálculo da norma dos resíduos

14. Repetir os passos 3 a 13 por vezes, usando todas as combinações possíveis de conjuntos de treinamento e validação

15. Escolher os modelos gerados a partir dos conjuntos de treinamento e validação com menor norma dos resíduos para serem usados na etapa de monitoramento Monitoramento:

1. Obtenção de nova amostra

2. Divisão das colunas de em variáveis externas e principais

3. Seleção do modelo usando o classificador a partir da amostra das variáveis externas

4. Cálculo do resíduo usando o modelo selecionado 5. Normalização do resíduo correspondente ao modelo 6. Teste estatístico do resíduo normalizado

(30)

3.3 Análise Externa não linear

Nesta seção são propostos três métodos de Análise Externa não linear utilizando somente um modelo baseado em regressão polinomial, identificado como AEPOL, rede neural de regressão geral (General Regression Neural Network - GRNN), identificadocomo AEGRNN e Random Forest, identificadocomo AERF. A partir dos resíduos do modelo de Análise Externa, a detecção de falha é realizada utilizando PCA e estatística T .

Os métodos propostos são divididos em duas partes: treinamento (Seção 3.3.1) e monitoramento de falhas, (Seção 3.3.2).

3.3.1 Treinamento – Análise Externa não linear

O método AEPOL gera o modelo de Análise Externa usando o método de MQO, conforme equação (3), porém, é realizada uma modificação na matriz , incluindo novas colunas como sendo potências das variáveis, conforme a ordem definida para o polinômio. Com esta modificação da matriz de variáveis externas, obtém-se um modelo de regressão polinomial. A decisão sobre aumentar a ordem da regressão polinomial é feita analisando a norma euclidiana dos resíduos. Se o aumento da ordem do polinômio não reduz a norma dos resíduos, não é mais necessário o aumento de ordem.

O método AEGRNN gera o modelo de Análise Externa usando GRNN, proposto por Specht (1991), a partir da matriz de variáveis externas como entradas e variáveis principais como saídas. Este modelo possui somente um parâmetro que está ligado ao erro de modelagem permitido. Valores muito baixos desse parâmetro podem gerar overfit, que é a tentativa de modelagem dos ruídos inerentes a aplicação e valores elevados podem aumentar a norma dos resíduos. Neste trabalho o parâmetro é escolhido de forma a minimizar a norma dos resíduos, mantendo os falsos positivos dos dados de validação condizentes com o nível de confiança escolhido para calcular o limiar estatístico, de forma a evitar overfit.

O método AETB gera o modelo de Análise Externa usando Random Forest, proposto por Breiman (2001), a partir da matriz de variáveis externas como entradas e variáveis principais como saídas. São ajustados como parâmetros deste modelo a quantidade de árvores e a profundidade dos ramos de cada árvore. O aumento da profundidade dos ramos de cada árvore pode gerar overfit, assim como o número reduzido de quantidade de árvores. Neste trabalho estes parâmetros são ajustados de forma a minimizar a norma

(31)

dos resíduos, mantendo os falsos positivos dos dados de validação condizentes com o nível de confiança escolhido para calcular o limiar estatístico, de forma a evitar o overfit. Os resíduos de cada modelo não linear de Análise Externa são normalizados e posteriormente são utilizados para treinar um modelo PCA, conforme detalhado na seção 2.4. São armazenados as médias e desvios padrões dos resíduos para que possam ser utilizados na normalização de novas amostras durante a fase de monitoramento de falhas. 3.3.2 Monitoramento de falhas – Análise Externa não linear

Quando novas amostras são disponibilizadas, durante o monitoramento de falhas, os resíduos da Análise Externa são calculados utilizando a equação (5). Posteriormente os resíduos são normalizados pela média e desvio padrão calculados na etapa de treinamento. A partir da equação (9) a estatística T é calculada e comparada com o limiar estatístico calculado conforme equação (10).

(32)

4 Estudos de caso

Neste capítulo, as metodologias propostas no capítulo 3 em conjunto com a metodologia de Análise Externa proposta por Kano (2004) são aplicadas a um simulador de reator contínuo do tipo tanque agitado (Continuous Stirred Tank Reactor - CSTR) (OYELEYE, 1989), (FINCH, 1989) e em um monitoramento real de vibrações de um ventilador de processo de grande porte, usado em um forno de pelotização de minério de ferro da mineradora Vale S.A.

4.1 Reator contínuo do tipo tanque agitado (Continuous Stirred Tank Reactor - CSTR)

O fluxograma do processo CSTR usado neste estudo de caso é mostrado na Figura 7.

Figura 7 - Fluxograma do processo CSTR

O reagente A com concentração cA0 a temperatura T1 alimenta o reator com vazão

FLOW1, onde duas reações em paralelo ocorrem A→B e A→C. A primeira reação é

dominante e é exotérmica e a secunda endotérmica, sendo que o balanço energético geral

é exotérmico, gerando o aumento da temperatura do reator (MEAS7). Os produtos B e C

e o restante do reagente A saem do tanque e são bombeados com vazão FLOW4 (quando

FLOW3 é igual a zero) e concentração cA e cB (concentração de cC é ignorada). O controle

(33)

de produto final V1.O controle de temperatura do reator é feito através da definição do

SP2, que controla uma malha em cascata que modula a válvula de controle de água de

refrigeração da jaqueta do reator V2. A temperatura, pressão e vazão de entrada água de refrigeração são as variáveis MEAS10, MEAS11 e FLOW5, respectivamente. 14 variáveis

de processos e 2 Set points compõe este sistema, conforme descrito na Tabela 1. Tabela 1 - Variáveis de processo CSTR

Variável Descrição Observação

MEAS1 Concentração alimentação -

FLOW1 Vazão alimentação -

MEAS3 Temperatura alimentação -

MEAS4 Nível reator Variável principal

MEAS5 Concentração produto A Variável principal

MEAS6 Concentração produto B Variável principal

MEAS7 Temperatura Reator Variável principal

FLOW5 Vazão água refrigeração Variável principal

FLOW4 Vazão produto Variável principal

MEAS10 Temp. entrada água refrigeração -

MEAS11 Pressão entrada água refrigeração Variável externa

MEAS12 Saída controlador nível Variável principal

MEAS13 Saída controlador vazão Variável principal

MEAS14 Set point controlador de vazão Variável principal

SP1 Set point nível reator -

SP2 Set point temperatura reator -

Neste estudo de caso, utiliza-se a pressão de água de refrigeração (MEAS11) como

variável externa, sendo que mudanças nesta variável modificam o ponto de operação do processo. Esta variável é escolhida por ter relações não lineares com outras variáveis, de forma a representar de maneira mais adequada processos industriais reais. As variáveis principais são identificadas na Tabela 1, sendo que variáveis de entrada do processo que são independentes da variável externa não são utilizadas.

O conjunto de dados de treinamento e avaliação de falsos positivos são gerados a partir de uma simulação sem a presença de falhas, com 22 variações em MEAS11,

totalizando 7508 amostras com tempo de amostragem de 1 minuto. A Figura 8 mostra os dados de treinamento da variável externa MEAS11.

(34)

Figura 8 – Variações da variável externa MEAS11 para treinamento

A seguir são apresentados os parâmetros utilizados em cada uma das metodologias a serem comparadas:

 AEML

o Número de modelos: 4

o Janela de dados q: 300 amostras  AEML-R

o Estrutura do modelo: MQO

o Função de distância: norma euclidiana dos resíduos o Distância máxima permitida: 3,8

o Quantidade mínima de amostras para geração de um modelo: 3% das amostras do conjunto de dados de treinamento

o Número máximo de iterações 1.000 o Número máximo de modelos: 4  AEPOL

o Ordem do polinômio: 5  AEGRNN

o Parâmetro de espalhamento: 200  AERF

o Quantidade máxima de árvores de decisão: 10 o Profundidade das árvores: 25

(35)

Como descrito no capítulo 3, é utilizada o método de validação cruzada k-fold com igual a 5 na etapa de treinamento, de forma a escolher os modelos que minimizam a norma dos resíduos dos dados de validação. Ou seja, 7508 amostras de treinamento são aleatoriamente dividias em conjuntos, sendo que − 1 conjuntos são utilizados para geração dos modelos e 1 conjunto é usado para validação. Repete-se este procedimento até obter todas as combinações possíveis, alternando os conjuntos de validação e treinamento. A Figura 9 mostra a norma total dos resíduos dos modelos de Análise Externa de todos os métodos, gerados a partir da validação cruzada.

Figura 9 – Validação cruzada: Norma dos resíduos de Análise Externa aplicados aos conjuntos de dados de validação

A norma total dos resíduos da etapa de treinamento, mostrada na Figura 9, está diretamente associada à sensibilidade as falhas dos métodos. Isto ocorre devido as falhas serem detectadas a partir do aumento dos resíduos dos modelos de Análise Externa. Se, durante o treinamento, resíduos elevados são considerados normais, somente desvios ainda maiores serão detectados como falha. A norma elevada dos resíduos da etapa de treinamento gera média e/ou desvio padrão elevados, que por sua vez são utilizados para

(36)

normalização de novas amostras na etapa de monitoramento, que acabam minimizando o efeito de falhas nos resíduos normalizados.

Conforme a Figura 9, verifica-se que a metodologia tradicional de Análise Externa (AEL) gera resíduos relativamente elevados quando comparados com as outras metodologias propostas neste trabalho.

Verifica-se que as metodologias que utilizam múltiplos modelos lineares (AEML e AEML-R) são mais sensíveis a escolha dos dados de treinamento, pois há maiores variações das normas dos resíduos quando se utilizam diferentes conjuntos de dados de treino e validação. Desta forma, é essencial o uso de validação cruzada para se obter bons modelos para estes métodos.

Para este estudo de caso são escolhidos os modelos associados aos conjuntos de dados de validação cruzada que obtiverem as menores normas dos resíduos para cada uma das metodologias, sendo representados por um contorno vermelho nas barras da Figura 9.

Para validar se o classificador Random Forest está selecionando corretamente os modelos dos métodos AEML e AEML-R, calcula-se a matriz de confusão, mostradas nas Figuras 10 e 11.

(37)

Na figura 10, as células diagonais mostram o número e a porcentagem de amostras que foram classificadas corretamente, ou seja, para estas amostras o modelo correto foi selecionado pelo classificador. Por exemplo, a primeira célula da diagonal mostra que 510 amostras associadas ao modelo 1 são corretamente classificadas. As 510 amostras correspondem a 42,5% de todas as amostras disponíveis para validação do classificador. A célula da segunda linha e primeira coluna mostra que 24 amostras pertencentes ao modelo 1 foram incorretamente classificadas como pertencentes ao modelo 2 e isso corresponde a 2% de todas as amostras disponíveis para classificação.

A somatória das amostras da primeira linha identifica todas as amostras classificadas como pertencentes ao modelo 1, 95,7% foram classificadas corretamente e 4,3% não. A somatória das amostras da primeira coluna identifica todas as amostras pertencentes ao modelo 1, 93,2% destas amostras foram classificadas corretamente e 6,8% não.

No geral, 91,7% das previsões estão corretas e 8,3% estão erradas (célula com fundo azul), indicando que o classificador do método AEML está funcionando de forma satisfatória.

Figura 11 – CSTR: Matriz de confusão classificador Random Forest AEML-R Observa-se na Figura 11, que 93,3% das previsões estão corretas e 6,7% estão erradas, indicando que o classificador do método AEML-R está funcionando de forma satisfatória.

(38)

A Figura 12 mostra a estatística de Hotelling e os FP (Falsos Positivos) de todas as metodologias aplicados aos dados de validação.

Figura 12 – Estatística e avaliação de falsos positivos aplicados aos dados de validação. O gráfico a) mostra os resultados da metodologia AEL, b) AEML, c)

AEML-R, d) AEPOL, e) AEGRNN e f) AERF

Como pode ser observado na Figura 12, para todas as metodologias os FP calculados são próximos ao valor esperado de 5%, tendo em vista que o limite de controle estatístico, em vermelho, foi calculado com o nível de confiança de 95%. As grandes diferenças entre as metodologias irão se manifestar no índice de falsos negativos, associado a sensibilidade a detecção de falhas.

(39)

O simulador do processo CSTR utilizado foi programado para simular 22 falhas de processo distintas, conforme descrito na Tabela 2.

Tabela 2 – Falhas do processo CSTR

Falha Descrição

1 Sem falha

2 Bloqueio da saída do tanque

3 Bloqueio da jaqueta de refrigeração

4 Vazamento da jaqueta para o ambiente

5 Vazamento da jaqueta para o tanque

6 Vazamento na bomba

7 Perda de pressão da bomba

8 Baixa troca de calor na superfície da jaqueta

9 Fonte de aquecimento externo

10 Energia de ativação da reação primária

11 Energia de ativação da reação secundária

12 Vazão de alimentação anormal

13 Temperatura de alimentação anormal

14 Concentração de alimentação anormal

15 Temperatura de água de refrigeração anormal

16 Pressão de água de refrigeração anormal

17 Pressão de saída da jaqueta anormal

18 Pressão anormal de saída do reator

19 Set point anormal de nível

20 Set point anormal de temperatura

21 Válvula 1 presa

22 Válvula 2 presa

23 Falha de sensores (variáveis de processo)

Para avaliação dos FN (Falsos Negativos) utiliza-se a falha 3, que simula um aumento de restrição ao fluxo de água de refrigeração da jaqueta, reduzindo a troca de calor com o reator. Essa falha é escolhida, pois está diretamente relacionada à pressão de água de refrigeração (MEAS11), que é a variável externa neste estudo de caso.

Para comparar a capacidade de detecção de falhas das metodologias ao longo de toda a faixa de operação, a mesma falha é aplicada em 15 simulações com pontos de operação distintos, totalizando 30015 amostras, com tempo de amostragem de 1 minuto. Todas as falhas são iniciadas na amostra 200 de cada simulação. Para permitir a visualização de todos os resultados, os dados das 15 simulações são concatenados.

(40)

A Figura 13 mostra a estatística e a avaliação de FN aplicados aos dados concatenados das simulações com falhas, assim como o gráfico da variável externa

MEAS11, usada para modificar os pontos de operação do processo.

Figura 13 - Estatística e avaliação de falsos negativos aplicados aos dados de falha em diferentes pontos de operação. O gráfico a) mostra os resultados da metodologia

AEL, b) AEML, c) AEML-R, d) AEPOL, e) AEGRNN, f) AERF e g) mostra as

(41)

Analisando a Figura 13a, verifica-se que a metodologia AEL somente consegue detectar falhas nos primeiros 7 pontos de operação, pois a partir do ponto de operação 8 a estatística não mais ultrapassa, de maneira estável, o limite de controle estatístico. Isso é um reflexo dos elevados resíduos do modelo de Análise Externa na etapa de treinamento. Para esta aplicação, que possui não linearidades, esta metodologia se mostrou insensível às falhas, não sendo aconselhado o seu uso.

Todas as outras metodologias se mostraram capazes de detectar as falhas em todos os pontos de operação. Conforme as Figuras 13b-f, o índice de falsos negativos mostrou que a metodologia AEML possui melhor resultado (16,08%), seguida das metodologias AEML-R (27,18%), AERF (40,02%), AEGRNN (40,53%) e AEPOL (43,71%). Valores baixos de falsos negativos indicam um menor tempo para detecção de falhas, o que pode gerar uma ação corretiva mais ágil, diminuindo os danos ao processo.

A Figura 14 mostra dos valores estratificados de FN por ponto de operação.

Figura 14 – FN estratificados por ponto de operação

Avaliando a Figura 14, verifica-se que em cada ponto de operação uma metodologia se sobressaiu, porém, a metodologia AEML foi a única que apresentou FN menor que 20% a partir do ponto de operação 8.

(42)

4.2 Monitoramento de vibrações de um ventilador de forno de pelotização

O processo de pelotização de minério de ferro é um processo de aglomeração de finos de minério para geração de pelotas e exige um tratamento térmico, visando o aumento da resistência mecânica do produto para atender o processo posterior de geração de aço em siderúrgicas. O forno de pelotização é do tipo grelha móvel que recebe uma camada de pelotas e se movimenta ao longo do forno, passando por grupos de vários queimadores de combustíveis. A queima das pelotas é realizada através de fluxos de gases quentes que passam entre as pelotas, que são gerados por grandes ventiladores de processo, que também são utilizados para obter um reaproveitamento de gases quentes dentro do forno, de forma a diminuir o custo energético, assim como fornecer o oxigênio necessário para a queima do combustível.

Os ventiladores de processo são grandes máquinas, que possuem acionamento por inversores de frequência e motores elétricos de alta tensão, na faixa de 2-8MW de potência, e possuem muitos componentes mecânicos de alto valor. O funcionamento do forno e consequentemente da planta como um todo depende do funcionamento dos ventiladores de processo. Desta forma, são equipamentos críticos dentro do processo de pelotização, sendo que uma falha em um componente mecânico, além do custo do próprio componente, geram perdas econômicas elevadas quando consideramos o tempo para troca do componente, devido à parada de produção.

Os ventiladores mais comuns e que são objetos de estudo nesta seção, são do tipo radial, conforme mostrado na Figura 15. Possuem 4 mancais, um para o lado não acoplado (LNA) do ventilador, um para o lado acoplado (LA) do ventilador, uma para o mancal LA do motor e outro para o mancal LNA do motor. Estes mancais são lubrificados a óleo, que possui função de lubrificação e refrigeração dos mancais.

(43)

Figura 15 – Funcionamento de um ventilador de processo radial

Devido à criticidade destes equipamentos, eles possuem vários instrumentos de proteção, sendo os medidores de vibração dos mancais os mais importantes, visto que as falhas mais críticas afetam estas variáveis. Estes medidores medem a velocidade de vibração através do valor eficaz (root mean square - RMS), com faixa de medição de 0 a 25 mm/s. Este medidor é configurado com filtro na faixa de frequência de 10 a 1000Hz, para ser possível avaliar a severidade de vibração conforme NBR 10082.

Os sinais gerados pelos medidores de temperatura de mancais foram inicialmente utilizados, porém, distúrbios não medidos que afetavam estas variáveis geraram o aumento de alarmes falsos. Desta forma, somente os medidores de vibração são utilizados.

Neste estudo de caso são aplicadas as metodologias propostas na seção 3, em conjunto com o método AEL, no monitoramento de vibrações de mancais do ventilador 5Q7VT de uma usina de pelotização localizada em Vitória-ES, da mineradora Vale S. A..

A Figura 16 mostra a tela de detalhes deste ventilador, no sistema de supervisão da planta, identificando todas as variáveis de proteção deste equipamento, incluindo as variáveis que serão monitoradas neste estudo de caso.

(44)

Figura 16 - Detalhes do sistema supervisório do ventilador 5Q7VT

Este ventilador possui inversor de frequência para modificar a rotação, que é o elemento final de controle de uma malha de controle de temperatura dentro do forno. Os pontos de operação das variáveis de proteção dos ventiladores são definidos pela rotação, indicada com um círculo verde na Figura 16, e por isso ela é definida como variável

(45)

externa. As vibrações do mancal acoplado e não acoplado do ventilador, identificadas em vermelho na Figura 16, são as variáveis principais a serem monitoradas.

A seleção de dados é realizada a partir do histórico de falhas de manutenção da empresa Vale S.A.. Em 17/05/2014 houve uma falha crítica no ventilador 5Q7VT, devido a avaria na ponta do eixo do rotor e no casquilho, que é um componente que é montado entre o mancal e o rotor do equipamento. O tempo para reparo gerou 210,23 horas de parada de produção de uma usina. São selecionados 2 dias de dados anteriores a falha, com tempo de amostragem de 10 segundos para treinamento das metodologias e avaliação dos índices FP e FN.

O objetivo do monitoramento é detectar falhas, através da análise do comportamento dos sinais de vibração, de forma a identificar anomalias em componentes mecânicos antes que a falha se agrave, diminuindo ou até mesmo evitando perdas financeiras para a empresa.

A Figura 17 mostra os dados da variável externa (rotação) e variáveis principais (vibrações) utilizados para treinamento e avaliação de FP.

Figura 17 – Dados de rotação e vibração usados na etapa de treinamento e avaliação de FP

(46)

A Figura 18 mostra os gráficos de dispersão entre a rotação e vibrações em conjunto com uma reta gerada a partir da regressão linear via MQO. Observa-se que as relações entre as variáveis possuem não linearidades expressivas para a vibração LNA.

Figura 18 – Gráficos de dispersão rotação x vibrações

A seguir são apresentados os parâmetros utilizados em cada uma das metodologias a serem comparadas:

 AEML

o Número de modelos: 2

o Janela de dados q: 200 amostras  AEML-R

o Estrutura do modelo: MQO

o Função de distância: norma euclidiana dos resíduos o Distância máxima permitida: 0,3

o Quantidade mínima de amostras para geração de um modelo: 3% das amostras do conjunto de dados de treinamento

o Número máximo de iterações 1.000 o Número máximo de modelos: 2

(47)

 AEPOL

o Ordem do polinômio: 3  AEGRNN

o Parâmetro de espalhamento: 0,2  AERF

o Quantidade máxima de árvores de decisão: 10 o Profundidade das árvores: 50

Como descrito no capítulo 3, é utilizado o método de validação cruzada k-fold com = 5. A Figura 19 mostra a norma total dos resíduos de Análise Externa de todas as seis metodologias para cada k-fold aplicados aos conjuntos de validação.

Figura 19 – Validação cruzada: Norma dos resíduos de Análise Externa aplicados aos conjuntos de dados de validação

Observa-se que as metodologias AERF e AGRNN possuem resultados semelhantes, com norma dos resíduos baixa em relação as outras metodologias. Assim como no estudo de caso apresentado na seção 4.1, a metodologia AEL obteve a maior norma dos resíduos, e para esta aplicação o método AEML apresentou resíduos elevados quando comparado com as outras metodologias.

(48)

Para este estudo de caso são escolhidos os modelos, associados aos conjuntos de dados da validação cruzada, que obtiverem as menores normas dos resíduos para cada uma das metodologias, sendo representados por um contorno vermelho nas barras da Figura 19.

Para validar se o classificador Random Forest está selecionando corretamente os modelos dos métodos AEML e AEML-R, vamos calcular a matriz de confusão, mostradas nas Figuras 20 e 21.

Figura 20 – Ventilador: Matriz de confusão classificador Random Forest AEML Uma explicação detalhada da matriz de confusão foi feita no estudo de caso anterior. Observa-se na Figura 20 que o classificador conseguiu classificar 74,3% das amostras corretamente. Este resultado explica o motivo da norma dos resíduos do método AEML, mostrados na Figura 19, ser maior em relação aos métodos propostos neste trabalho, pois

(49)

em 25,7% das amostras o método está errando na seleção do modelo a ser usado no monitoramento de falhas.

Figura 21 – Ventilador: Matriz de confusão classificador Random Forest AEML-R Observa-se na Figura 21 que 97,2% das previsões estão corretas e 2,8% estão erradas. A Figura 22 mostra a estatística de Hotelling e os falsos positivos (FP) de todas as metodologias aplicados aos dados de validação.

(50)

Figura 22 – Estatística e avaliação de falsos positivos aplicados aos dados de validação. O gráfico a) mostra os resultados da metodologia AEL, b) AEML, c)

AEML-R, d) AEPOL, e) AEGRNN e f) AERF

Como pode ser observado na Figura 22, para todas as metodologias os falsos positivos (alarmes falsos) possuem valores próximos ao valor esperado de 5%, tendo em vista que o limite de controle estatístico, em vermelho, foi calculado com o nível de confiança de 95%. Porém, a estatística ao final do conjunto de amostras de validação ultrapassou o limiar estatístico para as metodologias AEL, AEML e AEPOL (em menor escala), indicando que estas metodologias não conseguiram capturar bem as relações entre as variáveis de rotação e vibração para as últimas amostras dos dados de validação.

(51)

Observa-se variações nos limiares estatísticos para as metodologias que utilizam múltiplos modelos (AEML e AEML-R). Isso ocorre, pois, cada modelo linear de Análise Externa está associado a um modelo PCA que possui um limiar específico, tendo em vista que a quantidade de amostras usadas no treinamento de cada modelo é diferente.

Para calcular os falsos negativos utilizaremos os dados mostrados na Figura 23. Por se tratar de um estudo de caso real, somente temos uma falha em um ponto de operação.

Figura 23 - Dados de rotação e vibração usados na avaliação de falsos negativos Analisando a Figura 23, verifica-se que no momento de 36,71h (em verde) a vibração começa a variar sem que a rotação do ventilador se altere. Desta forma, é considerado que a falha se iniciou neste ponto.

A Figura 24 mostra a estatística e avaliação de falsos negativos aplicados aos dados da Figura 23, assim como o gráfico da rotação do ventilador.

(52)

Figura 24 - Estatística e avaliação de falsos negativos aplicados aos dados de falha. O gráfico a) mostra os resultados da metodologia AEL, b) AEML, c) AEML-R, d)

AEPOL, e) AEGRNN, f) AERF e g) mostra as variações da rotação do ventilador Observa-se que a metodologia AEL somente consegue detectar a falha após o instante de 45h, restando duas horas para que o ventilador parasse devido à quebra do casquilho e ponta do rotor. As outras metodologias conseguem detectar falhas com maior tempo de antecedência (estatística acima do limiar), o que representa na prática maior tempo para tomada de ações corretivas que podem diminuir os danos causados aos componentes

(53)

e, consequentemente, diminuir o tempo de perda de produção devido a manutenção corretiva.

As metodologias AEGRNN (23,86%) e AERF (24,58%) obtiveram os melhores resultados, seguidos da AEPOL (30,94%), AEML (35,42%), AEML-R (44,31%) e AEL (84,7%).

Referências

Documentos relacionados

Verificação da segurança sísmica através de análises estáticas não lineares (pushover) e análise modal da estrutura.. TreMuri (Galasco et al., 2009) –

O estudo sumariamente apresentado trata a renovação de uma via-férrea antiga, em Portugal. Para além dos requisitos relativos à superstrutura ferroviária, foram

APAC SISAIH01 CIHA1 Módulo Captação do Atendimento SIH SIA CIHA Módulo de Processamento e Avaliação da Informação Módulo Planejamento e Programação da Ações e Serviços de

LUrhs real* Array de limites inferiores (e se Urhsx nulo, superio- res) nas restrições. LUv real* Array de limites inferiores (e se Uvx nulo, superiores)

Muitos dos problemas disponíveis para o AMPL e GAMS são oriundos da colecção de problemas do CUTE. O CUTEr é software de domínio público

Durante seu ciclo produtivo, uma planta exposta ao ambiente natural irá com ele interagir e responder às condições ora impostas, de forma que, a cada nova

O estudo do comportamento à rotura das vigas OA1, A1 e A3 foi efectuada com a malha de OA1 não refinada e refinada, dando primazia à malha refinada de modo a ter mais elementos

Uma metodologia semelhante será utilizada para esta formulação, no entanto o material será assumido elástico, mas não-linear assimétrico, desta forma o eixo neutro