Sistemas automáticos de controle de qualidade baseados em reconhecimento de padrões e processamento de sinais esparsos : Automatic quality control systems based on pattern recognition and sparse signal processing

(1)

Diogo Alfieri Palma

Sistemas automáticos de controle de qualidade

baseados em reconhecimento de padrões e

processamento de sinais esparsos

Automatic quality control systems based on pattern

recognition and sparse signal processing

Limeira

2019

(2)

Automatic quality control systems based on pattern

recognition and sparse signal processing

Dissertação apresentada à Faculdade de Ciências Aplicadas da Universidade Estadual de Campinas como parte dos requisitos para a obtenção do título de Mestre em Engenharia de Produção e de Manufatura, na área de Pesquisa Operacional e Gestão de Processos.

Dissertation presented to the School of Applied Sciences of the University of Campinas in partial fulfillment of the requirements for the degree of Master of Science in Production and Manufacturing Engineering, in the area of Operations Research and Process Management.

Orientador: Prof. Dr. Leonardo Tomazeli Duarte

Este exemplar corresponde à versão final da dissertação defendida por Diogo Alfieri Palma e orientada pelo Prof. Dr. Leonardo Tomazeli Duarte.

Limeira

2019

(3)

Biblioteca da Faculdade de Ciências Aplicadas Renata Eleuterio da Silva - CRB 8/9281

Palma, Diogo Alfieri,

P18s PalSistemas automáticos de controle de qualidade baseados em

reconhecimento de padrões e processamento de sinais esparsos / Diogo Alfieri Palma. – Limeira, SP : [s.n.], 2019.

PalOrientador: Leonardo Tomazeli Duarte.

PalDissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Ciências Aplicadas.

Pal1. Controle de qualidade. 2. Carta de controle de qualidade. 3. Análise de regressão. 4. Redes neurais (Computação). I. Duarte, Leonardo Tomazeli, 1982-. II. Universidade Estadual de Campinas. Faculdade de Ciências Aplicadas. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Automatic quality control systems based on pattern recognition

and sparse signal processing

Palavras-chave em inglês:

Quality control Quality control charts Regression analysis

Neural networks (Computer science)

Área de concentração: Pesquisa Operacional e Gestão de Processos Titulação: Mestre em Engenharia de Produção e de Manufatura Banca examinadora:

Leonardo Tomazeli Duarte [Orientador] Cristiano Torezzan

Daniel Rodrigues Pipa

Data de defesa: 01-08-2019

Programa de Pós-Graduação: Engenharia de Produção e de Manufatura

Identificação e informações acadêmicas do(a) aluno(a) - ORCID do autor: https://orcid.org/0000-0001-9904-0413 - Currículo Lattes do autor: http://lattes.cnpq.br/1919264207492822

(4)

considerou o candidato Diogo Alfieri Palma aprovado.

Prof. Dr. Leonardo Tomazeli Duarte

Presidente da Comissão Julgadora

Prof. Dr. Cristiano Torezzan

FCA/UNICAMP

Prof. Dr. Daniel Rodrigues Pipa

UTFPR

A Ata da Defesa com as respectivas assinaturas dos membros da banca encontra-se no processo de vida acadêmica do aluno.

(5)

Ao meu orientador, Prof. Leonardo Tomazeli Duarte, pela amizade e ensinamentos durante a realização deste trabalho, das disciplinas e do estágio de docência.

Aos meus pais, Roberto e Wânia, pelo apoio fundamental ao meu crescimento pessoal e profissional.

Aos amigos e colegas, em especial Alex Mussio, Cristiano Torezzan, Geovane Pereira, Helen Senefonte, Leonardo Sturion e Pamela Manfrin, pelo incentivo na realização do mestrado.

Aos professores e funcionários do Centro de Pesquisa Operacional e da Faculdade de Ciências Aplicadas da Universidade Estadual de Campinas, sempre muito solícitos.

(6)

trabalhos foram realizados com o objetivo de identificar padrões em cartas de controle. Contudo, um número reduzido desses estudos consideraram cenários nos quais mais de uma fonte afeta um processo ao mesmo tempo. Nesse caso, uma mistura de dois ou mais padrões — também denominada carta de controle concorrente — é gerada. O presente trabalho empregou técnicas de aprendizado de máquina para a classificação de cartas de controle concorrentes, geradas sinteticamente a partir de padrões anômalos descritos na literatura. Após a geração das misturas sintéticas, duas estratégias de classificação foram adotadas com base em Redes Neurais Artificiais (RNAs). Na primeira, os dados brutos das cartas de controle alimentaram uma RNA. A segunda estratégia, por sua vez, partiu do pré-processamento dos dados, através da aplicação do método de regressão esparsa denominado Least Absolute Shrinkage and Selection Operator (LASSO). Após o pré-processamento, os coeficientes obtidos pela regressão esparsa foram utilizados como entradas em uma RNA. Os resultados obtidos corroboram o emprego do método LASSO como seletor de características nesse contexto. A estratégia de alimentação da RNA com coeficientes extraídos via LASSO obteve resultados similares à alimentação com dados brutos utilizando, porém, consideravelmente menos entradas.

(7)

Control charts represent an important tool for identifying causes that affect process stability. Action plans that aim to mitigate, correct and/or prevent the occurrence of these causes are fundamental for reducing costs and increasing profitability in organizations. In recent years, several studies have been carried out to identify patterns in control charts. However, a small number of these studies have considered scenarios in which more than one source affects one process at a time. In this case, a mixture of two or more patterns — also called concurrent control chart — is generated. The present work employed machine learning techniques to classify concurrent control charts, generated synthetically from abnormal patterns described in the literature. After the generation of synthetic mixtures, two classification strategies were adopted based on Artificial Neural Networks (ANNs). In the first, the raw data from the control charts fed an ANN. The second strategy, on the other hand, started from data preprocessing, through the application of the sparse regression method called Least Absolute Shrinkage and Selection Operator (LASSO). Then, the coefficients obtained by sparse regression were used as ANN inputs. The results obtained corroborate the use of the LASSO method as a feature selector in this context. The feeding strategy of ANN with coefficients extracted via LASSO obtained similar results to raw data feeding and used considerably less inputs.

(8)

1.5 Exemplo de carta de controle de padrão tendência decrescente. . . 20

1.6 Exemplo de carta de controle de padrão deslocamento para cima. . . 21

1.7 Exemplo de carta de controle de padrão deslocamento para baixo. . . 21

1.8 Exemplo de mistura de dois padrões anômalos em carta de controle. . . 22

2.1 Compromisso entre a esparsidade (norma `1) e o erro de representação para diferentes valores em λ. . . . 30

2.2 Exemplo da geometria do método LASSO em uma regressão com dois coeficientes. . . 31

2.3 Exemplo de aproximação via LASSO em uma carta de controle concorrente. 32 3.1 Processo de mistura baseado em dois padrões anômalos. . . 36

3.2 Topologia de RNA empregada. . . 40

3.3 Resultados da classificação de dados brutos por classe (SNR = 25dB). . . . 42

3.4 Resultados da classificação de entradas esparsas por classe (SNR = 25dB). 43 3.5 Exemplo de mistura em cenário pouco ruidoso (SNR = 25dB). . . . 44

3.6 Exemplo de mistura em cenário muito ruidoso (SNR = −25dB). . . . 44

3.7 Acurácia das estratégias de classificação de misturas para diferentes níveis de ruído. . . 45

3.8 Resultados da classificação de dados brutos por classe (SNR = −25dB). . . 46

3.9 Resultados da classificação da representação esparsa por classe (SNR = −25dB). . . 47

(9)

1.1 Exemplo de amostragem para uma carta de controle ¯x. . . . 15 3.1 Equações e parâmetros para geração automática de padrões. . . 34 3.2 Exemplo de classificação na RNA com entradas de representação esparsa. . 41 3.3 Indicadores gerais obtidos para classificação de dados brutos (SNR = 25dB). 42 3.4 Indicadores gerais obtidos para classificação de dados esparsos (SNR =

25dB). . . . 43 3.5 Indicadores gerais obtidos na classificação de dados brutos (SNR = −25dB). 46 3.6 Indicadores gerais obtidos na classificação da representação esparsa (SNR =

(10)

CEP Controle Estatístico de Processos

ELM Extreme Learning Machines (Máquinas de Aprendizado Extremo)

EQM Erro Quadrático Médio

ICA Independent Component Analysis (Análise de Componentes

Independentes)

IID Independente e Identicamente Distribuído

LASSO Least Absolute Shrinkage and Selection Operator

LIC Limite Inferior de Controle LSC Limite Superior de Controle

LVQ Learning Vector Quantization (Aprendizado por Quantização

Vetorial)

MLP Multilayer Perceptron (Perceptron de Múltiplas Camadas)

MMQ Método dos Mínimos Quadrados

MVS Máquinas de Vetores-Suporte

RNA Rede Neural Artificial

SSA Singular Spectrum Analysis (Análise Espectral Singular)

(11)

Introdução 12 1 Cartas de controle 14 1.1 Fundamentos . . . 14 1.2 Padrões anômalos . . . 17 1.2.1 Cíclico . . . 17 1.2.2 Sistemático . . . 18 1.2.3 Tendência crescente/decrescente . . . 19

1.2.4 Deslocamento para cima/baixo . . . 20

1.3 Cartas de controle concorrentes . . . 22

2 Regressão esparsa 25 2.1 Aspectos gerais de aprendizado de máquina . . . 25

2.2 Sobreajuste e subajuste como motivação para regularização esparsa . . . . 26

2.3 Formulação matemática da regressão linear . . . 27

2.4 Regressão esparsa como meio de classificação e o método LASSO . . . 29

3 Experimentos 33 3.1 Metodologia . . . 33

3.1.1 Geração sintética de dados . . . 33

3.1.2 Classificação com Redes Neurais Artificiais . . . 38

3.2 Resultados . . . 41

3.2.1 Comparação de classificação com dados brutos e com coeficientes da regressão esparsa em um cenário de ruído reduzido (SNR = 25dB) 41 3.2.2 Experimentos considerando variação de ruído no modelo generativo das cartas de controle . . . 43

Conclusões 48

(12)

Introdução

Atualmente, com o avanço tecnológico e o movimento no sentido da Indústria 4.0, métricas e indicadores de conformidade são cada vez mais obtidos com o auxílio de sistemas e métodos de inteligência computacional. Nesse contexto, tornam-se centrais o processo de obtenção e o processamento dos sinais das mais diversas fontes (imagens, áudios, sensores, cartas de controle, entre outras). De fato, a busca por métricas e indicadores torna-se favorável à medida que tecnologias emergentes possibilitam a geração, padronização e transferência de dados entre as fontes de maneira mais rápida, frequente e inteligente, ou seja, o resultado gerado pelo fluxo de dados das interações homem-máquina e máquina-máquina, por exemplo, representa o ambiente/contexto de maneira mais fidedigna e completa. Tal mensuração desempenha papel fundamental no controle de processos produtivos, contribuindo para a qualidade e a melhoria contínua dos mesmos, em especial no que se refere a processos com alta variabilidade.

Nas últimas décadas, diversos pesquisadores abordaram a qualidade como um pilar produtivo que denota diferencial competitivo e fator crítico de sucesso para as organizações. A gestão da qualidade nas organizações tem como finalidade o aumento da qualidade, confiabilidade e disponibilidade de recursos em processos, além da redução de custos operacionais [15, p. 610]. De acordo com [7, p. 252-253], os custos da má qualidade ocorrem de forma fragmentada e a coleta e análise de dados são etapas necessárias para identificar esses segmentos e elaborar planos de correção, mitigação e/ou resolução de falhas mais eficientes. Ainda segundo [7], tais custos podem ser divididos em três componentes: (a) inconformidade em produtos, (b) ineficiência em processos e (c) perda de oportunidade em vendas.

Entre as atividades inerentes à gestão da qualidade encontram-se o planejamento e a execução de planos de manutenção. A identificação das causas raízes da má qualidade é necessária para a definição destes planos, cujas ações podem ser

(13)

corretivas, preventivas e/ou preditivas [15, p. 611]. De forma geral, a manutenção de um sistema produtivo representa uma importante estratégia para a redução de custos relacionados à indisponibilidade de processos, o que aumenta a produtividade e a confiabilidade dos mesmos.

No âmbito industrial é comum o uso de dados provenientes do Controle Estatístico de Processos (CEP) para apoiar a manutenção, em especial as cartas de controle, que indicam a variabilidade e monitoram o estado de controle em processos. Essencialmente, as cartas de controle são séries temporais que podem ser elaboradas a partir da coleta de dados, frequentemente manual e por amostragem. Na literatura são descritos os padrões de comportamento anômalo mais comuns em cartas de controles. Frente à detecção desses padrões é possível identificar as fontes causadoras de problemas que atuam em determinado processo e executar planos de manutenção de maneira preditiva. Na prática, muitos processos são dinâmicos e complexos, o que torna extremamente factível, por exemplo, que mais de uma fonte atue ao mesmo tempo em um processo. Tal fenômeno pode ser descrito com uma mistura linear — neste cenário denominadas cartas de controle concorrentes — e dificulta a identificação de padrões em cartas de controle. Logo, torna-se necessário o pré-processamento de dados, que consiste na aplicação de técnicas de separação e filtragem de forma a viabilizar a análise de correlação e a posterior classificação dos padrões de uma mistura.

É notório que ferramentas mais simples e usuais (diagramas, histogramas, etc.) possuem limitações quanto à necessidade de representar e analisar dados provenientes de contextos geradores de mistura em cartas de controle. Logo, este trabalho apresenta uma metodologia que busca preencher tal lacuna, mediante à detecção e à classificação automática de padrões em cartas de controle concorrentes, através do uso de regressão esparsa e Redes Neurais Artificiais (RNAs). O trabalho foi organizado da seguinte forma. O Capítulo 1 apresenta as cartas de controle, em especial os padrões anômalos e a situação de mistura/concorrência, alvo de estudo deste trabalho. O Capítulo 2 aborda a regressão esparsa e o método LASSO empregado na etapa de pré-processamento de dados para classificação. O Capítulo 3 estabelece as equações usualmente empregadas em trabalhos correlatos para a geração de misturas e os processos que envolvem a classificação via RNA. Por fim, serão apresentadas as conclusões acerca dos experimentos e análises realizadas.

(14)

Capítulo 1

Cartas de controle

Neste trabalho, a proposição de um sistema automático para o controle de qualidade parte de padrões observados em cartas de controle e descritos na literatura. Assim, na Seção 1.1 serão apresentados os conceitos gerais acerca das cartas de controle. Na Seção 1.2 serão elencados os principais padrões anômalos observados em cartas de controle e as suas principais características. Finalmente, na Seção 1.3, será definida a carta de controle concorrente (situação de mistura), relevante para a identificação e classificação de padrões em controle de qualidade.

1.1 Fundamentos

Nas últimas décadas, sistemas que visam o controle e a gestão da qualidade tornaram-se peças-chaves nas organizações. A motivação para isso decorre especialmente da aplicação de métodos capazes de impactar os pilares da cadeia produtiva de diversas formas, por exemplo: redução de custos com manutenção, diminuição de custos de refugo e retrabalho, maior segurança nas operações, etc. Tais métodos viabilizam o controle de processos e permitem com que as organizações atuem de forma a aumentar a sua lucratividade [15, p. 523].

A proposição de métodos capazes de avaliar a variabilidade de processos e dessa forma auxiliar na análise e identificação de comportamentos anômalos não é recente. Em 1924, Walter A. Shewhart apresentou os conceitos fundamentais das chamadas cartas ou gráficos de controle [10, p. 12], também conhecidas como cartas de Shewhart. A carta de controle figura entre as principais ferramentas empregadas no controle de qualidade,

(15)

mais especificamente no CEP. Essencialmente, uma carta de controle trata de uma série temporal que representa graficamente uma característica de qualidade mensurável em análise como: temperatura, peso, diâmetro, comprimento, volume, pressão, etc.

Um dos tipos clássicos de cartas de controle denomina-se carta de controle ¯

x, utilizada para o controle/monitoramento de um processo em torno de sua média. A

Figura 1.1 ilustra uma carta de controle ¯x para uma variável cujas mensurações foram

organizadas em subgrupos e as suas respectivas médias seguem plotadas. Os subgrupos dessa figura representam as amostras temporais, provenientes das mensurações ao longo do processo, e seguem exemplificados na Tabela 1.1. Usualmente, uma carta de controle ¯

x é composta por: uma linha central (valor médio ideal ou alvo que as mensurações

devem assumir) [10, p. 235], um limite superior de controle (LSC) e um limite inferior de controle (LIC). A análise de uma carta é simples: quando a variável extrapola um dos limites estabelecidos é dito que o processo está fora de controle. Além dos limites, outra característica importante diz respeito à análise frente a certo padrões anômalos que são bem conhecidos da literatura de cartas de controle. Essa análise de padrões anômalos é importante pois permite realizar o monitoramento do processo e a aplicação de planos de manutenção/ação antes que o mesmo saia de controle (atuação preditiva). Estes padrões serão abordados na Seção 1.2.

Tabela 1.1: Exemplo de amostragem para uma carta de controle ¯x.

Fonte: adaptado de Montgomery [10, p. 10]

Amostra (subgrupo) Mensurações 1 2 3 4 5 x¯i 1 1,3235 1,4128 1,6744 1,4573 1,6914 1,5119 2 1,4314 1,3592 1,6075 1,4666 1,6109 1,4951 3 1,4284 1,4871 1,4932 1,4324 1,5674 1,4817 4 1,5028 1,6352 1,3841 1,2831 1,5507 1,4712 5 1,5604 1,2735 1,5265 1,4363 1,6441 1,4882 .. . ... ... ... ... ... ... 25 1,5797 1,3663 1,6240 1,3732 1,6887 1,5264

(16)

Figura 1.1: Exemplo de carta de controle ¯x.

Fonte: adaptado de Montgomery [10, p. 233].

Para monitorar a variabilidade do processo, uma segunda carta de controle poderia ser elaborada. Neste caso, é comum o uso de medidas como o desvio padrão (carta de controle s) e a amplitude (carta de controle R) das amostras [10, p. 227].

Na elaboração de uma carta de controle, alguns parâmetros, associados ao processo em estudo, devem ser considerados. Em [2, p. 191], por exemplo, parâmetros de cunho amostral são sugeridos a depender das características do processo/tipo de carta de controle empregada. Outro aspecto interessante é apontado em [10, p. 236], onde é sugerida a utilização de um gráfico de execução — obtido a partir das observações individuais/dados brutos de cada amostra — para auxiliar na identificação de padrões e/ou observações discrepantes em amostras (outliers). É sugerido também o emprego das cartas de controle para medidas individuais [10, p. 259] em algumas situações, dentre elas: • Inspeções automatizadas, onde todas as unidades podem ser avaliadas o que torna

o agrupamento de dados desnecessário;

• Cenários em que o processo de coleta/mensuração é lento, o que reduz o número de observações.

No presente trabalho, as cartas de controle servem o propósito de contextualização, ilustração e fonte de dados para a alimentação de sistemas

(17)

automáticos de identificação de padrões anômalos — em especial no caso de misturas — que serão demonstrados nas seções que seguem. Tal automação viabiliza o emprego das cartas de controle para medidas individuais. Por isso, foram suprimidos os detalhes inerentes à elaboração manual das diferentes tipologias de cartas de controle descritas na literatura [10].

1.2 Padrões anômalos

A simplicidade na elaboração e os benefícios advindos da interpretação de problemas através das cartas de controle contribuíram para a difusão da ferramenta nas organizações. Essa característica incentivou estudos que buscaram identificar e compreender o comportamento dos padrões mais comuns observados em cartas de controle. Em [2, p. 161], uma análise detalhada desses padrões é apresentada. Neste trabalho, abordaremos a identificação de comportamentos considerados anômalos, ou seja, aqueles que fogem do comportamento natural — pequenas flutuações em torno da linha central — esperado durante o monitoramento de determinado processo. Estatisticamente, um padrão normal pode ser visto como um processo estocástico independente e identicamente distribuído (IID). A seguir, serão descritos os padrões anômalos mais comuns em cartas de controle [2, 10]: cíclico, sistemático, tendência crescente, tendência decrescente, deslocamento para cima e deslocamento para baixo.

1.2.1 Cíclico

O padrão cíclico, ilustrado pela Figura 1.2, usualmente está atrelado à uma repetição sistemática que impacta no processo, como flutuações de voltagem ou pressão, fadiga do operador ou alterações na temperatura do ambiente [10, p. 244]. Em [2, p. 161], o padrão cíclico é descrito como uma pequena tendência nos dados, que ocorre em padrões repetidos e está normalmente associado a efeitos sazonais (de duração mais lenta), como diferenças entre turnos, cronogramas de manutenção e rotatividade de pessoal.

(18)

Figura 1.2: Exemplo de carta de controle de padrão cíclico.

1.2.2 Sistemático

O padrão sistemático, ilustrado pela Figura 1.3, é apontado por [2, p. 175] como um padrão caracterizado por repetições sistemáticas mais regulares em processos. A principal característica deste padrão é a alternação frequente de pontos acima e abaixo da linha central. Na prática, isso pode ser causado, por exemplo, por diferenças entre turnos, onde o diurno apresenta picos elevados e o noturno picos baixos. A divisão/agrupamento de dados na elaboração de uma carta de controle também pode acarretar em um padrão sistemático. O padrão cíclico, descrito anteriormente, é uma forma de padrão sistemático com diferença na regularidade das repetições.

(19)

Figura 1.3: Exemplo de carta de controle de padrão sistemático.

1.2.3 Tendência crescente/decrescente

O padrão de tendência indica um movimento contínuo para cima (Figura 1.4) ou para baixo (Figura 1.5), onde várias seções da carta de controle remetem a séries sem uma mudança de direção, ou seja, o gráfico apresenta um comportamento de crescimento/decrescimento gradual [2, p. 177]. Este padrão ocorre, normalmente, devido ao desgaste/deterioração de uma ferramenta ou componente do processo, fadiga do operador ou mudanças graduais nas operações de trabalho. Ainda segundo [2], as tendências devem ser avaliadas com cuidado, pois flutuações naturais do processo podem causar a falsa impressão de um princípio de tendência.

(20)

Figura 1.4: Exemplo de carta de controle de padrão tendência crescente.

Figura 1.5: Exemplo de carta de controle de padrão tendência decrescente.

1.2.4 Deslocamento para cima/baixo

O deslocamento em cartas de controle decorre de uma mudança de direção repentina, para cima ou para baixo, conforme ilustrado pelas Figuras 1.6 e 1.7. Na prática, é comum a ocorrência deste padrão pela adição de um novo componente no processo

(21)

(operador, material, fornecedor, equipamento, etc.), por alterações em configurações e métodos de trabalho [2, p. 174] ou ainda pela influência de fatores motivacionais [10, p. 244].

Figura 1.6: Exemplo de carta de controle de padrão deslocamento para cima.

(22)

errôneos em amostragem, ajustes/interferências constantes no processo por parte de um operador, etc. Outro exemplo prático é a análise de padrões em dados de qualidade da água, onde fortes chuvas, neve ou seca dificultam a identificação de padrões anômalos [13]. A Figura 1.8 ilustra uma mistura gerada pela sobreposição de duas distribuições/padrões descritos na literatura.

Figura 1.8: Exemplo de mistura de dois padrões anômalos em carta de controle.

É fato que, em determinadas circunstâncias, os demais padrões mencionados podem ser identificados visualmente em uma carta de controle sem tamanha dificuldade. Na literatura, é possível encontrar uma série de trabalhos que se preocupam com a identificação de padrões isolados em cartas de controle - uma leitura detalhada se encontra em [6]. Em casos que envolvem misturas, entretanto, a identificação é dificultada pela sobreposição de duas ou mais fontes causadoras de problemas. Além disso, na prática, é comum que um processo sofra com ruídos externos, não correlacionados com os padrões anômalos que compõem a mistura em si, o que dificulta ainda mais a identificação dessas fontes. Neste contexto, um número reduzido de

(23)

estudos propuseram metodologias para a identificação de padrões em cartas de controle concorrentes, dentre eles:

• [5] propôs a aplicação de RNA — Multilayer Perceptron (MLP) — com o algoritmo de aprendizado Backpropagation (BP) no reconhecimento de padrões em cartas de controle concorrentes. Contudo, o estudo considerou apenas dois padrões anormais para a geração de misturas (cíclico e deslocamento para cima/baixo);

• [1] apresentou uma solução híbrida baseada em MLP e BP que considerou padrões isolados e misturas. As misturas passaram por um processo de decomposição em diferentes níveis através de uma transformada wavelet. O estudo considerou cartas de controle concorrentes compostas por apenas dois padrões anormais (cíclico e tendência crescente);

• [20] aplicou Análise Espectral Singular (do inglês Singular Spectrum Analysis, SSA) e Aprendizado por Quantização Vetorial (do inglês Learning Vector Quantization,

LVQ) ao problema de identificação. Os autores também testaram a metodologia

com dados reais, coletados em processos de fundição de alumínio;

• [9] empregou a Análise de Componentes Independentes (do inglês Independent

Component Analysis, ICA) em cartas de controle concorrentes para a extração de

características (variáveis de entrada) e utilizou Máquinas de Vetores-Suporte (MVS) no reconhecimento de padrões. O estudo comparou os resultados obtidos com modelos pautados em Máquinas de Aprendizado Extremo (do inglês Extreme

Learning Machines, ELM );

• [13] apresentou a aplicação do método RobustICA para a extração de características que alimentaram, posteriormente, uma árvore de decisão para o reconhecimento de padrões em cartas de controle concorrentes;

• [12] abordou diferentes métodos de separação cega de fontes, pela extração, seleção, processamento e classificação de dados em padrões através de MVS. O estudo demonstra a importância da etapa de extração de características na acurácia de modelos para o reconhecimento de padrões em misturas;

• [11] apresentou uma solução baseada em representação esparsa, com o método

(24)

regressão esparsa (LASSO) — para a classificação de cartas de controle concorrentes (misturas), geradas sinteticamente, nos demais padrões anômalos apresentados. O emprego do método LASSO na fase de pré-processamento de dados é a contribuição do presente estudo quando comparado àqueles já realizados através de RNAs. A motivação para o uso desse método como seletor de características em modelos de classificação no contexto de aprendizado de máquina pode ser melhor compreendida no Capítulo 2.

(25)

Capítulo 2

Regressão esparsa

Neste capítulo será discutido o conceito de regressão esparsa e a sua aplicabilidade no aprendizado de máquina. De forma mais específica, será apresentado o método LASSO — do inglês Least Absolute Shrinkage and Selection Operator — de regressão esparsa, utilizado como seletor de características para o problema de classificação em cartas de controle concorrentes. O capítulo segue estruturado da seguinte forma. A Seção 2.1 abordará o aprendizado de máquina como mecanismo de solução de problemas de classificação. Na Seção 2.2 será discutida a motivação para o uso da regressão esparsa neste contexto. A Seção 2.3 apresentará os fundamentos e a formulação matemática que envolve a regressão linear. Por fim, na Seção 2.4, será apresentado o problema de regressão esparsa em problemas de classificação e a solução proposta pelo método LASSO.

2.1 Aspectos gerais de aprendizado de máquina

Em aprendizado de máquina é comum o emprego de métodos para solucionar problemas de regressão ou classificação de dados [19, p. 6-9]. Esses métodos atuam de forma a gerar modelos capazes de representar a relação dos atributos de um objeto em análise frente a uma expectativa de predição deste modelo em cenários futuros. Os problemas de regressão envolvem a predição de valores contínuos, por exemplo quando deseja-se prever o valor de um imóvel frente à atributos como a sua área, o número de quartos, as vagas em garagem, etc. Já na classificação, o modelo deve ser capaz de predizer categorias. Um exemplo típico é a classificação binária de determinado tipo de

(26)

modelos de diferentes graus de complexidade. Por exemplo, uma reta/hiperplano pode ser projetado para expressar a relação entre os atributos e um determinado resultado esperado (alvo). Para encontrar os parâmetros do hiperplano que melhor se ajustam a um determinado conjunto de dados é comum o uso do método dos mínimos quadrados (MMQ) [19, p. 47]. Neste caso, o método busca uma aproximação pela minimização da soma dos quadrados dos resíduos, onde cada resíduo expressa a diferença entre o resultado desejado e aquele obtido pelo modelo. Tal diferença, para mais ou para menos, denota a qualidade do modelo.

É comum que as amostras utilizadas em operações de aprendizado de máquina sejam dividas em conjuntos de treinamento e teste. Neste cenário, o modelo é construído a partir do conjunto de treinamento e colocado à prova no conjunto de teste, onde a sua acurária, ou qualquer outra métrica de desempenho, é aferida. À medida que métodos como o MMQ buscam a realização de uma aproximação mais aderente ao conjunto de treinamento, outros — como a regularização esparsa — podem ser empregados com o objetivo de reduzir a diferença de desempenho entre as etapas de treinamento e teste do aprendizado. Logo, a qualidade do modelo em ambas as etapas é importante, o que culmina em uma relação de compromisso, uma vez que nem sempre o modelo que melhor responde ao conjunto de treinamento resultará em melhor desempenho na etapa de teste e, consequentemente, em aplicações futuras.

2.2 Sobreajuste e subajuste como motivação para

regularização esparsa

Na utilização de algoritmos de aprendizado de máquina é possível a ocorrência de um fenômeno denominado sobreajuste — do inglês overfitting. É dito que um modelo sofre o sobreajuste quando este demonstra-se extremamente preciso em relação ao conjunto de treinamento, mas pouco generalista e de baixo desempenho na fase de teste. Além do número reduzido de amostras disponíveis para o aprendizado,

(27)

uma das principais causas associadas ao sobreajuste é o uso excessivo de atributos [19, p. 149]. O fenômeno oposto denomina-se subajuste — do inglês underfitting — e decorre da inabilidade do modelo em identificar as relações relevantes entre os preditores e o resultado desejado. O uso de regressão esparsa pode demonstrar-se uma estratégia de pré-processamento favorável em ambos os casos, conforme apresentado na Seção 2.3.

A simplificação de um modelo pela remoção de atributos menos relevantes pode ser obtida por métodos de representação esparsa. Em [3], por exemplo, foram avaliados diferentes métodos de representação esparsa em dados provenientes da quimiometria. Neste estudo, os autores concluíram que tais métodos têm o potencial de atuarem como seletores de variáveis em sistemas de classificação, pois demonstraram-se eficazes na remoção de variáveis ruidosas, indesejadas ou irrelevantes, o que resultou em um melhor desempenho dos classificadores. Em [16], uma metodologia é apresentada para apoiar a manutenção preditiva com base em algoritmos de classificação. Os autores sugerem o uso de métodos baseados em regressão esparsa para a classificação de falhas em trabalhos futuros, o que demonstra o interesse de pesquisadores em investigar soluções de representação esparsa no controle de qualidade.

2.3 Formulação matemática da regressão linear

A regressão linear objetiva encontrar uma reta, ou de modo mais geral, um hiperplano, que melhor descreve a relação entre uma variável dependente e uma ou mais variáveis independentes dado um conjunto de pontos observados [19, p. 45]. A principal característica de um modelo de regressão linear é a linearidade de seus parâmetros. Na regressão linear simples (univariada), por exemplo, a reta capaz de descrever esta relação é dada por:

y = b + xβ + , (2.1)

onde y representa a variável dependente, x a variável independente, b o intercepto, β o coeficiente — também denominado peso ou preditor — e o ruído resultante da aproximação proposta pelo modelo.

Ocorre que, especialmente em cenários reais e mais complexos, apenas uma variável independente pode não bastar para descrever esta relação e predizer o valor de y com desempenho satisfatório. Além disso, dado um fenômeno, a correlação entre múltiplas

(28)

visa atuar nesses cenários pela proposição de um modelo de regressão linear múltipla que considera a mitigação do problema de sobreajuste e subajuste abordado anteriormente. Ou seja, a regressão esparsa pode ser entendida como um estratégia de regularização.

No contexto de cartas de controle concorrentes, a regressão esparsa busca estabelecer uma solução com o menor número possível de elementos não-nulos nos parâmetros do modelo. Quando as entradas são conhecidas, a regressão esparsa pode ser realizada pela minimização de uma função de perda — como MMQ — com certa restrição nos parâmetros/coeficientes relacionados à esparsidade. Neste trabalho, as entradas, que correspondem aos padrões anômalos descritos na literatura, vide Seção 1.2, não são conhecidas a priori e, portanto, a regressão esparsa pode ser resolvida através de um dicionário cujos átomos são compostos por sinais/misturas associadas aos padrões anômalos. Em outras palavras, cada átomo do dicionário refere-se às entradas de uma carta de controle de padrão anômalo, gerada sinteticamente.

Em termos matemáticos, a regressão esparsa baseia-se no seguinte problema de regressão linear múltipla [3, p. 4-5]:

y = Xβ + , (2.2) cuja representação matricial segue:

          y(1) y(2) .. . y(N )           =           x1(1) x2(1) . . . xp(1) x1(2) x2(2) . . . xp(2) .. . ... . .. ... x1(N ) x2(N ) . . . xp(N )           ×           β1 β2 .. . βp           +           1 2 .. . N          

onde o vetor y representa as entradas — também denominado, neste trabalho, por sinal, mistura ou carta de controle concorrente, X ∈ Rn×p _{a matriz composta pelos átomos} do dicionário (onde cada átomo é disposto em uma coluna), β é o vetor de coeficientes

(29)

esparsos a serem definidos e o ruído associado ao erro decorrente da utilização de um modelo linear.

Dentre os métodos de regressão esparsa encontra-se o LASSO, empregado no presente trabalho. A Seção 2.4 apresenta a formulação deste método e as características que contribuem para a sua aplicação na classificação de cartas de controle concorrentes.

2.4 Regressão esparsa como meio de classificação e o

método LASSO

Proposto por [17], o método LASSO foi escolhido para o presente trabalho pois uma de suas principais características é o encolhimento e/ou atribuição de valores nulos aos coeficientes do vetor β da regressão linear múltipla, o que simplifica o modelo e facilita a interpretação do problema. Tal característica é interessante para a identificação e seleção das variáveis mais relevantes [3, 17]. Por exemplo, no caso de uma carta de controle concorrente com 50 mensurações individuais a ser classificada em até seis dos padrões anômalos descritos, o problema de regressão linear múltipla e a elaboração do dicionário seriam colocados da seguinte forma:

          y(1) y(2) .. . y(50)           |{z} Mistura observada =           x1(1) x2(1) x3(1) x4(1) x5(1) x6(1) x1(2) x2(2) x3(2) x4(2) x5(2) x6(2) .. . ... ... ... ... ... x1(50) x2(50) x3(50) x4(50) x5(50) x6(50)           |{z} Tendência cres. |{z} Tendência decres. |{z} Cíclico |{z} Sistemático |{z} Desloc. p/ cima |{z} Desloc. p/ baixo ×           β1 β2 .. . β6           |{z} Preditores +           1 2 .. . 50           |{z} Ruído

ou seja, cada átomo do dicionário representa uma amostra de padrão anômalo gerada sinteticamente. As equações geradoras utilizadas no dicionário, para cada padrão anômalo, serão apresentadas no Capítulo 3. No método LASSO, o sinal deve ser representado pela combinação de átomos do dicionário que utilizam um número reduzido de coeficientes β não-nulos, o que leva a um problema de otimização que pode ser expresso por:

ˆ

βlasso = argmin

β∈Rp

ky − Xβk2

(30)

β∈Rp _| _{z _} Resíduo

| {z }

Penalidade

onde λ ≥ 0 representa um parâmetro de regularização para a penalidade β de acordo com a norma `1.

No problema de otimização expresso em (2.4), quanto maior o valor atribuído à λ, maior será o número de coeficientes nulos em β. Assim, a escolha de λ deve ser ponderada de forma a obter um vetor β com o máximo de valores nulos possíveis. Neste trabalho, os coeficientes não-nulos estão associados aos padrões anômalos em dada carta de controle y. Contudo, a busca por λ deve também ser capaz de explicar o sinal frente ao dicionário de átomos. A Figura 2.1 exemplifica a relação de compromisso existente entre o valor λ e o resíduo — erro quadrático médio (EQM) — associado com a representação obtida através do método LASSO para um sinal observado.

Figura 2.1: Compromisso entre a esparsidade (norma `1) e o erro de representação para diferentes valores em λ.

Como esperado, o resíduo (EQM) aumenta de acordo com o valor em λ e o grau de esparsidade (número de coeficientes nulos no vetor β). Por exemplo, na Figura 2.1, quando λ é zero um EQM de 0,0168 pode ser observado e a minimização se equipararia à

(31)

aplicação exclusiva de MMQ. Em contrapartida, quando λ assume o valor 0,1275 a solução torna-se mais esparsa e o EQM observado é de 0,0424. Assim, fica evidenciada a relação de compromisso entre o grau de esparsidade e a qualidade do modelo de aproximação.

Através da restrição da penalidade do método, dada pelo parâmetro λ em (2.4), é possível obter uma representação geométrica do LASSO. A Figura 2.2 demonstra, com apenas dois preditores, a capacidade do método de retornar valores nulos perante a restrição imposta pelo parâmetro de ajuste λ. A solução para este problema encontra-se em uma geometria que possibilita com que as curvas de nível — associadas à função objetivo de minimização do resíduo/erro — alcançem pontos onde os preditores/coeficientes obtidos via LASSO possam assumir valores nulos à medida que o custo da solução se afasta do ponto de mínimo (MMQ) em ˆβ. O losango ilustra a

região formada pela penalidade (norma `1) quando colocada como restrição dada uma

constante (t).

Figura 2.2: Exemplo da geometria do método LASSO em uma regressão com dois coeficientes. Fonte: adaptato de Tibshirani [17, p. 6].

Neste trabalho, utilizamos uma implementação do método LASSO disponível no software Matlab (função lasso) que trata do problema de otimização expresso em (2.4). Essa função retorna os coeficientes ajustados da regressão de mínimos quadrados

(32)

Figura 2.3: Exemplo de aproximação via LASSO em uma carta de controle concorrente.

Finalmente, o método LASSO foi utilizado no pré-processamento de cartas de controle concorrentes/misturas sintéticas, para selecionar as variáveis (coeficientes) que posteriormente alimentaram um classificador baseado em RNAs. Os detalhes metodológicos acerca dos padrões anômalos em cartas de controle que deverão compor o dicionário, bem como a geração de misturas sintéticas e os procedimentos de classificação, seguem descritos no Capítulo 3.

(33)

Capítulo 3

Experimentos

Com o intuito de verificar o desempenho dos métodos de regressão esparsa no contexto de classificação de padrões anômalos, conduziremos neste capítulo um conjunto de experimentos numéricos considerando diversas situações práticas. Inicialmente, descreveremos na Seção 3.1 as diferentes configurações metodológicas consideradas. Na sequência, na Seção 3.2, os resultados obtidos são apresentados e discutidos.

3.1 Metodologia

A metodologia do trabalho segue divida em três partes. Inicialmente, será abordada a geração sintética de cartas de controle que serão classificadas em padrões descritos na literatura. Posteriormente, serão definidos dois modelos de classificação baseados em RNAs. No primeiro deles é realizado o processamento diretamente nos dados brutos; a segunda abordagem considera o vetor de coeficientes β obtidos pelo método LASSO como entradas do classificador. Finalmente, será demonstrado um passo a passo do procedimento adotado para a classificação de padrões via RNA.

3.1.1 Geração sintética de dados

Para realização dos experimentos, consideraremos um procedimento de geração sintética de cartas de controle, utilizadas no processo de classificação. Para a obtenção de cartas de controle concorrentes (misturas) faz-se necessária a combinação linear de dois ou mais padrões descritos na literatura (Seção 1.2). Na literatura da área, há modelos matemáticos que representam cada um dos padrões discutidos. Esses modelos, que podem

(34)

o período, g o gradiente e s a magnitude de deslocamento. No presente estudo, assim como em [12], além dos parâmetros descritos na Tabela, foram definidos: N = 100, µ = 0,

σ = 1 e T = 16.

Tabela 3.1: Equações e parâmetros para geração automática de padrões.

Padrão Anômalo Equação Parâmetros

Cíclico xi(t) = µ + ri(t)σ + a sin(2πt/T ) a = 2σ Sistemático xi(t) = µ + ri(t)σ + d(−1)t d = 2σ Tendência crescente/decrescente xi(t) = µ + ri(t)σ ± tgσ g = 0.075σ

Deslocamento para cima/baixo xi(t) = µ + ri(t)σ ± sk

Se t > T /2,

k = 0. Senão, k = 1.s = 2σ

Geração de misturas lineares

Consideraremos um modelo no qual a mistura de padrões é obtido pela combinação linear de dois ou mais padrões distintos e escolhidos ao acaso. Esse tipo de mistura vem sendo assumido na literatura, e, de certo modo, supõe que as causas anormais em um processo de produção se sobrepõem de modo aditivo. Na prática é comum que os dados que compõem as cartas de controle concorrentes sofram com ruídos externos, não correlacionados ao comportamento anômalo em si. Esse termo de ruído pode representar, por exemplo, alguma limitação do modelo como a não incorporação de efeitos de memória do sistema, erros de medição em instrumentos, ou mesmo a existência de padrões anômalos não considerados na modelagem. Em termos matemáticos, este modelo generativo é dado por:

y = x1w1+ x2w2+ · · · + xnwn+ p, (3.1) onde y representa a série da mistura linear resultante, xi um padrão anômalo de carta de controle, wi o peso aplicado ao padrão i e p o ruído Gaussiano branco aditivo. A

(35)

intensidade do ruído pode ser quantificada pela razão sinal-ruído, acrônimo de

signal-to-noise ratio (SNR), que pode ser expressa em decibel (dB):

SN RdB = Psinal,dB− Pruido,dB, (3.2)

onde Psinal,dB é a potência média do sinal e Pruido,dB a potência média do ruído.

No presente trabalho, as misturas consideraram dois padrões anômalos distintos (n = 2) e escolhidos ao acaso dentre os seis descritos na literatura. Recapitulando, os padrões considerados anormais em cartas de controle, objetos de classificação foram: (1) tendência crescente, (2) tendência decrescente, (3) cíclico, (4) sistemático, (5) deslocamento para cima e (6) deslocamento para baixo.

Os pesos utilizados para a realização das misturas foram de 0,4 e 0,6. Logo, dado que os desvios de cada padrão são iguais, a escolha feita pelos pesos corresponde à situação que um dos padrões se sobressai ligeiramente sobre o outro na carta de controle. A SNR adotada para a geração de ruído foi de 25dB. Além disso, assim como em [11], as misturas de padrões tendência crescente/decrescente e deslocamento para cima/baixo foram ignoradas pois apontariam para o mesmo comportamento (ambiguidade), apenas com uma mudança de direção ou magnitude de deslocamento.

O seguinte algoritmo foi implementado para a geração de uma mistura linear aleatória:

Algoritmo 1: Gerador de mistura linear aleatória Entrada: n, w, N, SNR

Saída: y início

Gera {x1, . . . , xn} padrões, de tipos aleatórios e distintos, para compor a mistura

Inicializa o vetor da mistura y de tamanho N e vazio

para i ← 1 até n faça y = y + xiwi

fim

Adiciona ruído Gaussiano branco aleatório em y com base em SNR

retorna y fim

As misturas passaram por um processo de normalização do tipo min-max. Tal como seria caso o sinal fosse obtido de outra fonte, cada mistura a ser classificada, já com

(36)

Por fim, a Figura 3.1 ilustra todo o processo: a geração de dois padrões distintos, uma mistura ruidosa baseada nos mesmos e a normalização dos dados.

Figura 3.1: Processo de mistura baseado em dois padrões anômalos.

Representação esparsa das misturas

Para obter uma série temporal capaz de representar esparsamente cada uma das cartas de controle observadas, foi utilizada abordagem de regressão esparsa via método LASSO. Conforme discutido na Seção 2.4, um dos desafios desta abordagem está na escolha de um dicionário de átomos e de um λ mais apropriado para o modelo de classificação (compromisso entre a esparsidade e a qualidade da representação fornecida pelo modelo).

(37)

O dicionário de átomos é gerado a partir de uma amostra normalizada de cada padrão anômalo. Os itens do dicionário, ao contrário das misturas, não sofreram adição de ruído, ou seja, há apenas a variabilidade inerente ao modelo gerador de cada padrão.

Dado o dicionário de átomos e uma mistura y observada, aplicamos a regressão do algoritmo LASSO. A implementação foi feita no software Matlab. Mais precisamente, consideramos a função lasso [8], que retorna uma matriz de coeficientes β dispostos em colunas para diferentes valores em λ. Para selecionar a coluna de coeficientes desejada foi criado um parâmetro que retorna o vetor coluna βlasso com certo grau de esparsidade.

É fato que em relação às 100 entradas (dados brutos da mistura) a redução para seis coeficientes via método LASSO já poderia ser considerada significativa. Contudo, neste estudo, o fator de esparsidade foi definido em 0,5 (50%). Isso significa dizer que, além de realizar a regressão esparsa através de um dicionário que contém os seis padrões anômalos, o vetor βlasso escolhido deverá possuir três coeficientes nulos. O Algoritmo 2 demonstra o processo de seleção do vetor de coeficientes βlasso, onde a solução retornada pela função lasso do Matlab é uma matriz βmatriz em ordem crescente do valor de λ, ou seja, da solução menos para a mais esparsa. A inicialização de ylasso com a última coluna da matriz de coeficientes β obtida via lasso garante que a representação mais esparsa será retornada caso o requerimento mínimo de elementos nulos não seja satisfeito em outra coluna, associada a um menor valor em λ. É válido ressaltar que a iteração sugerida parte da primeira até a última coluna em βmatriz. Assim, o vetor coluna βlasso torna-se cada vez mais esparso e está associado à uma solução de maior erro quadrático médio (EQM). Logo, visando um modelo de maior qualidade, é retornado o primeiro βlasso que atenda ao critério de esparsidade.

(38)

início

βmatriz ← lasso(y, dicionario)

ylasso ← última coluna em βmatriz

minNulos ← linhas em ylasso × fatorEsparsidade

para cada βcoluna em βmatriz faça

se nulos em βlasso ≥ minNulos então

ylasso ← βcoluna retorna ylasso fim fim retorna ylasso fim

3.1.2 Classificação com Redes Neurais Artificiais

Nos experimentos numéricos realizados em nosso estudo, consideramos três situações distintas para uma carta de controle concorrente observada (também denominada sinal ou série temporal):

• Há apenas um padrão;

• Há uma mistura de dois ou mais padrões;

• Nenhum padrão de comportamento anômalo pode ser classificado.

A classificação multiclasse com RNA foi realizada no Matlab com a função patternnet, que utiliza por padrão uma MLP e um algoritmo de aprendizagem que se baseia na minimização do erro de classificação por meio de uma técnica do tipo gradiente conjugado. Essa função é recomendada pelo Matlab para o treinamento em problemas de reconhecimento de padrões que envolvam um grande volume de dados, devido ao baixo consumo de memória e à maior velocidade quando comparado a algoritmos tradicionalmente pautados em ajuste via gradiente descendente [18].

(39)

O número de neurônios na camada de saída é igual ao número de padrões descritos/classes esperadas: (1) tendência crescente, (2) tendência decrescente, (3) padrão cíclico, (4) padrão sistemático, (5) deslocamento para cima e (6) deslocamento para baixo. A utilização de apenas uma camada escondida, também chamada de camada intermediária, é recomendada [4, p. 2] e costuma bastar para muitas aplicações. Na literatura, é possível encontrar estudos comparativos e sugestões diversas no que se refere à definição do número de neurônios desta camada [4, 14]. Embora não haja uma regra universal, neste estudo tal definição partiu da regra da pirâmide geométrica para uma topologia de RNA com apenas três camadas:

r =√mn, (3.4)

onde r representa o número de neurônios na camada intermediária, m o número de entradas e n o número de saídas da rede. Dessa forma:

• A princípio foram utilizados 6 neurônios para a camada intermediária da RNA com entradas esparsas e 24 para a rede alimentada com dados brutos;

• Incrementou-se e decrementou-se o número de neurônios obtidos pela regra e constatou-se, por experimentação, que 6 neurônios eram suficientes para ambas as RNAs.

A Figura 3.2 ilustra a topologia de RNA empregada neste trabalho. A função de ativação/transferência da camada intermediária foi a tangente sigmoidal hiperbólica, padrão da função patternnet do Matlab. Na camada de saída, foi utilizada a função de transferência softmax, que acaba por normalizar as saídas das seis classes no intervalo [0, 1], onde o somatório dessas resulta em 1. Tal procedimento facilita o processo de classificação em um contexto multiclasse que deve ser passível de atribuição de classe à uma ou mais saídas.

(40)

Figura 3.2: Topologia de RNA empregada.

Para cada teste com RNA foi gerado um conjunto composto por 1000 amostras de misturas. As configurações padrões do Matlab para a função patternnet relacionadas à divisão do conjunto de dados foram mantidas, de modo que 70% das amostras foram utilizadas para treinamento, 15% para validação e 15% para teste. O número de entradas que alimentam a rede foi: 100 para a RNA de dados brutos e 6 para a RNA de representação esparsa (coeficientes em β obtidos via LASSO).

Exemplo de classificação em RNA de entradas esparsas

O exemplo que segue, com apenas uma carta de controle concorrente, auxilia o entendimento da metodologia. Uma vez alimentada a RNA e obtidas as saídas, um limiar pode ser definido para a atribuição ou não de cada uma das classes. Por exemplo, caso um limiar de 0,2 fosse definido, os índices das classificações e seus respectivos padrões podem ser obtidos conforme mostra a Tabela 3.2. Finalmente, as classificações obtidas poderiam ser comparadas com as que originaram a amostra gerada sinteticamente. O mesmo procedimento de classificação foi adotado no caso de dados brutos, sendo alterado apenas o número de entradas da rede.

(41)

Tabela 3.2: Exemplo de classificação na RNA com entradas de representação esparsa.

Entradas (x) Saídas (y) Classificação Padrão Anômalo

-0,1053 0 0 -0,4388 0,5424 1 tendência decrescente 0 0 0 -0,2971 0,4205 1 sistemático 0 0,0113 0 -0 0,0258 0 -- 1 -

-Quanto ao desempenho dos classificadores, a acurácia é expressa por:

ACC = V P + V N

V P + V N + F P + F N, (3.5)

onde VP representa os verdadeiros positivos, VN os verdadeiros negativos, FP os falsos positivos e FN os falsos negativos. Na sequência, apresentamos os experimentos numéricos realizados de acordo com a metodologia descrita e com a métrica de desempenho adotada.

3.2 Resultados

Nesta seção serão apresentados e discutidos os resultados obtidos através da metodologia proposta. Foram realizadas 100 simulações em ambas as estratégias de classificação e os resultados referem-se às médias obtidas. O limiar de classificação foi fixado em 0,2, a SNR variou de acordo com o experimento e os demais parâmetros seguem especificados na metodologia.

3.2.1 Comparação de classificação com dados brutos e com

coeficientes da regressão esparsa em um cenário de ruído

reduzido (SNR = 25dB)

A RNA utilizada para a classificação de dados brutos alcançou acurácia de 98,59% e erro de 1,41%. As médias obtidas nos testes são apresentadas na Tabela 3.3 e na Figura 3.3. Além dos excelentes resultados obtidos pelo classificador com dados brutos,

(42)

cujos resultados serão exibidos a seguir. A RNA utilizada para a classificação de entradas esparsas geradas via LASSO alcançou acurácia de 96,88% e erro de 3,12%. As médias obtidas nos testes são apresentadas na Tabela 3.4 e na Figura 3.4. Quando comparada à classificação de dados brutos é possível observar um pequeno aumento de FP e FN para as classes (5) deslocamento para cima e (6) deslocamento para baixo.

Tabela 3.3: Indicadores gerais obtidos para classificação de dados brutos (SNR = 25dB).

Indicador Ocorrências FP 3 (0,31%) FN 10 (1,10%) VP 290 (32,23%) VN 597 (66,36%) Total 900 (100%)

(43)

Tabela 3.4: Indicadores gerais obtidos para classificação de dados esparsos (SNR = 25dB). Indicador Ocorrências FP 11 (1,21%) FN 17 (1,91%) VP 283 (31,42%) VN 589 (65,45%) Total 900 (100%)

Figura 3.4: Resultados da classificação de entradas esparsas por classe (SNR = 25dB).

3.2.2 Experimentos considerando variação de ruído no modelo

generativo das cartas de controle

Além dos testes já apresentados — para um ruído Gaussiano branco aditivo cuja SNR foi fixada em 25dB — foram realizadas análises do desempenho da classificação de misturas frente a diferentes níveis de ruído. As Figuras 3.5 e 3.6 ilustram a diferença de uma mesma mistura sujeita aos cenários mais e menos favoráveis, considerados neste trabalho, quanto ao nível de ruído, respectivamente.

(44)

Figura 3.5: Exemplo de mistura em cenário pouco ruidoso (SNR = 25dB).

Figura 3.6: Exemplo de mistura em cenário muito ruidoso (SNR = −25dB).

As análises consistem em avaliar a capacidade de proposição de modelos baseados em RNA através de misturas mais e menos ruídosas. Ou seja, aplicou-se o ruído (3.1) durante a geração das misturas e as mesmas foram utilizadas em todas as etapas da RNA: treinamento, validação e teste. A metodologia foi a mesma empregada na classificação já apresentada para o cenário mais favorável, mas considerou outros

(45)

valores para SNR. A variação de acurácia observada neste experimento segue ilustrada pela Figura 3.5. Nesta Figura, é possível observar uma vantagem da representação esparsa em cenários de maior força de ruído, ou seja, quando SNR assume valores mais negativos. Apesar de perceptível e esperada, é pequena a diferença entre a RNA alimentada com dados brutos quando comparada à representação esparsa nos demais casos. De forma geral pode-se dizer que a RNA alimentada por vetores βlasso demonstrou um desempenho muito similar à estratégia de alimentação que utilizou dados brutos. No cenário mais ruidoso (SNR = −25dB), as Tabelas 3.5 e 3.6 e as Figuras 3.8 e 3.9 complementam a análise por meio de resultados obtidos pelas duas estratégias de classificação. No caso da RNA alimentada por dados brutos, nota-se, pela Figura 3.8 e pela Tabela 3.5, que a adição considerável de ruído aos sinais com 100 entradas tende o classificador à atribuição de classe/padrão (3) cíclico e (4) sistemático, padrões estes que possuem características similares àquelas observadas na Figura 3.6. Por fim, os resultados obtidos para a RNA alimentada com entradas de representação esparsa — ilustrados pela Figura 3.9 e indicados na Tabela 3.6 — demonstram a perda da capacidade de classificar os padrões (5) deslocamento para cima e (6) deslocamento para baixo, enquanto a RNA alimentada com dados brutos apresenta FP consideravelmente maior entre as classes.

(46)

VP 88 (9,79%) VN 468 (52,01%) Total 900 (100%)

Figura 3.8: Resultados da classificação de dados brutos por classe (SNR = −25dB).

Tabela 3.6: Indicadores gerais obtidos na classificação da representação esparsa (SNR = −25dB).

Indicador Ocorrências FP 94 (10,49%) FN 216 (24,05%) VP 84 (9,28%) VN 506 (56,17%) Total 900 (100%)

(47)

(48)

Conclusões

Neste trabalho foi estudado o problema de identificação e classificação de padrões anômalos em cartas de controle concorrentes em duas situações distintas. Na primeira delas, uma RNA foi alimentada com os dados brutos das misturas geradas sinteticamente. Posteriormente, a mesma topologia de RNA — à exceção da camada de entrada — foi alimentada com os coeficientes do vetor β obtidos por regressão esparsa através do método LASSO.

A pequena diferença de acurácia entre a RNA alimentada com 100 entradas de dados brutos e a RNA cuja camada de entrada tinha apenas seis elementos - dos quais metade eram nulos - corrobora a capacidade da regressão esparsa em atuar como um seletor de características neste contexto de classificação. Em cenários de ruído Gaussiano branco aditivo com SNR positiva, os classificadores apresentaram uma boa precisão. Em caso de ruído mais intenso considerado — com SNR -25dB — a precisão dos classificadores provou ser superior a 50%, com uma perceptível vantagem para a representação esparsa, que resultou em uma melhor atenuação de ruído.

Outro aspecto que pode ser apontado é o menor custo de alocação em disco e memória quando utilizada a representação esparsa, o que possibilita o emprego de técnicas de classificação em cenários onde um grande volume de dados é necessário ou encontra-se disponível para processamento.

De modo geral, os resultados demonstraram um bom desempenho quando testados com dados gerados sinteticamente, o que incentiva trabalhos futuros que envolvam prototipagem e teste em casos reais. Além disso, a ocorrência de mais de dois padrões anômalos por mistura também poderia ser estudada.

(49)

Referências

[1] Z. Chen, S. Lu e S. Lam. «A hybrid system for SPC concurrent pattern recognition».

Advanced Engineering Informatics 21.3 (2007), pp. 303–310.

[2] W. E. Company. Statistical quality control handbook. Western Electric Company, 1956.

[3] P. Filzmoser, M. Gschwandtner e V. Todorov. «Review of sparse methods in regression and classification with application to chemometrics». Journal of

Chemometrics 26.3-4 (2012), pp. 42–51.

[4] P. Grabusts e A. Zorins. «The Influence of Hidden Neurons Factor on Neural Network Training Quality Assurance». Proceedings of the 10th International

Scientific and Practical Conference. Volume III. Vol. 76. 2015, p. 81.

[5] R.-S. Guh e J. Tannock. «A neural network approach to characterize pattern parameters in process control charts». Journal of Intelligent Manufacturing 10.5 (1999), pp. 449–462.

[6] W. Hachicha e A. Ghorbel. «A survey of control-chart pattern-recognition literature (1991–2010) based on a new conceptual classification scheme».

Computers & Industrial Engineering 63.1 (2012), pp. 204–222.

[7] J. M. Juran e A. B. Godfrey. Juran’s quality handbook 5th ed. 1999.

[8] Lasso or elastic net regularization for linear models – MATLAB lasso. Acesso em 17

jun. 2018. url: https://mathworks.com/help/stats/lasso.html#bs25w54-6. [9] C.-J. Lu, Y. E. Shao e C.-C. Li. «Recognition of concurrent control chart patterns

by integrating ICA and SVM». Applied Mathematics & Information Sciences 8.2 (2014), p. 681.

(50)

International Conference on Computers & Industrial Engineering 2016 (CIE46).

2016.

[12] G. D. Pelegrina, L. T. Duarte e C. Jutten. «Blind source separation and feature extraction in concurrent control charts pattern recognition: Novel analyses and a comparison of different methods». Computers & Industrial Engineering 92 (2016), pp. 105–114.

[13] S. Sharma, D. A. Swayne e C. Obimbo. «Identification of Concurrent Control Chart Patterns in Time Series». International Journal of Innovative Research in Science,

Engineering and Technology 4.6 (jun. de 2015).

[14] K. G. Sheela e S. N. Deepa. «Review on methods to fix number of hidden neurons in neural networks». Mathematical Problems in Engineering 2013 (2013).

[15] N. Slack, S. Chambers, C. Harland, A. Harrison e R. Johnston. «Administração da Produção». Atlas, São Paulo (2009).

[16] G. A. Susto, A. Schirru, S. Pampuri, S. McLoone e A. Beghi. «Machine learning for predictive maintenance: A multiple classifier approach». IEEE Transactions on

Industrial Informatics 11.3 (2015), pp. 812–820.

[17] R. Tibshirani. «Regression shrinkage and selection via the lasso». Journal of the

Royal Statistical Society: Series B (Methodological) 58.1 (1996), pp. 267–288.

[18] Train and Apply Multilayer Neural Networks – MATLAB & Simulink. Acesso em

17 jun. 2018. url: https://mathworks.com/help/nnet/ug/train-and-apply-multilayer-neural-networks.html.

[19] J. Watt, R. Borhani e A. K. Katsaggelos. Machine learning refined: foundations,

algorithms, and applications. Cambridge University Press, 2016.

[20] L. Xie et al. «Concurrent control chart patterns recognition with singular spectrum analysis and support vector machine». Computers & Industrial Engineering 64.1 (2013), pp. 280–289.