Detecção e classificação de múltiplos componentes em linha de montagem automotiva usando deep learning

(1)

MURIEL MAZZETTO

DETECC

¸ ˜

AO E CLASSIFICAC

¸ ˜

AO DE M ´

ULTIPLOS

COMPONENTES EM LINHA DE MONTAGEM

AUTOMOTIVA USANDO DEEP LEARNING

DISSERTAC

¸ ˜

AO

PATO BRANCO

(2)

DETECC

¸ ˜

AO E CLASSIFICAC

¸ ˜

AO DE M ´

ULTIPLOS

COMPONENTES EM LINHA DE MONTAGEM

AUTOMOTIVA USANDO DEEP LEARNING

Disserta¸cão apresentada ao Programa de P´ os-gradua¸cão em Engenharia Elétrica da Univer-sidade Tecnológica Federal do Paraná Câmpus Pato Branco, como requisito parcial para ob-ten¸cão do t´ıtulo de Mestre em Engenharia Elétrica.

Orientador: Prof. Dr. Marcelo Teixeira

Co-orientador: Prof. Dr. Dalcimar Casanova

PATO BRANCO

(3)

Ficha Catalográfica elaborada por Suélem Belmudes Cardoso CRB9/1630 Biblioteca da UTFPR Campus Pato Branco

Detecção e classificação de múltiplos componentes em linha de montagem automotiva usando deep learning / Muriel Mazzetto. -- 2019.

62 f. : il. ; 30 cm

Orientador: Prof. Dr. Marcelo Teixeira Coorientador: Prof. Dr. Dalcimar Casanova

Dissertação (Mestrado) - Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Engenharia Elétrica. Pato Branco, PR, 2019.

Inclui bibliografia.

1. Visão por computador. 2. Processamento de imagens. 3. Aprendizado do computador. 4. Redes neurais (Computação). I. Teixeira, Marcelo, orient.II. Casanova, Dalcimar, coorient. III. Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Engenharia Elétrica. IV. Título.

(4)

TERMO DE APROVAÇÃO Título da Dissertação n.° 074

“Detecção e Classificação de Múltiplos Componentes em Linha de Montagem Automotiva Usando Deep Learning”

por

Muriel Mazzetto

Dissertação apresentada às doze horas e trinta minutos do dia vinte e um de novembro de dois mil e dezenove, como requisito parcial para obtenção do título de MESTRE EM ENGENHARIA ELÉTRICA, do Programa de Pós-Graduação em Engenharia Elétrica – Universidade Tecnológica Federal do Paraná, Câmpus Pato Branco. O candidato foi arguido pela Banca Examinadora composta pelos professores abaixo assinados. Após deliberação, a Banca Examinadora considerou o trabalho APROVADO.

Banca examinadora:

Prof. Dr. Dalcimar Casanova

(Coorientador) UTFPR/PB

Prof. Dr. Yuri Kaszubowski Lopes

UTFPR/DV

Prof. Dr. André Luiz Brun

Unioeste/CVL

Homologado por:

Prof. Dr. Gustavo Weber Denardin

Coordenador do Programa de Pós-Graduação em Engenharia Elétrica - PPGEE/UTFPR

______________________________

Prof. Dr. Pablo Gautério Cavalcanti

(5)

MAZZETTO, Muriel. DETECÇ ÃO E CLASSIFICAÇ ÃO DE M ÚLTIPLOS COMPO-NENTES EM LINHA DE MONTAGEM AUTOMOTIVA USANDO DEEP LEARNING . 62 f. Disserta¸cão – Programa de Pós-gradua¸cão em Engenharia Elétrica, Universidade Tecnológica Federal do Paraná. Pato Branco, 2019.

O processo de produ¸cão industrial capaz de produzir simultaneamente múltiplos tipos de produtos sobre a mesma linha de fabrica¸cão define um modelo industrial denominado de manufatura flex´ıvel. Um exemplo de manufatura flex´ıvel é o da indústria automotiva, que fabrica diferentes modelos de ve´ıculos sobre a mesma planta, cada um composto por um conjunto próprio de componentes. Nesse tipo de ambiente, é comum que os conjuntos de pe¸cas sejam inicialmente separados por operadores humanos para, posteriormente, serem manipulados por robôs. Como essa evolu¸cão depende da percep¸cão humana, passa a ser um procedimento suscet´ıvel a erros de conformidade, situa¸cão em que elementos de manu-fatura podem não pertencer ao mesmo modelo do produto fabricado. Tal tarefa passou, recentemente, a ser complementada por percep¸cão artificial advinda de sistemas de visão computacional (SVCs), que são compostos por câmera e um computador embarcado, para aquisi¸cão, processamento e classifica¸cão de imagens. Esses sistemas podem ser utilizados para verificar poss´ıveis defeitos e atestar sobre a conformidade ou não de componentes nas linhas de produ¸cão. Apesar da relevância prática, a eficiência de um SVC convencional depende do controle da ilumina¸cão, enclausuramento e parada da linha para a fixa¸cão das pe¸cas, o que encarece a solu¸cão e reverte grande parte dos seus benef´ıcios. Além disso, os métodos tradicionais de visão possuem etapas de parametriza¸cão manuais dependen-tes de um especialista. Recentemente, na literatura tem se abordado métodos baseados em deep learning (DL) para contornar esses problemas. Essa abordagem busca imitar a capacidade humana de aprendizado e reconhecimento de padrões, através da abstra¸cão de caracter´ısticas de um conjunto de imagens. Essa propriedade tende a agregar robustez aos SVCs e reduzir a necessidade de controle do ambiente e da percep¸cão humana para defini¸cão de parâmetros. Este trabalho propõe uma alternativa baseada em deep learning, de aprendizado supervisionado, para a deteçcão e classifica¸cão de múltiplos componentes em linhas de montagem automotiva flex´ıvel supervisionado, para deteçcão de objetos. Quando supervisionados, esses algoritmos requerem um conjunto de imagens como base de treino. Além das imagens, devem ser identificadas a região e a classe de cada objeto. Essa identifica¸cão consiste apenas em definir uma região que delimite o objeto alvo e sua respectiva classe. A solu¸cão não requer interven¸cões no ambiente operacional, tampouco a parada da linha de produ¸cão para coleta e análise de imagens, agregando eficiência e eficácia ao processo produtivo sem depender excessivamente de percep¸cão humana. A abordagem é ilustrada por meio de dois estudos de caso conduzidos sobre uma planta real de montagem de ve´ıculos.

Palavras-chave: Deteçcão e Classifica¸cão de Múltiplos Objetos, Deep Learning, Visão Computacional, Inspe¸cão Visual.

(6)

Programa de Pós-gradua¸cão em Engenharia Elétrica, Universidade Tecnológica Federal do Paraná. Pato Branco, 2019.

The industrial production process capable of simultaneously producing multiple types of products on the same manufacturing line defines an industrial model called flexible manu-facturing. An example of flexible manufacturing is observed in the automotive industry, which manufactures different car models on the same plant, each composed of its own set of components. In this type of environment, it is common for part sets to be initially separated by human operators and subsequently manipulated by robots. As this process depends on human perception, it is susceptible to errors of conformity, a situation in which elements of manufacture may not belong to the same model of the manufactured product. This task has recently been complemented by artificial perception from computer vision systems (CSVs), camera-based systems and an embedded computer for image acquisition, processing and classification. These systems can be used to check for defects and to attest to the conformity of the components. Despite the practical relevance, the efficiency of a conventional CSV depends on the control of lighting, closure and stop of the line for the fixation of the parts, which makes the solution expensive and reverses most of its benefits. In addition, traditional methods have manual parameter assignment steps dependent on a specialist. Recently, the literature has addressed methods based on deep learning (DL) to overcome these problems. This approach seeks to imitate the human capacity for lear-ning and pattern recognition, through the abstraction of characteristics of a set of images. This feature adds robustness to SVC, reducing the need for environmental control and human perception for parameter definition. This paper proposes a supervised learning deep text alternative for detecting multiple components in supervised flexible automotive assembly lines for object detection and classification. When supervised, these algorithms require a set of images as a training base. In addition to the images, the region and class of each object must be identified. This identification consists only of defining a region that delimits the target object and its respective class. Still, the solution does not require interventions in the operating environment, neither the stop of the production line for image collection and analysis. The approach is illustrated by two case studies conducted on an actual vehicle assembly plant.

Keywords: Multiple Object Detection and Classification, Deep Learning, Computer Vision, Visual Inspection.

(7)

–

FIGURA 1 Imagem capturada por sistema de vis˜ao convencional . . . 12 –

FIGURA 2 Exemplos de pr´e-processamento de imagens . . . 16 –

FIGURA 3 Exemplo de gradiente da intensidade de brilho . . . 16 –

FIGURA 4 Exemplo de foto compara¸c˜ao do SVC da Cognex . . . 17 –

FIGURA 5 Exemplo de compara¸c˜ao de contornos do SVC da Keyence . . . 17 –

FIGURA 6 SVC multiespectral Keyence . . . 18 –

FIGURA 7 Neurˆonio Perceptron . . . 21 –

FIGURA 8 Fun¸c˜oes de ativa¸c˜ao . . . 22 –

FIGURA 9 Exemplo de uma RNA . . . 22 –

FIGURA 10 Exemplo de convolu¸c˜ao com cross-correlation . . . 27 –

FIGURA 11 Exemplo de pooling . . . 28 –

FIGURA 12 Exemplo da arquitetura de uma CNN . . . 28 –

FIGURA 13 Modelos de DL para detec¸c˜ao de objetos . . . 29 –

FIGURA 14 Exemplo de execu¸c˜ao do YOLO . . . 30 –

FIGURA 15 Compara¸c˜ao entre ML e DL . . . 32 –

FIGURA 16 Exemplo de anchor boxes . . . 37 –

FIGURA 17 Exemplos de IoU . . . 38 –

FIGURA 18 Arquitetura do SSD 300 . . . 39 –

FIGURA 19 Filtros de extra¸c˜ao da rede MobileNet . . . 40 –

FIGURA 20 Tipos de kit de disco e pin¸ca de freio . . . 43 –

FIGURA 21 Convergência do aprendizado para deteçcão do disco e pin¸ca de freio 44 –

FIGURA 22 M´etricas para disco e pin¸ca de freio . . . 45 –

FIGURA 23 Amostras de imagens n˜ao classificadas . . . 46 –

FIGURA 24 Exemplo da detec¸c˜ao de disco e pin¸ca em v´ıdeo . . . 47 –

FIGURA 25 Amostra de imagens das bases de treino e teste do sensor . . . 49 –

FIGURA 26 Convergência do aprendizado para o modelo de deteçcão de sensor 49 –

FIGURA 27 M´etricas para o sensor de detona¸c˜ao . . . 50 –

(8)

–

TABELA 3 Avalia¸cão da deteçcão de discos e pin¸cas em v´ıdeos . . . 48 –

(9)

AGV Automatic Guided Vehicle

API Application Programming Interface BG Brightness Gradient

BP Back Propagation CG Color Gradient

CNN Convolutional Neural Network DL Deep Learning

FN False Negative FP False Positive

GMDH Group Method of Data Handling IA Inteligˆencia Artificial

IoU Intersection Over Union ML Machine Learning

NMS Non Maximum Supression ReLU Rectified Linear Unit RNA Rede Neural Artificial

RMSprop Root Mean Square Propogation RPN Region Proposal Networks SSD Single Shot Detection

SVC Sistema de Vis˜ao Computacional SGD Stochastic Gradient Descent SVM Support Vector Machine TG Texture Gradient

TP True Positive

(10)

2.1 SISTEMAS DE VIS ˜AO COMPUTACIONAL . . . 15

2.2 APRENDIZAGEM DE M ´AQUINA . . . 18

2.3 REDE NEURAL ARTIFICIAL . . . 20

2.4 DEEP LEARNING . . . 23

2.5 SVC COM DEEP LEARNING . . . 25

2.5.1 Convolu¸c˜ao . . . 25

2.5.2 Pooling . . . 26

2.5.3 Rede Neural de Convolu¸c˜ao . . . 28

2.6 COMPARAC¸ ˜AO ENTRE MACHINE LEARNING E DEEP LEARNING . . . 32

2.7 APLICAC¸ ˜OES EM SISTEMAS INDUSTRIAIS . . . 33

3 ARQUITETURA DE DEEP LEARNING PROPOSTA . . . 36

3.1 DESCRIC¸ ˜AO DA ARQUITETURA . . . 36

3.2 VALIDAÇ ÃO DA DETECÇ ÃO DE OBJETOS . . . 41

4 EXPERIMENTOS EM LINHA DE MONTAGEM AUTOMOTIVA . 42 4.1 DISCO E PINC¸ A DE FREIO . . . 42

4.2 IDENTIFICAÇ ÃO DE PADR ÕES EM MOTORES . . . 48

5 CONCLUS ˜AO . . . 52

(11)

1 INTRODUC¸ ˜AO

Um sistema de manufatura é definido como um processo de produ¸cão industrial que transforma materiais em produtos, integrando pessoas, equipamentos e tecnologia (ESMAEILIAN et al., 2016a). Quando esse sistema é sens´ıvel ao contexto, ou seja, quando detecta e reage às mudan¸cas do chão de fábrica, é definido como um sistema de manufatura flex´ıvel (SILVA et al., 2017; DRATH; HORCH, 2014). Assim, a manufatura flex´ıvel define um modelo industrial capaz de produzir simultaneamente múltiplos tipos de produtos sobre a mesma linha de fabrica¸cão (ALSZER; KRYSTEK, 2018). Quando associados às tecnologias computacionais, como, por exemplo, Big Data, inteligência artificial (IA) e Internet das Coisas, produzem métodos avan¸cados para a indústria do futuro (WANG et al., 2018; SALDIVAR et al., 2015; YANG et al., 2016; BASILE et al., 2016; YOUSIF, 2016).

Um exemplo de manufatura flex´ıvel é observado na indústria automotiva, que fabrica diferentes modelos de carros sobre a mesma planta e cada um é composto por um conjunto próprio de componentes (BOUDELLA et al., 2018). Nesse tipo de ambiente, é comum que os conjuntos de pe¸cas sejam inicialmente separados por operadores humanos para, posteriormente, serem manipulados por robôs (BOUDELLA et al., 2018). Como esse processo depende da percep¸cão humana, ele passa a ser um procedimento suscet´ıvel a erros de conformidade, situa¸cão em que elementos de manufatura podem não pertencer ao modelo do produto fabricado (CAPUTO et al., 2015).

No sentido de preservar a consistência da montagem durante a fabrica¸cão flex´ıvel, sem depender em excesso da percep¸cão humana, pode-se adotar tecnologias em sensore-amento (HARB; MAKHOUL, 2018; OTA et al., 2018), leitores ópticos (BUDELMANN, 2018; LEAL-JUNIOR et al., 2018), RFIDs (XU et al., 2018), entre outros (LI et al., 2018; LUCKOW et al., 2016). Outra abordagem que vem ganhando espa¸co no meio industrial propõe o uso de sistemas de visão computacional (SVC) (NEOGI et al., 2014; PRAKASA et al., 2015; SEMENIUTA et al., 2016; WEIXIN et al., 2017).

(12)

aplicados na indústria são foto compara¸cão e compara¸cão de contornos (KEYENCE, 2019; COGNEX, 2019; WENGLOR, 2019). Na primeira, cada nova imagem recebe um trata-mento nos n´ıveis de brilho e contraste, comparada com um gabarito e validada de acordo com a similaridade; na segunda, um processamento digital é realizado para extrair os contornos com maior contraste de cada imagem, para serem comparados com um padrão de contornos representativos do objeto que deve ser identificado (SZELISKI, 2010).

Um exemplo de uma aplica¸cão de SVC é apresentado na Figura 1, que avalia a conformidade dos discos de freio em uma indústria automotiva, por meio da deteçcão de contornos.

(a) Disco de freio aceito pelo sistema de vis˜ao.

(b) Disco de freio rejeitado pelo sis-tema de vis˜ao.

Figura 1: Imagem capturada por sistema de vis˜ao convencional, para detectar in-conformidades no conjunto do disco de freio.

Note que, quando exposto à luz uniforme, o objeto é detectado, como exibido na Figura 1 (a). Quando a ilumina¸cão sofre alguma interferência, por reflexo, sombra ou sobreposi¸cão de frequências luminosas, a parametriza¸cão de n´ıveis de brilho e contraste é afetada. A Figura 1 (b), por exemplo, mostra um disco de freio rejeitado erronea-mente pelo sistema de visão, consequência das sombras no disco (áreas salientadas pelos retângulos).

Uma abordagem recente, para aprimorar os SVCs, se baseia em machine learning (ML). ML é uma área de estudos que busca imitar a capacidade humana de reconheci-mento de padrões e execu¸cão de tarefas, com base em um aprendizado, sem a necessidade da defini¸cão de a¸cões espec´ıficas (BISHOP, 2006). Essa abordagem disponibiliza dife-rentes formas de pré-processamento para identificar caracter´ısticas e padrões (NEOGI et al., 2014). Porém, necessita de um especialista para definir o conjunto de métodos mais

(13)

adequados para realizar a identifica¸cão e extra¸cão de caracter´ısticas, que depende de cada aplica¸cão.

No contexto de manufatura flex´ıvel, a configura¸cão dos sistemas pode mudar ra-pidamente a produ¸cão de um produto para outro, ou ainda incluir novos produtos (BOU-DELLA et al., 2018). Nesse caso, se o SVC utiliza ML, é necessário realizar novamente o processo de defini¸cão do método de extra¸cão de caracter´ısticas e do aprendizado. Ainda, um novo produto pode apresentar varia¸cões de textura que interferem nas configura¸cões da câmera para os produtos que já estavam sendo manufaturados (WANG et al., 2018). Assim, a defini¸cão manual das caracter´ısticas pode acarretar em inspe¸cão insuficiente ou insatisfatória, seja em cenários com objetos complexos na imagem ou em processos de produ¸cão dinâmica (SCHOLZ-REITER et al., 2012).

Além disso, a eficiência de um SVC comercial depende sobretudo do controle adequado de ilumina¸cão, enclausuramento e parada da linha para a fixa¸cão de pe¸cas, o que encarece a solu¸cão, principalmente por aumentar o tempo máximo de opera¸cão sobre uma dada pe¸ca (chamado de tempo de ciclo), revertendo assim grande parte dos benef´ıcios do uso desse tipo de abordagem na indústria.

Para contornar esses problemas, SVCs recentes vem agregando técnicas de deep learning (DL) (ZHAO et al., 2019; GOODFELLOW et al., 2016). Em ambientes fabris, o uso de DL ainda é recente, estando ele mais relacionado à análise de dados em grandes repositórios (LI et al., 2018), como uma ferramenta para extrair informa¸cões e correlacio-nar os dados de produ¸cão (WANG et al., 2018). Em linhas de produ¸cão, especificamente, aplica¸cões envolvendo DL se limitam basicamente à análise do acabamento de produtos (ESSID et al., 2018; TELLO et al., 2018; TAO et al., 2018), evidenciando assim uma ampla lacuna de contribui¸cões atreladas à integra¸cão de técnicas de DL ao controle ope-racional de processos e produtos em chão de fábrica. Esse será, então, o foco do presente trabalho.

Acredita-se que esse tipo de aplica¸cão possui potencial para impactos sólidos nos processos fabris. Note que o sucesso da análise de padrões usando SVCs depende, sobretudo, da limita¸cão do campo de visão da imagem a ser avaliada. Ou seja, o resultado tende a ser mais preciso quando o campo de visão engloba uma área ampliada de imagem, coletada, por exemplo, por meio de microscópios industriais. Na prática, isso implica que são necessárias várias capturas para que se avalie o componente como um todo, revertendo os ganhos possivelmente obtidos com o sucesso do reconhecimento de padrões.

(14)

et al., 2019), e ser´a mostrado que a proposta possibilita a cria¸c˜ao de SVCs mais flex´ıveis e robustos. Dentre os benef´ıcios da proposta, citam-se:

• Redu¸cão das etapas de defini¸cões manuais e, portanto, da dependência de um espe-cialista;

• Redu¸cão das necessidades de controle de ambiente, como, por exemplo, indexa¸cão de pe¸cas e ilumina¸cão dedicada;

• Preserva¸cão do tempo de ciclo da produ¸cão, pois o sistema proposto é capaz de identificar pe¸cas mesmo em movimento, como sobre uma esteira por exemplo;

• Deteçcão de múltiplos objetos na mesma imagem e em tempo real1_.

Esse trabalho está estruturado da seguinte forma: o Cap´ıtulo 2 exibe os conceitos necessários para compreender a proposta; o Cap´ıtulo 3 mostra a arquitetura proposta; o Cap´ıtulo 4 exibe e discute os experimentos realizados na linha de montagem automotiva; e o Cap´ıtulo 5 apresenta uma discussão acerca dos resultados alcan¸cados pela proposta.

1_{Nesse trabalho, o termo tempo real ´}_{e associado a um sistema que garante uma resposta dentro de}

um tempo definido, ou deadline (HATLEY; PIRBHAI, 2013). Será assumido, sob o ponto de vista prático-industrial, que esse deadline seja de até 1 segundo.

(15)

2 CONCEITOS PRELIMINARES

Esse cap´ıtulo apresenta os conceitos de sistemas de visão computacional, machine learning e deep learning. Além disso, são exibidos trabalhos relacionados ao tema dessa disserta¸cão.

2.1 SISTEMAS DE VIS ˜AO COMPUTACIONAL

Os SVCs visam extrair informa¸cões de dados multidimensionais, normalmente de imagens, na tentativa de reproduzir a percep¸cão visual humana (SZELISKI, 2010). Algumas etapas t´ıpicas desses sistemas são:

• Aquisi¸cão: coleta de imagens, normalmente por câmeras. Aqui as defini¸cões da câmera (sensor de captura, lentes, etc.) e do ambiente (ilumina¸cão, vibra¸cão, etc.) influenciam no resultado final;

• Pré-processamento: remapeamento de coordenadas, redu¸cão de ru´ıdos e parame-triza¸cão do brilho, contraste e da satura¸cão de cores. Alguns exemplos são mostra-dos na Figura 2;

• Extra¸cão de caracter´ısticas: processamento matemático para evidenciar as carac-ter´ısticas da imagem. Podem ser utilizadas transforma¸cões na representa¸cão da imagem com, por exemplo, a aplica¸cão da transformada de Fourier, de filtros de sinais, de deteçcão de contornos e de deteçcão de textura;

• Segmenta¸cão: sele¸cão das regiões de interesse da imagem, ou seja, regiões em que as caracter´ısticas evidenciadas são relevantes;

• Classifica¸cão: reconhecimento de padrões. Normalmente, avaliam-se as semelhan¸cas entre as regiões de interesse e os gabaritos pré determinados, comparando os valores dos pixels dentro de um limiar de aceita¸cão.

(16)

(a) Imagem original. (b) Altera¸cão no con-traste. (c) Altera¸cão na matiz de cores. (d) Altera¸cão na rota¸cão.

Figura 2: Exemplos de pr´e-processamento de imagens. Fonte: (SZELISKI, 2010)

As duas primeiras etapas, de aquisi¸cão e pré-processamento, são corriqueiras e feitas basicamente da mesma forma para os SVCs convencionais. Já a etapa de extra¸cão de caracter´ıstica possui mais varia¸cões, sendo a de deteçcão de contornos o método mais comum nos softwares comerciais (MARTIN et al., 2004).

Os contornos são definidos como as fronteiras entre regiões de diferentes cores, intensidades e texturas (SZELISKI, 2010), e uma das formas de estimar a região dos contornos utiliza o vetor gradiente da intensidade de brilho. O gradiente é um vetor que indica o sentido e a dire¸cão na qual se obtém o maior incremento poss´ıvel no valor de uma grandeza. A Figura 3 apresenta dois exemplos nos quais a grandeza analisada é a intensidade de brilho (tons de cinza), sendo preto o valor mais alto, com os respectivos gradientes representados pelas setas. Nesse caso, o contorno é perpendicular aos gradientes de maior magnitude, i. e., nos quais existe a maior altera¸cão de intensidade entre dois pontos (AGGARWAL et al., 2018).

Figura 3: Exemplo de gradiente da intensidade de brilho. Fonte: (WIKIPEDIA, 2019b)

Comercialmente, para diminuir a complexidade do SVC e potencializar seu uso, os métodos mais aplicados são foto compara¸cão e deteçcão de contornos (COGNEX, 2019;

(17)

KEYENCE, 2019; WENGLOR, 2019), exemplificados pelas Figuras 4 e 5, respectivamente dos SVCs desenvolvidos pela Cognex1 e Keyence2. A Figura 4(a) exibe uma imagem aceita pelo sistema de foto compara¸cão, enquanto que a Figura 4(b) exibe uma imagem rejeitada, em virtude da obstru¸cão parcial de uma das regiões analisadas. Já a Figura 5(a) exibe uma compara¸cão de contornos aceita, enquanto que a Figura 5(b) mostra uma imagem rejeitada, cujo o contorno está fora do padrão do gabarito.

(a) Imagem aceita. (b) Imagem rejeitada.

Figura 4: Exemplo de foto compara¸c˜ao do SVC da Cognex.

(a) Imagem aceita. (b) Imagem rejeitada.

Figura 5: Exemplo de compara¸c˜ao de contornos do SVC da Keyence.

Nesse caso, para diminuir a interferência do ambiente, o sistema de aquisi¸cão é complementado com equipamentos especiais de ilumina¸cão. A Figura 6 exibe um hardware de SVC comercializado pela Keyence (2019), que utiliza uma câmera monocromática com um sistema de ilumina¸cão por quadrantes e de múltiplos espectros. Nesse sistema, a imagem final é composta por fotos capturadas sob 8 espectros de ilumina¸cão em 4 pontos de incidência diferentes, totalizando 32 aquisi¸cões. Consequentemente, esse sistema de ilumina¸cão limita a distância operacional e o campo de visão da câmera.

1_{A Cognex Corporation ´}_{e um fabricante americano de sistemas de vis˜}_{ao de m´}_{aquina, software e sensores}

usados na fabrica¸c˜ao automatizada para inspecionar e identificar pe¸cas, detectar defeitos, verificar a montagem do produto e guiar robˆos de montagem (COGNEX, 2019).

2_{A Keyence ´}_{e uma fabricante de sensores, sistemas de vis˜}_{ao por m´}_{aquina, instrumentos de medi¸}_c˜_ao,

(18)

Figura 6: SVC multiespectral Keyence. Fonte: (KEYENCE, 2019)

Apesar da relevância prática, os SVCs convencionais apresentam algumas li-mita¸cões, como, por exemplo, a defini¸cão manual do gabarito para classifica¸cão, dos métodos de pré-processamento e dos ajustes de ilumina¸cão, tarefas que dependem de um especialista para que os parâmetros sejam configurados adequadamente para cada aplica¸cão. Outra limita¸cão desses sistemas está na etapa de classifica¸cão, pois o limiar é definido de acordo com a percep¸cão humana, exigindo experiência na aplica¸cão. Esses aspectos podem ser contornados por sistemas de aprendizado, apresentados a seguir.

2.2 APRENDIZAGEM DE M ´AQUINA

Uma alternativa para substituir os métodos de reconhecimento de padrão con-vencionais, puramente comparativos, se baseia no uso de inteligência artificial (IA). Esse conceito envolve uma coletânea de métodos voltados para modelar e imitar a inteligência humana, no sentido de otimizar alguma análise sem a necessidade de compreensão pro-funda do seu comportamento f´ısico (WANG et al., 2018). As primeiras metodologias de IA surgiram da união dos estudos em ciência da computa¸cão e métodos estat´ısticos, e fo-ram enquadradas na categoria de ML, ou aprendizagem de máquina. Define-se ML como o conjunto de algoritmos e modelos estat´ısticos utilizados para executar uma tarefa sem a programa¸cão de instru¸cões espec´ıficas (BISHOP, 2006).

Segundo (BISHOP, 2006), as abordagens de ML podem ser divididas de acordo com seu mecanismo de aprendizado, sendo:

(19)

• Supervisionado, em que um conjunto de dados classificado manualmente, chamado base de treino, ´e utilizado para ensinar um modelo a detectar diferen¸cas entre classes ou valores;

• Não supervisionado, que aprendem diretamente de dados não catalogados, obser-vando similaridades entre os dados para agrupá-los;

• Semi supervisionado, que utilizam para treino uma quantidade de dados n˜ao cata-logados maior que a quantidade de dados catacata-logados;

• Refor¸co, que otimiza uma fun¸cão para uma tarefa espec´ıfica, recebendo uma ava-lia¸cão para cada a¸cão como um indicador do rumo correto do aprendizado.

Dentre as abordagens consideradas comuns na área de ML estão: árvores de decisão (SAFAVIAN; LANDGREBE, 1991), redes bayesianas (FRIEDMAN et al., 1997), regressão log´ıstica (HOSMER Jr et al., 2013), support vector machine (SVM) (SUYKENS; VANDEWALLE, 1999) e deep learning (DL) (GOODFELLOW et al., 2016). Em especial, a abordagem por DL é de interesse particular desse trabalho, e será discutida em detalhes nas próximas se¸cões, em cima das caracter´ısticas e lacunas do ML discutidos aqui.

Ainda que os m´etodos supervisionados e semi supervisionados de DL, especifi-camente, necessitem de uma classifica¸c˜ao manual para criar a base de dados, essa tarefa consiste apenas em rotular uma imagem com o tipo de classe que ela representa, sem a necessidade de evidenciar caracter´ısticas espec´ıficas (ESSID et al., 2018).

O diferencial que os métodos de ML trazem para o fluxo de um SVC convenci-onal é a altera¸cão das etapas de extra¸cão de caracter´ısticas, deteçcão e classifica¸cão. As abordagens de ML consistem em, inicialmente, realizar a transforma¸cão da representa¸cão de conhecimento da imagem (i.e. representa¸cão em frequências, estat´ısticas, etc.), e então usar esses dados como caracter´ısticas de entrada para um algoritmo de classifica¸cão (SVM, regressão logistica, etc.). Porém, ainda é necessário que um especialista defina a melhor forma de representa¸cão da imagem e, posteriormente, a forma de extra¸cão das carac-ter´ısticas, que dependem de cada aplica¸cão. É nesse contexto que surgem os sistemas baseados em DL, que visam tornar tais tarefas independentes da percep¸cão humana.

As redes neurais artificiais (RNAs) são o núcleo das abordagens por DL, apre-sentadas na próxima se¸cão. Buscando uma solu¸cão que não exija conhecimento de um especialista para manuseio, seja da aplica¸cão ou da manipula¸cão da imagem, esse trabalho se baseia em uma alternativa definida pela abordagem de DL.

(20)

primeiro é necessário entender os conceitos de uma Rede Neural Artificial (RNA). Os estudos sobre RNAs remontam à década de 40, conforme ilustra a Tabela 1, que sumariza as tendências de desenvolvimento e as metodologias t´ıpicas dessa área.

Tabela 1: Progresso e tendˆencias de desenvolvimento de RNAs

Linha do Tempo Metodologia Referˆencia Per´ıodo inicial

(1940)

MP model (MCCULLOCH; PITTS, 1943) Hebb rule (SAMUEL, 1988)

Primeiro frenesim (1960)

Perceptron (ROSENBLATT, 1960) Adaptative Linear Unit (WIDROW; HOFF, 1960) Multi-Layer Perceptron (IVAKHNENKO; LAPA, 1967) Segundo frenesim

(1980)

Hopfield network circuit (TANK; HOPFIELD, 1987) Back Propagation (WERBOS et al., 1990) Boltzmann Machine (SUSSMANN, 1988) Restricted Boltzmann Machine (SMOLENSKY, 1986) Auto Encoder (RUMELHART et al., 1986)

Terceiro frenesim (2000)

Recurrent Neural Network (HIHI; BENGIO, 1996)

Long short-term Memory (HOCHREITER; SCHMIDHUBER, 1997) Convolutional Neural Network (LECUN et al., 1998)

Deep Belief Network (HINTON; SALAKHUTDINOV, 2006; HINTON et al., 2006) Deep Auto Encoder (DENG et al., 2010)

Sparse Auto Encoder (POULTNEY et al., 2007; BOUREAU et al., 2008) Deep Boltzmann Machine (SALAKHUTDINOV; HINTON, 2009)

Denosing Auto Encoder (VINCENT et al., 2010) Deep Convolutional Neural Network (KRIZHEVSKY et al., 2012) Generative Adversarial Network (GOODFELLOW et al., 2014) Attention-based LSTM (WANG et al., 2016)

Fonte: Adaptado de (WANG et al., 2018).

Os trabalhos de McCulloch e Pitts (1943) e Samuel (1988) deram origem aos estu-dos de RNA, com pesquisas discutindo o funcionamento estu-dos neurônios no cérebro humano para classifica¸cão. Baseado nessas pesquisas, Rosenblatt (1960) propôs o primeiro modelo de RNA, chamado perceptron, para simular o aprendizado humano com otimiza¸cão linear. A Figura 7 apresenta um exemplo de neurônio perceptron e seus seguintes componentes:

• Entradas: valores num´ericos representados por 1, x1, x2, ..., xm. Normalmente uma

entrada ´e unit´aria e constante;

• Pesos: coeficientes representados por w0, w1, w2, ..., wm. O coeficiente w0 pondera a

entrada constante, denominado de bias;

• Soma: soma ponderada das entradas pelos respectivos coeficientes, representada por Σ gerando o valor num´erico z;

(21)

• Fun¸cão de ativa¸cão: representada por σ, essa fun¸cão transforma a representa¸cão de z em um valor a, mapeado para uma classe binária.

Figura 7: Neurˆonio Perceptron. Fonte: Adaptado de (RASCHKA, 2019)

Após a cria¸cão do perceptron, o trabalho de Widrow e Hoff (1960) propôs um novo modelo chamado de Adaptative Linear Unit, ou ADALINE, que foi usado em sistemas de previsão do tempo. Esse modelo modifica a fun¸cão de ativa¸cão do perceptron, antes binária, para uma ativa¸cão linear. Porém, esses modelos apresentam a limita¸cão de lidar apenas com problemas lineares de classifica¸cão (MINSKY; PAPERT, 2017).

Novas implementa¸cões para as células e fun¸cões de ativa¸cão foram desenvolvidas. Segundo Goodfellow et al. (2016), as fun¸cões de ativa¸cão mais utilizadas são: step binário (eq. (1)), linear (eq. (2)), na qual c é uma constante, sigmoid (eq. (3)) e rectified linear unit (ReLU) (eq. (4)). A Figura 8 exibe o gráfico de sa´ıda das fun¸cões descritas.

σ(x) =    0, se x < 0; 1, se x ≥ 0. (1) σ(x) = cx. (2) σ(x) = 1 1 + e−x. (3) σ(x) =    0, se x < 0; x, se x ≥ 0. (4)

Para trabalhar com problemas mais complexos e n˜ao lineares, o conceito de RNA surgiu com o trabalho de Ivakhnenko e Lapa (1967), com o encadeamento de neurˆonios

(22)

Figura 8: Fun¸c˜oes de ativa¸c˜ao. Fonte: (WIKIPEDIA, 2019a)

perceptron, de forma que a sa´ıda de uma fun¸c˜ao de ativa¸c˜ao se tornasse a entrada de outra soma. Essa metodologia foi denominada de Multi-Layer Perceptron.

A Figura 9 apresenta um exemplo de uma RNA feed foward, na qual a rede não forma ciclos com os sinais de entrada e sa´ıda. Nessa imagem, cada vértice, ou célula, representa a estrutura completa de um neurônio, e cada aresta, ou seta, representa um vetor de sinais (entrada e sa´ıda). O termo camada oculta define o conjunto de neurônios internos da RNA, ou seja, camadas que não recebem diretamente a entrada ou que não geram diretamente a resposta final. As opera¸cões e a sequência das camadas de uma RNA definem sua arquitetura.

Figura 9: Exemplo de uma RNA.

No contexto de múltiplas camadas, a fun¸cão de ativa¸cão da camada de sa´ıda deve ser capaz de discretizar o resultado em classes. Alguns métodos geram uma distribui¸cão de probabilidade, como, por exemplo, a fun¸cão gaussiana (eq. (5)). Atualmente, é bastante comum o uso da fun¸cão de ativa¸cão softmax (eq. (6)), para problemas com mais de três classes (ZHAO et al., 2019). Diferente das demais, a fun¸cão softmax gera um vetor de distribui¸cão de probabilidade para as K classes do sistema. Essa probabilidade determina o grau de confian¸ca da RNA para a classifica¸cão.

(23)

sof tmax(x) = e

xi PK

j=1exj

para i = 1, ..., K. (6)

Das RNAs compostas por várias camadas ocultas nasce a subárea de DL, abor-dada na próxima se¸cão.

2.4 DEEP LEARNING

Deep learning é uma parte dos métodos de ML baseados em representa¸cão de dados, que consiste em imitar o funcionamento do cérebro humano no processamento de dado e na cria¸cão de padrões (GOODFELLOW et al., 2016). Também pode ser definido como o conjunto de RNAs com várias camadas ocultas.

O trabalho de Ivakhnenko e Lapa (1967) ´e considerado como o pioneiro nessa ´

area de pesquisa. Porém, somente em 1971 foi abordado o conceito de aprendizado pro-fundo, com uma rede neural de aprendizado profundo contendo oito camadas e treinada utilizando um conjunto de equa¸cões para otimizar os dados (IVAKHNENKO, 1971). Esse conjunto de equa¸cões é denominado Group Method of Data Handling (GMDH) (IVAKH-NENKO, 1968).

Com uma alternativa ao GMDH, Werbos et al. (1990) propõem o algoritmo de Back Propagation (BP). Esse algoritmo consiste em um método de computar analitica-mente a derivada do erro para cada peso da rede neural, também chamado de gradiente. O erro é definido por uma fun¸cão, denominada de fun¸cão de loss ou fun¸cão de custo.

A minimiza¸cão da fun¸cão de loss consiste em um processo de otimiza¸cão dos parâmetros da rede neural. Os métodos de gradiente descendente são considerados os mais populares como otimizadores para DL, atualizando os pesos no sentido oposto ao gradiente da fun¸cão de custo, ponderados por um coeficiente η que determina o tamanho do passo em dire¸cão ao ponto m´ınimo, denominado de learning rate. Alguns dos métodos mais comuns são Stochastic Gradient Descent (SGD), Momentum, AdaGrad, RMSProp e Adam (GOODFELLOW et al., 2016).

Esse trabalho faz uso do Root Mean Square Propogation (RMSprop) com coefici-ente α de momento, que consiste em um método com learning rate adaptativo, dividindo por uma média exponencial do quadrado dos gradientes que permite uma convergência rápida e diminui a chance de divergência (GOODFELLOW et al., 2016). Esse algoritmo se diferencia por aplicar um learning rate diferente para cada parâmetro, levando em

(24)

con-vt = ρvt−1+ (ρ − 1) ∗ gt2. (7) ∆wt= α∆wt−1− η √ vt+ ∗ gt. (8) wt+1= wt+ ∆wt. (9)

Na eq. (7) é calculada a média exponencial v do quadrado do gradiente g no tempo t, ponderado pela taxa de decaimento ρ. Esse valor é utilizado na eq. (8) dividindo o valor do learning rate inicial η multiplicado pelo gradiente, para calcular a próxima velocidade de passo ∆w. Ainda na eq. (8), é utilizado um coeficiente α para considerar o momento relativo ao passo anterior e um valor para evitar divisão por zero. Por fim, a eq. (9) é utilizada para atualizar os parâmetros w.

Algumas fun¸cões comuns para minimiza¸cão são: fun¸cão softmax, fun¸cão 0 − 1, fun¸cões quadráticas e fun¸cão L1smooth. A fun¸cão 0 − 1 consiste em indicar um caminho

pré definido para o gradiente, enquanto o valor previsto for diferente do valor real. Um exemplo de fun¸cão quadrática é a fun¸cão dos m´ınimos quadrados, utilizada para indicar a distância relativa da previsão e do alvo. A fun¸cão L1smooth está descrita na eq. (10),

na qual α ´e um coeficiente que interfere na velocidade de deslocamento do gradiente, normalmente definido como 1.

L1smooth(x) =      |x|, se |x| > α; 1 |α|x 2_, _{se |x| ≤ α.} (10)

No per´ıodo atual, após o ano 2000, as pesquisas se direcionaram para o desenvol-vimento de novas arquiteturas de DL (WANG et al., 2018). A escolha de uma arquitetura depende da aplica¸cão e, além de ser determinante para o resultado, define inclusive o método de aprendizado (supervisionado, não supervisionado, etc.).

Um outro marco relevante, no per´ıodo mais recente de desenvolvimento de RNAs, foi a adapta¸cão dos métodos para reconhecerem padrões em imagens (LECUN et al., 1998). O uso de DL em SVCs é apresentado a seguir.

(25)

2.5 SVC COM DEEP LEARNING

O desenvolvimento de arquiteturas de DL voltadas especificamente para SVCs iniciou com o trabalho de Fukushima (1980), que explora uma arquitetura de aprendizado n˜ao supervisionado para reconhecer similaridades geom´etricas.

No contexto de aprendizado supervisionado, LeCun et al. (1989) desenvolveu um conjunto de restri¸cões nas entradas de uma RNA, utilizando o algoritmo de BP para aprendizado, com o objetivo de reconhecer números escritos manualmente em uma imagem de 16 × 16 pixels. No seu trabalho seguinte, o algoritmo foi aplicado ao reconhecimento de números escritos manualmente no servi¸co postal americano (LECUN et al., 1989).

Porém, a metodologia base para as aplica¸cões atuais, de DL para reconhecimento de padrões em imagens, surgiu em 1998, denominada de Convolutional Neural Network (CNN) (LECUN et al., 1998). Essa técnica adiciona camadas de processamento de ima-gens no in´ıcio da RNA, abstraindo as caracter´ısticas que otimizam a diferencia¸cão das imagens. Esse método de processamento de imagem também é chamado de solu¸cão end-to-end, pois otimiza autonomamente o pré-processamento, a extra¸cão de caracter´ısticas e o reconhecimento de padrões (WANG et al., 2018). A principal vantagem desse tipo de solu¸cão está na redu¸cão de etapas de defini¸cão manual, como, por exemplo, a escolha dos extratores de caracter´ısticas e dos algoritmos de classifica¸cão.

As camadas adicionais das CNNs são compostas por opera¸cões de convolu¸cão e pooling, apresentadas a seguir.

2.5.1 CONVOLUC¸ ˜AO

A convolu¸cão é formalmente definida como na eq. (11), como um operador linear que, a partir de duas fun¸cões dadas, resulta numa terceira que mede a soma do produto dessas fun¸cões ao longo da região subentendida pela superposi¸cão delas, em fun¸cão do deslocamento existente entre elas, na qual t é a variável independente e a o deslocamento (GOODFELLOW et al., 2016). No contexto desse trabalho, a fun¸cão i refere-se à imagem de entrada, e k define o filtro de extra¸cão de caracter´ısticas, também chamado de kernel. A sa´ıda s é chamada de mapa de caracter´ısticas.

s(t) = Z

i(a)k(t − a)da. (11)

(26)

s(t) = i(t) ∗ k(t) =

∞

X

a=−∞

i(a)k(t − a). (12)

Considerando que a convolu¸cão é realizada em mais de um eixo por vez para cada canal, em uma imagem com dimensões m × n, a opera¸cão pode ser definida como na eq. (13). A comutatividade na opera¸cão simboliza uma rota¸cão do kernel, durante a convolu¸cão, que, apesar de facilitar a manipula¸cão dos dados, não influencia diretamente no resultado (GOODFELLOW et al., 2016).

S(i, j) = I(i, j) ∗ K(i, j) =

m X i=0 n X j=0 I(i − m, j − n)K(m, n). (13)

A fun¸cão que realiza a opera¸cão de convolu¸cão compensando a rota¸cão do kernel é denominada cross-correlation. Essa fun¸cão é comumente referida apenas como convolu¸cão (GOODFELLOW et al., 2016). A eq. (14) apresenta a fun¸cão cross-correlation, ilustrada por um exemplo na Figura 10, com uma entrada 4 × 3 e um kernel 2 × 2.

S(i, j) = I(i, j) ∗ K(i, j) =

m X i=0 n X j=0 I(i + m, j + n)K(m, n). (14)

A taxa de deslocamento do kernel sobre a entrada é chamada de stride. Por padrão, a convolu¸cão realiza um deslocamento de uma unidade, porém isso pode ser alte-rado (ZHAO et al., 2019). O deslocamento só é realizado enquanto o kernel está contido nas dimensões da entrada. Como resultado, a convolu¸cão é capaz de extrair caracter´ısticas da imagem para representá-la de forma abstrata. Porém, não é naturalmente invariante à altera¸cões de escala e rota¸cão (GOODFELLOW et al., 2016). Para auxiliar nesse processo, normalmente é utilizada a opera¸cão de pooling concatenada às sa´ıdas de cada convolu¸cão.

2.5.2 POOLING

A opera¸cão de pooling acompanha as convolu¸cões em uma CNN, normalmente alocada após cada convolu¸cão. Essa opera¸cão substitui a representa¸cão de uma região da sa´ıda da convolu¸cão por um valor estat´ıstico. Segundo Goodfellow et al. (2016), as fun¸cões de pooling mais populares são:

(27)

Figura 10: Exemplo de convolu¸c˜ao com cross-correlation. Fonte: (GOODFELLOW et al., 2016)

• Max pooling: seleciona o maior valor dentro da regi˜ao de pooling;

• Average pooling: utiliza a m´edia dos valores dentro da regi˜ao de pooling;

• Average pooling ponderado: utiliza uma média ponderada pela distância do pixel central da região de pooling;

• Norma L2: utiliza a norma Euclidiana dos valores da regi˜ao de pooling.

A Figura 11 apresenta um exemplo de pooling, analisando uma regi˜ao de di-mens˜oes 2 × 2 com stride 2, aplicando max pooling e average pooling.

Essa opera¸cão torna a representa¸cão invariante à pequenas transla¸cões na entrada, ou seja, se for realizada uma modifica¸cão no posicionamento da entrada, a representa¸cão após o pooling terá poucas altera¸cões. Além disso, a redu¸cão de dimensão melhora a eficiência da RNA e reduz a quantidade de memória necessária para o processamento (GOODFELLOW et al., 2016). Logo, os componentes para definir uma arquitetura de CNN são: camadas de convolu¸cão, pooling e RNA. A seguir são exibidos exemplos de CNNs e suas aplica¸cões.

(28)

(a) Original. (b) Max po-oling.

(c) Average pooling.

Figura 11: Exemplo de pooling.

Fonte: Adaptado de (Stanford University, 2017)

2.5.3 REDE NEURAL DE CONVOLUC¸ ˜AO

Os diferentes tipos de CNNs derivam da varia¸cão da topologia utilizada para encadear convolu¸cão, pooling e RNA de classifica¸cão. A Figura 12 exibe a arquitetura original da CNN proposta por LeCun et al. (1998), composta por duas camadas de con-volu¸cão e pooling, duas camadas fully connected e uma camada com fun¸cão de ativa¸cão gaussiana. Essa arquitetura inicialmente reduz as caracter´ısticas da imagem em 16 mapas de caracter´ısticas de 5 × 5 pixels, através das opera¸cões de convolu¸cão e pooling. Após a redu¸cão, são aplicadas duas camadas de RNA fully connected, RNAs em que toda célula possui conexão com todas as células da camada seguinte. Por fim, uma camada com fun¸cão de ativa¸cão gaussiana reduz as respostas para 10 sinais de sa´ıda.

Figura 12: Exemplo da arquitetura de uma CNN. Fonte: (LECUN et al., 1998)

A partir de varia¸cões de arquiteturas de CNN, diferentes métodos de aprendizado e de representa¸cão de dados podem ser estabelecidos, aplicados em diferentes contextos. De acordo com Zhao et al. (2019), os problemas podem ser divididos em:

(29)

• Deteçcão de objetos, quando o interesse é definir a classe e a localiza¸cão de múltiplos objetos na imagem, cada qual delimitado por um retângulo (bounding box );

• Segmenta¸cão semântica, com a meta de determinar a classe do objeto e a por¸cão exata que este ocupa na imagem, normalmente por classifica¸cão pixel a pixel ou por delimita¸cão de região com pol´ıgonos.

Nesta disserta¸cão é explorado um algoritmo de DL supervisionado para deteçcão de objetos. Quando supervisionados, esses algoritmos requerem um conjunto de imagens como base de treino. Além das imagens, devem ser identificadas a região e a classe de cada objeto. Essa identifica¸cão consiste apenas em definir uma bounding box que delimite o objeto alvo (ground truth), e sua respectiva classe (KRIZHEVSKY et al., 2012).

Os métodos de deteçcão de objetos podem ser divididos em duas categorias: as baseadas em análise de região (region proposal based ); e as baseadas em regressão e classifica¸cão (regression/classification based ) (ZHAO et al., 2019). Um fluxo evolutivo dessas duas vertentes é mostrado na Figura 13.

Figura 13: Modelos de DL para detec¸c˜ao de objetos. Fonte: (ZHAO et al., 2019)

Os algoritmos baseados em análise de região simulam um comportamento do cérebro humano, de observa¸cão em várias etapas. Essas etapas incluem: uma varredura na imagem, para identificar regiões de interesse; a extra¸cão de caracter´ısticas com CNN; e então a classifica¸cão e regressão para determinar a bouding box, normalmente treinada separadamente (ZHAO et al., 2019). Entre os trabalhos que se enquadram nessa cate-goria, o Overfeat (SERMANET et al., 2013) percorre a imagem utilizando uma CNN com dimensões menores, classificando por¸cões da imagem com um grau de confian¸ca, e então agrupa as regiões similares para demarcar a localiza¸cão dos objetos. Já o R-CNN (GIRSHICK et al., 2014) é dividido em três etapas: primeiro realiza uma varredura bottom-up para marcar as regiões de interesse; extrai as caracter´ısticas de cada região,

(30)

(LIN et al., 2017) e Mask R-CNN (HE et al., 2017). Porém, o tempo necessário para lidar com todas as etapas se tornou o gargalo para a aplica¸cão dessas arquiteturas em proble-mas de análise em tempo real (ZHAO et al., 2019). Industrialmente, o limiar de tempo, para determinar uma análise em tempo real, deve ser de até um segundo, podendo chegar `

a uma restri¸c˜ao de milissegundos em produ¸c˜oes de alta velocidade (HATLEY; PIRBHAI, 2013).

Enquanto que os métodos baseados em análise de região usam um conjunto de RNA e abordagens de ML tradicional para compor o processo de deteçcão, os métodos baseados em regressão e classifica¸cão realizam a localiza¸cão com uma arquitetura única, por isso são chamados de solu¸cão end-to-end. Esse método foi desenvolvido para reduzir o tempo de processamento. Uma das arquiteturas mais conhecidas dessa categoria é a you only look once (YOLO) (REDMON et al., 2016). Essa arquitetura divide a imagem de entrada em uma grade de S × S células, cada uma responsável por prever B bounding boxes e suas respectivas probabilidades de classes. A ideia geral do YOLO é apresentada na Figura 14, inicialmente dividindo a imagem, executando tanto a gera¸cão dos bounding boxes quanto o mapeamento da probabilidade das classe em cada célula, e então finali-zando com a jun¸cão das informa¸cões para detectar os objetos. Porém, essa arquitetura tem dificuldades em lidar com o agrupamento de objetos pequenos, devido às restri¸cões na implementa¸cão da varredura por bouding boxes (SAMUEL, 1988).

Figura 14: Exemplo de execu¸c˜ao do YOLO. Fonte: (REDMON et al., 2016)

(31)

Outras arquiteturas também inclusas nessa categoria são: MultiBox (ERHAN et al., 2014), AttentionNet (YOO et al., 2015), G-CNN (NAJIBI et al., 2016), SSD (LIU et al., 2016), YOLOv2 (REDMON; FARHADI, 2017), DSSD (FU et al., 2017) and DSOD (SHEN et al., 2017). Dentre essas, a arquitetura single shot detection (SSD) é tida como a concorrente direta do YOLO, como uma alternativa para tratar o problema na deteçcão de objetos pequenos e sobrepostos. O SSD foi selecionado para o desenvolvimento dessa disserta¸cão por afinidade e facilidade na manipula¸cão da API, e é abordado em detalhes no Cap´ıtulo 3.

Independente da categoria de algoritmo utilizado, para tornar o modelo de de-teçcão de objetos generalista o suficiente, é necessário uma base de dados que represente as diferentes situa¸cões em que ele irá atuar. Logo, quanto menos controlado o ambiente, maior deve ser o conjunto de imagens para treino (GOODFELLOW et al., 2016). Porém, existem métodos de extrapola¸cão de dados que criam situa¸cões de luz e distor¸cão para uma mesma imagem, chamados de data augmentation, permitindo reduzir a quantidade de imagens reais utilizadas na base de treino (TELLEZ et al., 2019; CRISPELL et al., 2017). Essa técnica de extrapola¸cão é utilizada nessa disserta¸cão.

De acordo com Goodfellow et al. (2016), o procedimento de aprendizado e atua-liza¸c˜ao dos pesos e filtros em CNNs pode ser:

• Por Batch: atualiza¸c˜ao ap´os avaliar todo o conjunto de imagens;

• Por Mini-batch: atualiza¸c˜ao ap´os avaliar subconjuntos menores de imagens;

• Estocástico: atualiza¸cão realizada após avaliar cada imagem.

Nesse contexto, uma época, ou step, configura o final de um ciclo de atualiza¸cão dos pesos e filtros. O aprendizado estocástico não é adequado pois, ao utilizar apenas um ponto para recalcular o gradiente, pode causar muitas varia¸cões e dificultar a con-vergência. Já o aprendizado em batch não é adequado para DL, pois este utiliza uma quantidade grande de dados para treino e torna o processo de aprendizagem lento. Por fim, o aprendizado por mini-batch busca ser mais rápido que o aprendizado em batch e mais preciso que o aprendizado estocástico. O gráfico de loss em fun¸cão das épocas é comumente utilizado para avaliar a convergência do aprendizado.

Baseado nos conceitos exibidos, a pr´oxima se¸c˜ao sumariza e ressalta as diferen¸cas do uso de ML tradicional e DL nos SVCs.

(32)

variáveis do ambiente, como, por exemplo, ilumina¸cão e fixa¸cão da pe¸ca. Como alter-nativa, os métodos baseados em ML e DL adicionam robustez quanto à essas variáveis. Ambos consistem em técnicas de IA úteis para modelar a correla¸cão entre entrada e sa´ıda de um SVC. Ainda, DL possui vantagens adicionais quanto ao ML, em termos de extra¸cão de caracter´ısticas, classifica¸cão e treino do modelo. Os processos de aprendizado com ML e DL são exibidos na Figura 15.

(a) Processo de aprendizado por ML tradicional.

(b) Processo de aprendizado por DL.

Figura 15: Compara¸c˜ao entre ML e DL. Fonte: Adaptado de (WANG et al., 2018)

A ML tradicional realiza a extra¸cão de caracter´ısticas e a constru¸cão do mo-delo de classifica¸cão separadamente, como ilustrado pela Figura 15 (a). Inicialmente, as caracter´ısticas são extra´ıdas por um processo de altera¸cão na representa¸cão da imagem (estat´ıstico, frequência, etc.) e sele¸cão das informa¸cões representativas, tarefas computa-cionalmente custosas e dependentes da percep¸cão de um especialista. Após isso, métodos de redu¸cão de dimensionalidade são utilizados para selecionar as caracter´ısticas relevan-tes, que são utilizadas como entrada para os métodos de classifica¸cão (regressão, SVM, RNA, etc.) (BISHOP, 2006).

Em contrapartida, o DL integra a extra¸cão e sele¸cão de caracter´ısticas ao apren-dizado do modelo de classifica¸cão, otimizando os parâmetros de forma automática. Essa solu¸cão, denominada end-to-end, utiliza as várias camadas ocultas para extrair uma re-presenta¸cão abstrata das caracter´ısticas, selecionando a cada camada as informa¸cões mais relevantes. Por exemplo, caracter´ısticas como contorno, textura e formas, são abstra´ıdas

(33)

de uma imagem camada a camada. Essas caracter´ısticas servem de entrada para um clas-sificador, localizado ao fim da mesma estrutura da CNN que as selecionou. Esse processo ´e ilustrado na Figura 15 (b). Logo, o DL entrega uma estrutura de IA com o m´ınimo de interferˆencia humana.

Apesar do potencial prático, o uso de técnicas de DL (ou IA no sentido mais amplo) para fins de opera¸cão industrial ainda é bastante limitado. A próxima se¸cão faz um apanhado das principais aplica¸cões práticas existentes no enlace DL e indústria. Nela, pode-se constatar o ainda inexplorado potencial de contribui¸cão e de avan¸cos que a área de DL pode agregar aos sistemas industriais atuais.

2.7 APLICAC¸ ˜OES EM SISTEMAS INDUSTRIAIS

O uso de ML e DL em ambientes industriais é recente. As aplica¸cões mais comuns estão ligadas a análise de dados, utilizando como base os valores gerados pelos componen-tes do chão de fábrica, como sensores e atuadores (WANG et al., 2018). A importância da modelagem e análise de dados para o futuro da industria é discutida por Esmaeilian et al. (2016b) e Kang et al. (2016), e as aplica¸cões da minera¸cão de dados em linhas de manufatura são sumarizadas por Harding et al. (2006), abordando aspectos, sobretudo, como: otimiza¸cão de processos e opera¸cões; previsão de defeitos e de manuten¸cão; su-porte à decisão; e melhoria de qualidade do produto. Focando no setor automobil´ıstico, Escobar e Morales-Menendez (2018), por exemplo, propõem o uso de DL para identificar problemas na fabrica¸cão de baterias de carro, analisando 54 caracter´ısticas providas por sensores.

No contexto de SVCs, as aplica¸cões industriais com uso de IA exploram, sobre-tudo, as áreas de inspe¸cão de qualidade e diagnóstico de falhas. Como exemplo, o trabalho de (SEMENIUTA et al., 2016) sugere um sistema com múltiplas câmeras para inspe¸cão de qualidade de pequenas arruelas, com o objetivo de reduzir a interferência da reflexão de luz, no qual cada imagem possui um tratamento de ML diferente. Nurhadiyatna et al. (2017) e Prakasa et al. (2015) utilizam métodos de deteçcão de contornos baseado em ML, para encontrar defeitos como arranhões e marcas em superf´ıcies. Weixin et al. (2017) utiliza transformada wavelet e SVM para detectar pilares de constru¸cão com defeitos.

Entre os SVCs com o uso de DL, Gibert et al. (2017) propuseram uma arquitetura de CNN para identificar defeitos em trilhos de trem, avaliando a presen¸ca de componentes e pe¸cas quebradas. Tello et al. (2018) apresentaram a identifica¸c˜ao do padr˜ao de defeitos

(34)

defeitos em placas de circuito integrado. Li et al. (2018) propuseram uma arquitetura de DL descentralizada, com fog computing, para deteçcão de defeitos em superf´ıcies. Lee e Kim (2016) para encontrar os números de identifica¸cão de placas em uma indústria, onde a impressão dos caracteres é irregular. O trabalho de Essid et al. (2018) utiliza uma CNN para encontrar defeitos na moldagem de latas de metal, focado especificamente no acabamento do objeto. Além desses, outros trabalhos que utilizam especificamente CNN para deteçcão de defeitos e diagnóstico de maquinários, são descritos por Weimer et al. (2016), Verstraete et al. (2017), Lu et al. (2017a) e Ren et al. (2018).

Ainda, alguns trabalhos propõem o uso de diferentes arquiteturas para solucionar tais problemas. Jia et al. (2016), Lu et al. (2017b), Shao et al. (2017), Guo et al. (2017) e Chen et al. (2017) se baseiam na arquitetura dos Auto Encoders, uma classe de RNAs de aprendizado não supervisionado. Zhao et al. (2017), Wu et al. (2018) e Zhao et al. (2018) utilizam Redes Neurais Recorrentes, que, diferente das RNAs feed foward, possuem células com ciclos de sinais de ativa¸cão. Por fim, Qiu et al. (2014), Xie et al. (2015), Yin e Zhao (2016), Li et al. (2016), Wang et al. (2017) e Zhang et al. (2017) fazem uso das Deep Belief Networks, classe de arquiteturas que utilizam fun¸cões de ativa¸cão probabil´ısticas nas camadas ocultas.

Algumas constata¸cões podem ser feitas após a análise desses trabalhos. Por exem-plo, a análise, em geral, envolve uma pequena área do componente avaliado, para evitar interferências do ambiente e extrair caracter´ısticas apenas do componente alvo. Em ou-tras palavas, o campo de visão é muito restrito, e requer múltiplas capturas para avaliar a pe¸ca inteira. Também, muitos restringem o ambiente com sistemas de ilumina¸cão de-dicados e enclausuramento para a aquisi¸cão das imagens. Além disso, alguns trabalhos desenvolvem suas próprias arquiteturas para otimizar a solu¸cão de problemas espec´ıficos, que não obtém resultados em aplica¸cões similares ou já foram superadas por arquiteturas atuais.

Nessa disserta¸cão, é explorado um arranjo de arquiteturas de CNNs consolidadas no estado da arte. Além disso, são utilizadas técnicas de data augmentation que possi-bilitam o treino do sistema com poucas imagens. E por fim, a análise é feita sobre um conjunto de frames, referente ao percurso da pe¸ca na esteira, e não apenas sobre uma ´

(35)

os resultados desse trabalho aplicáveis ao contexto de chão de fábrica.

Como consequências dessas escolhas, será mostrado que: a arquitetura proposta é capaz de realizar a análise em tempo real em um hardware de baixo custo; não há necessidade de reconfigurar o ambiente original, com, por exemplo, ilumina¸cão dedicada e parada obrigatória; e eliminam-se os erros de deteçcão.

(36)

Esse cap´ıtulo descreve a arquitetura proposta para identifica¸cão de múltiplos componentes em linha de manufatura automotiva, como alternativa aos SVCs convenci-onais. Para isso, é utilizada uma Application Programming Interface (API) de deteçcão de objetos, implementada com Tensorflow (HUANG et al., 2019).

Como arquitetura de deteçcão, esse trabalho aplica a Single Shot Detection (SSD) (LIU et al., 2016) integrada à MobileNet (HOWARD et al., 2017). A MobileNet atua como rede de convolu¸cão para extrair caracter´ısticas de imagens e o SSD é responsável pela varredura para detectar os objetos (HUANG et al., 2017).

A escolha dessas arquiteturas se justifica porque a conjun¸cão do SSD com a Mo-bileNet é indicada para tarefas implementadas em hardwares com limita¸cões de memória e processamento, como em aplica¸cões móveis de deteçcão em tempo real (HUANG et al., 2017).

3.1 DESCRIC¸ ˜AO DA ARQUITETURA

O SSD, proposto por Liu et al. (2016), é uma arquitetura derivada tanto de métodos baseados em regressão como de métodos baseados em proposta de região, como mostrado na Figura 13. Essa arquitetura é inspirada nos conceitos de anchor boxes (ERHAN et al., 2014), region proposal networks (RPN) (REN et al., 2015) e representa¸cão multi-escala (BELL et al., 2016).

Para lidar com objetos de diferentes tamanhos, essa arquitetura gera mapas de caracter´ıstica para a mesma imagem em diferentes resolu¸cões. Diferente do YOLO, o SSD divide os mapas de caracter´ıstica em grades, e utiliza RPN para encontrar regiões de interesse. O centro dessas regiões é denominado de âncora. Após isso, são projetadas n anchor boxes de diferentes tamanhos, centralizadas em cada âncora, que servem como um conjunto de bounding boxes iniciais para a deteçcão. Essas bounding boxes são ajustadas no decorrer do aprendizado, para condizerem com a disposi¸cão dos objetos. No final

(37)

da rede, ´e aplicado um algoritmo de Non Maximum Supression (NMS) para eliminar redundˆancias de bounding boxes sobre o mesmo objeto.

A Figura 16 exibe um exemplo de anchor boxes. A Figura 16 (a) exibe a imagem ground truth. A Figura 16 (b) representa dois conjuntos de anchor boxes definidos sobre as regiões de interesse, cada qual centrada em uma célula do mapa de caracter´ısticas. Ainda, cada anchor box possui informa¸cões de posi¸cão do centro, largura, altura, e um vetor que indica a confian¸ca de deteçcão de cada classe avaliada. As anchor boxes em azul indicam uma taxa de deteçcão alta em rela¸cão ao ground truth.

(a) Imagem original com localiza¸c˜ao (b) Anchor boxes

Figura 16: Exemplo de anchor boxes. Fonte: (LIU et al., 2016)

O SSD utiliza o ´ındice de Jaccard, também chamado de taxa de interseçcão sobre união (IoU ), para estimar a proximidade entre a bounding box detectada e o ground truth. O cálculo desse ´ındice é exibido na eq. (15), na qual AD é a área da bounding box detectada, AG é a área do ground truth e IA é a área da interseçcão de AD com AG. A Figura 17 mostra exemplos de sobreposi¸cão de áreas e seus respectivos valores de IoU , considerando o retângulo verde como ground truth e o retângulo vermelho como a deteçcão.

IoU = IA

(AD + AG − IA). (15)

A fun¸cão de loss (L) do SSD é definida pela eq. (16), como uma soma ponderada do loss da probabilidade de classifica¸cão (Lconf) (eq. (17)) e de localiza¸cão (Lloc) (eq.

(38)

(a) IoU = 0.4034 (b) IoU = 0.7330 (c) IoU = 0.9264

Figura 17: Exemplos de IoU .

Fonte: Adaptado de (ROSEBROCK, 2016)

• xk

ij = {0, 1} representa um indicador da existência de interseçcão entre a i − esima

bounding box detectada e a j − esima ground truth de classe k;

• p é um conjunto de probabilidades de deteçcão, das K classes analisadas pelo sis-tema;

• P os é o conjunto de deteçcões positivas, ou seja, bounding boxes detectadas (l) da mesma classe do ground truth (g) que satisfazem a uma taxa de IoU > 0.5, com suas respectivas probabilidades;

• N eg é o conjunto de deteçcões negativas, ou seja, de bounding boxes detectadas (l) que não satisfazem a uma taxa de IoU > 0.5 ou não são da mesma classe do ground truth (g), com suas respectivas probabilidades;

• N ´e a quantidade de elementos em P os;

• {h, w, cx, cy} definem um retˆangulo de altura h, largura w e centro (cx, cy);

• d representa os dados da anchor box mais pr´oxima do respectivo g.

A escolha do valor de limiar do IoU em 0.5 se baseia na defini¸cão emp´ırica proposta por Huang et al. (2017). Ainda, a eq. (18) possui sub-equa¸cões ˆg, que variam de acordo com o parâmetro da anchor box que está sendo avaliado, considerando as defini¸cões do retângulo {h, w, cx, cy}. L(x, p, l, g) = 1 N(Lconf(x, p) + Lloc(x, l, g)). (16) Lconf(x, p) = − N X i∈P os xk_ijlog(sof tmax(pk_i)) − X j∈N eg log(sof tmax(pj)). (17)

(39)

Lloc(x, l, g) = N X i∈P os X m∈{cx,cy,w,h} xk_ijL1smooth(lim− ˆg m j ). (18) ˆ gcx j = (gcx j − d cx i ) dw_i gˆ cy j = (gcy j − d cy i ) dh i ˆ gw_j = log(g w j dw i ) gˆh_j = log(g h j dh i )

Para cada bounding box detectada, o SSD prevê a probabilidade de classifica¸cão para todas as classes. Porém, como a maioria das previsões não atendem aos requisitos de deteçcão, P os e N eg ficam desproporcionais. Liu et al. (2016) sugere manter uma taxa de deteçcões negativas para positivas de 3:1, selecionando apenas as que possuem maior probabilidade para o cálculo de loss.

Como observado na Figura 18, a última camada do SSD gera mais de 8 mil sugestões de bounding boxes para cada classe. Devido a esse grande número, é aplicada uma técnica de NMS, definindo limiares para a probabilidade de deteçcão e IoU são utilizados para remover a maioria das deteçcões.

Para extra¸cão de caracter´ısticas, o trabalho original de Liu et al. (2016) utiliza como base a arquitetura VGG-16 (SIMONYAN; ZISSERMAN, 2014). Porém, a API disponibilizada por Huang et al. (2017) desintegra SSD e VGG-16, tornando assim poss´ıvel utilizar outros arranjos de arquiteturas. A Figura 18 mostra a arquitetura do algoritmo proposto por Liu et al. (2016) para analisar imagens de resolu¸cão 300 × 300.

Figura 18: Arquitetura do SSD 300. Fonte: (LIU et al., 2016)

A arquitetura MobileNet (HOWARD et al., 2017) comp˜oe a base para extra¸c˜ao de caracter´ısticas. Huang et al. (2017) mostrou que a MobileNet se equipara ao VGG-16

(40)

convolu¸c˜ao 1 × 1, denominada de pointwise convolution, para combinar a sa´ıda da con-volu¸c˜ao depthwise. A Figura 19, retirada do trabalho de Howard et al. (2017), exemplifica os filtros utilizados pela rede MobileNet.

(a) Filtros Standard Convolution (b) Filtros Depthwise Convolution

(c) Filtros Pointwise Convolution no contexto da convolu¸c˜ao separ´avel Depthwise.

Figura 19: Filtros de extra¸c˜ao da rede MobileNet.

A Figura 19 (a) representa a arquitetura convencional dos filtros de convolu¸cão, que são substitu´ıdos por duas camadas na rede MobileNet: depthwise convolution, na Figura 19 (b); e pointwise convolution na Figura 19 (c). A nota¸cão DK representa a

dimensão espacial de cada filtro. Já M e N são respectivamente a quantidade de canais de entrada e de sa´ıda.

A API utilizada também implementa a reescala automática das imagens, redi-mensionando as imagens de entrada para uma escala de 300 × 300 pixels. Além disso, as técnicas de data augmentation realizam cortes aleatórios e utilizam essas regiões como dados extras para o treino. Outras técnicas de data augmentation utilizadas são rota¸cão aleatória da imagem e altera¸cão de escala.

Seguindo o padrão de parametriza¸cão proposto por Huang et al. (2017), a rede utiliza RMSprop como otimizador, com momento de 0.9, ρ de 0.9, de 1 e learning rate inicial de 0.004. Além disso, faz uso de regulariza¸cão L2 com peso 4e−5 e NMS com limiar

(41)

3.2 VALIDAÇ ÃO DA DETECÇ ÃO DE OBJETOS

Algumas métricas devem ser utilizadas para avaliar a eficiência do modelo de deteçcão de objetos. A taxa de IoU, por exemplo, expressa se uma deteçcão está correta em fun¸cão da bounding box detectada e do ground truth (HUANG et al., 2017). Porém, essa métrica por si só não considera casos de classifica¸cão incorreta nem casos de não clas-sifica¸cão das imagens. Logo, para validar os resultados de deteçcão após a integra¸cão na linha de produ¸cão, ou seja, mensurar a eficiência dos modelos treinados, foram utilizados os ´ındices de Precision e Recall para compor a f-measure.

Precision (eq. (19)) determina o quão correto o modelo é ao classificar e encontrar objetos. Já Recall (eq. (20)) determina a rela¸cão entre imagens corretamente classificadas e imagens com falha na classifica¸cão. Esses dois valores são derivados da quantidade de True Positive (TP), False Positive (FP) e False Negative (FN), considerados da seguinte forma:

• TP é toda classifica¸cão correta em que a bounding box é avaliada com uma taxa de IoU acima de 0.5;

• FP é toda deteçcão de objeto com: IoU abaixo ou igual a 0.5; deteçcão de classe que não está na imagem original; ou deteçcão sobreposta, que já foi contabilizada uma vez como TP;

• FN é toda classifica¸cão não realizada, ou seja, imagens que o modelo não marcou bounding box onde deveria.

P recision = T P

(T P + F P ); (19)

Recall = T P

(T P + F N ). (20)

A f-measure consiste em compor ambos os valores para avaliar a precis˜ao do teste, descrita pela eq. (21).

f-measure = 2(P recision × Recall)

(P recision × Recall). (21)

Baseado nos conceitos explorados até aqui, o próximo cap´ıtulo aplica o modelo de deteçcão de múltiplos objetos proposto em uma indústria automotiva.

(42)

Os experimentos realizados nesse trabalho foram conduzidos sobre uma linha de montagem automotiva real, da Renault do Brasil. Foram selecionados dois casos distintos e em linhas de fabrica¸cão diferentes: o primeiro consiste em um teste de conformidade das pe¸cas na montagem de ve´ıculos, avaliando se o conjunto do disco de freio e pin¸ca de freio pertencem ao modelo de carro no qual estão montados; e o segundo consiste em verificar a presen¸ca e a conformidade do sensor de detona¸cão, também chamado de cliqueti ou knock, com o modelo do motor no qual está montado.

Os treinos dos modelos de deep learning foram realizados com uma GPU Nvidia GeForce GTX 1060 com 3 Gigabytes de memória. Os valores de limiar utilizados para a probabilidade de deteçcão foram de 60%, 65%, 70%, 75%, 80%, 85%, 90% e 95%, possibilitando a análise das taxas de P recision e Recall em fun¸cão da certeza de deteçcão do modelo.

Para avaliar a performance do modelo em sistemas com baixo poder de processa-mento, foi utilizado um Raspberry Pi modelo 3B+, com 1 Gigabyte de memória RAM e um sistema operacional Raspbian (Linux baseado em Debian), e uma Pi Camera modelo V2 de 8 megapixels. Esse sistema manteve uma taxa média de deteçcão de 1.8 frames por segundo, ou seja, conseguiu avaliar aproximadamente duas imagens a cada segundo.

Os códigos e os v´ıdeos de resultados referentes ao trabalho estão dispon´ıveis em um repositório público de Mazzetto (2019), no GitHub. As defini¸cões dos ambientes e os resultados dos experimentos são apresentados na sequência. No final dessa sessão são abordados outros casos sobre os quais o sistema de deteçcão de objetos pode ser aplicado.

4.1 DISCO E PINC¸ A DE FREIO

Esse estudo de caso, em especial, explora a vantagem de deteçcão de múltiplos objetos, detectando tanto a pin¸ca de freio como o disco de freio na mesma imagem. Na linha de montagem utilizada como alvo desse estudo, as pe¸cas são separadas por

(43)

operadores e dispostas em Automatic Guided Vehicles (AGVs) no in´ıcio da produ¸cão, de acordo com a demanda. Os operadores são responsáveis por distribuir os componentes para todos os tipos de produtos manufaturados na linha. Como esta tarefa é conduzida por humanos, é propensa a erros, e os kits podem ser montados com componentes pertencentes a diferentes modelos de ve´ıculos. Com o objetivo de mitigar o problema, o sistema de deteçcão proposto nesse trabalho foi utilizado no momento da montagem, verificando se o kit é composto por pe¸cas do mesmo conjunto. O teste foi realizado com três tipos de disco de freio e três tipos de pin¸ca de freio, totalizando seis classes para serem aprendidas e analisadas pelo modelo de deep learning. Exemplos das pe¸cas e suas classes são exibidos na Figura 20.

(a) Conjunto de Pin¸ca de freio 1 e Disco 1. (b) Conjunto de Pin¸ca de freio 2 e Disco 2.

(c) Conjunto de Pin¸ca de freio 3 e Disco 3.

Figura 20: Tipos de kit de disco e pin¸ca de freio montados no suporte da esteira.

Por se tratar de um ambiente fabril em que cada classe é padronizada, ou seja, não existem varia¸cões de formato ou cor entre as pe¸cas de mesmo tipo, optou-se empiricamente pela utiliza¸cão de poucas imagens para o treino. Foram utilizadas 20 imagens de cada classe para a base de treino, com resolu¸cões de 1280 × 720, 800 × 600 e 426 × 240 pixels. Para a base de valida¸cão foram utilizadas 6 imagens de cada tipo, com resolu¸cões de