Deep Learning na deteção de objetos

2. REVISÃO BIBLIOGRÁFICA

Figura 18: Função Softmax de regressão da Fast R-CNN (Mahmood, 2018)

Figura 19: Modelo Fast R-CNN (Girshick, 2015)

Figura 20: Localização de janela deslizante (Shubham Gandhi, 2019)

Figura 21: Faster R-CNN (Ren, He, Girshick, & Sun, 2017b)

Figura 22: Funcionamento do modelo R-FCN (Dai et al., 2016)

Figura 23: Visualização de R-FNC (k x k = 3 x 3) para a categoria pessoa (Dai et al., 2016)

Figura 24: RoI posicionado incorretamente no objeto (Dai et al., 2016)

Figura 25: Cálculo e representação da IoU (Adrian Rosebrock, 2016)

Figura 26: Arquitetura do modelo da SSD (Liu et al., 2015)

Figura 27: Mapa de caraterísticas SSD (Liu et al., 2015)

Figura 28: YOLO aplica uma única rede neuronal a toda a imagem (Redmon et al., 2016)

Figura 30: Retinanet (T.-Y. Lin et al., 2017)

Figura 31: Comparação de modelos para deteção de objetos

Figura 32: Comparação entre a Faster R-CNN e YOLOv3 (Benjdira et al., 2019)

Figura 33: Performance do modelo da Retinanet (T.-Y. Lin et al., 2017)

Tabela 2: Sistemas de Classificação de Imagens

2. REVISÃO BIBLIOGRÁFICA

2.3 INTELIGÊNCIA ARTIFICIAL, MACHINE LEARNING E DEEP LEARNING

2.3.4 Deep Learning na deteção de objetos

Com o aumento da investigação no uso de tecnologia de deteção de objetos em cenários reais tais como

veículos autónomos, videovigilância inteligente, deteção facial e várias aplicações de contagem de pessoas, a

procura de sistemas rápidos e precisos de deteção de objetos está a aumentar. Estes sistemas envolvem não só

o reconhecimento e a classificação de cada objeto numa imagem, mas também a localização de cada um deles

nessa imagem (desenhando a caixa de delimitação apropriada à sua volta), tornando a deteção de objetos, uma

tarefa significativamente mais difícil do que a tradicional visão computacional de classificação de imagens.

As abordagens mais bem-sucedidas para deteção de objetos são atualmente extensões de modelos de

classificação de imagens. Com a disponibilização da API de deteção de objetos que a Google lançou para o

Tensorflow (biblioteca opensource para aplicações de ML), foram incorporadas várias arquiteturas e pesos

pré-construídos para alguns modelos específicos:

• Single Shot Multibox Detector (SSD) com MobileNets

• SSD com Inception V2

• Region-Based Fully Convolutional Networks (R-FCN) com Resnet 101

• Faster RCNN com Resnet 101

• Faster RCNN com Inception Resnet v2

• YOLO

Atualmente, quando se fala em deteção de objetos em DL, fala-se no modelo Faster R-CNN.

Para melhor perceber o modelo Faster R-CNN é necessário compreender os seus antecessores, R-CNN e

Fast R-CNN.

2.3.4.1 R-CNN

A R-CNN (Region-based Convolutional Neural Network) proposta por Girshick et al. (2014), é uma

abordagem pioneira que aplica modelos de Deep Learning à deteção de objetos (Figura 17). A sua aplicação

explica-se em três simples passos:

1. Digitalizar a imagem de entrada para possíveis objetos utilizando um algoritmo chamado

“Pesquisa Seletiva” gerando ~ 2000 propostas de regiões.

2. Correr uma rede neuronal convolucional (CNN) no topo de cada uma destas propostas de regiões.

3. Obter o resultado de cada CNN e alimentá-la com um SVM (Support Vector Machine) para

classificar a região e um regressor linear para restringir a caixa delimitadora do objeto, se o objeto

existir.

Assim é necessário propor as regiões, depois extrair as características e, por fim, classificar essas regiões

com base nas suas características. Na sua essência, a deteção de objetos torna-se num problema de classificação

de imagem. Sendo bastante intuitivo, tornava-se um processo excessivamente lento (Girshick, 2015).

2.3.4.2 Fast R-CNN

A FastR-CNN distingue-se do original R-CNN em muitos aspetos. Foi proposto por Girshick (2015), que

melhorou a sua velocidade de deteção através de duas alterações principais:

a) Realizar a extração de características sobre a imagem antes de propor regiões, correndo assim

apenas uma CNN sobre toda imagem em vez de 2000 CNNs sobre 2000 regiões sobrepostas.

b) Substituir o SVM com uma camada softmax (Figura 18), ampliando assim a rede neuronal para

previsões, em vez da criação de um novo modelo.

O novo modelo assemelha-se ao da Figura 19, em que as regiões geradas são propostas baseadas no último

mapa de características da rede e não a partir da imagem original em si. Como resultado, pode-se treinar apenas

uma CNN para toda a imagem, em vez de treinar muitos SVMs diferentes para classificar cada classe de objeto.

Existe uma única camada “softmax” que produz as probabilidades da classe diretamente obtendo-se apenas

uma rede neuronal para treinar, ao contrário de uma rede neuronal e muitos SVMs.

O Fast R-CNN teve um desempenho melhorado em termos de velocidade, contudo resta um importante

congestionamento na pesquisa seletiva para gerar propostas de regiões, que se manifesta ainda um processo

lento.

2.3.4.3 Faster R-CNN

A principal melhoria do modelo Faster R-CNN foi substituir o algoritmo de pesquisa seletiva lento por

uma rede neuronal rápida. Especificamente, é introduzido o RPN (Region Proposal Network) (Ren, He,

Girshick, & Sun, 2017a), que introduz na última camada de uma CNN inicial, uma janela deslizante 3x3 e

move-se através do mapa de características mapeando-o para uma dimensão inferior (ex: 256-d). Para cada

localização da janela deslizante, são geradas múltiplas regiões possíveis com base nas caixas de ancoragem de

relação fixa k (caixas de delimitação padrão) Cada proposta de região consiste em: a) uma pontuação de

“objetividade” para essa região e b) quatro coordenadas que representam a caixa delimitadora da região.

Por outras palavras, observamos cada localização no último mapa de características e consideramos k

caixas diferentes centradas à sua volta: uma caixa alta; uma caixa larga, uma caixa grande, etc. Para cada uma

dessas caixas, indica-se se contém um objeto ou não e quais as coordenadas para essa caixa (Figura 20).

As pontuações de 2k representam a probabilidade à saída da função softmax para cada uma das caixas de

delimitação k estar no objeto. Embora a RPN produza coordenadas da caixa delimitadora, este não tenta

classificar qualquer potencial objeto, o trabalho exclusivo é propor regiões de objetos. Se uma caixa de

ancoragem tem uma pontuação de “objetividade” acima de um determinado limite, as coordenadas dessa caixa

são passadas como uma proposta regional. Uma vez concluídas as nossas propostas de região, insere-se

diretamente no que é essencialmente uma Fast R-CNN. Adiciona-se uma camada de “pooling”, algumas

camadas de conexão e finalmente uma camada de classificação “softmax” e um regressor de caixa de

A Faster R-CNN atinge velocidades mais elevadas e excelente precisão. Vale a pena notar que, embora os

modelos futuros tenham feito muito para aumentar a velocidade de deteção, poucos modelos conseguiram

superar o Faster R-CNN por uma margem significativa (Girshick, 2015). Por outras palavras, a Faster R-CNN

pode não ser o método mais simples ou mais rápido para a deteção de objetos, mas ainda assim é um dos

melhores métodos. No caso em questão, o Faster R-CNN do Tensorflow com Inception ResNet é o modelo

mais lento, mas mais preciso. A Faster R-CNN pode parecer complexa, mas o seu design central é o mesmo

da R-CNN original, que é presumir regiões de objetos e depois classificá-las. Este é agora a base para muitos

modelos de deteção de objetos (Figura 21).

2.3.4.4 R-FCN

A Fast R-CNN melhorou a velocidade de deteção do original ao partilhar uma única computação CNN em

todas as propostas de região (Dai, Li, He, & Sun, 2016). Esta abordagem foi também a motivação por detrás