Reconhecimento de marca e modelo de veículos a partir de imagens

Texto

(1)´ ´ UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANA ´ ˜ EM ENGENHARIA ELETRICA ´ PROGRAMA DE POS-GRADUAC ¸ AO E ´ INFORMATICA INDUSTRIAL. RENAN BARCIK DE CASTRO WILLE. ´ RECONHECIMENTO DE MARCA E MODELO DE VEICULOS A PARTIR DE IMAGENS. ˜ DISSERTAÇAO. CURITIBA 2019.

(2) RENAN BARCIK DE CASTRO WILLE. ´ RECONHECIMENTO DE MARCA E MODELO DE VEICULOS A PARTIR DE IMAGENS. Dissertaça˜ o apresentada ao Programa de Pósgraduaça˜ o em Engenharia Elétrica e Informática Industrial da Universidade Tecnológica Federal do Paraná como requisito parcial para obtença˜ o do grau ´ de “Mestre em Ciências” – Area de Concentraça˜ o: Engenharia De Automaça˜ o E Sistemas. Orientador:. Dr. Daniel Rodrigues Pipa. Co-orientador: Dr. Gustavo Benvenutti Borba. CURITIBA 2019.

(3) Dados Internacionais de Catalogação na Publicação. Wille, Renan Barcik de Castro Reconhecimento de marca e modelo de veículos a partir de imagens [recurso eletrônico] / Renan Barcik de Castro Wille.-- 2019. 1 arquivo texto (59 f.) : PDF ; 7,10 MB Modo de acesso: World Wide Web Título extraído da tela de título (visualizado em 18 mar. 2019) Texto em português com resumo em inglês Dissertação (Mestrado) - Universidade Tecnológica Federal do Paraná. Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial, Curitiba, 2019 Bibliografia: f. 46-48 1. Engenharia elétrica - Dissertações. 2. Veículos - Identificação. 3. Sistemas de comunicação móvel. 4. Veículos - Rastreabilidade. 5. Veículos - Fotografia - Identificação. I. Pipa, Daniel Rodrigues. II. Borba, Gustavo Benvenutti. III. Universidade Tecnológica Federal do Paraná. Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial. IV. Título. CDD: Ed. 23 – 621.3 Biblioteca Central da UTFPR, Câmpus Curitiba Bibliotecário: Adriano Lopes CRB-9/1429.

(4) Ministério da Educação Universidade Tecnológica Federal do Paraná Diretoria de Pesquisa e Pós-Graduação. TERMO DE APROVAÇÃO DE DISSERTAÇÃO Nº 820 A Dissertação de Mestrado intitulada “Reconhecimento de Marca e Modelo de Veículos a Partir de Imagens” defendida em sessão pública pelo(a) candidato(a) Renan Barcik de Castro Wille, no dia 22 de fevereiro de 2019, foi julgada para a obtenção do título de Mestre em Ciências, área de concentração Engenharia de Automação e Sistemas, e aprovada em sua forma final, pelo Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial.. BANCA EXAMINADORA: Prof(a). Dr(a). Daniel Rodrigues Pipa - Presidente – (UTFPR) Prof(a). Dr(a). André Eugênio Lazzaretti - (UTFPR) Prof(a). Dr(a). Giselle Lopes Ferrari Ronque - (UFPR). A via original deste documento encontra-se arquivada na Secretaria do Programa, contendo a assinatura da Coordenação após a entrega da versão corrigida do trabalho.. Curitiba, 18 de fevereiro de 2019..

(5) AGRADECIMENTOS. Agradeço primeiramente aos orientadores Daniel Pipa e Gustavo Borba que por muitas vezes me auxiliaram pessoalmente ou via meios eletrônicos, já que enquanto desenvolvia o mestrado também trabalhava, e que me mostraram maneiras diferentes de pensar sobre os assuntos em questão, sempre instigando a curiosidade e o aprendizado. Em seguida agradeço ao Ricardo Carnieri que, devido ao fato de trabalhar comigo, foi pessoa importante na discussão de ideias, e trilhamento do caminho para a soluça˜ o apresentada. Agradeço também a empresa Pumatronix, pelo apoio prestado durante o desenvolvimento do mestrado. Obrigado a minha noiva Camila Veigas que, além de me apoiar durante o desenvolvimento do mestrado, também foi meu suporte emocional junto a minha fam´ılia. Obrigado aos meus pais, por sempre acreditarem em mim e instigarem o meu desenvolvimento e também a Deus pela oportunidade que estou tendo..

(6) I have not failed. I’ve just found 10,000 ways that won’t work. - Thomas Alva Edison..

(7) RESUMO. Wille, RENAN. RECONHECIMENTO DE MARCA E MODELO DE VEÍCULOS A PARTIR DE IMAGENS. 59 f. Dissertaça˜ o – Programa de Pós-graduaça˜ o em Engenharia Elétrica e Informática Industrial, Universidade Tecnológica Federal do Paraná. Curitiba, 2019. O reconhecimento automático de marca e modelo de ve´ıculos pode reduzir custos para sistemas automatizados de estacionamento, bem como auxiliar entidades públicas, como a pol´ıcia, para identificar e coibir adulteraço˜ es veiculares. Este trabalho tem como objetivo extrair a marca e modelo de ve´ıculos através de imagens. Primeiramente foi feito um estudo para listar as caracter´ısticas viáveis de serem obtidas através do processamento de imagens. Dentre elas estão a cor, a placa de identificaça˜ o veicular, a marca e modelo dos ve´ıculos. Em seguida, decidiu-se pela classificaça˜ o da marca de ve´ıculos através de sua logomarca. Para encontrá-la, utilizase a extraça˜ o de bordas, binarizaça˜ o e morfologia. Em seguida, a partir de um classificador SVM e um descritor HOG a região contendo a logomarca e´ categorizada. Experimentando-se melhorar a abordagem, usou-se a técnica de localizaça˜ o da logomarca através de deslizamento de janelas, também com SVM e descritor HOG para a classificaça˜ o. Como os métodos apresentados dependem de informaço˜ es locais e com o objetivo de melhora em relaça˜ o a esses métodos, estudou-se o finetunning das redes convolucionais como as MobileNets, dentre outras arquiteturas para a classificaça˜ o global da imagem, sendo poss´ıvel, com esse método, extrair além da marca do ve´ıculo, também o seu modelo. Finalmente foram feitos testes em dois conjuntos de imagens de ve´ıculos brasileiros: O primeiro, chamado Pre-jcars-test, foi utilizado para medir a acurácia da classificaça˜ o de marca dos ve´ıculos e comparar com as outras abordagens, o melhor resultado obtido foi 79,67% em top-1 utilizando as redes neurais convolucionais. O segundo conjunto, chamado Jcars-test, foi utilizado para medir a acurácia da classificaça˜ o de marca e modelo de ve´ıculos e a melhor abordagem atingiu 96,89% de acurácia em top-5, permitindo-se classificar 354 modelos dentre 61 marcas de ve´ıculos. Palavras-chave: Reconhecimento de padrões; Deep learning; Marca e modelo veicular.

(8) ABSTRACT. Wille, RENAN. MAKE AND MODEL RECOGNITION FROM VEHICLE IMAGES. 59 f. Dissertaça˜ o – Programa de Pós-graduaça˜ o em Engenharia Elétrica e Informática Industrial, Universidade Tecnológica Federal do Paraná. Curitiba, 2019. Automatic vehicle make and model recognition can reduce costs for automated parking systems, as well as assist public entities such as the police in identifying and restraining vehicular tampering. This work aims to extract the make and model of vehicles through images. First, a study was done to list the viable characteristics of being obtained through image processing. Among them are the color, the vehicle license plate, the make and model of the vehicles. Then, it was decided to classify the vehicle make through its logo. To find it, it was used the following techniques: extraction of edges, binarization and morphology. After that, with a SVM classifier and a HOG descriptor the region containing the logo is categorized. Experimenting to improve the approach, we used the technique of locating the logo through sliding window also using SVM and HOG descriptor for classification. As the presented methods depend on local information and with the objective of improvement in relation to these methods, the finetunning of convolutional neural networks was studied. By using MobileNets and other architectures for the global classification of the image, it became possible with this method to extract not only the make but also the model of the vehicle. Finally, tests were performed on two Brazilian vehicle image datasets: The first one, called Pre-jcars-test, was used to measure the accuracy of vehicle make classification and compare the developed approaches. The best result was 79.67 % in top-1 by using convolutional neural networks. The second dataset, called Jcars-test, was used to measure the accuracy of the classification of vehicle make and model, and the best approach reached 96.89 % accuracy in the top-5, allowing to classify 354 models from 61 vehicle makes. Keywords: Pattern Recognition; Deep learning; Vehicle make and model.

(9) LISTA DE FIGURAS. FIGURA 1 – Imagem com a sua representaça˜ o numérica. . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 2 – Imagem exemplificando o processo de filtragem 2D, nesta imagem e´ aplicado um kernel gaussiano obtendo-se uma resposta sem detalhes finos. FIGURA 3 – Esquerda: Imagem original. Centro: Imagem com Sobel. Direita: Imagem da limiarizaça˜ o do Sobel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 4 – Imagem exemplificando o hiperplano H, situado ao centro, que separa a classe azul da amarela. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 5 – Imagem exemplificando uma poss´ıvel estrutura de rede neural convolucional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 6 – Imagens exemplo do conjunto de imagens Pre-jcars. . . . . . . . . . . . . . . . . . . . FIGURA 7 – Imagens exemplo do conjunto de imagens Pre-jcars-test. . . . . . . . . . . . . . . . FIGURA 8 – Imagens exemplo do conjunto Jcars. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 9 – Diagrama do processo de segmentaça˜ o para um ve´ıculo Volkswagen. Iniciase pela imagem completa e através do ALPR obtem-se a placa veicular. E´ extraida a região de interesse e nela aplicado o filtro gaussiano (item 2). No bloco A, e´ possivel vizualizar as saidas do item 4, ou seja, os filtros Sobel em x e em x e y. Em seguida são executadas as operaço˜ es de dilataça˜ o e erosão em cada uma das imagens descritas de forma a remover ruidos. Até que em B e´ feita uma operaça˜ o “E” logica onde se obtém os blobs parecidos com a logomarca. Seleciona-se o mais ao centro e obtem-se a região de interesse que deve conter a logomarca. . . . . . . . . . . . . . . . . . . . . . . FIGURA 10 – Diagrama explicando o processo de finetuning. Inicia-se a partir de uma rede pré-treinada, em seguida, são removidas as u´ ltimas camadas. Depois, adicionam-se camadas novas de sa´ıda de forma a se adaptar a sa´ıda para a quantidade de classes e se treina o modelo sobre os novos dados. Imagem adaptada de (WILLE et al., 2018). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 11 – Diagrama representando as etapas do gerador c´ıclico de imagens para o treinamento das redes neurais convolucionais. . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 12 – Gráficos de acurácia de treinamento e validaça˜ o para cada uma das e´ pocas de treinamento, confirmam a presença de overfit no treinamento para as redes estudadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 13 – Esquerda: Exemplos dos erros listados acima. Na ordem de cima para baixo: TTS, VW VOYAGE, VW PARATI. Direita: Ve´ıculos parecidos na classe que foi predita. Na ordem de cima para baixo: TT, VW GOL G5, VW GOL G4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 14 – Imagens contendo a representaça˜ o da região mais importante para a classificaça˜ o de uma determinada imagem pela rede MobileNet. . . . . . . . . .. 20 21 22 25 26 30 31 32. 34. 37 38. 40. 42 43.

(10) LISTA DE TABELAS. TABELA 1 TABELA 2 TABELA 3 TABELA 4 TABELA 5. – Tabela listando os autores e suas contribuiço˜ es para a literatura. . . . . . . . . . – Tabela de acurácia para cada uma das abordagens utilizadas na classificaça˜ o de marca de ve´ıculos. Resultados para a base Pre-jcars-test. . . . . . . . . . . . . . – Tabela de acurácia para cada uma das abordagens utilizadas na classificaça˜ o de marca e modelo de ve´ıculos. Resultados para a base Jcars-test . . . . . . . . . – Tabela de confusões para a rede MobileNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . – Tabela de confusões para a rede InceptionV3 . . . . . . . . . . . . . . . . . . . . . . . . . .. 18 39 40 41 41.

(11) LISTA DE SIGLAS. Histograma de Gradientes ImageNet Desafio de Reconhecimento Visual de Grande Escala Mapeamento de Ativaça˜ o de Classe com Ponderaça˜ o de Gradiente Máquina de Vetores Suporte Redes Neurais Convolucionais Região de Interesse Software para a Obtença˜ o Automática da Placa de Identificaça˜ o Veicular. HOG ILSVRC GRAD-CAM SVM CNN ROI ALPR.

(12) ´ SUMARIO. ˜ 1 INTRODUC ¸ AO .............................................................. ˜ 1.1 MOTIVAÇAO ............................................................... 1.2 OBJETIVO GERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 OBJETIVOS ESPECÍFICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ 1.4 PUBLICAÇOES ............................................................. ˜ ´ 2 REVISAO BIBLIOGRAFICA ................................................ ´ 2.1 CARACTERISTICAS VEICULARES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 MARCA E MODELO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 RESUMO DAS CARACTERÍSTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ` DETECC ˜ DE MARCA E MODELO . 3 ALGORITMOS RELACIONADOS A ¸ AO 3.1 PROCESSAMENTO DE IMAGENS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 A imagem digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Filtragem 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Filtro Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Identificaça˜ o de bordas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.5 Morfologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.6 Dilataça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.7 Erosão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.8 Segmentaça˜ o de imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 CLASSIFICAÇAO 3.2.1 Histograma de gradientes orientados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Máquinas de vetores suporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.1 Redes Neurais Convolucionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.2 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.3 Redes pré-treinadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.4 Inception V3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.5 Mobilenet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.6 Grad-Cam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ 3.3 ACURACIA ................................................................. 4 DESENVOLVIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 BANCOS DE IMAGENS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ 4.2 METODOS PROPOSTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Reconhecimento de marca através da região da logomarca . . . . . . . . . . . . . . . . . . . . . . . 4.2.1.1 localizaça˜ o através de segmentaça˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1.2 localizaça˜ o através de deslizamento de janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1.3 Desvantagens das abordagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Reconhecimento de marca e modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2.1 Classificaça˜ o através de deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Finetuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Arquiteturas e treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13 13 14 14 14 15 15 16 18 19 19 19 20 21 21 22 22 22 23 23 24 24 25 26 26 27 27 27 28 28 29 29 32 32 32 34 35 35 35 36 37.

(13) ´ 5 EXPERIMENTOS E ANALISE ............................................... ˜ 5.1 CLASSIFICAÇAO DA MARCA DO VEÍCULO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ DA MARCA E MODELO DO VEÍCULO . . . . . . . . . . . . . . . . . . . . 5.2 CLASSIFICAÇAO ˜ 6 CONCLUSAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˆ REFERENCIAS ................................................................. Apêndice A -- TABELA DE MARCAS E MODELOS DE VEICULOS . . . . . . . . . . . . . .. 39 39 40 45 46 49.

(14) 13. 1. ˜ INTRODUC ¸ AO. Com os avanços da tecnologia e o aumento populacional, cada vez mais, e´ preciso filtrar as informaço˜ es recebidas no dia a dia. Um exemplo de excesso de informaça˜ o são os centros de monitoramento da pol´ıcia, neles existem vários monitores mostrando os fluxos de v´ıdeo de várias câmeras instaladas na cidade. Sendo que esses centros podem possuir muito mais de 10 câmeras, não e´ produtivo monitorar todos os fluxos de v´ıdeo ao mesmo tempo, devido ao fato de que normalmente há menos pessoas monitorando do que a quantidade de câmeras. Sendo assim, pode não ser poss´ıvel extrair todos os fatos importantes que possam ocorrer durante a filmagem. Como esses fatos são minoria, durante o tempo que uma pessoa precisaria para ficar analisando essas câmeras, os algoritmos que extraem dados de acordo com certos padrões são cada vez mais u´ teis na forma de otimizar e diminuir o tempo ocioso das pessoas na obtença˜ o de informaço˜ es mais relevantes. O presente trabalho detalha o desenvolvimento de uma abordagem para o reconhecimento de marca e modelos de ve´ıculos brasileiros através de imagens. Podendo auxiliar nesse tipo de problema. Nota-se que, desde as bases de dados até os algoritmos de classificaça˜ o foram desenvolvidos. 1.1. ˜ MOTIVAÇAO Atualmente vive-se em um momento onde a insegurança no pa´ıs assusta e nos torna. mais cuidadosos. A segurança provida por parte do governo não tem sido eficaz em limitar a quantidade de crimes da nossa sociedade. Por exemplo, em G1 (2018), e´ relatado um aumento de até 116,7% na quantidade de ve´ıculos clonados próximo a região de São Paulo. Já em Curitiba - Paraná somente em 2018 e´ reportado o roubo de 4844 ve´ıculos de acordo com a Secretaria de Segurança Pública do Paraná (SSP-PR, 2018). O reconhecimento das caracter´ısticas dos ve´ıculos pode auxiliar as instituiço˜ es a serem mais efetivas em localizar e identificar diferenças nos ve´ıculos permitindo priorizar melhor o tempo das forças policiais para o atendimento de ocorrências que são importantes a populaça˜ o. Além disso, poderia facilitar tarefas de preenchimento de formulários em estacionamentos ou praças de pedágios. Permitindo que as pessoas que executam tais tarefas repetitivas se dediquem a outros afazeres..

(15) 14. 1.2. OBJETIVO GERAL Desenvolver um sistema para o reconhecimento de marca e modelo de ve´ıculos. brasileiros a partir de imagens. 1.3. OBJETIVOS ESPECÍFICOS • Realizar uma revisão da literatura verificando quais as caracter´ısticas que podem ser reconhecidas em um ve´ıculo a partir de imagens. • Testar alternativas para o reconhecimento de marca de carros. • Implementar um sistema de reconhecimento de marca e modelo a partir de imagens.. 1.4. ˜ PUBLICAÇOES Este trabalho gerou a seguinte publicaça˜ o: Classification of vehicle make and model. with MobileNets por WILLE, R. B. C. & PIPA, D. R. & CARNIERI, R. & BORBA, G. B. no XXXVI Simpósio Brasileiro de Telecomunicaço˜ es e Processamento de Sinais (SBrT 2018)..

(16) 15. 2. ˜ BIBLIOGRAFICA ´ REVISAO. Este cap´ıtulo destina-se a fazer uma revisão das caracter´ısticas veiculares que podem ser extra´ıdas através do processamento de imagens e, em seguida, um aprofundamento das técnicas utilizadas para o reconhecimento de marca e modelo de ve´ıculos. 2.1. CARACTERÍSTICAS VEICULARES Para a definiça˜ o do tema de pesquisa, inicialmente identifica-se quais seriam as. poss´ıveis caracter´ısticas que poderiam ser extra´ıdas de imagens de ve´ıculos, para isso detalha-se abaixo algumas das informaço˜ es encontradas. Normalmente a identificaça˜ o do ve´ıculo e´ feita através da placa veicular. Em Gou et al. (2016) a extraça˜ o possui algumas etapas, primeiramente e´ feita uma localizaça˜ o bruta da placa veicular utilizando-se de filtros morfológicos. Em seguida são localizadas as regiões dos caracteres na imagem. Com essas informaço˜ es ajusta-se a localizaça˜ o da placa do ve´ıculo e calculam-se caracter´ısticas do tipo Histograma de Gradientes (HOG) para a classificaça˜ o dos caracteres e consequente obtença˜ o do texto da placa veicular. Outra caracter´ıstica poss´ıvel de ser extra´ıda de imagens de ve´ıculos e´ sua cor. Em Dong et al. (2015) e´ implementado um método para a classificaça˜ o de cor do ve´ıculo e de sua placa. Baseiam-se em um pré processamento com um Software para a Obtença˜ o Automática da Placa de Identificaça˜ o Veicular (ALPR), a partir dos resultados desse pré-processamento e´ obtida a Região de Interesse (ROI) da placa. Essa região e´ então selecionada para o processamento da cor da placa veicular, em seguida, a partir da ROI da placa, são calculadas regiões laterais a ela, onde e´ provável que a lataria do ve´ıculo esteja presente. A seleça˜ o de uma dessas regiões para a classificaça˜ o e´ feita extraindo-se essas ROIs, convertendo-as para n´ıveis de cinza e em seguida calculando-se a variância. A região com menor variância e´ selecionada para a classificaça˜ o. As ROIs da placa e da lataria são convertidas então para o espaço de cor HSV a partir do canal HUE (H) e´ poss´ıvel então classificar a cor dessas regiões..

(17) 16. A localizaça˜ o e identificaça˜ o da posiça˜ o de um ve´ıculo em imagens também e´ executada. No artigo de Chen e Lu (2016) e´ apresentado primeiramente o treinamento de um classificador de imagens que detecta a visada dos ve´ıculos. Depois esse classificador e´ usado de modo a otimizar a detecça˜ o e o posicionamento dos ve´ıculos nas imagens. A classificaça˜ o em sub categorias de ve´ıculos também e´ uma caracter´ıstica extra´ıda. Em Dong et al. (2014) os ve´ıculos são classificados, utilizando-se de uma abordagem com redes convolucionais em 6 categorias, sendo elas oˆ nibus, micro-ônibus, minivan, suv, sedan e caminhão. 2.2. MARCA E MODELO A literatura sobre a extraça˜ o das caracter´ısticas de marca e modelo e´ extensa em Ayub. Syed et al. (2014) e´ feita uma revisão de artigos publicados até 2013. Nos artigos descritos além de citar algumas abordagens próximas as vistas na revisão, detalham-se outras encontradas. Em suma, pode-se dividir a extraça˜ o de marca e modelo através de imagens em três métodos. Utilizando modelos 3D, utilizando partes salientes dos ve´ıculos e utilizando a imagem completa do ve´ıculo. Os métodos que fazem uso de modelos 3D como em Ramnath et al. (2014) utilizam modelos de ve´ıculos. Através de uma estimativa inicial da pose, o modelo e´ refinado de forma a casar as linhas de silhuetas do automóvel com as linhas obtidas a partir de um préprocessamento e extraça˜ o de bordas. Nota-se que, para esses métodos, reportam-se dificuldades na correspondência entre o modelo 3D e o real, principalmente devido a variaço˜ es de posicionamento na câmera, o que dificulta a extraça˜ o de caracter´ısticas finas para a classificaça˜ o da marca e modelo. Também existem os algoritmos que se baseiam em partes salientes do automóvel. Por exemplo, Llorca et al. (2013) implementaram um algoritmo para o reconhecimento da marca do ve´ıculo através de sua logomarca. Primeiro a placa do ve´ıculo e´ localizada através de um sistema de ALPR e a partir do local da placa e´ delimitada uma região acima onde, com o algoritmo de sliding windows, a logomarca e´ classificada. Para essa localizaça˜ o a imagem e´ descrita com HOG e classificada com Máquina de Vetores Suporte (SVM). Em Llorca et al. (2014), o trabalho e´ extendido de forma a extrair a informaça˜ o do modelo do ve´ıculo. São usadas restriço˜ es geométricas em conjunto com um descritor HOG calculado sobre a região que contém o nome do modelo do ve´ıculo para a classificaça˜ o. Outro exemplo de implementaça˜ o baseada em partes e´ Hsieh et al. (2014), neste.

(18) 17. trabalho utiliza-se um descritor chamado symmetrical speeded up robust features (SURF) para, em imagens frontais de ve´ıculos, poder localizar-se uma linha que passa próximo ao meio da frente do ve´ıculo. A partir dessas linhas e da dispersão dos descritores, calcula-se uma região de interesse sobre a frente do ve´ıculo, e então caracter´ısticas HOG e SURF são extra´ıdas dessa a´ rea e classificadas através de um classificador SVM para se obter a marca e o modelo do ve´ıculo. Sochor et al. (2018) implementaram uma das abordagens poss´ıveis para a classificaça˜ o de marca e modelo através de toda a imagem no ve´ıculo. Neste trabalho utilizaram-se imagens de vigilância e se propõem um método automático de extrair o seu posicionamento 3D no espaço. Tendo essa informaça˜ o para cada um dos ve´ıculos e´ poss´ıvel extrair o tamanho da frente, do teto e das laterais, permitindo-se uma mudança de perspectiva de forma a normalizar a imagem que será usada para o classificador. Essas informaço˜ es são então utilizadas como entrada para o treinamento de redes neurais convolucionais que identificam a marca e o modelo dos ve´ıculos. Outra abordagem e´ descrita por Yang et al. (2015) Neste trabalho e´ proposto um conjunto de imagens para a classificaça˜ o de marca e modelo chamado CompCars contendo dados de dois cenários, da web e dados de monitoramento. A parte do conjunto de imagens, composta de imagens capturadas na web, contém 161 marcas e 1687 modelos de ve´ıculos. Com a proporça˜ o de dados desse banco de imagens foi poss´ıvel treinar redes neurais convolucionais para as tarefas propostas. Utilizando um subconjunto desses dados, em uma extensão do artigo publicada somente no arxiv1 , foi treinada uma rede convolucional que classifica 431 classes de marca e modelo a partir de imagens inteiras contendo somente um ve´ıculo em variadas perspectivas. E´ interessante notar que em cada uma das abordagens e´ poss´ıvel encontrar dificuldades. Nos algoritmos que se baseiam no modelo 3D inicial a dificuldade está no enquadramento do modelo junto a imagem quando se tem variaço˜ es relacionadas ao posicionamento, tipo de lente e intensidade luminosa da imagem. Já para as abordagens baseadas em partes dos automóveis, a dificuldade está em relaça˜ o a localizaça˜ o dessas partes. E para as abordagens de classificaça˜ o do ve´ıculo inteiro podem haver dificuldades em encontrar as caracter´ısticas mais u´ teis para a separaça˜ o das classes. 1 www.arxiv.org.

(19) 18. 2.3. RESUMO DAS CARACTERÍSTICAS Foi poss´ıvel observar, de acordo com os artigos citados, que várias caracter´ısticas. veiculares podem ser obtidas através de imagens. Abaixo estão listadas as descritas pelos artigos detalhados: • Placa veicular • Texto placa veicular • Cor do ve´ıculo • Localizaça˜ o • Vista do ve´ıculo • Sub categorias (Carro, moto, caminhão) • Marca • Modelo Na tabela 1 resume-se os artigos encontrados na literatura e suas contribuiço˜ es: Autores. Contribuiça˜ o. Gou et al. (2016). Placa veicular. Dong et al. (2015). Cor do ve´ıculo e da placa. Chen e Lu (2016). Localizaça˜ o e vista do ve´ıculo. Dong et al. (2014). Categorias dos ve´ıculos. Ramnath et al. (2014) Marca e modelo através de modelo 3D Llorca et al. (2013). Marca e modelo através da logomarca. Hsieh et al. (2014). Marca e modelo através da região frontal. Sochor et al. (2018). Marca e modelo através da região normalizada do ve´ıculo. Yang et al. (2015). Marca e modelo através da imagem contendo ve´ıculo. Tabela 1: Tabela listando os autores e suas contribuiço˜ es para a literatura..

(20) 19. 3. ` DETECC ˜ DE MARCA E MODELO ALGORITMOS RELACIONADOS A ¸ AO. Este cap´ıtulo destina-se a descriça˜ o dos termos teóricos utilizados durante o processo da criaça˜ o do classificador de marca e modelo. 3.1. PROCESSAMENTO DE IMAGENS Devido a disponibilidade de dispositivos de aquisiça˜ o de imagem para os cenários de. controle de trânsito, a extraça˜ o de informaço˜ es dos ve´ıculos através de imagens e´ muito atrativa. Para isso, e´ necessário processar a imagem de forma a identificar os padrões esperados. No caso do estudo desenvolvido, os padrões podem ser a logomarca do ve´ıculo, sua silhueta ou o formato dos faróis. Para a localizaça˜ o dessas caracter´ısticas estão dispon´ıveis as ferramentas clássicas de processamento de imagens e o aprendizado de máquina. A seguir as técnicas utilizadas são detalhadas. 3.1.1. A IMAGEM DIGITAL Uma imagem pode ser definida através de uma funça˜ o bidimensional f (x, y) onde x e. y são coordenadas dentro de um plano que representam a posiça˜ o de um pixel (unidade m´ınima da imagem) e a amplitude desse ponto e´ a representaça˜ o da intensidade luminosa dele. Para o processamento digital essa amplitude e´ quantizada normalmente em 8 bits podendo receber valores entre escuro (0) e claro (255). Também utiliza-se o termo imagem binarizada, referindose a imagens que só possuem dois valores 0 e 255. Pode-se ver na Figura 1 a representaça˜ o de uma imagem em tons de cinza com profundidade de 8 bits..

(21) 20. Figura 1: Imagem com a sua representaça˜ o numérica.. 3.1.2. FILTRAGEM 2D A filtragem espacial também conhecida como filtragem 2D consiste em se mover um. kernel, que normalmente e´ um pequeno retângulo, sobre a imagem. Para cada pixel calcula-se uma operaça˜ o pré-definida entre o kernel e a região da imagem encoberta pelo mesmo. Quando a operaça˜ o entre o kernel e a imagem e´ linear chama-se esse filtro de filtro linear e quando a operaça˜ o e´ não linear chama-se de filtro não linear. Para a aplicaça˜ o da filtragem linear, existem dois conceitos intimamente ligados. A correlaça˜ o, que se define pela operaça˜ o de calcular a soma dos produtos entre os valores do kernel e da imagem para cada um dos pixels e a convoluça˜ o que difere da correlaça˜ o somente pelo fato de que o kernel deve ser rotacionado em 180 graus antes de ser aplicado (GONZALEZ; WOODS, 2006). Exemplifica-se esse processo através da Figura 21 . 1 Imagem. adaptada de www.setosa.io/ev/image-kernels.

(22) 21. Figura 2: Imagem exemplificando o processo de filtragem 2D, nesta imagem e´ aplicado um kernel gaussiano obtendo-se uma resposta sem detalhes finos.. 3.1.3. FILTRO GAUSSIANO O filtro gaussiano tem a funça˜ o de filtrar altas frequências da imagem, isto auxilia na. atenuaça˜ o de bordas que não são interessantes durante o processamento utilizado. Possui o nome gaussiano devido ao efeito borrado se dar por uma kernel que contém a funça˜ o gaussiana. Sua funça˜ o para as duas dimensões da imagem pode ser vista na Equaça˜ o (1) onde x e y são as posiço˜ es em relaça˜ o ao centro do kernel e o σ e´ o desvio padrão utilizado. Sua aplicaça˜ o e´ definida através da convoluça˜ o do kernel gaussiano com a imagem.. G(x, y) =. 3.1.4. 1 − x2 + y2 e 2πσ 2 2σ 2. (1). ˜ DE BORDAS IDENTIFICAÇAO As bordas em uma imagem são caracterizadas por mudanças bruscas de magnitude. da intensidade luminosa em pixeis adjacentes. Tendo esse aspecto como base, um método comumente utilizado para encontrar essas regiões e´ através da aplicaça˜ o dos filtros de Sobel que calculam uma aproximaça˜ o dos gradientes da imagem e tem o efeito de ressaltar as bordas. Em seguida pode-se aplicar uma limiarizaça˜ o, que consiste em transformar a imagem em binária, transformando os valores abaixo do limiar em 0 e acima em 255. Como resultado, obtém-se as regiões de borda. A Figura 3 demonstra a operaça˜ o..

(23) 22. Figura 3: Esquerda: Imagem original. Centro: Imagem com Sobel. Direita: Imagem da limiarizaça˜ o do Sobel.. 3.1.5. MORFOLOGIA A palavra morfologia vem do grego morphe que significa “forma” e log´ıa que significa. “estudo”, ou seja, e´ o estudo das formas. Em processamento de imagens, a morfologia e´ o nome designado a operaço˜ es não lineares usadas de forma a manipular formas e melhor entender a estrutura de objetos na imagem. Pode ser aplicada tanto para imagens em tons de cinza como para imagens binárias. Sendo o segundo uso o qual se detalha aqui. Essas operaço˜ es são utilizadas de forma a ajudar a segmentaça˜ o de s´ımbolos como o logotipo de um ve´ıculo. Todas as operaço˜ es morfológicas baseiam-se também no processo de filtragem, os kernels na literatura de morfologia também são chamados de elementos estruturantes e as operaço˜ es são não lineares.. A seguir são evidenciadas as operaço˜ es utilizadas.. Nota:. informaço˜ es resumidas de Gonzalez e Woods (2006). 3.1.6. ˜ DILATAÇAO Sendo I e K a imagem binária e o kernel respectivamente, a dilataça˜ o e´ denotada por. I ⊕ K e definida pela Equaça˜ o (2).. I ⊕ K = {x| (K)x ∪ I 6= Ø}. (2). Sendo assim, o valor de sa´ıda de cada operaça˜ o quando Kx e´ posicionado centrado no pixel x de I e tem interseça˜ o com I e´ igual a um. Dessa forma a operaça˜ o acaba por alargar o objeto. 3.1.7. ˜ EROSAO Sendo I e K a imagem binária e o kernel respectivamente, a erosão e´ denotada por. I K e definida pela Equaça˜ o (3)..

(24) 23. I K = {x| (K)x v I}. (3). Sendo assim, a erosão de I por K são todos os pontos x de forma que K centrado no pixel x de I deve estar totalmente contido em I. Ou seja, a sa´ıda será um se, e somente se, para uma determinada posiça˜ o onde o kernel está sendo aplicado sobre a imagem, todos os valores um do kernel devem possuir valor um também na imagem. Essa operaça˜ o pode ser vista como uma operaça˜ o binária “E”. E esta operaça˜ o acaba por diminuir o objeto. 3.1.8. ˜ DE IMAGENS SEGMENTAÇAO Ao processo de particionar a imagem em múltiplos conjuntos de pixels chamados. de segmentos, se dá o nome de segmentaça˜ o de imagens. O objetivo da segmentaça˜ o e´ transformar e simplificar a representaça˜ o da imagem de forma a facilitar o uso da informaça˜ o extra´ıda combinando-se as operaço˜ es de processamento de imagem descritas. O processo de desenvolvimento do algoritmo de segmentaça˜ o depende das caracter´ısticas dos objetos que se deseja extrair e para isso os ajustes, parâmetros e a combinaça˜ o das operaço˜ es a serem executadas dependem da experiência emp´ırica do projetista. A literatura contempla diferentes casos da aplicaça˜ o de segmentaça˜ o, como em Butzke et al. (2008) que também utiliza-se da segmentaça˜ o para extrair informaço˜ es de ve´ıculos. 3.2. ˜ DE DADOS CLASSIFICAÇAO Para poder transformar os padrões visuais em informaço˜ es u´ teis utiliza-se o. aprendizado de máquina que e´ o ramo da ciência que estuda algoritmos e modelos estat´ısticos que através de sistemas computacionais, progressivamente se melhoram para uma dada tarefa. Esses modelos são treinados, ao invés de programados. Este treino e´ feito apresentandose vários exemplos e esperando-se uma dada sa´ıda. O algoritmo, a partir disso, acaba por transformar seus valores internos (pesos) e encontrar estrutura estat´ıstica que permita utilizar regras para automatizar a tarefa desejada (CHOLLET, 2017). Para poder classificar as imagens e´ necessário descrevê-las, em outras palavras, extrair informaço˜ es descritivas de forma a poder separar as classes corretamente. Até 2012, o principal caminho para descrever as imagens era através de caracter´ısticas feitas a mão. Em 2012 foi publicado o artigo onde foi definida a rede AlexNet (KRIZHEVSKY et al., 2012), uma rede convolucional que deu um salto no reconhecimento da competiça˜ o ImageNet (RUSSAKOVSKY et al., 2015), usada para comparar abordagens de classificaça˜ o. A partir.

(25) 24. desse momento, notou-se a viabilidade dessas redes para a classificaça˜ o.. Elas utilizam. internamente seus pesos de forma a extrair as caracter´ısticas utilizadas para a classificaça˜ o, ou seja, as caracter´ısticas também são treinadas. A seguir detalha-se os métodos de descriça˜ o e classificaça˜ o utilizados. 3.2.1. HISTOGRAMA DE GRADIENTES ORIENTADOS O Histograma de gradientes orientados do ingles histogram of oriented gradients. (HOG) e´ um descritor de imagem, desenvolvido em Dalal e Triggs (2005), que para um local na imagem, em pequenas regiões chamadas células se calcula a contagem da orientaça˜ o dos gradientes e os pondera pela sua intensidade. A junça˜ o de todos os histogramas de cada uma das células e´ o descritor. Ele também pode ter seu contraste normalizado calculando-se a intensidade através de uma região maior chamada bloco, que e´ composto por várias células e então normalizando os valores de cada uma das células pertencentes ao bloco. Essencialmente o descritor presume que a aparência do objeto pode ser descrita através da intensidade de seus gradientes e direça˜ o de suas bordas. 3.2.2. ´ MAQUINAS DE VETORES SUPORTE Support-vector machine ou máquinas de vetores suporte (SVM) e´ um modelo de. aprendizado supervisionado que permite a classificaça˜ o de duas classes de dados. Durante o seu treinamento os dados são implicitamente mapeados para um espaço de dimensão maior, onde um hiperplano e´ constru´ıdo de forma a dividir as classes e também maximizar a margem que as separa. Logo, esta superf´ıcie de decisão pode ser usada para classificar novos dados (CORTES; VAPNIK, 1995). A Figura 4 demonstra hipotéticamente o caso de um hiperplano separador H para duas classes. A definiça˜ o original permite a criaça˜ o de uma superf´ıcie de decisão linear, entretanto, através de um método chamado kernel-trick e´ poss´ıvel extender a aplicaça˜ o da SVM para decisões não lineares..

(26) 25. Figura 4: Imagem exemplificando o hiperplano H, situado ao centro, que separa a classe azul da amarela.. Para poder se classificar dados de mais de duas classes com SVMs são utilizados dois métodos. No método “um versus todos” são treinados k modelos, onde k e´ o número de classes, em que o modelo de número m possui todos os exemplos da classe m como positivos e todos os outros exemplos das outras classes como negativos. Finalmente para cada um dos modelos temos um valor de decisão de sa´ıda, a classe selecionada e´ o com maior valor. Já o método “um versus um” constrói se k(k − 1)/2 modelos cada um treinado com duas classes, finalmente para se decidir a classe final utiliza-se de um sistema de votaça˜ o. Uma comparaça˜ o entre esses métodos pode ser vista em Hsu e Lin (2002). Um processamento comumente utilizado e´ classificar a imagem utilizando como descritor o HOG e classificador máquinas de vetores suporte. Exemplos desse processo podem ser vistos na literatura, como, por exemplo, em Llorca et al. (2013). 3.2.3. REDES NEURAIS Redes neurais são um modelo computacional vagamente inspirado na biologia de. como o ser humano processa informaço˜ es. Estes modelos são compostos de várias unidades conhecidas como neurons. Cada neuron recebe até N entradas, por exemplo, para um neuron com 2 entradas (x1 , x2 ), um componente de bias b e com os seus pesos w calcula-se a multiplicaça˜ o deles com a entrada, soma-se o bias e se aplica uma funça˜ o de ativaça˜ o f obtendose a sua sa´ıda y. Esse processo pode ser visto na Equaça˜ o (4).. y = f (w1 ∗ x1 + w2 ∗ x2 + b). (4). Tem-se várias maneiras de juntar essas unidades, o que culmina em diferentes.

(27) 26. arquiteturas, algumas das conhecidas são o Perceptron, o Feed Forward, Redes Neurais Recorrentes e Redes Neurais Convolucionais. Neste trabalho utiliza-se o u´ ltimo sub-grupo, a seguir detalha-se mais sobre ele. 3.2.3.1. REDES NEURAIS CONVOLUCIONAIS As Redes Neurais Convolucionais (CNN) são uma subclasse dos modelos de redes. neurais e foram primeiramente definidas em LeCun et al. (1999), caracterizam-se por suas camadas de convoluça˜ o que aproveitam a coerência espacial local de suas entradas, no caso imagens. Estas camadas permitem ter menos parâmetros que redes neurais comuns, porque seus valores acabam sendo compartilhados. A Figura 5 exemplifica uma poss´ıvel estrutura de uma rede convolucional. Quando estas possuem muitas camadas passam a pertencer também ao campo de estudo chamado Deep learning que e´ um subcampo do aprendizado de máquina que estuda modelos que usam camadas sucessivas de forma a aprender representaço˜ es mais complexas a cada n´ıvel.. Figura 5: Imagem exemplificando uma poss´ıvel estrutura de rede neural convolucional.. 3.2.3.2. TREINAMENTO O aprendizado ou a otimizaça˜ o dos pesos das redes neurais normalmente e´ feita através. do algoritmo gradient descent que consiste em atualizar os parâmetros da rede de maneira interativa, através do gradiente, de forma a minimizar a funça˜ o de custo utilizada. Para as atualizaço˜ es de peso necessárias no trabalho foi utilizado o stochastic gradient descent que difere do padrão somente porque a atualizaça˜ o dos pesos ocorre no final do processamento de cada sub-conjunto de imagens e não no final do processamento de todas as imagens do conjunto de treino. Na sa´ıda de cada uma das redes existe um classificador Softmax, logo a funça˜ o de custo utilizada na otimizaça˜ o e´ a cross-entropy. Ela e´ definida através da Equaça˜ o (5) onde.

(28) 27. M e´ o número de classes, y e´ um indicador binário sendo 1 caso o gabarito c seja a correta classificaça˜ o para a observaça˜ o o e p a probabilidade de a observaça˜ o de o ser a classe c. c=1. CrossEntropy = − ∑ yo,c log(po,c ). (5). M. 3.2.3.3. ´ REDES PRE-TREINADAS Para poder comparar a acurácia das diferentes estruturas de redes utilizadas, a literatura. tem por padrão utilizar o treinamento e teste em um subconjunto da base ImageNet (DENG et al., 2009).. Essa base consiste em mais de 14 milhões de imagens gabaritadas com. aproximadamente 20000 categorias. O subconjunto usado na competiça˜ o ImageNet Desafio de Reconhecimento Visual de Grande Escala (ILSVRC) (RUSSAKOVSKY et al., 2015) utiliza aproximadamente 1.4 milhão de imagens dentre as suas 1000 classes. E para poder se validar, melhorar e diminuir o tempo de treinamento de novas redes, algumas bibliotecas possuem dispon´ıveis abertamente os pesos já treinados para algumas arquiteturas. Utilizam-se esses pesos em um dos algoritmos descritos. A seguir, detalha-se as topologias de rede utilizadas, nota-se que essas redes foram escolhidas devido a disponibilidade de seus pesos pré-treinados na linguagem e bibliotécas utilizadas na construça˜ o da soluça˜ o apresentada e pelos resultados apresentados na ImageNet. 3.2.3.4. INCEPTION V3 Inception V3 (SZEGEDY et al., 2016) e´ a terceira versão da rede Inception V1, essas. redes variam de outras redes convolucionais devido a um módulo conhecido como inception. Esse bloco tem como objetivo minimizar algumas dificuldades encontradas como o fato de que os objetos podem variar muito de tamanho entre as imagens e que redes muito profundas tem dificuldades em passar os updates de gradiente para toda a rede. As diferenças da versão 2 e 3 estão na melhoria desse bloco, decompondo os kernels utilizados e alterando o sistema de treinamento. Como curiosidade a InceptionV3 reporta 78.8% de acurácia na ImageNet. 3.2.3.5. MOBILENET As redes MobileNet (HOWARD et al., 2017) são redes otimizadas para a prediça˜ o. em dispositivos embarcados, trocam as camadas de convoluça˜ o padrão por depthwise separable convolutions que proporcionam uma diminuiça˜ o da carga computacional, mas mantém os n´ıveis.

(29) 28. de acurácia de outras redes. Além disso, para torná-las menores ainda os autores propõem o uso de dois fatores width multiplier e resolution multiplier. O primeiro permite diminuir a profundidade de rede e o segundo a resoluça˜ o da entrada. Esses parâmetros permitem a diminuiça˜ o do custo computacional, porém acabam por diminuir a acurácia também. Neste trabalho usa-se a configuraça˜ o da rede de maior acurácia. Para essa configuraça˜ o, a MobileNet com entrada 224 pixels por 224 pixels e width multiplier de 1 reporta uma acurácia de 70.6% na imagenet. 3.2.3.6. GRAD-CAM Para depurar e inferir as regiões em que uma determinada rede neural usa para fazer. uma prediça˜ o, utiliza-se o Mapeamento de Ativaça˜ o de Classe com Ponderaça˜ o de Gradiente (GRAD-CAM) (SELVARAJU et al., 2017). Este algoritmo através dos gradientes de uma dada classe que fluem para a u´ ltima camada convolucional de uma CNN, produz um mapa c aproximado das regiões importantes da imagem para obter esta classificaça˜ o (LGrad−CAM ). definido na Equaça˜ o (6). Onde Akij representa a sa´ıda do u´ ltimo filtro convolucional, i e j as duas dimensões dos gradientes respectivos a sa´ıda y para a classe c e k a profundidade de canais de sa´ıda. Esse mapa tem tamanho equivalente em altura e largura ao tamanho da sa´ıda da camada utilizada porém de número de canais um. Faz-se o resize dessa sa´ıda e o overlay sobre a imagem de entrada para criar a vizualizaça˜ o final.. c LGrad−CAM = ReLU(. 3.3. ∂ yc k 1 ∑ ∑ k Ai j ) Z∑ i j k ∂ Ai j. (6). ´ ACURACIA Para a avaliaça˜ o dos modelos a literatura utiliza-se da métrica de acurácia. Ela e´. definida pela quantidade de acertos dividido pela quantidade total de amostras (visualizar Equaça˜ o (7) onde # representa o número de itens da categoria). Também utiliza-se os conceitos de top-1 onde um acerto só e´ considerado caso a classe seja a de probabilidade mais alta ou o top-5 onde o acerto e´ definido quando a classe correta está dentre as 5 sa´ıdas de probabilidade mais alta.. ACC =. #Verdadeiro positivos + #Verdadeiro negativos #Populacao total. (7).

(30) 29. 4. DESENVOLVIMENTO. Este cap´ıtulo se destina ao desenvolvimento do projeto. Em suma, detalha-se a criaça˜ o das bases utilizadas para treinamento e teste. Em seguida, os algoritmos de classificaça˜ o da logomarca do automóvel são explicados e finalmente a classificaça˜ o de marca e modelo e´ introduzida. 4.1. BANCOS DE IMAGENS Como o foco do projeto está em extrair a marca e o modelo de imagens de ve´ıculos. brasileiros, houve a necessidade de construir os bancos de imagens para a extraça˜ o das caracter´ısticas. Os conjuntos de imagens a seguir são compostos prioritariamente de dois tipos de aquisiço˜ es: Imagens de campo fornecidas pela empresa Pumatronix e imagens capturadas da internet. Para as primeiras abordagens, que precisam da região da marca do ve´ıculo segmentada, foi necessário criar gabaritos contendo a região da logomarca do ve´ıculo, para isso foi constru´ıda uma base contendo 9 marcas de ve´ıculos sendo elas: • GM - Chevrolet • Fiat • Ford • Honda • Hyundai • Nissan • Renault • Toyota.

(31) 30. • Volkswagen Essas marcas foram escolhidas de acordo com a disponibilidade de imagens para a utilizaça˜ o. A quantidade de amostras foi balanceada entre as classes utilizando-se 40 amostras de treino e 4 amostras de teste para cada classe, totalizando 360 e 36 amostras respectivamente. A esse conjunto de imagens refere-se pelo nome de Pre-jcars. Exemplos de imagens deste conjunto podem ser vistos na Figura 6.. Figura 6: Imagens exemplo do conjunto de imagens Pre-jcars.. Uma vez com as sequencias de classificaça˜ o de imagem completas há a necessidade de se testar a implementaça˜ o de cada uma das abordagens testadas. Para isso também se construiu um banco de imagens separado contendo os gabaritos da região da logomarca. Também se manteve as 9 marcas anteriormente citadas, porém para esse conjunto as classes não foram balanceadas. Resultando em 187 imagens distribu´ıdas da seguinte forma: • GM - Chevrolet: 37 imagens. • Fiat: 33 imagens. • Ford: 25 imagens. • Honda: 8 imagens. • Hyundai: 8 imagens. • Nissan: 7 imagens. • Renault: 15 imagens. • Toyota: 16 imagens..

(32) 31. • Volkswagen: 38 imagens. Esse conjunto de imagens será chamado de Pre-jcars-test. Pode-se visualizar exemplos deste na Figura 7.. Figura 7: Imagens exemplo do conjunto de imagens Pre-jcars-test.. Para o treinamento de redes profundas convolucionais normalmente há a necessidade de se utilizar grande quantidade de amostras, logo para os experimentos deste tipo houve a necessidade de se criar uma base com quantidade de amostras suficiente. Utilizou-se como padrão de tamanho, a quantidade de amostras e de classes utilizadas no artigo onde foi implementado a base CompCars (YANG et al., 2015). Em seguida, a partir dos dados de emplacamento da Fenabrave gerou-se uma lista juntando 10 anos de venda de ve´ıculos e chegou-se aos ve´ıculos mais vendidos. Como a lista de ve´ıculos mais vendidos acabou sendo pequena quando comparado a de referência, juntou-se ao banco de imagens o conjunto de dados stanford-cars para se chegar a um número de classes próximos ao utilizado no CompCars. Ficando finalmente em 354 classes detalhadas no apêndice A. O total ficou em 33453 imagens sendo que 90% foram utilizadas para treinamento e 10% utilizadas para teste. Refere-se a esses conjuntos como Jcars-train e Jcars-test respectivamente. Exemplos de imagens desse conjunto podem ser visualizadas na Figura 8..

(33) 32. Figura 8: Imagens exemplo do conjunto Jcars.. 4.2. ´ METODOS PROPOSTOS Esse cap´ıtulo destina-se a descrever as abordagens implementadas. Em suma, foram. feitas três abordagens, as duas primeiras utilizaram a região da logomarca do ve´ıculo para classificar somente a sua marca e, em seguida, buscando-se um resultado melhor utilizou-se a classificaça˜ o da imagem completa obtendo-se a marca e o modelo. ´ DA REGIAO ˜ DA LOGOMARCA RECONHECIMENTO DE MARCA ATRAVES. 4.2.1. Detalha-se aqui as abordagens que utilizam informaça˜ o locais do ve´ıculo para tomar a decisão de qual marca de automóvel está presente na imagem. 4.2.1.1. ˜ ATRAVES ´ DE SEGMENTAÇAO ˜ LOCALIZAÇAO A primeira abordagem experimentada para a obtença˜ o da marca constituiu em extrair. a logomarca do automóvel e classificá-la. Para a segmentaça˜ o e classificaça˜ o utilizou-se o seguinte algoritmo: 1. Extrai-se a região contendo a placa do ve´ıculo (Feito de um software de reconhecimento de placas de automóveis); 2. Seleciona-se uma região de interesse acima da placa, de altura 8 vezes a altura da placa e largura 5% maior que ela (Observou-se empiricamente que para as marcas consideradas a logomarca está dentro dessa região); 3. Aplica-se um filtro gaussiano de desvio padrão 1,5 para suavizar linhas próximas a logomarca do ve´ıculo;.

(34) 33. 4. Aplica-se um filtro Sobel de ordem derivativa um em x e na mesma imagem aplica-se novamente o Sobel de ordem derivativa 1 em x e 1 em y. Utiliza-se esse filtro de forma a ressaltar as regiões de borda 5. Em seguida aplica-se uma limiarizaça˜ o Otsu para extrair as regiões de borda das duas sa´ıdas anteriores; 6. Também nas duas imagens aplica-se uma dilataça˜ o de kernel 5 por 5 de forma a juntar as linhas da logomarca e criar-se um blob. 7. Somente na imagem limiarizada de bordas vertical e horizontal aplica-se uma erosão de kernel 13 por 1 de forma a desconectar o blob da logomarca de linhas laterais. 8. Operaça˜ o “E” lógica entre as imagens de borda resultando nos blobs parecidos com a logomarca. 9. Executa-se uma dilataça˜ o 15 por 15 nessa imagem para aumentar um pouco da região ao redor dos blobs como a´ rea de classificaça˜ o. 10. Extrai-se os contornos da imagem e seleciona-se o mais ao centro da região de interesse. 11. Calcula-se o descritor HOG da região de interesse e através de uma SVM classifica-se a região na marca. O treinamento do classificador SVM foi executado na base Pre-jcars utilizando caracter´ısticas HOG de 9 orientaço˜ es, células de 4 por 4 pixels e blocos de 1 célula, calculadas sobre a região extra´ıda redimensionada para 40 por 40 pixels. E´ poss´ıvel visualizar as etapas desse algoritmo na Figura 9. Durante o desenvolvimento dessa abordagem notou-se as principais limitaço˜ es, como a hipótese de a logomarca estar contida na região superior a placa veicular. Em alguns ve´ıculos isto não ocorre. Além disso, os tamanhos de kernel utilizados foram escolhidos empiricamente de forma a extrair as logomarcas da base Pre-jcars, porém para imagens de tamanhos diferentes e com ve´ıculos em escalas diferentes esses tamanhos tem a necessidade de serem adaptados. Nota: Os valores emp´ıricos utilizados, foram selecionados de forma a fazer um estudo preliminar da abordagem, de forma que para um trabalho futuro, poderiam se experimentar variar-se esses parâmetros..

(35) 34. Figura 9: Diagrama do processo de segmentaça˜ o para um ve´ıculo Volkswagen. Inicia-se pela imagem completa e através do ALPR obtem-se a placa veicular. E´ extraida a região de interesse e nela aplicado o filtro gaussiano (item 2). No bloco A, e´ possivel vizualizar as saidas do item 4, ou seja, os filtros Sobel em x e em x e y. Em seguida são executadas as operaço˜ es de dilataça˜ o e erosão em cada uma das imagens descritas de forma a remover ruidos. Até que em B e´ feita uma operaça˜ o “E” logica onde se obtém os blobs parecidos com a logomarca. Seleciona-se o mais ao centro e obtem-se a região de interesse que deve conter a logomarca.. 4.2.1.2. ˜ ATRAVES ´ DE DESLIZAMENTO DE JANELAS LOCALIZAÇAO Ao notar as dificuldades da primeira abordagem experimentou-se identificar a região. da logomarca através de um modelo de aparência. Para isso primeiramente separou-se as a´ reas das imagens do conjunto de dados Pre-jcars em duas classes: contém logomarca e não contém. Em seguida, com essas classes, treinou-se um classificador SVM sobre uma a´ rea de interesse de 50 por 50 pixels, utilizando caracter´ısticas HOG de 9 orientaço˜ es, células de 8 por 8 pixels e blocos de uma célula. Para a detecça˜ o da posiça˜ o da logomarca partiu-se da mesma região descrita na seça˜ o 4.2.1.1, que e´ baseada a partir da região da placa. Para quatro escalas: 1,5, 1,2, 1,0 e 0,7 aplicouse o classificador descrito através do algoritmo de deslizamento de janelas. Este, consiste em deslizar uma janela sobre a imagem e em cada momento classificar essa região. Os parâmetros utilizados foram: janelas de 50 por 50 pixels, passos de 3 pixels na horizontal e 3 pixels na vertical. Para filtrar a quantidade de janelas geradas agrupou-se os retângulos de sa´ıda através da funça˜ o groupRectangles implementada no OpenCV. Esta funça˜ o agrupa retângulos de acordo com um critério de equivalência, combinando retângulos de tamanhos e localizaço˜ es similares. Para cada grupo um retângulo médio e´ calculado e será utilizado como sa´ıda do algoritmo. Em seguida, seleciona-se o retângulo mais próximo ao centro da imagem. Essa região e´ então passada para o mesmo classificador descrito no u´ ltimo item da localizaça˜ o através de segmentaça˜ o 4.2.1.1, para a obtença˜ o da marca..

(36) 35. 4.2.1.3. DESVANTAGENS DAS ABORDAGENS Depois da implementaça˜ o dos dois algoritmos notou-se que, para a abordagem via. segmentaça˜ o, os tamanhos de kernel eram escolhidos empiricamente de acordo com o tamanho das logomarcas. E no caso da inserça˜ o de logomarcas novas haveria a necessidade de se readequar o sistema aos novos tamanhos e posiço˜ es. Para a abordagem de deslizamento de janelas há a necessidade de criar um classificador de um tamanho fixo de janela. Logo, para o reconhecimento em tamanhos diferentes precisa-se rodar essa classificaça˜ o em várias escalas, deixando o tempo de execuça˜ o elevado. Além disso, quando há logomarcas com tamanhos diferentes também e´ poss´ıvel que haja a necessidade de se usar mais de um classificador, tornando a abordagem cada vez mais complexa. Porém a principal desvantagem dos dois sistemas e´ que eles se baseiam no fato de que para o reconhecimento da marca há a necessidade de que a etapa de localizaça˜ o funcione corretamente. Caso esta falhe, o resultado da classificaça˜ o também será falho. Levando esses problemas em consideraça˜ o voltou-se a literatura para ver quais abordagens poderiam escalar melhor. Com isso encontrou-se as implementaço˜ es de classificaça˜ o global da imagem. 4.2.2. RECONHECIMENTO DE MARCA E MODELO Após as medidas das primeiras implementaço˜ es, notou-se que, para resultados. melhores, havia a necessidade de se usar uma abordagem diferente.. Devido a isso,. experimentou-se utilizar redes convolucionais para a extraça˜ o de caracter´ısticas e classificaça˜ o. 4.2.2.1. ˜ ATRAVES ´ DE DEEP LEARNING CLASSIFICAÇAO Primeiramente fez-se um estudo preliminar a reproduça˜ o dos resultados do modelo. dispon´ıvel para a classificaça˜ o do conjunto de dados CompCars (YANG et al., 2015). Através desse estudo, obteve-se informaço˜ es importantes sobre o processo de treinamento do classificador, chamado finetuning (descrito a seguir), além de se confirmar os ´ındices reportados. Experimentando utilizar o mesmo processo em uma outra estrutura de rede, chamada MobileNet menor e que reportava resultados parecidos a rede base utilizada, foi poss´ıvel obter-se um ganho de acurácia. Esta ideia culminou na publicaça˜ o de um artigo WILLE et al. (2018)..

(37) 36. 4.2.3. FINETUNING Para treinar a rede se faz o uso de transferencia de aprendizado ou do ingles transfer. learning, que consistem em se utilizar o aprendizado prévio de uma outra tarefa em uma nova tarefa. Por exemplo, se utiliza para nova tarefa os pesos pré-treinados no ImageNet. Em seguida a atualizaça˜ o dos pesos e´ feita através do processo de finetuning, que consiste em se utilizar uma rede pré-treinada para uma determinada tarefa de classificaça˜ o. Em seguida, remover a u´ ltima camada ou as u´ ltimas camadas da rede, inserir novas camadas alterando o tamanho destas, de forma a se obter os tamanhos de sa´ıda de classificaça˜ o esperados. A partir deste momento foi executado um novo treinamento, utilizando-se um learning rate menor para a tarefa de classificaça˜ o desejada. Com esse u´ ltimo processo executado, obtém-se a rede com os pesos atualizados para a classificaça˜ o. Este processo e´ utilizado para se economizar recursos computacionais, uma vez que o primeiro treinamento normalmente e´ executado em um conjunto de imagens grande e pode levar dias ou até semanas para obter-se o ´ındice desejado. Devido ao fato de que as caracter´ısticas mais simples obtidas nas camadas iniciais da rede convolucional, tendem a ser as mesmas para outras tarefas, aproveita-se esses pesos para a inicializaça˜ o do novo treinamento, otimizando o tempo de treinamento de uma rede para uma nova tarefa. Um diagrama do processo de finetuning pode ser visto na Figura 10..

(38) 37 O pr ocessodef i net uni ng Mobi l eNett r ei nadanabas eI mageNet. Remov es easúl t i masc amadas. Adi c i onas enov asc amadasf i nai s c as andos eot amanhodas aí dado model oc om onúmer ode c l as s es .. Tr ei nas eomodel oem umanov a bas ededados ,ut i l i z andoum l ear ni ngr at emenor .. Nov aCNNpar aac l as s i f i c aç ãodas c l as s est r ei nadas .. Figura 10: Diagrama explicando o processo de finetuning. Inicia-se a partir de uma rede pré´ treinada, em seguida, são removidas as ultimas camadas. Depois, adicionam-se camadas novas de sa´ıda de forma a se adaptar a sa´ıda para a quantidade de classes e se treina o modelo sobre os novos dados. Imagem adaptada de (WILLE et al., 2018).. 4.2.4. ARQUITETURAS E TREINAMENTO Para se construir o classificador de marca e modelo através de redes convolucionais. utilizou-se a linguagem Python e duas bibliotecas: OpenCV para o manuseio das imagens e o Tensorflow com a interface Keras para o treinamento e configuraça˜ o das redes. As topologias testadas foram escolhidas com base na disponibilidade de seus pesos pré-treinados na interface Keras, por seu tamanho e resultados obtidos na base Imagenet. São elas: • Inception V3 • MobileNet Para as duas redes removeu-se todas as camadas até a camada de amostragem media.

(39) 38. global ou do ingles global average pooling, e em seguida adicionou-se uma nova camada densa ou do ingles Dense, com tamanho de saida igual ao numero de classes de marca e modelo. Finalmente, para o treinamento implementou-se um gerador de dados para a abertura e préprocessamento das imagens. Este tem a responsabilidade de fazer o resize e normalizar os dados da maneira esperada pelas redes convolucionais. As imagens da base Jcars-train são servidas de forma c´ıclica e em blocos de tamanhos fixos e dependentes da memória dispon´ıvel no hardware e da topologia utilizada. Além disso, o gerador também implementa transformaço˜ es nos dados como o espelhamento horizontal da imagem e um recorte randômico de uma região menor da imagem. Essas alteraço˜ es são feitas de forma a minimizar o efeito de overfit durante o treinamento da rede. Um diagrama com os passos do gerador pode ser visualizado na Figura 11 De forma geral o treinamento foi feito para todas as redes durante 71 e´ pocas, com learning rate iniciando em 0,002 e na e´ poca 35 ele e´ reduzido para 0,0002. O algoritmo de otimizador utilizado foi o stochastic gradient descent utilizando momento 0,9. Foram servidas as redes blocos de 8 imagens a cada iteraça˜ o.. Figura 11: Diagrama representando as etapas do gerador c´ıclico de imagens para o treinamento das redes neurais convolucionais.. A cada e´ poca de treinamento foi salvo um arquivo contendo o modelo naquela e´ poca. Logo que a rede estava treinada, se avaliou cada um desses modelos na base Jcars-test e o modelo selecionado foi o que se desempenhou melhor nesta base..

(40) 39. 5. ´ EXPERIMENTOS E ANALISE. Para avaliar as técnicas utilizadas, mediu-se os valores de acurácia primeiramente para a tarefa de classificaça˜ o de marca de ve´ıculo. Com isso e´ poss´ıvel verificar se houve uma melhora em relaça˜ o aos outros métodos utilizados. Em seguida mediu-se a acurácia dos classificadores redes neurais convolucionais (CNNs) para a tarefa de identificar marca e modelo de ve´ıculos. Discute-se também e se aprofunda os resultados para essa base. 5.1. ˜ DA MARCA DO VEÍCULO CLASSIFICAÇAO Utilizando-se cada um dos algoritmos descritos no cap´ıtulo 4.2 classificou-se as. imagens da base de dados Pre-jcars-test e em seguida calculou-se a acurácia para cada uma das abordagens. Nota-se que para as redes convolucionais, utilizou-se somente a marca do ve´ıculo como sa´ıda nesse experimento. Os resultados podem ser vistos na Tabela 2. Modelo Segmentaça˜ o Deslizamento de janelas CNN - MobileNet CNN - InceptionV3. Acurácia 65,24% 63,63% 79,67% 79,14%. Tabela 2: Tabela de acurácia para cada uma das abordagens utilizadas na classificaça˜ o de marca de ve´ıculos. Resultados para a base Pre-jcars-test.. Nota-se o resultado superior da abordagem utilizando redes neurais convolucionais (CNNs) e a imagem inteira. Como mencionado anteriormente, quando os algoritmos de segmentaça˜ o falham o resultado acaba sendo completamente errôneo. Além disso, há uma diferença entre a abordagem utilizando-se a segmentaça˜ o e o deslizamento de janelas. Como cada imagem contém um ve´ıculo com somente uma logomarca, a segmentaça˜ o se foca nas linhas do ve´ıculo acabando de selecionar mais corretamente a região que contém a marca do ve´ıculo, enquanto que o classificador treinado para localizar a logomarca via deslizamento de janelas acaba tendo falsos positivos. Como somente uma das regiões de sa´ıda e´ selecionada para a classificaça˜ o, essa região tem chance de não ser a correta, acarretando na baixa acurácia.

(41) 40. desse experimento. Já para as redes convolucionais nota-se uma diferença pequena entre elas, essa diferença pode ter alguma relaça˜ o com o fato de o modelo MobileNet ser menor que o modelo InceptionV3 podendo indicar algum overfit por parte do modelo InceptionV3, o que causaria a queda de acurácia. Para verificar isso avaliou-se o gráfico da curva de acurácia das bases de treinamento e validaça˜ o para cada e´ poca de treinamento para as duas redes (dispon´ıvel na Figura 12. E´ possivel visualizar que as duas redes possuem um desempenho melhor na base de treinamento do que na de validaça˜ o, o que indica um textitoverfit das duas redes. A diferença portanto deve estar na quantidade de parâmetros da InceptionV3 que e´ maior que a MobileNet. Este estudo esta em aberto para um trabalho futuro.. Figura 12: Gráficos de acurácia de treinamento e validaça˜ o para cada uma das e´ pocas de treinamento, confirmam a presença de overfit no treinamento para as redes estudadas.. 5.2. ˜ DA MARCA E MODELO DO VEÍCULO CLASSIFICAÇAO Para avaliar os modelos na identificaça˜ o de marca e modelo fez-se a classificaça˜ o da. base Jcars-test e reportou-se os resultados de acurácia top-1 e top-5 na Tabela 3: Modelo Acurácia - Top 1 Acurácia - Top 5 MobileNet 86,62% 96,89% InceptionV3 84,29% 96,24% Tabela 3: Tabela de acurácia para cada uma das abordagens utilizadas na classificaça˜ o de marca e modelo de ve´ıculos. Resultados para a base Jcars-test. Nota-se que a MobileNet desempenhou melhor nessa base do que a InceptionV3, provavelmente isso se deve ao overfit e tamanho do modelo InceptionV3. Logo, para investigar os erros das duas redes, gerou-se a matriz de confusão, porém como a matriz e´ muito grande,.