• Nenhum resultado encontrado

Reconhecimento de marca e modelo de veículos a partir de imagens

N/A
N/A
Protected

Academic year: 2021

Share "Reconhecimento de marca e modelo de veículos a partir de imagens"

Copied!
60
0
0

Texto

(1)´ ´ UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANA ´ ˜ EM ENGENHARIA ELETRICA ´ PROGRAMA DE POS-GRADUAC ¸ AO E ´ INFORMATICA INDUSTRIAL. RENAN BARCIK DE CASTRO WILLE. ´ RECONHECIMENTO DE MARCA E MODELO DE VEICULOS A PARTIR DE IMAGENS. ˜ DISSERTAC¸AO. CURITIBA 2019.

(2) RENAN BARCIK DE CASTRO WILLE. ´ RECONHECIMENTO DE MARCA E MODELO DE VEICULOS A PARTIR DE IMAGENS. Dissertac¸a˜ o apresentada ao Programa de P´osgraduac¸a˜ o em Engenharia El´etrica e Inform´atica Industrial da Universidade Tecnol´ogica Federal do Paran´a como requisito parcial para obtenc¸a˜ o do grau ´ de “Mestre em Ciˆencias” – Area de Concentrac¸a˜ o: Engenharia De Automac¸a˜ o E Sistemas. Orientador:. Dr. Daniel Rodrigues Pipa. Co-orientador: Dr. Gustavo Benvenutti Borba. CURITIBA 2019.

(3) Dados Internacionais de Catalogação na Publicação. Wille, Renan Barcik de Castro Reconhecimento de marca e modelo de veículos a partir de imagens [recurso eletrônico] / Renan Barcik de Castro Wille.-- 2019. 1 arquivo texto (59 f.) : PDF ; 7,10 MB Modo de acesso: World Wide Web Título extraído da tela de título (visualizado em 18 mar. 2019) Texto em português com resumo em inglês Dissertação (Mestrado) - Universidade Tecnológica Federal do Paraná. Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial, Curitiba, 2019 Bibliografia: f. 46-48 1. Engenharia elétrica - Dissertações. 2. Veículos - Identificação. 3. Sistemas de comunicação móvel. 4. Veículos - Rastreabilidade. 5. Veículos - Fotografia - Identificação. I. Pipa, Daniel Rodrigues. II. Borba, Gustavo Benvenutti. III. Universidade Tecnológica Federal do Paraná. Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial. IV. Título. CDD: Ed. 23 – 621.3 Biblioteca Central da UTFPR, Câmpus Curitiba Bibliotecário: Adriano Lopes CRB-9/1429.

(4) Ministério da Educação Universidade Tecnológica Federal do Paraná Diretoria de Pesquisa e Pós-Graduação. TERMO DE APROVAÇÃO DE DISSERTAÇÃO Nº 820 A Dissertação de Mestrado intitulada “Reconhecimento de Marca e Modelo de Veículos a Partir de Imagens” defendida em sessão pública pelo(a) candidato(a) Renan Barcik de Castro Wille, no dia 22 de fevereiro de 2019, foi julgada para a obtenção do título de Mestre em Ciências, área de concentração Engenharia de Automação e Sistemas, e aprovada em sua forma final, pelo Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial.. BANCA EXAMINADORA: Prof(a). Dr(a). Daniel Rodrigues Pipa - Presidente – (UTFPR) Prof(a). Dr(a). André Eugênio Lazzaretti - (UTFPR) Prof(a). Dr(a). Giselle Lopes Ferrari Ronque - (UFPR). A via original deste documento encontra-se arquivada na Secretaria do Programa, contendo a assinatura da Coordenação após a entrega da versão corrigida do trabalho.. Curitiba, 18 de fevereiro de 2019..

(5) AGRADECIMENTOS. Agradec¸o primeiramente aos orientadores Daniel Pipa e Gustavo Borba que por muitas vezes me auxiliaram pessoalmente ou via meios eletrˆonicos, j´a que enquanto desenvolvia o mestrado tamb´em trabalhava, e que me mostraram maneiras diferentes de pensar sobre os assuntos em quest˜ao, sempre instigando a curiosidade e o aprendizado. Em seguida agradec¸o ao Ricardo Carnieri que, devido ao fato de trabalhar comigo, foi pessoa importante na discuss˜ao de ideias, e trilhamento do caminho para a soluc¸a˜ o apresentada. Agradec¸o tamb´em a empresa Pumatronix, pelo apoio prestado durante o desenvolvimento do mestrado. Obrigado a minha noiva Camila Veigas que, al´em de me apoiar durante o desenvolvimento do mestrado, tamb´em foi meu suporte emocional junto a minha fam´ılia. Obrigado aos meus pais, por sempre acreditarem em mim e instigarem o meu desenvolvimento e tamb´em a Deus pela oportunidade que estou tendo..

(6) I have not failed. I’ve just found 10,000 ways that won’t work. - Thomas Alva Edison..

(7) RESUMO. Wille, RENAN. RECONHECIMENTO DE MARCA E MODELO DE VE´ICULOS A PARTIR DE IMAGENS. 59 f. Dissertac¸a˜ o – Programa de P´os-graduac¸a˜ o em Engenharia El´etrica e Inform´atica Industrial, Universidade Tecnol´ogica Federal do Paran´a. Curitiba, 2019. O reconhecimento autom´atico de marca e modelo de ve´ıculos pode reduzir custos para sistemas automatizados de estacionamento, bem como auxiliar entidades p´ublicas, como a pol´ıcia, para identificar e coibir adulterac¸o˜ es veiculares. Este trabalho tem como objetivo extrair a marca e modelo de ve´ıculos atrav´es de imagens. Primeiramente foi feito um estudo para listar as caracter´ısticas vi´aveis de serem obtidas atrav´es do processamento de imagens. Dentre elas est˜ao a cor, a placa de identificac¸a˜ o veicular, a marca e modelo dos ve´ıculos. Em seguida, decidiu-se pela classificac¸a˜ o da marca de ve´ıculos atrav´es de sua logomarca. Para encontr´a-la, utilizase a extrac¸a˜ o de bordas, binarizac¸a˜ o e morfologia. Em seguida, a partir de um classificador SVM e um descritor HOG a regi˜ao contendo a logomarca e´ categorizada. Experimentando-se melhorar a abordagem, usou-se a t´ecnica de localizac¸a˜ o da logomarca atrav´es de deslizamento de janelas, tamb´em com SVM e descritor HOG para a classificac¸a˜ o. Como os m´etodos apresentados dependem de informac¸o˜ es locais e com o objetivo de melhora em relac¸a˜ o a esses m´etodos, estudou-se o finetunning das redes convolucionais como as MobileNets, dentre outras arquiteturas para a classificac¸a˜ o global da imagem, sendo poss´ıvel, com esse m´etodo, extrair al´em da marca do ve´ıculo, tamb´em o seu modelo. Finalmente foram feitos testes em dois conjuntos de imagens de ve´ıculos brasileiros: O primeiro, chamado Pre-jcars-test, foi utilizado para medir a acur´acia da classificac¸a˜ o de marca dos ve´ıculos e comparar com as outras abordagens, o melhor resultado obtido foi 79,67% em top-1 utilizando as redes neurais convolucionais. O segundo conjunto, chamado Jcars-test, foi utilizado para medir a acur´acia da classificac¸a˜ o de marca e modelo de ve´ıculos e a melhor abordagem atingiu 96,89% de acur´acia em top-5, permitindo-se classificar 354 modelos dentre 61 marcas de ve´ıculos. Palavras-chave: Reconhecimento de padr˜oes; Deep learning; Marca e modelo veicular.

(8) ABSTRACT. Wille, RENAN. MAKE AND MODEL RECOGNITION FROM VEHICLE IMAGES. 59 f. Dissertac¸a˜ o – Programa de P´os-graduac¸a˜ o em Engenharia El´etrica e Inform´atica Industrial, Universidade Tecnol´ogica Federal do Paran´a. Curitiba, 2019. Automatic vehicle make and model recognition can reduce costs for automated parking systems, as well as assist public entities such as the police in identifying and restraining vehicular tampering. This work aims to extract the make and model of vehicles through images. First, a study was done to list the viable characteristics of being obtained through image processing. Among them are the color, the vehicle license plate, the make and model of the vehicles. Then, it was decided to classify the vehicle make through its logo. To find it, it was used the following techniques: extraction of edges, binarization and morphology. After that, with a SVM classifier and a HOG descriptor the region containing the logo is categorized. Experimenting to improve the approach, we used the technique of locating the logo through sliding window also using SVM and HOG descriptor for classification. As the presented methods depend on local information and with the objective of improvement in relation to these methods, the finetunning of convolutional neural networks was studied. By using MobileNets and other architectures for the global classification of the image, it became possible with this method to extract not only the make but also the model of the vehicle. Finally, tests were performed on two Brazilian vehicle image datasets: The first one, called Pre-jcars-test, was used to measure the accuracy of vehicle make classification and compare the developed approaches. The best result was 79.67 % in top-1 by using convolutional neural networks. The second dataset, called Jcars-test, was used to measure the accuracy of the classification of vehicle make and model, and the best approach reached 96.89 % accuracy in the top-5, allowing to classify 354 models from 61 vehicle makes. Keywords: Pattern Recognition; Deep learning; Vehicle make and model.

(9) LISTA DE FIGURAS. FIGURA 1 – Imagem com a sua representac¸a˜ o num´erica. . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 2 – Imagem exemplificando o processo de filtragem 2D, nesta imagem e´ aplicado um kernel gaussiano obtendo-se uma resposta sem detalhes finos. FIGURA 3 – Esquerda: Imagem original. Centro: Imagem com Sobel. Direita: Imagem da limiarizac¸a˜ o do Sobel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 4 – Imagem exemplificando o hiperplano H, situado ao centro, que separa a classe azul da amarela. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 5 – Imagem exemplificando uma poss´ıvel estrutura de rede neural convolucional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 6 – Imagens exemplo do conjunto de imagens Pre-jcars. . . . . . . . . . . . . . . . . . . . FIGURA 7 – Imagens exemplo do conjunto de imagens Pre-jcars-test. . . . . . . . . . . . . . . . FIGURA 8 – Imagens exemplo do conjunto Jcars. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 9 – Diagrama do processo de segmentac¸a˜ o para um ve´ıculo Volkswagen. Iniciase pela imagem completa e atrav´es do ALPR obtem-se a placa veicular. E´ extraida a regi˜ao de interesse e nela aplicado o filtro gaussiano (item 2). No bloco A, e´ possivel vizualizar as saidas do item 4, ou seja, os filtros Sobel em x e em x e y. Em seguida s˜ao executadas as operac¸o˜ es de dilatac¸a˜ o e eros˜ao em cada uma das imagens descritas de forma a remover ruidos. At´e que em B e´ feita uma operac¸a˜ o “E” logica onde se obt´em os blobs parecidos com a logomarca. Seleciona-se o mais ao centro e obtem-se a regi˜ao de interesse que deve conter a logomarca. . . . . . . . . . . . . . . . . . . . . . . FIGURA 10 – Diagrama explicando o processo de finetuning. Inicia-se a partir de uma rede pr´e-treinada, em seguida, s˜ao removidas as u´ ltimas camadas. Depois, adicionam-se camadas novas de sa´ıda de forma a se adaptar a sa´ıda para a quantidade de classes e se treina o modelo sobre os novos dados. Imagem adaptada de (WILLE et al., 2018). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 11 – Diagrama representando as etapas do gerador c´ıclico de imagens para o treinamento das redes neurais convolucionais. . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 12 – Gr´aficos de acur´acia de treinamento e validac¸a˜ o para cada uma das e´ pocas de treinamento, confirmam a presenc¸a de overfit no treinamento para as redes estudadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 13 – Esquerda: Exemplos dos erros listados acima. Na ordem de cima para baixo: TTS, VW VOYAGE, VW PARATI. Direita: Ve´ıculos parecidos na classe que foi predita. Na ordem de cima para baixo: TT, VW GOL G5, VW GOL G4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FIGURA 14 – Imagens contendo a representac¸a˜ o da regi˜ao mais importante para a classificac¸a˜ o de uma determinada imagem pela rede MobileNet. . . . . . . . . .. 20 21 22 25 26 30 31 32. 34. 37 38. 40. 42 43.

(10) LISTA DE TABELAS. TABELA 1 TABELA 2 TABELA 3 TABELA 4 TABELA 5. – Tabela listando os autores e suas contribuic¸o˜ es para a literatura. . . . . . . . . . – Tabela de acur´acia para cada uma das abordagens utilizadas na classificac¸a˜ o de marca de ve´ıculos. Resultados para a base Pre-jcars-test. . . . . . . . . . . . . . – Tabela de acur´acia para cada uma das abordagens utilizadas na classificac¸a˜ o de marca e modelo de ve´ıculos. Resultados para a base Jcars-test . . . . . . . . . – Tabela de confus˜oes para a rede MobileNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . – Tabela de confus˜oes para a rede InceptionV3 . . . . . . . . . . . . . . . . . . . . . . . . . .. 18 39 40 41 41.

(11) LISTA DE SIGLAS. Histograma de Gradientes ImageNet Desafio de Reconhecimento Visual de Grande Escala Mapeamento de Ativac¸a˜ o de Classe com Ponderac¸a˜ o de Gradiente M´aquina de Vetores Suporte Redes Neurais Convolucionais Regi˜ao de Interesse Software para a Obtenc¸a˜ o Autom´atica da Placa de Identificac¸a˜ o Veicular. HOG ILSVRC GRAD-CAM SVM CNN ROI ALPR.

(12) ´ SUMARIO. ˜ 1 INTRODUC ¸ AO .............................................................. ˜ 1.1 MOTIVAC¸AO ............................................................... 1.2 OBJETIVO GERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 OBJETIVOS ESPEC´IFICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ 1.4 PUBLICAC¸OES ............................................................. ˜ ´ 2 REVISAO BIBLIOGRAFICA ................................................ ´ 2.1 CARACTERISTICAS VEICULARES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 MARCA E MODELO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 RESUMO DAS CARACTER´ISTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ` DETECC ˜ DE MARCA E MODELO . 3 ALGORITMOS RELACIONADOS A ¸ AO 3.1 PROCESSAMENTO DE IMAGENS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 A imagem digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Filtragem 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Filtro Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Identificac¸a˜ o de bordas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.5 Morfologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.6 Dilatac¸a˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.7 Eros˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.8 Segmentac¸a˜ o de imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 CLASSIFICAC¸AO 3.2.1 Histograma de gradientes orientados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 M´aquinas de vetores suporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.1 Redes Neurais Convolucionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.2 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.3 Redes pr´e-treinadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.4 Inception V3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.5 Mobilenet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3.6 Grad-Cam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ 3.3 ACURACIA ................................................................. 4 DESENVOLVIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 BANCOS DE IMAGENS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ 4.2 METODOS PROPOSTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Reconhecimento de marca atrav´es da regi˜ao da logomarca . . . . . . . . . . . . . . . . . . . . . . . 4.2.1.1 localizac¸a˜ o atrav´es de segmentac¸a˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1.2 localizac¸a˜ o atrav´es de deslizamento de janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1.3 Desvantagens das abordagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Reconhecimento de marca e modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2.1 Classificac¸a˜ o atrav´es de deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Finetuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Arquiteturas e treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13 13 14 14 14 15 15 16 18 19 19 19 20 21 21 22 22 22 23 23 24 24 25 26 26 27 27 27 28 28 29 29 32 32 32 34 35 35 35 36 37.

(13) ´ 5 EXPERIMENTOS E ANALISE ............................................... ˜ 5.1 CLASSIFICAC¸AO DA MARCA DO VE´ICULO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ DA MARCA E MODELO DO VE´ICULO . . . . . . . . . . . . . . . . . . . . 5.2 CLASSIFICAC¸AO ˜ 6 CONCLUSAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˆ REFERENCIAS ................................................................. Apˆendice A -- TABELA DE MARCAS E MODELOS DE VEICULOS . . . . . . . . . . . . . .. 39 39 40 45 46 49.

(14) 13. 1. ˜ INTRODUC ¸ AO. Com os avanc¸os da tecnologia e o aumento populacional, cada vez mais, e´ preciso filtrar as informac¸o˜ es recebidas no dia a dia. Um exemplo de excesso de informac¸a˜ o s˜ao os centros de monitoramento da pol´ıcia, neles existem v´arios monitores mostrando os fluxos de v´ıdeo de v´arias cˆameras instaladas na cidade. Sendo que esses centros podem possuir muito mais de 10 cˆameras, n˜ao e´ produtivo monitorar todos os fluxos de v´ıdeo ao mesmo tempo, devido ao fato de que normalmente h´a menos pessoas monitorando do que a quantidade de cˆameras. Sendo assim, pode n˜ao ser poss´ıvel extrair todos os fatos importantes que possam ocorrer durante a filmagem. Como esses fatos s˜ao minoria, durante o tempo que uma pessoa precisaria para ficar analisando essas cˆameras, os algoritmos que extraem dados de acordo com certos padr˜oes s˜ao cada vez mais u´ teis na forma de otimizar e diminuir o tempo ocioso das pessoas na obtenc¸a˜ o de informac¸o˜ es mais relevantes. O presente trabalho detalha o desenvolvimento de uma abordagem para o reconhecimento de marca e modelos de ve´ıculos brasileiros atrav´es de imagens. Podendo auxiliar nesse tipo de problema. Nota-se que, desde as bases de dados at´e os algoritmos de classificac¸a˜ o foram desenvolvidos. 1.1. ˜ MOTIVAC¸AO Atualmente vive-se em um momento onde a inseguranc¸a no pa´ıs assusta e nos torna. mais cuidadosos. A seguranc¸a provida por parte do governo n˜ao tem sido eficaz em limitar a quantidade de crimes da nossa sociedade. Por exemplo, em G1 (2018), e´ relatado um aumento de at´e 116,7% na quantidade de ve´ıculos clonados pr´oximo a regi˜ao de S˜ao Paulo. J´a em Curitiba - Paran´a somente em 2018 e´ reportado o roubo de 4844 ve´ıculos de acordo com a Secretaria de Seguranc¸a P´ublica do Paran´a (SSP-PR, 2018). O reconhecimento das caracter´ısticas dos ve´ıculos pode auxiliar as instituic¸o˜ es a serem mais efetivas em localizar e identificar diferenc¸as nos ve´ıculos permitindo priorizar melhor o tempo das forc¸as policiais para o atendimento de ocorrˆencias que s˜ao importantes a populac¸a˜ o. Al´em disso, poderia facilitar tarefas de preenchimento de formul´arios em estacionamentos ou prac¸as de ped´agios. Permitindo que as pessoas que executam tais tarefas repetitivas se dediquem a outros afazeres..

(15) 14. 1.2. OBJETIVO GERAL Desenvolver um sistema para o reconhecimento de marca e modelo de ve´ıculos. brasileiros a partir de imagens. 1.3. OBJETIVOS ESPEC´IFICOS • Realizar uma revis˜ao da literatura verificando quais as caracter´ısticas que podem ser reconhecidas em um ve´ıculo a partir de imagens. • Testar alternativas para o reconhecimento de marca de carros. • Implementar um sistema de reconhecimento de marca e modelo a partir de imagens.. 1.4. ˜ PUBLICAC¸OES Este trabalho gerou a seguinte publicac¸a˜ o: Classification of vehicle make and model. with MobileNets por WILLE, R. B. C. & PIPA, D. R. & CARNIERI, R. & BORBA, G. B. no XXXVI Simp´osio Brasileiro de Telecomunicac¸o˜ es e Processamento de Sinais (SBrT 2018)..

(16) 15. 2. ˜ BIBLIOGRAFICA ´ REVISAO. Este cap´ıtulo destina-se a fazer uma revis˜ao das caracter´ısticas veiculares que podem ser extra´ıdas atrav´es do processamento de imagens e, em seguida, um aprofundamento das t´ecnicas utilizadas para o reconhecimento de marca e modelo de ve´ıculos. 2.1. CARACTER´ISTICAS VEICULARES Para a definic¸a˜ o do tema de pesquisa, inicialmente identifica-se quais seriam as. poss´ıveis caracter´ısticas que poderiam ser extra´ıdas de imagens de ve´ıculos, para isso detalha-se abaixo algumas das informac¸o˜ es encontradas. Normalmente a identificac¸a˜ o do ve´ıculo e´ feita atrav´es da placa veicular. Em Gou et al. (2016) a extrac¸a˜ o possui algumas etapas, primeiramente e´ feita uma localizac¸a˜ o bruta da placa veicular utilizando-se de filtros morfol´ogicos. Em seguida s˜ao localizadas as regi˜oes dos caracteres na imagem. Com essas informac¸o˜ es ajusta-se a localizac¸a˜ o da placa do ve´ıculo e calculam-se caracter´ısticas do tipo Histograma de Gradientes (HOG) para a classificac¸a˜ o dos caracteres e consequente obtenc¸a˜ o do texto da placa veicular. Outra caracter´ıstica poss´ıvel de ser extra´ıda de imagens de ve´ıculos e´ sua cor. Em Dong et al. (2015) e´ implementado um m´etodo para a classificac¸a˜ o de cor do ve´ıculo e de sua placa. Baseiam-se em um pr´e processamento com um Software para a Obtenc¸a˜ o Autom´atica da Placa de Identificac¸a˜ o Veicular (ALPR), a partir dos resultados desse pr´e-processamento e´ obtida a Regi˜ao de Interesse (ROI) da placa. Essa regi˜ao e´ ent˜ao selecionada para o processamento da cor da placa veicular, em seguida, a partir da ROI da placa, s˜ao calculadas regi˜oes laterais a ela, onde e´ prov´avel que a lataria do ve´ıculo esteja presente. A selec¸a˜ o de uma dessas regi˜oes para a classificac¸a˜ o e´ feita extraindo-se essas ROIs, convertendo-as para n´ıveis de cinza e em seguida calculando-se a variˆancia. A regi˜ao com menor variˆancia e´ selecionada para a classificac¸a˜ o. As ROIs da placa e da lataria s˜ao convertidas ent˜ao para o espac¸o de cor HSV a partir do canal HUE (H) e´ poss´ıvel ent˜ao classificar a cor dessas regi˜oes..

(17) 16. A localizac¸a˜ o e identificac¸a˜ o da posic¸a˜ o de um ve´ıculo em imagens tamb´em e´ executada. No artigo de Chen e Lu (2016) e´ apresentado primeiramente o treinamento de um classificador de imagens que detecta a visada dos ve´ıculos. Depois esse classificador e´ usado de modo a otimizar a detecc¸a˜ o e o posicionamento dos ve´ıculos nas imagens. A classificac¸a˜ o em sub categorias de ve´ıculos tamb´em e´ uma caracter´ıstica extra´ıda. Em Dong et al. (2014) os ve´ıculos s˜ao classificados, utilizando-se de uma abordagem com redes convolucionais em 6 categorias, sendo elas oˆ nibus, micro-ˆonibus, minivan, suv, sedan e caminh˜ao. 2.2. MARCA E MODELO A literatura sobre a extrac¸a˜ o das caracter´ısticas de marca e modelo e´ extensa em Ayub. Syed et al. (2014) e´ feita uma revis˜ao de artigos publicados at´e 2013. Nos artigos descritos al´em de citar algumas abordagens pr´oximas as vistas na revis˜ao, detalham-se outras encontradas. Em suma, pode-se dividir a extrac¸a˜ o de marca e modelo atrav´es de imagens em trˆes m´etodos. Utilizando modelos 3D, utilizando partes salientes dos ve´ıculos e utilizando a imagem completa do ve´ıculo. Os m´etodos que fazem uso de modelos 3D como em Ramnath et al. (2014) utilizam modelos de ve´ıculos. Atrav´es de uma estimativa inicial da pose, o modelo e´ refinado de forma a casar as linhas de silhuetas do autom´ovel com as linhas obtidas a partir de um pr´eprocessamento e extrac¸a˜ o de bordas. Nota-se que, para esses m´etodos, reportam-se dificuldades na correspondˆencia entre o modelo 3D e o real, principalmente devido a variac¸o˜ es de posicionamento na cˆamera, o que dificulta a extrac¸a˜ o de caracter´ısticas finas para a classificac¸a˜ o da marca e modelo. Tamb´em existem os algoritmos que se baseiam em partes salientes do autom´ovel. Por exemplo, Llorca et al. (2013) implementaram um algoritmo para o reconhecimento da marca do ve´ıculo atrav´es de sua logomarca. Primeiro a placa do ve´ıculo e´ localizada atrav´es de um sistema de ALPR e a partir do local da placa e´ delimitada uma regi˜ao acima onde, com o algoritmo de sliding windows, a logomarca e´ classificada. Para essa localizac¸a˜ o a imagem e´ descrita com HOG e classificada com M´aquina de Vetores Suporte (SVM). Em Llorca et al. (2014), o trabalho e´ extendido de forma a extrair a informac¸a˜ o do modelo do ve´ıculo. S˜ao usadas restric¸o˜ es geom´etricas em conjunto com um descritor HOG calculado sobre a regi˜ao que cont´em o nome do modelo do ve´ıculo para a classificac¸a˜ o. Outro exemplo de implementac¸a˜ o baseada em partes e´ Hsieh et al. (2014), neste.

(18) 17. trabalho utiliza-se um descritor chamado symmetrical speeded up robust features (SURF) para, em imagens frontais de ve´ıculos, poder localizar-se uma linha que passa pr´oximo ao meio da frente do ve´ıculo. A partir dessas linhas e da dispers˜ao dos descritores, calcula-se uma regi˜ao de interesse sobre a frente do ve´ıculo, e ent˜ao caracter´ısticas HOG e SURF s˜ao extra´ıdas dessa a´ rea e classificadas atrav´es de um classificador SVM para se obter a marca e o modelo do ve´ıculo. Sochor et al. (2018) implementaram uma das abordagens poss´ıveis para a classificac¸a˜ o de marca e modelo atrav´es de toda a imagem no ve´ıculo. Neste trabalho utilizaram-se imagens de vigilˆancia e se prop˜oem um m´etodo autom´atico de extrair o seu posicionamento 3D no espac¸o. Tendo essa informac¸a˜ o para cada um dos ve´ıculos e´ poss´ıvel extrair o tamanho da frente, do teto e das laterais, permitindo-se uma mudanc¸a de perspectiva de forma a normalizar a imagem que ser´a usada para o classificador. Essas informac¸o˜ es s˜ao ent˜ao utilizadas como entrada para o treinamento de redes neurais convolucionais que identificam a marca e o modelo dos ve´ıculos. Outra abordagem e´ descrita por Yang et al. (2015) Neste trabalho e´ proposto um conjunto de imagens para a classificac¸a˜ o de marca e modelo chamado CompCars contendo dados de dois cen´arios, da web e dados de monitoramento. A parte do conjunto de imagens, composta de imagens capturadas na web, cont´em 161 marcas e 1687 modelos de ve´ıculos. Com a proporc¸a˜ o de dados desse banco de imagens foi poss´ıvel treinar redes neurais convolucionais para as tarefas propostas. Utilizando um subconjunto desses dados, em uma extens˜ao do artigo publicada somente no arxiv1 , foi treinada uma rede convolucional que classifica 431 classes de marca e modelo a partir de imagens inteiras contendo somente um ve´ıculo em variadas perspectivas. E´ interessante notar que em cada uma das abordagens e´ poss´ıvel encontrar dificuldades. Nos algoritmos que se baseiam no modelo 3D inicial a dificuldade est´a no enquadramento do modelo junto a imagem quando se tem variac¸o˜ es relacionadas ao posicionamento, tipo de lente e intensidade luminosa da imagem. J´a para as abordagens baseadas em partes dos autom´oveis, a dificuldade est´a em relac¸a˜ o a localizac¸a˜ o dessas partes. E para as abordagens de classificac¸a˜ o do ve´ıculo inteiro podem haver dificuldades em encontrar as caracter´ısticas mais u´ teis para a separac¸a˜ o das classes. 1 www.arxiv.org.

(19) 18. 2.3. RESUMO DAS CARACTER´ISTICAS Foi poss´ıvel observar, de acordo com os artigos citados, que v´arias caracter´ısticas. veiculares podem ser obtidas atrav´es de imagens. Abaixo est˜ao listadas as descritas pelos artigos detalhados: • Placa veicular • Texto placa veicular • Cor do ve´ıculo • Localizac¸a˜ o • Vista do ve´ıculo • Sub categorias (Carro, moto, caminh˜ao) • Marca • Modelo Na tabela 1 resume-se os artigos encontrados na literatura e suas contribuic¸o˜ es: Autores. Contribuic¸a˜ o. Gou et al. (2016). Placa veicular. Dong et al. (2015). Cor do ve´ıculo e da placa. Chen e Lu (2016). Localizac¸a˜ o e vista do ve´ıculo. Dong et al. (2014). Categorias dos ve´ıculos. Ramnath et al. (2014) Marca e modelo atrav´es de modelo 3D Llorca et al. (2013). Marca e modelo atrav´es da logomarca. Hsieh et al. (2014). Marca e modelo atrav´es da regi˜ao frontal. Sochor et al. (2018). Marca e modelo atrav´es da regi˜ao normalizada do ve´ıculo. Yang et al. (2015). Marca e modelo atrav´es da imagem contendo ve´ıculo. Tabela 1: Tabela listando os autores e suas contribuic¸o˜ es para a literatura..

(20) 19. 3. ` DETECC ˜ DE MARCA E MODELO ALGORITMOS RELACIONADOS A ¸ AO. Este cap´ıtulo destina-se a descric¸a˜ o dos termos te´oricos utilizados durante o processo da criac¸a˜ o do classificador de marca e modelo. 3.1. PROCESSAMENTO DE IMAGENS Devido a disponibilidade de dispositivos de aquisic¸a˜ o de imagem para os cen´arios de. controle de trˆansito, a extrac¸a˜ o de informac¸o˜ es dos ve´ıculos atrav´es de imagens e´ muito atrativa. Para isso, e´ necess´ario processar a imagem de forma a identificar os padr˜oes esperados. No caso do estudo desenvolvido, os padr˜oes podem ser a logomarca do ve´ıculo, sua silhueta ou o formato dos far´ois. Para a localizac¸a˜ o dessas caracter´ısticas est˜ao dispon´ıveis as ferramentas cl´assicas de processamento de imagens e o aprendizado de m´aquina. A seguir as t´ecnicas utilizadas s˜ao detalhadas. 3.1.1. A IMAGEM DIGITAL Uma imagem pode ser definida atrav´es de uma func¸a˜ o bidimensional f (x, y) onde x e. y s˜ao coordenadas dentro de um plano que representam a posic¸a˜ o de um pixel (unidade m´ınima da imagem) e a amplitude desse ponto e´ a representac¸a˜ o da intensidade luminosa dele. Para o processamento digital essa amplitude e´ quantizada normalmente em 8 bits podendo receber valores entre escuro (0) e claro (255). Tamb´em utiliza-se o termo imagem binarizada, referindose a imagens que s´o possuem dois valores 0 e 255. Pode-se ver na Figura 1 a representac¸a˜ o de uma imagem em tons de cinza com profundidade de 8 bits..

(21) 20. Figura 1: Imagem com a sua representac¸a˜ o num´erica.. 3.1.2. FILTRAGEM 2D A filtragem espacial tamb´em conhecida como filtragem 2D consiste em se mover um. kernel, que normalmente e´ um pequeno retˆangulo, sobre a imagem. Para cada pixel calcula-se uma operac¸a˜ o pr´e-definida entre o kernel e a regi˜ao da imagem encoberta pelo mesmo. Quando a operac¸a˜ o entre o kernel e a imagem e´ linear chama-se esse filtro de filtro linear e quando a operac¸a˜ o e´ n˜ao linear chama-se de filtro n˜ao linear. Para a aplicac¸a˜ o da filtragem linear, existem dois conceitos intimamente ligados. A correlac¸a˜ o, que se define pela operac¸a˜ o de calcular a soma dos produtos entre os valores do kernel e da imagem para cada um dos pixels e a convoluc¸a˜ o que difere da correlac¸a˜ o somente pelo fato de que o kernel deve ser rotacionado em 180 graus antes de ser aplicado (GONZALEZ; WOODS, 2006). Exemplifica-se esse processo atrav´es da Figura 21 . 1 Imagem. adaptada de www.setosa.io/ev/image-kernels.

(22) 21. Figura 2: Imagem exemplificando o processo de filtragem 2D, nesta imagem e´ aplicado um kernel gaussiano obtendo-se uma resposta sem detalhes finos.. 3.1.3. FILTRO GAUSSIANO O filtro gaussiano tem a func¸a˜ o de filtrar altas frequˆencias da imagem, isto auxilia na. atenuac¸a˜ o de bordas que n˜ao s˜ao interessantes durante o processamento utilizado. Possui o nome gaussiano devido ao efeito borrado se dar por uma kernel que cont´em a func¸a˜ o gaussiana. Sua func¸a˜ o para as duas dimens˜oes da imagem pode ser vista na Equac¸a˜ o (1) onde x e y s˜ao as posic¸o˜ es em relac¸a˜ o ao centro do kernel e o σ e´ o desvio padr˜ao utilizado. Sua aplicac¸a˜ o e´ definida atrav´es da convoluc¸a˜ o do kernel gaussiano com a imagem.. G(x, y) =. 3.1.4. 1 − x2 + y2 e 2πσ 2 2σ 2. (1). ˜ DE BORDAS IDENTIFICAC¸AO As bordas em uma imagem s˜ao caracterizadas por mudanc¸as bruscas de magnitude. da intensidade luminosa em pixeis adjacentes. Tendo esse aspecto como base, um m´etodo comumente utilizado para encontrar essas regi˜oes e´ atrav´es da aplicac¸a˜ o dos filtros de Sobel que calculam uma aproximac¸a˜ o dos gradientes da imagem e tem o efeito de ressaltar as bordas. Em seguida pode-se aplicar uma limiarizac¸a˜ o, que consiste em transformar a imagem em bin´aria, transformando os valores abaixo do limiar em 0 e acima em 255. Como resultado, obt´em-se as regi˜oes de borda. A Figura 3 demonstra a operac¸a˜ o..

(23) 22. Figura 3: Esquerda: Imagem original. Centro: Imagem com Sobel. Direita: Imagem da limiarizac¸a˜ o do Sobel.. 3.1.5. MORFOLOGIA A palavra morfologia vem do grego morphe que significa “forma” e log´ıa que significa. “estudo”, ou seja, e´ o estudo das formas. Em processamento de imagens, a morfologia e´ o nome designado a operac¸o˜ es n˜ao lineares usadas de forma a manipular formas e melhor entender a estrutura de objetos na imagem. Pode ser aplicada tanto para imagens em tons de cinza como para imagens bin´arias. Sendo o segundo uso o qual se detalha aqui. Essas operac¸o˜ es s˜ao utilizadas de forma a ajudar a segmentac¸a˜ o de s´ımbolos como o logotipo de um ve´ıculo. Todas as operac¸o˜ es morfol´ogicas baseiam-se tamb´em no processo de filtragem, os kernels na literatura de morfologia tamb´em s˜ao chamados de elementos estruturantes e as operac¸o˜ es s˜ao n˜ao lineares.. A seguir s˜ao evidenciadas as operac¸o˜ es utilizadas.. Nota:. informac¸o˜ es resumidas de Gonzalez e Woods (2006). 3.1.6. ˜ DILATAC¸AO Sendo I e K a imagem bin´aria e o kernel respectivamente, a dilatac¸a˜ o e´ denotada por. I ⊕ K e definida pela Equac¸a˜ o (2).. I ⊕ K = {x| (K)x ∪ I 6= Ø}. (2). Sendo assim, o valor de sa´ıda de cada operac¸a˜ o quando Kx e´ posicionado centrado no pixel x de I e tem intersec¸a˜ o com I e´ igual a um. Dessa forma a operac¸a˜ o acaba por alargar o objeto. 3.1.7. ˜ EROSAO Sendo I e K a imagem bin´aria e o kernel respectivamente, a eros˜ao e´ denotada por. I K e definida pela Equac¸a˜ o (3)..

(24) 23. I K = {x| (K)x v I}. (3). Sendo assim, a eros˜ao de I por K s˜ao todos os pontos x de forma que K centrado no pixel x de I deve estar totalmente contido em I. Ou seja, a sa´ıda ser´a um se, e somente se, para uma determinada posic¸a˜ o onde o kernel est´a sendo aplicado sobre a imagem, todos os valores um do kernel devem possuir valor um tamb´em na imagem. Essa operac¸a˜ o pode ser vista como uma operac¸a˜ o bin´aria “E”. E esta operac¸a˜ o acaba por diminuir o objeto. 3.1.8. ˜ DE IMAGENS SEGMENTAC¸AO Ao processo de particionar a imagem em m´ultiplos conjuntos de pixels chamados. de segmentos, se d´a o nome de segmentac¸a˜ o de imagens. O objetivo da segmentac¸a˜ o e´ transformar e simplificar a representac¸a˜ o da imagem de forma a facilitar o uso da informac¸a˜ o extra´ıda combinando-se as operac¸o˜ es de processamento de imagem descritas. O processo de desenvolvimento do algoritmo de segmentac¸a˜ o depende das caracter´ısticas dos objetos que se deseja extrair e para isso os ajustes, parˆametros e a combinac¸a˜ o das operac¸o˜ es a serem executadas dependem da experiˆencia emp´ırica do projetista. A literatura contempla diferentes casos da aplicac¸a˜ o de segmentac¸a˜ o, como em Butzke et al. (2008) que tamb´em utiliza-se da segmentac¸a˜ o para extrair informac¸o˜ es de ve´ıculos. 3.2. ˜ DE DADOS CLASSIFICAC¸AO Para poder transformar os padr˜oes visuais em informac¸o˜ es u´ teis utiliza-se o. aprendizado de m´aquina que e´ o ramo da ciˆencia que estuda algoritmos e modelos estat´ısticos que atrav´es de sistemas computacionais, progressivamente se melhoram para uma dada tarefa. Esses modelos s˜ao treinados, ao inv´es de programados. Este treino e´ feito apresentandose v´arios exemplos e esperando-se uma dada sa´ıda. O algoritmo, a partir disso, acaba por transformar seus valores internos (pesos) e encontrar estrutura estat´ıstica que permita utilizar regras para automatizar a tarefa desejada (CHOLLET, 2017). Para poder classificar as imagens e´ necess´ario descrevˆe-las, em outras palavras, extrair informac¸o˜ es descritivas de forma a poder separar as classes corretamente. At´e 2012, o principal caminho para descrever as imagens era atrav´es de caracter´ısticas feitas a m˜ao. Em 2012 foi publicado o artigo onde foi definida a rede AlexNet (KRIZHEVSKY et al., 2012), uma rede convolucional que deu um salto no reconhecimento da competic¸a˜ o ImageNet (RUSSAKOVSKY et al., 2015), usada para comparar abordagens de classificac¸a˜ o. A partir.

(25) 24. desse momento, notou-se a viabilidade dessas redes para a classificac¸a˜ o.. Elas utilizam. internamente seus pesos de forma a extrair as caracter´ısticas utilizadas para a classificac¸a˜ o, ou seja, as caracter´ısticas tamb´em s˜ao treinadas. A seguir detalha-se os m´etodos de descric¸a˜ o e classificac¸a˜ o utilizados. 3.2.1. HISTOGRAMA DE GRADIENTES ORIENTADOS O Histograma de gradientes orientados do ingles histogram of oriented gradients. (HOG) e´ um descritor de imagem, desenvolvido em Dalal e Triggs (2005), que para um local na imagem, em pequenas regi˜oes chamadas c´elulas se calcula a contagem da orientac¸a˜ o dos gradientes e os pondera pela sua intensidade. A junc¸a˜ o de todos os histogramas de cada uma das c´elulas e´ o descritor. Ele tamb´em pode ter seu contraste normalizado calculando-se a intensidade atrav´es de uma regi˜ao maior chamada bloco, que e´ composto por v´arias c´elulas e ent˜ao normalizando os valores de cada uma das c´elulas pertencentes ao bloco. Essencialmente o descritor presume que a aparˆencia do objeto pode ser descrita atrav´es da intensidade de seus gradientes e direc¸a˜ o de suas bordas. 3.2.2. ´ MAQUINAS DE VETORES SUPORTE Support-vector machine ou m´aquinas de vetores suporte (SVM) e´ um modelo de. aprendizado supervisionado que permite a classificac¸a˜ o de duas classes de dados. Durante o seu treinamento os dados s˜ao implicitamente mapeados para um espac¸o de dimens˜ao maior, onde um hiperplano e´ constru´ıdo de forma a dividir as classes e tamb´em maximizar a margem que as separa. Logo, esta superf´ıcie de decis˜ao pode ser usada para classificar novos dados (CORTES; VAPNIK, 1995). A Figura 4 demonstra hipot´eticamente o caso de um hiperplano separador H para duas classes. A definic¸a˜ o original permite a criac¸a˜ o de uma superf´ıcie de decis˜ao linear, entretanto, atrav´es de um m´etodo chamado kernel-trick e´ poss´ıvel extender a aplicac¸a˜ o da SVM para decis˜oes n˜ao lineares..

(26) 25. Figura 4: Imagem exemplificando o hiperplano H, situado ao centro, que separa a classe azul da amarela.. Para poder se classificar dados de mais de duas classes com SVMs s˜ao utilizados dois m´etodos. No m´etodo “um versus todos” s˜ao treinados k modelos, onde k e´ o n´umero de classes, em que o modelo de n´umero m possui todos os exemplos da classe m como positivos e todos os outros exemplos das outras classes como negativos. Finalmente para cada um dos modelos temos um valor de decis˜ao de sa´ıda, a classe selecionada e´ o com maior valor. J´a o m´etodo “um versus um” constr´oi se k(k − 1)/2 modelos cada um treinado com duas classes, finalmente para se decidir a classe final utiliza-se de um sistema de votac¸a˜ o. Uma comparac¸a˜ o entre esses m´etodos pode ser vista em Hsu e Lin (2002). Um processamento comumente utilizado e´ classificar a imagem utilizando como descritor o HOG e classificador m´aquinas de vetores suporte. Exemplos desse processo podem ser vistos na literatura, como, por exemplo, em Llorca et al. (2013). 3.2.3. REDES NEURAIS Redes neurais s˜ao um modelo computacional vagamente inspirado na biologia de. como o ser humano processa informac¸o˜ es. Estes modelos s˜ao compostos de v´arias unidades conhecidas como neurons. Cada neuron recebe at´e N entradas, por exemplo, para um neuron com 2 entradas (x1 , x2 ), um componente de bias b e com os seus pesos w calcula-se a multiplicac¸a˜ o deles com a entrada, soma-se o bias e se aplica uma func¸a˜ o de ativac¸a˜ o f obtendose a sua sa´ıda y. Esse processo pode ser visto na Equac¸a˜ o (4).. y = f (w1 ∗ x1 + w2 ∗ x2 + b). (4). Tem-se v´arias maneiras de juntar essas unidades, o que culmina em diferentes.

(27) 26. arquiteturas, algumas das conhecidas s˜ao o Perceptron, o Feed Forward, Redes Neurais Recorrentes e Redes Neurais Convolucionais. Neste trabalho utiliza-se o u´ ltimo sub-grupo, a seguir detalha-se mais sobre ele. 3.2.3.1. REDES NEURAIS CONVOLUCIONAIS As Redes Neurais Convolucionais (CNN) s˜ao uma subclasse dos modelos de redes. neurais e foram primeiramente definidas em LeCun et al. (1999), caracterizam-se por suas camadas de convoluc¸a˜ o que aproveitam a coerˆencia espacial local de suas entradas, no caso imagens. Estas camadas permitem ter menos parˆametros que redes neurais comuns, porque seus valores acabam sendo compartilhados. A Figura 5 exemplifica uma poss´ıvel estrutura de uma rede convolucional. Quando estas possuem muitas camadas passam a pertencer tamb´em ao campo de estudo chamado Deep learning que e´ um subcampo do aprendizado de m´aquina que estuda modelos que usam camadas sucessivas de forma a aprender representac¸o˜ es mais complexas a cada n´ıvel.. Figura 5: Imagem exemplificando uma poss´ıvel estrutura de rede neural convolucional.. 3.2.3.2. TREINAMENTO O aprendizado ou a otimizac¸a˜ o dos pesos das redes neurais normalmente e´ feita atrav´es. do algoritmo gradient descent que consiste em atualizar os parˆametros da rede de maneira interativa, atrav´es do gradiente, de forma a minimizar a func¸a˜ o de custo utilizada. Para as atualizac¸o˜ es de peso necess´arias no trabalho foi utilizado o stochastic gradient descent que difere do padr˜ao somente porque a atualizac¸a˜ o dos pesos ocorre no final do processamento de cada sub-conjunto de imagens e n˜ao no final do processamento de todas as imagens do conjunto de treino. Na sa´ıda de cada uma das redes existe um classificador Softmax, logo a func¸a˜ o de custo utilizada na otimizac¸a˜ o e´ a cross-entropy. Ela e´ definida atrav´es da Equac¸a˜ o (5) onde.

(28) 27. M e´ o n´umero de classes, y e´ um indicador bin´ario sendo 1 caso o gabarito c seja a correta classificac¸a˜ o para a observac¸a˜ o o e p a probabilidade de a observac¸a˜ o de o ser a classe c. c=1. CrossEntropy = − ∑ yo,c log(po,c ). (5). M. 3.2.3.3. ´ REDES PRE-TREINADAS Para poder comparar a acur´acia das diferentes estruturas de redes utilizadas, a literatura. tem por padr˜ao utilizar o treinamento e teste em um subconjunto da base ImageNet (DENG et al., 2009).. Essa base consiste em mais de 14 milh˜oes de imagens gabaritadas com. aproximadamente 20000 categorias. O subconjunto usado na competic¸a˜ o ImageNet Desafio de Reconhecimento Visual de Grande Escala (ILSVRC) (RUSSAKOVSKY et al., 2015) utiliza aproximadamente 1.4 milh˜ao de imagens dentre as suas 1000 classes. E para poder se validar, melhorar e diminuir o tempo de treinamento de novas redes, algumas bibliotecas possuem dispon´ıveis abertamente os pesos j´a treinados para algumas arquiteturas. Utilizam-se esses pesos em um dos algoritmos descritos. A seguir, detalha-se as topologias de rede utilizadas, nota-se que essas redes foram escolhidas devido a disponibilidade de seus pesos pr´e-treinados na linguagem e bibliot´ecas utilizadas na construc¸a˜ o da soluc¸a˜ o apresentada e pelos resultados apresentados na ImageNet. 3.2.3.4. INCEPTION V3 Inception V3 (SZEGEDY et al., 2016) e´ a terceira vers˜ao da rede Inception V1, essas. redes variam de outras redes convolucionais devido a um m´odulo conhecido como inception. Esse bloco tem como objetivo minimizar algumas dificuldades encontradas como o fato de que os objetos podem variar muito de tamanho entre as imagens e que redes muito profundas tem dificuldades em passar os updates de gradiente para toda a rede. As diferenc¸as da vers˜ao 2 e 3 est˜ao na melhoria desse bloco, decompondo os kernels utilizados e alterando o sistema de treinamento. Como curiosidade a InceptionV3 reporta 78.8% de acur´acia na ImageNet. 3.2.3.5. MOBILENET As redes MobileNet (HOWARD et al., 2017) s˜ao redes otimizadas para a predic¸a˜ o. em dispositivos embarcados, trocam as camadas de convoluc¸a˜ o padr˜ao por depthwise separable convolutions que proporcionam uma diminuic¸a˜ o da carga computacional, mas mant´em os n´ıveis.

(29) 28. de acur´acia de outras redes. Al´em disso, para torn´a-las menores ainda os autores prop˜oem o uso de dois fatores width multiplier e resolution multiplier. O primeiro permite diminuir a profundidade de rede e o segundo a resoluc¸a˜ o da entrada. Esses parˆametros permitem a diminuic¸a˜ o do custo computacional, por´em acabam por diminuir a acur´acia tamb´em. Neste trabalho usa-se a configurac¸a˜ o da rede de maior acur´acia. Para essa configurac¸a˜ o, a MobileNet com entrada 224 pixels por 224 pixels e width multiplier de 1 reporta uma acur´acia de 70.6% na imagenet. 3.2.3.6. GRAD-CAM Para depurar e inferir as regi˜oes em que uma determinada rede neural usa para fazer. uma predic¸a˜ o, utiliza-se o Mapeamento de Ativac¸a˜ o de Classe com Ponderac¸a˜ o de Gradiente (GRAD-CAM) (SELVARAJU et al., 2017). Este algoritmo atrav´es dos gradientes de uma dada classe que fluem para a u´ ltima camada convolucional de uma CNN, produz um mapa c aproximado das regi˜oes importantes da imagem para obter esta classificac¸a˜ o (LGrad−CAM ). definido na Equac¸a˜ o (6). Onde Akij representa a sa´ıda do u´ ltimo filtro convolucional, i e j as duas dimens˜oes dos gradientes respectivos a sa´ıda y para a classe c e k a profundidade de canais de sa´ıda. Esse mapa tem tamanho equivalente em altura e largura ao tamanho da sa´ıda da camada utilizada por´em de n´umero de canais um. Faz-se o resize dessa sa´ıda e o overlay sobre a imagem de entrada para criar a vizualizac¸a˜ o final.. c LGrad−CAM = ReLU(. 3.3. ∂ yc k 1 ∑ ∑ k Ai j ) Z∑ i j k ∂ Ai j. (6). ´ ACURACIA Para a avaliac¸a˜ o dos modelos a literatura utiliza-se da m´etrica de acur´acia. Ela e´. definida pela quantidade de acertos dividido pela quantidade total de amostras (visualizar Equac¸a˜ o (7) onde # representa o n´umero de itens da categoria). Tamb´em utiliza-se os conceitos de top-1 onde um acerto s´o e´ considerado caso a classe seja a de probabilidade mais alta ou o top-5 onde o acerto e´ definido quando a classe correta est´a dentre as 5 sa´ıdas de probabilidade mais alta.. ACC =. #Verdadeiro positivos + #Verdadeiro negativos #Populacao total. (7).

(30) 29. 4. DESENVOLVIMENTO. Este cap´ıtulo se destina ao desenvolvimento do projeto. Em suma, detalha-se a criac¸a˜ o das bases utilizadas para treinamento e teste. Em seguida, os algoritmos de classificac¸a˜ o da logomarca do autom´ovel s˜ao explicados e finalmente a classificac¸a˜ o de marca e modelo e´ introduzida. 4.1. BANCOS DE IMAGENS Como o foco do projeto est´a em extrair a marca e o modelo de imagens de ve´ıculos. brasileiros, houve a necessidade de construir os bancos de imagens para a extrac¸a˜ o das caracter´ısticas. Os conjuntos de imagens a seguir s˜ao compostos prioritariamente de dois tipos de aquisic¸o˜ es: Imagens de campo fornecidas pela empresa Pumatronix e imagens capturadas da internet. Para as primeiras abordagens, que precisam da regi˜ao da marca do ve´ıculo segmentada, foi necess´ario criar gabaritos contendo a regi˜ao da logomarca do ve´ıculo, para isso foi constru´ıda uma base contendo 9 marcas de ve´ıculos sendo elas: • GM - Chevrolet • Fiat • Ford • Honda • Hyundai • Nissan • Renault • Toyota.

(31) 30. • Volkswagen Essas marcas foram escolhidas de acordo com a disponibilidade de imagens para a utilizac¸a˜ o. A quantidade de amostras foi balanceada entre as classes utilizando-se 40 amostras de treino e 4 amostras de teste para cada classe, totalizando 360 e 36 amostras respectivamente. A esse conjunto de imagens refere-se pelo nome de Pre-jcars. Exemplos de imagens deste conjunto podem ser vistos na Figura 6.. Figura 6: Imagens exemplo do conjunto de imagens Pre-jcars.. Uma vez com as sequencias de classificac¸a˜ o de imagem completas h´a a necessidade de se testar a implementac¸a˜ o de cada uma das abordagens testadas. Para isso tamb´em se construiu um banco de imagens separado contendo os gabaritos da regi˜ao da logomarca. Tamb´em se manteve as 9 marcas anteriormente citadas, por´em para esse conjunto as classes n˜ao foram balanceadas. Resultando em 187 imagens distribu´ıdas da seguinte forma: • GM - Chevrolet: 37 imagens. • Fiat: 33 imagens. • Ford: 25 imagens. • Honda: 8 imagens. • Hyundai: 8 imagens. • Nissan: 7 imagens. • Renault: 15 imagens. • Toyota: 16 imagens..

(32) 31. • Volkswagen: 38 imagens. Esse conjunto de imagens ser´a chamado de Pre-jcars-test. Pode-se visualizar exemplos deste na Figura 7.. Figura 7: Imagens exemplo do conjunto de imagens Pre-jcars-test.. Para o treinamento de redes profundas convolucionais normalmente h´a a necessidade de se utilizar grande quantidade de amostras, logo para os experimentos deste tipo houve a necessidade de se criar uma base com quantidade de amostras suficiente. Utilizou-se como padr˜ao de tamanho, a quantidade de amostras e de classes utilizadas no artigo onde foi implementado a base CompCars (YANG et al., 2015). Em seguida, a partir dos dados de emplacamento da Fenabrave gerou-se uma lista juntando 10 anos de venda de ve´ıculos e chegou-se aos ve´ıculos mais vendidos. Como a lista de ve´ıculos mais vendidos acabou sendo pequena quando comparado a de referˆencia, juntou-se ao banco de imagens o conjunto de dados stanford-cars para se chegar a um n´umero de classes pr´oximos ao utilizado no CompCars. Ficando finalmente em 354 classes detalhadas no apˆendice A. O total ficou em 33453 imagens sendo que 90% foram utilizadas para treinamento e 10% utilizadas para teste. Refere-se a esses conjuntos como Jcars-train e Jcars-test respectivamente. Exemplos de imagens desse conjunto podem ser visualizadas na Figura 8..

(33) 32. Figura 8: Imagens exemplo do conjunto Jcars.. 4.2. ´ METODOS PROPOSTOS Esse cap´ıtulo destina-se a descrever as abordagens implementadas. Em suma, foram. feitas trˆes abordagens, as duas primeiras utilizaram a regi˜ao da logomarca do ve´ıculo para classificar somente a sua marca e, em seguida, buscando-se um resultado melhor utilizou-se a classificac¸a˜ o da imagem completa obtendo-se a marca e o modelo. ´ DA REGIAO ˜ DA LOGOMARCA RECONHECIMENTO DE MARCA ATRAVES. 4.2.1. Detalha-se aqui as abordagens que utilizam informac¸a˜ o locais do ve´ıculo para tomar a decis˜ao de qual marca de autom´ovel est´a presente na imagem. 4.2.1.1. ˜ ATRAVES ´ DE SEGMENTAC¸AO ˜ LOCALIZAC¸AO A primeira abordagem experimentada para a obtenc¸a˜ o da marca constituiu em extrair. a logomarca do autom´ovel e classific´a-la. Para a segmentac¸a˜ o e classificac¸a˜ o utilizou-se o seguinte algoritmo: 1. Extrai-se a regi˜ao contendo a placa do ve´ıculo (Feito de um software de reconhecimento de placas de autom´oveis); 2. Seleciona-se uma regi˜ao de interesse acima da placa, de altura 8 vezes a altura da placa e largura 5% maior que ela (Observou-se empiricamente que para as marcas consideradas a logomarca est´a dentro dessa regi˜ao); 3. Aplica-se um filtro gaussiano de desvio padr˜ao 1,5 para suavizar linhas pr´oximas a logomarca do ve´ıculo;.

(34) 33. 4. Aplica-se um filtro Sobel de ordem derivativa um em x e na mesma imagem aplica-se novamente o Sobel de ordem derivativa 1 em x e 1 em y. Utiliza-se esse filtro de forma a ressaltar as regi˜oes de borda 5. Em seguida aplica-se uma limiarizac¸a˜ o Otsu para extrair as regi˜oes de borda das duas sa´ıdas anteriores; 6. Tamb´em nas duas imagens aplica-se uma dilatac¸a˜ o de kernel 5 por 5 de forma a juntar as linhas da logomarca e criar-se um blob. 7. Somente na imagem limiarizada de bordas vertical e horizontal aplica-se uma eros˜ao de kernel 13 por 1 de forma a desconectar o blob da logomarca de linhas laterais. 8. Operac¸a˜ o “E” l´ogica entre as imagens de borda resultando nos blobs parecidos com a logomarca. 9. Executa-se uma dilatac¸a˜ o 15 por 15 nessa imagem para aumentar um pouco da regi˜ao ao redor dos blobs como a´ rea de classificac¸a˜ o. 10. Extrai-se os contornos da imagem e seleciona-se o mais ao centro da regi˜ao de interesse. 11. Calcula-se o descritor HOG da regi˜ao de interesse e atrav´es de uma SVM classifica-se a regi˜ao na marca. O treinamento do classificador SVM foi executado na base Pre-jcars utilizando caracter´ısticas HOG de 9 orientac¸o˜ es, c´elulas de 4 por 4 pixels e blocos de 1 c´elula, calculadas sobre a regi˜ao extra´ıda redimensionada para 40 por 40 pixels. E´ poss´ıvel visualizar as etapas desse algoritmo na Figura 9. Durante o desenvolvimento dessa abordagem notou-se as principais limitac¸o˜ es, como a hip´otese de a logomarca estar contida na regi˜ao superior a placa veicular. Em alguns ve´ıculos isto n˜ao ocorre. Al´em disso, os tamanhos de kernel utilizados foram escolhidos empiricamente de forma a extrair as logomarcas da base Pre-jcars, por´em para imagens de tamanhos diferentes e com ve´ıculos em escalas diferentes esses tamanhos tem a necessidade de serem adaptados. Nota: Os valores emp´ıricos utilizados, foram selecionados de forma a fazer um estudo preliminar da abordagem, de forma que para um trabalho futuro, poderiam se experimentar variar-se esses parˆametros..

(35) 34. Figura 9: Diagrama do processo de segmentac¸a˜ o para um ve´ıculo Volkswagen. Inicia-se pela imagem completa e atrav´es do ALPR obtem-se a placa veicular. E´ extraida a regi˜ao de interesse e nela aplicado o filtro gaussiano (item 2). No bloco A, e´ possivel vizualizar as saidas do item 4, ou seja, os filtros Sobel em x e em x e y. Em seguida s˜ao executadas as operac¸o˜ es de dilatac¸a˜ o e eros˜ao em cada uma das imagens descritas de forma a remover ruidos. At´e que em B e´ feita uma operac¸a˜ o “E” logica onde se obt´em os blobs parecidos com a logomarca. Seleciona-se o mais ao centro e obtem-se a regi˜ao de interesse que deve conter a logomarca.. 4.2.1.2. ˜ ATRAVES ´ DE DESLIZAMENTO DE JANELAS LOCALIZAC¸AO Ao notar as dificuldades da primeira abordagem experimentou-se identificar a regi˜ao. da logomarca atrav´es de um modelo de aparˆencia. Para isso primeiramente separou-se as a´ reas das imagens do conjunto de dados Pre-jcars em duas classes: cont´em logomarca e n˜ao cont´em. Em seguida, com essas classes, treinou-se um classificador SVM sobre uma a´ rea de interesse de 50 por 50 pixels, utilizando caracter´ısticas HOG de 9 orientac¸o˜ es, c´elulas de 8 por 8 pixels e blocos de uma c´elula. Para a detecc¸a˜ o da posic¸a˜ o da logomarca partiu-se da mesma regi˜ao descrita na sec¸a˜ o 4.2.1.1, que e´ baseada a partir da regi˜ao da placa. Para quatro escalas: 1,5, 1,2, 1,0 e 0,7 aplicouse o classificador descrito atrav´es do algoritmo de deslizamento de janelas. Este, consiste em deslizar uma janela sobre a imagem e em cada momento classificar essa regi˜ao. Os parˆametros utilizados foram: janelas de 50 por 50 pixels, passos de 3 pixels na horizontal e 3 pixels na vertical. Para filtrar a quantidade de janelas geradas agrupou-se os retˆangulos de sa´ıda atrav´es da func¸a˜ o groupRectangles implementada no OpenCV. Esta func¸a˜ o agrupa retˆangulos de acordo com um crit´erio de equivalˆencia, combinando retˆangulos de tamanhos e localizac¸o˜ es similares. Para cada grupo um retˆangulo m´edio e´ calculado e ser´a utilizado como sa´ıda do algoritmo. Em seguida, seleciona-se o retˆangulo mais pr´oximo ao centro da imagem. Essa regi˜ao e´ ent˜ao passada para o mesmo classificador descrito no u´ ltimo item da localizac¸a˜ o atrav´es de segmentac¸a˜ o 4.2.1.1, para a obtenc¸a˜ o da marca..

(36) 35. 4.2.1.3. DESVANTAGENS DAS ABORDAGENS Depois da implementac¸a˜ o dos dois algoritmos notou-se que, para a abordagem via. segmentac¸a˜ o, os tamanhos de kernel eram escolhidos empiricamente de acordo com o tamanho das logomarcas. E no caso da inserc¸a˜ o de logomarcas novas haveria a necessidade de se readequar o sistema aos novos tamanhos e posic¸o˜ es. Para a abordagem de deslizamento de janelas h´a a necessidade de criar um classificador de um tamanho fixo de janela. Logo, para o reconhecimento em tamanhos diferentes precisa-se rodar essa classificac¸a˜ o em v´arias escalas, deixando o tempo de execuc¸a˜ o elevado. Al´em disso, quando h´a logomarcas com tamanhos diferentes tamb´em e´ poss´ıvel que haja a necessidade de se usar mais de um classificador, tornando a abordagem cada vez mais complexa. Por´em a principal desvantagem dos dois sistemas e´ que eles se baseiam no fato de que para o reconhecimento da marca h´a a necessidade de que a etapa de localizac¸a˜ o funcione corretamente. Caso esta falhe, o resultado da classificac¸a˜ o tamb´em ser´a falho. Levando esses problemas em considerac¸a˜ o voltou-se a literatura para ver quais abordagens poderiam escalar melhor. Com isso encontrou-se as implementac¸o˜ es de classificac¸a˜ o global da imagem. 4.2.2. RECONHECIMENTO DE MARCA E MODELO Ap´os as medidas das primeiras implementac¸o˜ es, notou-se que, para resultados. melhores, havia a necessidade de se usar uma abordagem diferente.. Devido a isso,. experimentou-se utilizar redes convolucionais para a extrac¸a˜ o de caracter´ısticas e classificac¸a˜ o. 4.2.2.1. ˜ ATRAVES ´ DE DEEP LEARNING CLASSIFICAC¸AO Primeiramente fez-se um estudo preliminar a reproduc¸a˜ o dos resultados do modelo. dispon´ıvel para a classificac¸a˜ o do conjunto de dados CompCars (YANG et al., 2015). Atrav´es desse estudo, obteve-se informac¸o˜ es importantes sobre o processo de treinamento do classificador, chamado finetuning (descrito a seguir), al´em de se confirmar os ´ındices reportados. Experimentando utilizar o mesmo processo em uma outra estrutura de rede, chamada MobileNet menor e que reportava resultados parecidos a rede base utilizada, foi poss´ıvel obter-se um ganho de acur´acia. Esta ideia culminou na publicac¸a˜ o de um artigo WILLE et al. (2018)..

(37) 36. 4.2.3. FINETUNING Para treinar a rede se faz o uso de transferencia de aprendizado ou do ingles transfer. learning, que consistem em se utilizar o aprendizado pr´evio de uma outra tarefa em uma nova tarefa. Por exemplo, se utiliza para nova tarefa os pesos pr´e-treinados no ImageNet. Em seguida a atualizac¸a˜ o dos pesos e´ feita atrav´es do processo de finetuning, que consiste em se utilizar uma rede pr´e-treinada para uma determinada tarefa de classificac¸a˜ o. Em seguida, remover a u´ ltima camada ou as u´ ltimas camadas da rede, inserir novas camadas alterando o tamanho destas, de forma a se obter os tamanhos de sa´ıda de classificac¸a˜ o esperados. A partir deste momento foi executado um novo treinamento, utilizando-se um learning rate menor para a tarefa de classificac¸a˜ o desejada. Com esse u´ ltimo processo executado, obt´em-se a rede com os pesos atualizados para a classificac¸a˜ o. Este processo e´ utilizado para se economizar recursos computacionais, uma vez que o primeiro treinamento normalmente e´ executado em um conjunto de imagens grande e pode levar dias ou at´e semanas para obter-se o ´ındice desejado. Devido ao fato de que as caracter´ısticas mais simples obtidas nas camadas iniciais da rede convolucional, tendem a ser as mesmas para outras tarefas, aproveita-se esses pesos para a inicializac¸a˜ o do novo treinamento, otimizando o tempo de treinamento de uma rede para uma nova tarefa. Um diagrama do processo de finetuning pode ser visto na Figura 10..

(38) 37 O pr ocessodef i net uni ng Mobi l eNett r ei nadanabas eI mageNet. Remov es easúl t i masc amadas. Adi c i onas enov asc amadasf i nai s c as andos eot amanhodas aí dado model oc om onúmer ode c l as s es .. Tr ei nas eomodel oem umanov a bas ededados ,ut i l i z andoum l ear ni ngr at emenor .. Nov aCNNpar aac l as s i f i c aç ãodas c l as s est r ei nadas .. Figura 10: Diagrama explicando o processo de finetuning. Inicia-se a partir de uma rede pr´e´ treinada, em seguida, s˜ao removidas as ultimas camadas. Depois, adicionam-se camadas novas de sa´ıda de forma a se adaptar a sa´ıda para a quantidade de classes e se treina o modelo sobre os novos dados. Imagem adaptada de (WILLE et al., 2018).. 4.2.4. ARQUITETURAS E TREINAMENTO Para se construir o classificador de marca e modelo atrav´es de redes convolucionais. utilizou-se a linguagem Python e duas bibliotecas: OpenCV para o manuseio das imagens e o Tensorflow com a interface Keras para o treinamento e configurac¸a˜ o das redes. As topologias testadas foram escolhidas com base na disponibilidade de seus pesos pr´e-treinados na interface Keras, por seu tamanho e resultados obtidos na base Imagenet. S˜ao elas: • Inception V3 • MobileNet Para as duas redes removeu-se todas as camadas at´e a camada de amostragem media.

(39) 38. global ou do ingles global average pooling, e em seguida adicionou-se uma nova camada densa ou do ingles Dense, com tamanho de saida igual ao numero de classes de marca e modelo. Finalmente, para o treinamento implementou-se um gerador de dados para a abertura e pr´eprocessamento das imagens. Este tem a responsabilidade de fazer o resize e normalizar os dados da maneira esperada pelas redes convolucionais. As imagens da base Jcars-train s˜ao servidas de forma c´ıclica e em blocos de tamanhos fixos e dependentes da mem´oria dispon´ıvel no hardware e da topologia utilizada. Al´em disso, o gerador tamb´em implementa transformac¸o˜ es nos dados como o espelhamento horizontal da imagem e um recorte randˆomico de uma regi˜ao menor da imagem. Essas alterac¸o˜ es s˜ao feitas de forma a minimizar o efeito de overfit durante o treinamento da rede. Um diagrama com os passos do gerador pode ser visualizado na Figura 11 De forma geral o treinamento foi feito para todas as redes durante 71 e´ pocas, com learning rate iniciando em 0,002 e na e´ poca 35 ele e´ reduzido para 0,0002. O algoritmo de otimizador utilizado foi o stochastic gradient descent utilizando momento 0,9. Foram servidas as redes blocos de 8 imagens a cada iterac¸a˜ o.. Figura 11: Diagrama representando as etapas do gerador c´ıclico de imagens para o treinamento das redes neurais convolucionais.. A cada e´ poca de treinamento foi salvo um arquivo contendo o modelo naquela e´ poca. Logo que a rede estava treinada, se avaliou cada um desses modelos na base Jcars-test e o modelo selecionado foi o que se desempenhou melhor nesta base..

(40) 39. 5. ´ EXPERIMENTOS E ANALISE. Para avaliar as t´ecnicas utilizadas, mediu-se os valores de acur´acia primeiramente para a tarefa de classificac¸a˜ o de marca de ve´ıculo. Com isso e´ poss´ıvel verificar se houve uma melhora em relac¸a˜ o aos outros m´etodos utilizados. Em seguida mediu-se a acur´acia dos classificadores redes neurais convolucionais (CNNs) para a tarefa de identificar marca e modelo de ve´ıculos. Discute-se tamb´em e se aprofunda os resultados para essa base. 5.1. ˜ DA MARCA DO VE´ICULO CLASSIFICAC¸AO Utilizando-se cada um dos algoritmos descritos no cap´ıtulo 4.2 classificou-se as. imagens da base de dados Pre-jcars-test e em seguida calculou-se a acur´acia para cada uma das abordagens. Nota-se que para as redes convolucionais, utilizou-se somente a marca do ve´ıculo como sa´ıda nesse experimento. Os resultados podem ser vistos na Tabela 2. Modelo Segmentac¸a˜ o Deslizamento de janelas CNN - MobileNet CNN - InceptionV3. Acur´acia 65,24% 63,63% 79,67% 79,14%. Tabela 2: Tabela de acur´acia para cada uma das abordagens utilizadas na classificac¸a˜ o de marca de ve´ıculos. Resultados para a base Pre-jcars-test.. Nota-se o resultado superior da abordagem utilizando redes neurais convolucionais (CNNs) e a imagem inteira. Como mencionado anteriormente, quando os algoritmos de segmentac¸a˜ o falham o resultado acaba sendo completamente errˆoneo. Al´em disso, h´a uma diferenc¸a entre a abordagem utilizando-se a segmentac¸a˜ o e o deslizamento de janelas. Como cada imagem cont´em um ve´ıculo com somente uma logomarca, a segmentac¸a˜ o se foca nas linhas do ve´ıculo acabando de selecionar mais corretamente a regi˜ao que cont´em a marca do ve´ıculo, enquanto que o classificador treinado para localizar a logomarca via deslizamento de janelas acaba tendo falsos positivos. Como somente uma das regi˜oes de sa´ıda e´ selecionada para a classificac¸a˜ o, essa regi˜ao tem chance de n˜ao ser a correta, acarretando na baixa acur´acia.

(41) 40. desse experimento. J´a para as redes convolucionais nota-se uma diferenc¸a pequena entre elas, essa diferenc¸a pode ter alguma relac¸a˜ o com o fato de o modelo MobileNet ser menor que o modelo InceptionV3 podendo indicar algum overfit por parte do modelo InceptionV3, o que causaria a queda de acur´acia. Para verificar isso avaliou-se o gr´afico da curva de acur´acia das bases de treinamento e validac¸a˜ o para cada e´ poca de treinamento para as duas redes (dispon´ıvel na Figura 12. E´ possivel visualizar que as duas redes possuem um desempenho melhor na base de treinamento do que na de validac¸a˜ o, o que indica um textitoverfit das duas redes. A diferenc¸a portanto deve estar na quantidade de parˆametros da InceptionV3 que e´ maior que a MobileNet. Este estudo esta em aberto para um trabalho futuro.. Figura 12: Gr´aficos de acur´acia de treinamento e validac¸a˜ o para cada uma das e´ pocas de treinamento, confirmam a presenc¸a de overfit no treinamento para as redes estudadas.. 5.2. ˜ DA MARCA E MODELO DO VE´ICULO CLASSIFICAC¸AO Para avaliar os modelos na identificac¸a˜ o de marca e modelo fez-se a classificac¸a˜ o da. base Jcars-test e reportou-se os resultados de acur´acia top-1 e top-5 na Tabela 3: Modelo Acur´acia - Top 1 Acur´acia - Top 5 MobileNet 86,62% 96,89% InceptionV3 84,29% 96,24% Tabela 3: Tabela de acur´acia para cada uma das abordagens utilizadas na classificac¸a˜ o de marca e modelo de ve´ıculos. Resultados para a base Jcars-test. Nota-se que a MobileNet desempenhou melhor nessa base do que a InceptionV3, provavelmente isso se deve ao overfit e tamanho do modelo InceptionV3. Logo, para investigar os erros das duas redes, gerou-se a matriz de confus˜ao, por´em como a matriz e´ muito grande,.

Referências

Documentos relacionados

nesta nossa modesta obra O sonho e os sonhos analisa- mos o sono e sua importância para o corpo e sobretudo para a alma que, nas horas de repouso da matéria, liberta-se parcialmente

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

3.3 o Município tem caminhão da coleta seletiva, sendo orientado a providenciar a contratação direta da associação para o recolhimento dos resíduos recicláveis,

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

No código abaixo, foi atribuída a string “power” à variável do tipo string my_probe, que será usada como sonda para busca na string atribuída à variável my_string.. O

A par disso, analisa-se o papel da tecnologia dentro da escola, o potencial dos recursos tecnológicos como instrumento de trabalho articulado ao desenvolvimento do currículo, e

Promovido pelo Sindifisco Nacio- nal em parceria com o Mosap (Mo- vimento Nacional de Aposentados e Pensionistas), o Encontro ocorreu no dia 20 de março, data em que também

A tem á tica dos jornais mudou com o progresso social e é cada vez maior a variação de assuntos con- sumidos pelo homem, o que conduz também à especialização dos jor- nais,