• Nenhum resultado encontrado

Como abordado no Cap´ıtulo 1, o constante crescimento do deep learning alavancou uma s´erie de aplicac¸˜oes que envolvem o reconhecimento humano em ´areas da tecnologia que fazem uso de vis˜ao computacional. Campos como sistemas de seguranc¸a e defesa recebem cada vez mais participac¸˜ao de softwares inteligentes. Consequentemente, tanto estimac¸˜ao de idade quanto reconhecimento de pele se fazem cada vez mais alvos de estudo.

Nas sec¸˜oes a seguir est˜ao apresentados estudos realizados em ambas as ´areas e que servem de comparac¸˜ao para o presente trabalho.

3.7.1 Estimac¸˜ao de idade

Anand et al. (2017) propˆos uma combinac¸˜ao de redes heterogˆeneas treinadas para extrair recursos de imagens faciais n˜ao ideais, ou seja, condic¸˜oes em que ru´ıdos como fundo ou outros objetos est˜ao presentes. No estudo, os autores utilizaram trˆes etapas

fundamentais: extrac¸˜ao de recursos utilizando redes convolucionais pr´e-treinadas, reduc¸˜ao de dimensionalidade e estimac¸˜ao de idade por redes neurais feed forward. Para extrac¸˜ao de recursos foram utilizadas as propriedades das camadas convolucionais das redes VGG-Face e AlexNet.

Para a estimac¸˜ao de idade, Anand et al. (2017) utilizou o m´etodo de regress˜ao aplicado `a rede feed forward para gerar um valor num´erico real, que por sua vez foi classificado em um grupo de idades. Os testes ocorreram em trˆes datasets p´ublicos: WIKI Dataset, AmI-Face Dataset e Adience Benchmark Dataset. Todos estes compostos por imagens de personalidades p´ublicas em situac¸˜oes diversas de iluminac¸˜ao e cen´ario.

Anand et al. (2017) obteve uma acur´acia final de 58,49% em um m´aximo de 2.000 ´epocas, utilizando o Erro Absoluto M´edio (MAE) como m´etrica de validac¸˜ao.

Rodr´ıguez et al. (2017) utilizou um m´etodo conhecido como atenc¸˜ao. Esse mecanismo permite que a rede neural busque por mais detalhes em regi˜oes particulares da imagem de entrada para reduzir a complexidade e, eventualmente, descartar informac¸˜oes irrelevantes. No estudo, os autores utilizaram amostras de faces recortadas e em foco, n˜ao tendo sido necess´ario realizar a identificac¸˜ao durante o processo de treinamento.

Rodr´ıguez et al. (2017) divide o modelo em trˆes m´odulos: uma CNN de atenc¸˜ao para identificar a melhor localizac¸˜ao de informac¸˜ao, um conjunto de CNN para avaliar o pacote com maior resoluc¸˜ao obtido pela camada de atenc¸˜ao e um perceptron multicamadas respons´avel por integrar as informac¸˜oes geradas pelas CNN e realizar a classificac¸˜ao final. O modelo CNN foi baseado na estrutura VGG-16 com os testes realizados no Adience Dataset, que possui uma divis˜ao de 8 faixas et´arias com aproximadamente 26.500 amostras. Em 30 ´epocas os autores conseguiram uma acur´acia de 60,78%.

Rothe et al. (2018) propˆos uma abordagem denominada DEX, do inglˆes Deep Expectation, podendo ser traduzida como expectativa profunda. No estudo, os autores uniram diversas constatac¸˜oes feitas `a partir dos muitos trabalhos realizados para estimac¸˜ao de idade. Entre elas, a percepc¸˜ao de que a diversidade de alinhamento das faces em um conjunto de dados influencia diretamente na performance do modelo neural. Com isso, rotac¸˜oes em diferentes ˆangulos foram realizadas.

Diferente de alguns estudos, o m´etodo utilizado por Rothe et al. (2018) consiste em identificar e recortar a ´area em que a face aparece em foco de maneira que tanto as imagens de treinamento quanto as de teste possuam a mesma resoluc¸˜ao e contenham o m´ınimo de ru´ıdo de fundo poss´ıvel. Essa t´ecnica se mostrou muito mais eficiente em termos de performance. Em seguida, a rede ´e alimentada para que os recursos sejam extra´ıdos. Por fim, a rede de regress˜ao retorna um valor real com a idade aproximada.

A rede convolucional utilizada foi a VGG-16 previamente treinada no conjunto de dados ImageNet. Com o objetivo de aumentar significativamente o conjunto de dados contendo imagens rotuladas com idade, os autores criaram a pr´opria base de dados, o chamado IMDB- WIKI, obtendo imagens do IMDb e Wikip´edia, totalizando 523.051 amostras de faces. Para fins cient´ıficos, os autores tornaram o dataset p´ublico. Dividindo em 8 faixas et´arias, 0-2, 2-6, 8-13, 15-20, 25-32, 38-43, 48-53 e 60-resto os autores obtiveram uma acur´acia m´edia de 64%.

3.7.2 Segmentac¸˜ao de pele

Kim et al. (2017) propˆos duas estruturas neurais para realizar a segmentac¸˜ao de pele, uma baseada no modelo VGG e outra na arquitetura NiN. Ambos os modelos, assim como padronizadamente em treinamentos de segmentac¸˜ao, recebem as imagens originais e seus respectivos mapas bin´arios (pele e n˜ao pele) em mesma dimens˜ao. Para treinamento, os autores fizeram uso de duas estrat´egias, a primeira utilizando toda a imagem original como entrada e a segunda realizando pequenas divis˜oes na imagem gerando pacotes de amostras. Treinando com a imagem completa, elementos como caracter´ısticas de forma, cor e textura foram alvos para a rede, enquanto o uso de pacotes moldou a rede para se concentrar em aprender altas frequˆencias de textura em regi˜oes com presenc¸a de pele.

Os treinamentos foram realizados utilizando o ECU Dataset, composto por aproximadamente 4.000 imagens de pessoas em grupos ´etnicos variados e validados no Pratheepan Datasete VT-SSAT. A arquitetura VGG, utilizando a imagem inteira como entrada, obteve uma acur´acia 93,13% com f-score 88,16%. J´a com os pacotes, 92,99% de acur´acia e 86,55% de f-score. Por sua vez, a arquitetura NiN obteve 94,84% de acur´acia e 89,57% de f-scorenas imagens inteiras e acur´acia 93,34% com f-socre 88,86% nos pacotes de imagens.

Ma e Shih (2018) realizou uma adaptac¸˜ao de recursos presentes em redes neurais de alta performance, como Inception e ResNet, para construir os filtros de convoluc¸˜ao para a estrutura neural proposta. Mais precisamente, acrescentando filtros 3x3 para aumentar a profundidade da rede e filtros 1x1 como sa´ıda da estrutura ao inv´es de uma camada completamente conectada, pois o uso de uma camada densa aumentaria drasticamente a quantidade de pesos conectados e favoreceria problemas com overfitting. Juntamente com esses filtros, os autores adaptaram uma camada convolucional presente na ResNet50, com os pesos treinados no acervo ImageNet, para aumentar a compreens˜ao da rede.

4.000 imagens, SFA Dataset, com 1000 amostras e Pratheepan com 80. O ´ultimo foi usado como conjunto de validac¸˜ao do experimento. Como resultado, a estrutura alcanc¸ou 94,99% de acur´acia e 86,78% de f-score.

4 MATERIAIS E M ´ETODOS

Nesse cap´ıtulo est˜ao descritos os materiais e m´etodos utilizados para o desenvolvimento deste projeto. As etapas e os principais fundamentos e tecnologias utilizadas no progresso se encontram detalhadas. Os procedimentos descritos derivam da hip´otese deste projeto: ´e poss´ıvel identificar menores de idade em imagens digitais e realizar segmentac¸˜ao de pele a partir de m´etodos de deep learning.

Documentos relacionados