• Nenhum resultado encontrado

CNNFusion-Gender: metodologia de fus˜ao de partes faciais para a classificac¸˜ao de gˆenero.

II. CNNF USION G ENDER

As Convolutional Neural Networks estabeleceram recente- mente, o estado da arte em diversas ´areas da vis˜ao computa- cional [17], [18], [19], [20], [21], inclusive na soluc¸˜ao de problemas relacionados a classificac¸˜ao de gˆenero [12], [13], [14], [5], [10], [11]. Demonstrou-se eficiente na soluc¸˜ao de problemas de classificac¸˜ao que exigem um n´umero limitado de classes (por exemplo, 2 classes), al´em disso outra van- tagem presente nas CNNs est´a em relac¸˜ao a independˆencia da necessidade de ter que definir explicitamente os descritores utilizados para extrac¸˜ao das caracter´ısticas.

Portanto, com os benef´ıcios apresentados pelas CNNs e para deixar a abordagem apresentada completamente autom´atica, aplicou-se uma CNN de detecc¸˜ao autom´atica da face e das regi˜oes faciais. Para esta finalidade, aplicou-se um detector estado da arte denominado Faster R-CNN [9] a fim de localizar face e, em seguida os olhos, boca e nariz nas imagens de entrada antes de ser processada pela CNN de classificac¸˜ao.

Nossa arquitetura proposta denominada CNNFusion-Gender ´e composta por trˆes CNNs, que possuem trˆes camadas con- volucionais, uma camada de concatenac¸˜ao (fus˜ao), que realiza a combinac¸˜ao das caracter´ısticas, seguida por trˆes camadas totalmente conectadas. As Rectified Linear Units (ReLU) [22] s˜ao aplicadas ap´os cada camada convolucional, essa camada aplica-se func¸˜oes de ativac¸˜ao de n˜ao saturac¸˜ao. Essas func¸˜oes aumentam a n˜ao linearidade da func¸˜ao de decis˜ao da rede, sem afetar os campos receptivos e, em seguida uma camada de pool respons´avel pela operac¸˜ao de down-sampling e uma camada de normalizac¸˜ao est˜ao presentes ap´os a primeira e a segunda camada convolucional. Destaque-se que a nova arquitetura proposta consiste em uma adaptac¸˜ao da rede utilizada por Zavan et al. [23] no processo de estimativa da pose atrav´es do nariz.

E por ´ultimo aplicamos na camada de Loss, utilizada para guiar o aprendizado, sendo a ´ultima camada da rede. Esta camada analisa durante o treinamento, o desvio entre a sa´ıda e como a entrada foi classificada, sendo a express˜ao do erro da classificac¸˜ao, onde o objetivo ´e a maior minimizac¸˜ao poss´ıvel. Existem diversas func¸˜oes de Loss entre as mais utilizadas est˜ao: (i) Softmax, (ii) Sigmoidal com cruzamento de entropia e (iii) euclidiana. A func¸˜ao Softmax ´e utilizada para separar uma classe de v´arias. A func¸˜ao Sigmoidal com cruzamento de entropia serve para prever v´arios valores probabil´ısticos de 0 a 1. J´a a func¸˜ao euclidiana prevˆe valores infinitos e reais.

Em nossa abordagem, aplicamos a cross-entropy loss ex- pressa pela equac¸˜ao (1), para medir o erro em uma camada Softmax. O mesmo processo, foi aplicado nos trabalhos pro- postos por Rajan et al. [11], [14].

LG= −(1 − g).log(1 − pg) − g.log(pg) (1)

onde o g = 0 quando for masculino e 1 para feminino, pg

´e a probabilidade de que o atributo de entrada seja do gˆenero masculino ou feminino.

Para o processo de classificac¸˜ao de gˆenero executamos paralelamente trˆes CNNs com a mesma arquitetura, uma para cada parte facial e realizamos a fus˜ao de todos os feature mapsextra´ıdos na terceira camada de cada rede. A quarta ca- mada encarrega-se de efetuar concatenac¸˜ao das caracter´ısticas extra´ıdas das partes da face (Figura 1), aumentando assim a eficiˆencia do classificador gerado. Al´em desta arquitetura proposta que permite a fus˜ao, utilizamos a arquitetura por Zavan et al [23], onde alterou-se as informac¸˜oes de entrada, para que a rede recebesse as imagens das regi˜oes faciais. Al´em disso, a camada de fus˜ao n˜ao foi adicionada a rede para que pud´essemos realizar o treinamento individual de cada parte, assim, foi poss´ıvel realizar uma comparac¸˜ao.

Fig. 1. Arquitetura da CNNFusion-Gender

O Algoritmo 1 descreve, passo a passo, todo o processo realizado na fase de classificac¸˜ao de gˆenero. Em primeiro lugar a Faster R-CNN [9] ´e aplicada para detectar a regi˜ao da face, em seguida, a regi˜ao correspondente a face ´e recortada e, novamente a Faster R-CNN ´e aplicada sobre a face detectada para que as partes faciais (olhos nariz e boca)s sejam detecta- dos. A seguir, os tamanhos das partes s˜ao normalizados para

56x56 pixels, dimens˜ao definida atrav´es dos bons resultados apresentados na Helen dataset [24]. Logo em seguida, realiza- se a extrac¸˜ao das caracter´ısticas, processo realizado pelas camadas convolucionais, que recebem como entrada a sa´ıda da camada anterior, sendo que a ´unica camada que n˜ao recebe informac¸˜oes das camadas anteriores ´e a primeira camada que tem como entrada as regi˜oes dos olhos, boca e nariz). A etapa seguinte realiza a fus˜ao das caracter´ısticas extra´ıdas pela terceira camada, passando sua sa´ıda para as camadas totalmente conectadas.

A Figura 2 ilustra graficamente as etapas realizadas pela nossa abordagem para classificac¸˜ao de gˆenero, atrav´es das partes faciais.

Fig. 2. Etapas de classificac¸˜ao de gˆenero da CNNFusion-Gender

III. EXPERIMENTOS

A. Detecc¸˜ao das partes faciais

A Faster R-CNN [9] ´e o estado da arte na detecc¸˜ao de objetos. Atrav´es da Region Proposal Networks (RPN), s˜ao geradas regi˜oes candidatas a partir da imagem de entrada da face e das partes faciais. As regi˜oes s˜ao avaliadas atrav´es do score de confiabilidade fornecido pela m´etrica Intersec- tion over-Union (IoU) [9], que permite calcular a intersec¸˜ao sim´etrica entre o ground-truth da regi˜ao correspondente ao atributo com as coordenadas dos bounding boxes gerados das regi˜oes candidatas, selecionando assim as melhores regi˜oes para o treinamento.

Para avaliar individualmente o desempenho da Faster R- CNN em relac¸˜ao a detecc¸˜ao das partes faciais, utilizou-se os conjunto de dados Helen [24], CelebA dataset [5] e FotW dataset [25]. A m´etrica do coeficiente de intersecc¸˜ao proposto por Hoover et al. [26] foi aplicada para avaliar a taxa de acur´acia, resultados mostrados nas Tabela I. J´a em relac¸˜ao ao treinamento do detector da face, utilizamos as mesmas bases utilizadas para treinar os detectores das partes faciais.

Tabela I exibe a taxa de detecc¸˜ao das partes faciais e da face referente a cada conjunto de dados. A ordem de classificac¸˜ao dos m´etodos est˜ao conforme o valor da m´etrica F-score [27], [28], que tamb´em ´e conhecida como F-measures.

TABLE I

TAXA DE ACURACIA DE DETECC´ ¸ ˜AO DAS PARTES FACIAIS E DA FACE Dataset Olhos Nariz Boca Face

74.23% 90.19% 88.33% 96% CelebA [5] 90.38% 93.71% 92.88% 96.60%

FotW [25] 85.39% 91.10% 89.63% 90%

Para efetivar a abordagem proposta, um comparativo foi realizado com o m´etodo utilizado na detecc¸˜ao das partes

faciais [9] no conjuntos de dados Helen com outros m´etodos estados da arte, onde o objetivo tamb´em consiste na detecc¸˜ao das partes faciais, tais como olhos, nariz e boca. A Tabela II, exibe os resultados que est˜ao organizados em ordem crescente conforme a taxa de detecc¸˜ao das partes.

TABLE II

RESULTADOS COMPARATIVOS DA DETECC¸ ˜AO DE ATRIBUTOS FACIAIS NA BASE DE DADOSHELEN

M´etodos Olhos Nariz Boca Zhu e Ramanan [6] 53.30% n/a 68.70%

Saragih et al.[29] 67.90% 89% 76.90% Liu et al.[30] 77% 84.30% 74.20% Gu e Kanade [31] 74.30% 88.90% 78.90% Smith et al.[8] 78.50% 92.20% 85.70% Faster R-CNN [9] 77.40% 93.47% 86.23%

Em geral, vemos que a Faster R-CNNN [9] compara-se favoravelmente com quase todos os trabalhos anteriores con- siderados estado da arte sobre este conjunto de dados, exceto quando comparamos a detecc¸˜ao dos olhos com a abordagem de Smith et al.[8]. Os m´etodos comparados visam a utilizac¸˜ao das partes faciais para o alinhamento e reconstruc¸˜ao da face, objetivo contr´ario ao nosso que visa a classificac¸˜ao de gˆenero imagens sem restric¸˜oes.

B. Classificac¸˜ao de gˆenero

Para avaliar a performance da abordagem desenvolvida, utilizou-se dois conjuntos de dados adquiridos em ambientes sem restric¸˜oes (in the wild): Large-scale CelebFaces Attributes (CelebA) e Faces of the World (FotW). Os experimentos foram conduzidos em duas fases distintas: a primeira avaliou a classificac¸˜ao de gˆenero utilizando apenas classificadores treinados com uma ´unica parte facial separadamente, com a arquitetura proposta por Zavan et al. [23] e, a segunda fase realizou a classificac¸˜ao com o classificador treinado a partir da fus˜ao das caracter´ısticas das partes faciais (olhos + nariz + boca), utilizando a arquitetura apresentada na Figura 1. Durante o processo de treinamento, apenas duas classes foram utilizadas em ambas as etapas, uma indicando o gˆenero masculino (0) e a outra o feminino (1). Todos os resultados apresentados foram obtidos com a detecc¸˜ao autom´atica da face e das regi˜oes faciais.

C. CelebA dataset

A Large-scale CelebFaces Attributes (CelebA) [5] ´e com- posta por imagens de celebridades, cada uma contendo 40 atributos anotados manualmente (por exemplo. ´oculos de sol, gˆenero). As imagens deste conjunto apresentam uma grande variac¸˜ao de pose e de fundo. A CelebA ´e formada por 202.599 imagens de faces obtidas atrav´es de 10.177 indiv´ıduos diferentes e 5 anotac¸˜oes de landmarks. Este conjunto ´e divi- dido em trˆes subconjuntos: treinamento (162.770 imagens), validac¸˜ao (19.867 imagens) e teste (19.962 imagens). Para os experimentos juntamos os subconjuntos de treinamento e de validac¸˜ao, formando assim, um novo subconjunto de treinamento. A Tabela III ilustra um comparativo entre a arquitetura proposta e o m´etodo proposto por [23].

TABLE III

TAXA DE ACURACIA DE CLASSIFICAC´ ¸ ˜AO DE GENEROˆ CelebA Dataset Olhos Nariz Boca

NosePose [23] 92.45% 90.98% 91.65% CNNNFusion-gender 98.13% 97.90% 97.40%

Neste comprativo, a CNNFusion-Gender apresentou-se su- perior em relac¸˜ao ao m´etodo proposto por [23]. Al´em disso, outro comparativo foi realizado em relac¸˜ao a nossa abordagem com outros m´etodos considerados estado da arte presentes na literatura, que visam tamb´em a classificac¸˜ao de gˆenero. A Tabela IV destaca a comparac¸˜ao da CNNFusion-Gender com os demais m´etodos.

TABLE IV

CLASSIFICAC¸ ˜AO DEG ˆENERO- COMPARATIVO COM O METODOS ESTADO´ DA ARTE)

M´etodos Gˆenero

FaceTracker [32] 91%

Panda-1 [12] 97%

Panda-w [12] 93%

Li and Zang [33]+ANet [5] 95%

MT-RBM [10] 90%

Walk & Learn [13] 96%

LNets+ANet [5] 98% HyperFace [14] 97% Rajanet al. [11] 99% CNNFusion-Gender (Olhos) 98.13% CNNFusion-Gender (Nariz) 97.90% CNNFusion-Gender (Boca) 97.40% CNNFusion-Gender (Regra de Votac¸˜ao [34]) 98.34%

Com base nos experimentos realizados na CelebA [5], comprovou-se tamb´em que a CNNFusion-Gender ´e eficiente para o processo de classificac¸˜ao de gˆenero utilizando apenas uma ´unica parte facial atrav´es da combinac¸˜ao de carac- ter´ısticas, e tamb´em obt´em resultados satisfat´orios em relac¸˜ao aos outros m´etodos de classificac¸˜ao.

Obteve-se resultados resultados superiores em relac¸˜ao a maioria dos m´etodos, quando comparado com a classificac¸˜ao realizada atrav´es dos olhos (98.13%) e com a aplicac¸˜ao da regra de votac¸˜ao (98.34)%, exceto ao m´etodo proposto por Rajan et al. [11] que apresenta 99% de acerto.

Ao analisar os resultados, os olhos demonstraram mais dis- criminantes para o processo de classificac¸˜ao, quando analisado em relac¸˜ao a CelebA dataset. Durante a etapa de treinamento, o olho esquerdo e direto foram treinados juntos, atrav´es da uni˜ao da regi˜oes dos mesmos, passando assim a regi˜ao total como entrada na CNNFusion-Gender.

Al´em do comparativo em relac¸˜ao a classificac¸˜ao de gˆenero, analisamos a performance da CNNFusion-Gender na classificac¸˜ao de um atributo espec´ıfico (gˆenero masculino) presente entre os 40 atributos anotados da CelebA dataset. A Tabela V exibe o comparativo entre os m´etodos estado da arte utilizados para classificac¸˜ao de gˆenero masculino na CelebA dataset.

Ao comparar a abordagem proposta obteve-se resultados inferiores apenas em relac¸˜ao ao m´etodo Liu et al. [5], quando comparados com olhos, boca e nariz. No entanto, ao comparar

TABLE V

COMPARATIVO DE CLASSIFICAC¸ ˜AO DO GENERO MASCULINO NOˆ CONJUNTO DE DADOSCELEBA

M´etodos Gˆenero Masculino

FaceTracker [32] 91%

Panda-1 [12] 97%

Panda-w [12] 93%

Li and Zang [33]+ANet [5] 95%

LNets+ANet [5] 98%

CNNFusion-Gender (Olhos) 97.70% CNNFusion-Gender (Nariz) 97.40% CNNFusion-Gender (Boca) 96.50% CNNFusion-Gender (Regra de Votac¸˜ao [34] ) 98%

com o resultado gerado com a regra de votac¸˜ao alcanc¸amos o mesmo resultado apresentado por Liu et al. (98%), consider- ado o estado da arte em relac¸˜ao a classificac¸˜ao de um atributo espec´ıfico (gˆenero masculino).

D. Faces of the World

A Faces of the World (FotW) [25] ´e um subconjunto criado para a realizac¸˜ao do ChaLearn Looking at People and Faces of the World Challenge and Workshop, utilizado para classificac¸˜ao de sorriso e gˆenero. este conjunto de dados ´e composto por trˆes subconjunto: Treinamento (6.171 imagens), Validac¸˜ao (3.086 imagens) e teste (8.505 imagens).

Neste conjunto de dados, realizou-se um comparativo com os demais m´etodos de classificac¸˜ao de gˆenero, que utilizam a face inteira para tal processo. Para o experimento, uma nova divis˜ao dos subconjuntos foi realizada, gerando assim um novo subconjunto de treinamento que consistem em 9.257 imagens e 8.505 imagens para teste, eliminando assim o subconjunto de validac¸˜ao que foi adicionado ao de treinamento. A Tabela VI exibe o comparativo da classificac¸˜ao de gˆenero com demais m´etodos estado da arte.

TABLE VI

COMPARATIVO DE CLASSIFICAC¸ ˜AO DE GENERO NA BASE DE DADOSˆ FOTW) M´etodos Gˆenero MT-RBM [10] 71.70% CMP+ETH [35] 89.15% DeepBE [36] 90.44% SIAT-MMLAB [37] 91.66% Rajan et al. [11] 93.12% CNNFusion-Gender (Olhos) 90.08% CNNFusion-Gender (Nariz) 92.55% CNNFusion-Gender (Boca) 91.52% CNNFusion-Gender (Regra de Votac¸˜ao) [34]) 92.96%

Os resultados foram superiores aos m´etodos [10], [35], [36], [37] quando comparado com a CNNFusion-Gender (Regra de Votac¸˜ao), perdendo apenas para o m´etodo pro- posto por Rajan et al. [11]. Entretanto, ao comparamos a CNNFusion-Gender(Olhos), obtivemos resultado superior ape- nas no m´etodo MT-RBM. Este desempenho deve-se ao fato de v´arias imagens apresentarem algum tipo de acess´orio na regi˜ao dos olhos, por exemplo, ´oculos. Neste conjunto de dados, o nariz apresentou-se mais discriminante para o processo de classificac¸˜ao de gˆenero.

IV. CONCLUSAO˜

Neste trabalho, investigamos o uso de partes faciais, t´ecnicas para aprimorar o classificac¸˜ao de gˆenero. Sendo assim, nossa nova arquitetura de CNN para classificac¸˜ao de gˆenero demonstrou-se competitiva em relac¸˜ao aos demais m´etodos estado da arte. Experimentos realizados em conjuntos de dados sem restric¸˜oes CelebA e FotW comprovaram o alto desempenho da CNNFusion-Gender em diferentes cen´arios.

Nossa abordagem apresentou resultados satisfat´orios na CelebA dataset quando comparado aos m´etodos [5], [32], [12], [10], [13], [14], [33] considerados estado da arte em classificac¸˜ao de gˆenero, ficando atr´as apenas do m´etodo [11]. A CNNFusion-Gender tamb´em apresentou um excelente de- sempenho em relac¸˜ao a Faces of the World dataset, obtendo resultado superiores quando comparados aos m´etodos [10], [35], [36], [37].

Al´em disso, a CNNFusion-Gender demonstrou-se por meio dos experimentos, que ´e poss´ıvel realizar a classificac¸˜ao de gˆenero apenas com trˆes partes faciais (olhos, nariz e boca) a partir da fus˜ao de suas respectivas caracter´ısticas, descartando, assim, o uso de atributos tais como: ´oculos de sol, bigode) ou a utilizac¸˜ao de informac¸˜oes externas, como vestu´ario, abordagem utilizada por Li et al. [4].

AGRADECIMENTOS

Os autores gostariam de expressar gratid˜ao pelos colegas que forneceram os conjuntos de dados gratuitamente e agrade- cemos a Coordenac¸˜ao de Aperfeic¸oamento de Pessoal de N´ıvel Superior (CAPES) - Minist´erio da Educac¸˜ao e Conselho Na- cional de Desenvolvimento Cient´ıfico e Tecnol´ogico (CNPq) - Minist´erio da Fazenda Ciˆencia Tecnologia e Inovac¸˜ao - para apoiar esta pesquisa

REFERENCES

[1] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar, “Attribute and simile classifiers for face verification,” in 2009 IEEE 12th International Conference on Computer Vision. IEEE, 2009, pp. 365–372. [2] F. Song, X. Tan, and S. Chen, “Exploiting relationship between attributes

for improved face verification,” Computer Vision and Image Understand- ing, vol. 122, pp. 143–154, 2014.

[3] O. K. Manyam, N. Kumar, P. Belhumeur, and D. Kriegman, “Two faces are better than one: Face recognition in group photographs,” in Biometrics (IJCB), 2011 International Joint Conference on. IEEE, 2011, pp. 1–8.

[4] B. Li, X.-C. Lian, and B.-L. Lu, “Gender classification by combin- ing clothing, hair and facial component classifiers,” Neurocomputing, vol. 76, no. 1, pp. 18–27, 2012.

[5] Z. Liu, P. Luo, X. Wang, and X. Tang, “Deep learning face attributes in the wild,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 3730–3738.

[6] X. Zhu and D. Ramanan, “Face detection, pose estimation, and landmark localization in the wild,” in Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012, pp. 2879–2886. [7] P. N. Belhumeur, D. W. Jacobs, D. J. Kriegman, and N. Kumar,

“Localizing parts of faces using a consensus of exemplars,” IEEE transactions on pattern analysis and machine intelligence, vol. 35, no. 12, pp. 2930–2940, 2013.

[8] B. M. Smith, L. Zhang, J. Brandt, Z. Lin, and J. Yang, “Exemplar-based face parsing,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013, pp. 3484–3491.

[9] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” in Advances in neural information processing systems, 2015, pp. 91–99.

[10] M. Ehrlich, T. J. Shields, T. Almaev, and M. R. Amer, “Facial attributes classification using multi-task representation learning,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2016, pp. 47–55.

[11] R. Ranjan, S. Sankaranarayanan, C. D. Castillo, and R. Chellappa, “An all-in-one convolutional neural network for face analysis,” arXiv preprint arXiv:1611.00851, 2016.

[12] N. Zhang, M. Paluri, M. Ranzato, T. Darrell, and L. Bourdev, “Panda: Pose aligned networks for deep attribute modeling,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1637–1644.

[13] J. Wang, Y. Cheng, and R. S. Feris, “Walk and learn: Facial attribute representation learning from egocentric video and contextual data,” arXiv preprint arXiv:1604.06433, 2016.

[14] R. Ranjan, V. M. Patel, and R. Chellappa, “Hyperface: A deep multi- task learning framework for face detection, landmark localization, pose estimation, and gender recognition,” arXiv preprint arXiv:1603.01249, 2016.

[15] G. E. Hinton, S. Osindero, and Y.-W. Teh, “A fast learning algorithm for deep belief nets,” Neural computation, vol. 18, no. 7, pp. 1527–1554, 2006.

[16] Z. Liao, S. Petridis, and M. Pantic, “Local deep neural networks for age and gender classification,” arXiv preprint arXiv:1703.08497, 2017. [17] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf, “Deepface: Closing

the gap to human-level performance in face verification,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1701–1708.

[18] R. Girshick, “Fast r-cnn,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1440–1448.

[19] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein et al., “Imagenet large scale visual recognition challenge,” International Journal of Computer Vision, vol. 115, no. 3, pp. 211–252, 2015.

[20] G. Hu, Y. Yang, D. Yi, J. Kittler, W. Christmas, S. Z. Li, and T. Hospedales, “When face recognition meets with deep learning: an evaluation of convolutional neural networks for face recognition,” in Proceedings of the IEEE International Conference on Computer Vision Workshops, 2015, pp. 142–150.

[21] G. Levi and T. Hassner, “Age and gender classification using convo- lutional neural networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2015, pp. 34–42. [22] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltz- mann machines,” in Proceedings of the 27th International Conference on Machine Learning (ICML-10), 2010, pp. 807–814.

[23] F. H. Zavan, A. C. Nascimento, O. R. Bellon, and L. Silva, “Nosepose: a competitive, landmark-free methodology for head pose estimation in the wild.”

[24] V. Le, J. Brandt, Z. Lin, L. Bourdev, and T. S. Huang, “Interactive facial feature localization,” in European Conference on Computer Vision. Springer, 2012, pp. 679–692.

[25] S. Escalera, M. Torres Torres, B. Martinez, X. Bar´o, H. Jair Escalante, I. Guyon, G. Tzimiropoulos, C. Corneou, M. Oliu, M. Ali Bagheri et al., “Chalearn looking at people and faces of the world: Face analysis workshop and challenge 2016,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2016, pp. 1–8. [26] A. Hoover, G. Jean-Baptiste, X. Jiang, P. J. Flynn, H. Bunke, D. B. Goldgof, K. Bowyer, D. W. Eggert, A. Fitzgibbon, and R. B. Fisher, “An experimental comparison of range image segmentation algorithms,” IEEE transactions on pattern analysis and machine intelligence, vol. 18, no. 7, pp. 673–689, 1996.

[27] C. Goutte and E. Gaussier, “A probabilistic interpretation of precision, recall and f-score, with implication for evaluation,” in European Con- ference on Information Retrieval. Springer, 2005, pp. 345–359. [28] M. Sokolova and G. Lapalme, “A systematic analysis of performance

measures for classification tasks,” Information Processing & Manage- ment, vol. 45, no. 4, pp. 427–437, 2009.

[29] J. M. Saragih, S. Lucey, and J. F. Cohn, “Face alignment through- subspace constrained mean-shifts,” in 2009 IEEE 12th International Conference on Computer Vision. IEEE, 2009, pp. 1034–1041. [30] C. Liu, J. Yuen, and A. Torralba, “Nonparametric scene parsing via

label transfer,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 33, no. 12, pp. 2368–2382, 2011.

[31] L. Gu and T. Kanade, “A generative shape regularization model for robust face alignment,” in European Conference on Computer Vision. Springer, 2008, pp. 413–426.

[32] N. Kumar, P. Belhumeur, and S. Nayar, “Facetracer: A search engine for large collections of images with faces,” in European conference on computer vision. Springer, 2008, pp. 340–353.

[33] J. Li and Y. Zhang, “Learning surf cascade for fast and accurate object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013, pp. 3468–3475.

[34] J. Kittler, M. Hatef, R. P. Duin, and J. Matas, “On combining classifiers,” IEEE transactions on pattern analysis and machine intelligence, vol. 20, no. 3, pp. 226–239, 1998.

[35] M. Uˇriˇc´aˇr, R. Timofte, R. Rothe, J. Matas, and L. Van Gool, “Structured output svm prediction of apparent age, gender and smile from deep features,” 2016.

[36] C. Li, Q. Kang, G. Ge, Q. Song, H. Lu, and J. Cheng, “Deepbe: Learning deep binary encoding for multi-label classification,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition