• Nenhum resultado encontrado

Reconhecimento de padrões na investigação dos olhos da face humana aplicada em jogos

N/A
N/A
Protected

Academic year: 2021

Share "Reconhecimento de padrões na investigação dos olhos da face humana aplicada em jogos"

Copied!
77
0
0

Texto

(1)

PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA

VINÍCIUS PICOSSI TERUEL

RECONHECIMENTO DE PADRÕES NA INVESTIGAÇÃO DOS

OLHOS DA FACE HUMANA APLICADA EM JOGOS

DISSERTAÇÃO - MESTRADO

CORNÉLIO PROCÓPIO

(2)

RECONHECIMENTO DE PADRÕES NA INVESTIGAÇÃO DOS

OLHOS DA FACE HUMANA APLICADA EM JOGOS

Dissertação apresentada ao Programa de Pós-Graduação em Informática da Universidade Tecnológica Federal do Paraná – UTFPR como requisito parcial para obtenção do título de “Mestre Prossional em Informática”.

Orientador: Prof. Dr. Alexandre Rossi Paschoal

Co-orientadores: Prof. Dr. Pedro Henrique Bugatti Profa. Dra. Priscila Tiemi Maeda Saito

CORNÉLIO PROCÓPIO 2018

(3)

Reconhecimento de padrões na investigação dos olhos da face humana aplicada em jogos / Vinícius Picossi Teruel. – 2018.

76 f. : il. color.; 31 cm.

Orientador: Alexandre Rossi Paschoal. Coorientador: Pedro Henrique Bugatti. Coorientador: Priscila Tiemi Maeda Saito.

Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Informática. Cornélio Procópio, 2018.

Bibliografia: p. 64-69.

1. Expressão facial. 2. Avatares (Realidade virtual). 3. Reconhecimento de padrões. 4. Processamento de imagens. 5. Informática – Dissertações. I. Paschoal, Alexandre Rossi, orient. II. Bugatti, Pedro Henrique, coorient. III. Saito, Priscila Tiemi Maeda, coorient. IV. Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Informática. V. Título.

CDD (22. ed.) 004

Biblioteca da UTFPR - Câmpus Cornélio Procópio Bibliotecário/Documentalista responsável:

(4)

Programa de Pós-Graduação em Informática

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR.

Tel. +55 (43) 3520-4055 / e-mail: ppgi-cp@utfpr.edu.br / www.utfpr.edu.br/cornelioprocopio/ppgi

Título da Dissertação Nº 53:

DESVENDANDO OS PADRÕES DA FACE HUMANA PARA

CRIAÇÃO DE REPRESENTAÇÕES DE AVATARES

”.

por

Vinícius Picosse Teruel

Orientador: Prof. Dr. Alexandre Rossi Paschoal Co-orientador: Prof. Dr. Pedro Henrique Bugatti

Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM INFORMÁTICA – Área de Concentração: Computação Aplicada, pelo Programa de Pós-Graduação em Informática – PPGI – da Universidade Tecnológica Federal do Paraná – UTFPR – Câmpus Cornélio Procópio, às 15h30 do dia 17 de agosto de 2018. O trabalho foi _____________ pela Banca Examinadora, composta pelos professores:

__________________________________ Prof. Dr. Alexandre Rossi Paschoal

(Presidente – UTFPR-CP)

__________________________________ Prof. Dr. André Yoshiaki Kashiwabara

(UTFPR-CP)

__________________________________ Prof. Dr. Wonder Alexandre Luz Alves

(UNINOVE)

Participação à distância via ______________

Visto da coordenação: __________________________________

Danilo Sipoli Sanches

Coordenador do Programa de Pós-Graduação em Informática UTFPR Câmpus Cornélio Procópio

(5)
(6)

Agradeço à toda minha família, pela compreensão da minha ausência durante esse trabalho. Agradeço à minha namorada Marília, por sempre estar ao meu lado. Agradeço à Forlogic e meus amigos, pelo apoio. Ao meu orientador Dr. Alexandre Rossi Paschoal, pela paciência, pelos conselhos e auxílio no trabalho.

(7)

dreamers of the day are dangerous men, for they may act their dreams with open eyes, to make it possible.

(8)

TERUEL, Vinícius Picossi. RECONHECIMENTO DE PADRÕES NA INVESTIGAÇÃO DOS OLHOS DA FACE HUMANA APLICADA EM JOGOS. 76 f. Dissertação - Mestrado – Programa de Pós-Graduação em Informática , Universidade Tecnológica Federal do Paraná . Cornélio Procópio, 2018.

Em relação às técnicas usadas para desenhar a face humana, a literatura descreve onde e como posicionar os elementos da face (por exemplo, olhos, nariz, boca, cabeça, orelha). No entanto, não descreve qual o padrão (forma, tamanho e simetria) utilizado para definir cada um destes elementos da face. Sendo assim, faces de personagens/avatares de jogos digitais, por exemplo, são criadas de maneira aleatórias podendo gerar insatisfação ou não identificação com o personagem do jogo por parte dos jogadores. Em outras palavras, são criadas sem um padrão definido. Nesse sentido, este trabalho investigou a criação de um método para elucidar os padrões que definam as características da face humana. Para este projeto foi aplicado para olho, sendo o protocolo possível a ser usado para outros elementos da face. O método foi construído por meio de técnicas de processamento de imagens e reconhecimento de padrões criar um sistema para reconhecimento dessas características a partir de um conjuntos de dados com as características humanas. Este trabalho foi elaborado em duas fases: a) a revisão e definição de técnicas para processamento das imagens e extração das características da face; e b) a criação do conjunto de padrões/características de cada elemento da face. Ao realizar uma revisão da literatura foram identificados 47 conjuntos de dados de imagens faciais, totalizando aproximadamente 225 mil imagens candidatas serem analisadas. Finalmente, a partir dos padrões obtidos será possível usar em várias aplicações, tais como: criar personagens mais realistas para jogos digitais, criar avatares para impressão em 3D, filme, ganho no processo de detecção e reconhecimento de pessoas, bem como aplicação em segurança. Além de ter-se um conjunto de dados reais de características da face humanas para a construção de personagem ou afins e o software para reconhecimento e geração de avatar.

Palavras-chave: face humana, padrões faciais, personagens, avatar, reconhecimento de padrões, processamento de imagens

(9)

TERUEL, Vinícius Picossi. RECOGNITION OF PATTERNS IN THE INVESTIGATION OF HUMAN EYES APPLIED IN GAMES. 76 f. Dissertação - Mestrado – Programa de Pós-Graduação em Informática , Universidade Tecnológica Federal do Paraná . Cornélio Procópio, 2018.

In relation to the techniques used to draw a human face, the literature describes where and how to position face elements (eg eyes, nose, mouth, head, ear). However, it does not describe the pattern (shape, size, and symmetry) used to define each of these face elements. Therefore, characters/avatars faces of digital games, for example, are created in a random manner and may generate dissatisfaction or non-identification with the character of the game by the players. In other words, they are created without a defined pattern. In this sense, this work investigated the creation of a methodology to elucidate the patterns that define the characteristics of the human face. For this project it was applied to the eye, the protocol being possible to be used for other elements of the face. The methodology was constructed using image processing and pattern recognition techniques to create a system for recognizing these characteristics from a data set with human characteristics. This work is divided in two phases: a) review and define techniques for image processing and extraction of face characteristics; And b) create the set of patterns/characteristics of each element of the face. When reviewing the literature, 47 datasets of facial image data were identified, totaling approximately 225,000 candidate images to be analyzed. Finally, from the obtained patterns will be expected to be able to use in various applications, such as: creating more realistic characters for digital games, create avatars for 3D printing, film, earn in the process of detection and recognition of people as well as application in safety. In addition there will be a set of real data of human face characteristics for the construction of character of your own like and the software for recognition and generation of avatar.

Keywords: human face, facial patterns, characters, avatar, pattern recognition, image processing

(10)

FIGURA 1 Captura de face com um sistema óptico. . . 14 –

FIGURA 2 Uncanny Valley. . . 15 –

FIGURA 3 Possíveis pontos de referências da face. . . 20 –

FIGURA 4 Fluxograma do trabalho, atividades realizadas. . . 25 –

FIGURA 5 Exemplo das imagens selecionadas de um conjunto de dados. . . 28 –

FIGURA 6 Rótulos dos pontos de referências de interesse. . . 29 –

FIGURA 7 Os pontos amarelos representam os pontos de referências e as linhas vermelhas as distâncias entre eles. . . 30 –

FIGURA 8 Fluxo de processamento da imagem. . . 31 –

FIGURA 9 Exemplo do conjunto de dados gerado. . . 33 –

FIGURA 10 Mapa mental da revisão. . . 35 –

FIGURA 11 Tela do software: processamento de uma única imagem. . . 44 –

FIGURA 12 Tela do software: extração de características e geração de um novo conjunto de dados. . . 45 –

FIGURA 13 Tela do software: opções de entrada. . . 46 –

FIGURA 14 Comparação entre 3 algoritmos de agrupamentos utilizando o índice silhouette como critério. . . 47 –

FIGURA 15 Grupos gerados com k=4. . . 48 –

FIGURA 16 Dendrograma dos grupos quando k=4. . . 49 –

FIGURA 17 Grupos gerados com k=5. . . 51 –

FIGURA 18 Dendrograma dos grupos quando k=5. . . 51 –

FIGURA 19 Grupos gerados com k=6. . . 53 –

FIGURA 20 Dendrograma dos grupos quando k=6. . . 55 –

FIGURA 21 Grupos gerados com k=7. . . 55 –

FIGURA 22 Dendrograma dos grupos quando k=7. . . 57 –

FIGURA 23 Agrupamento: features, local. . . 71 –

FIGURA 24 Agrupamento: intelligent, system. . . 71 –

FIGURA 25 Agrupamento: registration, surface. . . 72 –

FIGURA 26 Agrupamento: face, facial. . . 72 –

FIGURA 27 Agrupamento: cell, driver, phone. . . 73 –

FIGURA 28 Agrupamento: body, burn. . . 73 –

FIGURA 29 Agrupamento: facial, patients. . . 73 –

FIGURA 30 Agrupamento: face, features. . . 74 –

FIGURA 31 Agrupamento: face, recognition. . . 74 –

FIGURA 32 Agrupamento: boundary, detection. . . 75 –

FIGURA 33 Agrupamento: hemangiomas, lesions. . . 75 –

FIGURA 34 Agrupamento: facial, modern. . . 75 –

(11)

TABELA 1 Conjuntos de dados selecionados para realização dos experimentos. . . 27 –

TABELA 2 Conjuntos de dados encontrados na revisão. Parte 1 . . . 39 –

TABELA 3 Conjuntos de dados encontrados na revisão. Parte 2 . . . 40 –

TABELA 4 Conjuntos de dados encontrados na revisão. Parte 3 . . . 41 –

TABELA 5 Conjuntos de dados encontrados na revisão. Parte 4 . . . 42 –

TABELA 6 Conjuntos de dados encontrados na revisão. Parte 5 . . . 43 –

TABELA 7 Comparação entre 3 algoritmos de agrupamentos utilizando o índice silhouette como critério. . . 47 –

TABELA 8 Representação normalizada dos grupos quando k=4. . . 49 –

TABELA 9 Representação 2D dos centróides dos grupos quando k=4. . . 50 –

TABELA 10 Amostras agrupadas quando k=4. . . 50 –

TABELA 11 Representação normalizada dos grupos quando k=5. . . 52 –

TABELA 12 Representação 2D dos centróides dos grupos quando k=5. . . 53 –

TABELA 13 Amostras agrupadas quando k=5. . . 54 –

TABELA 14 Representação normalizada dos grupos quando k=6. . . 56 –

TABELA 15 Representação 2D dos centróides dos grupos quando k=6. . . 57 –

TABELA 16 Amostras agrupadas quando k=6. . . 58 –

TABELA 17 Representação normalizada dos grupos quando k=7. . . 59 –

TABELA 18 Representação 2D dos centróides dos grupos quando k=7. . . 60 –

(12)

MoCap Motion Capture IA Inteligência Artificial AdaBoost Adaptive Boosting

JAFFE Japanese Female Facial Expression

SLR-VTM Systematic Literature Review based on Visual Text Mining

VTM Visual Text Mining

JPEG Joint Photographic Experts Group PNG Portable Network Graphics GIF Graphics Interchange Format

BMP Bitmap

DPI Dots Per Inch

WPF Windows Presentation Foundation IDE Integrated Development Environment API Application Programming Interface SDK Software Development Kit

APIs Application Programming Interface SDK Software Development Kit

EBGM Elastic Bunch Graph Matching SVM Support Vector Machine

CK+ Extended Cohn-Kande

MUG Multimedia Understanding Group

ASM Active Shape Model

SRILF Shape Regression with Incomplete Local Features HOG Histogram of Gradient

SIFT Scale-Invariant Feature Transform FPLBP Four-Patch Local Binary Pattern PHOG Pyramid of Histogram of Gradients LFW Labeled Faces in the Wild

(13)

1 INTRODUÇÃO . . . 13 1.1 CONTEXTO . . . 13 1.2 MOTIVAÇÃO E JUSTIFICATIVA . . . 16 1.3 OBJETIVOS . . . 16 1.3.1 Objetivo geral . . . 16 1.3.2 Objetivos específicos . . . 17 1.4 ORGANIZAÇÃO DO DOCUMENTO . . . 17 2 CONCEITOS FUNDAMENTAIS . . . 18 2.1 RECONHECIMENTO DE PADRÕES . . . 18 2.2 A TÉCNICA VIOLA-JONES . . . 19

2.3 PONTOS DE REFERÊNCIAS OU PONTOS FIDUCIAIS . . . 19

2.4 SEGMENTAÇÃO E DETECÇÃO DE BORDA . . . 20

2.5 CLASSIFICAÇÃO DE DADOS . . . 21

2.5.1 Índice Silhouette . . . 22

2.6 MEDIDAS DE DISTÂNCIAS . . . 22

2.6.1 Distância Euclidiana . . . 22

2.6.2 Distância manhattan ou city-block . . . 23

2.6.3 Distância chebyshev . . . 23

3 METODOLOGIA . . . 24

3.1 REVISÃO DA LITERATURA . . . 26

3.2 CONJUNTOS DE DADOS . . . 26

3.3 DESENVOLVIMENTO DO SOFTWARE E GERAÇÃO DO CONJUNTO DE DADOS . . . 28

3.3.1 Tecnologias e recursos utilizados . . . 33

4 RESULTADOS . . . 34

4.1 REVISÃO DE LITERATURA E TRABALHOS RELACIONADOS . . . 34

4.1.1 Trabalhos relacionados . . . 36

4.1.2 Conjuntos de dados . . . 38

4.2 SOFTWARE DE RECONHECIMENTO/AGRUPAMENTO . . . 44

4.3 DEFINIÇÃO DOS GRUPOS E PADRÕES . . . 46

5 CONSIDERAÇÕES FINAIS . . . 62

5.1 REGISTRO DE SOFTWARE . . . 62

5.2 PROPOSTAS PARA TRABALHOS FUTUROS . . . 62

REFERÊNCIAS . . . 64

(14)

1 INTRODUÇÃO

Nesse capítulo será apresentada a introdução, contextualizando o projeto e abordando a motivação, bem como os objetivos do mesmo.

1.1 CONTEXTO

Um sistema de processamento facial nada mais é que um sistema biométrico que, na maioria das vezes, baseia-se nas características extraídas da face, que por sua vez são utilizadas como dados de entrada em diversas técnicas para classificação. Dentre estas, o Reconhecimento Facial uma das técnicas mais utilizadas e que requer algoritmos robustos para processarem diferente expressões faciais, em diferentes condições ambientais (JAIN et al., 2011).

As características humanas, principalmente no que tange a face, aplicadas em personagens/avatares de jogos digitais são reproduzidas utilizando tecnologias para que a face gerada se assemelhe o mais próximo possível da face humana. Uma das técnicas mais utilizadas é conhecida como Motion Capture1(MoCap).

A técnica MoCap é dividida em 3 principais categorias, sendo elas: a) sistemas ópticos; b) sistemas magnéticos; e c) sistemas mecânicos; sendo que cada categoria tem seus pontos fontes e fracos. Por conta da acurácia dos sistemas ópticos, esses são utilizados para captura de face, conforme é apresentado na figura 1 (KITAGAWA; WINDSOR, 2012).

Após a captura, é gerado um modelo 3D que representa a face capturada, sendo esse mesmo processo utilizado para fazer animações, por exemplo. O problema desse tipo de captura é seu valor elevado, pois são necessários muitos equipamentos.

Outra forma de criar uma representação da face é através do desenho livre, no qual um artista pode criar essas representações em modelos 3D ou 2D. Consequentemente, se a representação é criada por um desenho livre, ela não conterá definições quanto ao tamanho, 1Técnica para transformar movimentos capturados de seres humanos, animais e objetos inanimados em dados

(15)

Figura 1: Captura de face com um sistema óptico. Fonte: (KITAGAWA; WINDSOR, 2012)

posição ou proporção dos elementos da face, ou seja, características faciais, uma vez que cada artista pode representar a face de sua maneira.

Existe um termo conhecido como Uncanny Valley, em livre tradução "vale da estranheza", que é uma hipótese proposta por Masahiro Mori em 1970, aplicada na robótica e em animações 3D. Segundo essa hipótese, se as réplicas ou modelos apresentarem características humanas, mas seu comportamento não for idêntico ao dos seres humanos, estes provocariam repulsa nos que estão os observando (MORI et al., 2012; MORI, 2012).

A figura 2 apresenta a proposta de Masahiro, no eixo x é quanto a aparência se parece com o humano, e no eixo y é quanto o comportamento é semelhante. Sendo assim, quando a aparência é parecida mais se espera que o comportamento também seja.

A relação entre o Uncanny Valley e a criação de modelos em 3D para jogos digitais, principalmente com processos de criação por desenhado manual, ou seja, não baseado em um conjunto de características faciais reais, pode gerar uma insatisfação ou não identificação com o personagem do jogo, uma vez que o jogador sentirá repulsa pelo modelo apresentado (SEYAMA; NAGAYAMA, 2007). Uma possível solução para esta situação é a utilização de características reais na criação dos modelos, por meio de técnicas de processamento de imagens

(16)

Figura 2: Uncanny Valley. Fonte: (MORI et al., 2012)

aplicadas a imagens reais de faces, detectando a face e extraindo as suas características.

A detecção de faces em imagens aleatórias ou em ambientes não controlados é uma tarefa difícil e tem recebido uma atenção significativa nos últimos anos, sendo propostos inúmeros métodos e melhorias para ganho de performance e/ou acurácia (ZHANG; ZHANG, 2010; BEYMER, 1993; LIN et al., 1997; HEISELE et al., 2001, 2003). Esse problema faz parte de uma área específica da visão computacional, denominada de processamento de imagens. Uma das maneiras de realizar a detecção de uma face é por meio de técnicas de Inteligência Artificial (IA), juntamente com técnicas de processamento de imagens.

O presente trabalho visa utilizar técnicas de processamento de imagens para criar um software que realize a extração das características da face humana e valide possíveis agrupamentos entre os padrões, objetivando a aplicação de técnicas de reconhecimento de padrões para construção de um conjuntos de dados com características de faces humanas, possibilitando a criação de representações de personagens em jogos digitais. Para tanto, foi aplicado todo o estudo para elucidar os padrões do olho, mas o protocolo já está pronto para outros elementos da face.

A motivação para a sua realização está na ausência de um ou mais padrões que possam guiar a construção da face humana com base em dados reais, e, como consequência, apresenta-se a sua aplicação em diversas áreas, dentre elas, os jogos digitais.

(17)

1.2 MOTIVAÇÃO E JUSTIFICATIVA

Esse trabalho é motivado pelo trabalho do pesquisador Abraham Tamir, que em 2011 apresentou uma classificação do formato do nariz humano, definindo 14 tipos (TAMIR, 2011). Neste estudo foram utilizados 1793 imagens de nariz, sendo que para cada grupo de nariz, o autor definiu um modelo artístico que representasse aquele grupo (TAMIR, 2011, 2012). Em outro trabalho, de 2013, Abraham definiu modelos artísticos em 2D que representam os olhos humanos que segundo ele, o modelo artístico definido dá uma melhor representação para os olhos (TAMIR, 2013).

Entretanto, os trabalhos de Abraham incluem imagens artísticas e não apenas imagens de seres humanos, e no presente trabalho são utilizadas apenas imagens reais. A partir dos estudos acima citados, foram levantadas algumas hipóteses que nortearam a presente pesquisa, sendo elas:

• Existem grupos de formatos de olhos, nariz, boca, entre outros? Se sim, quantos grupos existem e quais são?

• Ao utilizar as medidas reais de um dos elementos da face, é possível criar um vetor único de características para reconhecimento facial? Ou gerar modelos artísticos realistas?

No intuito de responder essas questões, o presente trabalho permeia as áreas de processamento de imagens e reconhecimento padrões, sendo necessárias técnicas de ambas as áreas. Assim, serão utilizadas técnicas de processamento de imagens para extração e geração dos dados que serão processados posteriormente.

1.3 OBJETIVOS

1.3.1 OBJETIVO GERAL

Criar um software que identifique e realize a extração das características dos olhos na face humana, para então validar possíveis agrupamentos entre os padrões gerando o mínimo possível de representações, objetivando a aplicação de técnicas de reconhecimento de padrões para construção de um conjuntos de dados com características de faces humanas, possibilitando a criação de representações de personagens em jogos digitais.

(18)

1.3.2 OBJETIVOS ESPECÍFICOS

Com o intuito de auxiliar na compreensão do objetivo geral, alguns objetivos específicos foram delineados:

• Revisar a literatura científica sobre o assunto do projeto;

• Estudar e utilizar técnicas para extração dos pontos de referências;

• Detectar os pontos de referências para extração de medidas e criar um conjunto de dados públicos com medidas calculadas que representem os olhos;

• Identificar possíveis padrões que representem o olho;

• Realizar a segmentação da representação dos olhos, para possível criação de modelos artísticos que representem suas características;

• Gerar vetor de característica como um identificador único da face;

• Empacotar e desenvolver todo o método em um software.

1.4 ORGANIZAÇÃO DO DOCUMENTO

A presente dissertação está organizada da seguinte forma:

• No presente capítulo foi apresentada a introdução, contextualizando o projeto e abordando a motivação, bem como os objetivos do mesmo;

• No capítulo 2 são apresentados os conceitos fundamentais para entendimento do presente trabalho, além do embasamento teórico para os experimentos realizados;

• No capítulo 3 é apresentado o método proposto, assim como os conjuntos de dados utilizados nos experimentos;

• No capítulo 4 são apresentados os resultados obtidos por meio de experimentos, seguindo o método proposto;

• No capítulo 5, são apresentadas as considerações finais do presente trabalho, bem como perspectivas de trabalhos futuros.

(19)

2 CONCEITOS FUNDAMENTAIS

Nesse capítulo são apresentados conceitos para o entendimento do problema e compreensão das técnicas utilizadas na elaboração das soluções de cada desafio encontrado em cada passo do trabalho, além de abordar referências sobre tecnologias utilizadas.

2.1 RECONHECIMENTO DE PADRÕES

O reconhecimento facial é um importante tópico no campo da visão computacional, e para que essa técnica tenha sucesso, mobiliza diversas outras áreas, podendo-se mencionar entre essas a própria visão computacional, processamento de imagens, reconhecimento de padrões, bioinformática, etc. As técnicas funcionam basicamente reconhecendo padrões nas faces humanas, e a partir desses padrões, apontam se é uma face ou não (JUN et al., 2013; YANBIN et al., 2008).

Essa área tem recebido muita atenção, pois o seu problema chave é como encontrar o conjunto de características ideais para esse processo. Além do conjunto de características a ser usado, os algoritmos que realizam o processamento são sensíveis a ruídos, tais como, iluminação, expressão e pose em uma foto, por exemplo, fazendo com que o processo de extração das características se torne, por si só, um problema a ser resolvido (YANBIN et al., 2008).

A extração de características é definida como um conjunto de operações de processamento e análise de imagem, com o objetivo de obter valores numéricos que caracterizam o conteúdo analisado ou parte dele. As características extraídas a partir de imagens podem ser classificadas em três classes: cor, textura e forma (BRILHADOR et al., 2013).

Só a extração das características não garante que o conjunto seja ideal para realizar o processo de classificação. Sendo assim, são também utilizadas técnicas de seleção de características. Portanto, utiliza-se de técnicas de processamento de imagem de modo a extrair as características faciais reais, para definir um subconjunto de elementos que possa representar

(20)

toda uma amostra analisada de imagens humanas.

2.2 A TÉCNICA VIOLA-JONES

Em 2001, Paul Viola e Michael Jones propõem uma técnica nomeada de Viola-Jones. Esta técnica processa a imagem, buscando características que atendam suas condições, e quando essas são encontradas, elas são marcadas na imagem. Esse processo é repetido inúmeras vezes, sendo, ao final, apresentado o melhor resultado.

A técnica Viola-Jones é composta por partes, das quais são destacadas três: a) as características utilizadas para a busca; b) um algoritmo de aprendizagem utilizado para a seleção das principais características; c) a cascata de classificadores para as comparações.

Foram duas as principais contribuições de Viola e Jones ao propor essa técnica em 2001, conforme descrito a seguir. A primeira contribuição foi uma nova forma de representar uma imagem chamada de imagem integral (integral image), que permite uma rápida avaliação das características. Utilizando a imagem integral, o algoritmo não trabalha diretamente com a imagem e sim com uma representação matemática dela, tornando assim os cálculos menos custosos para o processo (VIOLA; JONES, 2001). A segunda contribuição foi um método para construção de classificadores por seleção de um pequeno conjunto de características importantes, utilizando o Adaptive Boosting (AdaBoost) (FREUND; SCHAPIRE, 1997). A técnica consiste em utilizar as principais características de um objeto, no caso uma face, que são previamente extraídas utilizando-se de um algoritmo de aprendizagem de máquina. A partir dessas características é possível diferenciar uma face de outra, pois o conjunto de características encontrado em uma face é altamente distinto em relação a um outro conjunto encontrado em outra face.

Além da técnica Viola-Jones, para detectar uma face em uma imagem também é possível utilizar outras técnicas que trabalham a partir dos pixels. Entretanto, essas são técnicas bastante custosas para realizar o processamento, devido a quantidade de pixel de uma imagem. Em contrapartida, a utilização de características torna a análise de uma imagem relativamente mais rápida do que a utilização de pixels.

2.3 PONTOS DE REFERÊNCIAS OU PONTOS FIDUCIAIS

Os pontos de referências ou pontos fiduciais são pontos de interesse em objetos que definem regiões características, as quais contém propriedades utilizadas na detecção. Aplicando

(21)

os pontos fiduciais a face humana, esses seriam pontos que simbolizariam, por exemplo, as extremidades da boca. (RIBEIRO et al., 2012; PATIL et al., 2011; AMBERG; VETTER, 2011; JúNIOR et al., 2010).

Na figura 3, os pontos vermelhos representam os pontos de referências da face, mais precisamente os olhos e da boca. Esta figura foi retirada do conjunto de dados The Japanese Female Facial Expression(JAFFE).

Figura 3: Possíveis pontos de referências da face. Fonte: (LYONS et al., 1998a)

A utilização dessa abordagem é muito comum, pois a partir dos pontos de referências (também conhecidos como landmarks em inglês) é possível extrair medidas para reconhecimento facial, detecção facial, entre outros. Na seção 4.1.1 serão apresentados trabalhos que utilizam essa abordagem para diversos fins.

2.4 SEGMENTAÇÃO E DETECÇÃO DE BORDA

O objetivo da segmentação de imagens é fazer agrupamentos de pixels em regiões, ou seja, regiões correspondentes às superfícies individuais, objetos ou partes de objetos naturais, assim facilitando a análise da imagem (WANG, 2010). Uma forma de segmentar uma imagem é pela detecção de bordas, que são limites entre diferentes texturas, que também podem ser

(22)

definidas como uma descontinuidade na intensidade de um pixel para outro. Para uma imagem, as bordas são características importantes que oferecem indicação de frequências mais altas (JUNEJA; SANDHU, 2009).

Em 1986, John F. Canny apresentou em seu trabalho um algoritmo que teve como objetivo ser ótimo, ou seja, ser assertivo e rápido nos seguintes critérios: a) detecção (a probabilidade de detecção de bordas reais deve ser maximizada e a probabilidade de detecção de falsas bordas deve sem minimizada); b) localização (as bordas detectadas devem estar o mais próximo possível as bordas reais);e c) número de respostas (uma borda real não deve resultar em mais de uma borda detectada) (CANNY, 1986).

A partir de critérios previamente estabelecidos, o operador Canny primeiro suaviza a imagem, para eliminar ruídos e, em seguida, encontra o gradiente da imagem para realçar regiões com altas frequências, para então percorrer essas regiões, suprimindo qualquer pixel que não esteja na intensidade máxima (JUNEJA; SANDHU, 2009).

2.5 CLASSIFICAÇÃO DE DADOS

Novos objetos ou acontecimentos são classificados a todo momento. Essa classificação acontece por meio de características que os descrevem (XU; WUNSCH, 2005). Da mesma forma, os sistemas de classificação também fazem uso das características dos objetos ou acontecimentos, e são divididos em sistemas supervisionados e não supervisionados.

Na classificação supervisionada, as classes do conjunto de dados já são conhecidas, ou seja, cada registro de entrada contem um rótulo dizendo a qual classe o mesmo pertence (XU; WUNSCH, 2005). Já na classificação não supervisionada, as classes do conjunto de dados não são conhecidas, pois os registro não contem rótulos. Esse tipo de classificação também é chamada de análise exploratória de dados (XU; WUNSCH, 2005).

Aldenderfer e Blasheld (1984) resume o objetivo da classificação em quatro principais atividades (ALDENDERFER; BLASHELD, 1984 apud XU; WUNSCH, 2008):

• Desenvolvimento da classificação;

• Investigar esquemas conceituais úteis para os agrupamentos;

• Geração de hipóteses através da exploração de dados;

(23)

Ao realizar uma classificação, são considerados grupos os objetos que são semelhantes entre si. Ainda, uma classificação pode conter diferentes grupos (XU; WUNSCH, 2008). Dessa forma, faz se necessário escolher qual(is) característica(s) será(ão) usada(s) para determinar a proximidade, e ainda, como será medida a distância (tanto similaridade quanto dissimilaridade) entre os pares de objetos, entre um objeto e um grupo e entre os grupos (XU; WUNSCH, 2008).

2.5.1 ÍNDICE SILHOUETTE

O índice Silhouette pode ser usado para analisar a distância de separação entre os clusters. Ele é baseado nos valores da silhueta de cada entidade, que mede o quão bem a amostra se encaixa no cluster ao qual é atribuído. Essa medida tem um intervalo de -1 a 1, sendo que a proximidade de 1 indica que a amostra está longe dos clusters vizinhos. Quando o valor do índice estiver em 0, indica que a amostra está no limite de decisão ou muito próximo do limite entre dois clusters vizinhos, e os valores negativos indicam que essas amostras podem ter sido atribuídas ao cluster errado (AMORIM; HENNIG, 2015; PEDREGOSA et al., 2011).

2.6 MEDIDAS DE DISTÂNCIAS

As medidas de distâncias são muito importantes para mensurar a similaridade ou regularidade entre os objetos de dado um conjunto, pois são usadas para identificar de que maneira os objetos estão inter-relacionados e o quão diferentes ou similares são entre si (SINGH et al., 2013). Em outras palavras, essas medidas podem ser consideradas funções que definem a distância entre os objetos ou grupos de objetos (LI et al.; VITANYI, 2004, 2005 apud GRABUSTS, 2015).

2.6.1 DISTÂNCIA EUCLIDIANA

A distância Euclidiana calcula a diferença da raiz quadrada entre as coordenadas de um par de objetos, seguindo a equação 1 (SINGH et al., 2013; GRABUSTS, 2015).

Dxy= s m

k=1 (Xik− Xjk)2 (1)

De uma forma mais simples, ela pode ser representada na equação 2:

Dxy= q

(24)

2.6.2 DISTÂNCIA MANHATTAN OU CITY-BLOCK

A distância Manhattan, também conhecida como city-block, calcula a diferença absoluta entre as coordenadas de um par de objetos, seguindo a equação 3 (SINGH et al., 2013; GRABUSTS, 2015).

Dxy= |Xik− Xjk| (3)

De uma forma simplificada, ela pode ser representada na equação 4:

Dxy= |x1− x2| + |y1− y2| (4)

2.6.3 DISTÂNCIA CHEBYSHEV

A distância Chebyshev, também conhecida como distância do valor máximo, calcula a magnitude absoluta das diferenças entre as coordenadas de um par de objetos, seguindo a equação 5 (SINGH et al., 2013; GRABUSTS, 2015).

Dxy= maxk|Xik− Xjk| (5)

De uma forma mais simples ela pode ser representada na equação 6:

(25)

3 METODOLOGIA

Nesse capítulo é apresentado como foi desenvolvido esse trabalho e quais resultados foram obtidos em cada fase.

As atividades chaves realizadas nesse trabalho foram: a) criação e concepção do projeto; b) revisão sistemática; c) escolha das técnicas a serem utilizadas com base na revisão; d) pesquisa dos conjuntos de dados a serem utilizados, e) desenvolvimento do software, f) extração das características e g) agrupamento dos dados e análise dos grupos gerados.

Para realizar a revisão sistemática foi utilizada uma estratégia de revisão que será apresentada na seção 3.1. A mesma estratégia foi utilizada também para pesquisar os conjuntos de dados, apresentado na seção 3.2.

A figura 4 apresenta o workflow desse trabalho de forma detalhada, com todas as atividades chaves divididas em fases. Esse workflow também é composto pelo pipeline de processamento da(s) imagem(ns) no software.

Conforme a figura, esse trabalho foi divido em 2 fases. Contempla na fase 1: a) criação e concepção do projeto, foi nessa etapa que foi definida a hipótese que guiou o trabalho; b) revisão sistemática, resultando em 191 artigos a serem analisados; c) definição da estratégia, nessa etapa foram definidas possíveis abordagens que sustentasse o projeto; d) estudo/definição das técnicas, nessa etapa foram escolhidas as técnicas a serem utilizados no trabalho; e) pesquisa dos datasets a serem usados, resultando em 47 datasets a serem avaliados; f) seleção dos indivíduos únicos, nessa etapa foram selecionados 10 datasets, onde desses, foram selecionados cada indivíduo/amostra únicos.

Na fase 2 foram realizados os experimentos e as atividades foram: a) desenvolvimento do software; b) extração dos pontos fiduciais e geração do vetor de características, nessas etapas os pontos são extraídos e são criados os vetores de características; c) definição das técnicas de agrupamentos, nessa etapa foram definidas quais técnicas seriam utilizadas para a fase de análise exploratória; d) geração dos grupos e validação dos resultados, nessa fase foram realizados os experimentos com possíveis técnicas definidas na fase anterior.

(26)

Figura 4: Fluxograma do trabalho, ati vidades realizadas. F onte: A utoria própria

(27)

3.1 REVISÃO DA LITERATURA

Afim de realizar a Revisão de literatura, foi seguido o procedimento proposto por Felizardo, que consiste em realizar agrupamentos pelo contexto dos artigos, chamada Systematic Literature Review based on Visual Text Mining (SLR-VTM). Essa abordagem consiste em 4 estágios: 1) planejamento; 2) processo de pesquisa; 3) visualização; 4) seleção Visual Text Mining(VTM). No estágio 1, é definida a questão a ser respondida, o método de pesquisa, onde será pesquisado, os critérios que serão utilizados, etc. No estágio 2, é realizada a pesquisa definida no estágio 1. No estágio 3, é gerada uma representação visual da pesquisa realizada no estágio anterior, e no estágio 4, são utilizados critérios para selecionar os artigos encontrados (FELIZARDO et al., 2011).

Conforme a estratégia de revisão, a pesquisa foi realizada na base Scopus1, procurando por trabalhos com a temática desejada ou com algum grau de proximidade. A pesquisa foi realizada em julho de 2016 e atualizada em dezembro de 2016 e de 2017, afim de identificar novos artigos. Foi utilizado como critério de seleção a técnica usada e objetivo do trabalho, visando elencar os artigos com maior grau de proximidade. Para realizar a pesquisa foi utilizada a seguinte string de busca:

TITLE−ABS−KEY (

( f a c i a l OR f a c e ) AND f e a t u r e s AND l a n d m a r k AND p a t t e r n ) AND ( LIMIT−TO (LANGUAGE, " E n g l i s h " ) )

Utilizando essa string de busca, foram encontrados 191 artigos, os quais foram analisados individualmente seguindo os critérios pré-estabelecidos. Os resultados da analise serão apresentados na seção 4.1.

3.2 CONJUNTOS DE DADOS

Para pesquisar os conjuntos de dados de imagens utilizadas nesse trabalho, foi realizado o mesmo procedimento da revisão da literatura. Entretanto, no lugar da string de busca, foram utilizados os termos apresentados a seguir, sendo a busca realizada diretamente no Google Scholar.

• image dataset;

(28)

• dataset image processing;

• free image databaseimage;

• face dataset;

• dataset facial image.

Foram encontrados 47 conjuntos de dados, totalizando aproximadamente 225 mil imagens. Foram analisados os conteúdos de todos os 47 conjuntos de dados, dos quais foram selecionados 10, totalizando aproximadamente 75 mil imagens. Como critério para selecionar os conjuntos de dados, foi definido que o mesmo deveria conter imagens em ambientes controlados e também deveriam ser conjuntos públicos.

Após selecionar os 10 conjuntos de dados, totalizando 75 mil imagens, foi selecionada 1 imagem frontal de cada indivíduo, resultando em 696 imagens/indivíduos. Para escolher as imagens foram realizadas análises de forma totalmente manual, ou seja, para cada conjunto de dados foram visualizadas todas as imagens e selecionadas aquelas julgadas como ótimas na representação daquele indivíduo. Os principais critérios para selecionar as imagens foram: a) ambiente controlado; b) indivíduo de frente para câmera; c) sem expressão facial (ex. sorrindo).

Na tabela 1 estão os conjuntos de dados selecionados/utilizados nos experimentos, assim como a quantidade de imagens utilizadas por conjunto.

Tabela 1: Conjuntos de dados selecionados para realização dos experimentos.

Nome Qtd de imagens Fonte

Cohn-Kanade AU-Coded Facial

Expression Database 124 (LUCEY et al., 2010)

2D face sets Aberdeen 89 (2D. . . , 2017)

2D face sets Iranian women 37 (2D. . . , 2017)

2D face sets Nottingham scans 100 (2D. . . , 2017)

2D face sets Stirling faces 35 (2D. . . , 2017)

2D face sets Pain expressions 21 (2D. . . , 2017)

2D face sets Utrecht ECVP 67 (2D. . . , 2017)

FEI Face Database 198 (THOMAZ; GIRALDI, 2010)

MIT-CBCL 10 (WEYRAUCH et al., 2004)

Yale Face Database 15 (GEORGHIADES et al., 1997)

Fonte: Autoria própria.

A figura 5 apresenta um exemplo das imagens selecionadas de um conjunto de dados, seguindo os critérios mencionados anteriormente.

(29)

Figura 5: Exemplo das imagens selecionadas de um conjunto de dados. Fonte: Autoria própria

3.3 DESENVOLVIMENTO DO SOFTWARE E GERAÇÃO DO CONJUNTO DE DADOS

O software desenvolvido detecta os pontos de referências de uma face em uma imagem, extrai as posições e realiza o cálculo das distâncias Euclidiana, Manhattan e Chebyshev entre os pontos. Com esses dados, é criado um vetor de características. Caso mais de uma imagem esteja sendo processada, a partir do conjunto de vetores é criado um novo conjunto de dados, possibilitando realizar outros agrupamentos.

O conjunto de dados resultante contém as posições X,Y dos pontos de referências e também medidas de distâncias que representam o tamanho dos olhos. De uma forma estrutural, o software contempla quatro grandes etapas, sendo elas: a) aquisição, validação e pré-processamento da imagem; b) detecção dos pontos de referências; c) cálculo de medidas de distâncias e geração do conjunto de dados; d) agrupamento dos indivíduos.

Para os pontos referenciais de interesse, foram definidos rótulos, conforme é apresentado na figura 6. A face foi desenhada no PimpTheFace2.

(30)

A figura 7 apresenta as medidas de distâncias calculadas (linhas amarelas) dos pontos de referências.

Figura 6: Rótulos dos pontos de referências de interesse. Fonte: Autoria própria

(31)

Figura 7: Os pontos amarelos representam os pontos de referências e as linhas vermelhas as distâncias entre eles.

Fonte: Autoria própria

A figura 8 apresenta o fluxo de processamento da imagem (pipeline) realizada pelo software desenvolvido:

(32)

Figura 8: Fluxo de processamento da imagem. Fonte: Autoria própria

(33)

extensões JPEG/JPG, PNG, GIF e BMP. Verifica-se, também, se a imagem é maior que 1 Kb e menor que 4 Mb e se as dimensões são maiores que 36x36 e menores que 4096x4096. Caso a imagem não seja válida, o software não continua a processá-la.

Depois de realizar a validação da imagem, o software detecta a quantidade de faces utilizando a técnica Viola-Jones. No caso da existência de mais de uma face, ou se nenhuma face for detectada, o software não continua o processamento.

Com as validações realizadas, ou seja, se a imagem estiver com o tamanho entre 1 Kb e 4 Mb, com as dimensões entre 36x36 e 4096x4096 e contendo apenas 1 face, é dado início a fase de pré-processamento. Nessa fase, o primeiro passo é verificar se o Dots Per Inch DPI é igual a 96; caso não seja, o software converte para 96 DPI.

Quando a imagem estiver em 96 DPI, é aplicada a equalização de histograma. "essa técnica procura redistribuir os valores de tons de cinza dos pixels em uma imagem, de modo a obter um histograma uniforme"Filho e Neto (1999 p.61). Ela se faz necessária porque existem imagens cuja iluminação não está adequada.

Após a redistribuição dos valores dos pixels, é aplicado um filtro passa-baixo para suavização das bordas. O filtro utilizado é o Gaussiano "que utiliza como coeficiente da máscara derivações de uma função Gaussiana bidimensional"Faria (2005). O filtro é utilizado com vizinhança 3x3.

Depois do pré-processamento, é realizada a detecção dos pontos de referências, utilizando 2 API para realizar a detecção dos pontos, sendo elas: a) Microsoft Cognitive Services e b) Face++ Cognitive Services. Após a detecção, são selecionados os pontos de interesse, conforme a figura 6.

Com os pontos marcados, são realizados os cálculos das distâncias: Euclidiana (equação 2); Manhattan (equação 4) e Chebyshev (equação 6). Onde os resultados dessas distâncias são utilizados para compor o vetor de características de forma que individualize as amostras.

Foram realizados um total de 44 experimentos, a fim de refinar os dados coletados. O principal resultado obtido foram as medidas entre os pontos de referências, conforme apresentado na figura 7. Esse resultado é utilizado para gerar um novo conjuntos de dados, que é utilizado para: a) clusterização para identificação de grupos entre os indivíduos e b) criação de um vetor único de características. Os resultados de cada uma das etapas são descritos na seção 4.

(34)

um conjunto de imagens.

Figura 9: Exemplo do conjunto de dados gerado. Fonte: Autoria própria

3.3.1 TECNOLOGIAS E RECURSOS UTILIZADOS

Para o desenvolvimento do trabalho foi utilizada a tecnologia Windows Presentation Foundation(WPF), C# e R como linguagens de programação. O ambiente de desenvolvimento (Integrated Development Environment - IDE) foi o Microsoft Visual Studio Community 2017. Para realizar o processamento das imagens foram utilizados o OpenCvSharp3, o Microsoft Cognitive Services4, o Face++ Cognitive Services5.

3Implementação em C# do framework OpenCV (https://github.com/shimat/opencvsharp)

4É um conjunto de Application Programming Interface (API), Software Development Kit (SDK) e serviços para

desenvolvimento de aplicações com aprendizagem de máquina (https://www.microsoft.com/cognitive-services/)

5É uma plataforma com serviços relacionados a computação visual que podem serem consumidos por meio de

(35)

4 RESULTADOS

Nesse capítulo são apresentados os resultados obtidos por meio dos experimentos, além dos resultados decorrentes das fases pré-experimentais, descritos na seção 3. Os resultados estão divididos em 3 partes, sendo a 1ae 2apilares para execução da 3a.

4.1 REVISÃO DE LITERATURA E TRABALHOS RELACIONADOS

Foram encontrados 191 artigos que, após a terceira fase da estratégia de revisão, foram agrupados pelo contexto. A representação desse resultado foi feita por meio de um mapa mental. No centro está a string de busca e os nós são os grupos gerados até chegar nas folhas, que são os artigos (figura 10).

Por conta da quantidade de conteúdo no mapa mental, o mesmo foi detalhado no apêndice A. Foram geradas figuras com os agrupamentos individuais, podendo, assim, serem visualizados com mais detalhes.

Após realizar a leitura de todos os artigos, não foi possível identificar trabalhos com alto grau de proximidade com o presente trabalho. Foram encontrados apenas trabalhos que utilizam o mesmo conceito de técnicas para a detecção dos pontos de referências faciais, mas com objetivos totalmente diferentes deste. Nesta seção, será apresentado um resumo dos trabalhos relacionados a este projeto.

(36)

Figura 10: Mapa mental da revisão. Fonte: Autoria própria.

(37)

4.1.1 TRABALHOS RELACIONADOS

Ghimire et al. (2015) propôs uma novo método para reconhecimento expressões faciais, a partir da extração de características triangulares geradas pelos pontos de referências faciais. Para a detecção dos pontos de referências faciais é utilizado o Elastic Bunch Graph Matching(EBGM). As características triangulares são selecionadas a partir de grandes conjuntos de características, utilizando o AdaBoost. Para fazer a classificação, é utilizado o Support Vector Machine (SVM), que em alguns dos experimentos chegou a ter 100% de acurácia detectando uma expressão de felicidade, e 85% como pior resultado para expressão de medo. Para os experimentos foram utilizados os conjuntos de dados Extended Cohn-Kande (CK+) e o Multimedia Understanding Group (MUG).

Suk e Prabhakaran (2014) apresentam um aplicativo para dispositivos móveis, que reconhece até 6 expressões faciais. Para realizar a detecção dos pontos de referências faciais, é utilizado o Active Shape Model (ASM) e, a partir dos pontos, são geradas características dinâmicas das discrepâncias entre as características normais e no momento da expressão facial. Nele, a classificação é realizada utilizando o SVM. Para os treinamentos realizados durante os experimentos, foram utilizados vídeos, e a acurácia chegou em 86%. O conjunto de dados utilizados foi o CK+.

Liang et al. (2014) propõe um método para correção de pele, iluminação e cor, com o objetivo de deixar a face mais bonita em fotos de forma automática. O método consiste em decompor a face em três camadas: iluminação, detalhes e cores. Após essa decomposição, são extraídos os pontos de referências faciais para, então, gerar uma máscara das três camadas, na qual é aplicado um filtro para correção da iluminação, um para borrar os detalhes da pele (passa-baixo) e outro para correção das cores. Para detecção da face, utiliza-se o Viola-Jones, e para detectar os pontos de referências é utilizado o ASM. Os conjuntos de dados utilizados foram o Caltech e o Lifespan (MINEAR; PARK, 2004).

Sukno et al. (2015) apresenta um método para detecção automática dos pontos de referências faciais em modelos 3D, além de gerar os pontos faltantes, visando a utilização dos pontos como descritores para reconhecimento facial. A técnica utilizada para detecção dos pontos é chamada pelos autores de Shape Regression with Incomplete Local Features (SRILF). Essa técnica é comparada com outras técnicas da literatura, e os resultados apresentados são superiores em relação a acurácia da detecção.

Dong et al. (2014) apresenta um método para classificação de parentesco com base no reconhecimento facial. O método é divido em três partes, sendo a primeira a detecção dos

(38)

pontos de referências faciais, depois a extração de características e por fim, a classificação. São extraídas características a partir do Histogram of Gradient (HOG), Scale-Invariant Feature Transform (SIFT) e Four-Patch Local Binary Pattern (FPLBP) e gerado um vetor com todas essas medidas. A classificação é realizada com o SVM e os experimentos são realizados no conjunto de dados CMU MultiPIE e Cornell Family 101.

Happy e Routray (2015) apresentam uma classificação de expressões faciais, que a partir do pontos de referências faciais, gera um vetor de características e as classifica. Após detectar os pontos de referências faciais, são geradas pequenas regiões e calculado o histograma com a técnica Pyramid of Histogram of Gradients (PHOG); também são gerados os histogramas para pontos detectados pelo LBP. Os conjuntos de dados utilizados para os experimentos foram o JAFFE e o CK+.

Bonnen et al. (2013) propõe um método para fazer o alinhamento e a representação de faces baseados em componentes. Na fase inicial do método é realizada a detecção dos pontos de referências da face, utilizando o ASM, por meio de uma implementação chamada PittPatt’s Face Recognition SDK, da empresa Pittsburgh Pattern Recognition, que trabalhava com desenvolvimento de tecnologias para reconhecimento facial e foi adquirida pelo Google em 22 de julho de 2011. Após a identificação dos pontos, é utilizada a análise Procrustes para alinhamento das faces. São realizados testes com o FaceVACS SDK, que também tem a funcionalidade de alinhamento de face, e os resultados apresentados apontam que, no método proposto, a acurácia é melhor em menor tempo de processamento. O conjuntos de dados utilizado foi o Labeled Faces in the Wild (LFW).

Algo comum em todos os trabalhos citados foi a utilização dos pontos de referências faciais para diversos fins, mostrando, assim, que sua utilização é extremamente útil e válida. Outro ponto em comum, inclusive entre os trabalhos citados, são as técnicas para detecção dos pontos de referências e os conjuntos de dados utilizados. Deve-se salientar a ampla utilização dos pontos de referências faciais em trabalhos ligados a reconhecimento facial e de expressões faciais, o que indica uma boa utilização para esse domínio.

A terceira fase desse trabalho, que é a geração do vetor único de características, a fim de utiliza-lo no processo de agrupamento, compartilha alto grau de proximidade com o trabalho de Sukno et al. (2015). Entretanto, neste trabalho o vetor único de características é utilizado exclusivamente para realizar agrupamentos e no trabalho citado é utilizado no processo de reconhecimento facial.

(39)

4.1.2 CONJUNTOS DE DADOS

A partir da revisão de literatura, também foi possível identificar os conjuntos de dados a serem utilizados nos experimentos. Conforme descrito na seção 3.2, foram identificados 47 conjuntos de dados, que somam aproximadamente 225 mil imagens. Esses conjuntos são apresentados nas tabelas 2, 3, 4, 5 e 6. Algumas informações nas tabelas estão em branco, por não terem sido disponibilizadas pelos autores dos conjuntos de dados.

(40)

T abela 2: Conjuntos de dados encontrados na re visão. P arte 1 Nome Quantidade de imagens Indi víduos Se xo Masculino Se xo Feminino Expressões faciais Posições da câmera Condições de iluminação F onte 1 Color FERET Database 14.126 1.199 (PHILLIPS et al., 2000) 2 SCf ace -Surv eillance Cameras F ace Database 4.160 130 115 15 2 12 7 (T OME et al., 2013) 3 CMU Multi-PIE F ace Database 750.000 337 6 15 19 (GR OSS et al., 2010) 4 Y ale F ace Database 165 15 14 1 6 1 3 (GEORGHIADES et al., 1997) 5 Y ale F ace Database B 16.128 28 21 7 1 9 64 (GEORGHIADES et al., 1997) 6 PIE Database 41.368 68 1 13 43 (SIM et al., 2002) 7 The ORL Database of F aces 400 97 35 5 2 10 2 (SAMARIA; HAR TER, 1994) 8 Cohn-Kanade AU-Coded F acial Expression Database 8.795 123 32 65 N N 1 (LUCEY et al., 2010) 9 Cohn-Kanade AU-Coded F acial Expression Database+ 10.727 123 40 83 N N 1 (LUCEY et al., 2010) 10 MIT -CBCL 3.240 10 7 3 1 N 6 (WEYRA UCH et al., 2004) F onte: A utoria própria.

(41)

T abela 3: Conjuntos de dados encontrados na re visão. P arte 2 Nome Quantidade de imagens Indi víduos Se xo Masculino Se xo Feminino Expressões faciais Posições da câmera Condições de iluminação F onte 11 F ace Recognition Data 7.900 20 1 1 (HOND; SP A CEK, 1997) 12 NIST Mugshot Identification Database 1.651 1.573 78 (NIST. .. , 2017) 13 CASIA F ace Image Database V ersion 5.0 2.500 3 (CASIA. .. , 2017) 14 M2VTS Multimodal Face Database 3.540 1 2 2 (MA T AS et al., 2000) 15 AR F ace Database 4.000 126 70 56 26 13 (MAR TINEZ; BEN A VENTE, 1998) 16 The Uni v ersity of Oulu Ph ysics-Based F ace Database 2.000 1 1 16 (SORIANO et al., 2000) 17 CAS-PEAL F ace Database 99.594 1.040 595 445 9 15 (GA O et al., 2008) 18 The Japanese Female F acial

Expression (JAFFE) Database

213 10 10 22 1 1 (L Y ONS et al., 1998b) 19 Caltech F aces 450 N 1 N (F A CES, 1999) F onte: A utoria própria.

(42)

T abela 4: Conjuntos de dados encontrados na re visão. P arte 3 Nome Quantidade de imagens Indi víduos Se xo Masculino Se xo Feminino Expressões faciais Posições da câmera Condições de iluminação F onte 20 BioID F ace Database 1.521 9 1 1 (FRISCHHOLZ; DIECKMANN, 2000) 21 2D face sets Aberdeen 2.777 3 8 2 (2D. .. , 2017) 22 2D face sets Iranian w omen 369 34 34 2 5 1 (2D. .. , 2017) 23 2D face sets Nottingham scans 100 100 50 50 1 1 1 (2D. .. , 2017) 24 2D face sets Nott faces originals 495 1 2 1 (2D. .. , 2017) 25 2D face sets Stirling faces 312 35 17 18 3 3 1 (2D. .. , 2017) 26 2D face sets P ain expressions 599 23 10 13 24 3 1 (2D. .. , 2017) 27 2D face sets P ain expression subset 84 12 12 7 1 1 (2D. .. , 2017) 28 2D face sets Utrecht ECVP 131 69 49 20 2 1 1 (2D. .. , 2017) 29 The Shef field F ace Database (pre viously: The UMIST F ace Database) 564 1 N 1 (GRAHAM; ALLINSON, 1998) F onte: A utoria própria.

(43)

T abela 5: Conjuntos de dados encontrados na re visão. P arte 4 Nome Quantidade de imagens Indi víduos Se xo Masculino Se xo Feminino Expressões faciais Posições da câmera Condições de iluminação F onte 30 V ALID Database 530 5 4 (FO X et al., 2005) 31 Geor gia T ech F ace Database 750 3 15 1 (NEFIAN, 2013) 32 Indian F ace Database 671 61 39 22 (J AIN; MUKHERJEE, 2002) 33 V idTIMIT Database 103.542 N N 1 (SANDERSON; LO VELL, 2009) 34 Labeled F aces in the W ild 13.000 N 1 N (HU ANG et al., 2007a; LEARNED-MILLER, 2014; HU ANG et al., 2007, 2012) 35 The LFWcrop Database N 1 1 (SANDERSON; LO VELL, 2009; HU ANG et al., 2007b) 36 PUT F ace Database 9.971 (KASINSKI et al., 2008) 37 Plastic Sur gery F ace Database 1.800 (SINGH et al., 2010) 38 The Iranian F ace Database (IFDB) 3.600 (B AST ANF ARD et al., 2007) 39 FEI F ace Database 2.800 1 12 3 (THOMAZ; GIRALDI, 2010) F onte: A utoria própria.

(44)

T abela 6: Conjuntos de dados encontrados na re visão. P arte 5 Nome Quantidade de imagens Indi víduos Se xo Masculino Se xo Feminino Expressões faciais Posições da câmera Condições de iluminação F onte 40 MOBIO -Mobile Biometry F ace and Speech Database 152 100 52 (MCCOOL; MARCEL, 2009) 41 V AD AN A: V ims Appearance Dataset for facial AN Alysis (SOMAN A TH et al., 2011) 42

MORPH Database (Craniof

acial

Longitudinal Morphological Face

Database) 55.134 13.618 11.459 2.159 N 1 1 (RICANEK; TESAF A YE, 2006) 43 YMU (Y ouT ube Mak eup) Dataset YMU 604 (D ANTCHEV A et al., 2012; CHEN et al., 2013) 44 YMU (Y ouT ube Mak eup) Dataset VMU 204 (D ANTCHEV A et al., 2012; CHEN et al., 2013) 45 YMU (Y ouT ube Mak eup) Dataset MIW 154 (D ANTCHEV A et al., 2012; CHEN et al., 2013) 46 F ace Image Project -Data 26.580 (EIDINGER et al., 2014) 47 F aceScrub 107.818 530 265 265 (NG; WINKLER, 2014) F onte: A utoria própria.

(45)

4.2 SOFTWARE DE RECONHECIMENTO/AGRUPAMENTO

Como produto desse trabalho, foi construído um software, chamado FShapeX, a fim de validar o método proposto, que realiza análise em imagens que contenham rostos, processando e classificando-os em grupos maiores. Assim, foi realizado o registro de programa de computador sob o processo no: BR512018000920-4, junto ao Instituto Nacional da Propriedade Industrial (INPI). Como entrada, é possível selecionar uma imagem ou um conjunto de imagens e, após a entrada da(s) imagem(s), é realizado um processamento para identificar e extrair pontos fiduciais dos rostos. A partir dessas informações, o software classifica o(s) indivíduo(s) em grupos semelhantes, por meio dos padrões encontrados. O processo detalhado é descrito na seção 3.3.

A figura 11 apresenta a tela inicial/padrão do software; nela é possível selecionar uma imagem e a classificar, de acordo com a configuração de agrupamento. Como resultado é apresentado um gráfico com os grupos gerados, especificando em qual grupo a imagem se enquadra.

Figura 11: Tela do software: processamento de uma única imagem. Fonte: Autoria própria.

(46)

A figura 12 apresenta a tela do software, na qual é possível gerar um novo conjunto de dados a partir de uma seleção imagens/conjunto de dados.

Figura 12: Tela do software: extração de características e geração de um novo conjunto de dados. Fonte: Autoria própria.

A figura 13 demonstra a tela de configurações; nela, é possível especificar qual o DPI que será utilizado para realizar o processamento, qual a API de detecção e quantos grupos (clusters) serão utilizados pra classificar a imagem de entrada.

(47)

Figura 13: Tela do software: opções de entrada. Fonte: Autoria própria.

4.3 DEFINIÇÃO DOS GRUPOS E PADRÕES

Após processar uma imagem, tem-se como saída um vetor de características que torna aquela imagem única. Esse vetor é composto pelos pontos fiduciais e medidas de distâncias calculadas a partir dos pontos. Todas as imagens de todos os conjuntos de dados passam por esse processo, cujo produto final é um novo conjuntos de dados com 696 vetores únicos.

O vetor é composto por 200 características, e dentre elas estão as posições x,y dos pontos fiduciais dos dois olhos e as distâncias calculadas entre os pontos.

Esse novo conjunto de dados é submetido a um algoritmo em R, no qual os dados são normalizados e agrupados utilizando a função eclust() do pacote factoextra1.

Os resultados são apresentados na tabela 7 e na figura 14. O melhor valor foi de 0.7880 com os algoritmos do tipo hierarchical e kmeans para k=4, e o pior valor foi de 0.3330 com o algoritmo do tipo pam para k=7.

1Pacote que fornece algumas funções para extrair e visualizar a saída e análises de dados multivariados

(48)

Na figura 14 é possível observar as melhores escolhas para o k de 4 a 7.

Tabela 7: Comparação entre 3 algoritmos de agrupamentos utilizando o índice silhouette como critério. Tipo k=2 k=3 k=4 k=5 k=6 k=7 hierarchical 0.7664 0.7716 0.7880 0.7837 0.7822 0.7833 kmeans 0.7644 0.7716 0.7880 0.7841 0.7828 0.7843 pam 0.7644 0.6192 0.6449 0.6624 0.4593 0.4654 k=8 k=9 k=10 k=11 k=12 k=13 k=14 0.7496 0.6250 0.6255 0.6088 0.5184 0.5459 0.5257 0.7228 0.6091 0.6086 0.6071 0.5351 0.4120 0.3833 0.4657 0.4179 0.4013 0.3869 0.3793 0.3642 0.3330

Fonte: Autoria própria.

Figura 14: Comparação entre 3 algoritmos de agrupamentos utilizando o índice silhouette como critério.

Fonte: Autoria própria.

Para chegar na definição de quantos grupos seriam suficientes para representar de forma adequada o conjuntos de dados, foram realizados experimentos com 3 tipos de algoritmos de agrupamento não supervisionados: a) hierarchical; b) kmeans; c) pam. A variação do K foi

(49)

de 2 a 14 para cada tipo de algoritmo, totalizando 39 experimentos. Foi utilizado o índice silhouette para todos os experimentos, como critério de avaliação dos grupos/clusters.

As figuras 15, 17, 19, 21 apresentam os grupos gerados após o processo de agrupamento. Já as figuras 16, 18, 20 e 22 são os dendrogramas dos grupos.

As tabelas 8, 11, 14 e 17 são representações normalizadas dos olhos, de acordo com os grupos gerados. Já as tabelas 9, 12, 15 e 18 são representações em 2D das bordas dos centróides dos grupos.

As tabelas 10, 13, 16 e 19 são as amostras separadas de acordo com os grupos gerados.

Figura 15: Grupos gerados com k=4. Fonte: Autoria própria.

(50)

Figura 16: Dendrograma dos grupos quando k=4. Fonte: Autoria própria.

Tabela 8: Representação normalizada dos grupos quando k=4.

1) 2)

3) 4)

(51)

Tabela 9: Representação 2D dos centróides dos grupos quando k=4.

1) 2)

3) 4)

Fonte: Autoria própria.

Tabela 10: Amostras agrupadas quando k=4.

1) 2)

3) 4)

(52)

Figura 17: Grupos gerados com k=5. Fonte: Autoria própria.

Figura 18: Dendrograma dos grupos quando k=5. Fonte: Autoria própria.

(53)

Tabela 11: Representação normalizada dos grupos quando k=5.

1) 2)

3) 4)

5)

(54)

Tabela 12: Representação 2D dos centróides dos grupos quando k=5.

1) 2)

3) 4)

5)

Fonte: Autoria própria.

Figura 19: Grupos gerados com k=6. Fonte: Autoria própria.

(55)

Tabela 13: Amostras agrupadas quando k=5.

1) 2)

3) 4)

5)

(56)

Figura 20: Dendrograma dos grupos quando k=6. Fonte: Autoria própria.

Figura 21: Grupos gerados com k=7. Fonte: Autoria própria.

(57)

Tabela 14: Representação normalizada dos grupos quando k=6.

1) 2)

3) 4)

5) 6)

(58)

Tabela 15: Representação 2D dos centróides dos grupos quando k=6.

1) 2)

3) 4)

5) 6)

Fonte: Autoria própria.

Figura 22: Dendrograma dos grupos quando k=7. Fonte: Autoria própria.

(59)

Tabela 16: Amostras agrupadas quando k=6.

1) 2)

3) 4)

5) 6)

(60)

Tabela 17: Representação normalizada dos grupos quando k=7.

1) 2)

3) 4)

5) 6)

7)

(61)

Tabela 18: Representação 2D dos centróides dos grupos quando k=7.

1) 2)

3) 4)

5) 6)

7)

(62)

Tabela 19: Amostras agrupadas quando k=7.

1) 2)

3) 4)

5) 6)

7)

(63)

5 CONSIDERAÇÕES FINAIS

O presente trabalho apresentou um método para extração e classificação de elementos da faces humanas, no caso o olho, possibilitando a definição de padrões a partir de um conjunto de dados. A abordagem aplicada proporcionou a visualização dos grupos/tipos de olhos humanos, sendo que as melhores representações para os conjuntos de dados utilizados foram identificadas em 4 grupos.

Semelhante ao trabalho do pesquisador Abraham Tamir (TAMIR, 2011, 2012, 2013), que definiu 14 tipos de nariz humano, os 4 grupos aqui definidos são os mais representativos. Cabe aqui destacar que não foram utilizadas, no presente estudo, imagens artísticas para extração das características.

Uma das hipóteses propostas nesse trabalho foi a possibilidade de existência de grupos dos elementos faciais. No caso do elemento olho, foi possível validar que existem 4 grupos/tipos.

5.1 REGISTRO DE SOFTWARE

Do presente trabalho, derivou um registro de programa de computador sob o processo no: BR512018000920-4, junto ao Instituto Nacional da Propriedade Industrial (INPI).

5.2 PROPOSTAS PARA TRABALHOS FUTUROS

Utilizando o presente trabalho como base, é possível explorar alguns tópicos em trabalhos posteriores, sendo eles:

• Geração de faces 2D com base nas características dos grupos formados;

• Aplicação do método em outros elementos faciais, tais como: nariz e boca;

(64)
(65)

REFERÊNCIAS

2D face sets. Psychological Image Collection at Stirling, Fev 2017. Disponível em: <http://pics.stir.ac.uk>.

ALDENDERFER, M. S.; BLASHELD, R. K. Cluster analysis. [S.l.]: Sage Publications, 1984.

AMBERG, B.; VETTER, T. Optimal landmark detection using shape models and branch and bound. In: 2011 International Conference on Computer Vision. [S.l.: s.n.], 2011. p. 455– 462. ISSN 1550-5499.

AMORIM, R. C. de; HENNIG, C. Recovering the number of clusters in

data sets with noise features using feature rescaling factors. Information Sciences, v. 324, p. 126 – 145, 2015. ISSN 0020-0255. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0020025515004715>.

BASTANFARD, A.; NIK, M. A.; DEHSHIBI, M. M. Iranian face database with age, pose and expression. In: IEEE. Machine Vision, 2007. ICMV 2007. International Conference on. [S.l.], 2007. p. 50–55.

BEYMER, D. J. Face Recognition Under Varying Pose. [S.l.], 1993.

BONNEN, K.; KLARE, B. F.; JAIN, A. K. Component-based representation in automated face recognition. IEEE transactions on information forensics and security, IEEE, v. 8, n. 1, p. 239–253, 2013.

BRILHADOR, A. et al. Combining texture and shape descriptors for bioimages classification: A case of study in imageclef dataset. In: Proceedings, Part I, of the 18th Iberoamerican Congress on Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications - Volume 8258. New York, NY, USA: Springer-Verlag New York, Inc., 2013. (CIARP 2013), p. 431–438. ISBN 978-3-642-41821-1.

CANNY, J. A computational approach to edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-8, n. 6, p. 679–698, Nov 1986. ISSN 0162-8828.

CASIA Face image database Version 5.0. Chinese Academy of Sciences, Fev 2017. Disponível em: <http://biometrics.idealtest.org>.

CHEN, C.; DANTCHEVA, A.; ROSS, A. Automatic facial makeup detection with application in face recognition. In: IEEE. Biometrics (ICB), 2013 International Conference on. [S.l.], 2013. p. 1–8.

DANTCHEVA, A.; CHEN, C.; ROSS, A. Can facial cosmetics affect the matching accuracy of face recognition systems? In: IEEE. Biometrics: Theory, Applications and Systems (BTAS), 2012 IEEE Fifth International Conference on. [S.l.], 2012. p. 391–398.

DONG, J. et al. Kinship classification based on discriminative facial patches. In: IEEE. Visual Communications and Image Processing Conference, 2014 IEEE. [S.l.], 2014. p. 157–160.

(66)

EIDINGER, E.; ENBAR, R.; HASSNER, T. Age and gender estimation of unfiltered faces. IEEE Transactions on Information Forensics and Security, IEEE, v. 9, n. 12, p. 2170–2179, 2014.

FACES, C. Database-http://www. vision. caltech. edu. Image Datasets/faces, 1999.

FARIA, D. R. Reconhecimento de impressões digitais com baixo custo computacional para um sistema de controle de acesso. Tese (Doutorado) — Universidade Federal do Paraná, 2005.

FELIZARDO, K. et al. Using visual text mining to support the study selection activity in systematic literature reviews. In: 5th Int. Symposium on Empirical Software Engineering and Measurement (ESEM’11). [S.l.: s.n.], 2011. p. 1–10.

FILHO, O. M.; NETO, H. V. Processamento digital de imagens. [S.l.]: Brasport, 1999 p.61. 61 p.

FOX, N. A.; O’MULLANE, B. A.; REILLY, R. B. The realistic multi-modal valid database and visual speaker identification comparison experiments. In: 5th International Conference on Audio-and Video-Based Biometric Person Authentication. [S.l.: s.n.], 2005.

FREUND, Y.; SCHAPIRE, R. E. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci., Academic Press, Inc., Orlando, FL, USA, v. 55, n. 1, p. 119–139, ago. 1997. ISSN 0022-0000.

FRISCHHOLZ, R. W.; DIECKMANN, U. Biold: a multimodal biometric identification system. Computer, IEEE, v. 33, n. 2, p. 64–68, 2000.

GAO, W. et al. The cas-peal large-scale chinese face database and baseline evaluations. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, IEEE, v. 38, n. 1, p. 149–161, 2008.

GEORGHIADES, A.; BELHUMEUR, P.; KRIEGMAN, D. Yale face database.

Center for computational Vision and Control at Yale University, http://cvc. yale. edu/projects/yalefaces/yalefa, v. 2, 1997.

GHIMIRE, D. et al. Recognition of facial expressions based on tracking and selection of discriminative geometric features. Int. J. Multimedia Ubiquitous Eng, v. 10, n. 3, p. 35–44, 2015.

GRABUSTS, P. The choice of metrics for clustering algorithms. In: Environment. Technology. Resources. Proceedings of the International Scientific and Practical Conference. [S.l.: s.n.], 2015. v. 2, p. 70–76.

GRAHAM, D. B.; ALLINSON, N. M. Characterising virtual eigensignatures for general purpose face recognition. In: Face Recognition. [S.l.]: Springer, 1998. p. 446–456.

GROSS, R. et al. Multi-pie. Image and Vision Computing, Elsevier, v. 28, n. 5, p. 807–813, 2010.

HAPPY, S.; ROUTRAY, A. Robust facial expression classification using shape and appearance features. In: IEEE. Advances in Pattern Recognition (ICAPR), 2015 Eighth International Conference on. [S.l.], 2015. p. 1–5.

Referências

Documentos relacionados

Os dados de incidência foram obtidos do RCPB de Fortaleza a partir do sistema basepopWeb (INSTITUTO NACIONAL DE CÂNCER, 2010), sendo coletados: o número de casos novos

Mesmo com suas ativas participações na luta política, as mulheres militantes carregavam consigo o signo do preconceito existente para com elas por parte não somente dos militares,

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

A pesquisa pode ser caracterizada como exploratória e experimental em uma primeira etapa (estudo piloto), na qual foram geradas hipóteses e um conjunto de observáveis, variáveis

Mas há nesta formulação (neste paradigma) um grave erro – pois mais servidores públicos com formação em Engenharia, Arquitetura e Agronomia na

São Tomé e Príncipe, pertence às seguintes organizações: Banco Africano para o Desenvolvimento, Aliança dos Pequenos Estados Insulares, União Africana, Comunidade dos Países

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

Realizar a manipulação, o armazenamento e o processamento dessa massa enorme de dados utilizando os bancos de dados relacionais se mostrou ineficiente, pois o