• Nenhum resultado encontrado

Reconhecimento de expressões faciais utilizando estimação de movimento

N/A
N/A
Protected

Academic year: 2021

Share "Reconhecimento de expressões faciais utilizando estimação de movimento"

Copied!
141
0
0

Texto

(1)

HEMIR DA CUNHA SANTIAGO

RECONHECIMENTO DE EXPRESSÕES FACIAIS

UTILIZANDO ESTIMAÇÃO DE MOVIMENTO

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

RECIFE

2017

(2)

RECONHECIMENTO DE EXPRESSÕES FACIAIS

UTILIZANDO ESTIMAÇÃO DE MOVIMENTO

Tese apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Doutor em Ciência da Computação.

Orientador: Prof. Dr. Tsang Ing Ren

Recife 2017

(3)

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

S235r Santiago, Hemir da Cunha

Reconhecimento de expressões faciais utilizando estimação de movimento / Hemir da Cunha Santiago. – 2017.

140 f.: il., fig., tab.

Orientador: Tsang Ing Ren.

Tese (Doutorado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, Recife, 2017.

Inclui referências.

1. Inteligência artificial. 2. Processamento de imagens. I. Ren, Tsang Ing (orientador). II. Título.

006.31 CDD (23. ed.) UFPE- MEI 2017-82

(4)

Hemir da Cunha Santiago

Reconhecimento de Expressões Faciais Utilizando Estimação de Movimento

Tese de Doutorado apresentada ao Programa

de

Pós-Graduação

em

Ciência

da

Computação da Universidade Federal de

Pernambuco, como requisito parcial para a

obtenção do título de Doutora em Ciência da

Computação

Aprovado em: 07/02/2017.

__________________________________________________

Orientador: Prof. Dr. Tsang Ing Ren

BANCA EXAMINADORA

________________________________________________

Prof. Dr. Cleber Zanchettin

Centro de Informática / UFPE

________________________________________________

Prof. Dr. Carlos Alexandre Barros de Mello

Centro de Informática / UFPE

_________________________________________________

Prof. Dr. Francisco Madeiro Bernardino Júnior

Escola Politécnica de Pernambuco / UPE

_______________________________________________________

Prof. Dr. Hae Yong Kim

Departamento de Engenharia de Sistemas e Eletrônicos/USP

_________________________________________________________________

Prof. Dr. Robson Cavalcanti Lins

(5)

Agradeço a todos os amigos e colegas que me ajudaram na realização deste trabalho e também aos que me incentivaram e me apoiaram durante o curso de doutorado. Par-ticularmente, agradeço ao amigo e colega de trabalho Guilherme Melo, pelas conversas e discussões que tiveram contribuição significativa neste trabalho.

Em especial, agradeço ao professor Dr. Tsang Ing Ren, meu orientador, pela sua dedica-ção, pela sua orientadedica-ção, pela sua paciência e por tudo o que eu pude aprender com ele nas áreas de Processamento de Imagens, Inteligência Computacional e na vida acadêmica.

Faço um agradecimento especial também aos meus pais, Dalva e Hemir, que sempre acreditaram em mim, pelo incentivo ao estudo e à formação profissional.

Também agradeço à minha esposa Cristina pelo apoio, pela paciência e por ser extre-mamente solidária nos momentos mais importantes para que eu conseguisse cumprir os prazos regimentais do curso.

Finalmente, agradeço ao meu pequeno filho Benjamin que por muitas vezes abriu mão da atenção do seu pai quando este precisou se dedicar às atividades deste doutorado.

(6)

tempo, as pessoas nascem, riem, choram, lutam, são feridas, sentem alegria, tristeza, odeiam alguém, amam alguém... Tudo em um só momento."

(7)

As expressões faciais fornecem informações sobre a resposta emocional e exercem um pa-pel fundamental na interação humana e como forma de comunicação não-verbal. Contudo, o reconhecimento das expressões ainda é algo considerado complexo para o computador. Neste trabalho, propomos um novo extrator de características que utiliza a estimação de movimento para o reconhecimento de expressões faciais. Nesta abordagem, o movimento facial entre duas expressões é codificado usando uma estimação dos deslocamentos de re-giões entre duas imagens, que podem ser da mesma face ou de faces similares. A imagem da expressão facial é comparada a outra imagem mais similar em cada expressão facial da base de treinamento, a maior similaridade é obtida usando a medida de Similaridade Estru-tural (SSIM - StrucEstru-tural Similarity Index). Após a identificação das imagens mais similares na base de treinamento, são calculados os vetores de movimento entre a imagem cuja ex-pressão facial será reconhecida e a outra mais similar em uma das expressões da base. Para calcular os vetores de movimento é proposto o algoritmo MARSA (Modified Adaptive

Reduc-tion of the Search Area). Todos os vetores de movimento são comparados às coordenadas com as maiores ocorrências dentre todos os vetores de movimento obtidos durante a fase de trei-namento, a partir dessa comparação são gerados os vetores de características que servem de dados de entrada para uma SVM (Support Vector Machine), que irá realizar a classificação da expressão facial. Diversas bases de imagens e vídeos de faces, reproduzindo expressões faciais, foram utilizadas para os experimentos. O critério adotado para a escolha das ba-ses foi a frequência com que são utilizadas em outros trabalhos do estado da arte, portanto foram escolhidas: Cohn-Kanade (CK), Extended Cohn-Kanade (CK+), Japanese Female Facial

Ex-pression(JAFFE), MMI e CMU Pose, Illumination, and Expression (CMU-PIE). Os resultados experimentais demostram taxas de reconhecimento das expressões faciais compatíveis a outros trabalhos recentes da literatura, comprovando a eficiência do método apresentado.

Palavras-chave: Extração de característica. Casamento de blocos. Estimação de movimento.

(8)

Facial expressions provide information on the emotional response and play an essential role in human interaction and as a form of non-verbal communication. However, the recog-nition of expressions is still something considered complex for the computer. In this work, it is proposed a novel feature extractor that uses motion estimation for Facial Expression Recognition (FER). In this approach, the facial movement between two expressions is co-ded using an estimation of the region displacements between two images, which may be of the same face or the like. The facial expression image is compared to another more similar image in each facial expression of the training base, the best match is obtained using the Structural Similarity Index (SSIM). After identifying the most similar images in the training base, the motion vectors are calculated between the reference image and the other more si-milar in one of the expressions of the base. To calculate the motion vectors is proposed the MARSA (Modified Adaptive Reduction of the Search Area) algorithm. All motion vectors are compared to the coordinates with the highest occurrences of all motion vectors obtai-ned during the training phase, from this comparison the feature vectors are generated that serve as input data for a SVM (Support Vector Machine), which will perform the classifi-cation of facial expression. Several databases of images and videos of faces reproducing facial expressions were used for the experiments, the adopted criteria for selection of the bases was the frequency which they are used in the state of the art, then were chosen:

Cohn-Kanade(CK), Extended Cohn-Kanade (CK+), Japanese Female Facial Expression (JAFFE), MMI, and CMU Pose, Illumination, and Expression (CMU-PIE). The experimental results demons-trate that the recognition rates of facial expressions are compatible to recent literature works proving the efficiency of the presented method.

Keywords: Feature extraction. Block matching. Motion Estimation. Facial Expression

(9)

1.1 Comparação entre técnicas padrões de reconhecimento e Deep Learning. Fonte: [1] . . . 20 2.1 Um sistema genérico de reconhecimento de expressões faciais. Fonte: autor. . 26 2.2 Faces da base de imagens JAFFE. Fonte: [2]. . . 28 2.3 Exemplo de sequência da base CK partindo da expressão neutra (esquerda)

para a expressão medo (direita). Fonte: [3]. . . 28 2.5 Exemplo de sequência da base CK+ partindo da expressão neutra (esquerda)

para a expressão de desprezo (direita). Fonte: [4]. . . 28 2.4 Faces da base de imagens CK. ”sem imagem” indica que o indivíduo não

possui imagem para aquela expressão na base. Fonte: [3]. . . 29 2.6 Exemplo de sequência da base MMI partindo da expressão neutra (esquerda)

para a expressão de nojo (direita). Fonte: [5]. . . 29 2.7 Frames da base de vídeos MMI. ”sem imagem” indica que o indivíduo não

possui imagem para aquela expressão na base. Fonte: [5]. . . 30 2.8 Exemplo de imagens da base CMU-PIE, da esquerda para a direita e de cima

para baixo as imagens das câmeras: 05, 07, 09, 27 e 29. Fonte: [6]. . . 31 2.9 Linha do tempo das bases de imagens de faces. As bases sublinhadas foram

utilizadas nos experimentos deste trabalho. Fonte: autor. . . 32 2.10 Um sistema genérico de detecção de faces. Fonte: autor. . . 33 2.11 Exemplos de detecção de faces e carros. Fonte: [7]. . . 34 2.12 Cima: modelo do CANDIDE-1. Baixo: modelo do CANDIDE-2. Fonte: [8]. . . 35 2.13 Saída do detector de Viola e Jones em algumas imagens de testes. Fonte: [9]. . 37 2.14 Sequência de testes do descritor CNN em cascata: da esquerda pada a

di-reita, como as janelas de detecção são reduzidas e calibradas em cada estágio. Fonte: [10]. . . 38 2.15 Linha do tempo das técnicas de detecção de faces. A técnica sublinhada foi

utilizada nos experimentos deste trabalho. Fonte: autor. . . 38 2.16 Distribuição de brilho ao longo de uma linha vertical cruzando a íris. Fonte:

[11]. . . 39 2.17 13 linhas verticais para obtenção das informações faciais. Fonte: [11]. . . 40 2.18 Modelos de componentes faciais multi-estado de uma face na posição frontal.

(10)

2.21 Modelo dos pontos-chave faciais. Fonte: [15]. . . 43 2.22 (a) Características extraídas dos olhos, das sobrancelhas e do queixo (b)

Ca-racterísticas extraídas da boca e dos lábios. Fonte: [16]. . . 44 2.23 Um exemplo do método de particionamento de regiões faciais: a imagem da

face dividida em 1, 4, 16 e 64 sub-regiões faciais. Fonte: [17]. . . 45 2.24 Exemplo de 49 pontos faciais de referência localizados por ASM (active shape

model). Fonte: [18]. . . 46 2.25 Linha do tempo das técnicas de extração baseadas em características

geomé-tricas. Fonte: autor. . . 46 2.26 Amostras de imagens extraídas da base de imagens JAFFE e respectivas

ca-racterísticas extraídas (olhos e boca). Fonte: [19]. . . 47 2.27 Exemplo de características Haar-like sobrepostas em uma imagem de face.

Fonte: [20]. . . 48 2.28 (Esquerda) Uma face dividida em 6×7 sub-regiões. (Direita) Quadrados

pretos indicam peso 0, cinza escuros 1, cinza claros 2 e brancos 4. Fonte: [21]. 49 2.29 Resultados da detecção de bordas usando o algoritmo de Canny. Fonte: [22]. . 50 2.30 Descritor de face LSDP. Fonte da Imagem: [23] . . . 50 2.31 Ilustração de uma decomposição 4 escalas de Curvelet. Fonte da Imagem: [24] 52 2.32 Representações de planos de bits de imagem de face. Fonte da Imagem: [25] . 53 2.33 Linha do tempo das técnicas de extração de características de aparência. Fonte:

autor. . . 54 2.34 Amostras de saídas do sistema para um segmento de 10 segundos de vídeo,

contendo as AUs: 1, 2, 6 e 9. Com início, ápice e fim das AUs. Fonte: [26]. . . 56 2.35 Linha do tempo das técnicas de classificação utilizadas no reconhecimento de

expressões faciais. O trabalho sublinhado descreve o classificador utilizado nos experimentos desta tese. Fonte: autor. . . 59 3.1 Sistema desenvolvido para o reconhecimento de expressões faciais. Fonte:

autor. . . 63 3.2 Imagens da base Cohn-Kanade Extendida (CK+) convertidas para níveis de

cinza. Fonte: autor. . . 64 3.3 Imagens da base Cohn-Kanade (CK) e respectivas faces recortadas utilizando

a localização dos olhos implementada pelos filtros ASEF. Fonte: autor. . . 64 3.4 Treinamento dos filtros ASEF. Fonte: [27] . . . 65 3.5 A imagem do centro representa a imagem-referência. As demais imagens

representam as melhores comparações em cada expressão facial da base de imagens Cohn-Kanade. Fonte: autor. . . 67 3.6 Exemplo de como os MVs são calculados entre a imagem-referência e a

(11)

3.8 Procedimento para classificação de informação de bloco. Fonte: [28]

(modifi-cada pelo autor). . . 74

3.9 Regiões da face selecionadas para a extração de características faciais, consi-derando a proporcionalidade da distância entre os olhos e entre cada olho e a boca. Fonte: autor. . . 75

3.10 Regiões da face selecionadas para a extração de características faciais. Uma imagem de cada base (da esquerda para a direita): CK, JAFFE, MMI, CK+ e CMU-PIE. Fonte: autor. . . 76

3.11 O algoritmo Modificado de Redução Adaptativa da Área de Busca (MARSA). Fonte: autor. . . 77

3.12 As cinco fases do treinamento. Fonte: autor. . . 78

3.13 Busca da imagem mais similar em cada expressão facial. Fonte: autor. . . 79

3.14 Representação do MV. Fonte: autor. . . 79

3.15 Framework de testes. Fonte: autor. . . 82

3.16 Visão do hiperplano separador de classes na SVM linear. Fonte: autor. . . 84

3.17 Visão geral do classificador em aprendizado supervisionado. Fonte: autor. . . 85

3.18 Conjunto de dados não linear. Fonte: autor. . . 85

4.1 Validação Cruzada 10-folds. Fonte: autor. . . 89

4.2 Taxas de reconhecimento para cada expressão facial da base JAFFE. Fonte: autor. . . 93

4.3 Quantidade de HOVs X Respectivas taxas médias de acertos no reconheci-mento de expressões faciais na base de imagens JAFFE. Fonte: autor. . . 94

4.4 Taxas de reconhecimento para cada expressão facial da base CK. Fonte: autor. 99 4.5 Quantidade de HOVs X Respectivas taxas médias de acertos no reconheci-mento de expressões faciais na base de imagens CK. Fonte: autor. . . 100

4.6 Taxas de reconhecimento para cada expressão facial da base CK+. Fonte: autor.106 4.7 Quantidade de HOVs X Respectivas taxas médias de acertos no reconheci-mento de expressões faciais na base de imagens CK+. Fonte: autor. . . 106

4.8 Taxas de reconhecimento para cada expressão facial da base MMI. Fonte: autor.111 4.9 Quantidade de HOVs X Respectivas taxas médias de acertos no reconheci-mento de expressões faciais na base de imagens e vídeos MMI. Fonte: autor. . 112

4.10 Imagens de faces segmentadas da base CMU-PIE. Fonte: autor. . . 115

4.11 Taxas de reconhecimento para cada expressão facial da base CMU-PIE. Fonte: autor. . . 117

4.12 Quantidade de coordenadas de maiores ocorrências nos vetores de movi-mento x Respectivas taxas de reconhecimovi-mento da expressões faciais na base de imagens CMU-PIE. Fonte: autor. . . 117

(12)

1.1 Exemplos de aplicações de reconhecimento de expressões faciais . . . 19 3.1 Para cada imagem, um MV para cada expressão da base de treinamento. . . . 79 3.2 Representação dos HOVs de cada expressão facial da base de treinamento. . 80 3.3 Cálculo do HOV para a base de imagens alegria. . . 80 3.4 Cálculo do EDV para cada imagem da base de treinamento. . . 81 3.5 Cálculo do FV para uma imagem da base de treino. . . 81 4.1 Tempos de detecção e recorte da face usando os filtros ASEF para cada base

e para cada imagem utilizada nos experimentos. . . 90 4.2 Tempos de busca da imagem de maior semelhança usando a função SSIM

para cada base e para cada imagem utilizada nos experimentos. . . 90 4.3 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,

utilizando 1 HOV. . . 91 4.4 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,

utilizando 2 HOVs. . . 91 4.5 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,

utilizando 4 HOVs. . . 91 4.6 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,

utilizando 6 HOVs. . . 92 4.7 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,

utilizando 8 HOVs. . . 92 4.8 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,

utilizando 10 HOVs. . . 92 4.9 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,

utilizando 12 HOVs. . . 93 4.10 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,

utilizando 14 HOVs. . . 93 4.11 Taxas médias de reconhecimento dos algoritmos de estimação de movimento

para tamanhos diferentes de blocos, utilizando a base JAFFE. . . 95 4.12 Tempos de processamento dos algoritmos de estimação de movimento para

(13)

4.14 Matriz de confusão do reconhecimento de expressões faciais na base CK, uti-lizando 2 HOVs. . . 97 4.15 Matriz de confusão do reconhecimento de expressões faciais na base CK,

uti-lizando 4 HOVs. . . 97 4.16 Matriz de confusão do reconhecimento de expressões faciais na base CK,

uti-lizando 6 HOVs. . . 98 4.17 Matriz de confusão do reconhecimento de expressões faciais na base CK,

uti-lizando 8 HOVs. . . 98 4.18 Matriz de confusão do reconhecimento de expressões faciais na base CK,

uti-lizando 10 HOVs. . . 98 4.19 Matriz de confusão do reconhecimento de expressões faciais na base CK,

uti-lizando 12 HOVs. . . 99 4.20 Matriz de confusão do reconhecimento de expressões faciais na base CK,

uti-lizando 14 HOVs. . . 99 4.21 Taxas médias de reconhecimento dos algoritmos de estimação de movimento

para tamanhos diferentes de blocos, utilizando a base CK. . . 101 4.22 Tempos de processamento dos algoritmos de estimação de movimento para

tamanhos diferentes de blocos, utilizando a base CK. . . 102 4.23 Matriz de confusão do reconhecimento de expressões faciais na base CK+,

utilizando 1 HOV. . . 103 4.24 Matriz de confusão do reconhecimento de expressões faciais na base CK+,

utilizando 2 HOVs. . . 103 4.25 Matriz de confusão do reconhecimento de expressões faciais na base CK+,

utilizando 4 HOVs. . . 103 4.26 Matriz de confusão do reconhecimento de expressões faciais na base CK+,

utilizando 6 HOVs. . . 104 4.27 Matriz de confusão do reconhecimento de expressões faciais na base CK+,

utilizando 8 HOVs. . . 104 4.28 Matriz de confusão do reconhecimento de expressões faciais na base CK+,

utilizando 10 HOVs. . . 104 4.29 Matriz de confusão do reconhecimento de expressões faciais na base CK+,

utilizando 12 HOVs. . . 105 4.30 Matriz de confusão do reconhecimento de expressões faciais na base CK+,

utilizando 14 HOVs. . . 105 4.31 Taxas médias de reconhecimento dos algoritmos de estimação de movimento

para tamanhos diferentes de blocos, utilizando a base CK+. . . 107 4.32 Tempos de processamento dos algoritmos de estimação de movimento para

tamanhos diferentes de blocos, utilizando a base CK+. . . 108 4.33 Matriz de confusão do reconhecimento de expressões faciais na base MMI,

(14)

4.35 Matriz de confusão do reconhecimento de expressões faciais na base MMI, utilizando 4 HOVs. . . 109 4.36 Matriz de confusão do reconhecimento de expressões faciais na base MMI,

utilizando 6 HOVs. . . 110 4.37 Matriz de confusão do reconhecimento de expressões faciais na base MMI,

utilizando 8 HOVs. . . 110 4.38 Matriz de confusão do reconhecimento de expressões faciais na base MMI,

utilizando 10 HOVs. . . 110 4.39 Matriz de confusão do reconhecimento de expressões faciais na base MMI,

utilizando 12 HOVs. . . 111 4.40 Matriz de confusão do reconhecimento de expressões faciais na base MMI,

utilizando 14 HOVs. . . 111 4.41 Taxas médias de reconhecimento dos algoritmos de estimação de movimento

para tamanhos diferentes de blocos, utilizando a base MMI. . . 113 4.42 Tempos de processamento dos algoritmos de estimação de movimento para

tamanhos diferentes de blocos, utilizando a base MMI. . . 114 4.43 Matriz de confusão do reconhecimento de expressões faciais na base

CMU-PIE, utilizando 1 HOV. . . 115 4.44 Matriz de confusão do reconhecimento de expressões faciais na base

CMU-PIE, utilizando 2 HOVs. . . 115 4.45 Matriz de confusão do reconhecimento de expressões faciais na base

CMU-PIE, utilizando 4 HOVs. . . 115 4.46 Matriz de confusão do reconhecimento de expressões faciais na base

CMU-PIE, utilizando 6 HOVs. . . 116 4.47 Matriz de confusão do reconhecimento de expressões faciais na base

CMU-PIE, utilizando 8 HOVs. . . 116 4.48 Matriz de confusão do reconhecimento de expressões faciais na base

CMU-PIE, utilizando 10 HOVs. . . 116 4.49 Matriz de confusão do reconhecimento de expressões faciais na base

CMU-PIE, utilizando 12 HOVs. . . 116 4.50 Matriz de confusão do reconhecimento de expressões faciais na base

CMU-PIE, utilizando 14 HOVs. . . 116 4.51 Taxas médias de reconhecimento dos algoritmos de estimação de movimento

para tamanhos diferentes de blocos, utilizando a base CMU-PIE. . . 119 4.52 Tempos de processamento dos algoritmos de estimação de movimento para

tamanhos diferentes de blocos, utilizando a base CMU-PIE. . . 119 4.53 Comparação com outros métodos da literatura, utilizando a base de imagens

JAFFE. . . 120 4.54 Comparação com outros métodos da literatura, utilizando a base de imagens

(15)

4.56 Comparação com outros métodos da literatura, utilizando a base de vídeos MMI. . . 124 4.57 Comparação com outros métodos da literatura, utilizando a base de imagens

(16)

1 INTRODUÇÃO . . . 17

1.1 Reconhecimento de Expressões Faciais . . . 18

1.2 Objetivos . . . 21

1.2.1 Objetivos Específicos . . . 22

1.3 Organização da Tese . . . 22

2 REVISÃO DALITERATURA . . . 23

2.1 Sistemas de Reconhecimento de Expressões Faciais . . . 25

2.1.1 Bases de Imagens de Faces . . . 26

2.1.2 Detecção e Rastreamento da Face . . . 32

2.1.3 Extração de Características . . . 38

2.1.4 Classificação . . . 54

3 MÉTODO . . . 60

3.1 Pré-processamento para as Bases de Expressões Faciais . . . 63

3.1.1 Filtros de Correlação ASEF . . . 64

3.2 Busca da Maior Semelhança . . . 66

3.2.1 SSIM - Structural Similarity . . . 67

3.3 Extração de Características . . . 68

3.3.1 Algoritmo de Busca Exaustiva . . . 71

3.3.2 Algoritmo de Redução Adaptativa da Área de Busca . . . 72

3.3.3 Algoritmo Modificado de Redução Adaptativa da Área de Busca . . . 75

3.4 Transformação de Características . . . 77

3.4.1 Treinamento . . . 78

3.4.2 Testes . . . 82

3.5 Classificação . . . 83

3.5.1 SVM - Support Vector Machine . . . 83

4 EXPERIMENTOS ERESULTADOS . . . 87

4.1 Etapas de Pré-processamento . . . 89

4.2 Reconhecimento de Expressões Faciais Utilizando a Base JAFFE . . . 90

4.2.1 Comparação dos algoritmos de estimação de movimento por casamento de blo-cos na base JAFFE . . . 94

(17)

4.3.2 A Segunda Versão da Base Cohn-Kanade: CK+ . . . 102

4.4 Reconhecimento de Expressões Faciais Utilizando a Base MMI . . . 108

4.4.1 Comparação dos algoritmos de estimação de movimento por casamento de blo-cos na base MMI . . . 112

4.5 Reconhecimento de Expressões Faciais Utilizando a Base CMU-PIE . . . 114

4.5.1 Comparação dos algoritmos de estimação de movimento por casamento de blo-cos na base CMU-PIE . . . 118

4.6 Comparação com Outros Métodos . . . 119

5 CONCLUSÕES . . . 127

5.1 Trabalhos Futuros . . . 129

(18)

I

NTRODUÇÃO

"Se cheguei até aqui foi porque me apoiei nos ombros de gigantes."

— Isaac Newton

A

Emoção representa um estado psicológico da mente humana. Pesquisas em diversas

áreas defendem opiniões distintas sobre o processo de desenvolvimento da emo-ção [29]. Alguns filósofos acreditam que a emoemo-ção é resultado de mudanças (positivas ou negativas) em situações pessoais ou no ambiente. Entretanto, alguns biólogos consideram os sistemas nervoso e hormonal como principais responsáveis pelo desenvolvimento das emoções. Embora não haja um consenso sobre o que causa a emoção, é fato que a sua excitação é geralmente acompanhada de alguma manifestação em nossa aparência, como alterações na expressão facial, voz, gesto, postura e outras condições fisiológicas [29].

As expressões faciais fornecem informações relevantes sobre o estado emocional do in-divíduo e exercem um papel fundamental na interação humana e como forma de comunica-ção não-verbal. Elas podem complementar a comunicacomunica-ção verbal, ou até mesmo transmitir uma mensagem completa por si só. Pesquisas afirmam que a parte verbal ou palavras fa-ladas de uma mensagem contribuem apenas com 7% para o efeito da mensagem como um todo, a parte vocal (entonação) contribui em 38%, enquanto a expressão facial de quem fala contribui com 55% para o efeito da mensagem falada [30].

(19)

infe-rências imprecisas, particularmente por duas razões. Primeiro, a expressão pode não cor-responder verdadeiramente à excitação de uma determinada emoção. Segundo, medições de expressões requerem ferramentas de alta precisão. O primeiro problema é insolúvel pois depende dos indivíduos, sobre os quais as experiências são realizadas, que podem suprimir sua emoção, ou mesmo fingir falsas emoções. Presumindo que os indivíduos envolvidos nos experimentos são propícios à pesquisa sobre o reconhecimento de expressões faciais, apenas o segundo problema é considerado, pois pode ser resolvido por sistemas automati-zados de reconhecimento.

Os seres humanos em geral realizam o reconhecimento das expressões faciais baseados em características identificadas em certas regiões da face, especificamente nas regiões dos olhos e da boca. Da mesma forma, um sistema computacional deve ser capaz de detectar essas regiões e de extrair as características necessárias para identificar a expressão facial sendo manifestada. Na aprendizagem de máquina, no reconhecimento de padrões e no processamento de imagens, a extração de características começa a partir de um conjunto inicial de dados e cria valores derivados que devem ser informativos e não redundantes. As características podem ser estruturas específicas na imagem, como pontos, bordas ou ob-jetos. Outros exemplos estão relacionados com: o movimento identificado entre imagens pertencentes a uma sequência, as formas definidas por curvas e limites entre regiões dife-rentes na imagem, e as cores ou texturas de determinadas regiões. É possível perceber que o conceito de característica é bastante genérico, portanto a escolha de características em um sistema de visão computacional pode depender do problema em questão.

1.1 Reconhecimento de Expressões Faciais

Atualmente, imagens de faces são cada vez mais utilizadas como forma de reconheci-mento de emoções. A informação da face é uma poderosa ferramenta para aplicações como segurança, entretenimento, entre outras. Existe uma grande variedade de aplicações tais como sistemas de reconhecimento de faces humanas, sistemas de vigilância e sistemas de vídeo conferência, que têm como pré-requisito a localização da face e a extração de suas características. Por isso, a comunidade científica tem dedicado esforços para ampliar os es-tudos e encontrar melhores técnicas para o problema de localizar uma face e extrair suas características. De acordo com Wong et al. [31], detectar faces humanas e extrair as carac-terísticas faciais de uma imagem sem restrição é um grande desafio. Uma série de fatores

(20)

dificulta a detecção, tais como as cores da pele, uso de óculos, barba ou bigode e, em es-pecial, as expressões faciais. Isso faz com que a extração de características faciais torne-se difícil e desafiadora. Várias pesquisas sobre técnicas de reconhecimento de expressões fa-ciais estão sendo desenvolvidas com o propósito de obter soluções para esses problemas. Essas técnicas são muito úteis, pois não exigem a interação do usuário ou o conhecimento dele.

A Tabela 1.1 apresenta algumas aplicações do reconhecimento de expressões faciais.

Tabela 1.1: Exemplos de aplicações de reconhecimento de expressões faciais

ÁREAS APLICAÇÕES ESPECÍFICAS

Entretenimento Jogos de videogame cujos personagens reagem a determinadas expressões do jogador. Educação Avaliação de interesse do aluno em aulas presenciais e de ensino à distância.

Saúde Monitoramento de pacientes em hospitais.

Vigilância Fiscalização de vídeo avançada, monitorando pessoas com expressões suspeitas.

As expressões faciais são geradas a partir de contrações de músculos faciais, que re-sultam na deformação de características faciais, tais como pálpebras, sobrancelhas, nariz e boca, e também resultam em mudanças nas suas posições relativas. A partir destas de-formações, modelos de representações podem ser definidos, onde imagens com deforma-ções semelhantes podem pertencer a um determinado modelo. Este processo caracteriza-se como reconhecimento de expressão facial. A forma para representar uma determinada ex-pressão facial é analisar as suas distinções ou variações entre a imagem da exex-pressão e a sua imagem correspondente sob uma expressão normal. Portanto, alguns métodos de re-conhecimento de expressão facial são baseados em uma sequência de imagens ou imagens de um vídeo. Contudo, apenas imagens estáticas estão disponíveis para alguns tipos de aplicações.

O movimento da face é uma característica que pode ser extraída. Alguns trabalhos apresentam abordagens baseadas em estimação de movimento por casamento de blocos (block-matching) para reconhecimento de expressões faciais [32], [33]. Karpouzis et al. [32] propuseram um sistema que compara a evidência de ativação muscular da face humana a dados obtidos a partir de um modelo 3D de uma cabeça. O algoritmo de estimação de mo-vimento utilizado no trabalho de Karpouzis et al. é o 3SS (Three-Step Exhaustive Search) [34]. Shermina e Vasudevan [33] propuseram um sistema de reconhecimento de faces baseado em oclusão e expressão parcial, usando EMD (Empirical Mode Decomposition) e Redes Neu-rais Artificiais para a extração de características. O algoritmo de estimação de movimento

(21)

utilizado durante o processo de reconhecimento da expressão é o FS (Full Search) [34]. Recentemente, os sistemas automáticos de reconhecimento de emoções baseados em ex-tração de características têm apresentado melhorias na precisão da classificação, devido em parte aos avanços em métodos de seleção de características. No entanto, muitos desses mé-todos capturam apenas relações lineares ou, alternativamente, requerem o uso de dados rotulados. Por isso, as técnicas de Deep Learning [35] têm se tornado cada vez mais popu-lares na áreas de visão e inteligência computacional. Essas técnicas podem superar essas limitações dos métodos baseados em extração de características através da captura explícita de complexas interações de características não-lineares em dados multimodais. Isso vem ocorrendo devido principalmente à descoberta recente de algoritmos de aprendizado mais efetivos em um contexto não-supervisionado [36]. A Figura 1.1 ilustra uma comparação entre as técnicas de reconhecimento baseadas em extração de características e as técnicas de Deep Learning, os níveis das características são relativos às suas complexidades, desde a detecção de curvas e linhas (nível-baixo) até a detecção de faces ou a classificação de ativi-dades humanas (nível-alto), por exemplo.

Figura 1.1: Comparação entre técnicas padrões de reconhecimento e Deep Learning. Fonte: [1]

Nesta Tese é apresentada uma nova técnica de extração de característica, baseada em estimação de movimento por casamento de blocos (block-matching), utilizada no reconheci-mento padrão tradicional, obtendo taxas de reconhecireconheci-mento de expressões faciais compatí-veis com as técnicas de reconhecimento que utilizam o padrão moderno e com as técnicas

(22)

de Deep Learning. Contudo, com uma abordagem menos complexa.

Na fase de treinamento, o movimento entre duas expressões da mesma face (ou faces similares) é estimado. Para cada imagem de face da base de treinamento é buscada uma outra imagem de maior similaridade em cada expressão facial do banco de imagens (por exemplo: raiva, nojo, medo, felicidade, tristeza, surpresa), então é calculado um vetor de movimento entre as duas imagens.

Após o cálculo dos vetores de movimento de todas as imagens em todas as expressões, são calculadas as coordenadas que ocorreram mais vezes nesses vetores, elas são armaze-nadas nos chamados ’vetores de maiores ocorrências’. A fase de treinamento é encerrada após a obtenção desses vetores. Na fase de testes, a imagem que terá a expressão facial reconhecida é comparada com todas as imagens utilizadas no treinamento, a imagem mais similar dentro de cada expressão facial da base, também calculada a partir da métrica SSIM, é utilizada para o cálculo do vetor de movimento. Então, os vetores de movimento são com-parados aos vetores de maiores ocorrências calculados para cada expressão facial durante a fase de treinamento, a partir dessa comparação são gerados os vetores de características usados para o reconhecimento da expressão facial.

Finalmente, foi realizada uma análise da precisão do método apresentado neste trabalho através de diversos experimentos com cinco bases de imagens comumente utilizadas no estado da arte: Cohn-Kanade (CK) [3], Cohn-Kanade Extendida (CK+) [4], Japanese female facial

expression(JAFFE) [2], MMI [5] e CMU Pose, Illumination, and Expression (CMU-PIE) [6]. Para a classificação da expressão facial foi utilizada a SVM (Support Vector Machine) [37]. Os resultados experimentais mostram a eficiência da técnica proposta, sendo compatíveis ou superiores a trabalhos recentes da literatura.

1.2 Objetivos

O objetivo desta Tese é apresentar um novo método de extração de característica para o reconhecimento de movimento aplicável em expressões faciais, que obtenha maiores taxas de acertos na classificação das expressões, e que seja mais simples, em termos de implemen-tação, do que os métodos vigentes na literatura recente.

(23)

1.2.1 Objetivos Específicos

• Desenvolver um extrator de características que possa ser utilizado em bases de ima-gens estáticas e vídeos;

• Desenvolver um método capaz de ser treinado para reconhecer expressões faciais

uti-lizando algoritmos de estimação de movimentos por casamento de blocos;

• Desenvolver um método capaz de reconhecer outros tipos de movimento.

1.3 Organização da Tese

O conteúdo desta Tese está dividido em cinco capítulos. As referências encontram-se nas páginas finais. A seguir, um resumo dos próximos capítulos:

Capítulo 2. Revisão da literatura recente na área de reconhecimento de expressões faciais,

descrevendo trabalhos de detecção de faces em imagens, extração de características e classificadores de expressões.

Capítulo 3. Descrição da metodologia utilizada para o desenvolvimento deste trabalho.

Toda a arquitetura do processo de reconhecimento de expressões faciais é descrita de-talhadamente, desde o pré-processamento até o processo de classificação.

Capítulo 4. Apresentação dos resultados obtidos nos experimentos realizados usando as

bases de imagens Cohn-Kanade (CK), Extended Cohn-Kanade (CK+), Japanese female facial

expression(JAFFE), MMI e CMU Pose, Illumination, and Expression (CMU-PIE). Tam-bém são apresentados diversos dados estatísticos, como tempo de pré-processamento, comparação de desempenho entre algoritmos diferentes de estimação de movimento, resultados obtidos com a alteração de valores de diversos parâmetros no sistema pro-posto, etc. Esses resultados são analisados e algumas considerações são expostas.

Capítulo 5. Discussões e conclusões obtidas dos experimentos realizados no Capítulo 4.

(24)

R

EVISÃO DA

L

ITERATURA

"Há riqueza bastante no mundo para as ne-cessidades do homem, mas não para a sua am-bição"

— Mahatma Gandhi

O

Estudo das expressões faciais remete à era dos filósofos gregos (século IV A.C.), que

tentavam determinar a personalidade e o caráter de um indivíduo baseados na sua aparência e visual, especialmente a partir de sua expressão facial [29].

Uma abordagem científica foi realizada por Paul Ekman [38], na década de setenta, que realizou um estudo sobre a representação da expressão facial em diferentes culturas. Na época, acreditava-se que as pessoas utilizavam seus músculos faciais de acordo com um conjunto de convenções sociais e expressões aprendidas, de forma similar ao que ocorre com os idiomas, onde cada região tem sua própria interpretação das expressões faciais. Ek-man tirou fotos de homens e mulheres realizando diversas expressões faciais e viajou para Brasil, Argentina e Japão com essas fotografias. Para a sua surpresa, as pessoas dos diferen-tes países que participaram de seu experimento, concordaram com o que significava cada uma das expressões nas fotografias. Ele então estendeu seus experimentos do mundo de-senvolvido para as florestas em Papua-Nova Guiné, para as vilas mais remotas, e descobriu que mesmo com os habitantes dessas vilas não havia dificuldade para identificar as expres-sões nas fotografias. Essa descoberta foi um marco importante no estudo das expresexpres-sões

(25)

faciais.

Outra contribuição importante do trabalho de Ekman [38] foi a criação do Facial

Ac-tion Coding System(FACS), um sistema para descrever expressões faciais humanas. É um padrão para categorizar sistematicamente a expressão física das emoções, e tem sido útil a psicólogos e a animadores. Usando FACS, rotuladores humanos podem manualmente rotular quase qualquer expressão facial anatomicamente possível, desconstruindo-as em

Action Units(AU - Unidades de Ação) específicas e seus segmentos temporais que causa-ram a expressão. Como as AUs são independentes de qualquer interpretação, elas podem ser usadas em processos de decisões gerais incluindo reconhecimento de emoções básicas, ou comandos pré-programados em um ambiente inteligente. O manual FACs tem mais de 1000 páginas e fornece as AUs, bem como as interpretações do Dr. Ekman do seu signi-ficado. As AUs são utilizadas em alguns sistemas automatizados de reconhecimento de expressões faciais [12], [13].

A necessidade de um sistema de reconhecimento de expressões faciais robusto tem se tornado cada vez mais evidente com o avanço recente nas áreas de robótica e softwares au-tomatizados. Os seres humanos em geral são responsivos aos estados emocionais uns dos outros, portanto espera-se que computadores e sistemas automatizados também adquiram essa habilidade. Através do avanço do estudo da interação homem-máquina, pesquisa-dores têm conseguido melhorar significativamente essa interação com o uso de sensores. Consoles de videogames como o Kinect [39] e Wii [40] podem detectar o movimento humano e reagir de acordo, conectando os mundos físico e virtual. Sensores de detecção de sono em automóveis podem identificar quando um motorista está sonolento e agir para reduzir o risco de acidentes [41]. Robôs inteligentes vêm sendo desenvolvidos para fazer companhia aos seres humanos [42]. A análise das expressões faciais é bastante útil para essas aplica-ções.

Na Seção 2.1 é discutido o processo genérico de reconhecimento de expressões faciais e são apresentados trabalhos e abordagens recentes sobre a análise de expressões faciais. Na Subseção 2.1.1 são apresentadas algumas bases de imagens de faces, na Subseção 2.1.2 são apresentados alguns trabalhos sobre detecção de faces em imagens, a Subseção 2.1.3 revisa alguns trabalhos sobre extração de características e a Subseção 2.1.4 apresenta alguns classificadores utilizados para a identificação das expressões.

(26)

2.1 Sistemas de Reconhecimento de Expressões Faciais

O foco de qualquer algoritmo de reconhecimento de faces é mitigar as mudanças relaci-onadas à expressão [43]. O que pode ajudar a projetar um agente que percebe uma emoção em uma pessoa e projeta uma expressão apropriada como resposta [44]. A habilidade de re-conhecer o estado afetivo de um humano através de uma máquina inteligente irá capacitá-la a interpretar, entender e responder às emoções, aos humores e às intenções, de forma similar ao que acontece entre as pessoas [45]. O objetivo principal dos sistemas de reconhecimento de expressões faciais é automaticamente analisar e reconhecer os movimentos faciais e as mudanças de características faciais a partir de informações visuais [46].

Todo sistema de reconhecimento de expressões faciais deve executar alguns passos an-tes da classificação da expressão em uma emoção específica. Primeiro é preciso definir a base de imagens ou vídeos que será utilizada para treinar e testar o sistema. Cada base pos-sui características específicas, como posição da face nas imagens, iluminação ambiente etc. Um sistema de reconhecimento de expressões pode apresentar desempenhos diferentes, em termos de precisão no reconhecimento das expressões, para cada tipo de base. Após a de-finição da base, é preciso encontrar a face do indivíduo na imagem ou no vídeo que serve de entrada para o sistema. Então, o sistema precisa rastrear as mudanças nos músculos fa-ciais ou na aparência para detectar onde a expressão está sendo mostrada. Provavelmente haverá obstáculos que podem encobrir a face parcial ou totalmente, o que dificulta tanto o processo de localização quanto o de rastreamento da região da face onde a expressão é mostrada. Uma vez que a face é detectada, o sistema deve procurar por características, como lábios, sobrancelhas e movimentos das bochechas, para a classificação da expressão a partir de características específicas que são detectadas e possa ocorrer uma decisão sobre a emoção sendo mostrada.

Contudo, o sistema ’aprende’ a partir de uma base de imagens que é utilizada no seu treinamento para o reconhecimento de expressões independente da idade, sexo, etnia ou cor da pele do indivíduo. Resumidamente, os sistemas de reconhecimento de expressões faciais podem ser divididos nos quatro módulos mostrados na Figura 2.1.

(27)

Figura 2.1: Um sistema genérico de reconhecimento de expressões faciais. Fonte: autor.

O sistema de reconhecimento de expressões faciais apresentado nesta Tese selecionou as bases de imagens JAFFE, CK, CK+ e CMU-PIE e a base de vídeos MMI, conforme menci-onado no Capítulo 1, para treinamento e testes. Para a detecção de faces nas imagens são utilizados os filtros de correlação ASEF (Average of Synthetic Exact Filters) [27]. A técnica de extração de características apresentada neste trabalho é baseada na mudança da aparência da face com o movimento entre as expressões faciais, esse movimento é calculado a partir de algoritmos de estimação por casamento de blocos. O classificador utilizado no último módulo é o Support Vector Machine (SVM) [37].

A seguir, é apresentada a revisão da literatura para cada um dos quatro módulos do sistema genérico mostrado na Figura 2.1.

2.1.1 Bases de Imagens de Faces

A escolha da base de imagens é uma etapa importante para o desenvolvimento de qual-quer sistema de reconhecimento de expressões faciais. Se todos os pesquisadores pudessem utilizar uma mesma base de imagens, tornaria mais fácil a realização de testes e compara-ções entre os diversos sistemas desenvolvidos. Após a seleção da base, os pesquisadores utilizam uma abordagem baseada em características para rastrear aquelas que são perma-nentes ou transitórias. Existem rastreadores específicos para as características permaperma-nentes da face, como olhos e lábios, por exemplo. Enquanto os métodos de detecção de bordas são utilizados para as características transitórias da face, como as rugas, por exemplo. Entre-tanto, tudo depende da disponibilidade de uma boa base de imagens.

A base FERET (Facial Recognition Technology) [47] é uma base de imagens de faces, divi-dida em dois grupos: desenvolvimento e isolado. O grupo de desenvolvimento está dis-ponível para os pesquisadores de diversas áreas e o grupo isolado é reservado para testes de algoritmos de reconhecimento facial. O procedimento de avaliação FERET é um teste de algoritmos de reconhecimento facial administrado de forma independente. O teste foi desenvolvido para: (1) permitir a comparação direta entre diferentes algoritmos, (2)

(28)

identi-ficar as abordagens mais promissoras, (3) avaliar o estado da arte em reconhecimento facial, (4) identificar futuras direções de pesquisa, e (5) auxiliar no avanço do estado da arte em reconhecimento facial.

As imagens da base FERET foram coletadas em 15 sessões, entre agosto de 1993 e julho de 1996. Ela contém 1.564 conjuntos de imagens para um total de 14.126 imagens que in-cluem 1.199 indivíduos e 365 conjuntos duplicados de imagens. Um conjunto duplicado é o segundo conjunto de imagens de uma pessoa que já está na base, mas teve novas fotos tira-das em um dia diferente. Para alguns indivíduos, houve um intervalo de dois anos entre o primeiro e o segundo conjunto de fotografias. Essa passagem de tempo foi importante pois possibilitou aos pesquisadores, pela primeira vez, o estudo das mudanças na aparência do indivíduo após um ano ou mais [47].

A base Japanese female facial expression (JAFFE) [2] está entre as bases de imagens de fa-ces mais utilizadas em experimentos de sistemas de reconhecimento de expressões faciais. Esta base possui 213 imagens de sete expressões faciais: raiva, nojo, medo, alegria, neutra, tristeza e surpresa, com aproximadamente o mesmo número de imagens para cada catego-ria de expressão facial. Cada imagem possui resolução de 256×256 pixels. Dez modelos japonesas posaram paras as fotos, para cada uma das modelos há em média três imagens diferentes da mesma expressão facial. Outra característica desta base é a pouca variação en-tre as diferentes expressões faciais, o que dificulta o reconhecimento. A Figura 2.2 mostra alguns exemplos dessa base, que foi utilizada nos experimentos do sistema proposto nesta tese.

Outra base de imagens de expressões faciais bastante utilizada foi apresentada por Ka-nade et al. [3]. A base foi nomeada como CMU-Pittsburgh AU-Coded Facial Expression, mas é popularmente conhecida por Cohn-Kanade (CK). Ela foi criada para pesquisa em aná-lise automática de faces e está disponível em duas versões. A primeira versão inclui 486 sequências de 97 indivíduos. Cada sequência começa com a expressão neutra e segue até o ápice da expressão. Todas as sequências são codificadas de acordo com o FACS (Facial

Action Coding System) [38] e foram rotuladas com a emoção representada. Contudo, a ex-pressão que identifica a sequência se refere à exex-pressão que foi solicitada ao indivíduo e não necessariamente à expressão que foi representada. As sequências de imagens partindo da expressão neutra para a expressão-alvo foram digitalizadas em imagens com resoluções de 640×480, 640×490 e 720×480 pixels, todas em níveis de cinza (ver Figura 2.3). Para

(29)

Figura 2.2: Faces da base de imagens JAFFE. Fonte: [2].

alguns indivíduos não há imagem para uma determinada expressão facial. A Figura 2.4 mostra alguns exemplos dessa base, utilizada nos experimentos do sistema proposto nesta tese.

Figura 2.3: Exemplo de sequência da base CK partindo da expressão neutra (esquerda) para a expressão medo

(direita). Fonte: [3].

A base de imagens Cohn-Kanade (CK) possui ainda uma segunda versão, conhecida como CK+ [4], que inclui tanto expressões representadas quanto expressões espontâneas. Para as expressões representadas, o número de sequências é 22% maior do que a primeira versão e a quantidade de indivíduos é 27% maior. Também foi representada uma expressão facial a mais: desprezo (contempt). Na Figura 2.5 é mostrado um exemplo de sequência de imagens para a expressão de desprezo. A base CK+ possui sequências de imagens coloridas.

Figura 2.5: Exemplo de sequência da base CK+ partindo da expressão neutra (esquerda) para a expressão de

(30)

Figura 2.4: Faces da base de imagens CK. ”sem imagem” indica que o indivíduo não possui imagem para

aquela expressão na base. Fonte: [3].

A base de vídeos de expressões faciais MMI [5] é um projeto em andamento, seus ide-alizadores têm como objetivo disponibilizar uma grande quantidade de dados visuais de expressões faciais para a comunidade científica. A base MMI foi concebida no ano de 2002 como recurso para a construção e avaliação de algoritmos de expressões faciais, ela tenta solucionar um problema comum às outras bases de expressões faciais que é a falta de um padrão temporal completo das expressões, ou seja, da ausência de expressão (expressão neutra), passando pela transição da expressão até o seu ápice, voltando novamente para uma face sem expressão (neutra) (ver Figura 2.6).

Figura 2.6: Exemplo de sequência da base MMI partindo da expressão neutra (esquerda) para a expressão de

nojo (direita). Fonte: [5].

Enquanto as outras bases focam nas seis expressões básicas, a base MMI contém além delas outras expressões com uma única unidade de ação (AU) FACS ativada, com todas as AUs existentes e com muitos outros descritores de ação. Essa base é composta de 2.900 vídeos e imagens de alta resolução de 75 indivíduos. Ela é totalmente rotulada para a

(31)

pre-sença de AUs nos vídeos, e parcialmente codificada em nível de frame, indicando para cada

framese uma AU está na expressão neutra, em transição ou ápice da expressão. A base MMI está totalmente disponível para a comunidade. A Figura 2.7 mostra alguns exemplos dessa base, também utilizada nos experimentos do sistema proposto nesta tese.

Figura 2.7: Frames da base de vídeos MMI. ”sem imagem” indica que o indivíduo não possui imagem para

aquela expressão na base. Fonte: [5].

A base de imagens CMU Pose, Illumination, and Expression (CMU-PIE) [6] possui mais de 40.000 imagens de face de 68 pessoas. Usando o CMU (Carnegie Mellon University) 3D

Room, cada indivíduo foi fotografado em 13 poses diferentes, sob 43 condições de ilumi-nação diferentes e com quatro expressões diferentes: neutra, sorrindo, fechando os olhos e falando. Essas são provavelmente as quatro expressões faciais que mais ocorrem no cotidi-ano das pessoas. As imagens da base têm resolução de 640×486 pixels, disponibilizadas no padrão de cores RGB. A Figura 2.8 mostra alguns exemplos dessa base, também utilizada nos experimentos do sistema proposto nesta tese.

(32)

Figura 2.8: Exemplo de imagens da base CMU-PIE, da esquerda para a direita e de cima para baixo as imagens

das câmeras: 05, 07, 09, 27 e 29. Fonte: [6].

Sebe et al. [48] construíram uma base de imagens de faces com expressões espontâneas. Eles pesquisaram sobre os principais problemas que estão associados com a captura de ex-pressões espontâneas e observaram que as pessoas manifestam as mesmas exex-pressões em diferentes intensidades em diferentes ocasiões. Eles também perceberam que se as pessoas estão cientes de que estão sendo filmadas ou fotografadas, as suas expressões perdem a autenticidade. Então, eles propuseram uma solução: foi preparado um ambiente onde as pessoas podiam assistir vídeos que induziam emoções. Suas expressões faciais foram fil-madas com uma câmera escondida. Após o término da gravação as pessoas assinaram um termo de consentimento para que seus vídeos e imagens capturados pudessem ser utiliza-dos para propósito de pesquisa. Aqueles que assinaram o termo foram questionautiliza-dos sobre qual emoção sentiram durante diversos momentos da filmagem.

Sebe et al. construíram uma grande base de imagens e vídeos de faces com os rótulos das expressões que as pessoas vivenciaram. Contudo, eles descobriram que era muito difícil in-duzir certas expressões, como tristeza e medo, por exemplo. Eles também obtiveram alguns dados incorretos onde pessoas pareciam tristes, mas estavam sentindo alegria. Isso ocorreu porque alguns filmes eram muito emotivos, mas tinham finais felizes. Curiosamente, eles também descobriram que estudantes e jovens em geral estavam mais dispostos a dar seus consentimentos para o uso de suas imagens em pesquisas do que professores mais velhos.

Para ilustrar a evolução das bases de imagens de faces, a Figura 2.9 mostra uma linha do tempo com as bases citadas nesta seção.1

(33)

Figura 2.9: Linha do tempo das bases de imagens de faces. As bases sublinhadas foram utilizadas nos

experi-mentos deste trabalho. Fonte: autor.

2.1.2 Detecção e Rastreamento da Face

Após a seleção da base de imagens, o primeiro passo na análise de expressões faciais é detectar a face em uma imagem ou frame e então rastreá-la ao longo dos diferentes frames de um vídeo. Os algoritmos de detecção e rastreamento de faces são baseados nas técnicas de extração de características que buscam por uma determinada representação dentro de uma imagem.

A detecção de faces possibilita a localização de faces em uma imagem arbitrária, sendo utilizada para a detecção automática de faces em uma imagem digital ou em um frame de um vídeo que serve como entrada em um sistema. Avanços recentes nas técnicas de pro-cessamento de imagens tornaram possível a detecção de faces em tempo real, o que tornou possível o seu uso em tecnologias biométricas, vídeos de vigilância e interação homem-máquina. A detecção de faces é uma tarefa desafiadora que requer métodos de alta efici-ência, confiáveis e rápidos. O método proposto deve ser capaz de detectar regiões da face com um alto grau de acuracidade e erros mínimos [49]. Um sistema de detecção de faces consiste basicamente de três fases: aquisição da imagem, pré-processamento da imagem e classificação da imagem, como mostrado na Figura 2.10.

(34)

Figura 2.10: Um sistema genérico de detecção de faces. Fonte: autor.

Em 1991, Kanade e Lucas [50] apresentaram um dos métodos mais populares desenvol-vidos para rastrear faces: o rastreador Kanade-Lucas-Tomasi. Anteriormente, Kanade e Lucas haviam desenvolvido um algoritmo de extração de característica [51] que compara duas imagens e assume que o segundo frame em uma sequência é uma translação do primeiro devido à pouca variação de movimento entre os frames. Esta versão do algoritmo funcio-nava satisfatoriamente sob supervisão humana, mas ainda ocorriam alguns erros que foram solucionados na versão atualizada desenvolvida em [50]. O novo algoritmo funciona sem a necessidade de supervisão, é mais rápido e simples do que a sua versão básica [51], re-presentando a característica como uma função de três variáveis: x, y e t, onde x, y são as coordenadas espaciais e t define o tempo. A técnica se mostrou eficiente para a determina-ção de movimento e de forma nos experimentos realizados.

Em 2000, Kanade continuou sua pesquisa sobre métodos de detecção de objetos e pu-blicou com Schneiderman [7] um método estatístico para detecção de objetos 3D. Eles re-presentaram os dados estatísticos para a aparência do objeto e do ’não-objeto’ usando um produto de histogramas, que também foram utilizados para representar uma grande va-riedade de atributos visuais. Foram realizados experimentos para detectar faces humanas e carros. O método proposto obteve sucesso na detecção de ambos. Kanade e Schneider-man documentaram os desafios de detectar um objeto com características uniformes. Por exemplo, carros têm diferentes tamanhos, formas, cores e tipos que são algumas das maio-res diferenças e também possuem diferenças menomaio-res como tipos de faróis, luzes traseiras, adesivos etc. De forma similar, as faces humanas também possuem diferentes atributos, como etnia ou cor de pele. Um detector de objetos deve acumular todas essas propriedades para ser capaz de detectar um determinado objeto em toda essa variedade de combinações.

(35)

Mesmo sem ser um fator de diferenciação em um objeto, o objeto a ser detectado pode pos-suir diferentes ângulos de visualização. Por exemplo, a face humana vista de perfil ou de frente é bastante diferente. O método apresentado por Kanade e Schneiderman lida com isso utilizando uma abordagem baseada em visualização com vários detectores, em dife-rentes posições, que detectam objetos em difedife-rentes orientações.

A técnica apresentada em [7] foi capaz de detectar de 78% a 92% das faces de perfil e 95% das faces com vista frontal a partir de uma base com 208 imagens, com 441 faces, esco-lhidas aleatoriamente na Internet. Em uma base com 213 carros e uma grande variedade de cenários, cores, clima, condições de iluminação, tamanhos e modelos, o modelo proposto foi capaz de detectar de 83% a 92% dos carros. A variação na detecção é baseada no parâ-metro definido pela razão da probabilidade de uma forma detectada ser um ’não-objeto’ ou um objeto. A Figura 2.11 mostra alguns exemplos da detecção obtida em [7].

Figura 2.11: Exemplos de detecção de faces e carros. Fonte: [7].

Em 2001, foi apresentado outro método utilizado para detecção de faces chamado mo-delo de CANDIDE [8], que foi desenvolvido especificamente para codificação de faces hu-manas baseada em modelo. O modelo de CANDIDE é construído usando um conjunto de polígonos e teve a sua primeira versão apresentada no ano de 1987. Posteriormente, foram desenvolvidos três diferentes modelos - CANDIDE 1, 2 e 3, cada um é uma atualização do anterior, sendo o CANDIDE 3 o mais utilizado pela maioria dos pesquisadores. O CAN-DIDE é controlado por unidades de ação global que rotacionam em três eixos e unidades de ação local que consideram as faces com diferentes expressões. Unidade de ação é a ação

(36)

que pode ser realizada com um único músculo de ativação, por exemplo: fechar os olhos ou piscar. O modelo original do CANDIDE tem 75 vértices e 100 triângulos, o CANDIDE-1 foi atualizado para 79 vértices, CANDIDE-108 triângulos e CANDIDE-1CANDIDE-1 unidades de ação, o CANDIDE-2 foi atualizado para 160 vértices e 238 triângulos e seis unidades de ação, ele também pode de-tectar os ombros. A Figura 2.12 mostra os modelos de cada método (CANDIDE-1 e 2). O CANDIDE-3 [8] introduz um novo tipo de unidade: a unidade de forma, foram definidas 12 unidades de forma, que permitem a detecção de diferentes formas de cabeças. As formas das cabeças incluem a altura da cabeça, o tamanho dos olhos, a posição vertical dos olhos etc. A lista completa das unidades de forma, unidades de ação, vértices, e como todos estão relacionados com as versões anteriores do CANDIDE, pode ser encontrada em [8].

Figura 2.12: Cima: modelo do CANDIDE-1. Baixo: modelo do CANDIDE-2. Fonte: [8].

Em 2004, Viola e Jones [9] desenvolveram um método de aprendizado para detectar fa-ces na posição frontal. Esse método é baseado no algoritmo de aprendizado AdaBoost [52] e se mostrou veloz e preciso. Eles computaram uma nova representação de imagem cha-mada ”imagem integral”, que permite um processamento ainda mais veloz das caracte-rísticas usadas pelo detector apresentado, a partir de uma ’imagem-fonte’ usando poucas operações por pixel baseadas em um conjunto de características que eles queriam detectar. Essas características podem ser computadas em qualquer escala ou localização em tempo

(37)

constante. Após a detecção das características, Viola e Jones construíram uma classificador simples e eficiente para selecionar um número pequeno de características importantes a partir de uma grande biblioteca de potenciais características usando o AdaBoost. Entretanto, o espaço de características era muito grande, muito maior do que o número de pixels. Para garantir uma classificação veloz, foi proposto um processo de aprendizado que exclui a grande maioria de características disponíveis. Foi utilizado o AdaBoost para restringir cada classificador a depender de uma única característica. Então o processo de classificação se tornou um processo de detecção de características visuais, que também é bastante veloz e preciso.

Para tornar o seu método ainda mais rápido, Viola e Jones [9] combinaram classifica-dores mais complexos em uma estrutura em cascata. Esses classificaclassifica-dores em sequência aumentam a velocidade do detector focando a ’atenção’ do sistema de reconhecimento em regiões promissoras da imagem. Por exemplo, um classificador de detecção de faces pode facilmente filtrar 50% da imagem enquanto preserva mais de 99% das faces (de acordo com os resultados dos experimentos realizados), assim a limitação da área para detecção de faces torna o processo mais fácil e rápido para o sistema. No total, a cascata do método proposto possui 38 classificadores e cada um deles é mais complexo do que o anterior. A área da ima-gem que não for rejeitada por um classificador será analisada pelo próximo e a área que for rejeitada não será analisada pelos demais classificadores. A classificação em cascata tornou o detector final bastante veloz. A Figura 2.13 mostra exemplos da precisão da detecção de faces obtida.

(38)

Figura 2.13: Saída do detector de Viola e Jones em algumas imagens de testes. Fonte: [9].

Em 2010, Suri e Verma [53] implementaram um detector de faces robusto com um novo conceito chamado histogramas integrais de Haar com CMBLBP (circular multi block local

bi-nary operator). Eles propuseram uma mudança simples na regra de Haar: a definição de uma região circular de codificação em vez de blocos de um retângulo por operador binário. No método proposto, o valor do pixel central é subtraído do valor dos pixels da vizinhança. Então a informação é apresentada sem perda, como uma distribuição conjunta do valor do

pixelcentral e as diferenças. O problema de escalonamento do LBP circular é reduzido pela propriedade de multi bloco, o sistema pode detectar diversas estruturas na imagem (como bordas, linhas, pontos e quinas). O detector proposto funciona em aplicações de tempo real. Os resultados mostraram que é um detector rápido e com boa acuracidade mesmo com fa-ces de vários tamanhos, variação de iluminação, variação de ângulo, diferentes expressões faciais, rotação e mudança de escala.

Em 2015, Li et al. [10] apresentaram uma técnica para solucionar dois problemas con-flitantes: o primeiro trata da detecção de faces no mundo real em imagens com variações visuais na pose, expressão ou iluminação, utilizando um modelo discriminativo avançado que possa distinguir de forma precisa as faces nos cenários. Consequentemente, modelos efetivos para esse problema tendem a ser custosos computacionalmente. Para solucionar o segundo problema, foi apresentada uma arquitetura em cascata construída em redes neu-rais convolucionais (CNNs) com uma capacidade discriminativa poderosa, mantendo a alta

(39)

desempenho. A CNN em cascata proposta opera em múltiplas resoluções, rapidamente re-jeita regiões de cenário nos estágios rápidos de baixa resolução, e cuidadosamente avalia um número pequeno de candidatos no último estágio de alta resolução. Para aprimorar a efetividade da localização, e reduzir o número de candidatos nos estágios finais, foi intro-duzido um estágio com CNN baseada em calibração após cada um dos estágios de detecção na cascata. A saída de cada estágio de calibração é usada para ajustar a posição da janela de detecção que será a entrada do estágio seguinte. A Figura 2.14 mostra um exemplo de como o detector CNN em cascata funciona.

Figura 2.14: Sequência de testes do descritor CNN em cascata: da esquerda pada a direita, como as janelas de

detecção são reduzidas e calibradas em cada estágio. Fonte: [10].

Para ilustrar a evolução das técnicas de detecção e rastreamento de faces, a Figura 2.15 mostra uma linha do tempo com as abordagens citadas nesta seção.

Figura 2.15: Linha do tempo das técnicas de detecção de faces. A técnica sublinhada foi utilizada nos

experi-mentos deste trabalho. Fonte: autor.

2.1.3 Extração de Características

Após a detecção da face na imagem ou vídeo, uma técnica de extração de característica facial computa características relevantes e distintas da face com o propósito de diminuir a quantidade de dados a serem processados. A escolha da característica a ser extraída está

(40)

re-lacionada à qualidade do reconhecimento e ao esforço computacional, algumas abordagens para extrair esses pontos faciais a partir de imagens digitais e sequências de vídeos de faces foram propostas, resultando em duas categorias de técnicas: baseadas em características geométricas e baseadas em aparência [54].

Características Geométricas

As técnicas baseadas em características geométricas medem os deslocamentos de certas partes da face, como sobrancelhas e cantos da boca. Os pontos de características faciais são armazenados em um vetor de características que representa a geometria da face. As abordagens baseadas em característica calculam a distância entre as unidades de ação fa-ciais extraídas. As características fafa-ciais relevantes são extraídas usando posições relativas e tamanhos dos componentes da face. Independente do tipo de característica, os sistemas de reconhecimento de expressões faciais podem ser divididos pelo tipo de entrada que po-dem ser imagens estáticas ou sequências de imagens. A principal atribuição da medição de características geométricas é a análise da região facial, particularmente encontrando e rastreando pontos cruciais na região da face [54]. A seguir, são citados alguns trabalhos do estado da arte sobre técnicas baseadas em características geométricas.

Em 1992, uma tecnologia de reconhecimento de expressões faciais em tempo real é apre-sentada no método de Kobayashi e Hara [11]. Uma câmera dentro de olho esquerdo de um robô é posicionada a um metro de distância do indivíduo, capturando a imagem da face do mesmo. O principal objetivo do trabalho de Kobayashi e Hara foi o desenvolvimento de tecnologias de reconhecimento de expressões faciais em tempo real e a reprodução des-sas expressões faciais em um robô. Primeiramente, a íris deve ser detectada na imagem. A posição de cada íris é encontrada na face da imagem usando uma técnica de correlação cruzada de distribuição de brilho, como se pode visualizar na Figura 2.16.

(41)

Kobayashi e Hara utilizaram uma técnica de distribuição de brilho para encontrar a informação facial. Os movimentos dos FCPs (Facial Characteristics Points) mostram as mu-danças nas linhas de borda das expressões faciais. Portanto, foi definida a distribuição de brilho de 13 linhas verticais passando por esses pontos FCP. Esses pontos foram definidos como sobrancelhas, olhos e boca, como pode ser visto na Figura 2.17. As faces foram nor-malizadas a fim de compensar a diferença no tamanho de cada face, fazendo com que a distância entre os centros das íris ficasse em 20 pixels. Com os valores da distância entre os olhos e a posição central das íris obtidos, o tamanho das linhas verticais foi definido empiri-camente, a fim de enquadrar as regiões das sobrancelhas, olhos e boca. Com as informações da face coletadas, uma rede neural com aprendizagem back-propagation foi utilizada para o treinamento. Utilizou-se um banco de 30 indivíduos com imagens recortadas na face nor-mal (sem expressão ou neutra) e nas outras expressões faciais. Dos 30 indivíduos, 15 foram usados como treinamento. O reconhecimento em tempo real é feito iniciando a imagem na expressão normal e finalizando em uma das seis expressões básicas (feliz, triste, raiva, medo, surpreso, nojo). O resultado do reconhecimento chegou a uma taxa média de 85,0%.

Figura 2.17: 13 linhas verticais para obtenção das informações faciais. Fonte: [11].

Em 2001, Tian et al. [12] desenvolveram um sistema para analisar expressões baseado nas características permanentes e transitórias da face. O sistema pode reconhecer seis unidades de ação da parte superior da face e dez unidades de ação da parte inferior com mais de 96% de taxa de acerto. O sistema proposto não necessita de alinhamento das imagens e pode lidar com movimentos da cabeça. Para o sistema de reconhecimento de características, foi desenvolvido um modelo componente multi-estados da face, por exemplo: um modelo de

(42)

lábios de três estados pode descrever o estado de lábios abertos, o estado de lábios fechados ou o estado de lábios cerrados. Similarmente, olhos, testa, bochechas, todos têm diferentes modelos multi-estados. A Figura 2.18 mostra alguns exemplos de modelos para o lábio e o olho. Para características transitórias, rugas, por exemplo, é utilizado um detector de bordas em uma região determinada. O sistema foi testado com a base Cohn-Kanade [3].

Figura 2.18: Modelos de componentes faciais multi-estado de uma face na posição frontal. Fonte: [12].

Em 2004, o método de Pantic [13] define um modelo de face baseado em pontos com-posto de duas visões faciais, a visão frontal e a visão lateral. Os modelos de visão frontal e lateral, quando considerados separadamente, não possuem informações redundantes sobre as características faciais. Contudo, quando utilizados de forma conjugada, eles revelam in-formações redundantes sobre a expressão facial. As características definidas pelos modelos frontal e lateral são extraídas automaticamente. As deformações das características ocorri-das no modelo frontal revelam mudanças na aparência dos olhos, sobrancelhas, nariz, boca e queixo. Já as deformações ocorridas no modelo lateral revelam mudanças na aparência da testa, nariz, boca, mandíbula e queixo. É possível estabelecer relações únicas entre as características dos modelos e as unidades de ação (AUs). O modelo de face de visão

Referências

Documentos relacionados

O teste de patogenicidade cruzada possibilitou observar que os isolados oriundos de Presidente Figueiredo, Itacoatiara, Manaquiri e Iranduba apresentaram alta variabilidade

Detectadas as baixas condições socioeconômicas e sanitárias do Município de Cuité, bem como a carência de informação por parte da população de como prevenir

¾ Segundo nível • Terceiro nível – Quarto nível A FAMÍLIA PROFIBUS A FAMÍLIA PROFIBUS PROFIBUS-FMS PROFIBUS-FMS é a solução de propósito geral para comunicação de

libras ou pedagogia com especialização e proficiência em libras 40h 3 Imediato 0821FLET03 FLET Curso de Letras - Língua e Literatura Portuguesa. Estudos literários

Foram analisados 56 artigos, dos quais 18 foram selecionados por abordarem os efeitos biológicos causados pela radiação ionizante aos embriões ou fetos e exames

Vejamos algumas das temáticas mais recorrentes nas notas publicadas nesse período por ordem de recorrência: em primeiro lugar uma parcela considerável das notícias eram

O primeiro passo para introduzir o MTT como procedimento para mudança do comportamento alimentar consiste no profissional psicoeducar o paciente a todo o processo,

enfim, como ocorre nos gêneros discursivos anteriormente apresentados, o pós-textual será o resultado das decisões que possibilitam dar mais clareza às informações necessárias,