Agrupamento de pixels e autofaces fracionário para reconhecimento de faces

(1)

Universidade Federal de Pernambuco

Centro de Informática

Doutorado em Ciência da Computação

Agrupamento de Pixels e Autofaces

Fracionário para Reconhecimento de

Faces

Tiago Buarque Assunção de Carvalho

Tese de Doutorado

Recife

(2)

(3)

Tiago Buarque Assunção de Carvalho

Agrupamento de Pixels e Autofaces Fracionário para

Reconhecimento de Faces

Trabalho apresentado ao Programa de Doutorado em Ci-ência da Computação do Centro de Informática da Univer-sidade Federal de Pernambuco como requisito parcial para obtenção do grau de Doutor em Ciência da Computação.

Orientador: Tsang Ing Ren

Co-orientador: George Darmiton da Cunha Cavalcanti

Recife

2015

(4)

Catalogação na fonte

Bibliotecária Joana D’Arc Leão Salvador CRB4-532

C331a Carvalho, Tiago Buarque Assunção de.

Agrupamento de pixel e auto-faces fracionário para reconhecimento de faces / Tiago Buarque Assunção de Carvalho. – Recife: O Autor, 2015.

156 p.: fig., tab.

Orientador: Tsang Ing Ren.

Tese (Doutorado) – Universidade Federal de Pernambuco. CIN, Ciência da Computação, 2015.

Inclui referências.

1. Inteligência artificial. 2. Aprendizado do computador. I. Tsang, Ing Ren (Orientador). II. Titulo.

006.3 CDD (22. ed.) UFPE-MEI 2015-092

(5)

Tese de Doutorado apresentada por Tiago Buarque Assunção de Carvalho à Pós Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “Agrupamento-de-Pixels e

Autofaces-Fracionário para Reconhecimento de Faces” orientada pelo Prof. Tsang Ing Ren e

aprovada pela Banca Examinadora formada pelos professores:

__________________________________________ Profa. Teresa Bernarda Ludermir

Centro de Informática / UFPE

___________________________________________ Profa. Renata Maria Cardoso Rodrigues de Souza Centro de Informática / UFPE

___________________________________________ Prof. Adriano Lorena Inácio de Oliveira

Centro de Informática / UFPE

___________________________________________ Prof. Andre Carlos Ponce de Leon Ferreira de Carvalho Instituto de Ciências Matemáticas e de Computação / USP

____________________________________________ Prof. Ricardo da Silva Torres

Instituto de Computação / UNICAMP

Visto e permitida a impressão. Recife, 23 de abril de 2015.

___________________________________________________

Profa. Edna Natividade da Silva Barros

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(6)

(7)

Resumo

Um dos problemas de reconhecimento de faces consiste em identificar quem é a pessoa cuja imagem do rosto está em uma fotografia. A representação digital desta imagem contém mi-lhares de pixels, cada um representando a intensidade de iluminação de uma minúscula região da imagem. O problema de reconhecimento pode ser simplificado se forem extraídas pou-cas dezenas de característipou-cas para representar toda a imagem. Neste trabalho são propostas duas metodologias de extração de características. Uma destas metodologias chama-se Agrupa-mento de Pixels e a outra Autofaces Fracionárias. A partir de cada uma destas metodologias são propostas técnicas de extração de características. Tais técnicas têm a mesma aplicação que a técnica de referência Autofaces (Eigenfaces): geram projeções lineares das imagens de face. Cada uma dessas projeções é dita uma característica extraída, a qual contém informa-ções sobre propriedades visuais da imagem de face. Com a primeira metodologia proposta, Agrupamento de Pixels, são definidas duas técnicas de extração de características, Pedaços-por-valor e Pedaços-por-posição. Pedaços-Pedaços-por-valor define regiões da face com intensidade similar. Pedaços-por-posição define regiões por relações de vizinhança. Em ambos os métodos é extraída uma característica para cada região. Estas técnicas obtiveram taxa de reconheci-mento superior a outros métodos no estado da arte. Foi demonstrado com um experireconheci-mento com dados artificiais que esta técnica é capaz de extrair características discriminantes mesmo sendo uma técnica não-supervisionada. Pedaços-por-valor também é avaliada na aplicação de compressão de imagens. Demonstra-se que esta representação é mais fiel ao original do que a compressão JPEG se comprimida ao máximo. A segunda metodologia proposta também é não-supervisionada. Inspira-se em Autofaces e na técnica no estado da arte PCA Fracionário. Com esta metodologia são definidas três técnicas de extração de características. Experimentos mostram que estas técnicas extraem características que levam a uma taxa de reconhecimento maior do que as técnicas das quais são derivadas. Um experimento em visualização de dados

(8)

propõe uma explicação para as vantagens destas técnicas: aumentam a fronteira de decisão; e aproximam os exemplos da mesma classe, diminuindo a sobreposição entre classes distintas.

Palavras-chave: Reconhecimento de faces. Autofaces. Extração de Características. Agrupa-mento de Características.

(9)

Abstract

One problem in face recognition is to identify who is the person shown in a photography. The digital representation of such photo, an image, has thousands of pixels, each pixel represent the light intensity of a tiny image region. The recognition problem is simpler if dozens of features are extracted to represent all the image. We propose two feature extraction frameworks for face recognition: Pixel Clustering and Fractional Eigenfaces. Feature extraction techniques are defined from each framework. Such techniques are applied similarly to the benchmark method Eigenfaces: they define linear projections of the face images. Each projection is an extracted feature, which encodes face visual properties. In the proposed Pixel Clustering framework, two methods are defined, Intensity-patches and Position-patches. Intensity-patches defines regions in the image that have similar intensity values. Position-patches defines regions according to neighborhood of pixels. In both methods, a single feature is extracted for each region. These methods have higher accuracy compared to other state-of-the-art for face recognition techni-ques. As demonstrated in experiments with artificial data, Intensity-patches is able to extract discriminant features even though it is an unsupervised method. Value-patches is also used for image compression and, compared to the JPEG compression, it generates images more si-milar to the original for high level compression. The second proposed framework is inspired in the Fractional PCA (FPCA) method, and the Eigenfaces method for face recognition. Th-ree feature extraction techniques are proposed using this framework: Fractional Eigenfaces, Improved Fractional Eigenfaces, and Improved Eigenfaces. These methods presented higher accuracy rates in the face recognition problem compared to FPCA and Eigenfaces. An explana-tion for their performance is presented using a data visualizaexplana-tion experiment: we show that the decision frontier is enlarged, and samples of the same class are approximated, avoiding class overlap.

(10)

(11)

Lista de Figuras

2.1 Diagrama de tipos de imagens utilizadas no reconhecimento de faces. Em des-taque o nosso dado de interesse: imagem estática 2D. 30 2.2 Diagrama de fluxo de um sistema de reconhecimento de faces. Este estudo foca

em técnicas de extração de características holísticas para identificação de faces. 31 2.3 Diagrama de funcionamento da transformada Wavelet 2D, adapatado de (CHIEN;

WU, 2002). 34

2.4 O gráfico de dispersão para duas classes. Pode-se separar claramente a classe de azul (acima) da vermelha (em baixo). Após calcular a direção de maior variância com PCA, encontra-se uma direção quase horizontal na qual os dados projetados se confundem. Uma direção perpendicular a esta é mais apropriada para a separação das classes. Figura adaptada de (BISHOP, 2006). 41

3.1 Fluxograma dos métodos propostos (AFF, AFFM e AFM) mais Autofaces (AF), a combinação de um tipo de matriz de relação e um tipo de projeção gera um

método. 72

4.1 Duas imagens para cada base de faces, da esquerda para a direita: Yale e ORL. 76 4.2 Base Yale. Estes gráficos sumarizam os resultados da Tabela 4.2 (Seção 4.4).

Estes gráficos apresentam a acurácia média pelo número de características ex-traídas para os quatro métodos avaliados: AF (Autofaces), AFM (Autofaces Melhorado), AFF (Autofaces Fracionário) e AFFM (Autofaces Fracionário Melhorado). Cada gráfico foca em um intervalo de características extraídas. 82

(12)

4.3 Base Yale. Máxima acurácia média (para 10 execuções de holdout) para cada método e diferentes valores de r. Note que a acurácia para o método AF não depende de r, mas varia para diferentes valores de r uma vez que os mesmos conjuntos de treino e teste são mantidos apenas para o mesmo valor de r. 86 4.4 Base ORL. Estes gráficos sumarizam os resultados da Tabela 4.4, Seção 4.6.

Estes gráficos apresentam a acurácia média pelo número de características ex-traídas para os quatro métodos avaliados: AF (Autofaces), AFM (Autofaces Melhorado), AFF (Autofaces Fracionário) e AFFM (Autofaces Fracionário Melhorado). Cada gráfico foca em um intervalo de características extraídas. 87 4.5 Base Yale. Diagrama de dispersão para as 20 primeiras amostras do conjunto

de treino. Após a projeção através dos quatro métodos analisados (Seção 4.7): Autofaces (AF) em cima, esquerda; Autofaces Fracionário (AFF) em cima, di-reita; Autofaces Melhorado (AFM) em baixo, esquerda; Autofaces Fracionário Melhorado (AFFM) em baixo, direita. Os eixos são os valores das característi-cas extraídas (adimensionais) e cada símbolo representa uma classe distinta. 92 4.6 Base ORL. Diagrama de dispersão para as primeiras 30 amostras do conjunto

de treino, após a projeção através dos quatro métodos analisados, ver Seção 4.7: Autofaces (AF) em cima, esquerda; Autofaces Fracionário (AFF) em cima, di-reita; Autofaces Melhorado (AFM) em baixo, esquerda; Autofaces Fracionário Melhorado (AFFM) em baixo, direita. Os eixos são os valores das característi-cas extraídas (adimensionais) e cada símbolo representa uma classe distinta. 93

5.1 Exemplo de vetor-de-pixel por valor (acima) e vetor-de-pixel por posição (abaixo). 99 5.2 Fluxograma para definição de método de extração de características com a

me-todologia proposta de agrupamento de pixels. 101 5.3 Fluxograma dos métodos de extração de características: Pedaços-por-valor

(PV), Pedaços-por-valor Fracionário (PVF), Pedaços-por-valor Fracionário Me-lhorado (PVFM) e Pedaços-por-valor MeMe-lhorado (PVM). 109

(13)

LISTA DE FIGURAS

5.4 As regiões de fronteira entre os 42 grupos gerados pelos algoritmo k-médias para os vetores-de-pixel por posição. Da esquerda para a direita, os três tipos de distâncias utilizadas para gerar estas imagens são: Chebychev, city block e

Euclidiana. 110

5.5 Exemplos de regiões formadas para pedaços por posição. A área preta

corres-ponde a uma região selecionada. 112

5.6 Fluxo para a reconstrução das imagens comprimidas. 115 6.1 As regiões da imagens de faces são particionadas utilizando o método

Pedaços-por-Valor (esquerda) e Pedaços-por-Posição (direita), para as bases ORL e

UMIST. 119

6.2 Acurácia média do método Pedaços-por-Valor para vários números de caracte-rísticas extraídas. Em três bases de dados: Yale, ORL, e UMIST. 121 6.3 Acurácia média do método Pedaços-por-Valor para vários número de

caracte-rísticas extraídas. Em duas bases de dados: Yale e ORL. São gerados 64, 128 e 256 grupos, mas são selecionadas as características de maior variância. 125 6.4 Funções de densidade de probabilidade pra distribuições normais com desvio

padrão igual a 5. Da esquerda para a direita, as médias das distribuições são -5,

0, 5 e 100. 127

6.5 Dispersão dos dados artificias utilizando duas variáveis escolhidas aleatoria-mente: uma discriminante no eixo horizontal e a outra de confusão. 129 6.6 Base 10/1.000. Diagramas de dispersão da projeção para duas dimensões

uti-lizando PCA, esquerda; e projeção para duas características utiuti-lizando

Partes-por-valor, direita. 130

6.7 Índices de Silhouette no conjunto de treino da base 10/1.000, PCA (esquerda)

e Pedaços-por-Valor (direita). 131

6.8 Base 100/10.000. Diagramas de dispersão da projeção para duas dimensões uti-lizando PCA, esquerda; e projeção para duas características utiuti-lizando

(14)

6.9 Base 1/100. Diagramas de dispersão da projeção para duas dimensões utili-zando PCA, esquerda; e projeção para duas características utiliutili-zando

Partes-por-valor, direita. 133

6.10 Base 100/10.000. Diagramas de dispersão para projeção para duas dimensões utilizando PCA. O gráfico da esquerda mostra o conjunto de treino, e o da

direita o conjunto de teste. 134

6.11 Imagens originais e imagens comprimidas para as bases ORL (a-f) e Yale (g-l). As imagens são comprimidas com Pedaços-por-Valor e JPEG. 6.158 p.

(15)

Lista de Tabelas

2.1 Taxa de reconhecimento em % para as bases de faces IIS e ORL, adaptada de

(CHIEN; WU, 2002). 36

2.2 Média da taxa de reconhecimento (em %) com indicação do desvio padrão, para as bases de faces ORL das imagens sem transformação e nos 5 níveis de Waveletfacesutilizando o classificador NN, retirada de (CARVALHO, 2008). 37 2.3 Média da taxa de reconhecimento (em %) para as bases de faces ORL com

indicação do desvio padrão para Autofaces discriminante e Waveletfaces dis-criminante com 13, 14 e 15 características extraídas utilizando o classificador

NN, retirada de (CARVALHO, 2008). 37

2.4 Taxa de reconhecimento (em %) para as bases de faces ORL com indicação do desvio padrão para Autofaces, Autofaces Discriminante, Waveletfaces e Wave-letfaces discriminante para os classificadores NN, NFL, NFP e NFS, retirada

de (CARVALHO, 2008). 37

2.5 Comparação entre os principais métodos de agrupamento de características. 55 2.6 Distâncias mínima e máxima das amostra até o centro. Quando o número de

dimensões aumenta a razão entre estas duas distâncias tende a 1. 56 2.7 Índice de Silhouette para a base ORL com as imagens no tamanho original e

reduzido. 57

3.1 Nomeando a técnica de extração de característica devido à matriz de

(16)

4.1 Base ORL. Para cada número de características (k): média e desvio padrão da acurárcia (em 10 repetições de holdout) para PCA Fracionário (Fractional PCA, FPCA) e Autofaces Fracionário (AFF), somente FPCA recebe como en-trada as imagens reduzidas para 1/4 da altura e 1/4 da largura. 80 4.2 Base Yale. Colunas: k, número de características extraídas; acurácia média e

desvio padrão para 100 repetições de holdout, para os métodos AF, AFM, AFF e AFFM. A maior acurácia por linha está marcada com (+) e a menor com (−). Uma acurácia média é considerada significativamente diferente de outra se seus intervalos de 95% de confiança não se sobrepõem. 83 4.3 Base Yale. Máxima acurácia média (para 10 execuções de holdout) para cada

método e diferentes valores de r. Note que a acurácia para o método AF não depende de r, mas varia para diferentes valores de r uma vez que os mesmos conjuntos de treino e teste são mantidos apenas para o mesmo valor de r. 85 4.4 Base ORL. Colunas: k, número de características extraídas; acurácia média e

desvio padrão para 100 repetições de holdout, para os métodos AF, AFM, AFF, AFFM. A maior acurácia por linha está marcada com (+) e a menor com (−). Uma acurácia média é considerada significativamente diferente de outra se seus intervalos de 95% de confiança não se sobrepõem. 88 4.5 Valor médio do índice de isolamento de componentes para projeção 2D. Para

duas bases de imagens de face. O índice é melhor quanto maior seu valor. 91

5.1 Especificação dos métodos de extração de características propostos sobre a me-todologia proposta de Agrupamento de Pixels. 107

6.1 A acurácia para os métodos propostos, Pedaços-por-Valor e Pedaços-por-Posição, é comparada com outros métodos de extração de características no estado da arte. O número de dimensões extraídas é k; acurácia média e desvio padrão e

(17)

LISTA DE TABELAS

6.2 Acurácia média e desvio padrão para vários classificadores. 100 repetições de holdout50/50. 512 características para Valor (PV), Valor Melhorado (PVM), Valor Fracionário (PVF), Pedaços-por-Valor Fracionário Melhorado (PVFM). Para Autofaces (AF), Autofaces Melho-rado (AFM), Autofaces Fracionário (AFF), Autofaces Fracionário MelhoMelho-rado (AFFM), são extraidas 82 (Yale) e 200 (ORL) características. 122 6.3 Acurácia média e desvio padrão para Autofaces e Pedaços-por-Valor se apenas

1, 2, ou 3 classes são utilizadas para gerar as projeções. Classificador 1-NN, 10

repetições de holdout 50/50. 124

6.4 Descrição das bases sintéticas 1/100, 10/1.000 e 100/10.000. Cada base tem três classes, cada classe com 30 amostras. N(µ, σ ) indica que um conjunto de características segue uma distribuição normal com média µ e desvio padrão σ . 127 6.5 Taxas de acerto de cada base para cada tipo de extração de características

uti-lizando classificador 1-NN; média e desvio padrão calculado para 10.000 (dez mil) repetições de experimento do tipo Hold Out estratificado 50% para treino

e 50% para teste. 128

6.6 Taxas de acerto para classificação na base 10/1.000 para cada tipo de extração de características utilizando classificadores distintos. Média e desvio padrão calculado para 100 repetições de experimento do tipo Hold Out estratificado

50% para treino e 50% para teste. 128

6.7 Valor médio e desvio padrão de 100 repetições de holdout para a médias dos índices Silhouette para as bases de dados artificiais, após projeção com PCA e Pedaços-por-Valor (PV). Medido separadamente para o conjunto de treino e

teste, e para ambos. 131

6.8 Taxas de acerto para a classificação utilizando as bases artificiais e vários clas-sificadores. Comparação entre PCA e Pedaços-por-Valor. 135 6.9 The Structural SIMilarity (SSIM) index, índice de similaridade estrutural para

(18)

(19)

Lista de Abreviaturas e siglas

AFF Autofaces Fracionário

AFFM Autofaces Fracionário Melhorado

AFM Autofaces Melhorado

bpp bits por pixel

BoW Bag of visual words

C4.5 Classificador por árvore de decisão DC Distributional Word Clustering FPCA FractionalPCA (PCA Fracionário)

IG Information Gain

IOC Incremental Orthogonal Centroid

JPEG Joint Photographic Experts Group, formato de arquivo de imagem

kNN k Nearest Neighbor, classificador pelos k vizinhos mais pró-ximos, por exemplo, 1-NN, 3-NN

LDA Linear Discriminat Analysis, Análise do Discriminante Li-near

LSSIM SSIM Local

NFL Nearest Feature Line, classificador pela linha mais próxima NFP Nearest Feature Plane, classificador pelo plano mais

pró-ximo

NFS Nearest Feature Space, classificador pelo subespaço mais próximo

(20)

NN Nearest Neighbor, classificador pelo vizinho mais próximo ORL Base de imagens de face do Olivetti Research Laboratory,

atualmente AT&T

PCA Princial Component Analysis (Análise dos Componentes Principais)

PNG Portable Network Graphics, formato de arquivo de imagem

PP Pedaços-por-Posição

PV Pedaços-por-valor

PVF Pedaços-por-valor Fracionário

PVFM Pedaços-por-valor Fracionário Melhorado PVM Pedaços-por-valor Melhorado

SSIM The Structural SIMilarity (SSIM) index, índice de similari-dade estrutural

SU symmetric uncertainty

SVM Support Vector Machine, classificador por máquina de vetor de suporte

UCI University of California Irvine Machine Learning Reposi-tory

UMIST Base de imagens de face da University of Manchester Insti-tute of Science and Technology, atualmente The University of Sheffield

(21)

Lista de Algoritmos

3.1 Redução de dimensionalidade com PCA 64

3.2 Redução de dimensionalidade com FPCA (PCA Fracionário) 66 3.3 Redução de dimensionalidade com Autofaces (AF) 67 3.4 Redução de dimensionalidade com Autofaces Fracionário (AFF) 69 3.5 Redução de dimensionalidade com Autofaces Fracionário Melhorado (AFFM) 70 3.6 Redução de dimensionalidade com Autofaces Melhorado (AFM) 71

(22)

(23)

Sumário

1 Introdução 21

1.1 Objetivos 25

1.2 Hipóteses e questões da pesquisa 26

1.3 Estrutura da Tese 27 2 Estado da arte 29 2.1 Reconhecimento de faces 29 2.2 Waveletfaces 32 2.2.1 Experimentos do artigo 34 2.2.2 Experimentos replicados 36

2.3 Análise dos Componentes Principais (PCA) 39

2.3.1 Autofaces 42

2.3.2 Teoria da Matriz de Covariância Fracionária 44

2.3.3 PCA e as propostas desta tese 45

2.4 Agrupamento de Características 46

2.4.1 Agrupamento difuso de características auto construtivo para

classifica-ção de textos 47

2.4.2 Seleção baseada em agrupamento em grafo de características 49 2.4.3 Seleção supervisionada de características por agrupamento utilizando

informação mútua condicional 50

2.4.4 AutoSegmentos 51

2.4.5 Outros trabalhos 52

2.5 Maldição da dimensionalidade 54

(24)

3 Autofaces Fracionário 61

3.1 Métodos relacionados 63

3.1.1 PCA Fracionário (FPCA) 64

3.1.2 Autofaces (AF) 65

3.2 Métodos propostos 68

3.3 Autofaces Fracionário (AFF) 68

3.4 Autofaces Fracionário Melhorado (AFFM) 69

3.5 Autofaces Melhorado (AFM) 70

3.6 Conclusão 71

4 Experimentos com Autofaces Fracionário 75

4.1 Configuração para os experimentos 76

4.2 Teste de hipótese por sobreposição de intervalos de confiança 77 4.3 Experimento para PCA Fracionário e Autofaces Fracionário 78

4.4 Experimentos para a base de faces Yale 79

4.5 Experimentos para se escolher o parâmetro fracionário r 81

4.6 Experimentos para a base de faces ORL 84

4.7 Visualização de dados 87

4.8 Conclusão 94

5 Agrupamento de Pixels 97

5.1 Vetor-de-pixel 98

5.2 Definindo um método de extração de características 99

5.3 Exemplo 101

5.4 Pedaços-por-Valor 102

5.4.1 Vetor-de-pixel por valor 103

5.4.2 Agrupamento 103

5.4.3 Extração de Características 104

5.4.4 Número de características extraídas igual ao número de grupos 105 5.4.5 Número de características extraídas menor que número de grupos 106

(25)

SUMÁRIO

5.4.6 Considerações 106

5.5 Pedaços-por-valor Fracionário 107

5.6 Pedaços-por-Posição 108

5.6.1 Vetor-de-pixel por posição 110

5.6.2 Algoritmo de agrupamento 111

5.6.3 Extração de características 112

5.6.4 Considerações 113

5.7 Reconstrução e compressão de imagens 113

5.8 Conclusão 116

6 Experimentos com Agrupamento de Pixels 117

6.1 Resultados no estado-da-arte 117

6.2 Escolhendo o número de características extraídas 120 6.3 Pedaços-por-Valor Fracionário e outros classificadores 121

6.4 Inserindo novas classes 123

6.5 Formando mais grupos do que o número de características 125

6.6 Experimento com dados artificiais 126

6.7 Compressão de imagens 135

6.8 Conclusão 140

7 Conclusões 143

7.1 Conclusões sobre as hipóteses 144

7.2 Trabalhos Futuros em Autofaces Fracionário 145

7.3 Trabalhos Futuros em Agrupamento de Pixels 146

7.4 Considerações finais 149

(26)

(27)

C

APÍTULO

1

Introdução

Reconhecimento de faces é uma tarefa trivial ao ser humano, mas tem sido um desafio para a visão computacional. O reconhecimento pode se dar a partir de três fontes distintas de imagens: vídeos, imagens estáticas 2D e imagens 3D (ZHAO et al., 2003). Nesta tese são abordadas apenas imagens estáticas 2D. Exemplos deste tipo de imagem são fotografias de faces. Embora muitas das informações nos parágrafos seguintes também possam ser aplicadas aos outros tipos de imagens de face, a discussão restringe-se a imagens estáticas 2D.

Um sistema genérico de reconhecimento de faces possui três principais etapas: detecção da face, extração de características e reconhecimento (ZHAO et al., 2003). A detecção de faces consiste em encontrar em qual região da imagem está a face. A extração de características é a etapa que processa a imagem em busca de informações representativas e úteis para classificá-las. Esta etapa depende fortemente da aplicação. Por exemplo, características para reconhecer uma pessoa da foto podem não ser tão úteis para identificar a expressão da face. A etapa de reconhecimento é aquela na qual se utiliza um classificador para realizar ou a tarefa de verificação ou identificação.

Utiliza-se a seguinte definição de classificador: um método computacional capaz de apren-der, a partir de exemplos (conjunto de treinamento), a classificar novos exemplos (conjunto de teste). Cada exemplo pode ser representado por uma coleção de características extraídas das imagens de face e as classes são definidas pelo problema: nome da pessoa, ou expressão da face etc. A tarefa de verificação consiste em averiguar se aquela imagem representa o que o usuário diz representar, exemplos: autenticação de usuário, verifica se a imagem de um usuário corresponde ou não ao usuário em questão; identificação de sorriso, tenta perceber quando a pessoa está sorrindo ou não (recurso comum em câmeras fotográficas). Quando o reconhe-cimento não é especificado entre identificação ou verificação, entende-se que é identificação. Esta tarefa consiste em classificar a face em uma entre várias opções, exemplos: identificar

(28)

quem é a pessoa da foto; identificar a expressão da face (alegre, triste, nervoso, assustado, entre outras).

Huang et al. (HUANG et al., 2008) propõem, para a identificação de faces, a sequência: detecção, alinhamento e reconhecimento. Antes de realizar o reconhecimento, detecta-se a po-sição da face na imagem e alinha-se a face. Na etapa de detecção, eles optaram por utilizar o algoritmo de Viola & Jones (VIOLA; JONES, 2004, 2001). Portanto Huang et al. focam apenas nas etapas de alinhamento e reconhecimento. Simonyan et al. (SIMONYAN et al., 2013) propõem uma sequência um pouco diferente: detecção de face, detecção de pontos im-portantes da face (olhos, nariz, cantos da boca etc.), registro da face (alinhamento), descritores da face (extração de características) e aprendizado estatístico (reconhecimento). Simonyan et al. também utiliza o algoritmo de Viola & Jones para a detecção e componentes do sistema de reconhecimento desenvolvidos por outros autores nas demais etapas, focando na extração de características.

Cada um destes elementos (detecção, extração de características, reconhecimento) tem um papel importante em um sistema de reconhecimento de faces. Como realizado pelos autores comentados acima (HUANG et al., 2008; SIMONYAN et al., 2013) e por outros (ZHAO et al., 2003; JONES, 2009), as pesquisas focam em resolver problemas em apenas uma etapa. O foco desta tese é a extração de características. Para tanto assume que estas etapas de pré-processamento estão resolvidas: a imagem recebida como entrada está devidamente recortada e alinhada. E na etapa de reconhecimento utiliza classificadores propostos por outros autores.

Jones (JONES, 2009) analisa vários artigos desenvolvidos em reconhecimento de faces e enumera os problemas desta tarefa: iluminação irregular na foto, pose (rotação da cabeça), expressão do rosto, envelhecimento/crescimento da pessoa, alinhamento impreciso. Dentre estes problemas a pose é um problema bastante severo, pois a imagem do perfil de uma face é bem diferente da imagem frontal da mesma face, uma abordagem para corrigir este problema é proposta por Yi et al. (YI; LEI; LI, 2013), um modelo para mapear imagens 2D em um modelo 3D de face. Na presente tese também é assumido que as imagens não apresentam problemas severos de pose e alinhamento, e que as técnicas propostas poderiam ser utilizadas em qualquer base se estes problemas fossem corrigidos com algum pré-processamento como o proposto por

(29)

CAPÍTULO 1 INTRODUÇÃO 23

Yi et al.

É válido enfatizar que as imagens de face utilizadas aqui são: estáticas, 2D, em tons de cinza, recortadas e contendo apenas a região da face, bem centralizadas, sem sérios problemas de pose e rotação da cabeça, contendo algum problema de iluminação. Assume-se a represen-tação de uma imagem como uma matriz onde cada posição da matriz é denominada pixel e tem seu valor em um intervalo, geralmente [0, 255]. Com estas restrições, as imagens de face são dados de alta dimensionalidade em que muitas variáveis são correlacionadas. Os dados têm alta dimensionalidade porque cada pixel da imagem é considerado uma característica e mesmo para imagens pequenas o número de pixels é muito alto, por exemplo, uma imagem 100 × 100 tem 10.000 características.

A expressão alta dimensionalidade também é empregada quando o número de característi-cas é muito maior que o número de exemplos de treino (HASTIE; TIBSHIRANI; FRIEDMAN, 2001), o que também ocorre com as imagens de face. Esses dados têm muitas características correlacionadas porque várias regiões da imagem têm intensidade de pixels semelhantes, por exemplo os pixels na região de: pelo, cabelo, olhos, barba etc. Desta maneira a extração de ca-racterísticas tem o objetivo não apenas de gerar novas caca-racterísticas discriminantes (capaz de melhor separar as classes), como também reduzir a dimensionalidade do problema, por exem-plo, de 10.000 para 40 características (cada característica é interpretada como uma dimensão). Pode-se assumir que os pixels de cada imagem representam regiões correspondentes. Por exemplo, um pixel que representa uma região na bochecha de uma pessoa deve representar também a região da bochecha na maioria das imagens. Com as faces alinhadas desta ma-neira, faz sentido compará-las através de uma medida de distância, como a distância Euclidiana, por exemplo. Desta maneira, também restringem-se os algoritmos de classificação utilizados. Utiliza-se principalmente o classificador pelo vizinho mais próximo (1-NN, 1-Nearest Neigh-bor), o qual atribui para uma nova imagem de face a mesma classe da imagem mais próxima de acordo com a distância Euclidiana.

Uma vez delimitados os demais elementos do sistema de reconhecimento de faces, são propostos algoritmos de extração de características para reduzir as dimensões destes dados de alta dimensionalidade. Tais algoritmos são não-supervisionados, isto é, não dependem dos

(30)

rótulos das classes das amostras de treino. Um dos grupos de algoritmos propostos foram inspirados no método Waveletfaces (CHIEN; WU, 2002). Após uma análise detalhada deste método percebeu-se que a simples redução da imagem funciona muito bem como extração de característica, não diminuindo o erro de classificação até um certo limite de redução.

Como reduzir a imagem não impacta a taxa de reconhecimento de faces? Na tentativa de explicar esse fenômeno é proposta nesta tese a metodologia de Agrupamento de Pixels. Esta metodologia coloca em um mesmo grupo os pixels com intensidade semelhante em todas as imagens do conjunto de treinamento. Cada grupo define uma região cuja média em cada ima-gem é uma característica extraída. Na literatura foram encontrados trabalhos semelhantes à proposta de agrupamento de pixels, chamadas Agrupamento de Características. A grande mai-oria deste trabalhos foca na tarefa de reconhecimento de texto, apenas os trabalhos de Avidan et al. (AVIDAN, 2002; AVIDAN; BUTMAN, 2004) e Song et al. (SONG; NI; WANG, 2013) uti-lizam bases de dados de faces. Apenas o trabalho Eigensegments (AVIDAN, 2002) de Avidan aborda diretamente o problema de identificação de faces. Diferentemente do método proposto nesta tese, Avidan extrai características utilizando utilizando Eigenfaces (TURK; PENTLAND, 1991).

Para comparar os métodos propostos, utilizou-se uma das técnicas de extração de caracte-rísticas mais conhecidas para o reconhecimento de faces, o Autofaces (ou Eigenfaces) (TURK; PENTLAND, 1991). Este extrator de características é uma versão da Análise dos Componentes Principais (PCA, Principal Component Analysis) para dados de alta dimensionalidade. Consi-derando a Teoria da Matriz de Covariância Fracionária e as projeções mais discriminantes para a classificação quanto utilizada no método no estado da arte PCA Fracionário (GAO; ZHOU; PU, 2013), foi proposto o método de Autofaces Fracionário. Esta é uma contribuição desta tese já publicada nos anais da IEEE International Conference on Image Processing (CARVALHO et al., 2014).

(31)

1.1 OBJETIVOS 25

1.1 Objetivos

O número muito alto de dimensões se torna um fator limitante para a tarefa de classificação. Este fenômeno é conhecido como maldição da dimensionalidade (Seção 2.5). Reduzir a di-mensionalidade dos dados é uma forma de aumentar a taxa de classificações corretas. Existem diversas maneira de reduzir a dimensionalidade. Um paradigma muito comum é através de projeções lineares.

Uma amostra (ou padrão, ou exemplo) é representado por um vetor x. No problema de reconhecimento de faces, este vetor contém todos os valores de intensidade dos pixels de uma imagem de face. Um exemplo x0com sua dimensão reduzida pode ser calculado projetando o exemplo original x através da multiplicação com a matriz de projeção W :

x0= W x. (1.1)

O método de extração de características mais utilizado no reconhecimento de faces, Auto-faces, realiza uma projeção linear. Da mesma forma fazem Waveletfaces e PCA Fracionário.

O objetivo geral nesta tese é propor novos métodos de extração de características a partir de métodos de extração de características tais como Autofaces, PCA Fracionário, Waveletfaces, além de métodos baseados em Agrupamento de Características,.

Os objetivos específicos são:

• restringir a pesquisa a problemas com dados de alta dimensionalidade e que possuem muitas características correlacionadas, em particular dados de imagens de faces correta-mente detectadas e alinhadas;

• levantar hipóteses de como os métodos de origem remediam o problema especificado; • propor novos métodos utilizando as hipóteses levantadas;

• restringir os métodos proposto a transformações lineares (Equação 1.1) como os métodos de origem;

(32)

• ajustar os métodos propostos para obter acurácia no reconhecimento de faces maior ou equivalente à acurácia obtida nos métodos dos quais são derivados.

1.2 Hipóteses e questões da pesquisa

Foram consideradas quatro hipóteses. As duas primeiras são provenientes do Waveletfaces, as outras duas da Teoria da Matriz de Covariância Fracionária. A conexão entre Waveletfaces e a Teoria da Matriz de Covariância Fracionária é a técnica de referência para extração de características para o reconhecimento de faces: Autofaces. As hipótese são listadas a seguir.

1. O método Waveletfaces pode ser interpretado como um método de agrupamento de ca-racterísticas.

2. É possível definir uma generalização para Waveletfaces. A partir desta generalização é possível definir outros métodos de extração de características.

3. A Matriz de Covariância Fracionária pode ser utilizada em problemas de extração de ca-racterísticas em dados de alta dimensionalidade. Em outras palavras, é possível estender o PCA Fracionário para problemas de alta dimensionalidade.

4. É possível isolar a transformação realizada nos dados para se computar a Matriz de Co-variância Fracionária. Esta transformação fracionária pode ser utilizada em outras etapas da extração de características além da construção da Matriz de Covariância Fracionária. Waveletfacespode ser interpretado como uma redução da imagem. Como a simples redução pode ser tão conveniente para a classificação? Informação é perdida com a redução da imagem. E por que esta informação eliminada parece ser quase irrelevante para a classificação? Disto surge a primeira hipótese: pouca informação é perdida pois cada característica extraída é a média de características semelhantes. Waveletfaces pode ser interpretado como um método de agrupamento de características. Qual algoritmo de agrupamento geraria estas regiões? É possível construir transformações lineares como as do Autofaces?

(33)

1.3 ESTRUTURA DA TESE 27

Se é possível definir Waveletfaces como um método de Agrupamento de Características, é possível generalizar um método para extração de características do qual Waveletfaces se tor-naria um caso particular? A partir desta generalização é possível definir um novo método de extração de características? Estas questões formaram a segunda hipótese da tese. Como respos-tas a essas questões foram propostos dois métodos de extração de características. Tais métodos extraem características como projeções lineares, inspirados na técnica de referência Autofaces. Uma vez que Autofaces (PCA) é uma das técnicas mais utilizadas para extração de caracterís-ticas para reconhecimento de faces, é muito importante compará-la com as técnicas propostas nesta tese.

Também foi considerada a contribuição do PCA Fracionário para o reconhecimento de faces. Tal método, contudo, apresentava a limitação de não conseguir tratar com dados de alta dimensionalidade. Era necessário reduzir as imagens de face. Tal procedimento em si já era uma transformação nos dados, como demonstrado pelo Waveletfaces. Será que a Teoria da Matriz de Covariância Fracionária também pode ser aplicada a dados de alta dimensionalidade? Desta questão surge a terceira hipótese da tese.

No esforço de estender o PCA Fracionário para problemas de alta dimensionalidade, foi percebido que a Matriz de Covariância Fracionária pode ser calculada mais facilmente se os dados forem pré-processados de uma maneira específica. Chama-se este pré-processamento de Transformação Fracionária. Esta transformação no PCA Fracionário é utilizada apenas para se construir a Matriz de Covariância Fracionária. E se fossem projetados os dados transformados e não os dados brutos? Desta questão surge a quarta hipótese desta tese. Na seção seguinte está uma descrição do restante do conteúdo da tese.

Na seção seguinte está uma descrição do restante do conteúdo da tese.

1.3 Estrutura da Tese

O restante da tese está organizada da seguinte forma:

(34)

apre-senta uma revisão da literatura dos métodos relacionados a este trabalho. Revisando o método de Waveletfaces. Depois, revisa os métodos PCA, Autofaces e teoria da matriz de covariância fracionária, fazendo uma lista de notas e comentários sobre peculiaridades do método, inclusive relacionadas com o agrupamento de características. São comentados alguns métodos de redução de dimensionalidade baseados em agrupamento de caracte-rísticas. Também é discutida a maldição da dimensionalidade.

Capítulo 3: Descreve as propostas dos métodos Autofaces Fracionário, extensões do PCA Fracionário para dados de alta dimensionalidade. Partindo do PCA, PCA Fracionário e do Autofaces (AF), são definidos outros três métodos de extração de características: Autofaces Fracionárias (AFF), Autofaces Fracionário Melhorado (AFFM) e Autofaces Melhorado (AFM).

Capítulo 4: Apresenta uma avaliação experimental das propostas do capítulo anterior no re-conhecimento de faces. Neste capítulo são comparados PCA Fracionário, Autofaces, Autofaces Fracionárias, Autofaces Fracionário Melhorado e Autofaces Melhorado. Capítulo 5: Neste capítulo é proposta a metodologia de Agrupamento de Pixels para

redu-ção de dimensionalidade em imagens. Com a metodologia proposta são definidos dois principais métodos de redução de dimensionalidade: por-Valor (PV) e Pedaços-por-Posição (PP). Além disto, é discutido como pode ser aplicado ao reconhecimento de faces e à compressão de imagens.

Capítulo 6: Apresenta uma avaliação experimental das propostas de Agrupamento de Pixels tanto para o reconhecimento de faces como para a compressão de imagens. Além de experimentos com dados artificiais.

(35)

C

APÍTULO

2

Estado da arte

Neste capítulo é realizada uma revisão de algumas técnicas de extração de características que estão relacionadas com esta tese. Waveletfaces é a técnica de extração de características para reconhecimento de faces que foi o ponto inicial deste trabalho. Análise dos Componentes Prin-cipais (PCA, Principal Component Analysis) é uma técnica estatística que extrai característica mantendo o máximo possível de variância dos dados. Este método é amplamente utilizado para o reconhecimento de faces, também é a base para o método no estado da arte: PCA Fracionário. Baseado nas análises sobre Waveletfaces e PCA, considerando as hipóteses levantadas, foram revisados os métodos de redução de dimensionalidade baseados em Agrupamento de Caracte-rísticas. No final do capítulo é abordada a maldição da dimensionalidade. Antes de discutir sobre as técnicas extração de características, é realizada uma breve revisão sobre reconheci-mento de faces.

2.1 Reconhecimento de faces

Reconhecimento de faces é uma tarefa que pode ser utilizada em várias aplicações, tais como: jogos eletrônicos; interação com o computador; identificação de passaporte; identificação e autenticação biométrica; aplicações de segurança; controle de usuários em computadores e dispositivos móveis. Em comparação com outras opções de identificação biométrica, tais como íris ou impressões digitais, o reconhecimento de faces apresenta a vantagem de não ser invasivo. Por não requerer cooperação do usuário, pode ser empregado com mais facilidade.

Estas técnicas podem ser empregadas em imagens estáticas bem controladas, como fotos da carteira de identidade. Também podem ser aplicadas a vídeos sem qualquer controle, como em uma câmera de vigilância. Em termos de tarefas, pode-se identificar mais de uma pessoa por

(36)

Imagem

Estática Vídeo

3D 2D

Figura 2.1 Diagrama de tipos de imagens utilizadas no reconhecimento de faces. Em destaque o nosso dado de interesse: imagem estática 2D.

foto, ou ainda reconhecer outros padrões, como idade, sexo e raça. Com tantas possibilidades de aplicações e tipos de dados, existem especializações destas técnicas para problemas especí-ficos. O objetivo desta seção é contextualizar os métodos estudados e propostos nesta tese em um sistema de reconhecimento de faces.

O problema de reconhecimento se dá em imagens estáticas ou imagens de vídeo. As ima-gens estáticas podem ser 2D ou 3D. O tipo de imaima-gens consideradas neste estudo são imaima-gens estáticas 2D, como descrito na Figura 2.1. Um sistema de reconhecimento de faces envolve três passos principais segundo Zhao et al. (2003): (1) detecção e segmentação das imagens; (2) extração de características; (3) reconhecimento (identificação ou verificação). Este passos estão descrito na Figura 2.2. Tais etapas são gerais o suficiente para englobar outros esquemas, como os propostos por Huang et al. (2008) e Simonyan et al. (2013).

Huang et al. (HUANG et al., 2008) propõem, para a identificação de faces, a sequência: detecção, alinhamento e reconhecimento. Antes de realizar o reconhecimento, detecta a posição da face na imagem e alinhar a face. Simonyan et al. (SIMONYAN et al., 2013) propõem uma sequência um pouco diferente: detecção de face, detecção de pontos importantes da face (olhos, nariz, cantos da boca etc.), registro da faces (alinhamento), descritores da face (extração de características) e aprendizado estatístico (reconhecimento).

(37)

2.1 RECONHECIMENTO DE FACES 31 Reconhecimento De Faces Detecção de Faces Extração de Características Imagem Estática 2D Identificação Verificação Holística Local Híbrida Autofaces Waveletfaces Agrupamento de Pixels Autofaces Fracionário

Figura 2.2 Diagrama de fluxo de um sistema de reconhecimento de faces. Este estudo foca em técnicas de extração de características holísticas para identificação de faces.

etapa de extração de característica calcula, a partir da imagem segmentada, informações que serão utilizadas no reconhecimento. A etapa final, reconhecimento, é aquela que fornece a resposta, que pode ser de dois tipos: identificação ou verificação. Verificação consiste em conferir se um determinado usuário é quem ele realmente diz ser. Identificação consiste em descobrir a identidade do usuário. Os métodos estudados nesta tese são métodos de extração de características, estes são avaliados na tarefa de identificação. As bases de dados utilizadas recebem como entrada imagens já segmentadas, portanto não é necessário realizar detecção. E a etapa de identificação é realizada por classificadores propostos por outros autores.

Abordagens de extração de características para o reconhecimento de faces são divididas em três grupos: holística, local e híbrida (ZHAO et al., 2003). A abordagem holística é a utilizada neste tese. Nesta abordagem, a imagem da face inteira é utilizada como entrada. Na abordagem local são extraídas características para regiões específicas da face, como olhos, boca e nariz. E a abordagem híbrida configura-se como uma combinação das duas anteriores. Autofaces (Eigen-faces) (TURK; PENTLAND, 1991) é a principal técnica na abordagem holística. Outra técnica

(38)

que será discutida adiante chama-se Waveletfaces (CHIEN; WU, 2002). Ainda na Figura 2.2 constam as metodologias propostas nesta tese: Agrupamento de Pixel e Autofaces Fracionário.

2.2 Waveletfaces

No artigo “Discriminant Waveletface and Nearest Feature Classifiers for Face Recognition”, Chien e Wu (2002) têm o objetivo de aumentar a taxa de reconhecimento de faces tratando dois aspectos do problema: extrator de características e classificador. Do ponto de vista da classificação, utilizam como referência o classificador de distância pelo vizinho mais próximo 1-NN (ou NN, Nearest Neighbor).

Inspirados no classificador NFL (Nearest Feature Line, linha de característica mais pró-xima), Chien e Wu propõem dois outros classificadores NFP (Nearest Feature Plane, plano de característica mais próxima) e NFS (Nearest Feature Space, espaço de características mais próximo). Enquanto o NN calcula a distância de uma amostra de teste a cada amostra de trei-namento, que é um ponto no espaço de classificação, e atribui, à amostra de teste, a classe do ponto mais próximo. O NFL forma linhas entre pares de pontos de uma mesma classe e atribui o padrão de teste à classe da linha mais próxima do ponto de teste. O NFP define planos para cada três pontos de uma classe e atribui o padrão de teste à classe cujo plano é mais próximo. De forma semelhante, o NFS define um volume para cada quatro pontos de uma classe no conjunto de treino e atribui o padrão de teste à classe do volume mais próximo do ponto que representa o elemento de teste. Todos estes classificadores utilizam a distância Euclidiana e definem combinações lineares das imagens de face de cada classe, criando novos protótipos artificiais para o conjunto de treinamento.

Para extração de características, é proposto por Chien e Wu (CHIEN; WU, 2002) o Wa-veletfacediscriminante, o qual depende da transformada discreta de Wavelet. A transformada discreta Wavelet pode ser interpretada com um algoritmo que recebe como entrada um sinal discreto (um vetor de números) e duas funções, uma de aproximação e outra de detalhes. A função de aproximação é um filtro espacial passa-baixa e a função de detalhes é um filtro

(39)

espa-2.2 WAVELETFACES 33

cial passa-alta (GONZALEZ; WOODS, 2006). Após a convolução do sinal com cada uma das funções têm-se duas versões do sinal: uma aproximação, a qual contém as baixas frequências; e o uma de detalhes que contém as altas frequências. Por final, cada uma das duas versões do sinal são sub-amostradas. Se o sinal de entrada tem n observações, cada um dos sinais de saída após serem sub-amostrados tem n/2 observações. Observa-se que a saída tem n observações, metade de aproximação e metade de detalhes.

Para ser aplicada a imagens digitais representada por matrizes, a transformada Wavelet deve ser primeiro aplicada às colunas depois às linhas dos resultados da primeira decomposição − também poderia ser aplicado primeiro às linhas depois às colunas dos resultados. Após aplicar a transformada às colunas da imagem m × n de entrada, são geradas duas matrizes (m/2) × n: uma de aproximação Yle outra de detalhe Yh, como na Figura 2.3. Para cada uma destas,

aplica-se agora a transformada às linha gerando quatro imagens (m/2) × (n/2): de Yl são geradas Yll

e Ylh, respectivamente a aproximação da imagem e os detalhes verticais; de Yhsão geradas Yhl

e Yhh, respectivamente os detalhes horizontais e diagonais.

Para o Waveletface utiliza-se apenas a aproximação final da imagem Yll. Chien e Wu (2002)

justificam esta escolha por afirmar que a aproximação contém mais energia. Yll é chamado o

primeiro nível da Waveletface, pode-se determinar o segundo nível achado a aproximação desta aproximação aplicando a mesma transformação a Yll. Assim também são definidos os demais

níveis, terceiro, quarto etc. Em (CHIEN; WU, 2002) a Waveletface padrão é definida como o terceiro nível de aproximação. E o Waveletface discriminante é o Waveletface com a dimensão reduzida pela projeção LDA. Análise do discriminante linear (Linear Discriminat Analysis, LDA) encontra uma projeção linear que maximiza a separação das classes.

O par de funções Wavelet de aproximação e de detalhe podem ser vários, estes são definidos e acordo com algumas restrições (GONZALEZ; WOODS, 2006). As funções Wavelet mais comuns são as Wavelets de Haar, as mesmas utilizadas por Chien e Wu (2002). A aproximação Y_ll de uma imagem utilizando tais funções são equivalentes a reduzir a imagem à metade da altura e metade da largura, em que a intensidade de cada pixel na imagem reduzida é a média dos quatro vizinhos. Portanto, o primeiro nível da Waveletface é a imagem reduzida para 1/2 da altura e 1/2 da largura; o segundo nível 1/4 da largura e altura; o terceiro nível, 1/8 da largura

(40)

X

G

2 Y

h

G

2 Y

hh

H

2 Y

hl

H

2 Y

l

G

2 Y

lh

H

2 Y

ll

Decomposição

dos vetores

coluna

Decomposição

dos vetores

linha

Figura 2.3 Diagrama de funcionamento da transformada Wavelet 2D, adapatado de (CHIEN; WU, 2002).

e altura; o nível k, 1/2k da altura e largura. Muito embora o modelo proposto por Chien e Wu (2002) utilize a transformada Wavelet para definir que a imagem é simplesmente reduzida, deve-se estar ciente de que é apenas isto que acontece na prática. A proposta principal de Chien e Wu (2002) não é apenas reduzir a imagem através da transformada, mas também aplicar o LDA. Pelos experimentos a seguir, será visto que apenas a redução da imagem contribuiu para a melhorar a taxa de reconhecimento de faces, mesmo sem definir as projeções discriminantes através do LDA .

2.2.1 Experimentos do artigo

Esta subseção tem o objetivo de discutir alguns dos resultados de Chien e Wu (2002): a simples redução das imagens pode melhorar o reconhecimento. Em seu artigo, foram utilizadas duas

(41)

2.2 WAVELETFACES 35

bases de faces: IIS1e ORL2. As imagens da base IIS têm dimensões 92 × 104. Foram retiradas 30 imagens de face por classe para 128 pessoas (classes), um total de 3.840 imagens. Destas, 6 imagens de cada classe foram utilizadas para treino e as outras 24 para teste. A base ORL tem 10 imagens por classe e 40 classes, total de 400 imagens. Destas, 5 images de cada classe foram utilizadas para treino e as demais para teste. A média da taxa de acerto foi calculada para 10 rodadas deste tipo de experimento. Como citado anteriormente, foi utilizada a Wavelet de Haar.

No primeiro experimento (apenas para a base IIS) os autores comparam Autofaces com Waveletfaceno nível 3 e no nível 4. Para Waveletfaces no nível 3 afirma que as imagens são reduzidas para 12 × 13 = 156 características. As taxas de acerto são 91,2% para Autofaces com 156 características; 91,9% e 88,9% para Waveletface nível 3 e 4. Tais resultados são interessantes, pois a simples redução da imagem apresentou um efeito melhor/equivalente que o Autofaces para a classificação destes padrões faces.

Pela Tabela 2.1, percebe-se que o Waveletfaces obtém taxa de acerto maior do que o Au-tofaces, para o classificador NN. O mesmo pode ser notado para as versões discriminantes destes métodos. Outra informação interessante é como os classificadores de distância NFL, NFP e NFS são capazes de melhorar a taxa de reconhecimento para o Waveletfaces discrimi-nante. Para este experimento, o Waveletfaces e o Autofaces têm 156 dimensões para a base IIS e 12 × 14 = 168 para ORL. As versões discriminantes dos métodos têm 60 dimensões. Nesta tabela, o classificador MLP (Multilayer Perceptron, perceptron multicamadas), que é um classificador que segue o paradigma de redes neurais, é utilizado. O resultado utilizando MLP é uma boa referência para verificar eficácia dos classificadores baseados em distância, pois é um classificador robusto que segue um paradigma de aprendizagem distinto dos classificado-res baseados em distância. Os experimentos semelhantes a estes estão descritos na seção que segue.

1_{http://smart.iis.sinica.edu.tw/, Institute of Information Science (IIS) que pertence à Academia Sinica, Taiwan.} 2_{http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html, Olivetti Research Laboratory (ORL).}

(42)

Tabela 2.1 Taxa de reconhecimento em % para as bases de faces IIS e ORL, adaptada de (CHIEN; WU, 2002).

Método IIS ORL

Autofaces + NN 91,2 92,0 Autofaces discriminantes + NN 91,4 93,5 Waveletfaces+ NN 91,9 92,5 Waveletfacesdiscriminante + NN 93,1 94,5 Waveletfacesdiscriminante + MLP - 94,5 Waveletfacesdiscriminante + NFL 95,4 95,0 Waveletfacesdiscriminante + NFP 95,7 95,8 Waveletfacesdiscriminante + NFS 96,4 96,1 2.2.2 Experimentos replicados

Esta subseção tem o objetivo de discutir alguns dos resultados de experimentos replicados, similares aos de Chien e Wu (2002). Foi necessário replicar os experimentos para averiguar algumas informações experimentais omitidas por Chien e Wu. Também pretende verificar o quanto a redução é boa para o reconhecimento, e se existe realmente vantagem na versão dis-criminante de Waveletfaces. Aqui foi utilizada apenas a base ORL, pois a base IIS não estava mais disponível. Apenas alguns resultados do experimento completo são descritos nesta se-ção, estes resultados são provenientes do relatório técnico (CARVALHO, 2008). O primeiro dos experimentos compara a taxa de acerto para o classificador NN utilizando as imagens sem processamento e Waveletfaces nos níveis de 1 a 5. Os resultados estão descritos na Tabela 2.2. Vale ressaltar que o Waveletfaces utiliza as funções Wavelets de Haar, que neste caso, equivale a reduzir as imagens em metade da altura e metade de largura da wavelefaces do nível anterior. Neste experimento, se o número de linhas e colunas é ímpar o pixel extra de cada linha ou coluna é descartado.

Observa-se na Tabela 2.2 que a taxa de acerto aumenta, ainda que muito pouco, quando a imagem (e o número de características) diminui até o Waveletfaces nível 3. Observe que esta diminuição não é sempre vantajosa pois o desvio padrão também aumenta. Para o Waveletfa-cesnível 5 a taxa de acerto cai significativamente. Para o Waveletfaces nível 4 a taxa de acerto diminui pouco e o desvio padrão cresce pouco em relação ao nível anterior. Portanto este nível 4 (com 35 dimensões) e não o nível 3, como em (CHIEN; WU, 2002), foi escolhido para os

(43)

ex-2.2 WAVELETFACES 37

perimentos que seguem. Outras diferenças em relação ao trabalho de Chien e Wu (2002) é que o nível 3 tem 11 × 14 = 154 dimensões aqui contra 168 dimensões originalmente utilizadas no artigo, pois nestes experimento as regiões de borda com menos de quatro pixel são descartadas. As versões discriminantes (utilizando LDA) têm 60 dimensões no artigo original e aqui apenas 14, isto porque os experimentos desta subseção são retirados de (CARVALHO, 2008) que tinha o objetivo de obter maior redução possível com um nível equivalente de reconhecimento.

Tabela 2.2 Média da taxa de reconhecimento (em %) com indicação do desvio padrão, para as bases de faces ORL das imagens sem transformação e nos 5 níveis de Waveletfaces utilizando o classificador NN, retirada de (CARVALHO, 2008).

Método altura × largura características acerto médio ± desv. pad.

Waveletfacesnível 5 2 × 3 6 74,80 ± 2,84

Waveletfacesnível 1 46 × 56 2.576 94,65 ± 1,20

Imagem sem transformação 92 × 112 10.304 94,25 ± 0,81

Tabela 2.3 Média da taxa de reconhecimento (em %) para as bases de faces ORL com indicação do desvio padrão para Autofaces discriminante e Waveletfaces discriminante com 13, 14 e 15 características extraídas utilizando o classificador NN, retirada de (CARVALHO, 2008).

Número de características

Método 13 14 15

Autofaces discriminante 92,50 ± 2,71 92,60 ± 2,57 92,35 ± 2,52 Waveletfacesdiscriminante 93,85 ± 1,87 94,00 ± 1,75 94,00 ±1,82

Tabela 2.4 Taxa de reconhecimento (em %) para as bases de faces ORL com indicação do desvio padrão para Autofaces, Autofaces Discriminante, Waveletfaces e Waveletfaces discriminante para os classificadores NN, NFL, NFP e NFS, retirada de (CARVALHO, 2008).

Método NN NFL NFP NFS

Autoface 93,6±1,85 94,8±1,70 94,6±0,99 94,3±1,05 Autoface discriminante 92,6±2,57 94,0±2,17 91,9±2,40 91,3±2,17 Waveletfaces 93,9±1,72 95,2±1,63 95,9±1,19 96,0±1,12 Waveletfacesdiscriminante 94,0±1,75 94,4±1,76 93,9±1,34 93,0±1,40

O restante dos experimentos que seguem têm o objetivo não apenas de comparar Wavelet-faces e Autofaces, mas também suas versões discriminantes. É importante verificar as reais

(44)

vantagens do Waveletfaces uma vez que alguns dos métodos propostos aqui baseiam-se nesta técnica. O experimento que segue tem o objetivo de definir o número de características para a versão discriminante. Na Tabela 2.3 são comparadas as versões discriminantes com 13, 14 e 15 características extraídas com LDA a partir do Waveletfaces nível 4 e o Autofaces com 35 características. É utilizando o classificador NN. Para ambos os métodos a versão discriminante com maior taxa de acerto utiliza 14 características, portanto as versões discriminantes aqui têm 14 dimensões.

Na Tabela 2.4 comparam-se para os quatro classificadores baseados em distância (NN, NFL, NFP, NFS) os quatro métodos (Autofaces, Waveletfaces e suas versões discriminantes). As versões discriminantes, que utilizam apenas 14 características, geralmente apresentam taxa de acerto menor que as versões canônicas, com 35 características. O método que apresentou os melhores resultados de taxa de acerto para todos os métodos foi o Waveletfaces nível 4, isto é a imagem reduzida para 1/16 de sua altura de 1/16 de sua largura. Os resultados para este método utilizando 35 características são equivalentes aos Waveletfaces discriminantes com 60 características de (CHIEN; WU, 2002).

Se o Waveletfaces com menos características (35 características) é capaz de extrair infor-mação suficiente para equiparar o reconhecimento do Waveletfaces discriminante (60 carac-terísticas), pode-se conjecturar que não é de fato o método discriminante que melhora a taxa de acerto, é o Waveletfaces que extrai características adequadas para a classificação. Deve-se também notar que os experimentos replicados utilizam muito poucas características (apenas 14) para o Waveletfaces discriminante, o que pode ser a razão de sua taxa de acerto mais baixa. Finalmente, percebe-se que a simples redução da imagem foi bastante adequada como método de extração de características, obtendo acurácia mais alta que o método Autofaces.

Partindo desses experimentos e entendendo que o componente de baixa frequência da trans-formada Wavelet de Haar aplicada a uma imagem é apenas uma versão reduzida da imagem, percebe-se que não há grande perda na acurácia do reconhecimento pelo fato de se reduzir as imagem. A possível explicação, a qual será analisado nas próximas seções, é que isto se dá pelo fato de agrupar pixels (características) semelhantes, que além de não perder informação evita redundância ou viés para alguma variável que se repete muito. Esta é a primeira

(45)

hipó-2.3 ANÁLISE DOS COMPONENTES PRINCIPAIS (PCA) 39

tese da tese. Antes de revisar o estado da arte dos métodos baseados em Agrupamento de Características, é feita uma revisão do método de referência PCA.

2.3 Análise dos Componentes Principais (PCA)

PCA, do inglês, Principal Component Analysis (Análise dos Componentes Principais), também conhecida como Transformada Karhunen-Loève (THEODORIDIS; KOUTROUMBAS, 2008), é uma técnica que projeta linearmente os dados para um subespaço de menor dimensionali-dade. Seja xi, i = 1, . . . , n, o i-ésimo vetor coluna que representa uma amostra do conjunto de

treinamento. Assume-se que cada variável tem média zero. Pode-se ajustar a média para zero subtraindo o vetor médio de cada amostra. A amostra projetada para uma dimensão menor utilizando PCA é y_i:

y_i= ATxi. (2.1)

Cada coluna de A é um vetor do subespaço onde xié projetado. Cada variável yi j de yié uma

projeção de xi sobre o vetor da k-ésima coluna de A. Já que a média do conjunto de treino

é zero, 1_n∑n_i=1xi= 0, e por cada característica de yi ser uma combinação linear de xi, temos

que a média das amostras projetadas também é zero, 1_n∑ni=1yi= 0. Sendo assim a matriz de

covariância estimada a partir dos dados projetados é Sy:

Sy= 1 n n

∑

i=1 y_iyT_i = 1 n n

∑

i=1 ATxixTi A= ATSxA, (2.2)

em que Sx = 1_n∑ni=1xixT_i é a matriz de covariância estimada para os dados de entrada. Se as

colunas de A são os autovetores ortonormais de Sx, então Sy é uma matriz diagonal Λ onde

cada elemento da diagonal λj, j = 1, . . . , m, é um autovalor de A (m é o número de dimensões

dos dados originais):

Sy= ATSxA= Λ =      λ1 0 . .. 0 λm      . (2.3)

(46)

Se os elementos fora da diagonal são todos zero, isto significa que a covariância entre quaisquer duas variáveis distintas entre os dados projetados é zero, então a correlação é zero. Conclui-se que todas as variáveis são não correlacionadas após a projeção linear realizada pelo PCA. Percebe-se também que o autovalor λjé a variância da j-ésima nova variável.

Para realizar redução de dimensionalidade não se utilizam todas as colunas de A, utiliza-se apenas uma quantidade p < m. Convenciona-se sempre, ao menos que explicitamente infor-mado, que a primeira coluna de A é correspondente ao autovetor de maior autovalor associado e que a segunda coluna de A corresponde ao autovetor com o segundo maior autovalor associ-ado e assim por diante. As p primeiras colunas são chamadas de os componentes principais. Desta forma a redução de dimensionalidade pelos componentes principais se dá projetando uma amostra xi através da matriz Ap que contém apenas as p primeiras colunas de A. Estas

colunas são os autovetores de Sxcom os maiores autovalores:

y_i= AT_pxi. (2.4)

Existem várias vantagens em utilizar PCA para a redução de dimensionalidade, das quais são listadas apenas algumas (THEODORIDIS; KOUTROUMBAS, 2008):

As novas variáveis não são correlacionadas. Como discutido sobre a Equação 2.3, as carac-terísticas extraídas são não correlacionadas. Isto indica que nenhuma dessas variáveis pode ser predita por um transformação linear a partir das outras. Isto é uma enorme vantagem pois pode-se selecionar qualquer subconjunto destas variáveis sem preocupar-se com redundância de informação entre as características escolhidas (THEODORIDIS; KOUTROUMBAS, 2008).

Os dados estão o mais espalhados o possível no espaço de dimensão menor. O autovetor de maior autovalor representa direção de maior variância no espaço original dos dados. O segundo autovetor é restrito a ser ortogonal ao primeiro e representa a direção com a segunda maior variância no mesmo espaço, e assim por diante (BISHOP, 2006). Por se escolherem os autovetores com os maiores autovalores, as variâncias são maximizadas nas características extraídas, o que pode ser interpretado como um maior espalhamento

(47)

2.3 ANÁLISE DOS COMPONENTES PRINCIPAIS (PCA) 41

Figura 2.4 O gráfico de dispersão para duas classes. Pode-se separar claramente a classe de azul (acima) da vermelha (em baixo). Após calcular a direção de maior variância com PCA, encontra-se uma direção quase horizontal na qual os dados projetados se confundem. Uma direção perpendicular a esta é mais apropriada para a separação das classes. Figura adaptada de (BISHOP, 2006).

dos dados. Isto, porém, não significa maior separação entre classes como pode ser visto na Figura 2.4. Não será aprofundada a discussão sobre se as projeções encontrar pelos PCA são discriminantes, pois PCA vem sendo utilizado para extração de características para classificação a despeito deste fato.

O erro médio quadrático de representação é minimizado. Se a amostra é projetada para ape-nas p < m dimensões, em que m é o número de dimensões inicial do problema, uma amostra xi é representado com uma amostra projetada yi. A reconstrução da amostra a

partir da projeção é ˆxi= ∑pj=1yi jaj, em que ajé a j-ésima coluna de A. Dado isto, o erro

médio quadrático entre o padrão inicial e sua reconstrução é a soma dos m − p autovalo-res, isto é a soma dos autovalores referentes aos autovetores não utilizados na redução de dimensionalidade: 1 n n

∑

i=1 kxi− ˆxik2= m

∑

j=p+1 λj. (2.5)

Deste modo utilizar os autovetores associados às maiores variâncias, permite uma re-construção cujo erro quadrático médio é minimizado. Com isto espera-se que a maior parte da informação se mantenha após a redução de dimensionalidade. Em (THEODO-RIDIS; KOUTROUMBAS, 2008) é afirmado que não existe outra projeção ortonormal

(48)

que obtenha um erro médio quadrático de representação menor que o erro obtido pelo PCA.

Existem muitas discussões de como determinar o número de variáveis ideal a ser extraído com PCA (THEODORIDIS; KOUTROUMBAS, 2008; BISHOP, 2006) mas esta tese não aborda este tema. Também é importante notar que, para fins de classificação, pode-se esco-lher outros autovetores que não aqueles de maior variância mas isto também não faz parte do escopo desta proposta.

2.3.1 Autofaces

Existem problemas de classificação em que o número de variáveis é maior que o número de amostras, e às vezes muito maior. Estes problemas são chamados de problemas de alta dimen-sionalidade. É o caso da classificação de imagens. Se existem apenas n imagens mas cada imagem tem m > n características (geralmente cada pixel é uma característica), existe um su-bespaço linear de dimensão no máximo n − 1 para representar univocamente estas imagens. Neste caso, ao se aplicar PCA serão encontrados m − n + 1 autovalores zero, isto é, variáveis com variância nula. Para tais variáveis o valor é o mesmo em todas as amostras no conjunto de treinamento.

Além de não ser necessário calcular todos os autovetores da matriz de covariância dos da-dos, existe o problema prático de que para imagens muito grandes é impraticável calcular PCA diretamente para esta matriz de covariância. Pois o custo desse cálculo para uma matriz d × d é O(d3) (BISHOP, 2006). A solução encontrada é uma manipulação algébrica que permite calcular os mesmo autovalores não nulos (e respectivos autovetores) a partir de uma matriz m× m. Desta forma a solução torna-se viável para alguns problemas enquanto reduz o custo computacional. Esta técnica tornou-se bastante popular com o nome de Eigenfaces (Autofaces) (TURK; PENTLAND, 1991). Vale ressaltar que esta técnica não extrai nenhuma característica diferente do PCA, apenas permite calcular os componentes principais para dados de alta di-mensionalidade.

(49)

2.3 ANÁLISE DOS COMPONENTES PRINCIPAIS (PCA) 43

Para calcular o PCA, parte-se da matriz de covariância

S_x= 1 n n

∑

i=1 xixTi , (2.6)

que pode ser reescrita como

Sx=

1 nX

T_X_, _(2.7)

na qual X é a matriz n × m onde a i-ésima linha é a amostra xT_i . Como anteriormente, assume-se que as variáveis têm média zero. Sendo uj um dos autovalores de Sx, tem-se

Sxuj= λjui, (2.8)

1 nX

T_X_u

j=λjuj, (2.9)

multiplicando-se à esquerda por X , 1 nX X T_{(X u} j) =λj(X uj), (2.10) 1 nX X T_v j= λjvj, (2.11)

em que vj= X uj. Disto entende-se que vj é autovetor dá matriz X XT, uma matriz n × n em

contraste com XTX que é m × m. Considerando que m >> n, o custo computacional para se calcular os autovetores de X XT é substancialmente menor. Observa-se que X XT tem os mesmos autovalores não nulos de XTX, ou seja, todas as direções relevantes para o PCA podem ser extraídas desta matriz. É trivial calcular via partir de ui, mas o que se deseja é o contrário,

assumindo que os v’s são ortonormais garante-se o mesmo para os u’s por esta transformação:

ui=

1 √

nλi

XTvi. (2.12)

Com isto é possível calcular PCA para dados de alta dimensionalidade com um custo compu-tacional bem menor. Tornando inclusive viável alguns casos em que seria impraticável calcular os autovetores da matriz de covariância original dos dados. Porém com um número de amostra