• Nenhum resultado encontrado

MIMPCA: uma abordagem robusta para extração de características aplicada à classificação de faces

N/A
N/A
Protected

Academic year: 2021

Share "MIMPCA: uma abordagem robusta para extração de características aplicada à classificação de faces"

Copied!
102
0
0

Texto

(1)Universidade Federal de Pernambuco Centro de Informática. Pós-graduação em Ciência da Computação. MIMPCA: uma abordagem robusta para extração de características aplicada à classificação de faces José Francisco Pereira Dissertação de Mestrado. Recife 13 de agosto de 2010.

(2)

(3) Universidade Federal de Pernambuco Centro de Informática. José Francisco Pereira. MIMPCA: uma abordagem robusta para extração de características aplicada à classificação de faces. Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.. Orientador: George Darmiton da Cunha Cavalcanti Co-orientador: Tsang Ing Ren. Recife 13 de agosto de 2010.

(4) Pereira, José Francisco MIMPCA: uma abordagem robusta para extração de características aplicada à classificação de faces / José Francisco Pereira. - Recife: O Autor, 2010. xxii, 77 folhas : il., fig., tab. Dissertação (mestrado) Universidade Federal Pernambuco. CIn. Ciência da Computação, 2010.. de. Inclui bibliografia e apêndice. 1. Inteligência artificial. 2. Aprendizagem de máquina. Título. 006.3. CDD (22. ed.). I.. MEI2010 – 0156.

(5) Dedico este trabalho a uma guerreira fundamental em minha trajetória de vida, sem a qual eu jamais teria alcançado êxito algum: a minha mãe Josefa. Muitíssimo obrigado ‘Dona Nega’..

(6)

(7) Agradecimentos. Primeiramente à família pelo apoio incondicional durante toda a vida, pelo esforço em me dar a infra-estrutura necessária para conquistar meus objetivos. À minha noiva Cintya pelo companheirismo, pelos puxões de orelha nas horas certas, por todas as palavras de ânimo, em fim, obrigado por tudo. Aos "irmãos da faculdade"pelas conversas, distrações, discussões e até brigas que só contribuíram para o meu amadurecimento pessoal, profissional e acadêmico. Como não agradecer também aos demais irmãos-de-vida por tornar estes dois últimos anos, se não os melhores, os mais bem aproveitados da minha vida. Agradeço em especial aos professores George Darmiton e Tsang Ren pela paciência na minha orientação, pelo imprescindível apoio, pelas motivações e por compreender e ajudar a driblar todas as "pedras no caminho"até a defesa deste trabalho.. vii.

(8)

(9) De tudo ficam três coisas: a certeza de que estamos sempre começando... a certeza de que é preciso continuar... a certeza de que seremos interrompidos antes de terminar... portanto, devemos fazer da interrupção um caminho novo... da queda um passo da dança... do medo, uma escada... do sonho, uma ponte... da procura... um encontro. —FERNANDO SABINO.

(10)

(11) Resumo. É crescente a necessidade de controle de acesso a lugares, serviços e informações. É crescente também a busca por soluções mais eficientes na identificação pessoal. Neste contexto, a biometria, que consiste no uso de características biológicas como mecanismo de identificação, tem sido utilizada com resultados bastante promissores. Dentre as informações utilizadas para identificação dos indivíduos podem ser destacadas a íris, a retina, a face, a impressão digital ou até mesmo a geometria da mão. Dentre as biometrias, o reconhecimento de faces destaca-se por ser uma técnica que apresenta ótimos resultados com baixo custo de implantação. Ela pode ser utilizada nos mais diversos tipos de dispositivos e, em sua forma mais simples, não exige hardware dedicado. A técnica destaca-se ainda por não necessitar da interação do usuário ou qualquer tipo de contato físico para captura e classificação das faces. O presente trabalho é focado no reconhecimento de faces baseado em imagens (2D). Mais precisamente o trabalho visa reduzir ou eliminar os efeitos de variações no ambiente ou na própria face que prejudiquem a sua classificação final. As técnicas examinadas e propostas fazem uso da análise de componentes principais (PCA) para extração de características das imagens de faces frontais. Elas baseiam-se em estudos recentes com o objetivo de melhorar as taxas de classificação mesmo sob condições adversas de aquisição de imagens ou oclusão parcial das faces. Os resultados obtidos mostraram uma superioridade nas taxas de acerto das abordagens propostas em relação às suas técnicas-base quando executadas sobre imagens com algum tipo de variação local. Foi constatado também um grande ganho no tempo de processamento das imagens, o que contribui para aplicar as técnicas propostas em dispositivos com menor capacidade computacional. Palavras-chave: Reconhecimento, Face, Verificação, PCA, MIMPCA, MPCA, IMPCA, cMIMPCA, wMIMPCA, k-nn. xi.

(12)

(13) Abstract. There is a growing need for controling access to places, services and information. It also increased the search for more efficient solutions in personal identification. In this context, biometrics, what is the use of biological characteristics as a mechanism for identification, has been used with promising results. Among personal information used for identification can be highlighted the iris, retina, face, fingerprint and even the hand geometry. The face classification stands out for achieving excellent results with low aquisition cost. It can be used in various types of devices and, in its simplest form, does not require dedicated hardware. The technique distinguishes from anothers because it doesn’t require user interaction or any kind of contact. The present work focuses on face classifications based on two-dimensional images. More especifically this work adresses do reduce or avoid enviromental changes or also faces variarions. These kind of variations usually affects final face classification. The proposed techniques use Principal Compnent Analysis (PCA) for feature extraction of frontal face images. They are based on recente researches in face classifications PCA approaches improvements and they addresses to improve the recognition rates even under adverse conditions of image acquisition or partial face occlusion. Obtained results showed that proposed techniques improves the classification rates when compared to based techniques. All experiments were performed over the same face databases and used the same training and testing sets. It was also noticed a considerably redution on computational cost needed to image processing and feature extraction. This features contributes to apply the proposed techniques to small computer devices with low computational power. Keywords: Recognition, Face, Verification, PCA, MIMPCA, MPCA, IMPCA, cMIMPCA, wMIMPCA, k-nn. xiii.

(14)

(15) Sumário. 1. Introdução 1.1 Contexto 1.2 Motivação 1.3 Objetivos 1.4 Estrutura do Trabalho. 1 1 2 3 4. 2. Classificação de Faces 2.1 Como Classificamos Faces - Uma abordagem Biológica 2.2 Sistemas de Classificação de Faces 2.2.1 Arquitetura de um Sistema de Classificação de Faces 2.2.2 Reconhecimento versus Verificação 2.2.3 Estado da arte 2.2.3.1 Fisherfaces 2.2.3.2 Modelos Escondidos de Markov 2.2.3.3 Proximidade de Linha de Características 2.2.3.4 Técnicas baseadas em análise de componentes principais 2.2.3.5 Eigenfaces 2.2.3.6 Análise de Componentes Principais Bidimensional 2.2.3.7 Análise de Componentes Principais Modular 2.2.3.8 Análise de componentes principais baseado em subpadrões SpPCA 2.2.3.9 Análise de componentes principais baseado em subpadrões com pesos adaptativos - Aw-SpPCA. 5 5 7 8 9 10 11 12 13 13 14 16 18. 3. Métodos Propostos 3.1 Modular Image Principal Component Analysis (MIMPCA) 3.1.1 Procedimento de extração de características 3.2 Weigthed Modular Image Principal Component Analysis (wMIMPCA) 3.3 Abordagem Para Verificação de Faces 3.3.1 Class-Modular Image Principal Component Analysis (cMIMPCA) 3.3.2 Procedimento de extração de características. 25 25 26 30 31 31 31. 4. Experimentos, Resultados e Discussão 4.1 Bases de dados 4.1.1 ORL 4.1.2 UMIST. 33 33 33 33 xv. 20 21.

(16) xvi. SUMÁRIO. 4.2. 4.3 5. 4.1.3 Yale Técnicas de Reconhecimento de Faces 4.2.1 Modular Image Principal Component Analysis - MIMPCA 4.2.2 Weighted Modular Image Principal Component Analysis - wMIMPCA Verificação de Faces 4.3.1 Class Modular Image Principal Component Analysis (cMIMPCA). Conclusão 5.1 Considerações Finais 5.2 Limitações e Dificuldades 5.3 Trabalhos Futuros. A Detalhamento dos Resultados A.1 Modular Principal Component Analysis - MPCA A.2 Image Principal Component Analysis - IMPCA A.3 Modular Image Principal Component Analysis - MIMPCA A.4 Weighted Modular Image Principal Component Analysis - wMIMPCA. 34 34 36 39 45 45 55 55 56 56 59 60 63 66 70.

(17) Lista de Figuras. 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8. Uso de informações locais para representação das faces Exemplos de imagens de faces em posição normal e rotacionadas em 180 graus Macro-etapas do processo de classificação de faces Visão geral do processo de reconhecimento de faces Visão geral do processo de verificação de faces HMM para o reconhecimento de faces. Estados e possíveis transições Projeção do ponto x sobre a linha x1 x2 Subdivisão de imagens adotadas pelas técnicas modulares SpPCA e Aw-SpPCA. (Fonte: Artigo que propõe o Aw-SpPCA [Tan05] ). 6 7 9 10 10 12 14. Forma de classificação de faces baseada na classificação de cada subimagem. Forma de classificação baseada na classificações intermediárias de cara região. Conjunto de pesos utilizados para classificação das faces utilizando a técnica wMIMPCA.. 29 29. Exemplos de faces presentes na base de dados ORL. Exemplos de faces presentes na base de dados UMIST. Exemplos de faces presentes na base de dados Yale. Resultados obtidos para diferentes configurações de particionamento das faces para a técnica MIMPCA sobre a base de faces ORL. 4.5 Resultados obtidos nos experimentos com a técnica MIMPCA sobre a base de faces Yale. 4.6 Resultados obtidos nos experimentos com a técnica MIMPCA sobre a base de faces ORL. 4.7 Resultados obtidos nos experimentos com a técnica MIMPCA sobre a base de faces UMIST. 4.8 Comportamento da taxa de acerto das técnicas MPCA, IMPCA e wMIMPCA variando a quantidade de sub-imagens da faces. 4.9 Resumo das taxas de acerto da técnica wMIMPCA para as bases de dados testadas. 4.10 Resultados obtidos nos experimentos com a técnica wMIMPCA sobre a base de faces Yale. 4.11 Resultados obtidos nos experimentos com a técnica wMIMPCA sobre a base de faces UMIST. 4.12 Resultados obtidos nos experimentos com a técnica wMIMPCA sobre a base de faces ORL.. 33 34 34. 3.1 3.2 3.3 4.1 4.2 4.3 4.4. xvii. 22. 30. 36 37 38 39 41 42 42 43 44.

(18) xviii. LISTA DE FIGURAS. 4.13 Curvas ROC exibindo o desempenho das técnicas tradicionais (esquerda) e das técnicas adatadas à verificação de faces (direita) para a base de faces ORL. 4.14 Curvas ROC exibindo o desempenho das técnicas tradicionais (esquerda) e das técnicas adatadas à verificação de faces (direita) para a base de faces Yale. 4.15 Curvas ROC exibindo o desempenho das técnicas tradicionais (esquerda) e das técnicas adatadas à verificação de faces (direita) para a base de faces UMIST.. 49 50 51.

(19) Lista de Tabelas. 4.1 4.2 4.3 4.4 4.5 4.6. Média das taxas de acerto para a técnica Resumo das melhores taxas de reconhecimento obtidas pelas técnicas. Taxas de verdadeiros positivos (TP) ao se fixar o valor de falsos positivos (FP) em 1% Taxas de verdadeiros positivos (TP) ao se fixar o valor de falsos positivos (FP) em 5% Tempo computacional, em segundos (s), necessário para as etapas de extração de características e classificação dos padrões. Número de coeficientes utilizados para representação da imagem utilizando 1 e 3 componentes principais. A.1 Detalhamento das médias das taxas de reconhecimento para a técnica MPCA sobre a base de faces Yale A.2 Detalhamento dos Desvios Padrão para a técnica MPCA sobre a base de faces Yale A.3 Detalhamento dos Desvios Padrão para a técnica MPCA sobre a base de faces UMIST A.4 Detalhamento dos desvios padrão para a técnica MPCA sobre a base de faces UMIST A.5 Detalhamento dos Desvios Padrão para a técnica MPCA sobre a base de faces ORL A.6 Detalhamento dos desvios padrão para a técnica MPCA sobre a base de faces ORL A.7 Detalhamento das médias das taxas de reconhecimento para a técnica IMPCA sobre a base de faces Yale A.8 Detalhamento dos Desvios Padrão para a técnica IMPCA sobre a base de faces Yale A.9 Detalhamento das médias das taxas de reconhecimento para a técnica IMPCA sobre a base de faces UMIST A.10 Detalhamento dos Desvios Padrão para a técnica IMPCA sobre a base de faces UMIST A.11 Detalhamento das médias das taxas de reconhecimento para a técnica IMPCA sobre a base de faces ORL A.12 Detalhamento dos Desvios Padrão para a técnica IMPCA sobre a base de faces ORL xix. 39 45 52 52 52 53 60 60 61 61 62 62 63 63 64 64 65 65.

(20) xx. LISTA DE TABELAS. A.13 Detalhamento das médias das taxas de reconhecimento para a técnica MIMPCA sobre a base de faces Yale A.14 Detalhamento dos Desvios Padrão para a técnica MIMPCA sobre a base de faces Yale A.15 Detalhamento das médias das taxas de reconhecimento para a técnica MIMPCA sobre a base de faces UMIST A.16 Detalhamento dos Desvios Padrão para a técnica MIMPCA sobre a base de faces UMIST A.17 Detalhamento das médias das taxas de reconhecimento para a técnica MIMPCA sobre a base de faces ORL A.18 Detalhamento dos Desvios Padrão para a técnica MIMPCA sobre a base de faces ORL A.19 Detalhamento das médias das taxas de reconhecimento para a técnica wMIMPCA sobre a base de faces Yale A.20 Detalhamento dos Desvios Padrão para a técnica wMIMPCA sobre a base de faces Yale A.21 Detalhamento das médias das taxas de reconhecimento para a técnica wMIMPCA sobre a base de faces UMIST A.22 Detalhamento dos Desvios Padrão para a técnica wMIMPCA sobre a base de faces UMIST A.23 Detalhamento das médias das taxas de reconhecimento para a técnica wMIMPCA sobre a base de faces ORL A.24 Detalhamento dos Desvios Padrão para a técnica wMIMPCA sobre a base de faces ORL. 66 67 68 68 69 69 70 71 72 72 73 73.

(21) Terminologias e Notações. Os seguintes termos e notações serão utilizados no decorrer da dissertação: • Representação de Matrizes: serão representadas por letras maiúsculas. Exemplo: S, A; • Representação de Vetores: é feita utilizando letras minúsculas em negrito. Exemplo: a, b; • Representação de Valores Escalares: será feita utilizando caracteres maiúsculos em itálico ou caracteres minúsculos. Exemplo: M, C, x, y, i, j; • I: Matriz que representa a imagem da face; • M: Número de elementos que formam a base de treinamento; • Im ou im : m-ésima imagem da base de treinamento; • Im (x, y): Função imagem que retorna a intensidade do pixel de coordenada (x, y); • It ou it : t-ésima imagem da base de teste; • A¯ ou a¯ : Matriz com as médias das faces de treinamento; • S: Matriz de covariância das imagens do conjunto de treinamento; • Ym ou ym : Matriz normalizada da m-ésima face ou região da face (treinamento); • Yt ou yt : Matriz normalizada da t-ésima face ou região da face (testes); • P: Matriz de projeção das faces; • Wm ou wm : Nova representação da m-ésima face ou região após a projeção (treinamento); • Wt ou wt : Nova representação da t-ésima face ou região após a projeção (teste); • Q: Número de subconjuntos disjuntos da base de treinamento. Cada conjunto representa um indivíduo ou classe; • |Cq |: Cardinalidade do k-ésimo conjunto de classes; • K: Número de autovetores utilizados na representação da imagem; xxi.

(22) xxii. TERMINOLOGIAS E NOTAÇÕES. • Os índices i j são utilizados para referenciar as regiões da imagem; As abreviações utilizadas na dissertação estão relacionadas abaixo: • 2DPCA: Two-Dimensional Principal Component Analysis; • Aw-SpPCA Adaptively weighted sub-pattern PCA for face recognition; • cMIMPCA: Class Modular Image Principal Component Analysis; • DCT: discrete cosine transform; • DLA: Dynamic Link Archtecture; • FL: Feature Line; • HMM: Hidden Markov Model; • ICA: Independent Component Analysis; • IMPCA: Image Principal Component Analysis; • LDA: Linear Discriminant Analysis; • PCA: Principal Component Analysis; • MIMPCA: Modular Image Principal Component Analysis; • MPCA: Modular Principal Component Analysis; • NFL: Nearest Feature Lines; • SpPCA: Subpattern-based Principal Component Analysis; • wMIMPCA: Weighted Modular Image Principal Component Analysis;.

(23) C APÍTULO 1. Introdução. 1.1 Contexto Cada vez mais cresce a necessidade de controle de acesso a lugares, serviços e informações. É crescente também a busca por soluções mais eficientes na identificação dos indivíduos. Neste contexto, a biometria, que consiste no uso de características biológicas como mecanismo de identificação, tem sido utilizada com resultados muito promissores. A biometria parte do princípio de que o corpo humano é sua senha e que todo indivíduo é único. Dentre as informações utilizadas para identificação podem ser destacadas a íris, a retina, a face, a impressão digital ou até mesmo a geometria da mão. Outro uso promissor da biometria diz respeito à interação entre homens e máquinas, na qual ações e gestos podem ser utilizados como entrada do sistema. Novos dispositivos e mídias exigem novas formas de interação além dos tradicionais teclados, mouses e telas. O entendimento, por parte dos sistemas, do estado emocional e das ações dos usuários também será muito beneficiada com o desenvolvimento das tecnologias de reconhecimento baseadas em biometria. Ainda são revolucionários os dispositivos que fazem uso de gestos e expressões como principal forma de interação, entretanto, já estão surgindo versões comerciais destes dispositivos, que vão de consoles de videogames a carros que reconhecem seu proprietário. O reconhecimento de faces é um método de reconhecimento de indivíduos baseado em suas características faciais. Ela destaca-se por ser uma das técnicas biométricas que exigem menos interação do usuário. Atualmente, tem sido aplicada a problemas de controle de fronteiras, controle de acesso a parques, escolas e outras áreas restritas, identificação de criminosos, autenticação de usuários em sistemas etc. Reconhecimento de faces vem sendo pesquisado há mais de trinta anos e já apresenta resultados muito promissores. A classificação de faces pode ser feita utilizando diferentes informações, tecnologias e metodologias, a depender do grau de precisão e condições nas quais os dados serão coletados. Restringindo-se à classificação de faces baseada em imagens, as técnicas de classificação envolvem duas grandes áreas de pesquisa em visão computacional: detecção e reconhecimento. A primeira delas, a segmentação de imagens ou detecção de padrões, é bastante utilizada em vários outros campos de processamento de imagens [GW00] e visão computacional para detecção e extração dos mais diversos tipos de objetos ou padrões presentes em imagens. A outra área envolvida engloba as etapas de representação e reconhecimento das faces encontradas na etapa anterior, de modo que possam ser utilizadas para comparação com faces da base de conhecimento. O reconhecimento, juntamente com a detecção e extração das faces, são áreas de pesquisa fundamentais em visão computacional e análise de padrões. A segmentação ou detecção de faces é o ato de localizar as faces presentes em uma imagem 1.

(24) 2. CAPÍTULO 1 INTRODUÇÃO. e é considerada como uma etapa de pré-processamento sendo, desta forma, independente do sistema de reconhecimento [dBGM+ 06]. Ainda segundo o autor, em [dBGM+ 06], a detecção não é um procedimento simples, pois em imagens, muitos objetos têm forma semelhante a faces, o que aumenta bastante o número de falsos positivos. Por considerar a detecção de faces um pré-processamento das imagens este trabalho não irá detalhar esta etapa do processo. A classificação de faces é responsável por representar as imagens segmentadas e comparálas às faces da base de conhecimento. Na maioria das técnicas a imagem a ser processada tem sua informação transformada em uma nova representação. Esta mudança na representação visa facilitar o processo de comparação e diminuir os custos de processamento e armazenamento. Essa nova representação geralmente é menor que a original e com dados mais representativos. Esta dissertação focará na etapa de extração de características das faces de forma a eliminar os ruídos e variações externas que prejudiquem o desempenho do sistema de classificação. A presente dissertação limita-se ao estudo de técnicas de classificação de faces utilizando imagens estáticas das faces. Mais precisamente, utilizará a abordagem estatística de análise de componentes principais para a extração de características de faces.. 1.2 Motivação Há diversas abordagens que podem ser utilizadas para a classificação de faces que se baseiam em imagens. Elas, em geral, se caracterizam em função das regiões da face que serão utilizadas para análise e posterior representação. Pode-se utilizar toda a informação presente na imagem ou apenas os dados de regiões mais representativas que compõem a face. Há ainda, técnicas que fazem uso de outras informações, como: volumes, estrutura das faces e distâncias entre seus componentes (olhos, nariz, boca etc.). Estas técnicas, que usam apenas algumas regiões da face, acabam desconsiderando a maior parte da informação global da face. Dentre as técnicas de classificação de faces baseadas em imagens, destacam-se as abordagens que utilizam Análise de Componentes Principais - PCA (do inglês, Principal Component Analysis) [TP91] e suas derivações, como as mais promissoras na análise de faces frontais. Embora PCA e suas inúmeras derivações venham obtendo excelentes resultados em problemas que envolvam classificação de faces frontais, elas são muito afetadas por variações ambientais e expressões faciais. Estes dois problemas, juntamente com rotação das faces ocorridos na captura das imagens, prejudicam consideravelmente a classificação. As técnicas baseadas em PCA tradicionalmente utilizam a abordagem holística, isto é, utilizam toda a informação da face ou da imagem que contém a face. Como conseqüência, mesmo pequenas variações na expressão facial ou na iluminação do ambiente, que geralmente afetam apenas algumas regiões da imagem, poderão modificar toda a representação da face a ser classificada. Somem-se, a este problema de variações locais, os problemas relativos ao baixo número de instâncias na base de treinamento. Em problemas de classificação de faces é comum ter apenas alguns poucos exemplos (instâncias) dos padrões de treinamento para se extrair as características. Logo, técnicas que façam análise estatística dos padrões de treinamento podem ser prejudicados pelo baixo número de instâncias de treinamento. Uma característica do PCA tradicional que agrava ainda mais a análise estatística dos dados diz respeito à mudança na representação das imagens. Esta mudança de representação transforma as matrizes das imagens.

(25) 1.3 OBJETIVOS. 3. em vetores unidimensionais, que terão dimensionalidade muito alta. Com uma base de treinamento muito pequena, e elementos com dimensionalidade muito alta, a análise estatística dos padrões pode ser prejudicada consideravelmente. Visando superar estas limitações inerentes a problemas de reconhecimento de faces, foi proposta a técnica PCA bidimensional (IMPCA ou 2DPCA) [YZF+ 04]. A técnica IMPCA elimina a necessidade de transformação da imagem em vetor, o que facilita a análise estatística dos dados. Entretanto, a técnica bidimensional adota a abordagem holística para extração de características, o que pode prejudicar a classificação final das faces que sofreram algum tipo de variação local. Visando reduzir a influência das variações locais na representação das faces, Gottumukkal e Asari propuseram a técnica modular [GA04] para extração de características. Esta técnica faz uso de diferentes tipos de particionamento da imagem original da face, visando obter dados mais representativos de cada uma das regiões. A bordagem proposta atribui a mesma importância a cada uma das regiões nas quais as imagens foram divididas e aplica o PCA tradicional sobre cada uma dessas regiões. Desta forma, embora sejam obtidos melhores resultados que os alcançados fazendo uso da técnica PCA tradicional, seus resultados ainda sofrem influência de variações na aquisição das imagens. A aquisição das imagens não exige qualquer tipo de contato, interação ou mesmo consentimento do usuário. Em função disso, um único padrão pode estar sujeito a uma grande gama de variações (pose, escala, expressões faciais etc.) e influências de fatores externos (iluminação, problemas na aquisição, ruidos etc.), especialmente quando as imagens não são obtidas em ambientes controlados. Estas variações afetam diretamente o desempenho do sistema de classificação de faces. Logo, o desenvolvimento de técnicas capazes de extrair informações representativas dos dados de treinamento mesmo sob forte influência de variações no ambiente é uma das principais vertentes das pesquisas atuais em reconhecimento de faces. Ela também serve de motivação para as pesquisas realizadas nesta dissertação.. 1.3. Objetivos. Em geral, a aquisição de imagens de faces para reconhecimento é muito dinâmica, pois não são exigidos posicionamento ou contato físico. Em função disso, as imagens obtidas podem estar sujeitas a muitas variações no ambiente ou na própria face. Tomando por base estas variações juntamente com as limitações no número de protótipos de treinamento, a presente dissertação tem como principais objetivos: • Apresentar estudos e conceitos sobre como os seres humanos reconhecem faces; • Analisar os estudos mais recentes sobre reconhecimento de faces utilizando abordagens estatísticas; • Propor modificações e novas técnicas de extração de características de modo a melhorar as taxas de acerto sobre problemas de reconhecimento e verificação. • Por fim, comparar os resultados das técnicas propostas com os obtidos pelas técnicasbase..

(26) 4. CAPÍTULO 1 INTRODUÇÃO. A proposta de novas técnicas de extração de características visa melhorar as taxas de reconhecimento de faces sujeitas a condições adversas. Além disso, a redução do custo computacional para extração das características é uma importante deficiência das abordagens estatísticas atuais. Desta forma, os principais objetivos das técnicas propostas são: • Eliminar ou reduzir os efeitos das variações de iluminação, expressão facial e rotação da face na classificação final; • Melhorar as taxas de acerto da classificação em faces com oclusão parcial; • Reduzir o custo computacional para extração de características das faces.. 1.4 Estrutura do Trabalho Esta dissertação apresenta uma nova técnica de classificação de faces baseada em abordagens recentes de análise estatística de imagens. Desta nova técnica proposta, foram derivadas duas outras abordagens que serão detalhadas e executadas sobre diferentes bases de faces. As novas técnicas, experimentos, resultados e conclusões, serão apresentados conforme estrutura a seguir. No Capítulo 2 será mostrada uma abordagem biológica de como os seres humanos fazem o reconhecimento de faces, com base em alguns estudos recentes da neurologia e psicologia. Também será apresentada a arquitetura básica de um sistema de classificação de faces, além do levantamento das principais técnicas de reconhecimento utilizadas atualmente. No Capítulo 3 serão apresentados os modelos propostos neste trabalho. Primeiramente será apresentada a técnica modular bidimensional (MIMPCA) aplicada ao reconhecimento de faces. Em seguida, sua abordagem ponderada, que atribui diferentes contribuições para cada região, é descrita seguida da abordagem por classe que será aplicada a problemas de verificação ou validação de faces. No Capítulo 4 serão apresentadas as bases de faces utilizadas nos experimentos, a parametrização dos experimentos será detalhada, e, por fim, os resultados obtidos serão analisados e comparados entre si. No Capítulo 5 serão apresentados os experimentos e resultados obtidos com as técnicas propostas e comparados com os obtidos por técnicas de extração de características utilizados como base. Os experimentos foram feitos sobre bases de face bem conhecidas na literatura que exploram variações no ambiente e na própria face. Por fim, no Capítulo 6 serão apresentadas as conclusões obtidas, limitações das técnicas e os trabalhos futuros que estão sendo, ou serão realizados, com as técnicas desenvolvidas..

(27) C APÍTULO 2. Classificação de Faces. 2.1. Como Classificamos Faces - Uma abordagem Biológica. O reconhecimento de faces não é uma característica exclusivamente humana. Há estudos que comprovam que algumas aves e mamíferos também são capazes de reconhecer faces e expressões [DEP02] [Ekm99]. Segundo estudos da Fundação Dana, renomada fundação de pesquisa em estudos do cérebro, esta habilidade de reconhecimento de faces, juntamente com a composição estrutural padrão das faces, tem uma explicação: a sobrevivência. A composição da face com testa, dois olhos, nariz, boca e queixo, e sua disposição foram fundamentais para sobrevivência das espécies. Os olhos frontais facilitam a procura de comida, enquanto que os laterais, presente em algumas espécies, facilitam a visão de possíveis predadores; o nariz voltado para baixo evita problemas de inalação de sólidos, assim como a boca posicionada sob os olhos e nariz facilita a ingestão da comida localizada pela visão e olfato. Especificamente para os seres humanos, as habilidades de reconhecer e avaliar as pessoas com base em suas faces foi de grande importância para a sobrevivência. Saber em quem confiar e em quem não confiar serviu durante muito tempo para evitar conflitos, e em um segundo momento, para formar as primeiras sociedades. Desde então, a análise das características da face como mecanismo de comunicação e identificação é quase indispensável à convivência em sociedade. Mais recentemente, Charles Darwin [DEP02] escreveu sobre a importância das expressões faciais e postura como mecanismos de comunicação e sobrevivência entre seres humanos e animais. Aprofundando o estudo de Darwin, publicado um século antes, Paul Ekman conduziu experimentos visando comprovar o caráter universal das expressões faciais. Segundo seu trabalho [Ekm99], "nossa evolução nos deu expressões universais, que fornece a outras pessoas importantes informações sobre nós". Através da face, pode-se inferir características físicas dos indivíduos como idade ou sexo, assim como características comportamentais como emoção, temperamento, nível de estresse, cansaço, etc. Neste contexto, a face destaca-se como um importante mecanismo de comunicação e identificação de pessoas. No que concerne à identificação de indivíduos baseados em suas faces, é possível destacar duas vertentes nas pesquisas sobre o assunto. Há o grupo que acredita que o reconhecimento de faces dá-se de forma holística, isto é, considerando a informação de toda a face. Ao passo que outra corrente de pesquisa defende uma identificação modular, na qual as regiões da face contribuem diferentemente para o reconhecimento do indivíduo. Alguns estudos apontam a importância de regiões como nariz [HC08], olhos [RFK02] ou queixo, como pontos-chave para o reconhecimento das faces. Entretanto, tais informações isoladamente geralmente não são suficientes para identificação dos indivíduos, necessitando das informações globais da face 5.

(28) 6. CAPÍTULO 2 CLASSIFICAÇÃO DE FACES. para fazê-lo. Examinando as imagens da Figura 2.1, percebe-se a dificuldade de identificação utilizando apenas informações parciais da face.. Figura 2.1 Uso de informações locais para representação das faces. Todas as pesquisas envolvendo reconhecimento de faces e comportamento cerebral têm um ponto em comum: há regiões específicas no cérebro para o reconhecimento de faces. Problemas nesta região do cérebro originaram uma doença chamada prosopagnosia, ou cegueira para feições. Pacientes com esta doença não conseguem lembrar da face das pessoas, embora consiga lembrar as demais características perfeitamente (roupa, perfume, chapéu etc). No tratamento do reconhecimento de faces, o fluxo de informação visual do cérebro diferencia-se levemente do utilizado para reconhecimento dos demais objetos. No fluxo padrão, a informação é obtida pelas células ópticas, chega ao córtex visual na parte posterior do cérebro, segue para as regiões dorsal e ventral, onde são processados a localização do objeto e o que é o objeto, respectivamente. Para o caso de reconhecimento de faces, há uma quarta região envolvida, a área facial fusiforme, onde o reconhecimento é feito. Vale ressaltar que pacientes com prosopagnosia normalmente reconhecem parentes e pessoas próximas em função de outras características como: voz, cheiro, aparência física etc, pois tais habilidades não são comprometidas pela doença. Outra característica importante no processo de reconhecimento de faces diz respeito à importância da orientação das imagens para o seu reconhecimento. Constatou-se que imagens rotacionadas em 180 graus, ou seja, imagens com a cabeça voltada para baixo, apresentam maior dificuldade na identificação. Isso ocorre em função do cérebro processar a imagem como sendo um objeto qualquer e, consequentemente, a análise ser feita fora da região específica para reconhecimento de faces. Como exemplo, as imagens na Figura 2.2 apresentam faces rotacionadas e as mesmas imagens em sua posição normal. Estes estudos sobre o reconhecimento de faces influenciaram consideravelmente as pesquisas no final do século passado e contribuíram para torná-la inerentemente multidisciplinar, atraindo pesquisadores das mais diversas áreas, como: psicologia, neurociência, sociologia, computação, matemática etc. Avanços em uma área de pesquisa implica melhorias para as demais. Em resumo, o reconhecimento de faces destaca-se como um importante mecanismo de identificação de indivíduos. Componentes faciais como olho, boca e nariz concentram a maior parte da informação discriminatória mas individualmente podem não ser suficientes para identificar adequadamente um indivíduo. Além de identificar, a face fornece informações a respeito da idade, emoções e até mesmo possíveis atitudes dos indivíduos. Por isso, a face cumpre.

(29) 2.2 SISTEMAS DE CLASSIFICAÇÃO DE FACES. (a). (b). (c). (d). 7. Figura 2.2 Exemplos de imagens de faces em posição normal e rotacionadas em 180 graus. um importante papel no convívio social, sendo, por vezes, mais importante até mesmo que a comunicação propriamente dita.. 2.2. Sistemas de Classificação de Faces. O reconhecimento de face é uma das poucas tecnologias biométricas de classificação que reúne duas excelentes características: possui boa taxa de reconhecimento e é pouco intrusiva no que concerne à interação entre os usuários e o sistema. Isto é, o reconhecimento de faces pode ser realizado sem a necessidade de contato físico ou mesmo sem necessitar posicionamento específico para detecção das faces. Com isso, a tecnologia pode ser utilizada de forma transparente e com resultados muito satisfatórios. Pelo mencionado acima, sistemas de reconhecimento de faces têm ganhado cada vez mais atenção pelos setores industrial e acadêmico. Seu relativamente baixo custo de aquisição ou construção e por, na maioria dos casos, não necessitar de equipamentos específicos também contribui para a proliferação da biometria aos mais diversos tipos de dispositivos eletrônicos. Além disso, existe uma grande oferta de equipamentos dedicados para reconhecimento de faces, e muito embora seu custo seja relativamente alto, já estão sendo comercializados há algum tempo e com excelentes taxas de acerto. Estes sistemas também podem ser empregado em uma grande gama de aplicações, que vão desde os sistemas de grande porte, como os que são utilizados em investigações criminais ou controle de fronteiras, aos mais simples sistemas.

(30) 8. CAPÍTULO 2 CLASSIFICAÇÃO DE FACES. de verificação, que reconhecem unicamente a face dos proprietários de celulares, carros e outros dispositivos. Existem também uma infinidade de tecnologias de classificação utilizadas no reconhecimento de faces, assim como diferentes tecnologias de aquisição dos dados, dentre os quais destacam-se o reconhecimento baseado em imagens e o baseado em volumes das faces. Este trabalho focará nos sistemas de reconhecimento baseado em imagens bidimensionais das faces. Neste tipo de reconhecimento, independentemente da aplicação e do tamanho da base utilizada, pode-se destacar um núcleo comum a estes sistemas. Especialmente no que diz respeito às duas macro etapas do processo: a detecção das faces em imagens e a extração de características. 2.2.1. Arquitetura de um Sistema de Classificação de Faces. Sistemas de classificação de faces baseado em imagens possuem um conjunto de etapas comuns - aquisição, extração de características e classificação - especialmente nos sistemas que utilizam imagens para reconhecimento. As principais etapas do reconhecimento de imagens são detalhadas a seguir: • Aquisição da Imagem: etapa na qual a imagem contendo a(s) face(s) é obtida do meio externo. Geralmente esta etapa exige o uso de equipamentos como câmeras ou sensores para obtenção dos dados. Estas imagens podem ser obtidas em tons de cinza, coloridas ou ainda usando dispositivos que capturam os mais variados espectros de luz desde o infra-vermelho ao ultravioleta, passando pela luz visível. Cada tipo de aquisição exige pré-processamento específico. Entretanto, neste trabalho serão utilizadas apenas imagens em tons de cinza; • Detecção da Face: nesta etapa, a imagem obtida é segmentada e todas as faces presentes na imagem são extraídas. Geralmente esta etapa pode ser dividida em outra responsável por melhorar a qualidade das imagens das faces; • Extração de características: para cada imagem extraída na etapa anterior é realizada uma mudança na representação das faces. Elas deixam de ser representadas por uma matriz de pixels e passam a ser representadas por um conjunto de características, geralmente numéricas, de menor tamanho. Esta etapa é essencial para o bom desempenho do sistema e está diretamente relacionada às etapas seguintes do processamento das imagens; • Classificação da face: é responsável pela identificação ou verificação das faces processadas nas etapas anteriores, e por este motivo dependente fortemente das demais etapas. Esta classificação pode ser feita por comparação simples entre as instâncias apresentadas e as armazenadas ou por classificadores mais complexos como redes neurais, SVM etc. A Figura 2.3 sumariza as principais etapas dos sistemas de reconhecimento de faces. Neste trabalho apenas as etapas de extração de características e classificação serão estudadas. As demais áreas, como aquisição das imagens e principalmente detecção das faces, compreendem todo um ramo de estudos com problemas e tratamentos próprios e não serão detalhadas neste trabalho. Na detecção de faces, por exemplo, há diversas técnicas que visam superar algumas.

(31) 2.2 SISTEMAS DE CLASSIFICAÇÃO DE FACES. 9. das limitações presentes também na etapa de classificação, tais como: iluminação, rotação da face, escala das imagens, expressões faciais etc. Há também problemas específicos da detecção, como a sobreposição das faces e a possibilidade de existir mais de uma face nas imagens. Combinado a estes fatores, há ainda a elevada quantidade de possíveis faces em uma imagem, visto que cada pequena região pode ser considerada uma face, o que dá margem a um elevado número de falsos positivos.. Figura 2.3 Macro-etapas do processo de classificação de faces. Os sistemas de classificação de faces atuais ainda estão muito aquém da capacidade humana, especialmente quando sujeitos a condições adversas, sejam causadas pelo ambiente ou por características da própria face. Entretanto, já são obtidos resultados muito próximos dos 100% de acerto, principalmente quando aplicados sobre imagens que foram obtidas em ambientes controlados. Atualmente, há um esforço considerável para melhorar as taxas de reconhecimento ou verificação de faces afetadas por variações que alterem a representação das faces. Nesta busca, as técnicas que fazem uso de características locais têm obtido melhores resultados. 2.2.2 Reconhecimento versus Verificação Os sistemas de classificação de faces dividem-se basicamente em dois grandes grupos em relação à sua finalidade: os sistemas de reconhecimento e os sistemas de verificação de faces. Reconhecimento de faces está relacionado à identificação do indivíduo, ou seja, trata-se de determinar a qual indivíduo da base de conhecimento a face apresentada pertence. Neste tipo de classificação o padrão é apresentado ao sistema que checa se este corresponde a algum indivíduo cadastrado. No geral, a base de conhecimentos é composta por padrões que possuem algum tipo de restrição, isto é, que não possuem acesso à determinado serviço, local ou informação. Como exemplo dessas bases é possível citar um controle de fronteiras cujo banco de dados geralmente é composto por padrões que não podem ingressar em determinada região. A Figura 2.4 apresenta de forma gráfica o método de reconhecimento de faces. Em outro contexto de classificação de faces, a verificação refere-se à autenticação de identidade. Desta forma, a base de conhecimento é composta por todos os padrões que não possuem restrição de acesso. No contexto de autenticação, o padrão facial de cada indivíduo assemelhase às senhas utilizadas atualmente para restrição de acesso. Seguindo a analogia acima, além da senha, aqui representada pela face, é necessário fornecer uma identificação. Logo, na verificação de faces além da imagem propriamente dita também é necessário informar a suposta.

(32) 10. CAPÍTULO 2 CLASSIFICAÇÃO DE FACES. Figura 2.4 Visão geral do processo de reconhecimento de faces. identidade do usuário para validação conjunta das informações. A Figura 2.5 apresenta de forma gráfica o processo de verificação de faces.. Figura 2.5 Visão geral do processo de verificação de faces. Essas técnicas de classificação são aplicáveis em contextos diferentes e ambas obtêm excelentes resultados, especialmente quando a captura das imagens é feita em ambiente controlado, isto é, com pouca interferência externa. A conseqüência destas interferências na qualidade da classificação das faces será detalhada nos próximos capítulos. 2.2.3. Estado da arte. Como discutido anteriormente, a classificação de faces é uma disciplina inerentemente multidisciplinar. Ela envolve diversos campos de pesquisa, tais como: ciência da computação, psi-.

(33) 2.2 SISTEMAS DE CLASSIFICAÇÃO DE FACES. 11. cologia, matemática, biologia, sociologia e outras [ZP00]. Em função disso há várias técnicas e abordagens fazendo uso de diversas tecnologias para classificar faces. Dentre estas pode-se destacar redes neurais, abordagens estatísticas como PCA [TP91, GA04, YZF+ 04, PCR09], modelos escondidos de Markov [NHI98] e abordagens tridimensionais [LCY09, VKRM09, XLTQ09]. Desta enorme gama de tecnologias e técnicas de reconhecimento resultam diversas taxas de acerto, tempos de processamento, limitações de aquisição de imagens, efeitos de variações do ambiente etc. Entretanto, há um comportamento padrão nos diversos sistemas de reconhecimento existentes, conforme descrito na Seção 2.2.1. Em relação à abordagem utilizada no reconhecimento de faces, pode-se classificar as técnicas em três grandes grupos: abordagem holística, abordagem baseada em templates e abordagem híbrida. Na abordagem holística, toda a informação da face, ou da imagem que contém a face, é utilizada como entrada do sistema de reconhecimento. Alguns exemplos de técnicas que utilizam a abordagem são: eigenfaces - que se destaca como base das técnicas mais promissoras no reconhecimento de faces frontais - eigenfaces probabilísticas, fisherfaces, proximidade das linhas de características e análise de componentes independentes (ICA, do inglês Independent Component Analysis). Nas abordagens baseadas em templates, a imagem sofre segmentação contextualizada, isto é, cada região conterá regiões como: olhos, boca, nariz, queixo etc. Logo, cada região representará componentes específicos da face e geralmente são submetidas a classificadores estruturais que levam em consideração cada componente da face. Hidden Markov Model e Dynamic Link Architecture são exemplos de técnicas utilizadas para reconhecimento de faces que utilizam esta abordagem. A abordagem híbrida é inspirada na forma como o sistema de visão humano percebe as características locais e a informação global presente na face. Ela mescla as duas abordagens citadas anteriormente visando explorar as informações locais da face sem desconsiderar sua informação global. Entre as técnicas que utilizam essa abordagem, podem ser destacadas: eigenfaces modulares [LL99], características locais híbridas [AHP06] e métodos baseados em componentes [ZP00]. As diversas técnicas de reconhecimento foram agrupadas sob as três categorias citadas acima considerando apenas a forma de extração de características das faces. Elas também podem ser categorizadas de acordo com as tecnologias utilizadas, formas de aquisição dos dados (2D ou 3D), etc. A seguir são apresentadas algumas técnicas recentes e bem sucedidas no reconhecimento de faces. São apresentadas também algumas outras técnicas muito importantes historicamente por dar origem a uma nova família de abordagens para o reconhecimento de faces. 2.2.3.1. Fisherfaces. A técnica Fisherfaces [B+ 06] também conhecida como Análise de Discriminantes Lineares de Fisher (LDA, do inglês Fisher’s Linear Discriminant Analysis) procura produzir um subespaço muito semelhante ao definido pela eigenfaces. Entretanto, o método tem por objetivo solucionar um dos principais problemas presentes na eigenfaces: o tipo de projeção de dados obtido com o uso do PCA. Na análise de componentes principais, a dispersão total das imagens.

(34) 12. CAPÍTULO 2 CLASSIFICAÇÃO DE FACES. é maximizada, o que pode maximizar também a dispersão entre os protótipos de uma mesma classe. Uma maior dispersão entre os elementos de determinada classe pode acarretar no aumento da taxa de erro de classificação. Este problema é agravado especialmente quando há grandes variações entre os elementos de uma mesma classe, o que no caso de faces pode ser caracterizado pelos efeitos das variações externas. Considerando que grandes variações de iluminação e pose em uma mesma face são geralmente mais complexas de serem tratadas do que as diferenças entre faces de indivíduos diferentes nas mesmas condições de iluminação, um sistema de reconhecimento de faces mais robusto deveria ser capaz de tratar este problema. O método fisherfaces toma proveito de informações intra-classe e procura minimizar a variação entre protótipos da mesma classe ao passo que maximiza a separação entre elementos de classes distintas. Nestas condições, os problemas de classificações erradas decorrentes de variações ocorridas em imagens da mesma face seriam menores, melhorando o desempenho de sistemas que utilizam a técnica. 2.2.3.2. Modelos Escondidos de Markov. Os resultados obtidos com a aplicação dos Modelos Escondidos de Markov (HMM, do inglês Hidden Markov Models), como técnica de reconhecimento de faces, tem sido bastante animadores [ZP00], especialmente em faces com variações de iluminação e expressões faciais. HMM é um conjunto de modelos estatísticos usados para caracterizar propriedades de sinais. Ele já é utilizado há bastante tempo, com muito êxito, para reconhecimento de fala e de caracteres que são tratados como problemas unidimensionais. O sistema de reconhecimento a ser modelado é entendido como sendo um processo de Markov com parâmetros desconhecidos, sendo o objetivo encontrar a melhor configuração para os parâmetros escondidos a partir dos modelos observáveis. Cada estado da HMM tem uma distribuição de probabilidade que define as possíveis saídas. A técnica HMM foi utilizada para reconhecimento de faces [ZP00] baseado nos vetores de características obtidos pela transformada discreta do cosseno (DCT, do inglês discrete cosine transform). O autor tirou proveito das propriedades de compressão da DCT para extrair as características da imagem e reduzir a dimensionalidade dos dados. A Figura 2.6 apresenta as transições e a estrutura da cadeia aplicada ao reconhecimento de faces.. Figura 2.6 HMM para o reconhecimento de faces. Estados e possíveis transições. Para o tratamento de faces humanas, a técnica extrai os principais componentes, como: cabelo, olhos, nariz, boca e queixo, e os representa como estados da cadeia unidimensional. Cada um desses componentes tem sua dimensionalidade reduzida com o uso da DCT. Desta forma, os vetores de observação podem ser reduzidos significativamente tornando o sistema.

(35) 2.2 SISTEMAS DE CLASSIFICAÇÃO DE FACES. 13. muito eficiente do ponto de vista de tempo de processamento e mantendo uma elevada taxa de reconhecimento. A convergência do modelo é baseada na mudança nos valores da matriz de probabilidades observáveis. Estes valores de estimativa são obtidos através dos vetores de observação associados a cada estado, que nada mais são do que a resposta de um determinado estado do modelo a um padrão apresentado. 2.2.3.3. Proximidade de Linha de Características. Li propõe uma técnica holística baseada em Proximidade de Linhas de Características (NFL, do inglês Nearest Feature Lines) [LL99] para tratar alguns dos problemas apresentados pela técnica eigenfaces. A técnica representa cada imagem como um vetor, ou um ponto no espaço, e define o conceito de feature (característica) como sendo a representação de uma classe. Para se obter uma feature são necessários pelo menos dois protótipos de uma mesma classe. Definindo x1 e x2 como dois protótipos quaisquer de uma classe da base, pode-se definir um vetor (x1 , x2 ) passando pelos dois pontos do espaço. Este vetor é conhecido por linha de característica da classe (FL, do inglês Feature Line) à qual as imagens pertencem. O vetor definido pelos pontos representa uma aproximação entre os dois protótipos, que podem ter sido obtidos em diferentes condições de iluminação, posicionamento, diferença de escala etc. Para uma classe de teste qualquer x, sua classificação é baseada na distância entre seu ponto no espaço (característica) e as linhas de características dos vetores da base (Figura 2.7). Esta distância é definida pela equação d(x, x1 x2 ) = |x − p|. A classe representada pela linha mais próxima do ponto x será atribuída ao protótipo de teste. Experimentos realizados com a técnica sobre bases de faces de Cambridge, Bern, Yale e Harvard comprovaram o melhor desempenho da técnica NFL sobre a técnica eigenfaces quando aplicadas sobre imagens com variação de iluminação, expressões faciais e posicionamento [LL99]. Em função de sua simplicidade, a técnica pode ser combinada com técnicas de projeção ou redução de dimensionalidade dos dados como PCA, LDA, DCT etc. Há ainda, a possibilidade de uso de imagens de mais baixa resolução como forma de tentar melhorar a taxa de acerto da técnica. Experimentos recentes [CRC03] mostram que trabalhar com imagens de baixa resolução, em alguns casos, pode apresentar resultados equivalentes aos obtidos com redução de dimensionalidade de imagens com alta resolução. 2.2.3.4. Técnicas baseadas em análise de componentes principais. Desde a formalização da técnica eigenfaces, baseada em PCA, para extração de características e representação de faces feita por Turk e Pentland [TP91], em 1991, ela se tornou referência para outros trabalhos de reconhecimento de face. Logo foram propostas diversas modificações da técnica, visando adaptá-la a posicionamento e escala, além de tentativas de se tratar matematicamente as modificações de iluminação nas imagens. Recentemente, surgiram abordagens baseadas em PCA mais complexas, que apresentam melhores resultados em função de modificações na extração de características e na representação das faces. Dentre as novas técnicas podem ser destacadas a ICA [cit], a Kernel PCA [SSM97] e a PCA Bidimensional [YZF+ 04],.

(36) 14. CAPÍTULO 2 CLASSIFICAÇÃO DE FACES. Figura 2.7 Projeção do ponto x sobre a linha x1 x2. que melhoraram o desempenho da técnica formalizada pela eigenfaces. Nas próximas seções serão detalhadas as principais abordagens de extração de características e representação de faces baseadas em análise de componentes principais desenvolvidas recentemente. Algumas delas baseiam-se na subdivisão das imagens das faces para tirar proveito de variações parciais sofridas pelas imagens, tais como: PCA Modular (MPCA) e PCA baseado em subpadrões (SpPCA). A técnica W-SpPCA pondera a importância atribuída a cada uma das diferentes regiões utilizadas para extração de caraterísticas da face. Já a técnica PCA Bidimensional (IMPCA ou 2DPCA) rompe com a representação tradicional feita pelas técnicas baseadas em PCA e manipulam imagens como matrizes. Assim, ela consegue trabalhar com dados de dimensão bem menor e consequentemente torna os dados extraídos mais representativos do conjunto de treinamento. As técnicas mencionadas serão detalhadas nas seções seguintes. 2.2.3.5. Eigenfaces. Eigenfaces é um método de análise estatística e extração de características de faces humanas. A técnica baseia-se no fato de que qualquer face humana pode ser representada por uma combinação linear de eigenfaces. Entenda eigenfaces como sendo um conjunto de autovetores extraídos da matriz de covariância de todas as faces que constituem a base de treinamento. O trabalho publicado por Turk e Pentland [TP91] a quase duas décadas tornou-se padrão na área de pesquisa, servindo como referência de desempenho para novas técnicas até hoje. Eigenfaces (auto-faces) é uma técnica de reconhecimento de padrões baseada em análise estatística de imagens de várias faces. Mais precisamente, é um conjunto de autovetores obtidos a partir da matriz de covariância dos vetores que representam as faces. Desta forma, a face de qualquer indivíduo pode ser representada por uma combinação linear destes autovetores. O processamento das imagens das faces pela técnica inicia-se pela representação adotada. Nela, todas as imagens da base de dados são representadas como um longo vetor de dados, em lugar da tradicional representação matricial das imagens. O conjunto das imagens forma um espaço (espaço-imagem) onde cada face é representada por um ponto. Uma vez que as faces possuem estrutura muito similar, os vetores que as representam serão.

(37) 2.2 SISTEMAS DE CLASSIFICAÇÃO DE FACES. 15. correlacionados e tendem a se localizar em regiões próximas no espaço. Esta proximidade entre os vetores em alta dimensão, em um primeiro momento, dificulta a separação das imagens em classes distintas. A ideia por traz da nova representação das imagens é encontrar um subespaço onde vetores de menor dimensionalidade possam representar idealmente estas faces. Como a técnica aplica diretamente PCA sobre as imagens ela não destrói qualquer informação, o que permite a reconstrução dos dados originais. Embora a técnica garanta uma elevada taxa de reconhecimento ela é bastante sensível a modificações de iluminação, pose e tamanho das faces. Outro fator que influencia negativamente o desempenho de classificação da técnica é a quantidade de imagens disponíveis para treinamento [PPT06]. Calculando as representações das faces Considerando que as imagens utilizadas nos experimentos foram normalizadas para a dimensão de m × n pixels. Elas devem ser representadas por vetores de dimensão m · n, ou um ponto no espaço de mesma dimensão. Como exemplo, nos experimentos todas as imagens serão normalizadas para a resolução de 92 × 112 sendo necessários 10.304 pixels para representá-las. Desta forma, o conjunto de faces de treinamento será representado por um conjunto de pontos no espaço (espaço-imagem). Pela similaridade estrutural entre as faces (presença de olhos, nariz, boca etc.), estes pontos não estarão distribuídos aleatoriamente no espaço, logo, será possível representá-los em uma menor dimensão. Os vetores base deste novo subespaço podem ser os autovetores associados à matriz de covariância das imagens da base de treinamento. Considere que as imagens I1 , I2 , · · · , IM representam as M imagens presentes na base de treinamento. A média das imagens é obtida da seguinte forma: a¯ =. 1 M ∑ (ii) M i=1. (2.1). Todas as imagens da base são normalizadas utilizando a matriz-média obtida na equação anterior. yi = ii − a¯. (2.2). Desta forma, é definido um conjunto de vetores y1 , y2 , · · · , yM cujo centro será a face média. Estes vetores serão utilizados para cálculo da matriz de covariância. A Eq. 2.3 mostra a definição da matriz de covariância. S=. 1 M ∑ yi · yTi M i=1. (2.3). Os K autovetores mais significantes são extraídos da matriz de covariância S, ou seja, são extraídos os autovetores que possuem os maiores autovalores associados. Este conjunto de autovetores são utilizados para extração de características das imagens normalizadas. A extração de características dá-se pela multiplicação dos autovetores (ek ) com as imagens normalizadas (yi ) conforme definido na Eq. 2.4..

(38) 16. CAPÍTULO 2 CLASSIFICAÇÃO DE FACES. wik = eT k · yi. i = 1, 2, ...M, k = 1, 2, ..., K. (2.4). Da Eq. 2.4 percebe-se que a nova representação da i-ésima imagem (wi ) é indexado também pelo k-ésimo autovetor extraído da matriz de covariância. Desta forma, torna-se perceptível a relação entre o número de componentes principais adotados na representação da imagem e a quantidade de autovetores extraídos da matriz de covariância. Para cada imagem da base será obtido um vetor wi de dimensionalidade K, sendo K o número de componentes principais utilizados na representação. O cálculo das projeções das imagens de teste (it ) é feita em apenas duas etapas: Normalização da imagem de teste (Eq. 2.2) seguido da projeção da imagem normalizada sobre os autovetores selecionados (Eq. 2.4). 2.2.3.6 Análise de Componentes Principais Bidimensional Nas técnicas baseadas em PCA as matrizes de imagens precisam ser transformadas em vetores unidimensionais antes de serem submetidas à técnica. Como resultado desta necessidade, os vetores resultantes da transformação trabalham em espaços de dimensão muito alta. Nestas condições, torna-se difícil analisar a matriz de covariância precisamente, em função do seu tamanho e a quantidade relativamente pequena de exemplos de treinamento [PPT06]. Fazendo uso das técnicas de Decomposição em Valores Singulares [Wal03] (do inglês, Singular Value Decomposition - SVD) os autovetores podem ser calculados sem a necessidade de gerar e processar a matriz de covariância. Contudo, isso implica que os autovetores podem não ser avaliados de forma precisa, visto que são estatisticamente determinados pela matriz de covariância [YZF+ 04]. Com base na limitação de representação das imagens pelas técnicas baseadas em PCA, Zhang et al. propuseram a técnica IMPCA [YZF+ 04], ou 2DPCA, (do inglês two-dimensional principal component analysis). Na técnica proposta, as imagens são representadas através de matrizes bidimensionais, o que elimina a etapa de transformação da representação matricial da imagem em vetor. Além disso, diferentemente da matriz de covariância produzida pela técnica PCA, a matriz gerada pela técnica bidimensional é bem pequena. Como resultado, torna-se mais fácil e precisa a avaliação da matriz de covariância. Outra vantagem na redução da matriz diz respeito à melhor representação das correlações dos dados de treinamento e à redução no tempo de processamento para extração dos autovetores. Calculando as representações das faces O processo de extração de características das faces se diferencia levemente das técnicas baseadas no PCA tradicional apresentadas nas seções anteriores. Especialmente no que diz respeito à representação interna das imagens adotada pela técnica. Detalhes do processo de extração de características são dados a seguir. Considere uma imagem Ii de uma face de tamanho m × n e um vetor X n-dimensional sobre a qual a imagem será projetada..

(39) 2.2 SISTEMAS DE CLASSIFICAÇÃO DE FACES. Y = Ii · x. 17. (2.5). Com isso, obteremos o vetor Y m-dimensional, chamado vetor de características da imagem I. A avaliação da qualidade da projeção feita pelo vetor X pode ser feita através da medida de dispersão total das imagens projetadas. A dispersão total dos vetores resultantes da projeção é medida pelo traço da matriz de covariância gerada a partir destes vetores. Desta forma, o seguinte critério pode ser adotado: J(X) = tr(Sx ). (2.6). Na qual Sx corresponde à matriz de covariância dos vetores de características obtidos das imagens da base de treinamento e tr(Sx ) corresponde ao traço da matriz de covariância. A maximização do critério definido na Eq. 2.12 resulta em encontrar um vetor X, sobre o qual as imagens serão projetadas, que maximize a dispersão total dos vetores de características obtidos. A matriz de covariância Sx pode ser obtida por: Sx = E(Y − EY )(Y − EY )T = E[IX − E(IX)][IX − E(IX)]T. (2.7). Sx = E[(I − EI)X][(I − EI)X]T. (2.8). tr(Sx ) = X T · Gt · X. (2.9). Logo,. Sabendo que Gt pode ser expressa como: Gt = E[(I − EI)T (I − EI)]. (2.10). A matriz Gt definida acima representa a matriz de covariância das imagens da base. De sua definição percebe-se que Gt é uma matriz quadrada não negativa de tamanho n × n. A matriz Gt pode ser obtida diretamente através das imagens da base de treinamento. Supondo que há M exemplos de imagens na base de treinamento, a j-ésima imagem de treinamento é representada por uma matriz de tamanho m × n denominada I j ( j = 1, 2, · · · , M) e a média de ¯ Com isso, Gt é definida como: todas as imagens de treinamento é representada por A. Gt =. 1 M ¯ T (I j − A) ¯ ∑ (I j − A) M ( j=1). (2.11). Desta forma, o critério definido na Eq. 2.12 resume-se a: J(X) = X T · Gt · X. (2.12). O critério acima é conhecido como critério generalizado de dispersão total (do inglês, generalized total scatter criterion). O vetor unitário X que maximiza a expressão é o que maximiza a dispersão total das imagens projetadas sobre ele..

Referências

Documentos relacionados

Após a colheita, normalmente é necessário aguar- dar alguns dias, cerca de 10 a 15 dias dependendo da cultivar e das condições meteorológicas, para que a pele dos tubérculos continue

Para preparar a pimenta branca, as espigas são colhidas quando os frutos apresentam a coloração amarelada ou vermelha. As espigas são colocadas em sacos de plástico trançado sem

os praticantes de desporto apresentam: níveis elevados de exaustão emocional na totalidade das habilitações literárias com exceção do Doutoramento em que são

Detectadas as baixas condições socioeconômicas e sanitárias do Município de Cuité, bem como a carência de informação por parte da população de como prevenir

a) Na doença de Crohn dos cólons, ao contrário da reto- colite ulcerativa, o reto tende a se apresentar pouco comprometido ou até mesmo endoscopicamente normal. b)

O primeiro passo para introduzir o MTT como procedimento para mudança do comportamento alimentar consiste no profissional psicoeducar o paciente a todo o processo,

O termo extrusão do núcleo pulposo aguda e não compressiva (Enpanc) é usado aqui, pois descreve as principais características da doença e ajuda a

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam