F.A.C.E: Um Sistema Inteligente para Detecção de Faces Humanas em Imagens Digitalizadas

Texto

(1)F.A.C.E: um sistema inteligente para detecção de faces humanas ARTIGOem ORIGINAL imagens / ORIGINAL digitalizadas ARTICLE. F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas. F.A.C.E: an intelligent system for detecting human faces in digital images. Rafael Alves Bonfim de Queiroz* João Fernando Marar** Danilo Nogueira Costa** * Universidade de São Paulo (USP). ** Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP).. Resumo Este artigo apresenta resultados obtidos com uma eficiente técnica de detecção e extração automática de faces humanas a partir de imagens com qualquer tipo de cor, textura ou objetos ao fundo, baseada na determinação de triângulos isósceles formados pelas regiões dos olhos e da boca. Duas diferentes técnicas foram implementadas para analisar quando uma região extraída da imagem contém realmente uma face: máscara de peso e rede neural artificial. Palavras-chave: Visão de máquina. Processamento de imagem. Rede neural artificial. Detecção de face. Análise de componentes principais.. Abstract This paper presents results of an efficient approach for the automatic detection and extraction of human faces from images with any color, texture or objects in background, that consists in finding isosceles triangles formed by the eyes and mouth. Two different techniques were implemented to analyze when a region extracted from the image really contains a face: weighing mask and artificial neural network. Keywords: Machine vision. Image processing. Artificial neural network. Face detection. Principal components analysis.. 1 Introdução Sistemas baseados em características biométricas para a identificação e autenticação de pessoas vêm se consolidando como realidade para garantir segurança, confiabilidade e simplicidade em uma ampla variedade de aplicações. Mais especificamente, o reconhecimento de faces é de grande importância por possibilitar a construção de sistemas não intrusivos de identificação (NAZEER; OMAR; KHALID, 2007; PHILLIPS et al., 2005), sendo indicado, por exemplo, na construção de ferramentas computacionais de apoio à detecção de crianças desaparecidas em locais públicos, tais como aeroportos. Para construir um sistema inteligente de reconhecimento de faces, são imprescindíveis a detecção e segmentação automática de faces humanas na cena analisada (HUANG; SHIMIZU, 2006; JIN et al., 2007; MARAR et al., 2004; MEYNET; POPOVICI; THIRAN, 2007; SHIH; LIU, 2006; YANG; KRIEGMAN; AHUJA, 2002), ou seja, é necessário construir um mecanismo que possibilite ao computador procurar e encontrar uma ou mais faces em uma imagem digitalizada qualquer e então extraí-las com precisão eliminando toda a informação desnecessária aos sistemas de identificação. Este trabalho apresenta um sistema inteligente de detecção e extração de faces humanas presentes em imagens digitalizadas, conforme ilustrado na Figura 1. A detecção de regiões da imagem com possíveis faces é baseada na técnica de encontrar triângulos isósceles (LIN; FAN, 2001), uma vez que as regiões dos olhos e. da boca formam tal figura geométrica quando ligados por linhas. Após a detecção e extração de regiões da cena, analisa-se a região segmentada da imagem que contém uma face humana por meio das técnicas: máscara de peso e rede neural artificial.. Figura 1. Detecção e segmentação de região com uma face. Nas seções seguintes, após o objetivo, são apresentados os fundamentos teóricos principais estudados em processamento digital de imagens (GONZALEZ; WOODS, 1992), redes neurais artificiais (HAYKIN, 2001) e análise de componentes principais (CAMPOS, 2000) para o desenvolvimento do sistema inteligente proposto nesse trabalho.. 2 Objetivo Este trabalho de pesquisa teve como objetivo construir um sistema de detecção e extração automática. QUEIROZ, R. A. B de.; et al. / UNOPAR Cient., Ciênc. Exatas. Tecnol., Londrina, v. 5, p. 45-52, nov. 2006. 45.

(2) F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas. de faces humanas presentes em imagens digitalizadas. A necessidade de tal sistema justifica-se, pois esse poderá auxiliar na construção de dispositivos não intrusivos de identificação humana.. 3 Processamento Digital de Imagens Uma imagem monocromática é definida matematicamente da seguinte forma f(x, y) = brilho, no qual (x, y) indica a posição do pixel na imagem. O brilho, ou nível de cinza, representa o produto da iluminância i (x, y), que indica a quantidade de luz incidida sobre o objeto, pela refletância do objeto, r(x, y) (GONZALEZ; WOODS, 1992). Desta forma, a imagem pode ser definida por: f(x, y) = i (x, y)*r(x, y). A imagem de uma face pode ser vista como um vetor. A construção de tal vetor consiste na simples concatenação das linhas da imagem, colocando uma após a outra, assim como na Figura 2. Esse processo é conhecido como raster (COSTA; MARAR, 2003; MARAR et al., 2004).. Figura 2. Raster. Nas próximas seções, são explicadas duas importantes propriedades de imagens digitais, que são a vizinhança e a conectividade (GONZALEZ; WOODS, 1992; COSTA; MARAR, 2003). Quando necessário na explicação, utiliza-se a seguinte notação: uma imagem digital será representada por f(x, y) e os pixels por letras minúsculas como p e q.. • Vizinhança Diagonal - São os quatro vizinhos diagonais à p(x, y): (x+1, y-1), (x+1, y+1), (x-1, y-1) e (x-1, y+1), ver Figura 3-(b). Na qual é designada Nd (p). •Vizinhança - É o conjunto formado por N4(p) Y Nd(p) representado por N8(p), Figura 3-(c). •Vizinhança - Um exemplo de vizinhança para a amostragem hexagonal é ilustrado na Figura 3-(d).. Figura 3. Tipos de Amostragem e Vizinhança. 3.2. Conectividade dos pixels A conectividade é um conceito importante para estabelecer limites de objetos e componentes de regiões em uma imagem. Dois pixels estão conectados se são vizinhos por algum critério de conectividade e seus níveis de cinza estão dentro de certo intervalo de similaridade previamente definido por um conjunto V de valores de tons de cinza. Como exemplo em uma imagem binária, V={1} para conexão de pixels de valor 1; em uma imagem de múltiplos tons de cinza poderíamos ter V={32, 33, ..., 63, 64} para conexão de pixels com valores de intensidade de 32 a 64. Seguem critérios de conectividade para 2 pixels, p e q, com valores de tons de cinza contidos em V. • “4-conectividade”: p e q são 4-conectados se q ∈ N4(p) • “8-conectividade”: p e q são 8-conectados se q ∈ N8(p) • “m-conectividade (conectividade mista)”: p e q são m-conectados se: q ∈ N4(p) ou q ∈ Nd(p) e N4(p) I N4(q) = { }, no qual { } é o conjunto vazio. A Figura 4 mostra como a “m-conectividade” pode ser usada para evitar a redundância de caminhos entre pixels.. 3.1 Vizinhança dos pixels As operações baseadas em vizinhança são de extrema importância no processamento digital de imagens. Pois, é necessária a compreensão de como uma imagem pode ser amostrada e como se relacionam as várias vizinhanças. Os tipos de amostragem são: • Amostragem retangular - Funciona como uma grade retangular. Tal amostragem está ilustrada na Figura 3: (a), (b) e (c). • Amostragem hexagonal - Uma amostragem alternativa como ilustrada na Figura 3: (d). Os tipos de Vizinhança dos pixels são: • Vizinhança - Os quatros vizinhos de um pixel p(x, y) são os de coordenadas (x+1, y), (x-1, y), (x, y+1) e (x, y1), como na Figura 3-(a). Tal vizinhança é designada N4(p). 46. Figura 4. (a) 8-vizinhos, (b) m-vizinhos.. 4 Redes Neurais Artificiais Existem diversas definições, ou tentativas de definições, para as redes neurais artificiais, uma delas bastante interessante está presente em (HAYKIN, 2001). O autor define Rede Neural como um processador maciço e paralelamente distribuído constituído de unidades de processamento simples, que tem propensão natural para armazenar conhecimento experimental e torná-lo disponível para uso.. QUEIROZ, R. A. B de.; et al. / UNOPAR Cient., Ciênc. Exatas. Tecnol., Londrina, v. 5, p. 45-52, nov. 2006.

(3) F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas. As redes neurais tentam imitar o cérebro humano em dois aspectos: • O conhecimento é adquirido pela rede neural a partir de seu ambiente por meio de um processo denominado de aprendizagem. • Forças de conexão entre as unidades de processamento, neurônios, conhecidas como pesos sinápticos, são utilizadas para armazenar o conhecimento adquirido.. 4.1 Aprendizagem de redes neurais Segundo Haykin (2001), aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são adaptados por meio de um processo de estimulação pelo ambiente, no qual a rede está inserida. O tipo de aprendizagem é determinado pela maneira pela qual a modificação dos parâmetros ocorre. O processo de aprendizagem tem por objetivo fazer com que um conjunto de entradas, na rede neural, produza um conjunto de saídas desejadas (ou no mínimo consistente). Cada um desses conjuntos de entrada ou saída é armazenado em um vetor. Normalmente, o processo de aprendizagem ocorre por meio de aplicações seqüenciais dos vetores de entrada e o ajuste do estado interno da rede neural com um algoritmo pré-determinado. Todos os métodos de aprendizagem conexionista podem ser classificados em duas categorias: supervisionada e não supervisionada. Segue uma breve explicação sobre as duas categorias de aprendizagem:. 4.1.1 Aprendizagem supervisionada A aprendizagem supervisionada é um processo que incorpora um instrutor (teacher) externo. São fornecidos à rede neural pares de treinamento, representando os vetores de entrada e as saídas desejadas. Um vetor de entrada é aplicado à rede neural e a saída correspondente é calculada e comparada com o correspondente vetor de saída desejado. O erro é propagado por meio da rede e os pesos são alterados por um algoritmo que tende a minimizar este erro. Nesse trabalho, é adotada a aprendizagem supervisionada, pois essa técnica permite definir critérios de parada para o processo de treinamento, tais como: número de iterações e ordem de precisão do erro.. 4.2 Arquiteturas das redes neurais Existem diversas arquiteturas de redes neurais, seguem dois modelos consagrados na literatura:. 4.2.1 Redes neurais feedforward sem camada oculta Grande parte das redes neurais é formada pela organização dos neurônios (nós computacionais) em camadas ou campos. Uma camada deve conter neurônios com funções ou propriedades semelhantes (HAYKIN, 2001). Na forma mais simples de uma rede neural em camadas, temos uma camada de entrada de nós que se projetam sobre uma camada de saída de neurônios. A Figura 5 ilustra uma arquitetura neural com 2 nós na camada de entrada e 3 neurônios artificiais na camada de saída.. Figura 5. Rede neural feedforward sem camada oculta.. 4.2.2 Redes neurais feedforward com camadas ocultas Esta segunda classe de redes neurais se distingue da primeira pela presença de uma ou mais camadas ocultas, cujos nós computacionais são chamados de neurônios ocultos. Adicionando uma ou mais camadas ocultas, o processo de aprendizagem torna-se mais lento. Apesar desse aumento do tempo computacional de treinamento, a rede neural terá mais capacidade para mapear espaços multi-dimensionais de entrada de ordem elevadas (HAYKIN, 2001). A Figura 6 representa uma arquitetura neural com 2 nós na camada de entrada, 3 neurônios na camada oculta e 1 neurônio na camada de saída.. 4.1.2 Aprendizagem não supervisionada A aprendizagem não supervisionada é também denominada auto-organização (self-organization), corresponde a um processo que não incorpora um instrutor externo, baseando-se apenas em informações locais e controle interno. Um método não supervisionado auto-organiza os dados apresentados e descobre suas propriedades coletivas. O conjunto de treinamento consiste de apenas vetores de entrada.. Figura 6. Rede Neural feedforward com uma camada oculta.. QUEIROZ, R. A. B de.; et al. / UNOPAR Cient., Ciênc. Exatas. Tecnol., Londrina, v. 5, p. 45-52, nov. 2006. 47.

(4) F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas. 5 Análise de Componentes Principais (PCA) A transformada PCA, também conhecida como transformada de Hotelling ou transformada K-L, é amplamente utilizada no problema de reconhecimento de faces para extração de características (CAMPOS, 2000; COSTA; MARAR, 2003; YU; BENNAMOUN, 2006; ZHAO; YUEN; KWOK, 2006). De modo geral, os métodos de extração de características lineares são definidos como: Y=H.X, em que X é a matriz de padrões de dimensão M x n, H é a matriz da transformação linear de dimensão m x M e Y é a matriz dos padrões transformados de dimensão m x n, sendo que n é o número de padrões de treinamento e M são dimensionalidades de espaços de características (m< < M) (CAMPOS, 2000). O espaço de imagens não é ideal para representar as faces, pois há uma grande covariância entre as variáveis, ou características. Dada a matriz de padrões X de dimensão M x n. A matriz covariância C de dimensão M x M é obtida por: C = (X – Z).(X – Z)t no qual Z é a matriz de dimensão M x n. Os elementos da matriz Z são obtidos por. refere-se ao elemento da linha l e coluna i da matriz de padrões X. O elemento da diagonal principal da matriz de covariância C, isto é Cl, l , representa a variância da característica l dos padrões (xl,i , para todo i = l,...,n). Os demais elementos da matriz de covariância, isto é Cl,o , representam a covariância entre as características l e o. Se as características l e o são estatisticamente independentes, então a covariância é nula (cl,o = 0). A matriz da transformação linear H é construída com os auto-vetores da matriz de covariância C, que são dispostos cada um em uma linha na matriz H (CAMPOS, 2000).. 5.1 Construção da matriz de transformação PCA Um conjunto de imagens contendo 100 faces humanas (PICS, 2006), sendo 50 de mulheres e 50 de homens, foi segmentado manualmente para a separação das imagens das faces, ou seja, contendo a área que envolve os olhos, nariz e boca. Depois dessa segmentação, essas regiões com face são redimensionadas para 60×60 pixels e vetorizadas (raster) para compor a matriz de padrões X (COSTA; MARAR, 2003). Para a obtenção da matriz de covariância C, foi construída a matriz Z da seguinte forma: somaram-se os pixels correspondentes das 100 faces segmentadas manualmente, tirou-se a média aritmética e a matriz resultante foi vetorizada. De posse das matrizes X e Z, foi possível proceder com o cálculo da matriz de covariância C conforme equação C = (X – Z).(X – Z)t. A diagonalização da matriz C foi feita por meio da técnica Decomposição de Valores Singulares (MARAR et al., 2004; QUARTERONI; SACCO; SALERI, 2000), e dessa maneira foram obtidos os auto-vetores e os correspondentes auto-valores. Finalmente, para construir a matriz H de transformação dos dados, foram selecionados 48. os 10 auto-vetores com os respectivos 10 maiores autovalores. A Figura 7 mostra a imagem dos auto-vetores escolhidos.. Figura 7. Ilustração dos auto-vetores escolhidos.. 6. Materiais e Métodos Um conjunto de imagens contendo 100 faces humanas (PICS, 2006), sendo 50 de mulheres e 50 de homens foi utilizado para treinamento e teste do sistema desenvolvido, bem como para construção da matriz de transformação PCA explicado na seção 5.1. Essas imagens utilizadas são em tons de cinza de 8 bits, com em média, 540 x 640 pixels. O ambiente computacional utilizado para implementação dos algoritmos do sistema foi o Matlab. Nesta seção encontra-se a explicação das duas etapas principais que o sistema realiza para detectar e extrair regiões de uma imagem com potenciais chances de conter faces humanas.. 6.1. Etapa 1 n I – Segmentação . xl ,i , l = 1,K , M , k = 1,K, n , no qual xl ,i. z l ,k =. ∑. Após n ia=1leitura de uma imagem digital, que consiste em alocar uma matriz em que cada posição corresponde ao nível de intensidade de brilho do pixel correspondente, binariza-se essa matriz com um parâmetro chamado limiar. A binarização da imagem consiste em converter os pixels cujo tom de cinza é maior ou igual a certo limiar T em branco, ou 1, e os demais em preto, ou seja, 0 (GONZALEZ; WOODS, 1992). Neste trabalho, o limiar de binarização foi determinado empiricamente. Entretanto, em implementações futuras, serão investigadas técnicas computacionais que possam determinar automaticamente esse importante parâmetro da binarização (BLAYVAS; BRUCKTEIN; KIMMEL, 2006; RUEDA, 2004; WANG; CHING; XIONG, 2008). Durante os testes realizados com o sistema de detecção, os melhores resultados foram obtidos para o limiar T = 0.22 (ver Tabelas 1 e 2). A binarização enfatiza as regiões de interesse da imagem. Por exemplo, olhos e boca ficam em preto e a pele em branco (ver Figura 8). Em geral, devido a ruídos e distorções na imagem de entrada, o resultado da binarização pode trazer regiões particionadas e pixels isolados. Para amenizar esse problema, aplicase a operação morfológica de abertura e fechamento (GONZALEZ; WOODS, 1992). Após a realização da binarização e eliminação de possíveis distorções na imagem, encontram-se 3 centros de regiões conectadas segundo o critério da 4vizinhança (GONZALEZ; WOODS, 1992) de modo que. QUEIROZ, R. A. B de.; et al. / UNOPAR Cient., Ciênc. Exatas. Tecnol., Londrina, v. 5, p. 45-52, nov. 2006.

(5) F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas. satisfaçam as seguintes características: sejam vértices de um triângulo isósceles; a distância entre os supostos olhos seja 90 – 100% da distância entre a suposta boca e o ponto central dos possíveis olhos (LIN; FAN, 2001) e a base do triângulo esteja em cima. Com essa última restrição, não são encontradas faces de cabeça para baixo, isto reduz bastante a quantidade de triângulos encontrados, diminuindo o tempo de processamento das etapas seguintes (MARAR et al., 2004). As operações de abertura e fechamento na imagem são de vital importância, uma vez que sem elas ficará inviável a determinação dos triângulos isósceles representativos das faces. Marar et al. (2004), afirmam que o tempo médio de processamento é muito alto quando não se utilizam tais operações de abertura e fechamento.. mente criada ou utiliza-se uma rede neural treinada para realizar esta tarefa. Primeiramente, é necessário normalizar o tamanho das regiões extraídas automaticamente para que todas tenham a mesma quantidade de informação para a comparação. Redimensionam-se as regiões extraídas na etapa I para 60 x 60 pixels através de uma interpolação bicúbica (COSTA; MARAR, 2003).. 6.2.1 Construção da máscara de pesos e algoritmo de atribuição do peso A máscara de pesos foi criada utilizando 10 imagens segmentadas manualmente, nas quais cinco são masculinas e cinco femininas (PICS, 2006). Estas imagens foram binarizadas, morfologicamente tratadas (abertura e fechamento), normalizadas e foram armazenadas em uma 11ª matriz que representa a soma dos valores das posições correspondentes de cada imagem (Figura 9). Esta matriz resultante foi então binarizada, os seus valores menores ou iguais a certo limiar T foram convertidos em 0 e os demais em 1, onde T escolhido foi igual a 4.. Figura 8. Binarização da imagem com limiar T.. Figura 9. Construção da máscara de pesos.. Diagrama 1. Passos da etapa I.. Diagrama 2. Passos da etapa II.. 6.2. Etapa II – Detecção Esta etapa tem por finalidade detectar se as regiões extraídas na etapa I do sistema representam ou não uma face. Para tanto é atribuído um peso a cada uma das regiões baseando-se em uma máscara de pesos previa-. Costa e Marar (2003), propõem um algoritmo de atribuição de peso que compara a região extraída R na etapa I com a máscara M. Segue abaixo a sua descrição: Algoritmo: Atribuição do peso da região da imagem •Entrada: Região R e a máscara M; •Saída: Peso calculado para R; •Para todos os pixels de R e M –Se o pixel de R e de M forem brancos •Então p = p + 6; –Se o pixel de R e de M forem pretos •Então p = p + 2; –Se o pixel de R é branco e o de M é preto •Então p = p – 4; –Se o pixel de R é preto e o de M é branco •Então p = p – 2; •Experimentalmente: face 3400 <= P >= 6800.. 6.2.2 Rede Neural Artificial e transformada PCA Foi implementada uma rede neural do tipo feedforward com múltiplas camadas ocultas (HAYKIN, 2001) para ajudar na classificação de regiões extraídas da imagem como tendo face ou não. Também foi implementada a transformada PCA para redução de. QUEIROZ, R. A. B de.; et al. / UNOPAR Cient., Ciênc. Exatas. Tecnol., Londrina, v. 5, p. 45-52, nov. 2006. 49.

(6) F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas. dimensionalidade dos padrões de treinamento e teste da rede neural, pois a imagem com uma face é um padrão com 3600 elementos, ou seja, um vetor com dimensão 1x3600. Este vetor que representa a face contém muitas informações redundantes. Aplicando a transformada PCA no vetor que representa a face, obtém-se como resultado um vetor (padrão) com apenas 10 elementos. Ressalta-se que a transformada PCA é amplamente recomendada em problemas de detecção e reconhecimento de faces, pois esta transformada consegue construir um espaço de faces que representa todas as faces utilizando um pequeno conjunto de componentes (CAMPOS, 2000). A arquitetura da rede neural implementada possue 10 neurônios na camada de entrada, duas camadas ocultas com respectivamente 3 e 2 neurônios, 1 neurônio na camada de saída. Todos os neurônios possuem funções de ativação sigmóide, que é definida por sig ( x) =. 1 . 1 + e−x. O algoritmo utilizado para treinamento dessa rede neural foi o backpropagation (HAYKIN, 2001). Para aprendizagem da rede neural, foram utilizadas 100 imagens com faces e 40 imagens sem faces.. 7 Resultados e Discussões Inicialmente, foram realizados testes com vários valores de limiar para a binarização das imagens. Em uma escala de 0 (preto) a 1 (branco), chegou-se no valor 0.38 que demonstrava ser bom para a maioria das imagens, mas foi percebido que para imagens mais escuras o valor 0.22 apresentou um resultado muito melhor. Um importante aspecto observado foi que o sistema desenvolvido, algumas vezes, recortava o mesmo rosto mais de uma vez, com pequenas e grandes diferenças de enquadramentos, isso ocorreu pelo fato das sobrancelhas, manchas de pele e ruídos confundirem o programa. Para solucionar esse problema, o sistema verifica se as regiões recortadas estão contidas umas nas outras, ou se apresentam grande área de intersecção entre si, então esse fica com a imagem que apresenta maior peso (MARAR et al., 2004). Os resultados obtidos são apresentados nas Tabelas 1 e 2 para dois valores de limiar de binarização.. Tabela 1. Resultados obtidos com a máscara de pesos. Limiar (T) Tempo de processamento (s) Detecção correta (%) Falsa deteccção (%). 0.22 15.2 81 25. 0.38 41.6 48 21. Tabela 2. Resultados obtidos com a rede neural. Limiar (T) Tempo de processamento (s) Detecção correta (%) Falsa deteccção (%) 50. 0.22 12.1 88 6. 0.38 19.5 67 12. A falsa detecção consiste na segmentação e alta pontuação para uma região que não representa especificamente uma face. Em alguns casos, a face foi detectada e teve uma falsa detecção para uma outra área segmentada da mesma imagem (MARAR et al., 2004). O melhor resultado para limiar igual a 0.22 se explica pelo fato das imagens terem baixa iluminação e conseqüentemente baixo contraste nas regiões de interesse e a cor da pele, obrigando uma binarização com um valor de limiar baixo. Conforme pode ser observado nos resultados obtidos, a técnica das redes neurais foi melhor que a máscara de peso, pois além de ser mais rápida na detecção de regiões extraídas como tendo face, diminui a falsa detecção. Os resultados obtidos com o sistema F.A.C.E é de grande valia para aplicações práticas, pois o restante 12% das faces não detectadas utilizando redes neurais, poderá ser feito por pessoas especializadas, que possuem um custo alto e demandam tempo para treinamento.. 8 Conclusões e Trabalhos Futuros Atualmente, com o crescimento da utilização de mecanismos automáticos para identificação humana exige-se um sistema de detecção cada vez mais robusto e eficiente. Dentro deste contexto, foi construído um sistema de detecção e extração automática de faces em imagens digitalizadas, que poderá baratear o custo de implantação de mecanismo de identificação baseado em faces. Assim, ajudará na segurança e conforto da sociedade podendo se tornar um produto gratuito para uso público. A construção desse sistema foi iniciado por Danilo Nogueira Costa, ex-bolsista CNPq/ PIBIC, durante suas pesquisas no Laboratório de Sistemas Adaptativos e Computação Inteligente – UNESP – Campus Bauru, sob orientação do prof. Dr. João Fernando Marar. Os resultados apresentados na seção 7 da aplicação realizada com o sistema F.A.C.E., considera como condições de entrada imagens (fotos) com apenas uma pessoa, esses são, portanto, resultados iniciais. Porém, essa ferramenta computacional foi desenvolvida para ter a capacidade de detectar mais de uma face humana presente na imagem, que pode ter fundo complexo (presença de objetos). A eficiência do sistema aqui proposto é dependente da determinação de um ótimo valor de limiar de binarização (GONZALEZ; WOODS, 1992), que é sensível a iluminação da cena. Sua aplicação é desta forma, ideal em imagens que são capturadas em ambientes com iluminação controlada e constante, como shoppings e aeroportos, sendo possível a determinação de um único valor de limiar. Como trabalhos futuros deste estudo, pretende - se: • Implementar técnicas de seleção automática do limiar de binarização; • Testar o sistema em casos complexos, tais como: presença de mais de uma pessoa na foto e fundos como objetos no formato triangular, onde se espera que os objetos sejam segmentados e classificados como não sendo faces humanas;. QUEIROZ, R. A. B de.; et al. / UNOPAR Cient., Ciênc. Exatas. Tecnol., Londrina, v. 5, p. 45-52, nov. 2006.

(7) F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas. •. •. Realizar um estudo comparativo entre a rede neural multi-camadas com função de ativação sigmóide implementadada nesse trabalho com a arquitetura neural PPS-Wavelet, que apresenta uma única camada oculta com função de ativação dos neurônios sendo do tipo PPSWavelet (MARAR, 1997); Construir uma ferramenta computacional de reconhecimento de faces que utilize o sistema inteligente de detecção e extração de faces desenvolvido neste estudo.. Referências BLAYVAS, I.; BRUCKSTEIN, A.; KIMMEL, R. Efficient computation of adaptive threshold surfaces for image binarization. Pattern Recognition, v. 39, n. 1, p. 89101, 2006. CAMPOS, T. E. de. Técnicas de seleção de atributos e classificação para reconhecimento de faces. 2000. Dissertação (Mestrado em Ciências da Computação) – IME – Universidade de São Paulo, São Paulo, 2000. COSTA, D. N.; MARAR, J. F. Relatório final de pesquisa: investigação de processos biométricos utilizando sistemas computacionais inteligentes para identificação humana. São Paulo: SACI, 2003. GONZALEZ, R. C.; WOODS, R.E. Digital image processing. São Paulo: Melhoramentos e AddisonWesley, 1992. HAYKIN, S. Redes neurais: princípios e práticas. São Paulo: Bookman, 2001. HUANG, L.-L.; SHIMIZU, A. A multi-expert approach for robust face detection. Pattern Recognition, v. 39, n. 9, p. 1695-1703, 2006. JIN, Z.. et al. Face detection using template matching and skin-color information. Neurocomputing, v. 70, n. 46, p. 794-800, 2007. LIN, C.; FAN, K. C. Triangle-based approach to the detection of human face. Pattern Recognition, v. 34, n. 6, p. 1271-1284, 2001. MARAR, J. F. Polinômios potências de sigmóide: uma nova ferramenta para aproximação de funções e construção de wavenets e suas aplicações em processamento de imagens/sinais. 1997. Tese (Doutorado em Ciências da Computação, área de concentração em Inteligência Artificial) – Universidade Federal de Pernambuco, Pernambuco, 1997. MARAR, J. F. et al. Adaptative techniques for the human faces detection. Proceedings 6th ICEIS - Internacional. Conference on Enterprise Information System, v. 2, p. 465-468, 2004. MEYNET, J.; POPOVICI, V.; THIRAN J-P. Face detection with boosted Gaussian features. Pattern Recognition, v. 40, n. 8, p. 2283-91, 2007. NAZEER, S.A.; OMAR, N.; KHALID, M. Face recognition system using artificial neural networks Approach. INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING, COMMUNICATIONS AND NETWORKING, 7., Dubai. Anais… Dubai. 2007. PHILLIPS, P. J. et al. Overview of the face recognition grand challenge. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, v. 11, n. 20/25, p. 947-54, 2005. PICS (Psychological Image Collection at Stirling). University of Stirling, Psycology Department. Disponível em: <http://pics.psych.stir.ac.uk/>. Acesso em: 10 abr. 2006. QUARTERONI, A.; SACCO, R.; SALERI, F. Numerical Mathematics. Texts in Applied Mathematics, v. 37. Berlim: Springer-Verlag, 2000. RUEDA, L. An efficient approach to compute the threshold for multi-dimensional linear classifiers. Pattern Recognition, v. 37, n. 4, p. 811-26, 2004. SHIH, P.; LIU, C. Face detection using discriminating feature analysis and Support Vector Machine. Pattern Recognition, v. 39, n. 2, p. 260-76, 2006. WANG, S.; CHING, F. -L.; XIONG, F. A novel image thresholding method based on Parzen window estimate. Pattern Recognition, v. 41, n. 1, p. 117-29, 2008. YANG, M. -H; KRIEGMAN, D.J.; AHUJA, N. Detecting faces in images: a survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 24, n. 1, p. 34-58, 2002. YU, H.; BENNAMOUN, M. 1D-PCA, 2D-PCA to nDPCA. 18th International Conference on Pattern Recognition, v. 4, p. 181-4, 2006. ZHAO, H.; YUEN, P. C.; KWOK, J. T. A novel incremental principal component analysis and its application for face recognition. IEEE Transactions on Systems, Man and Cybernetics, Part B, v. 36, n. 4, p. 873-86, 2006.. Agradecimentos Os autores agradecem o apoio financeiro parcial concedido pelo PIBIC-CNPq – UNESP por meio do processo 108250/2005-9, à CAPES por meio do processo 3634/06-0 e ao Lab. Sistemas Adaptativos e Computação Inteligente (SACI), pelo uso de suas dependências.. QUEIROZ, R. A. B de.; et al. / UNOPAR Cient., Ciênc. Exatas. Tecnol., Londrina, v. 5, p. 45-52, nov. 2006. 51.

(8) F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas. Rafael Alves Bonfim de Queiroz* Departamento de Matemática Aplicada e Estatística, Laboratório de Computação de Alto Desempenho. Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo (USP). e-mail: < >. João Fernando Marar Departamento de Computação. Faculdade de Ciências. Laboratório Sistemas Adaptativos e Computação Inteligente (SACI). Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP). e-mail: <fermarar@fc.unesp.br>. Danilo Nogueira Costa Laboratório Sistemas Adaptativos e Computação Inteligente (SACI). Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP). e-mail: <danilocosta@gmail.com> * Endereço para correspondência: Av. Trabalhador São-Carlense, 400, Centro, Caixa Postal: 668 – CEP 13560-970 –São Carlos, São Paulo, Brasil.. 52. QUEIROZ, R. A. B de.; et al. / UNOPAR Cient., Ciênc. Exatas. Tecnol., Londrina, v. 5, p. 45-52, nov. 2006.

(9)