F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas

(1)

Rafael Alves Bonfim de Queiroz* João Fernando Marar**

Danilo Nogueira Costa**

* Universidade de São Paulo (USP). ** Universidade Estadual Paulista Júlio de

Mesquita Filho (UNESP).

F.A.C.E: um sistema inteligente para detecção de faces humanas em imagens digitalizadas

F.A.C.E: an intelligent system for detecting human faces in digital images

Resumo

Este artigo apresenta resultados obtidos com uma eficiente técnica de detecção e extração automática de faces humanas a partir de imagens com qualquer tipo de cor, textura ou objetos ao fundo, baseada na determinação de triângulos isósceles formados pelas regiões dos olhos e da boca. Duas diferentes técnicas foram implementadas para analisar quando uma região extraída da imagem contém real-mente uma face: máscara de peso e rede neural artificial.

Palavras-chave: Visão de máquina. Processamento de imagem. Rede neural artifi-cial. Detecção de face. Análise de componentes principais.

Abstract

This paper presents results of an efficient approach for the automatic detection and extraction of human faces from images with any color, texture or objects in back-ground, that consists in finding isosceles triangles formed by the eyes and mouth. Two different techniques were implemented to analyze when a region extracted from the image really contains a face: weighing mask and artificial neural network. Keywords: Machine vision. Image processing. Artificial neural network. Face de-tection. Principal components analysis.

1 Introdução

Sistemas baseados em características biométricas para a identificação e autenticação de pessoas vêm se consolidando como realidade para garantir segurança, confiabilidade e simplicidade em uma ampla variedade de aplicações. Mais especificamente, o reconhecimento de faces é de grande importância por possibilitar a construção de sistemas não intrusivos de identificação (NAZEER; OMAR; KHALID, 2007; PHILLIPS et al., 2005), sendo indicado, por exemplo, na construção de ferramentas computacionais de apoio à detecção de crianças desaparecidas em locais públicos, tais como aeroportos.

Para construir um sistema inteligente de reconheci-mento de faces, são imprescindíveis a detecção e segmentação automática de faces humanas na cena analisada (HUANG; SHIMIZU, 2006; JIN et al., 2007; MARAR et al., 2004; MEYNET; POPOVICI; THIRAN, 2007; SHIH; LIU, 2006; YANG; KRIEGMAN; AHUJA, 2002), ou seja, é necessário construir um mecanismo que possibilite ao computador procurar e encontrar uma ou mais faces em uma imagem digitalizada qualquer e então extraí-las com precisão eliminando toda a infor-mação desnecessária aos sistemas de identificação. Este trabalho apresenta um sistema inteligente de detecção e extração de faces humanas presentes em imagens digitalizadas, conforme ilustrado na Figura 1. A detecção de regiões da imagem com possíveis faces é baseada na técnica de encontrar triângulos isósceles (LIN; FAN, 2001), uma vez que as regiões dos olhos e

da boca formam tal figura geométrica quando ligados por linhas. Após a detecção e extração de regiões da cena, analisa-se a região segmentada da imagem que contém uma face humana por meio das técnicas: más-cara de peso e rede neural artificial.

Figura 1. Detecção e segmentação de região com uma face.

Nas seções seguintes, após o objetivo, são apre-sentados os fundamentos teóricos principais estuda-dos em processamento digital de imagens (GONZALEZ; WOODS, 1992), redes neurais artificiais (HAYKIN, 2001) e análise de componentes principais (CAMPOS, 2000) para o desenvolvimento do sistema inteligente propos-to nesse trabalho.

2 Objetivo

Este trabalho de pesquisa teve como objetivo cons-truir um sistema de detecção e extração automática

(2)

de faces humanas presentes em imagens digitalizadas. A necessidade de tal sistema justifica-se, pois esse poderá auxiliar na construção de dispositivos não intrusivos de identificação humana.

3 Processamento Digital de Imagens

Uma imagem monocromática é definida matematica-mente da seguinte forma f(x, y) = brilho, no qual (x, y) indica a posição do pixel na imagem. O brilho, ou nível de cinza, representa o produto da iluminância i (x, y), que indica a quantidade de luz incidida sobre o objeto, pela refletância do objeto, r(x, y) (GONZALEZ; WOODS, 1992). Desta forma, a imagem pode ser definida por: f(x, y) = i (x, y)*r(x, y). A imagem de uma face pode ser vista como um vetor. A construção de tal vetor consiste na simples concatenação das linhas da imagem, colocan-do uma após a outra, assim como na Figura 2. Esse processo é conhecido como raster (COSTA; MARAR, 2003; MARAR et al., 2004).

Figura 2. Raster.

Nas próximas seções, são explicadas duas impor-tantes propriedades de imagens digitais, que são a vi-zinhança e a conectividade (GONZALEZ; WOODS, 1992; COSTA; MARAR, 2003). Quando necessário na explicação, utiliza-se a seguinte notação: uma imagem digital será representada por f(x, y) e os pixels por le-tras minúsculas como p e q.

3.1 Vizinhança dos pixels

As operações baseadas em vizinhança são de ex-trema importância no processamento digital de ima-gens. Pois, é necessária a compreensão de como uma imagem pode ser amostrada e como se relacionam as várias vizinhanças. Os tipos de amostragem são:

• Amostragem retangular - Funciona como uma gra-de retangular. Tal amostragem está ilustrada na Figura 3: (a), (b) e (c).

• Amostragem hexagonal - Uma amostragem alter-nativa como ilustrada na Figura 3: (d).

Os tipos de Vizinhança dos pixels são:

• Vizinhança - Os quatros vizinhos de um pixel p(x, y) são os de coordenadas (x+1, y), (x-1, y), (x, y+1) e (x, y-1), como na Figura 3-(a). Tal vizinhança é designada N₄(p).

• Vizinhança Diagonal - São os quatro vizinhos diagonais à p(x, y): (x+1, y-1), (x+1, y+1), (x-1, y-1) e (x-1, y+1), ver Figura 3-(b). Na qual é designada N_d(p).

•Vizinhança - É o conjunto formado por N₄(p) YN_d(p) representado por N₈(p), Figura 3-(c).

•Vizinhança - Um exemplo de vizinhança para a amostragem hexagonal é ilustrado na Figura 3-(d).

Figura 3. Tipos de Amostragem e Vizinhança 3.2. Conectividade dos pixels

A conectividade é um conceito importante para es-tabelecer limites de objetos e componentes de regiões em uma imagem. Dois pixels estão conectados se são vizinhos por algum critério de conectividade e seus ní-veis de cinza estão dentro de certo intervalo de simila-ridade previamente definido por um conjunto V de valo-res de tons de cinza. Como exemplo em uma imagem binária, V={1} para conexão de pixels de valor 1; em uma imagem de múltiplos tons de cinza poderíamos ter V={32, 33, ..., 63, 64} para conexão de pixels com valores de intensidade de 32 a 64. Seguem critérios de conectividade para 2 pixels, p e q, com valores de tons de cinza contidos em V.

• “4-conectividade”: p e q são 4-conectados se q ∈ N₄(p) • “8-conectividade”: p e q são 8-conectados se q ∈ N8(p) • “m-conectividade (conectividade mista)”: p e q são m-conectados se:

q ∈ N₄(p) ou

q ∈ N_d(p) e N₄(p) N₄(q) = { }, no qual { } é o conjunto vazio.

A Figura 4 mostra como a “m-conectividade” pode ser usada para evitar a redundância de caminhos entre pixels.

I

Figura 4. (a) 8-vizinhos, (b) m-vizinhos. 4 Redes Neurais Artificiais

Existem diversas definições, ou tentativas de defini-ções, para as redes neurais artificiais, uma delas bas-tante interessante está presente em (HAYKIN, 2001). O autor define Rede Neural como um processador ma-ciço e paralelamente distribuído constituído de unida-des de processamento simples, que tem propensão natural para armazenar conhecimento experimental e torná-lo disponível para uso.

(3)

As redes neurais tentam imitar o cérebro humano em dois aspectos:

• O conhecimento é adquirido pela rede neural a partir de seu ambiente por meio de um processo deno-minado de aprendizagem.

• Forças de conexão entre as unidades de processamento, neurônios, conhecidas como pesos sinápticos, são utilizadas para armazenar o conheci-mento adquirido.

4.1 Aprendizagem de redes neurais

Segundo Haykin (2001), aprendizagem é um pro-cesso pelo qual os parâmetros livres de uma rede neural são adaptados por meio de um processo de estimulação pelo ambiente, no qual a rede está inserida. O tipo de aprendizagem é determinado pela maneira pela qual a modificação dos parâmetros ocorre.

O processo de aprendizagem tem por objetivo fa-zer com que um conjunto de entradas, na rede neural, produza um conjunto de saídas desejadas (ou no mí-nimo consistente). Cada um desses conjuntos de en-trada ou saída é armazenado em um vetor. Normal-mente, o processo de aprendizagem ocorre por meio de aplicações seqüenciais dos vetores de entrada e o ajuste do estado interno da rede neural com um algoritmo pré-determinado. Todos os métodos de apren-dizagem conexionista podem ser classificados em duas categorias: supervisionada e não supervisiona-da. Segue uma breve explicação sobre as duas cate-gorias de aprendizagem:

4.1.1 Aprendizagem supervisionada

A aprendizagem supervisionada é um processo que incorpora um instrutor (teacher) externo. São forneci-dos à rede neural pares de treinamento, representando os vetores de entrada e as saídas desejadas. Um vetor de entrada é aplicado à rede neural e a saída corres-pondente é calculada e comparada com o correspon-dente vetor de saída desejado. O erro é propagado por meio da rede e os pesos são alterados por um algoritmo que tende a minimizar este erro.

Nesse trabalho, é adotada a aprendizagem supervi-sionada, pois essa técnica permite definir critérios de parada para o processo de treinamento, tais como: número de iterações e ordem de precisão do erro.

4.1.2 Aprendizagem não supervisionada

A aprendizagem não supervisionada é também de-nominada auto-organização (self-organization), corresponde a um processo que não incorpora um instrutor externo, baseando-se apenas em informações locais e controle interno. Um método não supervisiona-do auto-organiza os dasupervisiona-dos apresentasupervisiona-dos e descobre suas propriedades coletivas. O conjunto de treinamen-to consiste de apenas vetreinamen-tores de entrada.

4.2 Arquiteturas das redes neurais

Existem diversas arquiteturas de redes neurais, se-guem dois modelos consagrados na literatura:

4.2.1 Redes neurais feedforward sem camada oculta

Grande parte das redes neurais é formada pela or-ganização dos neurônios (nós computacionais) em camadas ou campos. Uma camada deve conter neurônios com funções ou propriedades semelhantes (HAYKIN, 2001). Na forma mais simples de uma rede neural em camadas, temos uma camada de entrada de nós que se projetam sobre uma camada de saída de neurônios. A Figura 5 ilustra uma arquitetura neural com 2 nós na camada de entrada e 3 neurônios artifici-ais na camada de saída.

Figura 5. Rede neural feedforward sem camada oculta. 4.2.2 Redes neurais feedforward com camadas ocultas

Esta segunda classe de redes neurais se distingue da primeira pela presença de uma ou mais camadas ocultas, cujos nós computacionais são chamados de neurônios ocultos. Adicionando uma ou mais camadas ocultas, o processo de aprendizagem torna-se mais lento. Apesar desse aumento do tempo computacional de treinamento, a rede neural terá mais capacidade para mapear espaços multi-dimensionais de entrada de or-dem elevadas (HAYKIN, 2001).

A Figura 6 representa uma arquitetura neural com 2 nós na camada de entrada, 3 neurônios na camada oculta e 1 neurônio na camada de saída.

Figura 6. Rede Neural feedforward com uma camada oculta.

(4)

os 10 vetores com os respectivos 10 maiores auto-valores. A Figura 7 mostra a imagem dos auto-vetores escolhidos.

Figura 7. Ilustração dos auto-vetores escolhidos. 6. Materiais e Métodos

Um conjunto de imagens contendo 100 faces hu-manas (PICS, 2006), sendo 50 de mulheres e 50 de homens foi utilizado para treinamento e teste do siste-ma desenvolvido, bem como para construção da sistema-triz de transformação PCA explicado na seção 5.1. Essas imagens utilizadas são em tons de cinza de 8 bits, com em média, 540 x 640 pixels. O ambiente computacional utilizado para implementação dos algoritmos do sistema foi o Matlab. Nesta seção en-contra-se a explicação das duas etapas principais que o sistema realiza para detectar e extrair regiões de uma imagem com potenciais chances de conter faces humanas.

6.1. Etapa I – Segmentação

Após a leitura de uma imagem digital, que consiste em alocar uma matriz em que cada posição de ao nível de intensidade de brilho do pixel correspon-dente, binariza-se essa matriz com um parâmetro cha-mado limiar. A binarização da imagem consiste em converter os pixels cujo tom de cinza é maior ou igual a certo limiar T em branco, ou 1, e os demais em pre-to, ou seja, 0 (GONZALEZ; WOODS, 1992).

Neste trabalho, o limiar de binarização foi determi-nado empiricamente. Entretanto, em implementações futuras, serão investigadas técnicas computacionais que possam determinar automaticamente esse impor-tante parâmetro da binarização (BLAYVAS; BRU-CKTEIN; KIMMEL, 2006; RUEDA, 2004; WANG; CHING; XIONG, 2008). Durante os testes realizados com o sistema de detecção, os melhores resultados foram obtidos para o limiar T = 0.22 (ver Tabelas 1 e 2). A binarização enfatiza as regiões de interesse da ima-gem. Por exemplo, olhos e boca ficam em preto e a pele em branco (ver Figura 8). Em geral, devido a ruí-dos e distorções na imagem de entrada, o resultado da binarização pode trazer regiões particionadas e pixels isolados. Para amenizar esse problema, aplica-se a operação morfológica de abertura e fechamento (GONZALEZ; WOODS, 1992).

Após a realização da binarização e eliminação de possíveis distorções na imagem, encontram-se 3 cen-tros de regiões conectadas segundo o critério da 4-vizinhança (GONZALEZ; WOODS, 1992) de modo que 5 Análise de Componentes Principais (PCA)

A transformada PCA, também conhecida como transformada de Hotelling ou transformada K-L, é am-plamente utilizada no problema de reconhecimento de faces para extração de características (CAMPOS, 2000; COSTA; MARAR, 2003; YU; BENNAMOUN, 2006; ZHAO; YUEN; KWOK, 2006).

De modo geral, os métodos de extração de caracte-rísticas lineares são definidos como: Y=H.X, em que X é a matriz de padrões de dimensão M x _n, H é a matriz da transformação linear de dimensão m x M e Y é a matriz dos padrões transformados de dimensão m x n, sendo que n é o número de padrões de treinamento e M são dimensionalidades de espaços de característi-cas (m< < M) (CAMPOS, 2000).

O espaço de imagens não é ideal para representar as faces, pois há uma grande covariância entre as vari-áveis, ou características. Dada a matriz de padrões X de dimensão M x n. A matriz covariância C de dimen-são M x M é obtida por: C = (X – Z).(X – Z)t_{no qual}_Z_{é a} matriz de dimensão M x n. Os elementos da matriz Z são obtidos por

∑

₌

=

n i i l k l

x

n

z

1 , ,

.

1

, l=1,K,M, k=1,K,n, no qual

x

_l_,_i

refere-se ao elemento da linha l e coluna i da matriz de padrões X. O elemento da diagonal principal da matriz de covariância C, isto é C_{l, l}, representa a variância da característica l dos padrões (x_l,i, para todo i = l,...,n). Os demais elementos da matriz de covariância, isto é C_l,o, representam a covariância entre as características l e o. Se as características l e o são estatisticamente independentes, então a covariância é nula (c_l,o = 0). A matriz da transformação linear H é construída com os auto-vetores da matriz de covariância C, que são dispos-tos cada um em uma linha na matriz H (CAMPOS, 2000).

5.1 Construção da matriz de transformação PCA

Um conjunto de imagens contendo 100 faces hu-manas (PICS, 2006), sendo 50 de mulheres e 50 de homens, foi segmentado manualmente para a separa-ção das imagens das faces, ou seja, contendo a área que envolve os olhos, nariz e boca. Depois dessa segmentação, essas regiões com face são redimen-sionadas para 60×60 pixels e vetorizadas (raster) para compor a matriz de padrões X (COSTA; MARAR, 2003). Para a obtenção da matriz de covariância C, foi construída a matriz Z da seguinte forma: somaram-se os pixels correspondentes das 100 faces segmenta-das manualmente, tirou-se a média aritmética e a ma-triz resultante foi vetorizada. De posse das mama-trizes X e Z, foi possível proceder com o cálculo da matriz de covariância C conforme equação C = (X – Z).(X – Z)t_. A diagonalização da matriz C foi feita por meio da téc-nica Decomposição de Valores Singulares (MARAR et al., 2004; QUARTERONI; SACCO; SALERI, 2000), e dessa maneira foram obtidos os auto-vetores e os cor-respondentes auto-valores. Finalmente, para construir a matriz H de transformação dos dados, foram selecionados

(5)

Figura 8. Binarização da imagem com limiar T.

Diagrama 1. Passos da etapa I.

Diagrama 2. Passos da etapa II.

satisfaçam as seguintes características: sejam vértices de um triângulo isósceles; a distância entre os supostos olhos seja 90 – 100% da distância entre a suposta boca e o ponto central dos possíveis olhos (LIN; FAN, 2001) e a base do triângulo esteja em cima. Com essa última restrição, não são encontradas faces de cabeça para baixo, isto reduz bastante a quantidade de triângulos encontrados, diminuindo o tempo de processamento das etapas seguintes (MARAR et al., 2004).

As operações de abertura e fechamento na imagem são de vital importância, uma vez que sem elas ficará inviável a determinação dos triângulos isósceles repre-sentativos das faces. Marar et al. (2004), afirmam que o tempo médio de processamento é muito alto quando não se utilizam tais operações de abertura e fechamento.

6.2. Etapa II – Detecção

Esta etapa tem por finalidade detectar se as regiões extraídas na etapa I do sistema representam ou não uma face. Para tanto é atribuído um peso a cada uma das regiões baseando-se em uma máscara de pesos

previa-mente criada ou utiliza-se uma rede neural treinada para realizar esta tarefa. Primeiramente, é necessário norma-lizar o tamanho das regiões extraídas automaticamente para que todas tenham a mesma quantidade de informa-ção para a comparainforma-ção. Redimensionam-se as regiões extraídas na etapa I para 60 x 60 pixels através de uma interpolação bicúbica (COSTA; MARAR, 2003).

6.2.1 Construção da máscara de pesos e algoritmo de atribuição do peso

A máscara de pesos foi criada utilizando 10 ima-gens segmentadas manualmente, nas quais cinco são masculinas e cinco femininas (PICS, 2006). Estas ima-gens foram binarizadas, morfologicamente tratadas (abertura e fechamento), normalizadas e foram arma-zenadas em uma 11ª matriz que representa a soma dos valores das posições correspondentes de cada imagem (Figura 9). Esta matriz resultante foi então binarizada, os seus valores menores ou iguais a certo limiar T foram convertidos em 0 e os demais em 1, onde T escolhido foi igual a 4.

Figura 9. Construção da máscara de pesos.

Costa e Marar (2003), propõem um algoritmo de atri-buição de peso que compara a região extraída R na eta-pa I com a máscara M. Segue abaixo a sua descrição:

Algoritmo: Atribuição do peso da região da imagem •Entrada: Região R e a máscara M;

•Saída: Peso calculado para R; •Para todos os pixels de R e M –Se o pixel de R e de M forem brancos •Então p = p + 6;

–Se o pixel de R e de M forem pretos •Então p = p + 2;

–Se o pixel de R é branco e o de M é preto •Então p = p – 4;

–Se o pixel de R é preto e o de M é branco •Então p = p – 2;

•Experimentalmente: face 3400 <= P >= 6800.

6.2.2 Rede Neural Artificial e transformada PCA

Foi implementada uma rede neural do tipo feedforward com múltiplas camadas ocultas (HAYKIN, 2001) para ajudar na classificação de regiões extraídas da imagem como tendo face ou não. Também foi implementada a transformada PCA para redução de

(6)

Tabela 1. Resultados obtidos com a máscara de pesos.

Tabela 2. Resultados obtidos com a rede neural.

A falsa detecção consiste na segmentação e alta pontuação para uma região que não representa especi-ficamente uma face. Em alguns casos, a face foi de-tectada e teve uma falsa detecção para uma outra área segmentada da mesma imagem (MARAR et al., 2004). O melhor resultado para limiar igual a 0.22 se explica pelo fato das imagens terem baixa iluminação e conse-qüentemente baixo contraste nas regiões de interesse e a cor da pele, obrigando uma binarização com um valor de limiar baixo.

Conforme pode ser observado nos resultados obtidos, a técnica das redes neurais foi melhor que a máscara de peso, pois além de ser mais rápida na detecção de regi-ões extraídas como tendo face, diminui a falsa detecção. Os resultados obtidos com o sistema F.A.C.E é de grande valia para aplicações práticas, pois o restante 12% das faces não detectadas utilizando redes neurais, poderá ser feito por pessoas especializadas, que possu-em um custo alto e dpossu-emandam tpossu-empo para treinamento.

8 Conclusões e Trabalhos Futuros

Atualmente, com o crescimento da utilização de mecanismos automáticos para identificação humana exige-se um sistema de detecção cada vez mais ro-busto e eficiente. Dentro deste contexto, foi construído um sistema de detecção e extração automática de fa-ces em imagens digitalizadas, que poderá baratear o custo de implantação de mecanismo de identificação baseado em faces. Assim, ajudará na segurança e con-forto da sociedade podendo se tornar um produto gra-tuito para uso público. A construção desse sistema foi iniciado por Danilo Nogueira Costa, ex-bolsista CNPq/ PIBIC, durante suas pesquisas noLaboratório de Siste-mas Adaptativos e Computação Inteligente – UNESP – Campus Bauru, sob orientação do prof. Dr. João Fernando Marar.

Os resultados apresentados na seção 7 da aplica-ção realizada com o sistema F.A.C.E., considera como condições de entrada imagens (fotos) com apenas uma pessoa, esses são, portanto, resultados iniciais. Po-rém, essa ferramenta computacional foi desenvolvida para ter a capacidade de detectar mais de uma face humana presente na imagem, que pode ter fundo com-plexo (presença de objetos).

A eficiência do sistema aqui proposto é dependente da determinação de um ótimo valor de limiar de binarização (GONZALEZ; WOODS, 1992), que é sen-sível a iluminação da cena. Sua aplicação é desta for-ma, ideal em imagens que são capturadas em ambien-tes com iluminação controlada e constante, como shoppings e aeroportos, sendo possível a determina-ção de um único valor de limiar. Como trabalhos futuros deste estudo, pretende - se:

• Implementar técnicas de seleção automática do limiar de binarização;

• Testar o sistema em casos complexos, tais como: presença de mais de uma pessoa na foto e fundos como objetos no formato triangular, onde se espera que os objetos sejam segmentados e classificados como não sendo faces humanas;

Limiar (T) 0.22 0.38 Tempo de processamento (s) 15.2 41.6 Detecção correta (%) 81 48 Falsa deteccção (%) 25 21 Limiar (T) 0.22 0.38 Tempo de processamento (s) 12.1 19.5 Detecção correta (%) 88 67 Falsa deteccção (%) 6 12

dimensionalidade dos padrões de treinamento e teste da rede neural, pois a imagem com uma face é um padrão com 3600 elementos, ou seja, um vetor com dimensão 1x3600. Este vetor que representa a face contém muitas informações redundantes. Aplicando a transformada PCA no vetor que representa a face, ob-tém-se como resultado um vetor (padrão) com apenas 10 elementos. Ressalta-se que a transformada PCA é amplamente recomendada em problemas de detecção e reconhecimento de faces, pois esta transformada consegue construir um espaço de faces que represen-ta todas as faces utilizando um pequeno conjunto de componentes (CAMPOS, 2000).

A arquitetura da rede neural implementada possue 10 neurônios na camada de entrada, duas camadas ocultas com respectivamente 3 e 2 neurônios, 1 neurônio na camada de saída. Todos os neurônios pos-suem funções de ativação sigmóide, que é definida por

x e x sig ₋ + = 1 1 ) ( .

O algoritmo utilizado para treinamento dessa rede neural foi o backpropagation (HAYKIN, 2001). Para aprendizagem da rede neural, foram utilizadas 100 ima-gens com faces e 40 imaima-gens sem faces.

7 Resultados e Discussões

Inicialmente, foram realizados testes com vários valores de limiar para a binarização das imagens. Em uma escala de 0 (preto) a 1 (branco), chegou-se no valor 0.38 que demonstrava ser bom para a maioria das imagens, mas foi percebido que para imagens mais escuras o valor 0.22 apresentou um resultado muito melhor. Um importante aspecto observado foi que o sis-tema desenvolvido, algumas vezes, recortava o mesmo rosto mais de uma vez, com pequenas e grandes dife-renças de enquadramentos, isso ocorreu pelo fato das sobrancelhas, manchas de pele e ruídos confundirem o programa.

Para solucionar esse problema, o sistema verifica se as regiões recortadas estão contidas umas nas ou-tras, ou se apresentam grande área de intersecção entre si, então esse fica com a imagem que apresenta maior peso (MARAR et al., 2004).

Os resultados obtidos são apresentados nas Tabe-las 1 e 2 para dois valores de limiar de binarização.

(7)

• Realizar um estudo comparativo entre a rede neural multi-camadas com função de ativação sigmóide implementadada nesse trabalho com a arquitetura neural PPS-Wavelet, que apresen-ta uma única camada oculapresen-ta com função de ativação dos neurônios sendo do tipo PPS-Wavelet (MARAR, 1997);

• Construir uma ferramenta computacional de re-conhecimento de faces que utilize o sistema in-teligente de detecção e extração de faces de-senvolvido neste estudo.

Referências

BLAYVAS, I.; BRUCKSTEIN, A.; KIMMEL, R. Efficient computation of adaptive threshold surfaces for image binarization. Pattern Recognition, v. 39, n. 1, p. 89-101, 2006.

CAMPOS, T. E. de. Técnicas de seleção de atributos e classificação para reconhecimento de faces. 2000. Dissertação (Mestrado em Ciências da Computação) – IME – Universidade de São Paulo, São Paulo, 2000. COSTA, D. N.; MARAR, J. F. Relatório final de pesqui-sa: investigação de processos biométricos utilizando sistemas computacionais inteligentes para identifica-ção humana. São Paulo: SACI, 2003.

GONZALEZ, R. C.; WOODS, R.E. Digital image processing. São Paulo: Melhoramentos e Addison-Wesley, 1992.

HAYKIN, S. Redes neurais: princípios e práticas. São Paulo: Bookman, 2001.

HUANG, L.-L.; SHIMIZU, A. A multi-expert approach for robust face detection. Pattern Recognition, v. 39, n. 9, p. 1695-1703, 2006.

JIN, Z.. et al. Face detection using template matching and skin-color information. Neurocomputing, v. 70, n. 4-6, p. 794-800, 2007.

LIN, C.; FAN, K. C. Triangle-based approach to the de-tection of human face. Pattern Recognition, v. 34, n. 6, p. 1271-1284, 2001.

MARAR, J. F. Polinômios potências de sigmóide: uma nova ferramenta para aproximação de funções e cons-trução de wavenets e suas aplicações em proces-samento de imagens/sinais. 1997. Tese (Doutorado em Ciências da Computação, área de concentração em Inteligência Artificial) – Universidade Federal de Pernambuco, Pernambuco, 1997.

MARAR, J. F. et al. Adaptative techniques for the human faces detection. Proceedings 6th ICEIS - Internacional

Conference on Enterprise Information System, v. 2, p. 465-468, 2004.

MEYNET, J.; POPOVICI, V.; THIRAN J-P. Face detec-tion with boosted Gaussian features. Pattern Recogni-tion, v. 40, n. 8, p. 2283-91, 2007.

NAZEER, S.A.; OMAR, N.; KHALID, M. Face recogni-tion system using artificial neural networks Approach. INTERNATIONAL CONFERENCE ON SIGNAL PRO-CESSING, COMMUNICATIONS AND NETWORKING, 7., Dubai. Anais… Dubai. 2007.

PHILLIPS, P. J. et al. Overview of the face recognition grand challenge. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, v. 11, n. 20/25, p. 947-54, 2005.

PICS (Psychological Image Collection at Stirling). Uni-versity of Stirling, Psycology Department. Disponível em: <http://pics.psych.stir.ac.uk/>. Acesso em: 10 abr. 2006. QUARTERONI, A.; SACCO, R.; SALERI, F. Numerical Mathematics. Texts in Applied Mathematics, v. 37. Berlim: Springer-Verlag, 2000.

RUEDA, L. An efficient approach to compute the threshold for multi-dimensional linear classifiers. Pattern Recognition, v. 37, n. 4, p. 811-26, 2004.

SHIH, P.; LIU, C. Face detection using discriminating feature analysis and Support Vector Machine. Pattern Recognition, v. 39, n. 2, p. 260-76, 2006.

WANG, S.; CHING, F. -L.; XIONG, F. A novel image thresholding method based on Parzen window estimate. Pattern Recognition, v. 41, n. 1, p. 117-29, 2008. YANG, M. -H; KRIEGMAN, D.J.; AHUJA, N. Detecting faces in images: a survey. IEEE Transactions on Pat-tern Analysis and Machine Intelligence, v. 24, n. 1, p. 34-58, 2002.

YU, H.; BENNAMOUN, M. 1D-PCA, 2D-PCA to nD-PCA. 18th International Conference on Pattern Recog-nition, v. 4, p. 181-4, 2006.

ZHAO, H.; YUEN, P. C.; KWOK, J. T. A novel incremental principal component analysis and its application for face recognition. IEEE Transactions on Systems, Man and Cybernetics, Part B, v. 36, n. 4, p. 873-86, 2006.

Agradecimentos

Os autores agradecem o apoio financeiro parcial concedido pelo PIBIC-CNPq – UNESP por meio do pro-cesso 108250/2005-9, à CAPES por meio do propro-cesso 3634/06-0 e ao Lab. Sistemas Adaptativos e Computa-ção Inteligente (SACI), pelo uso de suas dependências.

(8)

Rafael Alves Bonfim de Queiroz*

Departamento de Matemática Aplicada e Estatística, Laboratório de Computação de Alto Desempenho. Instituto de Ciências Mate-máticas e de Computação. Universidade de São Paulo (USP). e-mail: < >

João Fernando Marar

Departamento de Computação. Faculdade de Ciências. Laborató-rio Sistemas Adaptativos e Computação Inteligente (SACI). Univer-sidade Estadual Paulista Júlio de Mesquita Filho (UNESP). e-mail: <fermarar@fc.unesp.br>

Danilo Nogueira Costa

Laboratório Sistemas Adaptativos e Computação Inteligente (SACI). Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP). e-mail: <danilocosta@gmail.com>

* Endereço para correspondência:

Av. Trabalhador São-Carlense, 400, Centro, Caixa Postal: 668 – CEP 13560-970 –São Carlos, São Paulo, Brasil.