Estado da arte
2.1 RECONHECIMENTO DE FACES 31 Reconhecimento
De Faces Detecção de Faces Extração de Características Imagem Estática 2D Identificação Verificação Holística Local Híbrida Autofaces Waveletfaces Agrupamento de Pixels Autofaces Fracionário
Figura 2.2 Diagrama de fluxo de um sistema de reconhecimento de faces. Este estudo foca em técnicas de extração de características holísticas para identificação de faces.
etapa de extração de característica calcula, a partir da imagem segmentada, informações que serão utilizadas no reconhecimento. A etapa final, reconhecimento, é aquela que fornece a resposta, que pode ser de dois tipos: identificação ou verificação. Verificação consiste em conferir se um determinado usuário é quem ele realmente diz ser. Identificação consiste em descobrir a identidade do usuário. Os métodos estudados nesta tese são métodos de extração de características, estes são avaliados na tarefa de identificação. As bases de dados utilizadas recebem como entrada imagens já segmentadas, portanto não é necessário realizar detecção. E a etapa de identificação é realizada por classificadores propostos por outros autores.
Abordagens de extração de características para o reconhecimento de faces são divididas em três grupos: holística, local e híbrida (ZHAO et al., 2003). A abordagem holística é a utilizada neste tese. Nesta abordagem, a imagem da face inteira é utilizada como entrada. Na abordagem local são extraídas características para regiões específicas da face, como olhos, boca e nariz. E a abordagem híbrida configura-se como uma combinação das duas anteriores. Autofaces (Eigen- faces) (TURK; PENTLAND, 1991) é a principal técnica na abordagem holística. Outra técnica
que será discutida adiante chama-se Waveletfaces (CHIEN; WU, 2002). Ainda na Figura 2.2 constam as metodologias propostas nesta tese: Agrupamento de Pixel e Autofaces Fracionário.
2.2
Waveletfaces
No artigo “Discriminant Waveletface and Nearest Feature Classifiers for Face Recognition”, Chien e Wu (2002) têm o objetivo de aumentar a taxa de reconhecimento de faces tratando dois aspectos do problema: extrator de características e classificador. Do ponto de vista da classificação, utilizam como referência o classificador de distância pelo vizinho mais próximo 1-NN (ou NN, Nearest Neighbor).
Inspirados no classificador NFL (Nearest Feature Line, linha de característica mais pró- xima), Chien e Wu propõem dois outros classificadores NFP (Nearest Feature Plane, plano de característica mais próxima) e NFS (Nearest Feature Space, espaço de características mais próximo). Enquanto o NN calcula a distância de uma amostra de teste a cada amostra de trei- namento, que é um ponto no espaço de classificação, e atribui, à amostra de teste, a classe do ponto mais próximo. O NFL forma linhas entre pares de pontos de uma mesma classe e atribui o padrão de teste à classe da linha mais próxima do ponto de teste. O NFP define planos para cada três pontos de uma classe e atribui o padrão de teste à classe cujo plano é mais próximo. De forma semelhante, o NFS define um volume para cada quatro pontos de uma classe no conjunto de treino e atribui o padrão de teste à classe do volume mais próximo do ponto que representa o elemento de teste. Todos estes classificadores utilizam a distância Euclidiana e definem combinações lineares das imagens de face de cada classe, criando novos protótipos artificiais para o conjunto de treinamento.
Para extração de características, é proposto por Chien e Wu (CHIEN; WU, 2002) o Wa- veletfacediscriminante, o qual depende da transformada discreta de Wavelet. A transformada discreta Wavelet pode ser interpretada com um algoritmo que recebe como entrada um sinal discreto (um vetor de números) e duas funções, uma de aproximação e outra de detalhes. A função de aproximação é um filtro espacial passa-baixa e a função de detalhes é um filtro espa-
2.2 WAVELETFACES 33
cial passa-alta (GONZALEZ; WOODS, 2006). Após a convolução do sinal com cada uma das funções têm-se duas versões do sinal: uma aproximação, a qual contém as baixas frequências; e o uma de detalhes que contém as altas frequências. Por final, cada uma das duas versões do sinal são sub-amostradas. Se o sinal de entrada tem n observações, cada um dos sinais de saída após serem sub-amostrados tem n/2 observações. Observa-se que a saída tem n observações, metade de aproximação e metade de detalhes.
Para ser aplicada a imagens digitais representada por matrizes, a transformada Wavelet deve ser primeiro aplicada às colunas depois às linhas dos resultados da primeira decomposição − também poderia ser aplicado primeiro às linhas depois às colunas dos resultados. Após aplicar a transformada às colunas da imagem m × n de entrada, são geradas duas matrizes (m/2) × n: uma de aproximação Yle outra de detalhe Yh, como na Figura 2.3. Para cada uma destas, aplica-
se agora a transformada às linha gerando quatro imagens (m/2) × (n/2): de Yl são geradas Yll
e Ylh, respectivamente a aproximação da imagem e os detalhes verticais; de Yhsão geradas Yhl
e Yhh, respectivamente os detalhes horizontais e diagonais.
Para o Waveletface utiliza-se apenas a aproximação final da imagem Yll. Chien e Wu (2002)
justificam esta escolha por afirmar que a aproximação contém mais energia. Yll é chamado o
primeiro nível da Waveletface, pode-se determinar o segundo nível achado a aproximação desta aproximação aplicando a mesma transformação a Yll. Assim também são definidos os demais
níveis, terceiro, quarto etc. Em (CHIEN; WU, 2002) a Waveletface padrão é definida como o terceiro nível de aproximação. E o Waveletface discriminante é o Waveletface com a dimensão reduzida pela projeção LDA. Análise do discriminante linear (Linear Discriminat Analysis, LDA) encontra uma projeção linear que maximiza a separação das classes.
O par de funções Wavelet de aproximação e de detalhe podem ser vários, estes são definidos e acordo com algumas restrições (GONZALEZ; WOODS, 2006). As funções Wavelet mais comuns são as Wavelets de Haar, as mesmas utilizadas por Chien e Wu (2002). A aproximação Yll de uma imagem utilizando tais funções são equivalentes a reduzir a imagem à metade da altura e metade da largura, em que a intensidade de cada pixel na imagem reduzida é a média dos quatro vizinhos. Portanto, o primeiro nível da Waveletface é a imagem reduzida para 1/2 da altura e 1/2 da largura; o segundo nível 1/4 da largura e altura; o terceiro nível, 1/8 da largura
X
G
2
Y
hG
2
Y
hhH
2
Y
hlH
2
Y
lG
2
Y
lhH
2
Y
llDecomposição
dos vetores
coluna
Decomposição
dos vetores
linha
Figura 2.3 Diagrama de funcionamento da transformada Wavelet 2D, adapatado de (CHIEN; WU, 2002).
e altura; o nível k, 1/2k da altura e largura. Muito embora o modelo proposto por Chien e Wu (2002) utilize a transformada Wavelet para definir que a imagem é simplesmente reduzida, deve-se estar ciente de que é apenas isto que acontece na prática. A proposta principal de Chien e Wu (2002) não é apenas reduzir a imagem através da transformada, mas também aplicar o LDA. Pelos experimentos a seguir, será visto que apenas a redução da imagem contribuiu para a melhorar a taxa de reconhecimento de faces, mesmo sem definir as projeções discriminantes através do LDA .
2.2.1 Experimentos do artigo
Esta subseção tem o objetivo de discutir alguns dos resultados de Chien e Wu (2002): a simples redução das imagens pode melhorar o reconhecimento. Em seu artigo, foram utilizadas duas
2.2 WAVELETFACES 35
bases de faces: IIS1e ORL2. As imagens da base IIS têm dimensões 92 × 104. Foram retiradas 30 imagens de face por classe para 128 pessoas (classes), um total de 3.840 imagens. Destas, 6 imagens de cada classe foram utilizadas para treino e as outras 24 para teste. A base ORL tem 10 imagens por classe e 40 classes, total de 400 imagens. Destas, 5 images de cada classe foram utilizadas para treino e as demais para teste. A média da taxa de acerto foi calculada para 10 rodadas deste tipo de experimento. Como citado anteriormente, foi utilizada a Wavelet de Haar.
No primeiro experimento (apenas para a base IIS) os autores comparam Autofaces com Waveletfaceno nível 3 e no nível 4. Para Waveletfaces no nível 3 afirma que as imagens são reduzidas para 12 × 13 = 156 características. As taxas de acerto são 91,2% para Autofaces com 156 características; 91,9% e 88,9% para Waveletface nível 3 e 4. Tais resultados são interessantes, pois a simples redução da imagem apresentou um efeito melhor/equivalente que o Autofaces para a classificação destes padrões faces.
Pela Tabela 2.1, percebe-se que o Waveletfaces obtém taxa de acerto maior do que o Au- tofaces, para o classificador NN. O mesmo pode ser notado para as versões discriminantes destes métodos. Outra informação interessante é como os classificadores de distância NFL, NFP e NFS são capazes de melhorar a taxa de reconhecimento para o Waveletfaces discrimi- nante. Para este experimento, o Waveletfaces e o Autofaces têm 156 dimensões para a base IIS e 12 × 14 = 168 para ORL. As versões discriminantes dos métodos têm 60 dimensões. Nesta tabela, o classificador MLP (Multilayer Perceptron, perceptron multicamadas), que é um classificador que segue o paradigma de redes neurais, é utilizado. O resultado utilizando MLP é uma boa referência para verificar eficácia dos classificadores baseados em distância, pois é um classificador robusto que segue um paradigma de aprendizagem distinto dos classificado- res baseados em distância. Os experimentos semelhantes a estes estão descritos na seção que segue.
1http://smart.iis.sinica.edu.tw/, Institute of Information Science (IIS) que pertence à Academia Sinica, Taiwan. 2http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html, Olivetti Research Laboratory (ORL).
Tabela 2.1 Taxa de reconhecimento em % para as bases de faces IIS e ORL, adaptada de (CHIEN; WU, 2002).
Método IIS ORL
Autofaces + NN 91,2 92,0 Autofaces discriminantes + NN 91,4 93,5 Waveletfaces+ NN 91,9 92,5 Waveletfacesdiscriminante + NN 93,1 94,5 Waveletfacesdiscriminante + MLP - 94,5 Waveletfacesdiscriminante + NFL 95,4 95,0 Waveletfacesdiscriminante + NFP 95,7 95,8 Waveletfacesdiscriminante + NFS 96,4 96,1 2.2.2 Experimentos replicados
Esta subseção tem o objetivo de discutir alguns dos resultados de experimentos replicados, similares aos de Chien e Wu (2002). Foi necessário replicar os experimentos para averiguar algumas informações experimentais omitidas por Chien e Wu. Também pretende verificar o quanto a redução é boa para o reconhecimento, e se existe realmente vantagem na versão dis- criminante de Waveletfaces. Aqui foi utilizada apenas a base ORL, pois a base IIS não estava mais disponível. Apenas alguns resultados do experimento completo são descritos nesta se- ção, estes resultados são provenientes do relatório técnico (CARVALHO, 2008). O primeiro dos experimentos compara a taxa de acerto para o classificador NN utilizando as imagens sem processamento e Waveletfaces nos níveis de 1 a 5. Os resultados estão descritos na Tabela 2.2. Vale ressaltar que o Waveletfaces utiliza as funções Wavelets de Haar, que neste caso, equivale a reduzir as imagens em metade da altura e metade de largura da wavelefaces do nível anterior. Neste experimento, se o número de linhas e colunas é ímpar o pixel extra de cada linha ou coluna é descartado.
Observa-se na Tabela 2.2 que a taxa de acerto aumenta, ainda que muito pouco, quando a imagem (e o número de características) diminui até o Waveletfaces nível 3. Observe que esta diminuição não é sempre vantajosa pois o desvio padrão também aumenta. Para o Waveletfa- cesnível 5 a taxa de acerto cai significativamente. Para o Waveletfaces nível 4 a taxa de acerto diminui pouco e o desvio padrão cresce pouco em relação ao nível anterior. Portanto este nível 4 (com 35 dimensões) e não o nível 3, como em (CHIEN; WU, 2002), foi escolhido para os ex-
2.2 WAVELETFACES 37
perimentos que seguem. Outras diferenças em relação ao trabalho de Chien e Wu (2002) é que o nível 3 tem 11 × 14 = 154 dimensões aqui contra 168 dimensões originalmente utilizadas no artigo, pois nestes experimento as regiões de borda com menos de quatro pixel são descartadas. As versões discriminantes (utilizando LDA) têm 60 dimensões no artigo original e aqui apenas 14, isto porque os experimentos desta subseção são retirados de (CARVALHO, 2008) que tinha o objetivo de obter maior redução possível com um nível equivalente de reconhecimento.
Tabela 2.2 Média da taxa de reconhecimento (em %) com indicação do desvio padrão, para as bases de faces ORL das imagens sem transformação e nos 5 níveis de Waveletfaces utilizando o classificador NN, retirada de (CARVALHO, 2008).
Método altura × largura características acerto médio ± desv. pad.
Waveletfacesnível 5 2 × 3 6 74,80 ± 2,84
Waveletfacesnível 4 5 × 7 35 93,95 ± 1,72
Waveletfacesnível 3 11 × 14 154 94,95 ± 1,70
Waveletfacesnível 2 23 × 28 644 94,70 ± 1,32
Waveletfacesnível 1 46 × 56 2.576 94,65 ± 1,20
Imagem sem transformação 92 × 112 10.304 94,25 ± 0,81
Tabela 2.3 Média da taxa de reconhecimento (em %) para as bases de faces ORL com indicação do desvio padrão para Autofaces discriminante e Waveletfaces discriminante com 13, 14 e 15 características extraídas utilizando o classificador NN, retirada de (CARVALHO, 2008).
Número de características
Método 13 14 15
Autofaces discriminante 92,50 ± 2,71 92,60 ± 2,57 92,35 ± 2,52 Waveletfacesdiscriminante 93,85 ± 1,87 94,00 ± 1,75 94,00 ±1,82
Tabela 2.4 Taxa de reconhecimento (em %) para as bases de faces ORL com indicação do desvio padrão para Autofaces, Autofaces Discriminante, Waveletfaces e Waveletfaces discriminante para os classificadores NN, NFL, NFP e NFS, retirada de (CARVALHO, 2008).
Método NN NFL NFP NFS
Autoface 93,6±1,85 94,8±1,70 94,6±0,99 94,3±1,05 Autoface discriminante 92,6±2,57 94,0±2,17 91,9±2,40 91,3±2,17 Waveletfaces 93,9±1,72 95,2±1,63 95,9±1,19 96,0±1,12 Waveletfacesdiscriminante 94,0±1,75 94,4±1,76 93,9±1,34 93,0±1,40
O restante dos experimentos que seguem têm o objetivo não apenas de comparar Wavelet- faces e Autofaces, mas também suas versões discriminantes. É importante verificar as reais
vantagens do Waveletfaces uma vez que alguns dos métodos propostos aqui baseiam-se nesta técnica. O experimento que segue tem o objetivo de definir o número de características para a versão discriminante. Na Tabela 2.3 são comparadas as versões discriminantes com 13, 14 e 15 características extraídas com LDA a partir do Waveletfaces nível 4 e o Autofaces com 35 características. É utilizando o classificador NN. Para ambos os métodos a versão discriminante com maior taxa de acerto utiliza 14 características, portanto as versões discriminantes aqui têm 14 dimensões.
Na Tabela 2.4 comparam-se para os quatro classificadores baseados em distância (NN, NFL, NFP, NFS) os quatro métodos (Autofaces, Waveletfaces e suas versões discriminantes). As versões discriminantes, que utilizam apenas 14 características, geralmente apresentam taxa de acerto menor que as versões canônicas, com 35 características. O método que apresentou os melhores resultados de taxa de acerto para todos os métodos foi o Waveletfaces nível 4, isto é a imagem reduzida para 1/16 de sua altura de 1/16 de sua largura. Os resultados para este método utilizando 35 características são equivalentes aos Waveletfaces discriminantes com 60 características de (CHIEN; WU, 2002).
Se o Waveletfaces com menos características (35 características) é capaz de extrair infor- mação suficiente para equiparar o reconhecimento do Waveletfaces discriminante (60 carac- terísticas), pode-se conjecturar que não é de fato o método discriminante que melhora a taxa de acerto, é o Waveletfaces que extrai características adequadas para a classificação. Deve-se também notar que os experimentos replicados utilizam muito poucas características (apenas 14) para o Waveletfaces discriminante, o que pode ser a razão de sua taxa de acerto mais baixa. Finalmente, percebe-se que a simples redução da imagem foi bastante adequada como método de extração de características, obtendo acurácia mais alta que o método Autofaces.
Partindo desses experimentos e entendendo que o componente de baixa frequência da trans- formada Wavelet de Haar aplicada a uma imagem é apenas uma versão reduzida da imagem, percebe-se que não há grande perda na acurácia do reconhecimento pelo fato de se reduzir as imagem. A possível explicação, a qual será analisado nas próximas seções, é que isto se dá pelo fato de agrupar pixels (características) semelhantes, que além de não perder informação evita redundância ou viés para alguma variável que se repete muito. Esta é a primeira hipó-