• Nenhum resultado encontrado

Agrupamento de faces em coleções de fotografias digitais.

N/A
N/A
Protected

Academic year: 2021

Share "Agrupamento de faces em coleções de fotografias digitais."

Copied!
176
0
0

Texto

(1)

U N I V E R S I D A D E F E D E R A L D E C A M P I N A G R A N D E

C E N T R O D E E N G E N H A R I A E L É T R I C A E I N F O R M Á T I C A Coordenação d e Pós-Graduação e m Ciência d a Computação

DISSERTAÇÃO DE MESTRADO AGRUPAMENTO DE F A C E S EM C O L E Ç O E S DE FOTOGRAFIAS D I G I T A I S E D U A R D O S A N T I A G O MOURA ORIENTADORES H E R M A N M A R T I N S G O M E S J O Ã O M A R Q U E S D E C A R V A L H O C A M P I N A G R A N D E , P A R A Í B A F E V E R E I R O - 2 0 1 2

(2)

U N I V E R S I D A D E F E D E R A L D E C A M P I N A G R A N D E

C E N T R O D E E N G E N H A R I A E L É T R I C A E I N F O R M Á T I C A Coordenação d e Pós-Graduação e m Ciência d a Computação

AGRUPAMENTO DE F A C E S EM COLEÇOES DE FOTOGRAFIAS D I G I T A I S

E D U A R D O S A N T I A G O MOURA

Dissertação s u b m e t i d a à Coordenação do Curso de Pós-Graduação e m Ciência da Computação do Centro de Engenharia Elétrica e Informática da U n i v e r s i d a d e Federal de C a m p i n a G r a n d e - C a m p u s I c o m o p a r t e dos requisitos necessários à obtenção do grau de Mestre e m Ciência da Computação ( M S c ) .

Área de concentração: Ciência da Computação

Linha de pesquisa: M e t o d o l o g i a de Técnicas de Computação

H e r m a n Martins G o m e s João Marques de Carvalho

O r i e n t a d o r e s

C a m p i n a G r a n d e - Paraíba Fevereiro - 2 0 1 2

(3)

DIGITALIZAÇÃO: S I S T E M O T E C A - U F C G F I C H A C A T A L O G R Á F I C A E L A B O R A D A P E L A B I B L I O T E C A C E N T R A L DA U F C G M 9 2 9 a M o u r a , E d u a r d o S a n t i a g o . A g r u p a m e n t o d e f a c e s e m c o l e ç o e s d e f o t o g r a f i a s d i g i t a i s / E d u a r d o S a n t i g o M o u r a . - C a m p i n a G r a n d e , 2 0 1 2 . 1 5 9 f . : i l . c o l . D i s s e r t a ç ã o ( M e s t r a d o e m C i ê n c i a d a C o m p u t a ç ã o ) - U n i v e r s i d a d e F e d e r a l d e C a m p i n a G r a n d e , C e n t r o d e E n g e n h a r i a E l é t r i c a e I n f o r m á t i c a . O r i e n t a d o r e s : P r o f . P h . D . H e r m a n M a r t i n s G o m e s P r o f . P h . D . J o ã o M a r q u e s d e C a r v a l h o . R e f e r ê n c i a s . 1 . V i s ã o C o m p u t a c i o n a l . 2 . P r o c e s s a m e n t o d e i m a g e n s . 3 . A g r u p a m e n t o d e F a c e s . I . T í t u l o . C D U 0 0 4 . 8 ( 0 4 3 )

(4)

A G R U P A M E N T O D E F A C E S E M C O L E Ç O E S D E F O T O G R A F I A S D I G I T A I S "

E D U A R D O S A N T I A G O M O I R \

G E O R G E D A R M I T O N DA C U N H A C A V A L C A N T I , Dr. Examinador(a)

(5)

D e c l a r o p a r a o s d e v i d o s f i n s q u e p a r t i c i p e i c o m o e x a m i n a d o r e x t e r n o d a b a n c a d e m e s t r a d o d e Eduardo Sonuago Moura, i n t i t u l a d a Agrupamento de Faces em

Coleçoes de Fotografais Digitais.

A b a n c a o c o r r e u n o d i a 2 8 d e f e v e r e i r o d e 2 0 1 1 , n a U F C G . e m i n h a p a r t i c i p a ç ã o s e d e u p o r m e i o v i r t u a l u s a n d o a f e r r a m e n t a S k y p e . A p ó s a a n á l i s e d a d i s s e r t a ç ã o e d a a p r e s e n t a ç ã o , c o n s i d e r o A p r o v a d o o t r a b a l h o d e E d u a r d o S a n t i a g o M o u r a , e s t a b e l e c e n d o u m p r a z o d e 3 0 d i a s p a i a q u e as c o r r e ç õ e s s o l i c i t a d a s s e j a m i m p l e m e n t a d a s R e c i f e - P E , 2 8 d e F e v e r e i r o d e 2 0 1 2 . G e o r g e D a r m i t o n da C u n h a C a v a l c a n t i P r o f e s s o r A d j u n t o C l n - U K P E

(6)

A G R A D E C I M E N T O S

Primeiramente, agradeço a Deus, por sempre iluminar minha caminhada, até mais essa conquista em minha vida.

À minha família e, principalmente, à minha esposa Luana, por todo apoio, força e confiança depositada para que esse objetivo de vida pudesse ser realizado. Em especial, ao meu querido avô José Milton Santiago (in

memoriam).

Aos orientadores Herman Martins Gomes e João Marques de Carvalho, pelos ensinamentos, dedicação, paciência e orientação, durante toda minha caminhada, desde a graduação até, futuramente, o doutorado.

Ao Professor Eustáquio Rangel, pelos ensinamentos, pelo incentivo e pela frase motivacional semanal: "E ai? Está tudo pronto?".

Aos membros da banca examinadora, Professor Eustáquio Rangel e Professor George Darmiton, pelas críticas e sugestões que contribuíram para o enriquecimento deste trabalho.

Aos meus amigos do Laboratório de Visão Computacional - LVC (Cláudio, Eanes, Paulo, Xycho) e dissidentes (Bosco, Brito, Luciana, Odilon e Vinícius), pelos momentos de descontração durante a realização deste trabalho.

À equipe da COPIN (professores e funcionários), por garantir a infra-estrutura necessária aos mestrandos em Ciência da Computação da UFCG.

O presente trabalho de dissertação foi alcançado em cooperação com a Hewlett-Packard Brasil Ltda. e com recursos provenientes da Lei de Informática (Lei n° 8.248, de 1991).

(7)

R E S U M O

Como consequência da popularização da Internet (impulsionada pelas redes sociais, tais como FaceBook, Orkut, MySpace) e da crescente proliferação de câmeras digitais e dispositivos móveis, a organização automática de grandes coleções de fotografias digitais torna-se um recurso de extrema relevância. Sistemas tradicionais consideram apenas informações simples (e.g., data, nome de arquivo e diretório) para auxiliar na tarefa de organização. No entanto, para grandes coleções, tipicamente formadas por milhares de imagens, estas informações são insuficientes para produzir bons níveis de organização e de satisfação. A maioria das técnicas avançadas nesta área busca analisar o conteúdo das imagens e extrair informações de mais alto nível como, por exemplo, faces. Neste sentido, faces ocupam um papel preponderante, dada a importância que desempenham nas relações humanas. Portanto, no escopo de fotografias contendo faces, o agrupamento por faces é um tópico de grande relevância. Diante deste contexto, esta dissertação objetiva tratar do problema de agrupamento de faces, buscando: (i) a obtenção de melhor desempenho em relação ao estado da arte de técnicas para o agrupamento de faces no contexto de fotografia digital de consumo; e (ii) investigar formas de minimizar a degradação normalmente associada a variações nas imagens de faces (tais como iluminação, expressões faciais e pose). A abordagem proposta para atingir os objetivos supracitados é constituída por uma etapa de pré-processamento, seguida por etapas de extração de características SURF

(Speeded Up Robust Features) e agrupamento. A partir de u m estudo

experimental e de testes estatísticos, nos quais se comparou a abordagem proposta com três sistemas comerciais, evidenciaram-se a existência de diferenças estatisticamente significativas entre os resultados gerados em favor da abordagem proposta.

Palavras-chave: agrupamento de faces, agrupamento aglomerativo hierárquico, métricas de avaliação de agrupamento, avaliação estatística.

(8)

A B S T R A C T

-AS a result of the popularization of the Internet (motivated by social networks like Facebook, Orkut, MySpace) and the increasing proliferation of digital cameras and mobile devices, the automatic organization of large digital photo albums has become an extremely relevant resource. Traditional systems use only simple information (such as date, file and folder name) to help with the organization task. However, for large collections, typically formed by millions of images, this information is insufficient to achieve good leveis of organization and satisfaction. Most advanced techniques in this area aim to analyze image content and to extract high levei information, e.g., faces. I n this sense, faces occupy a preponderant role, given their importance to human relations. Therefore, within the scope of photographs containing faces, face clustering is a very relevant topic. Within this context, this dissertation aims to address the problem of face clustering, while seeking: (i) to obtain better performance over the state of the art techniques in face clustering, and (ii) to investigate ways to minimize degradation usually associated with variations in face images (such as lighting, facial expressions and pose). The proposed approach to reach the above goals is composed of a preprocessing step followed by SURF

(Speeded Up Robust Features) feature extraction and clustering steps. From

an experimental study and statistical tests, in which the proposed approach and three commercial applications were compared, statistically significant differences between the generated results were inferred, with better results obtained by the proposed approach.

Keywords: face clustering, hierarchical agglomerative clustering, clustering validity measures, statistical evaluation.

(9)

C O N T E Ú D O

1 . I N T R O D U Ç Ã O 1 1 . 1 . M O T I V A Ç Õ E S 2 1 . 2 . D E S C R I Ç Ã O D O P R O B L E M A 4 1 . 3 . F O R M A L I Z A Ç Ã O D O P R O B L E M A 5 1 . 4 . O B J E T I V O S E R E L E V Â N C I A 7 1 . 5 . E S T R U T U R A D A D I S S E R T A Ç Ã O 8 2 . T R A B A L H O S R E L A C I O N A D O S 1 0 2 . 1 . M E T O D O L O G I A D E P E S Q U I S A B I B L I O G R Á F I C A 1 0 2 . 2 . R E C O N H E C I M E N T O S U P E R V I S I O N A D O E N Ã O S U P E R V I S I O N A D O 1 1 2 . 3 . P R O P Ó S I T O D O S I S T E M A 1 1 2 . 4 . C A R A C T E R Í S T I C A S E X T R A Í D A S P A R A I D E N T I F I C A Ç Ã O P E S S O A L 1 2 2 . 5 . M É T R I C A S D E S I M I L A R I D A D E 2 2 2 . 6 . T É C N I C A S D E A G R U P A M E N T O / R E C O N H E C I M E N T O 2 7 2 . 7 . M É T R I C A S D E A V A L I A Ç Ã O D E A G R U P A M E N T O 3 4 2 . 8 . C O N S I D E R A Ç Õ E S S O B R E O S T R A B A L H O S A N A L I S A D O S 3 7 2 . 9 . C O N S I D E R A Ç Õ E S F I N A I S 4 3 3 . A B O R D A G E M P R O P O S T A 4 5 3 . 1 . V I S Ã O G E R A L D A A R Q U I T E T U R A P R O P O S T A 4 5 3 . 2 . P R É - P R O C E S S A M E N T O 4 7

3.2.1. Detecção e Correção da Orientação de Faces 48 3.2.2. Equalização e Compensação de Iluminação 49

3.2.2.1. Filtragem Homomórfica 50 3.2.2.2. Equalização de Histograma 51

3 . 3 . P R O C E S S A M E N T O P R I N C I P A L 5 3

3.3.1. Extração de Características Faciais 53 3.1.1.1. Speeded Up Robust Features (SURF) 5 5

Imagem Integral 5 5 Matriz Hessiana baseada em Pontos de Interesse 5 6

Representação Espaço-Escala 58 Localização de Pontos de Interesse 5 9 Descritor de Pontos de Interesse 61 3.3.2. Comparação e Determinação de Similaridade 64

3.3.3. Técnica de Agrupamento 6 7

3 . 4 . D E T A L H E S D E P R O J E T O E I M P L E M E N T A Ç Ã O 6 9

3 . 5 . C O N S I D E R A Ç Õ E S F I N A I S 7 0 4 . A V A L I A Ç Ã O E X P E R I M E N T A L 7 2

(10)

4.2. E X P E R I M E N T O D E C A L I B R A Ç Ã O 75

4.2.1. Teste de Normalidade e Teste Visual 7 7 4.2.2. Teste F ANOVA e Teste de Tukey 82

4.3. E X P E R I M E N T O D E C O M P A R A Ç Ã O 87

4.3.1. Teste de Normalidade e Teste Visual 91 4.3.2. Teste F ANOVA e Teste de Tukey 9 5

4.4. C O N S I D E R A Ç Õ E S F I N A I S 99 5. C O N S I D E R A Ç Õ E S F I N A I S 101 5.1. S Í N T E S E D A P E S Q U I S A 101 5.2. C O N T R I B U I Ç Õ E S D O T R A B A L H O 102 5.3. T R A B A L H O S F U T U R O S 104 A P Ê N D I C E A I M A G E N S U T I L I Z A D A S N O S E X P E R I M E N T O S 115 A P Ê N D I C E B T E S T E S E S T A T Í S T I C O S 120 B . l . T E S T E D E N O R M A L I D A D E J A R Q U E - B E R A 120 B . 2 . T E S T E V I S U A L B O X P L O T 121 B . 3 . T E S T E F A N O V A F A T O R Ú N I C O 122 B . 4 . T E S T E D E T U K E Y 124 A P Ê N D I C E C R E S U L T A D O S N U M É R I C O S D O E X P E R I M E N T O D E C A L I B R A Ç Ã O 125 A P Ê N D I C E D R E S U L T A D O S N U M É R I C O S D O E X P E R I M E N T O D E C O M P A R A Ç Ã O 137 A P Ê N D I C E E R E S U L T A D O S D E T A L H A D O S O B T I D O S A P A R T I R D O U S O D A A B O R D A G E M P R O P O S T A 143 E . l . R E S U L T A D O S D A P A R T I Ç Ã O 1 144 E . 2 . R E S U L T A D O S D A P A R T I Ç Ã O 2 146 E . 3 . R E S U L T A D O S D A P A R T I Ç Ã O 3 148 E . 4 . R E S U L T A D O S D A P A R T I Ç Ã O 4 150 E . 5 . R E S U L T A D O S D A P A R T I Ç Ã O 5 152 E . 6 . R E S U L T A D O S D A P A R T I Ç Ã O 6 154 E . 7 . R E S U L T A D O S D A P A R T I Ç Ã O 7 156 E . 8 . R E S U L T A D O S D A P A R T I Ç Ã O 8 158

(11)

L I S T A D E F I G U R A S

F i g u r a 1.1 - A g r u p a m e n t o d e f a c e s : ( A ) Coleção d e f o t o g r a f i a s ; e ( B ) G r u p o s d e f a c e s r e s u l t a n t e s 4 F i g u r a 2.1 - A l g u n s p o n t o s d e i n t e r e s s e p a r a o r e c o n h e c i m e n t o d e f a c e s : ( A ) I m a g e m d e e n t r a d a ( B ) P o n t o s d e i n t e r e s s e 1 2 F i g u r a 2 . 2 - P r o b l e m a s e m i m a g e n s d e f a c e s n o t o c a n t e a variações d e : ( A ) P o s e ;

( B ) Oclusão; ( C ) Iluminação; ( D ) Expressão f a c i a l ; e ( E ) Condições d e

aquisição d a i m a g e m 1 3 F i g u r a 2 . 3 - Ilustração d o s d i f e r e n t e s papéis d a s características g l o b a i s e l o c a i s

n o r e c o n h e c i m e n t o d e f a c e s 1 4 F i g u r a 2.4 - P o n t o s f i d u c i a i s u t i l i z a d o s p a r a composição d a representação f a c i a l . 1 5 F i g u r a 2 . 5 - A b o r d a g e m u t i l i z a d a por Z h a n g e t a l . ( 2 0 1 1 ) : ( A ) G r a d e 3 x 3 e ( B ) Regiões d e i n t e r e s s e 1 6 F i g u r a 2.6 - A b o r d a g e m u t i l i z a d a por Palit e t a l . ( 2 0 0 9 ) : ( A ) P o n t o s f i d u c i a i s ; ( B )

Regiões d e i n t e r e s s e ; e ( C ) Regiões extraídas 1 8 F i g u r a 2.7 - T r a n s f o r m a d a d e Hough d e u m a f a c e : ( A ) I m a g e m d e e n t r a d a ; ( B ) B o r d a s d a f a c e ; e ( C ) I m a g e m d e e n t r a d a c o m q u a t r o F F L extraídas. 2 1 F i g u r a 2 . 8 - B l o c o s d e características extraídas 2 1 F i g u r a 2 . 9 - E x e m p l o d e u m d e n d r o g r a m a 2 9 F i g u r a 2 . 1 0 - Representação d e k = 10 v i z i n h o s p a r a x, e x}, e 2 4 p a r e s d e v i z i n h o s q u e p o s s u e m o m e s m o n o m e e c o n t r i b u e m p a r a o cálculo d a p r o b a b i l i d a d e m a r g i n a l 3 1 F i g u r a 2 . 1 1 - Três funções d e pertinência c r i a d a s p e l a projeção d o s g r u p o s n o s

e i x o s d o s d a d o s d e e n t r a d a 3 3 F i g u r a 2 . 1 2 - Menu popup d o s i s t e m a d e anotação d e f a c e s 3 4

F i g u r a 3 . 1 - A r q u i t e t u r a d a técnica p r o p o s t a 4 6 F i g u r a 3 . 2 - E t a p a 1 - Módulo d e detecção e correção d a orientação d e f a c e s 4 8

F i g u r a 3 . 3 - E t a p a 2 - Módulo d e equalização e compensação d e iluminação 5 0

F i g u r a 3 . 4 - R e s u m o d o s p a s s o s d a f i l t r a g e m homomórfica 5 1 F i g u r a 3 . 5 - E x e m p l o d e compensação d e iluminação: ( A ) I m a g e m n o r m a l i z a d a ; e

( B ) I m a g e m após f i l t r a g e m homomórfica 5 1 F i g u r a 3 . 6 - E x e m p l o d e equalização d e h i s t o g r a m a : ( A ) I m a g e m após f i l t r a g e m

homomórfica; e ( B ) I m a g e m após equalização d e h i s t o g r a m a 5 3 F i g u r a 3 . 7 - E t a p a 3 - Módulo d e extração d e características f a c i a i s 5 4 F i g u r a 3 . 8 - Cálculo d e área r e t a n g u l a r u t i l i z a n d o i m a g e n s i n t e g r a i s 5 5

(12)

F i g u r a 3 . 9 - Aproximação L o G . L i n h a s u p e r i o r : d e r i v a d a s G a u s s i a n a s d e s e g u n d a o r d e m , d i s c r e t i z a d a s e r e c o r t a d a s , n a s direções x, y e x y , o u s e j a , Lxxr

LYy e Lxy , r e s pe ct í v a me n te. L i n h a inferior: aproximações d e filtros

r e p r e s e n t a d o s por c a i x a s n a s direções x , y e x y , o u s e j a , DXXI Dyy e

Dxy, r e s p e c t i v a m e n t e 5 7

F i g u r a 3 . 1 0 - A o invés d e i t e r a t i v a m e n t e r e d u z i r o t a m a n h o d a i m a g e m ( e s q u e r d a ) , o u s o d e i m a g e n s i n t e g r a i s p e r m i t e o a u m e n t o d a e s c a l a

do filtro e m t e m p o c o n s t a n t e ( d i r e i t a ) 5 9 F i g u r a 3 . 1 1 - T a m a n h o s d o s filtros s u b s e q u e n t e s d e v e m diferir p o r u m mínimo d e

6 p i x e l s p a r a p r e s e r v a r a e s t r u t u r a . Filtros 9 x 9 , 1 5 x 1 5 e 2 1 x 2 1 , e m

sequência 6 0 F i g u r a 3 . 1 2 - Supressão não-máxima. O pixel m a r c a d o c o m 'X' é s e l e c i o n a d o

c o m o u m a máxima s e for m a i o r d o q u e o s p i x e l s a d j a c e n t e s e m s e u

i n t e r v a l o e n o s i n t e r v a l o s a c i m a e a b a i x o 6 0 F i g u r a 3 . 1 3 - Determinação d a orientação: u m a j a n e l a d e orientação d e s l i z a n t e

d e t a m a n h o j i / 3 d e t e c t a a orientação d o m i n a n t e d a s r e s p o s t a s d a s

wavelets d e Haar e m c a d a p o n t o d a a m o s t r a d e n t r o d e u m a

vizinhança c i r c u l a r e m t o r n o d o p o n t o d e i n t e r e s s e 6 2 F i g u r a 3 . 1 4 - J a n e l a s do d e s c r i t o r . O t a m a n h o d a j a n e l a d o d e s c r i t o r é 2 0 v e z e s a

dimensão do ponto d e t e c t a d o e está o r i e n t a d a a o longo d a direção

d o m i n a n t e i l u s t r a d a e m v e r d e 6 3 F i g u r a 3 . 1 5 - P a r a c o n s t r u i r o d e s c r i t o r , u m a g r a d e o r i e n t a d a quadrática c o m 4 x 4

sub-regiões é c o l o c a d a s o b r e o p o n t o d e i n t e r e s s e ( e s q u e r d a ) . P a r a c a d a subregião, a s r e s p o s t a s Wavelets são c o m p u t a d a s a partir d e a m o s t r a s d e 5 x 5 . P a r a c a d a subregião, são c o m p u t a d a s a s s o m a s d x ,

|dx|, d y , e |dy|, c a l c u l a d a s r e l a t i v a m e n t e à orientação d a g r a d e

( d i r e i t a ) 6 3 F i g u r a 3 . 1 6 - E t a p a 4 - Módulo d e comparação e determinação d e s i m i l a r i d a d e . 6 4

F i g u r a 3 . 1 7 - E t a p a 5 - Módulo d e a g r u p a m e n t o d e f a c e s 6 7 F i g u r a 3 . 1 8 - D i a g r a m a d e c l a s s e s d a aplicação d e s e n v o l v i d a 7 0 F i g u r a 4 . 1 - A m o s t r a d e i m a g e n s d a b a s e d e f a c e s I M M : variações d e género, iluminação, expressão f a c i a l e p o s e . 7 4 F i g u r a 4 . 2 - Gráficos boxplot d a s a b o r d a g e n s i n v e s t i g a d a s : ( A ) R I ; ( B ) A R I ; ( C ) P; ( D ) R; ( E ) F; ( F ) J I ; e ( G ) FM 8 0 F i g u r a 4 . 3 - T e l a principal d o A d o b e P h o t o s h o p E l e m e n t s 9 0 F i g u r a 4 . 4 - T e l a principal d o PittPatt F a c e S o r t 9 0 F i g u r a 4 . 5 - T e l a principal d o G o o g l e P i c a s a 9 1 F i g u r a 4 . 6 - Gráficos boxplot d a s f e r r a m e n t a s a n a l i s a d a s : ( A ) R I ; ( B ) A R I ; ( C ) P; ( D ) R; ( E ) F; ( F ) J I ; e ( G ) FM 9 3 F i g u r a A . l - I m a g e n s c o n t i d a s n a Partição 1 1 1 5

(13)

F i g u r a A . 2 - I m a g e n s c o n t i d a s n a Partição 2 1 1 6 F i g u r a A . 3 - I m a g e n s c o n t i d a s n a Partição 3 1 1 6 F i g u r a A . 4 - I m a g e n s c o n t i d a s n a Partição 4 1 1 7 F i g u r a A . 5 - I m a g e n s c o n t i d a s n a Partição 5 1 1 7 F i g u r a A . 6 - I m a g e n s c o n t i d a s n a Partição 6 1 1 8 F i g u r a A . 7 - I m a g e n s c o n t i d a s n a Partição 7 1 1 8 F i g u r a A . 8 - I m a g e n s c o n t i d a s n a Partição 8 1 1 9 F i g u r a B . l - Representação d e u m gráfico boxplot 1 2 1 F i g u r a E . l - G r u p o s d e f a c e s obtidos n a Partição 1 1 4 4 F i g u r a E . 2 - D i a g r a m a d o s níveis d e s i m i l a r i d a d e d o s g r u p o s d e f a c e s obtidos n a Partição 1 1 4 4 F i g u r a E . 3 - D e n d r o g r a m a d o s g r u p o s d e f a c e s o b t i d o s n a Partição 1 1 4 5 F i g u r a E . 4 - G r u p o s d e f a c e s obtidos n a Partição 2 1 4 6 F i g u r a E . 5 - D i a g r a m a d o s níveis d e s i m i l a r i d a d e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 2 1 4 6 F i g u r a E . 6 - D e n d r o g r a m a d o s g r u p o s d e f a c e s obtidos n a Partição 2 1 4 7 F i g u r a E . 7 - G r u p o s d e f a c e s obtidos n a Partição 3 1 4 8 F i g u r a E . 8 - D i a g r a m a d o s níveis d e s i m i l a r i d a d e d o s g r u p o s d e f a c e s obtidos n a Partição 3 1 4 8 F i g u r a E . 9 - D e n d r o g r a m a d o s g r u p o s d e f a c e s obtidos n a Partição 3 1 4 9 F i g u r a E . 1 0 - G r u p o s d e f a c e s obtidos n a Partição 4 1 5 0 F i g u r a E . l l - D i a g r a m a d o s níveis d e s i m i l a r i d a d e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 4 1 5 0 F i g u r a E . 1 2 - D e n d r o g r a m a d o s g r u p o s d e f a c e s obtidos n a Partição 4 1 5 1 F i g u r a E . 1 3 - G r u p o s d e f a c e s obtidos n a Partição 5 1 5 2 F i g u r a E . 1 4 - D i a g r a m a d o s níveis d e s i m i l a r i d a d e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 5 1 5 2 F i g u r a E . 1 5 - D e n d r o g r a m a d o s g r u p o s d e f a c e s obtidos n a Partição 5 . . 1 5 3

F i g u r a E.16 - G r u p o s d e f a c e s obtidos n a Partição 6 1 5 4 F i g u r a E . 1 7 - D i a g r a m a d o s níveis d e s i m i l a r i d a d e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 6 1 5 4 F i g u r a E . 1 8 - D e n d r o g r a m a d o s g r u p o s d e f a c e s obtidos n a Partição 6 1 5 5 F i g u r a E . 1 9 - G r u p o s d e f a c e s obtidos n a Partição 7 1 5 6 F i g u r a E . 2 0 - D i a g r a m a d o s níveis d e s i m i l a r i d a d e d o s g r u p o s d e f a c e s obtidos n a Partição 7 1 5 6 F i g u r a E . 2 1 - D e n d r o g r a m a d o s g r u p o s d e f a c e s obtidos n a Partição 7 1 5 7 F i g u r a E . 2 2 - G r u p o s d e f a c e s obtidos n a Partição 8 1 5 8 F i g u r a E . 2 3 - D i a g r a m a d o s níveis d e s i m i l a r i d a d e d o s g r u p o s d e f a c e s obtidos n a Partição 8 1 5 8 F i g u r a E . 2 4 - D e n d r o g r a m a d o s g r u p o s d e f a c e s obtidos n a Partição 8 1 5 9

(14)

L I S T A D E T A B E L A S

T a b e l a 2.1 - R e s u m o d o s t r a b a l h o s a n a l i s a d o s 3 9 T a b e l a 4 . 1 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica R I d a s a b o r d a g e n s i n v e s t i g a d a s 7 8 T a b e l a 4 . 2 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica A R I d a s a b o r d a g e n s i n v e s t i g a d a s . 7 8 T a b e l a 4 . 3 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica P d a s a b o r d a g e n s i n v e s t i g a d a s 7 8 T a b e l a 4 . 4 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica R d a s a b o r d a g e n s i n v e s t i g a d a s 7 9 T a b e l a 4 . 5 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica F d a s a b o r d a g e n s i n v e s t i g a d a s 7 9 T a b e l a 4 . 6 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica J I d a s a b o r d a g e n s i n v e s t i g a d a s 7 9 T a b e l a 4 . 7 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica FM d a s a b o r d a g e n s i n v e s t i g a d a s 8 0 T a b e l a 4 . 8 - T e s t e F A N O V A p a r a a s s e t e métricas d e avaliação d a s a b o r d a g e n s i n v e s t i g a d a s 8 2 T a b e l a 4 . 9 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica R I d a s f e r r a m e n t a s c o m p a r a d a s 9 2 T a b e l a 4 . 1 0 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica A R I d a s f e r r a m e n t a s c o m p a r a d a s 9 2 T a b e l a 4 . 1 1 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica P d a s f e r r a m e n t a s c o m p a r a d a s 9 2 T a b e l a 4 . 1 2 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica R d a s f e r r a m e n t a s c o m p a r a d a s 9 2 T a b e l a 4 . 1 3 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica F d a s f e r r a m e n t a s c o m p a r a d a s 9 2 T a b e l a 4 . 1 4 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica J I d a s f e r r a m e n t a s c o m p a r a d a s 9 3 T a b e l a 4 . 1 5 - T e s t e d e n o r m a l i d a d e J a r q u e - B e r a p a r a a métrica FM d a s f e r r a m e n t a s c o m p a r a d a s 9 3 T a b e l a 4 . 1 6 - T e s t e F A N O V A p a r a a s s e t e métricas d e avaliação d a s f e r r a m e n t a s a n a l i s a d a s 9 5 T a b e l a C l - A b o r d a g e n s i n v e s t i d a g a s n o s t e s t e s estatísticos d o e x p e r i m e n t o d e calibração 1 2 5

(15)

T a b e l a C . 2 - R e s u l t a d o s numéricos d a a b o r d a g e m H i s t o g r a m a 1 2 6 T a b e l a C . 3 - R e s u l t a d o s numéricos d a a b o r d a g e m L B P 1 2 6 T a b e l a C . 4 - R e s u l t a d o s numéricos d a a b o r d a g e m Máximo 1 2 7 T a b e l a C . 5 - R e s u l t a d o s numéricos d a a b o r d a g e m N o r m ( C ) 1 2 7 T a b e l a C . 6 - R e s u l t a d o s numéricos d a a b o r d a g e m Média 1 2 8 T a b e l a C . 7 - R e s u l t a d o s numéricos d a a b o r d a g e m Correlação 1 2 8 T a b e l a C . 8 - R e s u l t a d o s numéricos d a a b o r d a g e m A b s ( C ) 1 2 9 T a b e l a C . 9 - R e s u l t a d o s numéricos d a a b o r d a g e m Mínimo 1 2 9 T a b e l a C I O - T e s t e d e T u k e y p a r a v a l o r e s d e R I d a s a b o r d a g e n s i n v e s t i g a d a s . 1 3 0 T a b e l a C l l - T e s t e d e T u k e y p a r a v a l o r e s d e A R I d a s a b o r d a g e n s i n v e s t i g a d a s . 1 3 1 T a b e l a C . 1 2 - T e s t e d e T u k e y p a r a v a l o r e s d e P d a s a b o r d a g e n s i n v e s t i g a d a s . . . 1 3 2 T a b e l a C. 13 - T e s t e d e T u k e y p a r a v a l o r e s d e R d a s a b o r d a g e n s i n v e s t i g a d a s . . 1 3 3 T a b e l a C . 1 4 - T e s t e d e T u k e y p a r a v a l o r e s d e F d a s a b o r d a g e n s i n v e s t i g a d a s . . . 1 3 4 T a b e l a C . 1 5 - T e s t e d e T u k e y p a r a v a l o r e s d e J I d a s a b o r d a g e n s i n v e s t i g a d a s . . 1 3 5 T a b e l a C . 1 6 - T e s t e d e T u k e y p a r a v a l o r e s d e FM d a s a b o r d a g e n s i n v e s t i g a d a s . 1 3 6 T a b e l a D . l - F e r r a m e n t a s c o m p a r a d a s n o s t e s t e s estatísticos do e x p e r i m e n t o d e calibração 1 3 7 T a b e l a D.2 - R e s u l t a d o s numéricos d a f e r r a m e n t a P h o t o s h o p e l 1 3 8 T a b e l a D.3 - R e s u l t a d o s numéricos d a f e r r a m e n t a P i c a s a . . . 1 3 8 T a b e l a D.4 - R e s u l t a d o s numéricos d a f e r r a m e n t a F a c e S o r t 1 3 9 T a b e l a D.5 - R e s u l t a d o s numéricos d a a b o r d a g e m p r o p o s t a P h o t o C l u s t e r 1 3 9 T a b e l a D.6 - T e s t e d e T u k e y p a r a v a l o r e s d e R I d a s f e r r a m e n t a s c o m p a r a d a s . . 1 4 0 T a b e l a D.7 - T e s t e d e T u k e y p a r a v a l o r e s d e A R I d a s f e r r a m e n t a s c o m p a r a d a s . 1 4 0 T a b e l a D.8 - T e s t e d e T u k e y p a r a v a l o r e s d e P d a s f e r r a m e n t a s c o m p a r a d a s . . . . 1 4 0 T a b e l a D.9 - T e s t e d e T u k e y p a r a v a l o r e s d e R d a s f e r r a m e n t a s c o m p a r a d a s . . . . 1 4 1 T a b e l a D. 10 - T e s t e d e T u k e y p a r a v a l o r e s d e F d a s f e r r a m e n t a s c o m p a r a d a s . . 1 4 1 T a b e l a D. 11 - T e s t e d e T u k e y p a r a v a l o r e s d e J I d a s f e r r a m e n t a s c o m p a r a d a s . 1 4 1 T a b e l a D. 1 2 - T e s t e d e T u k e y p a r a v a l o r e s d e FM d a s f e r r a m e n t a s c o m p a r a d a s . 1 4 2 T a b e l a E . l - R e s u l t a d o s por c l a s s e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 1. . 1 4 5 T a b e l a E . 2 - R e s u l t a d o s por c l a s s e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 2 . . 1 4 7 T a b e l a E.3 - R e s u l t a d o s por c l a s s e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 3 . . 1 4 9 T a b e l a E.4 - R e s u l t a d o s por c l a s s e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 4 . . 1 5 1 T a b e l a E.5 - R e s u l t a d o s por c l a s s e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 5 . . 1 5 3 T a b e l a E.6 - R e s u l t a d o s por c l a s s e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 6. . 1 5 5 T a b e l a E.7 - R e s u l t a d o s por c l a s s e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 7 . . 1 5 7 T a b e l a E.8 - R e s u l t a d o s por c l a s s e d o s g r u p o s d e f a c e s o b t i d o s n a Partição 8 . . 1 5 9

(16)

L I S T A D E Q U A D R O S

Q u a d r o 4 . 1 - G r u p o s d e s i m i l a r i d a d e obtidos por m e i o do t e s t e d e T u k e y p a r a a métrica R I d a s a b o r d a g e n s i n v e s t i g a d a s 8 4 Q u a d r o 4 . 2 - G r u p o s d e s i m i l a r i d a d e obtidos p o r m e i o do t e s t e d e T u k e y p a r a a métrica A R I d a s a b o r d a g e n s i n v e s t i g a d a s 8 4 Q u a d r o 4 . 3 - G r u p o s d e s i m i l a r i d a d e obtidos p o r m e i o do t e s t e d e T u k e y p a r a a métrica P d a s a b o r d a g e n s i n v e s t i g a d a s 8 5 Q u a d r o 4 . 4 - G r u p o s d e s i m i l a r i d a d e obtidos p o r m e i o do t e s t e d e T u k e y p a r a a métrica R d a s a b o r d a g e n s i n v e s t i g a d a s 8 5 Q u a d r o 4 . 5 - G r u p o s d e s i m i l a r i d a d e obtidos p o r m e i o do t e s t e d e T u k e y p a r a a métrica F d a s a b o r d a g e n s i n v e s t i g a d a s 8 6 Q u a d r o 4 . 6 - G r u p o s d e s i m i l a r i d a d e obtidos p o r m e i o do t e s t e d e T u k e y p a r a a métrica J I d a s a b o r d a g e n s i n v e s t i g a d a s 8 6 Q u a d r o 4 . 7 - G r u p o s d e s i m i l a r i d a d e obtidos por m e i o do t e s t e d e T u k e y p a r a a métrica FM d a s a b o r d a g e n s i n v e s t i g a d a s 8 7 Q u a d r o 4 . 8 - G r u p o s d e s i m i l a r i d a d e obtidos p o r m e i o do t e s t e d e T u k e y p a r a a métrica R I d a s f e r r a m e n t a s a n a l i s a d a s 9 6 Q u a d r o 4 . 9 - G r u p o s d e s i m i l a r i d a d e obtidos por m e i o do t e s t e d e T u k e y p a r a a métrica A R I d a s f e r r a m e n t a s a n a l i s a d a s 9 7 Q u a d r o 4 . 1 0 - G r u p o s d e s i m i l a r i d a d e o b t i d o s p o r m e i o d o t e s t e d e T u k e y p a r a a métrica P d a s f e r r a m e n t a s a n a l i s a d a s 9 7 Q u a d r o 4 . 1 1 - G r u p o s d e s i m i l a r i d a d e obtidos p o r m e i o d o t e s t e d e T u k e y p a r a a métrica R d a s f e r r a m e n t a s a n a l i s a d a s . . . 9 7 Q u a d r o 4 . 1 2 - G r u p o s d e s i m i l a r i d a d e o b t i d o s por m e i o d o t e s t e d e T u k e y p a r a a métrica F d a s f e r r a m e n t a s a n a l i s a d a s 9 8 Q u a d r o 4 . 1 3 - G r u p o s d e s i m i l a r i d a d e obtidos p o r m e i o d o t e s t e d e T u k e y p a r a a métrica J I d a s f e r r a m e n t a s a n a l i s a d a s 9 8 Q u a d r o 4 . 1 4 - G r u p o s d e s i m i l a r i d a d e obtidos p o r m e i o d o t e s t e d e T u k e y p a r a a métrica FM d a s a b o r d a g e n s i n v e s t i g a d a s 9 9

(17)

L I S T A D E S I G L A S E A B R E V I A T U R A S

A N O V A ANalysis Of VAriance A R I Adjusted Rand Index

DoG Difference of Gaussians

EM Expectation-Maximization

F F-Measure

FM Folks and Mallows Index

gi graus de liberdade

GT Ground-Truth

I C Intervalo de Confiança

J I Jaccard Index

JPEG Joint Photographic Experts Group

HAC Hierarchical Agglomerative Clustering

LDA Linear Discriminant Analysis

LoG Laplacian of Gaussians

MQ Média de Quadrados

O p e n C V Open Source Computer Vision (Intel Library)

PCA Principal Component Analysis

P D I Processamento Digital de Imagens PR Precision-Recall

R I Rand Index

VC Visão Computacional

S I F T Scale-Invariant Feature Transform

SQ Soma de Quadrados

(18)

Capítulo 1

Introdução

Neste capítulo, são introduzidos os elementos fundamentais para a realização desta pesquisa. Estes elementos são apresentados por meio da apresentação e formalização do problema em estudo - agrupamento de faces em coleções de fotografias digitais - bem como do contexto e das principais motivações que justificam a importância deste trabalho na área de

Visão Computacional (VC).

As faces humanas são algumas das entidades mais importantes e frequentemente encontradas e m fotografias e podem ser consideradas como características semânticas de alto nível (ANTONOPOULOS, NIKOLAIDIS e PITAS, 2007), sendo preponderantes para as relações humanas. Aliada à popularidade crescente de fotografias digitais, a organização de álbuns de fotografias pessoais tornou-se u m tema de pesquisa ativa. Esforços existentes nesta área têm sido dedicados ao uso de reconhecimento facial para auxiliar no processo de anotação das pessoas. No entanto, algoritmos de agrupamento de faces atuais ainda não são robustos às variações de aparência presentes em fotografias reais (LIN et al., 2010).

Diante do exposto, nesta dissertação são discutidos os trabalhos no âmbito de agrupamento de faces no contexto de fotografia digital de consumo, dando-se ênfase à obtenção do melhor desempenho e m relação ao estado da arte das técnicas destinadas ao agrupamento de faces, com o intuito de facilitar a organização e o compartilhamento de coleções de fotografias de usuários.

As seções remanescentes deste capítulo estão divididas como segue. Na Seção 1.1, argumenta-se sobre as motivações para a pesquisa. A descrição e a formalização do problema a ser resolvido são apresentadas

(19)

nas Seções 1.2 e 1.3, respectivamente. Os objetivos a serem alcançados e a relevância desta pesquisa são apresentadas na Seção 1.4. Finalmente, na Seção 1.5, é apresentada a estrutura desta dissertação.

1.1. Motivações

A face desempenha u m papel importante na interação humana, visto que expressões faciais podem ser vistas como uma linguagem universal facilitadora do compartilhamento de informação e comunicação entre pessoas (WECHSLER, 2006). Além disto, com a popularização da Internet, impulsionada pelas redes sociais como FaceBook1, Orkut2, MySpace3,

somada à crescente proliferação de câmeras digitais e dispositivos móveis multimídia, o cotidiano das pessoas, incluindo sobremaneira suas faces, passou a ser facilmente capturado, armazenado, pesquisado e compartilhado (CHOI et al., 2008).

Como consequência desta demanda, a quantidade de coleções de fotografias digitais v e m crescendo consideravelmente (YOUSEF e 0'NEILL, 2007). Como exemplo, a rede social considerada como a mais popular no mundo, FaceBook, no ano de 2007, contava com 70 milhões de usuários ativos e armazenava 1,7 bilhão de fotos, nas quais, 2,2 bilhões de anotações de pessoas estavam presentes nas fotografias (THE FACEBOOK BLOG, 2007; STONE, ZICKLER e DARRELL, 2008). Atualmente, a rede apresenta mais de 500 milhões de usuários ativos e armazena mais de 15 bilhões de fotos, com uma média de 220 milhões de novas fotos sendo postadas a cada semana, confirmando tal tendência de crescimento (OSTROW, 2009; FACEBOOK STATISTICS, 2010).

Os fatos supramencionados despertaram o interesse de inúmeras empresas para o desenvolvimento de aplicativos de software online, tais como, Snapfish4, Face.com5, MyHeritage6, Flickr7 (CAO et al., 2010). Devido

ao aumento significativo das coleções de fotos pessoais, a organização

1 FaceBook, disponível em: http://www.facebook.com 2 Orkut, disponível em: http://www.orkut.com 3 MySpace, disponível em: http://www.myspace.com 4 Snapfish by HP, disponível em: http://www.snapfish.com 5 Face.com, disponível em: http://face.com

6 MyHeritage, disponível em: http://www.myheritage.com 7 Flickr by Yahoo!, disponível em: http://www.flickr.com

(20)

automática de grandes álbuns de fotografias digitais está se tornando uma necessidade extremamente importante (CHEN et al., 2003; ZHANG et al., 2003; CUI et al., 2007; KAPOOR et al., 2009; LIN et al., 2010).

Assim, para uma organização mais eficiente, uma simples solução está no uso de palavras-chave (anotações ou tags) semânticas para o gerenciamento das fotografias, tais como: "quem" está na foto, "quando" a foto foi tirada, "onde" foi tirada, "qual o tipo" da foto (retrato, grupo de pessoas ou paisagem) e quaisquer outras informações contextuais relevantes (LEI et al., 2003). Segundo Sharavanan e Azath (2009), devido a grandes mudanças ocasionadas na face por variações de iluminação, pose, expressão facial, oclusão e efeitos de envelhecimento, as técnicas e

métodos existentes de reconhecimento de faces, de cena e de evento não podem garantir u m resultado preciso se o processo de anotação for totalmente automático.

Choi et al. (2008) afirmaram que, para agrupar e indexar fotos pessoais com base no entendimento de "quem" está nas fotos, o uso de anotações das faces se faz essencial. A maioria dos aplicativos de software atual dá suporte à realização manual desta tarefa, permitindo que os usuários rotulem fotos uma a u m a , ou selecionem manualmente as fotos que possivelmente possuem o mesmo rótulo para então, efetuar a aplicação do rotulo informado após a seleção (CUI et al., 2007).

Por outro lado, a anotação manual de faces por usuários é uma tarefa que nem sempre, as pessoas estão dispostas a realizar, por exigir uma grande quantidade de t e m p o e esforço. Por exemplo, Fu, Hsu e Lee (2009) constataram que usuários do Flickr levam em média 5 a 6 segundos para rotular uma fotografia.

Desta forma, a ideia de agrupamento de faces é motivada pela conveniência de fazer tal seleção automaticamente. Muitos aplicativos organizadores de coleções de fotografias digitais, tais como Picasa8,

FaceSort9, iPhoto10, Adobe Photoshop Elements11, Mew Media12, ACDSee13,

8 Google Picasa, disponível em: http://picasa.google.com

9 PittPatt FaceSort, disponível em: http://demo.pittpatt.com/facesort 1 0 Apple iPhoto, disponível em: http://www.apple.com/br/ilife/iphoto

(21)

Microsoft Digital Image Suite14, EasyAlbum15, digiKam16 e F-Spot17

recentemente adicionaram reconhecimento e agrupamento de faces para ajudar parcialmente a automatizar este processo.

1.2. Descrição do Problema

Nos métodos de agrupamento de faces, as características faciais são utilizadas como identificador de cada pessoa, de modo a agrupar várias imagens de faces de uma mesma pessoa e m u m determinado grupo

(cluster). A fim de extrair características de identificação, para uma dada

pessoa, em uma determinada fotografia, primeiramente a região da face é detectada e, em seguida, são aplicados extratores de características na região detectada, tentando produzir uma representação única da face.

O problema de agrupamento de faces pode ser formulado como segue: dada uma coleção arbitrária de imagens e u m conjunto de faces humanas nesta coleção, deve-se agrupar as faces conforme a identidade das pessoas, sem u m conhecimento prévio de qualquer uma das pessoas envolvidas. As faces encontradas podem t e r sido obtidas sob diferentes condições de imageamento, e.g., pose, iluminação, expressão facial e oclusão parcial (Vide Figura 1.1).

Fonte: Adaptado de FaceSort (2010).

( A ) I ( B )

F i g u r a 1.1 - A g r u p a m e n t o d e f a c e s : ( A ) Coleção d e f o t o g r a f i a s ; e ( B ) G r u p o s d e f a c e s r e s u l t a n t e s .

1 1 Adobe Photoshop Elements, disponível em: http://www.adobe.com/br/products/photoshopel 1 2 iView Media, disponível em: http://www.iview-multimedia.com

"ACDSee, disponível em: http://www.acdsee.com

M Microsoft Digital Image Suite, disponível em: http://www.microsoft.com/products/imaging

1 5 EasyAlbum, disponível em: http://research.microsoft.com/en-us/groups/vc/easyalbumdownload.aspx 1 6 KDE digiKam, disponível em: http://www.digikam.org

1 7 GNOME F-Spot, disponível em: http://f-spot.org

(22)

Assim, o agrupamento de faces pode ser considerado como u m a forma de classificação não supervisionada aplicada sobre u m conjunto finito de objetos, cujo objetivo é agrupar os objetos e m classes, de tal forma que objetos similares sejam colocados no mesmo grupo, enquanto objetos diferentes sejam colocados e m grupos diferentes (ANTONOPOULOS, NIKOLAIDIS e PITAS, 2007).

1.3. Formalização do Problema

A estratégia de reconhecimento não supervisionado é adequada ao problema de agrupamento de faces já que, a princípio, não se t e m informação prévia sobre as possíveis pessoas que aparecem e m u m a determinada coleção. Para formular matematicamente o problema, são apresentadas algumas definições e terminologias. Cao e t a l . (2010) argumentaram que no projeto de u m sistema automático para o problema, as principais decisões a serem tomadas recaem na escolha de u m a representação facial e de u m a métrica de correspondência para a comparação de faces.

Desta forma, sejam f^lobal e flcal as características globais e locais

ex-traídas de imagens da i*™" pessoa de uma coleção e seja F ' ={ f&wfLa} a

representação facial composta pelo conjunto de características que identificam a iésima pessoa incluída e m u m determinado grupo. Além disto,

faz-se necessário definir a métrica de correspondência que é uma função de similaridade entre diferentes características de identidade das pessoas. A similaridade entre as representações faciais Fi e FJ da iésima e pessoa,

respectivamente, pode ser definida como:

Sfacest

F )

Wglobaf ^global Jglobal' Jglobal Wlocal • ^ locaÁ

f

local' focal )

em que SglobJ f ^ f ^ J é a função que mede a similaridade entre as

características faciais globais e S^ifi^Jl^) é a função que mede a

(23)

similaridade entre as características faciais locais. wglobal e wt o c o t são os valores dos pesos que controlam a importância das características globais e locais, respectivamente. Para determinar a eficiência do limiar de agrupamento, o valor da similaridade, Sfaces(F' , Fj) , pode ser normalizado

no intervalo [ 0 , 1 ] (SANTOS e EMBRECHTS, 2009).

Assim, o algoritmo de agrupamento de faces pode ser expresso conforme os seguintes passos:

(1) Iniciar todos os grupos ck isoladamente. Se existirem N

representações faciais, então Ck(k-1,...,N) grupos são criados

no estado inicial, compostos unicamente por uma representação facial F";

(2) Calcular a similaridade, Scluster(Cm,Cn), entre dois grupos Cm e Cnl

em que 1 <m,n <Ne m , de acordo com a equação:

W C » A ) = 1 v 2 facJF' ,FJ) ( i . 2 )

onde NCm e NCn, denotam o número de representações faciais

incluídas e m cada um dos grupos, respectivamente;

(3) Encontrar os grupos mais próximos, denotados por Cm e C'„, que:

(c'm ) = argnúnD^f CM ,Cn), sendo m * n; (1.3)

(4) Agrupar os dois grupos mais próximos e m u m único cluster,

Cm=CmUC'nle remover C'n;

(5) Repetir os passos 2, 3 e 4, enquanto o valor de Dcluster(CmfCn)

não satisfizer u m dado critério de parada, e.g., uma quantidade predefinida de grupos.

Considerando que, quanto maior a proximidade (semelhança) entre dois grupos, mais elevado é o valor da medida de similaridade entre eles, a medida de dissimilaridade pode ser interpretada como u m conceito complementar à similaridade, ou seja, quanto maior a proximidade entre dois grupos, menor é o valor da medida de dissimilaridade entre eles.

(24)

1.4. Objetivos e Relevância

Torna-se evidente o contínuo interesse da indústria na área de agrupamento de faces, fato que pode ser observado pelo financiamento de pesquisas e investimentos em aplicativos de software comerciais por grandes empresas ao longo desta década, a exemplo da Hewlett-Packard (HP), Apple,

Microsoft, Yahoo! e Google. O recente projeto FaceRec, ocorrido em 2010 no

âmbito da cooperação técnico-científica firmada entre a Hewlett-Packard e a Universidade Federal de Campina Grande, com incentivos da Lei de Informática, se insere no contexto do estudo de tais métodos.

Apesar de toda a pesquisa já desenvolvida, o agrupamento de faces humanas, de forma automática, preciso e robusto, ainda constitui um problema em aberto. Dificuldades surgem devido a vários fatores, dentre os quais podem ser destacados: (i) diferenças de resolução da imagem; (ii) variações na escala e orientação da face; (iii) variações nas condições de iluminação; (iv) variações de pose; ( v ) variações de expressões faciais; e (vi) geração dos grupos de forma automática.

Diante deste contexto, nesta dissertação é proposta uma técnica de agrupamento de faces em coleções de fotografias digitais que objetiva: (i) a obtenção do melhor desempenho e m relação ao estado da arte, com o intuito de facilitar a organização e o compartilhamento de coleções de fotografias de usuários; e (ii) a investigação de formas de minimizar a queda de desempenho, normalmente associada a variações de iluminação, expressões faciais e pose.

A técnica t e m como diferencial a agregação de módulos para atenuar os efeitos indesejados provocados pela falta de controle das condições do ambiente no momento da captura da imagem e a combinação, de forma ponderada, de abordagens já utilizadas atualmente no contexto de agrupamento de faces e m fotografias digitais. Os objetivos específicos são:

a) Elaborar um modelo de agrupamento de faces por meio de um processo de aprendizagem não-supervisionada para ser utilizado em tarefa de reconhecimento envolvendo u m número indeterminado de classes;

(25)

b) Aplicar técnicas de Processamento Digital de Imagens (PDI) ao problema de agrupamento de faces com variações de iluminação, expressão facial e pose;

c) Investigar e extrair características faciais que auxiliem na resolução do problema supracitado;

d) Investigar métricas de similaridade que levem a u m bom desempenho do sistema;

e) Avaliar os resultados produzidos pelo sistema a partir de métricas objetivas; e

f) Validar o estudo, a partir de experimentos comparativos com aplicações concorrentes, mais especificamente, Adobe Photoshop

Elements (PHOTOSHOPEL, 2010), Google Picasa (PICASA, 2010),

e PittPatt Facesort (FACESORT, 2010).

1.5. Estrutura d a Dissertação

O presente documento é composto por u m total de cinco capítulos e cinco apêndices. No Capítulo 2, apresenta-se u m panorama das técnicas de agrupamento de faces em coleções de fotografias digitais, a partir de uma revisão de trabalhos relevantes da área. Descrevem-se, também, técnicas usadas na tarefa específica de extração de características para identificação pessoal, métricas de similaridade, estratégias comumente empregadas para resolver o problema objeto de estudo, métricas de avaliação da qualidade de agrupamento, bem como se delimita o escopo do presente trabalho.

No Capítulo 3 , descreve-se, de forma detalhada a abordagem proposta para a solução do problema de agrupamento de faces e m coleções de fotografias digitais, incluindo-se a arquitetura geral, o fluxo de processamento e o funcionamento de cada módulo da técnica proposta. Adicionalmente, são apresentados alguns detalhes de implementação e de organização interna da aplicação desenvolvida.

No Capítulo 4 , reúnem-se os experimentos realizados e uma discussão dos resultados obtidos. A apresentação dos experimentos contempla os diversos testes realizados até a obtenção da abordagem

(26)

descrita no Capítulo 3. Adicionalmente, o Capítulo 4 contém gráficos comparativos de resultados obtidos a partir de sete métricas objetivas de avaliação de agrupamento entre três aplicações concorrentes em face ao sistema proposto.

No Capítulo 5, são apresentadas as conclusões obtidas a partir deste estudo, as principais contribuições e trabalhos futuros que podem ser derivados do exposto ao longo desta dissertação.

Finalmente, no Apêndice A, são expostas amostras de imagens utilizadas nos experimentos realizados. No Apêndice B, descrevem-se os testes estatísticos adotados nesta dissertação. O Apêndice C contém os resultados numéricos obtidos das abordagens investigas, da mesma forma que o Apêndice D, contém os resultados numéricos da aplicação final desenvolvida e das três ferramentas concorrentes utilizadas no experimento de comparação. Por f i m , no Apêndice E, ilustram-se os resultados dos agrupamentos obtidos a partir do uso da abordagem proposta.

(27)

Capítulo 2

T r a b a l h o s R e l a c i o n a d o s

Neste capítulo, apresenta-se um levantamento e análise de trabalhos relacionados com o tema desta pesquisa, focando em trabalhos nos quais são investigados ou propostos métodos que auxiliaram no amadurecimento de uma nova solução para o problema em estudo - agrupamento de faces em coleções de fotografias digitais. Além disto, detalham-se também a metodologia de pesquisa bibliográfica realizada e dois principais ramos de aplicação da área de reconhecimento de faces.

2.1. Metodologia d e P e s q u i s a Bibliográfica

A sistemática de pesquisa bibliográfica empregada na execução deste trabalho objetivou determinar o "estado da arte" sobre o problema e m questão, de forma a identificar o que foi publicado sobre o assunto, que aspectos já foram abordados e quais as lacunas existentes na literatura, de maneira a possibilitar a delimitação do problema a ser estudado, além de prover uma estruturação conceituai que dará sustentação ao desenvolvimento da pesquisa.

A revisão de literatura foi resultado de u m levantamento bibliográfico no qual foi utilizada uma das ferramentas de busca mais populares e abrangentes da Internet, Google18, de acordo com as seguintes

palavras-chave: (i) face clustering; (ii) face matching; (iii) face tagging; (iv) photo

tagging; ( v ) face clustering survey; ( v i ) image clustering survey; e (vii) clustering algorithms, descartando as ocorrências com aplicações em vídeo.

Como resultado da pesquisa, foram selecionados vinte artigos altamente relacionados com o trabalho e m questão, publicados em

(28)

periódicos, conferências e workshops mais relevantes na área de Visão Computacional que serão detalhados nas seções posteriores.

2.2. R e c o n h e c i m e n t o Supervisionado e Não

S u p e r v i s i o n a d o

O reconhecimento de padrões objetiva a classificação de objetos (padrões) em um número de categorias ou classes (THEODORIDIS e KOUTROUMBAS,

1999). No caso do reconhecimento de faces, as imagens de faces são os objetos e as classes são seus nomes ou identificações. Assim, dado u m padrão, seu reconhecimento/classificação pode ser categorizado como:

supervisionado, e m que o padrão de entrada é identificado como um

membro de uma classe pré-definida pelos padrões de treinamento, que são rotulados com suas classes; e não supervisionado ou clustering, em que o padrão é associado (agrupado) a uma classe que é aprendida com base na similaridade entre os padrões de treinamento, ou seja, o próprio sistema toma a decisão de criar novas classes ou agrupar classes preexistentes.

Dentre as aplicações baseadas em reconhecimento supervisionado, destaca-se a identificação para controle de acesso, segurança e vigilância (ZHAO et al., 2003). No tocante a aplicações baseadas e m reconhecimento não supervisionado, destacam-se: agrupamento de objetos, mineração de dados e diagnósticos médicos, dentre outros (JAIN e DUBES, 1988). As abordagens e técnicas, referentes aos vinte artigos selecionados, discutidas nas subseções seguintes, foram agrupadas de acordo com os seguintes critérios: (i) propósito do sistema; (ii) características extraídas para identificação pessoal; (Mi) métricas de similaridade; (iv) técnicas de agrupamento/reconheci mento; e (v) métricas de avaliação de agrupamento.

2.3. Propósito do S i s t e m a

O propósito-chave dos sistemas apresentados nos trabalhos selecionados foi classificado e m duas categorias: agrupamento de faces e reconhecimento de

faces, sendo dezessete trabalhos pertencentes à primeira categoria e três à

segunda. Considerando que o problema-alvo desta dissertação é o agrupamento de faces, foi dada maior importância à busca de trabalhos

(29)

relacionados especificamente a este tema. Um sumário da revisão pode ser encontrado na Tabela 2 . 1 , a qual é apresentada e discutida na Seção 2.9. As principais características faciais identificadas na literatura pesquisada serão detalhadas na seção seguinte.

2.4. Características Extraídas para Identificação

P e s s o a l

A face humana possui inúmeras características (tais como os olhos, sobrancelhas, boca, nariz e cabelo) que são utilizadas, de maneira intuitiva, para o reconhecimento de pessoas. Para descrever ou caracterizar uma pessoa, pode-se analisar o posicionamento, a forma e o tamanho destas características, além da distância que separa cada uma delas.

Sistemas de reconhecimento de faces extraem informações para relacionar um determinado indivíduo à imagem que o identifica. Na Figura 2.1, é possível observar alguns pontos de interesse de uma face. Abate et al. (2007) afirmaram que as características mais exploradas são a boca, o nariz, os olhos e as sobrancelhas, as quais têm sido utilizadas com sucesso para o reconhecimento de faces frontais. Contudo, em algumas situações, as imagens não apresentam todas as informações necessárias, e.g., e m imagens de perfil.

F i g u r a 2.1 - A l g u n s p o n t o s d e i n t e r e s s e p a r a o r e c o n h e c i m e n t o d e f a c e s : ( A ) I m a g e m d e e n t r a d a ( B ) P o n t o s d e i n t e r e s s e .

Os problemas listados a seguir representam desafios e servem de motivação para as pesquisas na área:

(30)

a) P o s e - As imagens apresentam faces e m diversas poses, com diversos graus de variação, como frontal, 1/4 de perfil, semi-perfil e semi-perfil, o que pode ocluir, total ou parcialmente, algumas características, tais como olhos e orelhas;

b) Oclusão - Algumas imagens apresentam a oclusão parcial ou total de características da face por objetos da cena (óculos, chapéu, cabelo, e t c ) ;

c) Iluminação - Variações de iluminação podem ser consideradas uma forma de oclusão natural, em que regiões da face podem ficar muito escuras ou claras demais, dificultando a identificação; d) Expressão facial - A expressão facial (dúvida, raiva, surpresa,

etc.) pode alterar as características e forma da face; e

e) Condições da i m a g e m - As condições de imageamento podem influenciar no reconhecimento. Isso se deve à possibilidade de haver ruídos e também devido à resolução de aquisição.

F i g u r a 2 . 2 - P r o b l e m a s e m i m a g e n s d e f a c e s n o t o c a n t e a variações d e : ( A ) P o s e ; ( B ) Oclusão; ( C ) Iluminação; ( D ) Expressão f a c i a l ; e ( E ) Condições d e aquisição d a i m a g e m .

Esses problemas influenciam na tomada de decisão sobre o método de reconhecimento de faces do sistema, além da escolha das informações que serão analisadas, conforme ilustrado na Figura 2.2.

Representações faciais existentes podem ser divididas em duas categorias: global e local. Na representação facial global, cada componente do vetor de características contém as informações incorporadas em toda a imagem de face, o que corresponde a uma característica holística da face. Em contrapartida, para a representação facial local, cada componente do vetor de características representa apenas uma determinada região na face, ou seja, só codifica os traços detalhados naquela área específica. Embora muitos métodos de representação facial com base em características globais

(31)

ou locais tenham sido propostos com sucesso, continua sendo um problema em aberto determinar a representação mais adequada para o agrupamento de faces (SU et al., 2009).

R e c o r t e s L o c a i s

Fonte: Adaptado de Su et al. (2009).

F i g u r a 2 . 3 - Ilustração d o s d i f e r e n t e s papéis d a s características g l o b a i s e l o c a i s n o r e c o n h e c i m e n t o d e f a c e s .

Na Figura 2.3, as duas faces de entrada são artificiais, ou seja, os principais componentes (olhos, nariz e boca) são na verdade de uma mesma pessoa. Todavia, as faces aparentam ser muito desiguais e m termos da configuração estrutural global, por apresentarem diferentes contornos faciais e penteados. Assim, torna-se evidente que as características globais e locais desempenham papéis diferentes na percepção da face, sendo, portanto, necessário, combiná-las de maneira eficiente. Intuitivamente, a informação local é incorporada às variações detalhadas da aparência facial, enquanto a informação global representa a configuração estrutural holística dos órgãos da face, e.g., o contorno facial.

Enquanto, inicialmente, as representações faciais globais eram populares para o reconhecimento de faces, recentemente, cada vez mais tentativas estão sendo feitas para desenvolver sistemas de reconhecimento de faces baseados em características locais, que se acredita serem mais robustos às variações de expressão facial, iluminação e oclusão (SU et al., 2009). Assim, é natural esperar u m melhor desempenho destes sistemas

(32)

através da combinação de informações globais e locais, ao considerarmos que ambos os tipos de características são cruciais para a percepção da face humana.

Zhang et al. (2011) adotaram, e m seu trabalho, u m método de agrupamento baseado e m formas da face. A forma é normalmente utilizada para distinguir pessoas pela distância e dimensão de suas características faciais. No referido trabalho, as características faciais, incluindo os contornos da face, olhos, nariz e boca são extraídos de imagens frontais para classificação. Há um total de 68 pontos fiduciais extraídos por meio de modelos ativos de forma, denominados Active Shape Models - ASM (COOTES et al., 1995) para a composição da representação facial, conforme pode ser observado na Figura 2.4.

F i g u r a 2 . 4 - P o n t o s f i d u c i a i s u t i l i z a d o s p a r a composição d a representação f a c i a l .

Zhu, Wen e Sun (2011) e Antonopoulos, Nikolaidis e Pitas (2007) fizeram uso do descritor SIFT (Scale-invariant feature transform), originalmente proposto por Lowe ( 1 9 9 9 ) , para a tarefa de agrupamento de faces. Trata-se de u m método para a extração de características invariantes, muito utilizado para verificar a correspondência entre diferentes perspectivas de u m objeto ou de uma cena. SIFT avalia características denominadas pontos de interesse (keypoints), as quais são invariantes a níveis significativos de distorção da forma, escala, perspectiva e mudanças de iluminação. A cada ponto de interesse é atribuído u m vetor de 128 elementos, que expressa a orientação, escala e localização de uma região de pixels em torno do ponto de interesse.

(33)

(Region of interest - ROI) para a extração de características locais, visando

extrair informações espaciais das faces. A abordagem é baseada na modelagem da imagem e m uma grade 3x3, refletindo uma descrição local da imagem. Assim, a imagem a ser processada é dividida em nove blocos, conforme pode ser observado na Figura 2.5. Em cada bloco, são extraídos descritores para compor o vetor de características, calculados a partir dos valores dos pixels, a saber: ( i ) média; (ii) desvio padrão; (iii) energia; ( i v ) entropia; ( v ) contraste; e (vi) homogeneidade.

Fonte: Adaptado de Zhanq et al. (2011).

ÍA) I W

F i g u r a 2 . 5 - A b o r d a g e m u t i l i z a d a p o r Z h a n g e t a l . ( 2 0 1 1 ) : ( A ) G r a d e 3 x 3 e ( B ) Regiões d e i n t e r e s s e .

Zhang, Zhang e Tretter (2010) adotaram em seu trabalho um conjunto de filtros, originalmente proposto por Winn, Criminisi e Minka (2005), composto por três guassianas, quatro derivadas de primera ordem de Gaussianas e quatro filtros Laplaciano de Gaussianas (Laplacian of the

Gaussian - LoG) para a extração de informações de cor e textura das

imagens de faces, no contexto de agrupamento de faces. A f i m de reduzir a influência de ruídos nas características e capturar os padrões visuais mais relevantes, as características extraídas são agrupadas com uma modelagem de mistura de Gaussianas (Gaussian Mixture Modeling - GMM), treinada por

meio do algoritmo Expectation-Maximization (EM).

Prince e Élder (2010) propuseram u m novo método para o reconhecimento de faces robusto a variações de pose, baseado em uma versão probabilística de Fisherfaces (BELHUMEUR, HESPANHA e KRIEGMAN,

1997), denominado PLDA (Probabilistic Linear Discriminant Analysis). Um modelo composto de sinal e ruído foi desenvolvido para explicar a variação nos dados da face, em que a principal variação representava uma identidade

(34)

facial. Ao invés de basear o reconhecimento em comparações de distância, a comparação foi calculada como sendo a probabilidade de componentes de identidade subjacentes serem os mesmos, independentemente do valor da pose. Baseados e m experimentos realizados e m um trabalho anterior (PRINCE e ÉLDER, 2007), os autores afirmaram que este método produziu bons resultados, no que diz respeito à taxa de erro de reconhecimento, tanto em reconhecimento de faces frontais quanto e m reconhecimento de faces com variações de pose, com taxa de erro de 0,3% se comparado com algoritmos contemporâneos, e.g., Análise de Componentes Principais

(Principal Component Analysis - PCA) (JOLLIFFE, 2002) com taxa de erro

33,9% e Análise Discriminante Linear (Linear Discriminam Analysis - LDA) (MCLACHLAN, 2004) com taxa de erro de 1 1 , 9 % na base de imagens XM2VTS (MESSER et al., 1999).

Kapoor et al. (2009) empregaram em seu trabalho algoritmos de extração de características faciais, propostos por Wright e Hua (2009), no âmbito de agrupamento de faces. A face foi dividida e m regiões de 64x64 pixels, em tons de cinza com média zero e variância unitária e um descritor local foi extraído de cada região. A localização de cada uma dessas regiões foi incorporada ao descritor correspondente para formar um descritor de aparência espacial conjunta. Cada um destes descritores foi então quantizado por u m conjunto de árvores de projeção randomizadas

(RPTrees). A representação facial final consistia de um histograma esparso

formado pela coleção de índices quantizados dos descritores de aparência espacial. Wright e Hua (2009) argumentaram que seu método era invariante à pose e que apresentava melhores taxas de reconhecimento (96,5%) do que o PCA ( 8 8 , 1 % ) , LDA ( 9 3 , 9 % ) e LPP (Locality Preserving Projection) (HE e NIYOGI, 2003), na base de imagens ORL (SAMARIA e HARTER, 1994).

Palit et al. (2009) utilizaram uma abordagem, originalmente proposta por Perlmutter et al. (2006) no contexto de agrupamento de faces. O sistema fundamenta-se na detecção e localização de dezenove pontos fiduciais (também conhecidos como landmarks), correspondentes às características faciais. Para localizar tais características, foi utilizado um modelo que combinava uma representação generativa das posições das

(35)

mesmas com uma representação discriminativa de sua aparência. Os pontos fiduciais serviram como centro de extração de regiões faciais de tamanho 11x11 pixels, as quais compuseram a representação facial do modelo, conforme pode ser observado na Figura 2.6.

M l

n

1

ww

Fonte: Adaptado de Palit et al. (2009).

1 * 1

F i g u r a 2 . 6 - A b o r d a g e m u t i l i z a d a p o r P a l i t e t a l . ( 2 0 0 9 ) : ( A ) P o n t o s f i d u c i a i s ; ( B ) Regiões d e i n t e r e s s e ; e ( C ) Regiões extraídas.

Pinto, Dicarlo e Cox (2009) empregaram e m seu trabalho a característica do tipo V I (PINTO, COX e DICARLO, 2008) para a tarefa de reconhecimento. Tal característica consistia de uma representação inspirada nas propriedades conhecidas da área cortical V I . Os modelos V I , compostos por Wavelets de Gabor, abrangiram uma série de orientações e frequências espaciais, representando apenas descritores de primeira ordem do córtex visual primário e não contendo qualquer representação particularmente sofisticada de forma, nem possuindo qualquer mecanismo projetado para tolerar variações na imagem, e.g., variação de iluminação e pose. Entretanto, os autores apresentaram evidências de que essa abordagem simples é capaz de obter um bom desempenho de reconhecimento: 7 9 , 3 5 % de taxa de reconhecimento, nível de estado-da-arte, sobre a base de faces Labeled Faces in the Wild - LFW (HUANG et al., 2007).

Hua e Akbarzadeh (2009) destacaram que uma simples diferença entre Gaussianas (Difference of Gaussians - DoG) supera outros métodos mais utilizados em situações com variações de iluminação para aplicações de reconhecimento de faces. No que diz respeito à taxa de erro de reconhecimento, o método apresentou uma taxa de erro de 1,6% na base

Referências

Documentos relacionados

Débitos tributários e condominiais (propter rem) serão sub-rogados no valor da arrematação (art.. interessados a pesquisar e confirmar diretamente nos órgãos competentes,

Da Silva et al (2020) estudaram a variabilidade espacial do fator k em áreas comerciais de cana-de-açúcar, causadas pelas estruturas multivariadas de perdas de carbono em

Mais do que propor uma metodologia para a musicalização de adultos, esse trabalho deve fazer o leitor refletir sobre a prática do ensino musical atual vigente.. O que

Este trabalho é resultado de uma pesquisa quantitativa sobre a audiência realizada em 1999 envolvendo professores e alunos do Núcleo de Pesquisa de Comunicação da Universidade

A Prefeitura de nossa cidade está vivendo bom momento economica- mente, mesmo tendo gastos com a pandemia, ainda assim, o vereador Marcos Nem (PSD) disse que no perí- odo de chuva

Quadro 3.1- Indicadores de infecção observada em 25 peixes da espécie Zungaro zungaro procedentes do Rio Araguaia, Tocantins...69 Quadro 3.2- Indicadores de infecção

Depois da ação do último jogador, os jogadores devem novamente jogar ou descartar cartas na ordem de ORGANIZAÇÃO (a ordem pode alterar-se caso algum jogador ganhe ou

Desde el contenido de la clas e, y a semejanza del episodio 1, coexisten dos discursos centrados: uno, en la existencia de partículas como contaminantes (posición de los