Reconhecimento facial usando descritores locais e redes complexas

(1)

C ÂMPUS CORN ÉLIO PROC ÓPIO

DIRETORIA DE PESQUISA E P ÓS-GRADUAÇ ÃO

PROGRAMA DE P ÓS-GRADUAÇ ÃO EM INFORM ÁTICA

JO ˜AO GILBERTO DE SOUZA PIOTTO

RECONHECIMENTO FACIAL USANDO DESCRITORES LOCAIS E

REDES COMPLEXAS

DISSERTAC¸ ˜AO - MESTRADO

CORN ´ELIO PROC ´OPIO 2016

(2)

RECONHECIMENTO FACIAL USANDO DESCRITORES LOCAIS E

REDES COMPLEXAS

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Informática da Universidade Tecnológica Federal do Paraná – UTFPR como re-quisito parcial para a obtenção do t´ıtulo de “Mestre em Informática”.

Orientador: Prof. Dr. Fabr´ıcio Martins Lopes

CORN ´ELIO PROC ´OPIO 2016

(3)

P662 Piotto, João Gilberto de Souza

Reconhecimento facial usando descritores locais e redes complexas / João Gilberto de Souza Piotto. – 2016.

109 f. : il. color. ; 30 cm

Orientador: Fabrício Martins Lopes.

Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós- Graduação em Informática. Cornélio Procópio, 2016.

Bibliografia: p. 96-108.

1. Percepção facial.2. Representações dos grafos. 3. Percepção de padrões. 4. Informática – Dissertações. I. Lopes, Fabrício Martins, orient. II. Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Informática. III. Título.

CDD (22. ed.) 004

(4)

Câmpus Cornélio Procópio

Programa de Pós-Graduação em Informática

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR.

Tel. +55 (43) 3520-4055 / e-mail: [email protected] / www.utfpr.edu.br/cornelioprocopio/ppgi Título da Dissertação Nº 27:

“

RECONHECIMENTO FACIAL USANDO DESCRITORES

LOCAIS E REDES COMPLEXAS

”.

por

João Gilberto de Souza Piotto

Orientador: Prof. Dr. Fabricio Martins Lopes

Esta dissertação foi apresentada como requisito parcial à obtenção do

grau de MESTRE EM INFORMÁTICA – Área de Concentração: Computação

Aplicada, pelo Programa de Pós-Graduação em Informática – PPGI – da

Universidade Tecnológica Federal do Paraná – UTFPR – Câmpus Cornélio

Procópio, às 14h do dia 12 de dezembro de 2016. O trabalho foi _____________ pela Banca Examinadora, composta pelos professores:

__________________________________

Prof. Dr. Fabricio Martins Lopes

(Presidente – UTFPR-CP)

__________________________________

Prof. Dr. Sylvio Barbon Junior

(UEL-PR)

__________________________________

Profa. Dra. Priscila Tiemi Maeda Saito

(UTFPR-CP)

Visto da coordenação: __________________________________

André Takeshi Endo

Coordenador do Programa de Pós-Graduação em Informática UTFPR Câmpus Cornélio Procópio

(5)

(6)

Gostaria de agradecer primeiramente à Deus que permitiu que tudo isso acontecesse ao longo de minha vida. A Universidade Tecnológica Federal do Paraná, seu corpo docente, direção e administração pela oportunidade de fazer este trabalho. Agradeço ao Prof. Dr. Fabr´ıcio Martins Lopes, pela orientação no pouco tempo que lhe coube, por suas correções e incentivos. Gostaria de deixar registrado também o meu reconhecimento à minha fam´ılia e aos meus colegas de sala de aula, pois acredito que sem o apoio deles seria muito dif´ıcil vencer esse desafio. Enfim, a todos que direta ou indiretamente fizeram parte da minha formação, o meu muito obrigado.

(7)

é chamado de presente! Provérbio chinês

(8)

PIOTTO, João Gilberto de Souza. RECONHECIMENTO FACIAL USANDO DESCRITORES LOCAIS E REDES COMPLEXAS. 117 f. DISSERTAÇ ÃO - MESTRADO – Programa de Pós-graduação em Informática, Universidade Tecnológica Federal do Paraná. Cornélio Procópio, 2016.

A busca por métodos de leitura biométrica tem crescido muito, alimentada pelas necessidades governamentais, militares e comerciais. Pesquisas indicam que o mercado de reconhecimento facial vai movimentar bilhões de dólares nos próximos anos. Dessa forma, encontrar métodos que atendem situações espec´ıficas impulsiona novos avanços nessa área. Cada aplicação de re-conhecimento de faces precisa de uma solução particular. Há casos que o tempo de resposta é o fator mais importante; outros exigem que a face seja classificada mesmo que de forma parcial. Em todas essas situações, a acurácia e a robustez talvez sejam os atributos mais importantes. Entretanto, na maioria das vezes, tais caracter´ısticas se comportam como grandezas inversas: aumentado o grau de confiança dos resultados o desempenho do método será afetado. Por isso, desenvolver uma metodologia que equilibra tais fatores é essencial para a construção de soluções aceitáveis. Este trabalho apresenta um novo algoritmo de reconhecimento facial, base-ado em descritores locais e em redes complexas. O método é capaz de concentrar a informação, antes distribu´ıda pelos diversos pontos dos descritores, em um único vetor de caracter´ısticas, tornando a classificação mais rápida e eficiente. Além disso, o outro foco da metodologia é reduzir etapas de pré-processamento, evitando que processos sejam executados de forma desne-cessária. Os experimentos foram realizados com bancos de faces bem conhecidos na literatura, revelando taxas de acurácia de até 98,5%. A técnica também apresentou bons resultados mesmo quando havia ru´ıdos nas amostras, muitas vezes oriundos de objetos presentes na composição do cenário. Para uma análise complementar, algoritmos clássicos de reconhecimento facial fo-ram submetidos ao mesmo conjunto de dados, gerando assim resultados comparativos entre as metodologias.

Palavras-chave: SIFT, SURF, ORB, Redes Complexas, Reconhecimento Facial, Classificação, Grafo, Reconhecimento de Padrões

(9)

PIOTTO, João Gilberto de Souza. FACE RECOGNITION USING LOCAL DESCRIPTORS AND COMPLEX NETWORKS. 117 f. DISSERTAÇ ÃO - MESTRADO – Programa de Pós-graduação em Informática, Universidade Tecnológica Federal do Paraná. Cornélio Procópio, 2016.

The search for biometric scanning methods has grown a lot due to government, military and commercial needs. Researches indicate the face recognition market will move billions of dollars in next years. Thus, finding methods to specific situations drives new advances in this area. Each application face recognition requires a particular solution. There are cases the response time is the most important factor; others require that face must be classified even if partially. In all these situations, accuracy and robustness may be the most important attributes. However, in most cases, these features behave as inverse greatness: increasing the confidence level of the results the method performance will be affected. Therefore, create the method which balances these factors is essential for construction of acceptable solutions. This paper presents a new face recognition algorithm based on local descriptors and complex networks. The method is able to concentrate the information before distributed by various point descriptors, in a unique feature vector. It makes the classification step faster and more efficient. Furthermore, another focus of the method is reduce pre-processing steps, avoiding unnecessary processes. The experiments were conducted with faces datasets well known in the literature, revealing accuracy rates of up to 98.5%. The technique also showed good results when there was noise in the samples, often derived from objects present in the composition of the scene. For additional analysis, classical facial recognition algorithms were subjected to the same data set, generating comparative results between both methodologies.

Keywords: SIFT, SURF, ORB, Complex Network, Face Recognition, Classification, Graph, Pattern Recognition

(10)

–

FIGURA 1 O operador LBP b´asico . . . 23 –

FIGURA 2 A vizinhanc¸a circular LBP . . . 23 –

FIGURA 3 Identificação de padrões uniformes . . . 24 –

FIGURA 4 Representac¸˜ao da face por meio de operadores LBP . . . 24 –

FIGURA 5 Exemplos de descritores Haar-like . . . 27 –

FIGURA 6 Fluxo de execuc¸˜ao das etapas da metodologia SIFT . . . 30 –

FIGURA 7 Uma oitava composta por cinco imagens . . . 32 –

FIGURA 8 Processo de obtenc¸˜ao das imagens DoG . . . 33 –

FIGURA 9 Verificac¸˜ao do ponto chave e seus vizinhos em diferentes escalas . . . 34 –

FIGURA 10 Ponto extremo localizado “fora” de um pixel . . . 34 –

FIGURA 11 Janelas utilizadas no detector de bordas de Harris . . . 36 –

FIGURA 12 Janela de Harris sugerindo a presenc¸a de uma borda . . . 36 –

FIGURA 13 Histograma utilizado para atribuir a orientac¸˜ao do ponto chave . . . 38 –

FIGURA 14 Janelas ao redor do ponto chave - SIFT . . . 39 –

FIGURA 15 Função de ponderação gaussiana . . . 40 –

FIGURA 16 T´ecnica de Box Filter . . . 41 –

FIGURA 17 Integral de imagem . . . 42 –

FIGURA 18 Janela deslizante do descritor SURF . . . 43 –

FIGURA 19 Construc¸˜ao do descritor SURF . . . 44 –

FIGURA 20 Grafo simples . . . 47 –

FIGURA 21 Rede complexa . . . 47 –

FIGURA 22 Mapeamento de uma rede complexa em um vetor de caracter´ısticas . . . . 48 –

FIGURA 23 Exemplo de melhor separac¸˜ao entre duas classes . . . 56 –

FIGURA 24 Etapas do processo de treinamento e classificac¸˜ao da Random Forest . . . 58 –

FIGURA 25 Arquitetura do classificador Perceptron simples . . . 59 –

FIGURA 26 Arquitetura do classificador MultiLayerPerceptron . . . 60 –

FIGURA 27 Exemplos das amostras utilizadas nos experimentos . . . 64 –

FIGURA 28 Representação do fluxo de execução do método proposto . . . 65 –

FIGURA 29 Representação da etapa de remoção de pontos chave . . . 66 –

FIGURA 30 Pontos representados pelo novo vetor de caracter´ısticas . . . 67 –

FIGURA 31 Normalizac¸˜ao da matriz de similaridade . . . 67 –

FIGURA 32 Definição da matriz de adjacências . . . 68 –

FIGURA 33 Processo de remoc¸˜ao de arestas . . . 69 –

FIGURA 34 Boxplots das taxas de acur´acia dos experimentos . . . 77 –

FIGURA 35 Mesma face com pontos extra´ıdos por diferentes t´ecnicas . . . 81 –

FIGURA 36 Interface do prot´otipo de software . . . 83 –

FIGURA 37 Ardu´ıno Uno . . . 84 –

FIGURA 38 Rel´e simples . . . 85 –

FIGURA 39 Exemplos de resistores . . . 85 –

FIGURA 40 LCD 16x2 b´asico com fundo verde . . . 86 –

FIGURA 41 Diodo semicondutor . . . 87 –

(11)

–

FIGURA 44 Fluxo de acionamento do m´odulo rel´e . . . 89 –

FIGURA 45 Módulo relé utilizado na construção do protótipo de hardware . . . 90 –

FIGURA 46 Comunicação interna entre os componentes do protótipo de hardware . . 90 –

(12)

–

TABELA 1 Principais caracter´ısticas dos bancos de faces adotados . . . 65 –

TABELA 2 Resultados dos experimentos do m´etodo proposto . . . 72 –

TABELA 3 Resultado da selec¸˜ao de atributos . . . 74 –

TABELA 4 Resultados do método proposto após seleção de caracter´ısticas . . . 74 –

TABELA 5 Resultados dos experimentos: comparac¸˜ao entre metodologias . . . 75 –

TABELA 6 Conjuntos de amostras para experimentos de eficiˆencia . . . 78 –

TABELA 7 Experimentos de eficiˆencia utilizando centroide . . . 79 –

TABELA 8 Experimentos de eficiˆencia utilizando regi˜oes da face . . . 80 –

(13)

AdaBoost Impulso ou est´ımulo adaptativo (Adaptive Boosting) BRIEF Binary Robust Independent Elementary Features CFS Correlation-based Feature Selection

CSV Comma Separated Values

DoG Diferenc¸as de Gaussianas (Difference of Gaussians) FAST Features from Accelerated Segment Test

FLD Fisher’ s Linear Discriminant

GSM Global System for Mobile Communications IBK Instance-Based Learning Algorithms LBP Local Binary Patterns

LCD Liquid Crystal Display

LoG Laplaciano de Gaussianas (Laplacian of Gaussian) OpenCV Open Source Computer Vision Library

ORB Oriented FAST and Rotated BRIEF PCA Principal Components Analysis RGB-D Red, Green, Blue and Depth SIFT Scale Invariant Feature Transform SQI Self Quotient Image

SURF Speeded Up Robust Features SVM Support Vector Machines USB Universal Serial Bus

(14)

1 INTRODUC¸ ˜AO . . . 14

1.1 MOTIVAC¸ ˜AO . . . 15

1.2 OBJETIVOS . . . 16

1.2.1 Objetivo Geral . . . 16

1.2.2 Objetivos Espec´ıficos . . . 16

1.3 TEMAS N ˜AO ABORDADOS . . . 17

1.4 ORGANIZAC¸ ˜AO DO TEXTO . . . 17

2 T ´ECNICAS DE RECONHECIMENTO DE FACES . . . 19

2.1 EIGENFACES . . . 20

2.2 FISHERFACES . . . 21

2.3 LBPHFACES . . . 22

2.4 M ´ETODOS ATUAIS DE RECONHECIMENTO DE FACES . . . 26

2.5 TRABALHOS RELACIONADOS AO RECONHECIMENTO FACIAL . . . 27

2.5.1 Detecc¸˜ao de faces . . . 27

2.5.2 Detecc¸˜ao de fraudes - Spoof faces . . . 28

2.5.3 Técnicas de correção de iluminação . . . 28

3 FUNDAMENTAÇ ÃO TE ÓRICA . . . 30

3.1 SIFT . . . 30

3.1.1 Determinar o espac¸o de escala . . . 31

3.1.2 Calcular a aproximac¸˜ao de LoG . . . 32

3.1.3 Localizar Pontos Chave . . . 33

3.1.4 Eliminar ru´ıdos . . . 35

3.1.5 Atribuir orientac¸˜oes aos pontos chave . . . 38

3.1.6 Gerar caracter´ısticas SIFT . . . 39

3.2 SURF . . . 40

3.2.1 Aproximação de LoG e localização de pontos chave . . . 41

3.2.2 Integral de imagem . . . 42

3.2.3 Atribuir orientac¸˜oes aos pontos chave . . . 42

3.2.4 Gerando as caracter´ısticas SURF . . . 43

3.3 ORB . . . 44

3.4 GRAFOS E REDES COMPLEXAS . . . 46

3.4.1 Grau, proximidade, intermediação, autovetor e centralização . . . 48

3.4.2 Triˆangulos Adjacentes . . . 49

3.4.3 Coeficiente de Assortatividade . . . 50

3.4.4 Cliques . . . 50

3.4.5 N´os mais distantes . . . 51

3.4.6 Medidas de Hub e Autoridade de Kleinberg . . . 51

3.5 RECONHECIMENTO DE PADR ÕES E CLASSIFICAÇ ÃO . . . 51

3.5.1 Classificac¸˜ao . . . 52

3.5.1.1 Instance-Based Learning Algorithms . . . 53

(15)

3.5.1.4 Random Forest . . . 57

3.5.1.5 Redes Neurais Artificiais . . . 57

3.5.2 Selec¸˜ao de caracter´ısticas . . . 59

3.5.2.1 Correlation-based Feature Selection . . . 60

3.5.3 An´alise de resultados . . . 61

4 MATERIAIS E M ´ETODOS . . . 63

4.1 BANCOS DE FACES . . . 63

4.2 METODOLOGIA PROPOSTA . . . 65

4.2.1 Extrair pontos chave . . . 66

4.2.2 Definir novo vetor de caracter´ısticas de cada ponto . . . 66

4.2.3 Definir a matriz de similaridade . . . 67

4.2.4 Definir a matriz de adjacˆencias . . . 68

4.2.5 Calcular medidas e remover arestas . . . 68

4.2.6 Definir o vetor de caracter´ısticas da face . . . 68

5 RESULTADOS E DISCUSS ˜OES . . . 70

5.1 SELEÇ ÃO DE AMOSTRAS PARA EXPERIMENTAÇ ÃO . . . 70

5.2 RESULTADOS EXPERIMENTAIS DA METODOLOGIA PROPOSTA . . . 71

5.3 SELEÇ ÃO DE CARACTERÍSTICAS . . . 73

5.4 COMPARAÇ ÃO DO M ÉTODO PROPOSTO COM T ÉCNICAS CL ÁSSICAS DE RECONHECIMENTO FACIAL . . . 75

5.5 TESTES E RESULTADOS DE EFICI ˆENCIA . . . 78

6 PROT ´OTIPO DE FECHADURA ELETR ˆONICA . . . 82

6.1 PROT ´OTIPO DE SOFTWARE . . . 82

6.2 PROT ´OTIPO DE HARDWARE . . . 83

6.2.1 Ardu´ıno . . . 84 6.2.2 Rel´e . . . 84 6.2.3 Resistor e Potenciˆometro . . . 85 6.2.4 LCD 16x2 . . . 86 6.2.5 Diodo . . . 87 6.2.6 TRANSISTOR . . . 88

6.2.7 Montagem do prot´otipo de hardware . . . 88

7 CONCLUS ˜OES E DIRECIONAMENTOS . . . 92

REFER ˆENCIAS . . . 96

(16)

1 INTRODUC¸ ˜AO

A Visão Computacional é a área da ciência que tem como objetivo programar um computador para “entender” uma cena ou recursos em uma imagem. As aplicações para este tipo de tecnologia se estendem desde o uso doméstico até a composição de equipamentos de guerra. Na robótica, a Visão Computacional é utilizada para guiar robôs por trajetórias não espec´ıficas, fazendo a máquina tomar suas próprias decisões de movimento. Para uso militar, a tecnologia pode ser usada para direcionar drones ou fazer com que armas militares atinjam alvos espec´ıficos. Na biometria, uma imagem de face, iris ou digital pode ser utilizada para identificar uma pessoa (ZHAO et al., 2003). Apesar da variedade de aplicações, a Visão Computacional é tema desafiador: resume-se em descrever o mundo em uma ou mais imagens e reconstruir suas propriedades como formas, iluminação e distribuição de cores. Diante dessa gama de conceitos, houve a necessidade de resolver os desafios de forma mais espec´ıfica, surgindo assim novas subáreas dentro da Visão Computacional (SZELISKI, 2010).

A biometria consiste em analisar caracter´ısticas dos seres vivos por meio de diver-sas medidas. No caso dos humanos, existem caracter´ısticas que podem ser exclusivas de um indiv´ıduo como a digital, voz e face. Dessa forma, uma das principais aplicações do es-tudo da biometria é a identificação de pessoas. Entretanto, para optar por um método de identificação eficiente, é preciso associá-lo a um modelo computacional (ALMEIDA, 2006). Métodos biométricos baseados em imagens (face, iris, impressão digital) utilizam conceitos de Visão Computacional e Reconhecimento de Padrões como fundamentos essenciais para a modelagem e realização dos seus objetivos.

A escolha da metodologia de reconhecimento depende de fatores como utilização e aceitação. O reconhecimento da ´ıris é extremamente preciso, porém seu custo financeiro é alto e não é muito aceito por ser uma técnica invasiva. As impressões digitais são confiáveis e não são demasiadamente invasivas, mas não são adequadas quando não há colaboração dos indiv´ıduos (ABATE et al., 2007). No caso dos métodos faciais, a cooperação do usuário não se faz obrigatória, muitas vezes ocorrendo sem o consentimento do indiv´ıduo analisado. Esse fato divide opiniões sobre o uso da tecnologia, pois levanta questões sobre privacidade e o uso de

(17)

informações pessoais sem autorização (REAES, 2006).

A análise de padrões biométricos tem sido alvo de estudos durante os últimos anos, sobretudo a biometria de faces. A busca por novos métodos é alimentada pela necessidade da indústria do entretenimento, por sistemas de seguranças governamentais e aplicações comer-ciais de modo geral (HUANG et al., 2011). O reconhecimento facial está se tornando cada vez mais próximo do cotidiano das pessoas. Celulares, sistemas de controle de acesso, video-vigilância e até jogos interativos são exemplos de aplicações que embarcam essa tecnologia (JAIN; LI, 2005).

O comportamento facial é o conjunto de diversas áreas de estudo como detecção de faces, reconhecimento de faces e reconhecimento de expressões faciais (ZHAO et al., 2003). Muitas vezes há confusão conceitual dessas técnicas e, por isso, é importante deixar claro a definição de cada uma delas. A detecção de faces consiste em determinar a localização de uma face em uma imagem, caso exista. Ela não se preocupa em identificar “quem é” o indiv´ıduo, pois este é papel do reconhecimento facial. Por fim, o reconhecimento de expressões é o ramo de pesquisa que concentra esforços em detectar emoções, ou seja, quando há sentimentos de raiva, felicidade e medo, por exemplo (PINTO et al., 2011).

Desde o surgimento das primeiras técnicas de reconhecimento e detecção de faces, muitos problemas já foram solucionados. Algoritmos de grande impacto como Eigenfaces (TURK; PENTLAND, 1991a) e Viola-Jones (VIOLA; JONES, 2001) foram propostos, porém apresentavam falhas na detecção em diferentes escalas, rotações e iluminação. Ao longo dos anos, estes métodos sofreram atualizações ou serviram de inspiração para o desenvolvimento de novas técnicas, com resultados mais precisos e confiáveis. Atualmente, já existem métodos de extração de caracter´ısticas que são praticamente invariantes à rotação e escala, além de apre-sentarem boa invariância à iluminação. Descritores como o Scale Invariant Feature Transform (SIFT) (LOWE, 1999) e Speeded Up Robust Features (SURF) (BAY et al., 2006), conhecidos por tais caracter´ısticas, são muito utilizados no reconhecimento de objetos de interesse. Cons-truir soluções que apresentem bons resultados em tempo hábil e a baixo custo computacional é o cenário ideal de qualquer aplicação.

1.1 MOTIVAC¸ ˜AO

A Transparency Market Research é uma empresa de pesquisa de mercado e de inte-ligência de negócios. A instituição fornece aos clientes uma visão de mercado com previsões estat´ısticas, cenários competitivos e as principais tendências e recomendações estratégicas. De

(18)

acordo com o mais recente relatório publicado pela empresa “Facial Recognition Market - Glo-bal Industry Analysis, Size, Share, Growth, Trends and Forecast 2015 - 2022”, o mercado gloGlo-bal de reconhecimento facial tem previsão de movimentar cerca de US$ 2,67 bilhões até 2022. Esta tendência é impulsionada pela alta demanda por sistemas de vigilância para uso civil e go-vernamental, uma vez que o número de crimes e atividades terroristas em todo o mundo tem aumentado recentemente (RESEARCH, 2015).

A forte tendência de consumo de tecnologias de reconhecimento facial é a principal motivação de novas pesquisas nesta área da biometria. Além disso, a ampla gama de aplicações atrai a atenção de pesquisadores e investidores neste setor. Desde o in´ıcio do novo milênio, surgiram inúmeras propostas de aplicações para o reconhecimento de faces. Controle de movi-mentos e aprimoramento de robôs (SEKMEN et al., 2002) (KUNO et al., 2003) e sistemas de monitoramento e segurança (PENTLAND; CHOUDHURY, 2000) são exemplos da aplicabili-dade desta tecnologia. Motivado pelas tendências de mercado e varieaplicabili-dades de aplicações, este trabalho apresenta uma nova metodologia de reconhecimento de faces, focando principalmente na robustez, acurácia e no tempo de resposta.

1.2 OBJETIVOS

1.2.1 OBJETIVO GERAL

Este trabalho propõe um novo método de extração de caracter´ısticas faciais para identi-ficação de indiv´ıduos. O objetivo é criar um mecanismo que concentre a informação, antes distribu´ıdas por diversos pontos da face, em um único vetor de caracter´ısticas. Assim, é poss´ıvel criar um método que seja robusto e que apresente menos custo computacional, podendo até ser aplicado em dispositivos móveis e com baixo poder de processamento.

1.2.2 OBJETIVOS ESPEC´IFICOS

• Propor uma nova metodologia que utiliza estimativas de grafos para classificac¸˜ao de fa-ces;

• Comparar os descritores SIFT, SURF e Oriented FAST and Rotated BRIEF (ORB) para obtenção de pontos chave, com o objetivo de testar a eficácia de cada um;

• Apresentar os resultados obtidos pelo m´etodo proposto com o uso de cada um dos descri-tores;

(19)

• Comparar os resultados obtidos pelo método proposto com as técnicas clássicas de reco-nhecimento de faces;

• Apresentar um protótipo de fechadura eletrônica, utilizando a metodologia proposta e um conjunto de circuitos eletrônicos;

1.3 TEMAS N ˜AO ABORDADOS

Este trabalho apresenta uma nova técnica de extração de caracter´ısticas para reconheci-mento facial. Dessa forma, temas como detecção de faces, spoof faces e técnicas de correção de iluminação não serão tratados nesta pesquisa. No Cap´ıtulo 2, tais conceitos serão apresentados apenas como contextualização do tema corrente, porém o objetivo deste projeto é exclusiva-mente a extração de caracter´ısticas faciais e o reconhecimento de faces.

1.4 ORGANIZAC¸ ˜AO DO TEXTO

Para melhor organização, este trabalho foi dividido em cap´ıtulos e seções.

• Neste cap´ıtulo foram apresentados a introdução, problematização e motivação do traba-lho a ser desenvolvido. Foram anunciados também os objetivos a serem alcançados no decorrer da execução do projeto.

• No Cap´ıtulo 2 encontra-se um resumo das técnicas clássicas de reconhecimento facial, além de alguns trabalhos paralelos, que não estão ligados ao reconhecimento propria-mente dito, mas contribuem para resultados mais satisfatórios.

• O Cap´ıtulo 3 apresenta os conceitos das técnicas que compõem o método proposto. Serão apresentados os descritores SIFT, SURF e ORB, além de conceitos de grafos e redes complexas.

• O Cap´ıtulo 4 apresenta a metodologia proposta, descrevendo passo a passo seu funci-onamento. Além disso, serão apresentados também os bancos de faces utilizados nos experimentos, bem como as particularidades de cada um deles.

• O Cap´ıtulo 5 apresenta os resultados obtidos pela metodologia proposta. É exibido também uma comparação entre tais resultados com as soluções obtidas pela execução das técnicas clássicas.

(20)

• O Cap´ıtulo 6 apresenta um prot´otipo de fechadura eletrˆonica baseada na metodologia proposta.

• No Cap´ıtulo 7 encontram-se as considerac¸˜oes finais sobre o trabalho.

AdaBoost BRIEF CFS CSV DoG FAST FLD GSM IBK LBP LCD LoG OpenCV ORB PCA RGB-D SIFT SQI SURF SVM USB

(21)

2 T ´ECNICAS DE RECONHECIMENTO DE FACES

As principais técnicas de extração de caracter´ısticas para reconhecimento de faces são divididas em duas categorias (ZHAO et al., 2003): análise de subespaço hol´ıstico e descritores de caracter´ısticas locais. A primeira categoria consiste em representar a aparência global da face humana com projeções de subespaço. As metodologias desse grupo fazem o uso de des-critores como o Principal Components Analysis (PCA) (HALLINAN, 1994) e Fisher’ s Linear Discriminant (FLD) (FISHER, 1936).

A análise de caracter´ısticas locais tem se tornado muito promissora em métodos de reconhecimento de faces (HEISELE et al., 2003), (BONNEN et al., 2013). Existem várias razões que contribuem para isso:

• Caracter´ısticas locais podem descrever a face com um n´ıvel de detalhe regional, o que pode ser importante na identificação de atributos pessoais únicos.

• Existem várias técnicas de caracter´ısticas locais robustas à iluminação como o SIFT (LOWE, 1999), SURF (BAY et al., 2006) e Local Binary Patterns (LBP) (AHONEN et al., 2004).

• Histogramas de recursos locais são geralmente utilizados como descritores faciais. • Métodos locais oferecem mais flexibilidade para reconhecer faces com oclusões parciais.

Este cap´ıtulo apresenta algumas metodologias de reconhecimentos de faces dispon´ıveis na literatura. São introduzidos algoritmos clássicos como EigenFaces (TURK; PENTLAND, 1991a), FisherFaces (BELHUMEUR et al., 1997) e LBPHFaces (AHONEN et al., 2004) que, além de estarem presentes em grande parte de aparelhos eletrônicos atualmente, serviram de inspiração para o surgimento de novas técnicas e novos modelos. Além disso, o cap´ıtulo re-sume algumas metodologias que não classificam diretamente as faces, mas contribuem para o bom desempenho da classificação, como é o caso das técnicas de spoof face e algoritmos de normalização de imagens.

(22)

2.1 EIGENFACES

Como métodos de busca exaustiva possuem alto custo computacional e requerem gran-des quantidagran-des de dados armazenados, é natural que técnicas de redução de dimensionalidade sejam sugeridas. Assim, uma técnica bastante comum para a redução da dimensionalidade, em particular no processamento de imagens, é a Principal Components Analysis (PCA) (HALLI-NAN, 1994), (MURASE; NAYAR, 1995), (SIROVICH; KIRBY, 1987), (TURK; PENTLAND, 1991a), (TURK; PENTLAND, 1991b). Técnicas de PCA, também conhecidos como métodos Karhunen-Loeve, utilizam projeções lineares de redução de dimensionalidade que maximiza a difusão de todas as amostras projetadas.

De forma mais formal, considere um conjunto de imagens N = {x1,x2...,xN} com valores em um espaço de imagem n-dimensional, assumindo que cada imagem pertence à uma classe c, tal que {X1,X2...,Xc}. Uma transformação linear resume-se em mapear o espaço de imagem original n-dimensional em um espaço de caracter´ısticas m-dimensional, onde m < n. O novo vetor de caracter´ısticas yk∈ Rm é definido como:

yk=WTxk k = 1,2,...,N (1)

onde W ∈ Rnxm _{é a matriz com colunas ortonormais. Com base esse racioc´ınio, matriz total de} dispersão ST é definida como:

ST = N

∑

k=1

(xk− µ)(xk− µ)T (2)

onde N é o número de exemplares e µ ∈ Rn é a imagem média de todas as amostras. Após aplicar a transformação linear WT_{, a dispersão dos vetores de caracter´ısticas {y}

1,y2...,yn} ´e WT_S

TW . Na PCA, a projeção Wopt atua de forma a maximizar o determinante da matriz total de dispersão ST, isto é:

Wopt =argmax_w | WTSTW | =_{w₁,w₂, ..,w_m_}

(3) onde {wi|i = 1,2,3...,m} ´e o conjunto de autovetores de ST, correspondendo aos m maiores autovalores. Dessa forma, os valores ST passam a ser conhecidos como Eigenpictures (SI-ROVICH; KIRBY, 1987) e EigenFaces (TURK; PENTLAND, 1991a), (TURK; PENTLAND, 1991b), desde que tenham a mesma dimensionalidade que as imagens originais.

A grande vantagem é que, uma vez aplicada, a técnica aumenta a dispersão entre as classes do conjunto. Entretanto, a dispersão interna à classe também é maximizada, o que acaba

(23)

prejudicando a classificação. O principal fator que contribui para variações de imagens seme-lhantes é a mudança na iluminação (MOSES et al., 1994). Assim, se amostras com iluminação variável são submetidas à técnica PCA, a matriz de projeção Wopt será composta por com-ponentes principais modificados por essa variação. Consequentemente, os pontos no espaço projetado não serão bem agrupados e poderá ocorrer interferência entre as classes. Entretanto, descartando os três principais componentes mais significativos da matriz de projeção Wopt, a variação devido a iluminação tende a ser reduzida. No entanto, é improvável que tais compo-nentes correspondem apenas à variação na iluminação e, como consequência, a informação útil para a classificação poderá ser perdida (BELHUMEUR et al., 1997).

2.2 FISHERFACES

A metodologia conhecida como Fisher’ s Linear Discriminant (FLD) (FISHER, 1936) é um método de redução de dimensionalidade que geralmente produz melhores resultados do que o método EigenFaces. A principal caracter´ıstica desta técnica é que ela foi constru´ıda com o objetivo de “moldar” a dispersão, a fim de tornar os componentes da matriz de projeção mais confiáveis para a classificação. No trabalho apresentado por Chellappa et al. (CHELLAPPA et al., 1995) foi proposto o uso de FLD para maximizar a razão entre a dispersão entre as classes e a dispersão interna à classe. Para isso, foi preciso definir as matrizes como:

SB= c

∑

i=1 Ni(µi− µ)(µi− µ)T SW = c

∑

i=1xk∈Xi

∑

(x_k_{− µ}i)(xk− µi)T (4)

onde SB é a dispersão entre as classes, SW é a dispersão interna à classe, µi é a imagem média da classe Xi, Ni é o número de exemplares de Xi e c é total de classes. Se SW não é singular (determinante não é nulo), a projeção ideal Wopt é definida como a matriz com as colunas ortonormais que maximiza a razão entre o determinante da matriz SBe o determinante da matriz SW. Wopt=argmax_w | W T_S BW | | WTSWW | =_{w₁,w₂, ..,w_m_} (5) onde {wi|i = 1,2,3...,m} é o conjunto de autovetores generalizados de SBe Swcorresponde aos m maiores autovalores generalizados {λi|i = 1,2,3...,m}, isto é:

(24)

Note que existe no máximo c − 1 autovalores generalizados diferente de zero. Assim um limite superior para m é c − 1, onde c é o número de classes (DUDA et al., 1973). Em aplicações de reconhecimento de face com o uso da técnica FLD, a matriz de dispersão interna à classe SW quase sempre é singular. Isto acontece pois o grau de SW é no máximo N − c e, em geral, o número de imagens no conjunto de treinamento N é muito menor do que o número de pixels em cada imagem n. Para tentar reduzir este problema, foi proposto por Belhumeur et al. (BELHUMEUR et al., 1997) o método conhecido como FisherFaces. A técnica resume-se em projetar o conjunto imagem para um espaço de baixa dimensionalidade, de forma que a matriz de dispersão interna à classe SW se torne não singular. Para isso, primeiramente aplica-se a técnica PCA para reduzir a dimensão do espaço de caracter´ısticas de N − c. Em seguida, o método FLD padrão definido por (DUDA et al., 1973) é aplicado para reduzir a dimensão para c − 1. W_optT =W_{f ld}T W_pcaT (7) onde Wpca=argmax w | W T_S TW | Wf ld =argmax_w | W T_WT pcaSBWpcaW | | WTWpcaT SWWpcaW | (8)

Observe que a otimização para Wpcaé realizada sobre n x (N −c) matrizes com colunas ortonormais, enquanto a otimização para Wf ld é realizada sobre (N − c) x m matrizes com colunas ortonormais.

Provavelmente, existem outras maneiras de reduzir a dispersão interna à classe e pre-servar a dispersão entre as classes. Uma segunda técnica seria selecionar W com máxima dispersão entre as classes depois de reduzir a dispersão interna à classe. Assim, é poss´ıvel maximizar a dispersão entre classe desde que a dispersão interna tendesse à zero.

Wopt =arg max W ∈Φ| W

T_S

BW | (9)

onde Φ ´e o conjunto m x n de matrizes com colunas ortonormais contidas no n´ucleo de SW. 2.3 LBPHFACES

O operador Local Binary Patterns (LBP) (OJALA et al., 1996) é um descritor de tex-tura que aplica sobre a imagem uma janela 3x3 para leitex-tura de padrões. Considerando o valor central como limiar L, os demais valores vizinhos que são maiores ou iguais a L recebem 1 e

(25)

os menores recebem 0. Assim, o pixel analisado poderá ser representado pelo número binário formado por sua vizinhança, conforme Figura 1. Anos mais tarde, o autor sugeriu que o ope-rador poderia ter sua análise de vizinhança estendida (OJALA et al., 2002). Aplicando uma máscara circular com o processo de interpolação de pixels, é poss´ıvel binarizar a vizinhança do pixel central em qualquer raio desejado. A notação (P,R) indica pontos de amostragem P em um c´ırculo de raio R. A Figura 2 representa a nova versão do operador LBP.

Figura 1: O operador LBP b´asico.

Fonte: (AHONEN et al., 2004)

Figura 2: A vizinhança circular (8,2). Os pixels são interpolados sempre que o ponto não estiver dentro de um pixel.

Fonte: (AHONEN et al., 2004)

Além dessa melhoria, foi sugerido também o uso dos chamados padrões uniformes. Um padrão é chamado de uniforme quando existe no máximo duas mudanças entre 0 ou 1 na sequência binária. A Figura 3 representa o processo de identificação deste padrão.

O uso de LPB para reconhecimento de faces proposto por Ahonen et al. (AHONEN et al., 2004) utiliza o operador com a notac¸˜ao LPBu2

P,R, onde a marcação u2 indica que apenas padrões uniformes são usados. Um histograma da imagem classificada fi(x,y) pode ser definido como:

Hi=

_∑

x,yI{ fi

(x,x) = i},i = 0,...,c − 1, (10)

onde c ´e o n´umero de diferentes classes produzidas pelo operador LBP.

(26)

ima-Figura 3: Identificação de padrões uniformes: somente quando há no máximo duas mudanças na sequência binária.

Fonte: Autoria pr´opria

gem como bordas, pontos e áreas planas. Entretanto, para uma eficiente representação fa-cial, deve-se manter também informação espacial. Para isso, a imagem é dividida em regiões {R0,R1, ...,Rd−1} onde cada região deverá ter seu próprio histograma particular:

Hi, j =

_∑

x,yI{ fi

(x,y) = i}I{(x,y) ∈ R_j_{},i = 0,...,c − 1, j = 0,...,d − 1} (11)

O conjunto de histogramas permite o acesso às informações sobre o padrão LBP em termos de pixel e em termos de região. Ao concatenar os histogramas de cada região é poss´ıvel criar um descritor global para a face. A Figura 4 ilustra como a face é descrita por meio de operadores LBP.

Figura 4: Representac¸˜ao da face por meio de operadores LBP.

Fonte: (CHANG-YEON, 2008)

Um problema muito comum no reconhecimento facial ´e a existˆencia de uma grande quantidade de classes distintas, uma classe para cada indiv´ıduo a ser reconhecido, e poucas

(27)

amostras por classe para treinamento. Por esta razão, classificadores mais sofisticados normal-mente não são utilizados. O mais comum é o uso de classificadores baseados no classificador de vizinhos mais próximos. Como o descritor da face é composto por um conjunto de histo-gramas, uma medida de dissimilaridade será necessária. Qualquer medida a seguir pode ser utilizada (AHONEN et al., 2004).

• Intersecção de histograma: determina o grau de semelhança entre dois histogramas S e M, levando em consideração os menores valores entre eles (BARLA et al., 2003). A medida é definida conforme a Equação 12.

D(S,M) =

_∑

i

min(Si,Mi) (12)

onde Sie Mis˜ao os respectivos valores do bin (unidade) de cada histograma.

• Teste de Log-likelihood: determina a semelhança entre dois histogramas S e M baseada na estimativa por máxima verossimilhança. Este conceito resume-se estimar valores para diferentes parâmetros de um modelo estat´ıstico, de forma a maximizar a probabilidade dos dados observados (CAM, 1990; ALDRICH, 1997; RUPPERT, 2011). A medida é definida conforme a Equação 13.

L(S,M) = −

_∑

i

SilogMi (13)

• Teste de Chi quadrado: determina a semelhança entre dois histogramas S e M baseada na razão entre os valores de seus bins. Se S e M são idênticos, então o valor retornado pela função será zero. Se S e M são diferentes, então o resultado encontrado será diferente de zero. Quanto mais distante de zero for o resultado, maior a diferença entre S e M (RYABKO et al., 2004). A medida é definida conforme a Equação 14.

χ2(S,M) =

_∑

i

(Si− Mi)2

(Si+Mi) (14)

Uma vez que a imagem é dividida em regiões, é provável que algumas delas conte-nham informações mais úteis do que outras, no que tange o reconhecimento de pessoas. Por exemplo, a região dos olhos podem ter informações mais relevantes do que a região dos cabelos (ZHAO et al., 2003), (GONG et al., 2000). Dessa forma, um peso pode ser atribu´ıdo para cada região, com base na importância da informação nela contida. Segundo os autores do método,

(28)

os melhores resultados foram obtidos quando a dissimilaridade foi calculada a partir da me-dida Chi quadrado (AHONEN et al., 2004). Neste caso, a ponderação pode ser adicionada na Equação 14 resultando na Equação 15.

χ_w2(S,M) =

_∑

i, j

wj(Si, j− Mi, j) 2

(Si, j+Mi, j) (15)

onde wj ´e o peso na regi˜ao j.

2.4 M ´ETODOS ATUAIS DE RECONHECIMENTO DE FACES

O reconhecimento de face tem se tornado uma área de pesquisa muita ativa durante as últimas duas décadas. Recentemente, inúmeras técnicas foram sugeridas, cada uma ten-tando superar ou simplificar uma proposta anterior (SCHROFF et al., 2015; PARKHI et al., 2015). Atualmente, os métodos procuram solucionar problemas cada vez mais espec´ıficos. Já é poss´ıvel encontrar modelos que prometem reconhecer indiv´ıduos com apenas parte da face vis´ıvel (CHAI et al., 2014), (CAO; SCHMID, 2014). Existem também algoritmos mais genéricos, que se propõem a classificar qualquer tipo de objeto (CHAN et al., 2015). Neste caso, o reconhecimento facial é apenas uma especialização da metodologia.

Além de técnicas baseadas em imagens bidimensionais, existem métodos que anali-sam amostras em três dimensões (3D) (ABATE et al., 2007). Apesar do reconhecimento facial 3D ser um conceito já estudado há alguns anos, muitos modelos estão sendo propostos recen-temente, já que equipamentos de captura estão cada vez mais sofisticados (KIM et al., 2016). Os defensores desta tecnologia afirmam a modelagem 3D pode gerar informações completas da textura facial, fornecendo vantagens sobre a tecnologia 2D (GANGULY et al., 2014). É o caso do algoritmo proposto por (SMEETS et al., 2013), que utiliza pontos extremos na superf´ıcie 3D para formar o vetor de caracter´ısticas da face. Já a técnica apresentada por (KIM et al., 2016) consiste realizar um mapeamento da face com o aux´ılio de câmeras Red, Green, Blue and Depth (RGB-D). Apesar das metodologias 3D serem atrativas, o uso desta tecnologia pode ter algumas desvantagens. A leitura em três dimensões pode ser afetada por problemas de auto-oclusões ou auto-oclusões externas, além de algumas imperfeições causadas pela baixa qualidade de alguns equipamentos (DRIRA et al., 2013). Além disso, equipamentos mais modernos também tem custos mais elevados e só recentemente estão se tornando mais acess´ıveis.

(29)

2.5 TRABALHOS RELACIONADOS AO RECONHECIMENTO FACIAL

Com o passar dos anos, os estudos do comportamento facial lançaram novos desafios. O aparecimento de novas técnicas fez surgir também a necessidade de encontrar soluções mais espec´ıficas. Assim, a área do reconhecimento de faces foi dividida em setores menores de atuação. Com isso, foram propostas metodologias com propósitos exclusivos: localizar a face na imagem, técnicas para detectar fraudes (fotos e impressão no papel) e métodos de correção de cor e iluminação são exemplos de trabalhos paralelos à classificação de faces. A seguir serão apresentados alguns desses conceitos.

2.5.1 DETECC¸ ˜AO DE FACES

Exitem vários algoritmos de detecção de faces propostos na literatura. Entretanto, um dos expoentes talvez seja a técnica proposta por Paul Viola e Michael Jones (VIOLA; JONES, 2001). Esse método apresenta como premissa o aprendizado de caracter´ısticas sobre o objeto que deverá detectar. Para isso, são utilizados algoritmos de aprendizagem de máquina treinados com uma vasta quantidade de imagens, possuindo tanto exemplos do objeto que se deseja de-tectar quanto exemplos de outros objetos. O método Viola-Jones, como é conhecido, é baseado nos conceitos de integral de imagem, descritores Haar-like (PAPAGEORGIOU et al., 1998) e treinamento de classificadores em cascata usando Adaptive Boosting (AdaBoost). Resumida-mente, o algoritmo executa uma busca usando uma janela deslizante para localizar um objeto na imagem. Esta janela, conhecida como caracter´ısticas retangulares de Haar-like, possui ta-manho, proporção e localização que variam durante toda a execução. A Figura 5 apresenta exemplos do descritor Haar-like utilizado pelo método. Embora o algoritmo possa ser treinado para reconhecer qualquer objeto, a motivação principal desta abordagem foi a detecção de faces. Figura 5: Exemplos de descritores Haar-like: O valor da caracter´ıstica é definido como a diferença entre a soma dos valores os pixels do lado branco e a soma dos pixels do lado roxo do retângulo.

(30)

2.5.2 DETECC¸ ˜AO DE FRAUDES - SPOOF FACES

Com a popularidade das aplicações de reconhecimento facial surgiram também algu-mas questões sobre sua confiabilidade. Uma preocupação bastante comum é saber se o sistema é capaz de distinguir uma face humana de um rosto impresso em papel. Ataques com fotos ou v´ıdeos são conhecidos como spoof face e consiste em utilizar a face de uma pessoa auto-rizada para acessar recursos ou serviços restritos. Atualmente, existe uma grande variedade de métodos de detecção de spoof face dispon´ıveis na literatura. Existem técnicas que utilizam diferenças de gaussianas e transformada de Fourier (LI; TAN, 2009). Outras que são baseadas em descritores com caracter´ısticas de baixo n´ıvel (SCHWARTZ et al., 2011). Uma técnica re-cente proposta por Di Wen et al. (WEN et al., 2015) consiste em detectar fraudes analisando distorções como reflexão especular, suavizações, momento cromático e diversidade de cores. Em seguida, um classificador múltiplo composto por vários classificadores SVM (Support Vec-tor Machine) são treinados para diferentes tipos de ataques (v´ıdeo ou foto). Apesar de aumentar o custo computacional, o uso dessas técnicas combinadas com os algoritmos de reconhecimento facial são de extrema importância para construção de soluções seguras e confiáveis.

2.5.3 T ÉCNICAS DE CORREÇ ÃO DE ILUMINAÇ ÃO

A aparência facial depende fortemente da iluminação do ambiente. Por isso, realizar a classificação nessas condições é um dos desafios mais importantes para sistemas de reco-nhecimento de faces (PHILLIPS et al., 2005). As abordagens tradicionais podem ser clas-sificadas em três categorias: baseadas em aparência, com base em normalização e métodos baseados em caracter´ısticas. As técnicas baseadas na aparência, exemplos de treinamento são coletados em diferentes condições de iluminação e usados para compor um modelo global das poss´ıveis variações de iluminação (BASRI; JACOBS, 2003), (BELHUMEUR; KRIEGMAN, 1998), (CHEN et al., 2000), (LEE et al., 2005), (ZHANG; SAMARAS, 2003). Este tipo de aprendizagem requer um grande número de imagens de treinamento e um conjunto de recur-sos expressivo. Caso contrário, é essencial incluir etapas de pré-processamento para reduzir as variações de iluminação (TAN; TRIGGS, 2010).

Abordagens baseadas em normalização reduzem a imagem para uma forma canônica, fazendo as variações de iluminação serem suprimidas. A equalização de histograma é um exemplo simples, porém métodos mais sofisticados exploraram o fato das distribuições de iluminação na face possu´ırem baixas frequências espaciais e bordas suaves. Dessa forma, as informações de alta frequência na imagem são consideradas de forma predominante. Por exem-plo, o método Multiescala Retinex (JOBSON et al., 1997) reduz boa parte das informações de

(31)

baixa frequência, dividindo a imagem por uma versão suavizada da mesma. Wang et al. (WANG et al., 2004) usaram uma ideia similar para criar as chamadas Self Quotient Image (SQI). Al-guns anos depois, Chen et al. desenvolveram uma nova versão das SQI usando uma suavização logar´ıtmica de variação total (CHEN et al., 2006). Por fim, Gross e Brajovic desenvolveram um método de suavização baseado na estimativa iterativa da imagem original (GROSS; BRA-JOVIC, 2003). Estes métodos são bastantes eficazes, porém são limitados quando há variações espaciais não uniformes, conforme testes apresentados por Shan et al. (SHAN et al., 2003) e Short et al. (SHORT et al., 2004).

A terceira abordagem é baseada em caracter´ısticas de iluminação, diretamente ex-tra´ıdas da imagem de entrada. As informações recuperadas podem ser de natureza geométrica (BRUNELLI; POGGIO, 1993) ou de caracter´ısticas derivadas de imagem como mapeamento de bordas (ADINI et al., 1997), LBP (AHONEN et al., 2004), Wavelets Gabor (WISKOTT et al., 1997), (ZHANG et al., 2007) e filtros locais de autocorrelação (GOUDAIL et al., 1996). Embora essas caracter´ısticas oferecem uma melhoria, ainda são extremamente afetadas por variações de iluminação. Por exemplo, apesar de caracter´ısticas LBP serem completamente invariantes às transformações monotônicas, seu desempenho diminui sob mudanças de direção de iluminação e sombreamento. A mesma suposição pode ser feita para os demais tipos (TAN; TRIGGS, 2010). Sabe-se que técnicas que oferecem completa invariância à iluminação não existem. Por isso é preciso encontrar representações que são mais resistentes aos tipos de variações de iluminação mais comuns (CHEN et al., 2000), (TAN; TRIGGS, 2010).

(32)

3 FUNDAMENTAÇ ÃO TE ÓRICA

O propósito deste cap´ıtulo é apresentar as principais técnicas que são utilizadas para compor o método proposto, afim de facilitar a compreensão do trabalho. A seguir são apresen-tados os descritores SIFT, SURF e ORB, além dos conceitos de grafos e redes complexas. Por fim, são apresentados os classificadores adotados e a forma de validação dos experimentos. 3.1 SIFT

A Scale Invariant Feature Transform (SIFT) é uma abordagem para a extração de caracter´ısticas proposta como sendo invariante a mudanças na iluminação, escala, rotação e robusto à presença de ru´ıdos. Os descritores SIFT são baseados na intensidade dos pixels e na orientação de vetores gradientes. Além disso, a execução do algoritmo é relativamente rápida, mesmo que o método seja executado em tempo real (LOWE, 2004). A Figura 6 representa as etapas de execução do algoritmo.

Figura 6: Fluxo de execuc¸˜ao das etapas da metodologia SIFT.

Resumidamente, a metodologia SIFT consiste em extrair descritores em pontos mais promissores (pontos chave) em todas as escalas da imagem. Por isso, a primeira etapa consiste em reproduzir cópias da imagem original em diferentes escalas e aplicar um filtro de suavização. Assim, é poss´ıvel identificar pontos de interesse que são invariantes a escala. Na próxima etapa, o objetivo é localizar os pontos chave em cada imagem processada na etapa anterior. Para cada local candidato, existe um modelo detalhado que possui dados de escala e localização. Como

(33)

muitos pontos podem ser extra´ıdos, é preciso aplicar um processo para descartar os menos promissores. Em seguida, uma ou mais orientações são atribu´ıdas para cada ponto chave, com base nos valores dos gradientes de cada pixel vizinho. Por fim, o último passo consiste em gerar o vetor de caracter´ısticas de cada ponto. Cada gradiente é medido na escala selecionada e na região em torno de cada ponto chave. Estes gradientes são utilizados para criar o vetor de atributos que identifica exclusivamente o ponto chave na imagem (LOWE, 2004), (SINHA, 2010).

3.1.1 DETERMINAR O ESPAC¸O DE ESCALA

No mundo real, os objetos são significativos apenas em uma determinada escala. É poss´ıvel identificar uma maçã sobre uma mesa, porém ao olhar por todo o sistema solar a mesma maça será totalmente insignificante. O espaço de escala tenta aplicar esse mesmo conceito no processamento de imagens digitais.

Além da questão da escala, outro ponto importante é o n´ıvel de detalhes dos elementos na imagem. Se o objeto de estudo for uma árvore, por exemplo, livrar-se de alguns detalhes como folhas e galhos talvez possa ser interessante. Entretanto, ao aplicar esse conceito, é pre-ciso tomar cuidado para não introduzir dados falsos. Foi demonstrado por Koenderink (KO-ENDERINK, 1984) e Lindeberg (LINDEBERG, 1993), por meio de suposições matemáticas, que a melhor forma de fazer isso é com a suavização Gaussiana. Dessa forma, para criar um espaço de escala basta gerar cópias da imagem original progressivamente e, a cada cópia, apli-car a suavização Gaussiana (GONZALEZ; WOODS, 2006). No SIFT esse processo é repetido quatro vezes, formando um conjunto composto por cinco imagens denominado oitava. É ne-cessária a construção de quatro oitavas onde, a cada oitava, o tamanho da imagem original deve ser reduzido pela metade.

Matematicamente, a suavização é dada pela convolução do operador Gaussiano e a imagem. O operador Gaussiano possui expressão particular que é aplicada a cada pixel. O resultado é uma imagem suavizada.

L(x,y,σ) = G(x,y,σ) ∗ I(x,y) (16)

onde:

• L representa a imagem suavizada. • G ´e o operador Gaussiano.

(34)

Figura 7: Representação de uma oitava composta por cinco imagens. A suavização Gaussiana foi aplicada para diminuir os detalhes da figura original.

Fonte: (SINHA, 2010) • I representa a imagem de entrada.

• x e y são as coordenadas de cada pixel da imagem. • σ representa a escala de suavização.

• ∗ é a operação de convolução, em x e y.

O operador gaussiano pode ser calculado pela equac¸˜ao: G(x,y,σ) = 1

2πσ2e x2+y2

2σ2 (17)

3.1.2 CALCULAR A APROXIMAC¸ ˜AO DE LOG

Na seção 3.1.1, criou-se o espaço de escala da imagem, no qual a ideia é suavizar e reduzir uma imagem progressivamente, criando assim uma sequência de imagens conhecidas como oitavas. O próximo passo é usar essas imagens para gerar outro conjunto de imagens, por meio de uma técnica denominada Diferenças de Gaussianas (Difference of Gaussians - DoG) (LOWE, 2004), (SINHA, 2010).

Os pontos chave podem ser considerados os pixels que mais se “destacam” entre as escalas. Por isso, é preciso preparar o espaço de escalas de forma que os pixels mais relevantes sejam identificados. Uma forma de realizar esse procedimento é utilizando a técnica Laplaciano de Gaussianas (Laplacian of Gaussian - LoG) (LINDEBERG, 1994), baseada em derivadas de

(35)

segunda ordem. Entretanto, a segunda derivada é extremamente sens´ıvel ao ru´ıdo, além de ter um custo computacional relativamente elevado. Para contornar esse problema, foi adotada a técnica conhecida como Diferença de Gaussanas (DoG). Uma imagem DoG é o resultado da subtração das imagens de uma oitava. Assim, um processo que era considerado computacio-nalmente intensivo foi substitu´ıdo por uma subtração relativamente rápida e eficiente (LINDE-BERG, 1993), (MIKOLAJCZYK, 2002), como ilustrado na Figura 8.

Figura 8: Representação do processo de obtenção das imagens DoG.

Fonte: (LOWE, 2004)

As imagens resultantes são uma aproximação da escala que seria obtida pelo Lapla-ciano de Gaussianas. São invariantes em relação à escala, o que facilita a detecção de pontos chave.

3.1.3 LOCALIZAR PONTOS CHAVE

Com as imagens DoG processadas, o próximo passo é encontrar os pontos chave em potencial. Isso pode ser feito localizando os pontos máximos e m´ınimos nas imagens DoG. Basta verificar cada pixel e seus vizinhos na imagem atual e nas imagens das escalas acima e abaixo.

Na Figura 9, o ponto “x” representa o pixel que está sendo verificado e os c´ırculos representam seus vizinhos. Neste exemplo, são realizadas 26 verificações entre o pixel marcado com “x” e seus vizinhos. Caso o pixel “x” tenha maior ou menor intensidade do que todos os seus vizinhos, ele será escolhido pelo método como um ponto chave. Pontos chave não são

(36)

Figura 9: Representação visual da verificação do ponto chave e seus vizinhos em diferentes escalas.

Fonte: (LOWE, 2004)

detectados nas escalas mais inferiores e superiores, pois não há vizinhos suficientes para fazer a comparação. Neste caso, essas regiões de extremos serão desprezadas pelo algoritmo.

Pontos máximos e m´ınimos são aproximados porque quase sempre se localizam “fora” da posição de um pixel. Como não é poss´ıvel acessar dados que estão “entre” pixels, é preciso fazer uma aproximação matemática para localizar o respectivo “subpixel”.

Figura 10: Ponto extremo localizado “fora” de um pixel.

Fonte: (SINHA, 2010)

Na Figura 10, os pontos vermelhos representam os pixels que foram detectados como m´ınimos e máximos. Entretanto, o ponto extremo real é o que aparece destacado em verde. A expansão de Taylor pode ser utilizada para determinar a localização do subpixel (BROWN; LOWE, 2002), conforme definido na Equação 18.

D(x) = D +∂DT ∂x x + 1 2xT ∂2D ∂x2x (18)

(37)

relação à x. A função resultante deve ser igualada a zero, conforme a Equação 19. ˆx = −∂2D−1

∂x2 ∂D

xD (19)

Dessa forma, a localização do ponto chave tornou-se relativa às demais posições dos vizinhos ao ponto extremo.

3.1.4 ELIMINAR RU´IDOS

Na Seção 3.1.3, os pontos máximos e m´ınimos são identificados nas imagens DoG. Isto foi feito comparando os pixels vizinhos ao ponto na escala atual, na escala acima e na escala abaixo. A próxima etapa é rejeitar alguns pontos chave que não são úteis como caracter´ısticas, como os pontos que não possuem contraste suficiente ou aqueles que estão localizados distantes de bordas.

Para identificar pontos com baixo contraste, basta verificar a intensidade do pixel per-tencente a ele. Se o valor absoluto da intensidade do pixel for inferior a um determinado limiar, o ponto então é rejeitado. É importante lembrar que muitas vezes pontos chave são localizados em subpixels. Assim, mais uma vez, é necessário usar a expansão de Taylor para obter o valor da intensidade nesses locais, como resumidamente apresentado na Seção 3.1.3.

Para detectar caracter´ısticas próximas de bordas, pode ser adotada uma aproximação semelhante ao detector de bordas de Harris (HARRIS; STEPHENS, 1988). É um recurso útil para encontrar caracter´ısticas em imagens, além de ser invariante à rotação, escala e iluminação. Essa metodologia resume-se em utilizar janelas para encontrar grandes variações de textura. A ideia é utilizar esse detector para selecionar regiões de bordas, os quais geralmente representam bons pontos chave. Fazendo essa seleção, as demais regiões são descartadas.

Na Figura 11, o quadro azul representa a janela que está sendo processada. Ao movi-mentá-la ao redor da sua posição original, para as posições destacadas em amarelo ou vermelho, não será encontrada uma variação muito grande, pois o conteúdo das janelas é semelhante. Já a diferença da intensidade dos pixels entre a janela azul e a verde é grande, mas neste caso a janela verde está muito distante da sua posição inicial, o que não ajuda a determinar se ali de fato é uma região próxima de bordas.

A Figura 12 ilustra uma janela com forte tendência a representar uma borda. É impor-tante perceber como um pequeno movimento da janela já produz uma diferença percept´ıvel. A

(38)

Figura 11: Janelas utilizadas no detector de bordas de Harris.

Figura 12: Janela de Harris com pequeno deslocamento sugerindo a presenc¸a de uma borda.

Fonte: Autoria própria representação matemática deste processo é definida a seguir.

E(u,v) =

_∑

x,yw(x,y)[I(x + u,y + v) − I(x,y)]

2_, ₍₂₀₎

onde:

• E é a diferença entre o original e a janela deslizante. • u é o deslocamento da janela na direção x.

• v é o deslocamento da janela na direção y.

(39)

• I é a intensidade da imagem de cada uma das posições (x,y). • I(x + u,y + v) é a intensidade da janela movida.

• I(x,y) ´e a intensidade do pixel original.

Como o objetivo é procurar por janelas com alto valor de E, é preciso aumentar os valores dos termos entre colchetes. Para isso, basta aplicar a série de Taylor para representar os termos com base nas suas derivadas.

E(u,v) ≈

_∑

x,y

[I(x,y) + uIx+vIy− I(x,y)]2 (21) Veja como I(x + u,y + v) se transformou em I(x,y) + uIx+vIy. Como a série de Taylor tende a infinito, o último termo pode ser desprezado. O próximo passo é expandir quadrados da função, como definido na Equação 22.

E(u,v) ≈

_∑

x,y

u2I_x2+2uvIxIy+v2I_y2 (22) A Equação 22 pode ser refinada sob a forma de uma equação matricial:

E(u,v) ≈ [uv] "

∑

I 2 x IxIy IxIy Iy2 !# u v (23) Agora, denominado a somat´oria da matriz de M:

M =

_∑

W (x,y) Ix2 IxIy IxIy Iy2

!

(24) A equac¸˜ao resume-se em:

E(u,v) ≈ [uv]M u

v

(25) A partir da Equação 25 é poss´ıvel determinar quais janelas produzem variações sig-nificativas quando deslocadas a uma direção próxima da original. Para isso, basta adotar uma pontuação R que é calculada a partir do valor próprio, do determinante e do traço da matriz M, definindo a Equação 26. Toda a janela cujo valor R for maior do que um determinado limiar é considerada região de borda.

R = detM − k(trac¸oM) detM = λ1λ₂ trac¸oM = λ1+ λ2

(40)

3.1.5 ATRIBUIR ORIENTAC¸ ˜OES AOS PONTOS CHAVE

A etapa descrita na Seção 3.1.4 é importante para descartar pontos chave menos pro-missores. A próxima etapa é atribuir orientações aos pontos chave restantes para proporcionar invariância à rotação. Isso pode ser feito a partir do vetor gradiente ao redor de cada ponto chave. Magnitudes e orientações do vetor gradiente devem ser calculadas para todos os pixels ao redor do ponto chave, utilizando a Equação 27 (SCHMID; MOHR, 1997) . Depois disso, um histograma é criado com todas as poss´ıveis orientações (360 graus) divididas em 36 bins.

m(x,y) =q(L(x + 1,y) − L(x − 1,y))2+ (L(x,y + 1) − L(x,y − 1))2

θ (x,y) = tan−1₍₍_{L(x,y + 1) − L(x,y − 1))/(L(x + 1,y) − L(x − 1,y)))} (27) Em outras palavras, suponha que a orientação de um determinado pixel é de 32,11 graus. Esse pixel será atribu´ıdo ao quarto bin do histograma, já que neste bin estão os pixels que possuem orientação de 30 a 39 graus. Aplicando esse procedimento nos pixels vizinhos do ponto chave, é poss´ıvel identificar qual bin possui maior quantidade de pixels. No histograma representado pela Figura 13, o terceiro bin possui o maior pico. Logo a orientação do ponto será calculada como a média das orientações dos pixels desse bin. Além disso, qualquer pico com 80% ou mais de ocorrências será convertido para um novo ponto chave, com a mesma localização e escala do ponto original, porém com orientação própria.

Figura 13: Histograma utilizado para atribuir a orientac¸˜ao do ponto chave.

(41)

3.1.6 GERAR CARACTER´ISTICAS SIFT

Nesta etapa, os pontos chave selecionados já são invariantes à escala e rotação. Agora é preciso gerar as caracter´ısticas SIFT, que podem ser consideradas uma “impressão digital” de cada ponto. Em geral, um objeto não é exatamente o mesmo em duas imagens distintas. Sempre há uma mudança no ângulo de captura das imagens ou na iluminação do ambiente. Essas pequenas diferenças devem ser levadas em consideração ao gerar a “impressão digital” do ponto chave.

Para gerar as caracter´ısticas SIFT, primeiramente é necessário criar uma janela de 16 x 16 pixels em torno do ponto chave. Esta janela será dividida em dezesseis subjanelas menores, todas com tamanho 4 x 4, conforme Figura 14.

Figura 14: Janelas ao redor do ponto chave, destacado em vermelho. ´Uteis para gerar as carac-ter´ısticas SIFT.

Fonte: (LOWE, 2004)

O vetor de caracter´ısticas SIFT é determinado pela orientação dos pixels vizinhos ao redor do ponto chave. Semelhante à etapa descrita na Seção 3.1.5, será necessário criar um his-tograma e distribuir os pixels de acordo com suas orientações. A diferença é que o hishis-tograma para a atual distribuição será constru´ıdo somente com oito bins. Dessa forma, o primeiro bin irá compreender todos os pixels com orientações entre 0 a 44 graus, o segundo bin entre 45 a 89 graus e assim por adiante. O número de pixels no bin deverá ser incrementado de acordo com a distância do pixel até o ponto chave. Assim, gradientes que estão muito distantes do ponto serão adicionados com menor relevância no histograma. Isso é feito com uma função de ponderação gaussiana, que retorna um gradiente semelhante uma curva de sino 2D. A magni-tude das orientações deverá ser multiplicada pelo retorno da função e o resultado será um valor ponderado. Quanto mais longe, menor o valor final.

(42)

Figura 15: Função de ponderação gaussiana atuando como função de sino 2D.

Fonte: (SINHA, 2010)

serão tratadas e distribu´ıdas entre os bins pré-determinados. Repetindo a mesma técnica em todas as dezesseis janelas, o resultado final será um conjunto de 128 valores de magnitude e orientações. Uma vez normalizados, esses 128 valores vão formar o vetor de caracter´ısticas que identifica exclusivamente o ponto chave na imagem. A Figura 14 mostra que o ponto-chave não se encontra exatamente em um pixel. Por isso, é preciso interpolar a imagem para gerar dados de orientação e magnitude “entre” pixels.

O vetor de caracter´ısticas usa orientações do gradiente dos pixels vizinhos em relação ao pixel central da janela e, ao girar a imagem, todas essas orientações podem mudar. Para alcançar a independência de rotação, basta subtrair a rotação do ponto chave de cada orientação de gradiente. Assim, os valores de orientação de gradiente serão relativos à orientação do ponto chave.

O último passo é tornar o vetor de caracter´ısticas invariante à iluminação. Isso é uma tarefa razoavelmente simples: qualquer valor do vetor que for maior que um determinado limiar deve ser substitu´ıdo pelo valor do limiar. Em outras palavras, trata-se uma limiarização do vetor por meio de valores correspondentes à iluminação (LOPES, 2003). Finalmente o vetor de caracter´ısticas está pronto para identificar um ponto chave espec´ıfico na imagem.

3.2 SURF

O Speeded Up Robust Features (SURF) (BAY et al., 2008) é uma técnica de extração de descritores capaz de gerar caracter´ısticas em imagens que não são de natureza similar. Tornou-se muito popular, pois agrega caracter´ısticas invariantes às transformações de rotação e escala. Segundo os autores da técnica, o SURF se aproxima ou mesmo supera metodologias propostas anteriormente em relação a distinção e a robustez, mas sua execução é computacionalmente

(43)

mais rápida do que as metodologias similares. Isto é poss´ıvel pois o algoritmo é constru´ıdo com base em detectores e descritores bem conhecidos, como a matriz Hessiana (detector) (MI-KOLAJCZYK; SCHMID, 2001) e um descritor baseado em distribuição de frequências. Além disso, a metodologia utiliza a técnica de integral de imagem para convoluções, o que torna todo o processo menos custoso computacionalmente.

3.2.1 APROXIMAÇ ÃO DE LOG E LOCALIZAÇ ÃO DE PONTOS CHAVE

Em seu algoritmo, Lowe aproxima os Laplacianos de Gaussianas (LoG) por meio de uma técnica chamada de Diferenças de Gaussianas (DoG), como resumidamente descrito na seção 3.1.2. Isso é feito para que o método possa encontrar pontos chave em potencial. En-tretanto, o SURF altera este conceito e utiliza uma técnica de aproximação chamada de Box Filter. A vantagem é que este método pode ser facilmente calculado com o uso de integrais de imagens, as quais podem ser realizadas de forma paralela em diferentes escalas. Além disso, o Box Filter utiliza uma matriz Hessiana para aproximação das LoG e localização de pontos chave, conforme definido na Equação 28.

H (x,σ) = Lxx(x,σ) Lxy(x,σ) Lxy(x,σ) Lyy(x,σ)

!

, (28)

onde Lxx(x,σ)é a convolução da derivada de segunda ordem da Gaussiana _∂∂_x22g(σ), com ima-gem I no ponto x. O mesmo é valido para Lxy(x,σ) e Lyy(x,σ). O resultado da aproximação por Box Filter pode ser visualizado na Figura 16.

Figura 16: Resultado da técnica de Box Filter. As janelas suavizadas são resultantes da derivada parcial de segunda ordem da função Gaussiana. A partir delas, é realizada uma aproximação com a técnica Box Filter.

Fonte: (BAY et al., 2008)

A localização dos pontos chave é definida pelo determinante da matriz Hessiana.

det(Haprox) =Dxx− (ωDxy) (29)

(44)

tamanho da máscara do Box Filter (normalmente utilizada 9 x 9) e do valor da constante σ da suavização Gaussiana (normalmente 1.2).

ω = |Lxyσ|F|Dyy(9)|F

|Lyyσ|F|Dxy(9)|F ≈ 0,9 (30)

3.2.2 INTEGRAL DE IMAGEM

A integral de imagem é uma técnica muito útil, pois permite fazer diversos cálculos em sub-regiões de uma imagem rapidamente. Com ela, medidas como soma e média podem ser realizadas de maneira muito eficiente (CROW, 1984) (VIOLA; JONES, 2001) (BAY et al., 2008). Para calcular uma integral de imagem, basta somar a cada pixel o valor dos pixels localizados acima e a esquerda. Por motivos computacionais, se a imagem original possui tamanho C x L a integral de imagem deverá ter dimensões C+1 x L+1, com a primeira linha e a primeira coluna preenchidas com zero (MATTHEW, 2010). A Figura 17 representa o processo para calcular a integral de imagem partir da imagem original.

Figura 17: Exemplo de uma integral de imagem calculada a partir da imagem original.

Matematicamente esse cálculo é definido pela seguinte equação: II(x,y) =

_∑

x0_≤x y0_≤y

I(x,y) (31)

onde II(x,y) é a integral de imagem nas coordenadas do pixel (x,y) e I(x,y) é a imagem original. 3.2.3 ATRIBUIR ORIENTAÇ ÕES AOS PONTOS CHAVE

O SIFT utiliza as magnitudes e orientações do vetor gradiente para definir a orientação do ponto chave. O SURF utiliza outro conceito para essa tarefa. As orientações são deter-minadas a partir da transformada de Haar (wavelets), com ponderação gaussiana. O cálculo é feito em ambas as direções x e y e os resultados são distribu´ıdos ao redor do ponto chave. A

(45)

orientação dominante é determinada pela soma de todos os pontos dentro de uma janela desli-zante, com ângulo de 60 graus.

Figura 18: Uma janela deslizante com raio de 60 graus detecta a orientac¸˜ao dominante ao redor do ponto chave.

Fonte: (BAY et al., 2008)

3.2.4 GERANDO AS CARACTER´ISTICAS SURF

Para gerar as caracter´ısticas SURF, o primeiro passo consiste em construir uma região quadrática ao redor do ponto chave e orientá-la de acordo com a orientação definida na seção 3.2.3. O tamanho da janela utilizada é 20 x 20, e será dividida em janelas menores com di-mensão de 4 x 4 (BAY et al., 2008). Transformadas de wavelets de Haar são calculadas nas direções x e y, com base nos pontos de cada sub-região, conforme Figura 19. Resumida-mente, as resposta wavelets na direção horizontal são chamadas de dx e as respostas wavelets na direção vertical são chamadas de dy. “Horizontal” e “vertical” aqui são definidos em relação à orientação do ponto chave em questão.

Em seguida, as respostas wavelets dx e dy são sumarizadas em cada sub-região. Os resultados das somas vão formar os primeiros componentes do vetor de caracter´ısticas. Em seguida, deve-se somar também os valores absolutos das respostas |dx| e |dy|. Assim, o vetor de caracter´ısticas de uma janela será definido como: