Comparação entre algoritmos de reconhecimento de face no contexto de acessibilidade

(1)

Douglas Eduardo Parra

“Compara¸

c˜

ao entre Algoritmos de Reconhecimento

de Face no Contexto de Acessibilidade”

CAMPINAS

2013

(2)

(3)

(4)

Ficha catalográfica

Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467

Parra, Douglas Eduardo,

P247c ParComparação entre algoritmos de reconhecimento de face no contexto de

acessibilidade / Douglas Eduardo Parra. – Campinas, SP : [s.n.], 2014.

ParOrientador: Siome Klein Goldenstein.

ParDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de

Computação.

Par1. Reconhecimento facial (Computação). 2. Acessibilidade. 3. Processamento

de imagens - Técnicas digitais. 4. Visão por computador. 5. Interação humano-computador. 6. Reconhecimento de padrões óticos. I. Goldenstein, Siome

Klein,1972-. II. Universidade Estadual de Campinas. Instituto de Computação. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Comparison between face recognition algorithms in acessibility

context

Palavras-chave em inglês:

Human face recognition (Computer science) Acessibility

Image processing - Digital techniques Computer vision

Human-computer interaction Optical pattern recognition

Área de concentração: Ciência da Computação Titulação: Mestre em Ciência da Computação Banca examinadora:

Siome Klein Goldenstein [Orientador] Jacques Wainer

Eduardo Alves do Valle Junior

Data de defesa: 27-06-2014

Programa de Pós-Graduação: Ciência da Computação

Powered by TCPDF (www.tcpdf.org)

(5)

(6)

(7)

Instituto de Computa¸c˜ao Universidade Estadual de Campinas

Compara¸

c˜

ao entre Algoritmos de Reconhecimento de

Face no Contexto de Acessibilidade

Douglas Eduardo Parra

27 de junho de 2014

Banca Examinadora:

• Prof. Dr. Siome Klein Goldenstein (Supervisor/Orientador ) • Prof. Dr. Eduardo Alves do Valle Junior

Faculdade de Engenharia El´etrica e da Computa¸c˜ao - UNICAMP • Prof. Dr. Jacques Wainer

Instituto de Computa¸c˜ao - UNICAMP • Prof. Dr. Ricardo da Silva Torres

Instituto de Computa¸c˜ao - UNICAMP • Prof. Dr. Jos´e Mario De Martino

(8)

(9)

Abstract

In this master dissertation is shown a comparison between three face recognition algo-rithms within the context of accessibility to the MicrosoftTM project in partnership with FAPESP for the people recognition module using Microsoft Kinect and sensory substi-R

tution. The k-Nearest Neighbours algorithm, with Histogram of Oriented Gradients, was employed as a basis for being a simple and low computational cost. The Eigenfaces and Local Binary Patter Histogram algorithms were compared with the previous one in four experiments.

Initially, the Project Vision for the Blind and its different modules is described. This project was developed by a team in Brazil which achieved good results for navigation and face recognition modules, always with the idea of using audio 3D to convey the desired information to the user. It will next be shown a review of the state of art with projects within the context of accessibility e sensory substitution, pointing out its limitations. Immediately after it is done a review about the three face recognition algorithms used and then how the image database from this project was created.

Good results were achieved with the three algorithms although there are significant differences among them. Eigenfaces and Local Binary Pattern Histogram, for being more complex techniques than k-Nearest Neighbours, reached recognition rates with half of the resources than the last one use to get close to the result values, with Eigenfaces being the fastest. Nonetheless, for being a simple technique, it is worth take note how good k-NN executes the same task and could be used in the project module.

(10)

(11)

Resumo

Nesta disserta¸cão de mestrado, é mostrada uma compara¸cão entre três algoritmos de re-conhecimento de face no contexto de acessibilidade para o projeto MicrosoftTM com par-ceria com a FAPESP, para o módulo de reconhecimento de pessoas utilizando o Microsoft Kinect e substitui¸c˜R ao sensorial. O algoritmo k-Nearest Neighbours, junto do descritor

Histograma de Gradientes Orientados, foi utilizado como base por ser uma abordagem simples e de baixo custo computacional. Os algoritmos Eigenfaces e Local Binary Pattern

Histogram foram comparados com o anterior em quatro experimentos.

Inicialmente, ´e descrito o Projeto Vision for the Blind e seus diversos m´odulos. Este projeto foi desenvolvido por uma equipe aqui no Brasil, que obteve bons resultados para os módulos de navega¸cão e reconhecimento de face, sempre com a ideia de usar o áudio 3D para passar a informa¸cão desejada ao usuário. Em seguida, é apresentada uma revisão do estado da arte com projetos no contexto de acessibilidade e substitui¸cão sensorial, apontando suas limita¸cões. Logo após é feita uma revisão sobre os três algoritmos de reconhecimento facial utilizados e, então, como foi constru´ıda o banco de imagens deste projeto.

Foram obtidos bons resultados com os três algoritmos, apesar de haver diferen¸cas significativas entre eles. O Eigenfaces e o Local Binary Pattern Histogram, por serem t´ecnicas mais complexas que o k-Nearest Neighbours, atingiram taxas de reconhecimento com metade dos recursos que este último utiliza para chegar próximo dos valores, sendo o Eigenfaces mais r´apido, porém demorado na parte de aprendizagem. Ainda assim, por ser uma técnica simples, vale notar o quão bem o k-NN executa a mesma tarefa e pode ser utilizado para o módulo do projeto.

(12)

(13)

Acknowledgements

Este é mais um grande passo em minha jornada. Após quase dois anos e meio do in´ıcio de meu mestrado, várias foram as cirunstâncias com as quais aprendi e cresci como pessoa, e sou grato a cada uma delas, das quais falarei brevemente.

Primeiramente, gostaria de agradecer à minha fam´ılia, que sempre apoiou minha de-cisão de seguir em frente com meus estudos. Apesar de minha cidade natal não ser muito longe, sempre se torna um desafio sair de casa pela primeira vez. Agrade¸co de cora¸cão à eles por permitir esse acontecimento em minha vida.

Aos meus amigos da época da gradua¸cão que, apesar de estarmos morando em cidades diferentes, a distância já não é mais uma barreira que nos impede de comunicarmos uns com os outros. Vocês sempre conseguem me ajudar, direta ou indiretamente, me animar em momentos dif´ıceis, e fazer com que eu não perca o foco para alcan¸car meus sonhos.

Também gostaria de agradecer aos meus amigos feitos nessa época de mestrado, assim como os do projeto Vision for the Blind e aos volunt´arios que disporam de seu tempo para ajudar a formar a base de v´ıdeos deste projeto. O esfor¸co em grupo sempre leva a resultados magn´ıficos, e estar ao lado de vocês foi uma honra, sou muito grato por toda a paciência que tiveram comigo.

Não menos importante, agrade¸co ao meu orientador Siome Klein Goldenstein. Posso falar sem dúvidas que foi o melhor orientador que eu poderia ter nessa jornada. Você me fez crescer muito como pesquisador e pessoa, e em todas nossas reuniões eu me sentia feliz em ter um orientador que conseguia me deixar menos ansioso do que estava antes.

Por fim, gostaria de agradecer à Unicamp. Apesar de ter tentado por três vezes, sem sucesso, entrar no curso de bacharelado em ciência da computa¸cão, só fui poder conhecer sua grandiosidade ao fazer o mestrado. Essa experiência e troca de culturas a n´ıvel nacional e internacional é algo que eu sempre quis ter e que jamais será esquecida. Agrade¸co também à CAPES e à FAPESP pelo apoio financeiro, sem o qual se tornaria imposs´ıvel me dedicar ao mestrado.

(14)

(15)

”O futuro pertence `aqueles que acreditam na beleza de seus sonhos.”

(16)

(17)

Sum´

ario

Abstract ix Resumo xi Acknowledgements xiii Epigraph xv 1 Introdu¸c˜ao 1

1.1 Reconhecimento de Face no Contexto de Acessibilidade . . . 1

1.2 Motiva¸c˜ao . . . 2

1.3 Organiza¸c˜ao . . . 3

2 Projeto Vision for the Blind 4 2.1 Percep¸c˜ao de Profundidade . . . 6

2.2 Localiza¸c˜ao de ´Audio . . . 7

2.3 Navega¸c˜ao . . . 7

3 Estado da Arte 8 3.1 Estado da Arte em Vis˜ao e Acessibilidade . . . 12

4 Meios e M´etodos 18 4.1 K-Nearest Neighbours . . . 18

4.1.1 Histograma de Gradientes Orientados . . . 23

4.2 Eigenfaces . . . 26

4.3 Local Binary Pattern Histogram . . . 30

5 Metodologia e Resultados 33 5.1 Sistema de Aquisi¸c˜ao de Imagens . . . 33

5.1.1 Hardware . . . 33

(18)

(19)

5.2 Resultados . . . 36 5.2.1 Varia¸cão do Tamanho da Janela Deslizante . . . 38 5.2.2 Varia¸cão de Amostras por Classe . . . 41 5.2.3 Varia¸cão das Amostras por Classe e do Tamanho da Janela Deslizante 44 5.2.4 Varia¸cão do Número de Classes na Base de Treinamento . . . 47 5.2.5 Varia¸cão dos Parâmetros dos Algoritmos . . . 50 5.2.6 Imagens de Profundidade . . . 53

(20)

(21)

Lista de Tabelas

3.1 Aplica¸c˜oes T´ıpicas de Reconhecimento de Face. . . 9 3.2 Sistemas de Reconhecimento de Face Comerciais Dispon´ıveis. . . 9

(22)

(23)

Lista de Figuras

2.1 Microsoft Kinect para Windows. . . .R 5

2.2 Hardware do Projeto Vision for the Blind. . . . 6 2.3 Duas capturas de tela do sistema de reconhecimento de face em tempo real. 6 3.1 Configura¸cão de um sistema genérico de reconhecimento de face. . . 11 3.2 Protótipo do sistema SVETA. Fonte: G. Balakrishnan, et. al. 2007 . . . . 13 3.3 Protótipo do sistema NAVIG. Retirado de www.limsi.fr . . . 15 4.1 Exemplo de classifica¸cão k-NN. A amostra de teste representada pelo c´ırculo

deve ser classificada pertencente à primeira classe dos quadrados ou per-tencente à classe dos triˆangulos. Se k = 3, o c´ırculo ´e atribu´ıdo à segunda classe, já que há dois triângulos e apenas um quadrado dentro do c´ırculo de borda s´olida. Entretanto, se k = 5, a atribui¸c˜ao é para a primeira classe, já que temos três quadrados e dois triângulos dentro do c´ırculo externo. . . 19 4.2 Vota¸cão do k-NN pelos 3 vizinhos mais próximos pela distância Euclidiana. 20 4.3 Exemplo de classifica¸cão k-NN. Para k=1, o c´ırculo em questão irá

per-tencer à classe dos quadrados. Para k=3, aos triângulos, porém, se k=7, deverá pertencer à classe dos quadrados. . . 21 4.4 Exemplos de conversão de imagem no descritor HOG. . . 24 4.5 Visão geral do algoritmo Eigenfaces. . . 27 4.6 O básico do operador LBP. . . 31 5.1 Padrão de pontos do Kinect. Retirado de azttm.wordpress.com . . . 34 5.2 Padrão de pontos do Kinect após repeti¸cão. Retirado de azttm.wordpress.com 35 5.3 Kinect Studio. . . 36 5.4 Exemplos de faces detectadas do dataset. . . 37 5.5 Filmagens feitas com as mudan¸cas de fundo antes da deteçcão das faces. . 37 5.6 Resultados do Experimento de Varia¸cão do Tamanho da Janela Deslizante

para o algoritmo k-NN. . . 39 5.7 Resultados do Experimento de Varia¸c˜ao do Tamanho da Janela Deslizante

(24)

(25)

5.8 Resultados do Experimento de Varia¸c˜ao do Tamanho da Janela Deslizante para o algoritmo LBPH. . . 41 5.9 Resultados do Experimento de Varia¸c˜ao de Amostras por Classe para o

algoritmo k-NN. . . 42 5.10 Resultados do Experimento de Varia¸c˜ao de Amostras por Classe para o

algoritmo Eigenfaces. . . 43 5.11 Resultados do Experimento de Varia¸c˜ao de Amostras por Classe para o

algoritmo LBPH. . . 44 5.12 Resultados do Experimento de Varia¸c˜ao das Amostras por Classe e do

Tamanho da Janela Deslizante para o algoritmo k-NN. . . 45 5.13 Resultados do Experimento de Varia¸c˜ao das Amostras por Classe e do

Tamanho da Janela Deslizante para o algoritmo Eigenfaces . . . 46 5.14 Resultados do Experimento de Varia¸c˜ao das Amostras por Classe e do

Tamanho da Janela Deslizante para o algoritmo LBPH. . . 47 5.15 Resultados do Experimento de Varia¸c˜ao do N´umero de Classes na Base de

Treinamento para o algoritmo k-NN. . . 48 5.16 Resultados do Experimento de Varia¸c˜ao do N´umero de Classes na Base de

Treinamento para o algoritmo Eigenfaces. . . 49 5.17 Resultados do Experimento de Varia¸c˜ao do N´umero de Classes na Base de

Treinamento para o algoritmo LBPH. . . 50 5.18 Resultados do Experimento de Varia¸cão do Parâmetro Números de

Vizi-nhos do k-NN. . . 51 5.19 Resultados do Experimento de Varia¸c˜ao do N´umero de Componentes para

o Algoritmo Eigenfaces. . . 52 5.20 Resultados do Experimento de Varia¸c˜ao do Raio para o algoritmo LBPH. . 53 5.21 Resultados do Experimento com Imagens de Profundidade para o algoritmo

k-NN. . . 54 5.22 Resultados do Experimento com Imagens de Profundidade para o algoritmo

Eigenfaces. . . 55 5.23 Resultados do Experimento com Imagens de Profundidade para o algoritmo

(26)

(27)

Cap´ıtulo 1

Introdu¸

c˜

ao

Técnicas de visão computacional para o reconhecimento de face são amplamente empre-gadas atualmente para diversos fins, seja para sistemas de seguran¸ca, seja para acessar um computador portátil ou mesmo um celular. Entretanto, tais técnicas também podem ser utilizadas para o fim de substitui¸cão sensorial, onde um deficiente visual pode utilizar um aparelho com uma câmera que detecta e reconhece pessoas conhecidas e diz seu nome ou indica sua localiza¸cão.

Nesta disserta¸cão de mestrado, será apresentada uma compara¸cão entre três algoritmos de reconhecimento de face no contexto de acessibilidade para um dos módulos do Projeto

Vision for the Blind. O algoritmo k-Nearest Neighbours, em conjunto com o Histograma

de Gradientes Orientados, foi utilizado por ser uma técnica simples e de baixo custo computacional e, assim, pôde ser analisado seu desempenho em rela¸cão à técnicas mais rebuscadas, como o Eigenfaces e o Local Binary Pattern Histogram. Assim, por meio de seis experimentos realizados, é pretendido mostrar que, nesse contexto, um método de reconhecimento facial mais complexo possui resultados tão bons quanto os de uma técnica mais básica como é o k-NN.

1.1 Reconhecimento de Face no Contexto de

Acessi-bilidade

Humanos, consciente ou inconscientemente, participam de intera¸cões sociais em seu dia-a-dia. Intera¸cões sociais são os atos, a¸cões ou práticas de duas ou mais pessoas mutuamente orientadas uma para a outra. Tais intera¸cões vêm em muitas formas, como piscar, co-mer, ler, escrever, dan¸car e caminhar. A visão desempenha um papel muito importante em estabelecer e manter intera¸cões sociais que são desafiadores algumas vezes para in-div´ıduos que possuem deficiência visual para interagir prontamente com seus homólogos

(28)

1.2. Motiva¸c˜ao 2

que enxergam.

Estudos mostram que uma parcela significativa de qualquer troca de informa¸cão entre dois humanos é efetuada não com palavras, mas com comunica¸cão não-verbal. Além disso, a maioria dessa comunica¸cão não-verbal são gestos faciais, embora outros gestos corporais também constituem uma vasta por¸cão. Como entender gestos corporais é uma tarefa simples para humanos, isso se tornou um campo de testes para o desenvolvimento de máquinas inteligentes. Dispositivos auxiliares desenvolvidos para facilitar intera¸cões sociais são um bom exemplo de máquinas inteligentes que estão cada vez mais perto de se tornarem realidade. Nesta defesa de mestrado é discutida o pequeno, mas indispensável, problema de reconhecimento facial no contexto de construir um aparelho de intera¸cão social para ajudar pessoas que possuem deficiência visual.

Reconhecimento de face tem sido uma área de pesquisa ativa nas últimas décadas devido à disponibilidade de sistemas de computa¸cão rápidos e ao aumento nos requisitos de seguran¸ca em lugares p´ublicos. Este trabalho levou ao teste de algoritmos como k-Nearest

Neighbors, Eigenfaces e Local Binary Pattern Histogram para verificar quais desses se

adequa melhor ao trabalho de reconhecimento facial com uma câmera de infravermelho de baixo custo que captura também informa¸cões de profundidade, como é o Microsoft Kinect Reconhecimento de face para qualquer dispositivo auxiliar requer algoritmos queR

s˜ao mais robustos que est´a sendo alcan¸cado atualmente por algoritmos de treinamento em base de dados de rostos controlados.

Independente das diferen¸cas entre aplica¸cões distintas, um problema encarado por todos os algoritmos de reconhecimento facial resulta de mudan¸cas no ângulo da pose e no ângulo de ilumina¸cão no rosto. Durante intera¸cões sociais em grupo é bem comum ver frequentes mudan¸cas extremas no ângulo da pose. O cérebro humano lida com esses problemas projetando uma proje¸cão 2D da retina de uma face para um ângulo de pose e um espa¸co invariante à ilumina¸cão, tornando poss´ıvel para nós reconhecer pessoas apesar de tais varia¸cões. As pesquisas feitas nessa dire¸cão, como as em [32, 37, 69], geraram resultados promissores, mas ainda não satisfatórios.

1.2 Motiva¸

c˜

ao

A Organiza¸cão Mundial da Saúde estima haver 39 milhões de pessoas cegas no mundo1. Apenas nos Estados Unidos há aproximadamente 1.3 milhões de cegos2_{, dos quais 109.000}

dependem de bengalas e 7.000 utilizam c˜aes guias3_.

Diminui¸cão da visão é um obstáculo em várias atividades diárias, e há um empenho 1_{http://www.who.int/mediacentre/factsheets/fs282/en/}

2_{https://nfb.org/}

(29)

1.3. Organiza¸c˜ao 3

constante pela procura de novos dispositivos auxiliares. Uma dessas atividades diárias executadas por deficientes visuais em que há dificuldades é o reconhecimento de pessoas. Em seu ambiente de trabalho ou mesmo em casa, deficientes visuais precisam saber com quem eles estão falando ou quem entra em seu escritório ou quarto. Um sistema para reco-nhecer conhecidos e sua posi¸cão é desejável. Assim, o usuário evitaria passar por situa¸cões constrangedoras caso errasse o nome de alguém devido ao fato de não ter reconhecido sua voz. Entretanto, por que não usar um sistema de reconhecimento de voz? Algumas vezes, deficientes visuais querem encontrar uma pessoa que não está falando. Por exemplo, um professor cego estar trabalhando em seu escritório, e precisa urgentemente falar com seu colega de trabalho, mas este ainda não chegou. Um sistema para avisá-lo quando a pessoa desejada se apresentou diante de si é interessante.

1.3 Organiza¸

c˜

ao

Esta disserta¸c˜ao de mestrado descreve a pesquisa conduzida no campo reconhecimento de face no contexto de acessibilidade para construir um prot´otipo auxiliar para deficientes visuais ou cegos. O Cap´ıtulo 2 trata sobre o Projeto Vision for the Blind, copatrocinado pela MicrosoftTM _{e a FAPESP, assim como o prot´}_{otipo e seus diversos m´}_odulos. _O

Cap´ıtulo 3 faz uma revisão bibliográfica sobre o assunto, come¸cando sobre reconhecimento de face de uma forma geral e em seguida tratando sobre tanto dispositivos auxiliares para os deficientes visuais quanto dispositivos de reconhecimento de face para deficientes visuais. O Cap´ıtulo 4 descreve as técnicas selecionadas que foram testadas exaustivamente, desde uma t´ecnica simples, como o k-Nearest Neighbours (ou apenas k-NN), assim como t´ecnicas de reconhecimento facial mais complexas, como o Eigenfaces e o Local Binary

Pattern Histogram (LBPH). Em seguida, o Cap´ıtulo 5 trata a respeito da metodologia

empregada para o desenvolvimento desse módulo do sistema auxiliar, desde o pedido para o Conselho de ética até como foi feita a Base de Dados própria para esse projeto, assim como descreve os testes realizados e os resultados obtidos com as três técnicas abordadas ao longo de quatro experimentos. Por fim, o Cap´ıtulo 6 conclui esta disserta¸cão, falando sobre os trabalhos futuros nesta linha de pesquisa.

(30)

Cap´ıtulo 2

Projeto Vision for the Blind

O Vision for the Blind ´e um projeto com parceria da MicrosoftTM _{e a FAPESP, com}

a finalidade de construir e validar um protótipo de um dispositivo auxiliar para cegos e deficientes visuais em vários aspectos. O dispositivo funciona basicamente traduzindo informa¸cão visual em informa¸cão auditiva.

O principal problema em traduzir informa¸cão visual em auditiva é em rela¸cão à largura de banda, cuja grandeza de informa¸cão é muito maior no sistema visual do que no sistema auditivo. Acredita-se que isto é, basicamente, o que fez falhar a maioria das propostas anteriores de substitui¸cão sensorial.

Neste projeto, foi proposto contornar este problema utilizando dois conceitos chaves: • utilizar Vis˜ao Computacional para simplificar a cena visual;

• utilizar áudio 3D para explorar o sentido especial inerente ao sistema auditivo. O sistema utiliza algoritmos de visão computacional para extrair informa¸cão de alto n´ıvel e transferir tal informa¸cão usando abordagens de codifica¸cão diferentes, mas explo-rando as capacidades do áudio 3D para prover localiza¸cão espacial. Mais especificamente, após identificar um objeto no campo visual, o dispositivo o traduz em som, situado na sua precisa localiza¸cão 3D. Por exemplo, após o dispositivo identificar uma pessoa, o usuário irá ouvir um bip como se estivesse vindo da localiza¸cão exata de onde a pessoa está. Assim, usando visão computacional para reduzir a largura de banda requerida, e áudio 3D para eficientemente traduzir a localiza¸cão espacial, pode-se produzir uma simples e intuitiva interface para o usuário. Quanto mais perto a pessoa estiver do usuário, maior o volume do bip.

O componente de hardware do sistema combina uma imagem capturada por uma cˆamera de profundidade (Microsoft Kinect ), um acelerˆR ometro / girosc´opio, um fone

de ouvido e um computador port´atil. Os componentes de software s˜ao modulares e ex-tens´ıveis.

(31)

5

Neste projeto, a principal fonte de informa¸cão é um dispositivo para capturar imagem em 2.5D (cor + profundidade), mostrado na Figura 2.1 abaixo. O Microsoft Kinect é umR

sistema baseado em ilumina¸c˜ao estruturada infravermelho e serve como um controle para o Microsoft XBox 360 que n˜R ao utiliza marcadores nem um controle convencional. Al´em

disso, para compensar o movimento da cabe¸ca entre a aquisi¸cão de dados e a transmissão da informa¸cão de áudio 3D, são usados pequenos giroscópios USB, um acelerômetro e uma bússola.

Figura 2.1: Microsoft Kinect para Windows.R

O objetivo desta disserta¸cão de mestrado foi construir o módulo para encontrar e reconhecer pessoas, e foi utilizado com o áudio 3D para prover uma interface para a comunica¸cão logo que os indiv´ıduos forem encontrados. O sistema possui um componente de hardware e um componente de software modular e extens´ıvel. O Kinect est´R a ligado a

um computador portátil e preso a um capacete, o qual o usuário deverá utilizar para que, dessa forma, os dados capturados estejam de acordo com o seu movimento da cabe¸ca. A câmera teve sua fonte de energia substitu´ıda para que pudesse ser alimentada por uma bateria. A Figura 2.2 abaixo mostra o estado atual do capacete junto do Kinect.

O sistema atual possui o modo de opera¸cão para fornecer a funcionalidade de loca-liza¸cão de pessoas através do áudio 3D. Futuramente, espera-se adicionar outros módulos como tradu¸cão de informa¸cão textual, reconhecimento de dinheiro, identifica¸cão de obje-tos, entre outros. A Figura 2.3 abaixo mostra a interface atual do sistema do módulo de reconhecimento de face.

Os modos de opera¸cão foram desenvolvidos como componentes independentes, permi-tindo fácil extensibilidade tanto para o desenvolvimento como para seu uso. Além disso, cada módulo irá necessitar de uma avalia¸cão cuidadosa no futuro para estimar as melho-res abordagens de visão computacional, assim como a interface ótima para aquela tarefa particular; tais procedimentos de avalia¸cão devem ser feitos com comunidades de cegos e deficientes visuais, tanto nos Estados Unidos quanto no Brasil. Além do módulo de reconhecimento facial, outros módulos do projeto são descritos a seguir.

(32)

2.1. Percep¸c˜ao de Profundidade 6

Figura 2.2: Hardware do Projeto Vision for the Blind.

Figura 2.3: Duas capturas de tela do sistema de reconhecimento de face em tempo real.

2.1 Percep¸

c˜

ao de Profundidade

Percep¸cão de profundidade foi alvo dos pesquisadores de visão computacional por anos [56, 44]. Por muitos anos isto tem sido feito com visão estereoscópica e instala¸cão de várias câmeras, utilizando calibra¸cão, retifica¸cão, medidas de disparidade e geometria epipo-lar [41, 30, 57].

Nos últimos 10 anos emergiram as primeiras técnicas do que é chamado por estéreo ativo ou ilumina¸cão estruturada [71]. Tais técnicas usam um projetor e uma câmera ao invés de duas câmeras. O projetor cria padrões de luz conhecidos no ambiente [68], simplificando a disparidade e o correspondente passo dos algoritmos de reconstru¸cão 3D.

(33)

2.2. Localiza¸c˜ao de ´Audio 7

Após vender um total de oito milhões de unidades em seus primeiros 60 dias, o Ki-nect possui o recorde mundial no Guinness de ser o dispositivo eletrônico que vendeu mais rápido. Como se trata de um dispositivo USB econômico, a comunidade cient´ıfica e de hackers o utilizou também, resultando em muitos projetos interessantes e artigos cient´ıficos, como visto em [31, 77, 70].

2.2 Localiza¸

c˜

ao de ´

Audio

Com a ajuda de áudio espacial (3D), um usuário pode usar sua capacidade inerente de localiza¸cão da fonte de som para identificar a posi¸cão dos objetos virtuais.

O objetivo é transmitir a localiza¸cão de um objeto para o usuário por sintetizar uma fonte de som virtual em suas coordenadas correspondentes no mundo real. Para simular o azimute e a eleva¸c˜ao, pode-se utilizar os filtros head-related transfer function (HRTF) do banco de dados CIPIC [2], e para codificar a distância, pode-se também utilizar a amplitude e a reverbera¸cão, duas informa¸cões primárias e complementares para estimar alcance [61, 91].

Os filtros HRTF variam significativamente de pessoa para pessoa, e quando um HRTF não individualizado é usado, pode levar a severos problemas com os artefatos perceptuais, sendo o mais eminente a confusão entre frente e trás e erros de eleva¸cão [86]. Um sistema real exigiria que o usuário medisse o filtro HRTF antes de seu uso, assim como ajustasse os aparelhos auditivos, ou medisse a optometria para a prescri¸cão de óculos.

2.3 Navega¸

c˜

ao

O modo de navega¸cão é um modo auxiliar para fornecer um mapa de um ambiente virtual para o usuário. Ele pode ser tão simples quanto um detector de paredes ou obstáculos, mas poderia também procurar por portas, identificar degraus, escadas e buracos no chão. Este modo conta com a informa¸cão de profundidade para identificar o plano do chão e encontrar potenciais obstáculos na frente do usuário através de descontinuidades de profundidade. O componente RGB ajuda a encontrar padrões especiais, tais como portas. Logo que é feito o reconhecimento de um indiv´ıduo, é emitido um som caracter´ıstico para indicar onde essa pessoa está, além de ter um botão para dizer os nomes, caso sejam reconhecidas pelo sistema.

(34)

Cap´ıtulo 3

Estado da Arte

Reconhecimento de face tem recebido uma grande aten¸c˜ao da comunidade cient´ıfica nos ´

ultimos anos devido aos seus avan¸cos e aplica¸cões bem sucedidas na análise de imagens. Isso é evidenciado pelas inúmeras conferˆencias de reconhecimento facial como a

Inter-national Conference on Automatic Face and Gesture Recognition (AFGR), desde 1995,

e outras que englobam o assunto, como a International ACM SIGACCESS Conference

on Computers and Accessibility (ASSETS), al´em de sistemas comerciais dispon´ıveis (Ta-bela II). Há ao menos duas razões para essa tendência; a primeira é o amplo alcance de aplica¸cões comerciais e para o cumprimento da lei, e a segunda é a disponibilidade de tecnologias praticáveis após mais de quatro décadas de pesquisa. Além disso, o problema do reconhecimento automático de faces humanas continua a atrair pesquisadores de várias ´

areas como processamento de imagens, reconhecimento de padrões, redes neurais, visão computacional, computa¸cão gráfica e psicologia.

´

E cada vez mais constante a necessidade de se obter sistemas de seguran¸ca de fácil uti-liza¸cão que possa proteger nossos bens e privacidade. Atualmente, uma pessoa precisa de um número de identifica¸cão pessoal (PIN) para retirar dinheiro de um caixa automático, uma senha para um computador, uma dúzia de outras senhas para acessar a internet, en-tre outros. Embora existam métodos muito confiáveis de identifica¸cão pessoal biométrica, como por exemplo, análise de impressão digital e leitura de retina ou ´ıris, esses métodos dependem da coopera¸cão de participantes, ao passo que um sistema de identifica¸cão pes-soal baseado em análise de imagens de face frontais ou de perfil é frequentemente efetivo sem a coopera¸cão ou conhecimento do participante. Algumas das vantagens e desvan-tagens de diferentes biometrias são descritas em Phillips et al [66]. A Tabela 3.1 lista algumas das aplica¸cões de reconhecimento de face.

Aplica¸cões comerciais e de cumprimento da lei que usam técnicas de reconhecimento facial variam entre fotografias estáticas, em um formato controlado, até imagens de v´ıdeo que não se têm controle, representando uma ampla gama de desafios técnicos e requerem

(35)

9

Tabela 3.1: Aplica¸c˜oes T´ıpicas de Reconhecimento de Face. ´

Areas Aplica¸c˜oes Espec´ıficas

Entretenimento

Video Game, Realidade Virtual, Programas de Treinamento

Intera¸cão Humano-Robô, Intera¸cão Humano-Computador

Seguran¸ca da Informa¸c˜ao

Controle Parental de TV ou Computador, Logon de Dispositivos Pessoais

Logon de Computadores Seguran¸ca de Aplicativos, Seguran¸ca de Banco de Dados

Criptografia de Arquivos

Seguran¸ca da Intranet, Acesso de Internet Registros M´edicos

Cumprimento da Lei e Vigilˆancia

Vigilˆancia de V´ıdeo Avan¸cada, Controle de Acesso CFTV

Controle de Portas, An´alise P´os-Evento Furto em Lojas, Rastreamento de Suspeitos,

Investiga¸c˜ao

uma gama igualmente ampla de técnicas desde processamento de imagens, análise, com-preensão e reconhecimento de padrões. Pode-se amplamente classificar sistemas que usam técnicas de reconhecimento de face em dois grupos dependendo de se fazem uso de imagens estáticas ou v´ıdeo. Dentro desses grupos existem diferen¸cas significativas, dependendo da aplica¸cão espec´ıfica. As diferen¸cas estão em termos de qualidade de imagem, varia¸cão do fundo (sendo um desafio para algoritmos de segmenta¸cão), variabilidade das imagens de um indiv´ıduo espec´ıfico que deve ser reconhecido, disponibilidade de um critério de um reconhecimento bem definido, e a natureza, tipo e quantidade de dados de entrada de um usuário. Uma lista de alguns sistemas comerciais é dada na Tabela 3.2.

Um enunciado geral do problema de reconhecimento facial autom´atico pode ser

for-Tabela 3.2: Sistemas de Reconhecimento de Face Comerciais Dispon´ıveis.

Produtos Comerciais Websites

Raro Monitoramento divulguesms.wix.com/raroseguranca

FaceVACS da Plettac www.plettac-electronics.com

FaceKey Corp. www.facekey.com

MyBioID Personal Recognition www.bioid.com

Passfaces da ID-arts www.id-arts.com

(36)

10

mulado como se segue: dado imagens estáticas ou em v´ıdeo de uma cena, identificar ou verificar uma ou mais pessoas na cena utilizando um banco de dados de rostos armaze-nado. Informa¸cão colateral dispon´ıvel como etnia, idade, sexo ou expressão facial podem ser usados para reduzir a busca (reconhecimento aprimorado). A solu¸cão para o problema envolve segmenta¸cão de rostos (deteçcão de face) das cenas, extra¸cão de caracter´ısticas das regiões dos rostos, reconhecimento ou verifica¸cão (Figura 3.1). Em problemas de iden-tifica¸cão, a entrada do sistema é um rosto desconhecido e a sa´ıda do sistema é a identidade determinada de um banco de dados de indiv´ıduos conhecidos, enquanto em problemas de verifica¸cão, o sistema precisa confirmar ou rejeitar a identidade da face de entrada.

Percep¸cão de faces é uma parte importante da capacidade do sistema de percep¸cão humana e é uma tarefa rotineira para as pessoas, enquanto criar um sistema computacio-nal semelhante é uma área ainda em pesquisa. Os primeiros trabalhos em reconhecimento de faces remontam aos anos 50 em psicologia [16] e aos anos 60 na literatura de engenha-ria [12]. Alguns dos primeiros estudos incluem trabalhos em expressões faciais de emo¸cões por Darwin [23] e Ekman [25]; e em biometria facial baseada em perfil, por Galton [34]. Porém, pesquisa em reconhecimento automático de faces realmente come¸cou nos anos 70 [48] e no trabalho inicial de Kanade [47]. Ao longo dos últimos 40 anos, pesquisas extensivas foram conduzidas por psicof´ısicos, neurocientistas e engenheiros sobre vários aspectos de reconhecimento de faces por humanos e máquinas. Psicof´ısicos e neurocientis-tas estavam preocupados com questões como se percep¸cão de face é um processo dedicado (essa questão ainda é discutida na comunidade de psicologia [11, 27, 43, 35] e se é feita de forma hol´ıstica ou por análise de caracter´ısticas locais.

Muitas das hipóteses e teorias apresentadas por pesquisadores nessas disciplinas foram baseadas em conjuntos pequenos de imagens. Ainda assim, muitos resultados tiveram consequências importantes para pesquisadores que desenvolveram algoritmos e sistemas para reconhecimento automático de faces.

Salvo algumas exce¸cões que usam intervalo de dados [38], o problema de reconheci-mento facial tem sido formulado como reconhecer objetos tridimensionais a partir de ima-gens bidimensionais de objetos. As primeiras abordaima-gens tratavam como um problema de reconhecimento de padrão 2D. Como resultado, durante o in´ıcio e o meio da década de 1970, técnicas t´ıpicas de classifica¸cão de padrões, que usavam atributos medidos de ca-racter´ısticas (por exemplo, as distâncias entre pontos importantes) em rostos ou perfis de faces, foram usadas [12, 47, 48]. Durante a década seguinte, trabalhos em reconhecimento de face permaneceram inativos. Desde o come¸co da década de 90, interesse em pesquisa em técnicas de reconhecimento de face cresceu significantemente. Pode-se atribuir isso à várias razões: um aumento no interesse em oportunidades comerciais; disponibilidade de hardware de tempo real; e a importância crescente de aplica¸cões relacionadas à vigilância. Ao longo dos últimos 25 anos, as pesquisas focaram-se em como tornar os sistemas de

(37)

11 Sim u lt ane am ent e Detecção de Face Extração de Características Reconhecimento de Face  Rastreamento de rosto  Estimativa de pose  Compressão  Rastreamento de característica facial  Reconhecimento de emoção  Estimativa de Olhar  Modelos Holísticos  Geometria Característica  Híbrida Imagem / Vídeo de Entrada

Identificação / Verificação

Figura 3.1: Configura¸cão de um sistema genérico de reconhecimento de face. reconhecimento de face completamente automáticas por meio de resolver problemas como localiza¸cão de um rosto em uma dada imagem ou v´ıdeo e extra¸cão de caracter´ısticas como olhos, boca, etc. Enquanto isso, avan¸cos significativos tem sido feitos no desenvolvimento de classificadores para reconhecimento de face bem sucedido. Entre abordagens hol´ısticas baseada em aparência, eigenfaces [49, 82] e Fisherfaces [9, 28, 94] provaram ser efetivos em experimentos com bancos de dados grandes. Abordagens de correspondência de grafos baseada em caracter´ısticas [87] também têm sido bastante sucedidas. Comparados à abordagens hol´ısticas, métodos baseado em caracter´ısticas são menos sens´ıveis à varia¸cões em ilumina¸cão, ponto de vista e imprecisão em localiza¸cão de face.

Durante os últimos anos, muita pesquisa foi concentrada em reconhecimento de face baseada em v´ıdeo. O problema usando imagens estáticas possui várias vantagens e des-vantagens inerentes. Para aplica¸cões tais como carteiras de motorista, devido à

(38)

natu-3.1. Estado da Arte em Vis˜ao e Acessibilidade 12

reza controlada do processo de aquisi¸cão de imagens, o problema de segmenta¸cão é fácil. Entretanto, se apenas uma imagem estática de uma cena no aeroporto é dispon´ıvel, a localiza¸cão automática e a segmenta¸cão de um rosto poderia ser um desafio sério a qual-quer algoritmo de segmenta¸cão. Por outro lado, se uma sequência em v´ıdeo é dispon´ıvel, segmenta¸cão de uma pessoa em movimento pode ser realizada mais facilmente usando o próprio movimento como dica. Porém, o tamanho pequeno e a baixa qualidade da ima-gem dos rostos capturados de um v´ıdeo pode significantemente aumentar a dificuldade no reconhecimento.

Muitos sistemas comerciais para reconhecimento facial de imagens estáticas estão dis-pon´ıveis. Recentemente, esfor¸cos significativos foram focados em modelagem / rastrea-mento baseado em v´ıdeos, reconhecirastrea-mento e integra¸cão de sistema. Novos banco de dados foram criados e técnicas de avalia¸cão de reconhecimento usando tais banco de dados foram realizados.

3.1 Estado da Arte em Vis˜

ao e Acessibilidade

Por muito tempo tem havido discussões e publica¸cões na comunidade cient´ıfica sobre substitui¸cão de sensores [6, 7] e a ideia de usar aparatos tecnológicos para ajudar cegos e deficientes visuais tem sido parte da imagina¸cão dos escritores e cineastas de fiçcão cient´ıfica [53].

Utilizar câmeras para capturar imagens e então mapear seu conteúdo para som não é uma ideia nova [7], mas normalmente todas as abordagens anteriores tentavam de alguma forma mapear os pixels de baixa intensidade para diferentes representa¸cões de sons. Re-ceber entrada do ambiente através de uma câmera possui vantagens em rela¸cão ao uso de emissões de ondas sonar, por exemplo, já que o curto alcance do sonar torna imposs´ıvel perceber objetos a longa distância, como prédios, que é essencial para orienta¸cão de mo-bilidade. Além disso, uma entrada visual casa com alguns dos maiores fornecedores de informa¸cão nos arredores das pessoas, como placas e indicadores. Contrário ao sonar, a entrada visual também provê acesso a outras fontes de informa¸cão importante como revistas e televisão. Tecnicamente, é dif´ıcil obter entrada em alta resolu¸cão não amb´ıgua utilizando um sonar de varredura, enquanto por outro lado, qualquer câmera de baixo custo comercialmente dispon´ıvel consegue fazer. Entretanto, esta afirma¸cão está correta apenas se a câmera de entrada for alimentada com informa¸cão de profundidade através das mudan¸cas em perspectiva. Informa¸cão de profundidade pode ser derivada pelo de-senvolvimento das posi¸cões relativas do espectador e seu ambiente, combinado com o conhecimento do tamanho real dos objetos reconhecidos.

O vOICe [60] foi a primeira proposta para um dispositivo desse tipo: uma cˆamera adquiria uma imagem bitmap de 64x64 pixels em 16 tons de cinza, e o sistema codificava

(39)

3.1. Estado da Arte em Vis˜ao e Acessibilidade 13

uma coluna de pixels por vez. O usuário ouvia a superposi¸cão de todos os sons de uma coluna. A implementa¸cão de hardware empregava uma arquitetura em pipeline para o cálculo em tempo real das amostras de som. O design do sistema tinha como inten¸cão ser portátil e de baixo custo de energia. O protótipo foi constru´ıdo completamente de componentes comercialmente dispon´ıveis. A viabilidade técnica da abordagem foi pro-vada pela constru¸cão do sistema completamente funcional que, por meio do mapeamento reverso, preserva a informa¸cão da imagem até uma resolu¸cão correspondente para estimar resolu¸cões alcan¸cáveis. A resolu¸cão dada pelo sistema em si é suficientemente alta para lidar com muitas situa¸cões práticas que requerem normalmente visão humana. Existem várias outras varia¸cões deste conceito na literatura, como limiarizar a imagem e então mapear a matriz de branco e preto em notas musicais [21, 20] e o sistema SVETA [8] (Stereo Vision based Eletronic Travel Aid) que usava a divergência do estéreo e oitava musical para os acordes maiores. Além disso, o SVETA foi desenvolvido com o propósito de aumentar a mobilidade e navega¸cão de um deficiente visual. A divergência do estéreo é próprio para para computa¸cão de distância em tempo real. Diferente do vOICe, o som produzido usando oitavas musicais é mais agradável para ouvir de forma cont´ınua. A cor-respondência do estéreo é executada em imagens transformadas para calcular imagens de disparidades densas. Filtros de baixa textura e checagem de consistência esquerda/direita são executados para remover os ru´ıdos e destacar os obstáculos. Um procedimento de so-nifica¸cão é usado para mapear a imagem de disparidade para som estéreo musical, que possui informa¸cão sobre as caracter´ısticas da cena em frente do usuário. Por fim, o som é transmitido para o deficiente visual por meio de fone de ouvido estéreo.

Figura 3.2: Protótipo do sistema SVETA. Fonte: G. Balakrishnan, et. al. 2007 Mapear todo pixel para som geralmente produz um resultado confuso, com uma repre-senta¸cão dif´ıcil de interpretar, que mesmo sendo agradável de ouvir pode levar o usuário à fadiga mesmo em curto prazo. O sistema ColOr [13, 14] foi uma das primeiras tentativas

(40)

de reduzir a quantidade de informa¸cão visual utilizando Visão Computacional e Algorit-mos de Processamento de Imagens antes de gerar a informa¸cão sonora, e também métodos de segmenta¸cão e saliência estimava a maioria das regiões relevantes. O ColOr fornece ao usu´ario um feedback sonoro das cores do ambiente, fazendo com que a interpreta¸c˜ao das imagens poss´ıveis fossem limitadas. Com um protótipo de câmera foi verificada a hipótese de que é poss´ıvel manipular e casar precisamente objetos coloridos. O projeto See ColOr verificou dois métodos de processamento de imagens: segmenta¸cão para simplifica¸cão da imagem e orientar o foco de aten¸cão por meio de computa¸cão de saliência visual, com a técnica de segmenta¸cão dando melhores resultados, mas devido às restri¸cões de tempo real, foi implementado um método de quantifica¸cão de imagem baseado no sistema de cores HSL. Assim, foi desenvolvido dois protótipos que transformam pixels coloridos em HSL para sons de instrumentos clássicos espacializados que duram por 300 ms. A matiz é sonificada pelo timbre de um instrumento musical, com a satura¸cão sendo uma das qua-tro poss´ıveis notas, e a luminosidade é representada pelo baixo quando a luminosidade é bastante escura e por uma voz cantante quando é relativamente brilhante. O primeiro protótipo foi desenvolvido para imagens estáticas na tela do computador, enquanto o segundo foi constru´ıdo com uma câmera estereoscópica que estima profundidade pela tri-angula¸cão. Na codifica¸cão de áudio, a distância para os objetos foi quantificada em quatro n´ıveis de dura¸cão. Dessa forma, a informa¸cão de cor se torna útil para a interpreta¸cão das cenas, diminuindo a ambiguidade. Os experimentos demonstraram que o tempo de explora¸cão das imagens é longo devido às sub-janelas sonorizadas serem pequenas e não deveriam expandir muito devido aos limites da capacidade de audi¸cão humana.

O PVSA [17] utiliza um modelo da retina humana com um modelo inverso da cóclea, cujo protótipo é baseado em um computador pessoal que é conectado a um headphone e uma mini-câmera de v´ıdeo presa na cabe¸ca. A cena visual é capturada e o processa-mento de imagem faz a deteçcão de arestas e resolu¸cão em grade. Cada pixel da imagem processada é atribu´ıdo a um tom senoidal e a soma ponderada dessas ondas senoidais constrói um sinal sonoro complexo que ´e traduzido pelos fones. O The Vibe [5, 40] , que ´e um projeto Open Source hospedado no sourceforge, determina as frequˆencias e as disparidades interauricular usando o centro da gravidade das coordenadas dos pixels do campo receptivo nas imagens. O som utilizado é composto de sons senoidais produzidos pelo pelas fontes virtuais correspondes a cada campo receptivo na imagem. Cada campo é um conjuntos de pixels localizados e a altura do som é determinada pela luminosidade m´edia dos pixels do campo receptivo correspondente. O software The Vibe traduz, em tempo real, imagens capturadas pela webcam em sa´ıda sonora transmitida para o usuário através de fones de ouvido. Comparado a outros dispositivos de substitui¸cão sensorial do tipo visão para audi¸c˜ao, o The Vibe ´e altamente versátil por usar um conjunto de unidades configuráveis funcionando em paralelo.

(41)

O NAVIG: Navigation Assisted by Artificial Vision and GNSS combina uma cˆamera estéreo com GPS para oferecer tipos diferentes de navega¸cão [54, 36] e busca de ro-tas [15, 46]. O sistema consiste de componentes como um módulo para determinar a posi¸cão e orienta¸cão do usuário no espa¸co em que ele se encontra, um sistema de in-forma¸cão geogr´afica incluindo um banco de dados dos lugares onde foi testado e o

soft-ware para planejamento de rotas e para obter informa¸c˜oes do banco de dados, interface de usuário, entre outros, para obter informa¸cão não detalhada sobre o ambiente. Assim, o deficiente visual ainda depende de bengalas e cães-guias para tal. Os experimentos per-mitiram concluir que os dados de desempenho, classifica¸cões subjetivas e as preferências de ordena¸cão convergiram em indicar que o melhor modo foi o que empregava som espa-cializado de um display ac´ustico virtual. Também os dados são consistentes em indicar indesejabilidade de prover informa¸cão de orienta¸cão sem uma bússola. Sistemas de na-vega¸cão que não usam corre¸cão diferencial de um GPS nem uma bússola para informa¸cões de dire¸cão não são aptos a fornecer informa¸cão detalhada de orienta¸cão.

Figura 3.3: Prot´otipo do sistema NAVIG. Retirado de www.limsi.fr

Krishna et al [52] desenvolveu um óculos de sol com uma cˆamera estenopeica pinhole que usa um algoritmo de análise de componente principal (PCA) [50] para reconheci-mento de face. O sistema do óculos de sol é validado com um conjunto de dados alta-mente controlado, sem disfarces e apenas com varia¸cão em pose e ilumina¸cão, que usa um mecanismo precisamente calibrado para adquirir essas imagens para fornecer um re-conhecimento robusto. O hardware utilizado para a constru¸c˜ao do dispositivo consiste de três componentes: Uma câmera anal´ogica CCD (Charge-Coupled Device ou Dispositivo de Carga Acoplada) para a aquisi¸cão do v´ıdeo. Os 92I do campo de visão provê uma boa cobertura do espa¸co à frente do usuário; como a câmera produz uma sa´ıda analógica, o segundo componente é um digitalizador para fazer a conversão para um formato digital

(42)

que pode ser usado em um computador para análise. Foi usado um digitalizador que converte os sinais de entrada para AVI comprimido e transmite o fluxo AVI por um cabo USB. O driver do dispositivo é baseado no modelo padrão de driver do windows (WDM) e aparece para o programador com um dispositivo genérico de captura de v´ıdeo no sistema operacional; por fim, um laptop de pequeno porte foi usado para executar o algoritmo de reconhecimento facial. Os experimentos foram feitos usando os algoritmos PCA e LDA, alcan¸cando taxas de reconhecimento em torno de 98,5% com o PCA e 98% com o LDA, com tempos em torno de 12,656 ms e 40,583 ms respectivamente.

Em Kramer et al [51], um smartphone fornece feedback aud´ıvel sempre que um rosto que está no banco de dados entra ou sai da cena, e o processamento do algoritmo de deteçcão é realizado em um servidor que usa a tecnologia de faces VeriLook. A ferramente utiliza tecnologia de smartphone junto a uma rede sem fio para prover feedback aud´ıvel das pessoas em frente do deficiente visual. Os testes indicaram que o reconhecimento facial pode tolerar um ângulo de até 40 graus entre a dire¸cão que uma pessoa está olhando e o eixo da câmera, com 96% de taxa de reconhecimento sem falsos positivos, podendo identificar pessoas em um ambiente de trabalho.

Astler et al [4] usa uma câmera em cima de uma bengala branca comum e executa o reconhecimento de face usando o Luxand Face SDK, e identifica seis tipos de express˜oes faciais usando o Seeing Machines FaceAPI. Para que a tarefa de reconhecimento pudesse ser feita em tempo real, o dispositivo foi desenvolvido utilizando componentes de hardware com uma câmera IEEE-1394b de alta velocidade para capturar imagens em uma taxa de frames alta, minimizando a carga da CPU. O software comercial FaceAPI foi usado para rastrear precisamente caracter´ısticas faciais em tempo real. Analizando o movimento de caracter´ısticas faciais, puderam descobrir tendências comuns nas mesmas expressões entre indiv´ıduos diferentes. Assim, foi programado sob demanda algoritmos com limiares para classificar expressões baseadas nessas tendências detectadas. Este método teve sucesso em detectar expressões como felicidade, surpresa, desgosto e raiva em uma taxa a quase 30 frames por segundo.

Em 2012, Tanveer et al [79] desenvolveu um sistema chamado FEPS, que utiliza um algoritmo de Constrained Local Model para reconhecimento de express˜oes faciais forne-cendo feedback aud´ıvel. O dispositivo de substitui¸c˜ao sensorial é baseado em um celular, utilizado ao redor do pesco¸co que pode informar ao usuário as expressões faciais do inter-locutor por meio de feedback sonoro. Para alcan¸car performance em tempo real, o celular transmite os frames de v´ıdeo capturados para um servidor na rede, que executa a análise das expressões faciais e envia o resultado de volta para o celular, com todo o processo demorando em torno de 500 milisegundos quando a conexão com a rede está estável e boa condi¸cão de ilumina¸cão. As razões citadas para ser diferente de sistemas que tentam inferir emo¸cão dos movimentos faciais e produzir uma resposta baseada nas inferências

(43)

são que as diferen¸cas culturais no mapeamento de expressão para emo¸cão pode levar a um sistema ser baseado por particularidades culturais, além de que várias combina¸cões de face e movimentos de cabe¸ca podem transmitir uma vasta quantidade de conteúdo emocional. Selecionar apenas um subconjunto destas emo¸c˜oes para o feedback pode su-butilizar o potencial de um dispositivo de substitui¸cão sensorial. O FEPS é designado para sonificar os movimentos faciais diretamente. Os movimentos faciais associados às pálpebras, sombrancelhas, lábios e boca s˜ao selecionados para feedback sonoro. Os sinais são filtrados e diferenciados para detectar os picos e quedas repentinos, denotados como eventos “cima” e “baixo”, com os usuários sendo notificados por um som.

Fusco et al [33] propôs um método que combina casamento de rosto e módulos de verifica¸cão de identidade em feedback, explorando a eficiência temporal do casamento e a performance dos classificadores SVM utilizados. O método inclui uma abordagem de casamento de faces de v´ıdeo para imagens que explora a informa¸cão temporal para refinar a consulta, elevando a performance de reconhecimento. Então, um passo de verifica¸cão de identidade explora a propriedade de generaliza¸cão dos classificadores SVM para validar ou rejeitar a hipótese feita sobre a presen¸ca de pessoas conhecidas no v´ıdeo. Os dados vêm em um fluxo de frames de v´ıdeo adquiridos por uma câmera que pode estar se movimentando. Os rostos capturados devem estar quase frontal, já que a pessoa pode estar se movendo ou falando. As identidades conhecidas são associadas a uma galeria de tamanho variável. Um feedback r´apido e ponderado é dado ao usuário, no sentido de não produzir sa´ıdas contraditórias múltiplas. O método proposto é validado no benchmark de v´ıdeos MOBO e em um dataset pr´oprio adquirido, com o propósito de mostrar a efetividade do método mesmo com conjuntos de treinamento relativamente pequenos. A coerência dada pela evolu¸cão temporal dos dados de v´ıdeo é explorada para refinar a taxa de reconhecimento e assim aumentar a robustez do feedback do sistema.

(44)

Cap´ıtulo 4

Meios e M´

etodos

Neste cap´ıtulo é apresentado as técnicas de reconhecimento de face utilizadas para o módulo do projeto Vision for the Blind. Ao todo, foram testadas três técnicas conhecidas, que s˜ao o k-Nearest Neighbors (k-NN), Eigenfaces e o Local Binary Pattern Histogram (LBPH).

4.1 K-Nearest Neighbours

O algoritmo k-Nearest Neighbours (ou apenas k-NN) é um método não paramétrico utili-zado para classifica¸cão e regressão [3]. Em ambos casos a entrada consiste dos k exemplos de treinamento mais próximos no espa¸co caracter´ıstico. A sa´ıda depende se o k-NN é usado para classifica¸cão ou regressão.

• No k-NN para classifica¸cão, a sa´ıda é a associa¸cão das classes. Um objeto é classi-ficado por uma maioria de votos de seus vizinhos, com o objeto sendo atribu´ıdo à classe mais comum entre seus k vizinhos mais próximos (onde k é um inteiro po-sitivo, tipicamente pequeno). Se k = 1, então o objeto é simplesmente atribu´ıdo à classe daquele único vizinho mais próximo.

• No k-NN para regress˜ao, a sa´ıda ´e o valor de propriedade para o objeto. Este valor ´

e a m´edia dos valores de seus k vizinhos mais pr´oximos

O k-NN é um tipo de aprendizado baseado em exemplo, ou aprendizagem pregui¸cosa, onde a fun¸cão é apenas aproximada localmente e toda computa¸cão é adiada até a clas-sifica¸cão. O algoritmo k-NN está entre os algoritmos mais simples de aprendizado de máquina.

Tanto para classifica¸cão como para regressão, pode ser útil ponderar as contribui¸cões dos vizinhos, assim os vizinhos mais próximos contribuem mais para a média do que os

(45)

4.1. K-Nearest Neighbours 19

vizinhos mais distantes. Por exemplo, um sistema de pondera¸c˜ao comum consiste em dar a cada vizinho um peso de 1/d, onde d ´e a distˆancia para este vizinho.

Os vizinhos são tomados de um conjunto de objetos para o qual a classe (no caso de classifica¸cão usando k-NN) ou o valor de propriedade do objeto (no caso da regressão) é conhecido. Isto pode ser imaginado como o conjunto de treinamento para o algoritmo, apesar de que não há exatamente esse passo de treinamento. Uma das deficiências do algoritmo k-NN é que ele é sens´ıvel à estrutura local dos dados.

Os exemplos de treinamento são vetores em um espa¸co caracter´ıstico multidimensional, cada qual com um rótulo de classe. A fase de treinamento do algoritmo consiste apenas de guardar os vetores caracter´ısticos e os rótulos de classe das amostras de treinamento.

Na fase de classifica¸c˜ao, k ´e uma constante definida pelo usuário, e um vetor não rotulado (ponto de teste) é classificado atribuindo o rótulo ao qual é mais frequente entre as k amostras de treinamento mais pr´oximas ao ponto de teste.

Figura 4.1: Exemplo de classifica¸cão k-NN. A amostra de teste representada pelo c´ırculo deve ser classificada pertencente à primeira classe dos quadrados ou pertencente à classe dos triˆangulos. Se k = 3, o c´ırculo ´e atribu´ıdo à segunda classe, já que há dois triângulos e apenas um quadrado dentro do c´ırculo de borda s´olida. Entretanto, se k = 5, a atribui¸c˜ao é para a primeira classe, já que temos três quadrados e dois triângulos dentro do c´ırculo externo.

(46)

Uma métrica de distância usada normalmente para variáveis cont´ınuas é a distância euclidiana. Para variáveis discretas, tais como para classifica¸cão de texto, outra métrica pode ser usada, como a distância de Hamming. Frequentemente, a precisão da classifica¸cão do k-NN pode ser melhorada significantemente se a métrica de distância é aprendida com algoritmos especializados como o Large Margin Nearest Neighbour (LMNN) ou a an´alise de componentes da vizinhan¸ca. A Figura 4.1 na página anterior demonstra o funcionamento do algoritmo k-NN.

Uma desvantagem da classifica¸cão básica por maioria de votos ocorre quando a dis-tribui¸cão de classe é enviesada. Isto é, exemplos de uma classe mais frequente tende a dominar a predi¸cão do novo exemplo, porque eles tendem a ser comum entre os k vizinhos mais próximos devido ao seu grande número [18]. Uma forma de superar este problema é ponderar a classifica¸cão, levando em conta a distância do ponto de teste a cada um de seus k vizinhos mais próximos. A classe (ou o valor, em problemas de regressão) de cada um dos k pontos mais próximos é multiplicado por um peso proporcional ao inverso da distância daquele ponto para o ponto de teste. Outra forma de superar este mesmo problema é fazendo a abstra¸cão na representa¸cão dos dados. Por exemplo, em um mapa auto-organiz´avel (Self-Organizing Map, ou SOM), cada n´o é um centro de um cluster de pontos similares, independente de sua densidade nos dados originais de treinamento. O k-NN pode então ser aplicado ao SOM.

(47)

A melhor escolha de k depende dos dados; geralmente, grandes valores de k reduzem o efeito do ru´ıdo na classifica¸cão [29], mas torna os limites entre as classes menos distintos. Um bom k pode ser selecionado por várias técnicas heur´ısticas. O caso especial onde a classe é prevista ser a classe da amostra de treinamento mais pr´oxima (quando k = 1) ´e chamado de algoritmo de vizinho mais próximo.

A precisão do algoritmo k-NN pode ser severamente reduzida pela presen¸ca de carac-ter´ısticas com ru´ıdos ou irrelevantes, ou ainda se a pondera¸cão das caracter´ısticas não são consistentes com sua importância. Uma abordagem é o uso de algoritmos evolutivos para otimizar a pondera¸cão das caracter´ısticas [63]. Outra abordagem consiste em pon-derar caracter´ısticas pela informa¸cão mútua dos dados de treinamento com as classes de treinamento.

Em problemas de classifica¸cão binário, é útil escolher um k ´ımpar, já que isso evita empates. Uma maneira popular de escolher o k ótimo empiricamente nesta configura¸cão é pelo método bootstrap [39].

?

Figura 4.3: Exemplo de classifica¸cão k-NN. Para k=1, o c´ırculo em questão irá pertencer `

a classe dos quadrados. Para k=3, aos triângulos, porém, se k=7, deverá pertencer à classe dos quadrados.

O k-NN ´e um caso especial de um estimador de densidade kernel com largura de banda vari´avel com um kernel uniforme [80, 62].

A versão mais simples dos algoritmos é implementada computando as distâncias da amostra de teste para todos os exemplos guardados, mas isso é computacionalmente in-tenso para grandes conjuntos de treinamento. Usando um algoritmo de busca de vizinhos mais próximo apropriado torna o k-NN computacionalmente tratável mesmo para con-juntos de dados grandes. Muitos algoritmos de busca de vizinho mais próximo foram

(48)

propostos ao longo dos anos; estes geralmente procuram reduzir o número de avalia¸cões de distância executados.

O k-NN possui resultados fortes e consistentes. Mesmo que a quantidade de dados se aproxime do infinito, é garantido que o algoritmo produza uma taxa de erro não pior que duas vezes a taxa de erro de Bayes (a menor taxa de erro alcan¸cável dada a distribui¸cão dos dados) [19]. O k-NN garante se aproximar da taxa de erro de Bayes para algum valor de k (onde k aumenta como uma fun¸cão do número dos pontos de dados). Vários aperfei¸coamentos ao k-NN são poss´ıveis usando grafos de proximidade [81].

Quando os dados de entrada para um algoritmo são grandes demais para serem pro-cessados e suspeita-se serem redundantes então os dados de entrada são transformados em um conjunto de caracter´ısticas com representa¸cão reduzida (vetor caracter´ıstico). Trans-formar os dados de entrada no conjunto de caracter´ısticas é chamado de extra¸cão de caracter´ısticas. Se as caracter´ısticas extra´ıdas são cuidadosamente escolhidas espera-se que o vetor caracter´ıstico extrairá a informa¸cão relevante dos dados de entrada para exe-cutar a tarefa desejada utilizando esta representa¸cão reduzida em vez da entrada toda. Extra¸cão de caracter´ısticas é executado em dados não processados antes de aplicar o algoritmo k-NN nos dados transformados no espa¸co caracter´ıstico.

Um exemplo de um pipeline t´ıpico em visão computacional para reconhecimento de fa-ces usando k-NN incluindo extra¸cão de caracter´ısticas e com passos de pré-processamento para redu¸cão de dimensionalidade são:

1. Detec¸c˜ao de face usando o classificador Haar

2. An´alise de rastreabilidade por mudan¸ca de m´edia (mean-shift)

3. Proje¸c˜ao PCA ou Fisher LDA no espa¸co caracter´ıstico, seguido pela classifica¸c˜ao k-NN

Para dados com alta dimensionalidade (número de dimensões maior que 10), a redu¸cão da dimensão é normalmente executada antes de aplicar o algoritmo k-NN para fugir dos efeitos dos problemas de dimensionalidade [10]. Este problema no contexto do k-NN basicamente significa que a distância euclidiana não ajuda em altas dimensões porque todos os vetores são quase equidistantes ao vetor de busca. Por exemplo, imagine múltiplos pontos em uma disposi¸cão como a de um c´ırculo do qual temos um ponto no centro; a distância deste ponto para todos os outros pontos no espaIo de busca é praticamente o mesmo.

Extra¸cão de caracter´ısticas e redu¸cão de dimensionalidade podem ser combinados em um passo usando técnicas de análise de componente principal (PCA), análise discrimi-nante linear (LDA) ou ainda análise de correla¸cão canônica (CCA) como passos de pr´ e-processamento, seguidas por clusteriza¸cão k-NN nos vetores caracter´ısticos no espa¸co de

(49)

dimensão reduzido. Em aprendizado de máquina este processo é também chamado de

Low-Dimensional Embedding [75].

Uma matriz de confusão é frequentemente usada como ferramenta para validar a pre-cisão da classifica¸cão por k-NN. Outros métodos estat´ısticos mais robustos como teste de

likelihood-ratio tamb´em podem ser aplicados.

Neste projeto, para o reconhecimento de faces usando o k-NN, foi usado junto o des-critor de caracter´ısticas Histograma de Gradientes Orientados, ou HOG.

4.1.1 Histograma de Gradientes Orientados

Histograma de Gradientes Orientados são descritores de caracter´ısticas usados em visão computacional e processamento de imagens para o propósito de deteçcão de objetos. Esta técnica conta as ocorrências da orienta¸cão do gradiente em por¸cões localizadas de uma imagem. O método é similar ao de histogramas de orienta¸cão de arestas, descritores SIFT (scale-invariant feature transform) e shape contexts, mas difere-se no que ´e computado em uma rede densa de células uniformemente espa¸cadas e utiliza normaliza¸cão de contraste local sobreposto para maior precisão

A ideia principal por trás dos descritores HOG é que a aparência local do objeto e sua forma dentro de uma imagem podem ser descritos pela distribui¸cão dos gradientes de intensidade ou das dire¸cões das arestas. A implementa¸cão desses descritores pode ser alcan¸cada dividindo a imagem em pequenas regiões conectadas, chamadas de células, e para cada célula compila-se um histograma das dire¸cões do gradiente ou as orienta¸cões das arestas para os pixels dentro da célula. A combina¸cão desses histogramas repre-senta o descritor. Para maior precisão, os histogramas locais podem ser normalizados pelo contraste calculando uma medida da intensidade por meio de uma região maior da imagem, chamada de bloco, e então usando este valor para normalizar todas as células dentro do bloco. Esta normaliza¸cão resulta em uma melhor invariância para mudan¸cas em ilumina¸cão ou sombreamento

O descritor HOG mantém algumas vantagens sobre outros métodos de descritores. Como o descritor HOG opera em células localizadas, o método mantém a invariância para transforma¸cões geométricas e fotométricas, exceto pela orienta¸cão do objeto. Tais mudan¸cas apenas aparecem em grandes regiões espaciais. Além disso, como Dalal e Triggs [22] descobriram, amostragem espacial grosseira, amostragem de orienta¸cão fina e normaliza¸cão fotométrica local forte permitem o movimento do corpo individual de pedes-tres ser ignorado contanto que mantenha uma posi¸cão aproximadamente perpendicular. O descritor HOG é, portanto, particularmente próprio para deteçcão de humanos nas imagens.

(50)

e-processa-4.1. K-Nearest Neighbours 24

mento de imagens é garantir os valores normalizados da cor e do gama. Entretanto, como Dalan e Triggs apontam, este passo pode ser omitido na computa¸cão do descritor HOG, já que a normaliza¸cão do descritor subsequente alcan¸ca o mesmo resultado. Assim, o pré-processamento da imagem proporciona um impacto pequeno na performance. Em vez disso, o primeiro passo do cálculo é a computa¸cão dos valores dos gradientes. O método mais comum é simplesmente aplicar a máscara para derivada, de ponto discreto e 1D centrada, em uma ou nas duas dire¸cões, horizontal e vertical. Especificamente, este método requer filtrar os dados de intensidade ou de cor da imagem com os seguintes kernels:

I

Dalal e Triggs testaram outras máscaras mais complexas, como as máscaras Sobel 3x3 ou máscaras diagonais, mas essas máscaras geralmente tinham performance pior nos experimentos de deteçcão de humanos.

Figura 4.4: Exemplos de convers˜ao de imagem no descritor HOG.

O segundo passo do cálculo involve criar os histogramas das células. Cada pixel dentro da célula faz um voto ponderado para um canal do histograma de orienta¸cão baseado nos valores achados na computa¸cão do gradiente. As células podem tanto serem de forma retangular ou radial, e os canais dos histograma são distribu´ıdos de 0 a 180 graus ou de 0 a 360 graus, dependendo se o gradiente possui sinal ou não. Dalal e Triggs descobriram que gradientes sem sinais usados em conjunto com 9 canais de histogramas têm melhor desempenho nos experimentos feitos para deteçcão de humanos. Para a pondera¸cão dos votos, a contribui¸cão dos pixels pode ser tanto a magnitude do gradiente em si, ou uma fun¸cão de magnitude; nos testes a magnitude do gradiente geralmente produz melhores resultados. Outras op¸cões para a pondera¸cão do voto inclui a raiz quadrada ou o quadrado da magnitude do gradiente [22].

A fim de contabilizar as mudan¸cas em ilumina¸cão e contraste, a for¸ca do gradiente deve ser normalizada localmente, o que requer agrupar as células em blocos grandes e espacialmente conectados. O descritor HOG é então o vetor dos componentes dos histo-gramas normalizados das células de todas as regiões dos blocos. Esses blocos normalmente