• Nenhum resultado encontrado

Como descrito no capítulo anterior, as técnicas de detecção de pontos de referência facial são classificadas em técnicas generativas e discriminativas. Os métodos generativos foram as primeiras abordagens a surgir se tratando de detecção de pontos de referência em objetos, sobretudo faces. Os Modelos de Aparência Ativa (Active Appearance Models - AAMs), são um dos métodos generativos mais conhecidos e citados na área (COOTES; EDWARDS; TAYLOR, 2001) (MATTHEWS; BAKER, 2004). Eles são modelos estatísticos li-

neares da forma e aparência de um objeto deformável 2D e são capazes de gerar uma variedade de instâncias usando um baixo número de parâmetros do modelo para localizar objetos em imagens. Vários trabalhos estendem a abordagem AAM com o objetivo de incrementá-lo pontualmente e/ou desenvolver novas técnicas usando-o como base.

Cootes et al. mostram que usando um pequena quantidade de AAMs baseados em vá- rias perspectivas de visualização do rosto, é possível mapear uma ampla gama de ângulos oblíquos de rotação da cabeça no eixo vertical, permitindo localizar pontos da face em ân- gulos de até 90º graus (COOTES et al., 2002). Hu et al. usou a abordagem de correspondên-

localizados para modelar a textura facial com maior precisão, apresentando resultados mais robustos em relação a oclusão e influência de iluminação (HU; FERIS; TURK, 2003).

Já Martins et al. propôs um novo modelo baseado em AAMs combinando um mo- delo de distribuição de pontos (Point Distribution Model - PDM) com métricas 3D e um modelo de aparência 2D para solucionar o problema de correspondências entre mo- delos faciais deformáveis 3D para o plano 2D (MARTINS; CASEIRO; BATISTA, 2013). Do

mesmo modo, Fanelli et al. contribuem usando florestas aleatórias (random forests) para regressão entre instâncias de treinamento deformadas e atualizações necessárias dos pa- râmetros, combinadas a AAMs, com experimentos em imagens contendo informações de profundidade, alcançando resultados robustos em tempo real (FANELLI; DANTONE; GOOL,

2013). Assim como Sauer et al., que compara seu trabalho com florestas aleatórias, AAMs e o algoritmo de boosting (FRIEDMAN et al., 2000) para o propósito de análise de faces

(SAUER; COOTES; TAYLOR, 2011).

Os métodos generativos também abrangem os métodos de modelos deformáveis base- ados em partes, o qual introduz o uso de modelos segmentados de instâncias de partes da face. Os Modelos de Forma Ativa (Active Shape Models - ASMs) são a base de estudo neste contexto. Eles exploram uma fórmula linear de PDMs numa busca interativa capaz de localizar estruturas modeladas rapidamente, especialmente em imagens com alto nível de ruído (COOTES et al., 1995). Em (YAN et al., 2003) é proposto um método que combina

os modelos de aparência local do ASM, para localização de pontos-chave, e a restrição de textura global, provida pelo método AAM, para maior acurácia na estimação de pa- râmetros da forma facial, chamado Modelo de Forma Ativa com Restrição de Textura (Texture-Constrained Active Shape Model - TC-ASM), mostrando ser um método eficaz na localização da forma facial e menos sensível à iluminação. Análogo ao TC-ASM, os Mo- delos de Partes Deformáveis de Gauss-Newton (Gauss-Newton Deformable Part Models - GN-DPMs) constroem modelos generativos para todas as partes que compõem a face de forma simultânea, minimizando a função custo de forma e aparência usando a otimiza- ção de Gauss-Newton, reduzindo significativamente o custo computacional e alcançando bons resultados no alinhamento de faces (TZIMIROPOULOS; PANTIC, 2014). Comparados a

AAMs, modelos deformáveis baseados em partes são mais vantajosos quanto à iluminação global e à oclusão em cenários inconstantes.

Métodos discriminativos abrangem os estudos mais avançados em alinhamento facial. Enquanto que métodos generativos sofrem com o problema de generalização, técnicas dis- criminativas buscam constantemente solucionar tal problema (LIU, 2008). Alguns métodos

apoiam-se em regressão linear em cascata (do inglês, cascaded linear regression). O Mé- todo de Descida Supervisionado (Supervised Descent Method - SDM) é um algoritmo bem eficiente de localização de pontos referenciais da face (XIONG; TORRE, 2013). Todavia, sua

principal vantagem é o baixo custo computacional e tempo de execução. Ele busca por pesos de características não-lineares e aprende uma sequência de direções na “descida”,

minimizando a diferença entre o objeto/forma estimada e o ground truth, solucionando assim o problema de mínimos quadrados não-lineares (Non-linear Least Squares - NLS) (Figura 12). No mesmo contexto, Ren et al. propõem uma abordagem de regressão de Características Locais Binárias (Local Binary Features - LBFs) (REN et al., 2014), gerando

alinhamentos faciais extremamente rápidos em comparação a outras técnicas.

Figura 12 – Resultados gerados pelo SDM para a detecção de 64 pontos de referência da face em imagens da base de dados Youtube Celebrity.

Fonte: (XIONG; TORRE, 2013).

Outros métodos utilizam Modelos Locais Restritos (Constrained Local Model - CLMs) como estrutura principal. Um CLM é um método não-rígido para modelar classes de objetos utilizando um conjunto distinto de correspondência de características. Tal modelo usa formas comuns e modelos de textura para gerar conjuntos de detectores de regiões padrão (template). O modelo é usado para gerar correspondências com uma face arbitrária de entrada usando um gerador de padrão iterativo e uma técnica de busca de formas restritas (CRISTINACCE; COOTES, 2006), sendo capaz de detectar pontos de interesse da

face. Por demonstrar ser uma técnica simples, eficiente e robusta, e uma alternativa para AAMs, CLMs são usadas por diversas abordagens do estado da arte. Todavia, sendo um método não-rígido, o CLM não provê uma boa acurácia na estimativa de pose por si só.

Contrariamente, outros métodos combinam técnicas rígidas e não-rígidas buscando alcançar resultados precisos nesta tarefa. Baltrusaitis et al. desenvolveu uma extensão do CLM o qual integra informações de profundidade e intensidade para a detecção de pontos de referência da face em poses oblíquas, (BALTRUŠAITIS; ROBINSON; MORENCY,

2012) com seis graus de liberdade (6-DoF). Entretanto a técnica ainda apresenta falhas em relação a oclusão, iluminação do ambiente e dados não vistos. Como alternativa, os mesmo autores desenvolveram outra extensão do CLM: o Campo Neural de Restrição Local (Constrained Local Neural Field - CLNF) (BALTRUSAITIS; ROBINSON; MORENCY,

2013). Essa técnica utiliza patch experts (ou detectores locais) probabilísticos, capazes de aprender relações não-lineares e espaciais entre os pixels de entrada e a probabilidade do ponto-chave a ser alinhado, otimizado pelo método de ajuste Non-Uniform Regularized Landmark Mean-Shift (NU-RLMS), responsável por levar em conta o grau de confiança de cada patch expert, aumentando a acurácia no alinhamento facial para imagens com pouca iluminação e com faces parcialmente ocluídas.

Atualmente, se tratando de técnicas de detecção de pontos fiduciais da face categori- zados em CLMs, a técnica a qual apresenta os melhores resultados é o CE-CLM (ZADEH et al., 2017). O Modelo Local Restrito de Especialistas Convolucionais (pode-se variar a

palavra “Especialistas” para “Detectores”), ou Convolutional Experts Constrained Local Model, é a combinação de um detector local chamado Rede de Detectores Convolucionais (Convolutional Experts Network - CEN) e CLM. O CEN traz consigo as vantagens de uma arquitetura neural, sendo apto a aprender misturas de detectores locais para capturar di- ferentes modelos de aparência, sem a necessidade de rotulação explícita de atributos. A técnica também é capaz de extrair pontos de referência faciais 3D sem precisar de treina- mento com dados 3D. O CE-CLM apresenta alta robustez para alinhar faces em cenários extremos, como em faces com expressões faciais e poses oblíquas, má iluminação, oclusão por acessórios, pelos faciais e maquiagem, podendo detectar até 84 pontos de referência facial (Figura 13).

Figura 13 – Resultados gerados pelo CE-CLM para a detecção de 84 pontos de referência da face em imagens da base de dados Menpo3D.

Fonte: (ZADEH et al., 2017).

Ainda nos métodos discriminativos, os algoritmos de redes neurais para alinhamento facial também apresentam resultados bem satisfatórios. Zhang et al. propoem o método Coarse-to-Fine Auto-encoder Networks (CFAN), responsável por cascatear pequenas Re- des de Auto-Codificadores Empilhados (Stacked Auto-encoder Networks – SANs), o qual a primeira SAN prediz os pontos-chave da face preliminarmente, focando na rapidez, to- mando como entrada uma versão de baixa resolução do rosto holisticamente detectado, e as SANs subsequentes refinam progressivamente o ponto detectado usando como entrada as características extraídas em torno dos pontos de referência atuais em alta resolução (ZHANG et al., 2014). O CFAN consegue bons resultados quanto a oclusão por uso de

em tempo real, usando apenas CPU. O SeetaFace de Liu et al. (LIU et al., 2017) utiliza o

CFAN em sua etapa de alinhamento de faces.

Zhang et al. (ZHANG et al., 2016) propõem uma abordagem de alinhamento de faces

baseadas em CNN: o MTCNN. Este atua correlacionando ambas as tarefas de detecção da região e localização dos pontos faciais na região previamente detectada, usando apren- dizagem multitarefa. Tanto o MTCNN de Zhang et al. quanto o SeetaFace de Liu et al. detectam apenas 5 pontos de referência da face, sendo eles: uma ponto para cada olho, a ponta do nariz e os cantos esquerdo e direito da boca. Treinando uma CNN usando apenas o fator de intensidade de imagens RGB, Chang et al. mostra que é possível retratar com precisão e robustez a predição de pontos-chave da face e a pose 3D com seis graus de liberdade (CHANG et al., 2017). Já Zhu et al. apresenta o Alinhamento Facial 3D Denso

(3D Dense Face Alignment - 3DDFA), em que um modelo morfável 3D (3D Morphable Model - 3DMM) é alinhado à imagem facial 2D por meio de uma CNN em cascata (ZHU et al., 2019). O 3DDFA é capaz de predizer a pose da cabeça e localizar pontos da face

mesmo em cenário com poses oblíquas, os quais tornam alguns pontos invisíveis em certos perfis do rosto.

Sendo estritamente relacionada ao tema de alinhamento facial, a Subseção posterior apenas reforça algumas técnicas descritas nesta atual Subseção, as quais podem ser utiliza- das para a tarefa de rastreamento facial. Adicionalmente, também são detalhadas algumas outras abordagens.