OpenFace - CAPTURA DE MOVIMENTO FACIAL EM TEMPO REAL

4.2 CAPTURA DE MOVIMENTO FACIAL EM TEMPO REAL

4.2.2 OpenFace

O OpenFace 2.0 (BALTRUSAITIS et al., 2018), uma extensão do trabalho anterior apre-

sentado em (BALTRUŠAITIS; ROBINSON; MORENCY, 2016), foi a ferramenta selecionada

para executar duas tarefas: detecção de faces e rastreamento de pontos de interesse faciais. Como justificativa, a biblioteca demonstra níveis de precisão e acurácia de estado da arte para rastrear faces usando uma simples câmera RGB, alcança um desempenho em tempo real, contém diversos algoritmos para análise facial e está disponível para uso de

forma gratuita.

A metodologia da ferramenta é ilustrada na Figura 46. As faces de uma imagem são detectadas usando o algoritmo MTCNN. Tal rede foi treinada nas bases de dados WIDER FACE (LIU et al., 2015) e CelebA (YANG et al., 2016). A arquitetura da técnica é composta

por três pequenas CNNs, as quais consistem em: em uma primeira etapa, gerar janelas candidatas a região facial de forma rápida, usando uma CNN superficial; em seguida, refinar as janelas para rejeitar um grande número de falsos positivos (regiões sem faces) através de uma CNN mais complexa; e por fim, aplicar uma CNN mais robusta para gerar como saída a região da face final, além de 5 pontos de referência da face (Figura 47). De forma complementar, a ferramenta fornece outros detectores de face: o detector de Haar (LIENHART; MAYDT, 2002) e o HOG-SVM. O MTCNN é mais robusto comparado aos

demais, sendo capaz de capturar faces com perfis oblíquos. O detector de Haar é mais rápido e consegue detectar faces menores, porém menos preciso, enquanto que o detector HOG-SVM é capaz de detectar faces com no mínimo 70 pixels na região.

Figura 46 – Ilustração do pipeline do OpenFace 2.0.

Fonte: (BALTRUSAITIS et al., 2018).

Para alinhamento e rastreamento facial, o OpenFace provê três algoritmos: CLM (CRIS- TINACCE; COOTES, 2006) (BALTRUŠAITIS; ROBINSON; MORENCY, 2012), CLNF (BALTRU- SAITIS; ROBINSON; MORENCY, 2013) e CE-CLM (ZADEH et al., 2017). O CLM é um algo-

ritmo de alinhamento de objetos deformáveis embasado na abordagem AAM (COOTES; EDWARDS; TAYLOR, 2001), capaz de modelar pequenos conjuntos de padrões de aspectos

locais na face. Tais padrões podem então ser casados com a imagem usando um algoritmo de busca de formas restritas (Figura 48). O CLM é simples e computacionalmente eficiente (roda a 25 FPS em CPU). A primeira versão do OpenFace (BALTRUŠAITIS; ROBINSON; MORENCY, 2016) introduziu o CLM-Z, uma técnica originária do CLM para rastreamento

rígido e não-rígido. Igualmente, o OpenFace 2.0 adotou o algoritmo.

O CLM-Z (BALTRUŠAITIS; ROBINSON; MORENCY, 2012) funciona pela integração do

CLM com informações de profundidade e intensidade da imagem, com o intuito de rastrear os pontos faciais em cenários com variações de pose da face (Figura 49). A partir do CLM-Z foi introduzido um importante conceito: os detectores locais, mais conhecidos como patch experts. Eles são capazes de avaliar a probabilidade do ponto de referência ser alinhado à uma localização de um pixel particular. A resposta do 𝑖-ésimo detector local 𝜋x𝑖 na

localização x𝑖 da imagem, baseado na região de suporte ao redor é definida como

𝜋x𝑖 = 𝐶𝑖(x𝑖; I), (4.17)

onde 𝐶𝑖 é a saída de um regressor para a 𝑖-ésima característica. O desalinhamento pode

então ser modelado usando o regressor para decidir se o ponto atual está alinhado ou não. Os detectores locais variam em sua forma de implementação para cada tipo de CLM.

No CLM-Z, os patch experts atuam calculando os mapas de resposta. O método usa o PDM para calcular a máxima probabilidade a posteriori dos parâmetros do modelo facial e linearizar a forma do modelo. Para realizar o ajuste é usado o algoritmo Regu- larised Landmark Mean-Shift (RLMS) (SARAGIH; LUCEY; COHN, 2011). Para estimar a

pose com maior acurácia, é proposto um método de integração entre os paradigmas de rastreamento rígido e não-rígido do CLM-Z prévio e do Modelo de Aparência Baseado em Visão Adaptativa Generalizada (Generalised Adaptive View-based Appearance Model - GAVAM) (MORENCY; WHITEHILL; MOVELLAN, 2008).

Figura 47 – Arquitetura do MTCNN.

Fonte: (ZHANG et al., 2016).

Como descrito antes, no capítulo de revisão bibliográfica, o CLNF (BALTRUSAITIS; ROBINSON; MORENCY, 2013) é uma técnica mais eficiente em relação ao CLM, por im-

plementar detectores locais probabilísticos que aprendem relações espaciais e não-lineares entre os pixels e a probabilidade de alinhamento, otimizado pelo NU-RLMS. O método estende o patch expert comum para campos neurais locais (Local Neural Fields - LNFs). Um LNF introduz uma camada de rede neural que combina a não-linearidade dos CNFs e a flexibilidade e saídas contínuas dos campos aleatórios condicionais contínuos (Conti- nuous Conditional Random Fields - CCRFs). Ele funciona capturando as relações entre pixels, como regiões de vizinhança e distância, aprendendo a similaridade e restrições de dispersão de longa distância, sendo mais preciso do que abordagens que utilizam regres- sores de vetores de suporte (Support-Vector Regressors - SVRs) por exemplo (Figura 50) (BALTRUSAITIS; ROBINSON; MORENCY, 2013). O CLNF consegue rastrear os pontos fa-

ciais de forma precisa em cenários de oclusão parcial da face e imagens com variação de iluminação e presença de ruídos.

Figura 48 – Algoritmo de busca do CLM.

Fonte: Adaptado de (CRISTINACCE; COOTES, 2006).

Figura 49 – Integração de mapas de resposta de detectores locais a partir de imagens de textura e profundidade.

Fonte: Adaptado de (BALTRUŠAITIS; ROBINSON; MORENCY, 2012).

Superando as técnicas anteriores, o OpenFace introduziu o CE-CLM (ZADEH et al.,

2017). A abordagem consiste em dois fluxos, em que o primeiro é responsável por com- putar o mapa de resposta usando a rede convolucional de detectores locais CEN (Figura 51), e o segundo atualiza os parâmetros da forma usando um PDM. Durante a geração do mapa de resposta, os alinhamentos individuais dos pontos de interesse da face são estimados independentemente das posições de outros pontos. Na etapa de atualização dos parâmetros, as posições de todos os pontos são calculadas em conjunto, penalizando pontos desalinhados e formas irregulares usando o PDM. A Equação 4.18 calcula o con- junto de parâmetros otimizados p*_{, responsável por controlar as posições dos pontos de}

referência, onde p significa a estimativa atual. D𝑖 é a probabilidade de alinhamento do

ponto de interesse 𝑖 na localização 𝑥𝑖 para a imagem da face de entrada I computada pela

CEN. Já 𝑅𝑒𝑔 é a regularização aplicada pelo PDM (ZADEH et al., 2017).

p* = 𝑎𝑟𝑔𝑚𝑖𝑛 p [ 𝑛 ∑︁ 𝑖=1 −D𝑖(x𝑖; I) + 𝑅𝑒𝑔(p)] (4.18)

A CEN recebe uma região de interesse da imagem (ROI) na iteração 𝑡 da (Equação 4.18) como entrada e retorna como saída um mapa de resposta probabilístico pela avali- ação de alinhamentos individuais de pontos de interesse. Em seguida, o ajuste do ponto 𝑖 na posição x𝑖 é computado pela Equação 4.19, onde 𝑙𝑖 é um indicador para o ponto de

referência de número 𝑖 sendo alinhado e Î é a região de interesse da imagem localizada em x𝑖 para a imagem I. Os mapas de resposta 𝜋𝑖 são usados para minimizar a Equação 4.18

(ZADEH et al., 2017):

𝜋_𝑥𝑖_𝑖 = 𝑝(𝑙𝑖 = 1, Î = 𝐼𝑥𝑖). (4.19)

Figura 50 – Estrutura do CLNF: (a) Exemplos de mapas de resposta de detectores locais de quatro características (a cor vermelha representa a localização de maior probabilidade). (b) Ilustração global do modelo de patch experts do CLNF.

Fonte: Adaptado de (BALTRUSAITIS; ROBINSON; MORENCY, 2013).

A regularização 𝑅𝑒𝑔 da Equação 4.18 é usada na penalização das formas irregulares de- tectadas e controle das localizações dos pontos-chave. Logo, tais localizações x𝑖 = [𝑥𝑖, 𝑦𝑖]𝑇

são parametrizadas usando p = [𝑠, t, w, q] na Equação do PDM de três dimensões, onde x𝑖 = [𝑥𝑖, 𝑦𝑖, 𝑧𝑖]𝑇 é a média do 𝑖-ésimo ponto de referência, Φ𝑖 uma matriz de componentes

principais 3×𝑚 e q um vetor de dimensão 𝑚 para parâmetros não-rígidos da forma. Já 𝑠, Re t representam os parâmetros rígidos (pose), onde 𝑠 é a escala da face, R é a matriz de rotação 3 × 3 (R2𝐷 são as duas primeiras linhas de R) e t o vetor de translação (ZADEH

et al., 2017):

Figura 51 – Visão global de uma CEN.

Fonte: (ZADEH et al., 2017).

O método CE-CLM consegue detectar até 84 pontos de referência, diferente do CLM e CLNF, onde o limite de pontos é de 68. Como pode ser visto na Figura 52, a técnica apresenta maior precisão no alinhamento de pontos fiduciais com a face em relação ao CLNF. Na Figura 53 é exibida uma amostra comparativa das três técnicas providas pelo OpenFace. É notável o quão alto é o nível de precisão do CE-CLM em relação aos outros, alcançando ótimos resultados em cenários com grandes mudanças de pose, oclusão parcial e expressões variadas.

Figura 52 – Comparação entre os mapas de resposta do detector local CEN e o LNF.

Figura 53 – Comparação entre as técnicas de rastreamento facial do OpenFace 2.0. O alinhamento computado pelo CE-CLM se mostra notavelmente mais preciso em cenários de poses oblíquas em relação ao CLNF e CLM.

Fonte: Elaborado pelo autor, 2019.

No documento Captura de movimento facial em tempo real para realidade aumentada (páginas 74-80)