Algoritmo de Gaze Tracking - OST-HMD Binocular:

OST-HMD Binocular:

5.1.4 Algoritmo de Gaze Tracking

O algoritmo de Gaze Tracking é composto por quatro etapas principais. A primeira etapa trata-se da localiza¸cão das coordenadas do centro de cada um dos olhos na imagem capturada pela webcam. O segundo passo é a localiza¸cão da coordenada do ponto de âncora, ou seja, a coordenada do canto interno de cada um dos olhos. O terceiro passo corresponde à calibra¸cão do sistema para cada usuário, utilizando um modelo de classifica¸cão para correlacionar o vetor de caracter´ıstica, também chamado de vetor centro-âncora, com uma região pré-determinada de um padrão de calibra¸cão gerado na

tela do smartphone. A quarta etapa trata-se da deteçcão da dire¸cão do olhar do usuário utilizando o modelo de classifica¸cão obtido na etapa anterior.

Em primeiro lugar, a fim de detectar a localiza¸cão do centro do olho, foi implemen- tado o algoritmo de localiza¸cão no centro do olho proposto por Valenti et al. [51, 58]. Este algoritmo obteve resultados de alta precisão e foi desenvolvido utilizando técnicas de processamento digital de imagens e reconhecimento de padrões de baixo custo computacional. Entretanto, como ele não foi proposto originalmente para utiliza¸cão em HMDs, a implementa¸cão realizada não atingiu uma precisão satisfatória e precisa de alguns ajustes para ser utilizada como uma forma de intera¸cão com os objetos virtuais apresentados pelo protótipo em realidade aumentada.

O algoritmo de localiza¸cão no centro do olho proposto por Valenti et al. [51, 58] baseia-se em padrões isocêntricos invariantes formados por isofotas 2, que podem ser obtidos a partir do gradiente da imagem de um olho em escala de cinza, e tem três variantes. As três variantes do algoritmo consistem em: 1) um método básico, baseado em atributos, em que o centro do olho é estimado como sendo o centro das curvas de n´ıveis; 2) um método intermediário, baseado em atributos, que utiliza o método básico em conjunto com o algoritmo Mean-Shift (MS) [96] para melhorar a estabilidade e precisão do método; 3) uma versão aprimorada, através de um método h´ıbrido, que utiliza o método básico em conjunto com um classificador k-Nearest Neighbor (k-NN) e o algoritmo Scale Invariant Feature Transform (SIFT) [97] para melhorar ainda mais a precisão e a robustez do sistema.

Os resultados preliminares obtidos a partir da experimenta¸cão e análise do método proposto por Valenti et al. [51, 58], na condi¸cão experimental original, indicam que as variantes mais básicas (ou seja, o método básico e o método básico em conjunto com o algoritmo Mean-Shift ) conseguem atingir bons resultados mantendo um desempenho que respeita as restri¸cões de execu¸cão em tempo real. Enquanto isso, a versão aprimorada do método, apesar de atingir resultados um pouco melhores, não respeita as restri¸cões de tempo real e de baixo custo computacional que são exigidas pelo projeto em questão. Sendo assim, a implementa¸cão realizada consiste na variante do método intermediário, que utiliza o método básico junto ao algoritmo Mean-Shift (MS) com o intuito de alcan¸car resultados satisfatórios para o problema de localiza¸cão do centro do olho, mesmo com restri¸cões de baixo custo computacional e de execu¸cão em tempo real.

Isofotas s˜ao curvas que conectam pontos de mesma intensidade luminosa em uma imagem em escala de cinza.

Esses resultados preliminares também mostram que o mesmo algoritmo pode ser utilizado para detectar os cantos dos olhos. Na verdade, Valenti et al. [99] usaram o algoritmo para executar a tarefa de deteçcão de canto do olho, mas os resultados en- contrados não foram estáveis. Para superar esse problema, em primeiro lugar, podemos inferir a posi¸cão aproximada do canto interno do olho, usando a região do olho detectada pelo classificador em cascata baseado em atributos Haar que está dispon´ıvel na biblioteca OpenCV. Em seguida, basta aplicar o método básico junto com algoritmo Mean-Shift (MS) apenas na região de interesse que contém o canto do olho. Este procedimento retorna uma localiza¸cão de canto de olho que não é estável o suficiente para a aplica¸cão de Gaze Tracking. Portanto, para melhorar a estabilidade, calcula-se a média móvel das últimas dez coordenadas de canto do olho obtidas pelo procedimento anterior. Esta metodologia resulta numa localiza¸cão de canto do olho com maior estabilidade. En- tretanto, conforme é mostrado na Se¸cão 5.2, essa solu¸cão apresentou uma dependência muito grande da qualidade da deteçcão da região do olho, prejudicando o desempenho geral do algoritmo de Gaze Tracking quando testado no protótipo de HMD. Essa limita¸cão deverá ser abordada em trabalhos futuros.

A Figura 5.6 ilustra a implementa¸cão do algoritmo. A seguir, os seis estágios do algoritmo são explicados.

Figura 5.6: Os est´agios do algoritmo de Gaze Tracking Fonte: Imagem adaptada a partir de [111]

Estágio 1 - Captura do Frame e Conversão para Escala de Cinza: Neste estágio, o frame é capturado e convertido de uma imagem com três canais R, G e B para uma imagem com um único canal em escala de cinza.

Estágio 2 - Sele¸cão da Região de Interesse: Neste estágio, o classificador em cascata baseado em atributos Haar, que está dispon´ıvel na biblioteca OpenCV, é utilizado para

obter regi˜ao de interesse do olho.

Estágio 3 - Cálculo das Isofotas: Neste estágio, o algoritmo executa o cálculo de curvatura das isofotas, para cada olho, usando o método proposto por Valenti et al. [58].

Estágio 4 - Vota¸cão do Centro e Cálculo do Centermap: Neste estágio, o algoritmo executa o mecanismo de Vota¸cão do Centro proposto por Valenti et al. [58], a fim de calcular o centermap3. O centermap funciona como fun¸cão bidimensional de distribui¸cão de probabilidade, onde as coordenadas mais votadas têm uma chance maior de ser a localiza¸cão verdadeira do centro do olho. O quarto estágio da Figura 5.6 mostra a imagem do centermap. As regiões mais claras do centermap têm uma probabilidade maior de ser a verdadeira localiza¸cão do centro do olho.

Estágio 5 - Algoritmo Mean-Shift: Neste estágio, o algoritmo MS é aplicado sobre a imagem do centermap do olho. A janela deslizante do algoritmo MS percorre a imagem do centermap procurando pela área com maior densidade de votos. A janela deslizante do algoritmo MS está representada por um retângulo azul no quinto estágio do algoritmo, na Figura 5.6.

Estágio 6 - Localiza¸cões do Centro e do Canto do Olho e o Vetor Centro- Âncora: Neste estágio, a localiza¸cão do centro do olho é calculada como sendo a coordenada mais votada do centermap que esteja próxima do centro da janela deslizante do algoritmo MS. A localiza¸cão do canto interno do olho é calculada através da metodologia previamente explicada. O sexto estágio da Figura 5.6 mostra as localiza¸cões estimadas do centro e do canto interno do olho. Além disso, esse estágio da Figura 5.6, também mostra o vetor centro-âncora (de cor verde) obtido pelo algoritmo.

Após todos esses estágios, é necessário calibrar o sistema de acordo com o usuário. O objetivo da calibra¸cão é conseguir um modelo de classifica¸cão que irá relacionar o vetor de centro-âncora espec´ıfico de um usuário com as regiões pré-determinadas da tela do HMD. O modelo de classifica¸cão pode ser obtido através de diversas maneiras, tais como: Redes Neurais Artificiais e SVM (Support Vector Machine). No processo de

O centermap é o acumulador de votos do mecanismo de vota¸cão do centro. Ele possui as mesmas dimensões da imagem. Cada elemento do centermap acumula a quantidade de votos recebida pelo pixel correspondente a ele na imagem original.

calibra¸cão, o usuário deve olhar para as regiões conhecidas da tela do HMD enquanto a câmera grava o comportamento do olho do usuário. Através desse processo é poss´ıvel relacionar o vetor centro-âncora, retornado pelo algoritmo, com as regiões conhecidas da tela, resultando em um modelo de classifica¸cão.

5.2 Experimentos e Avalia¸c˜ao do Prot´otipo

Esta se¸cão apresenta os experimentos que foram realizados para avaliar o desempenho do algoritmo de Gaze Tracking em diferentes plataformas de hardware, a acurácia do algoritmo e a experiência de usuário durante a utiliza¸cão do protótipo. Sendo assim, os objetivos dos experimentos são: identificar qual é a melhor placa de desenvolvimento para execu¸cão do algoritmo; avaliar a qualidade de sua implementa¸cão; e validar o protótipo desenvolvido.

Para alcan¸car esses objetivos, é essencial a conformidade do hardware com alguns requisitos de tempo-real e de dispositivos vest´ıveis. Por exemplo, a acessibilidade da interface do usuário, uma estrutura compacta e de baixo peso são alguns dos requisitos necessários para um HMD de realidade aumentada. Enquanto isso, para identificar a dire¸cão de olhar do usuário em tempo real, o algoritmo deve fornecer as informa¸cões de rastreamento do olhar pelo menos duas vezes por segundo, em caso de baixa velocidade de movimento do olho, ou pelo menos quatro vezes por segundo, em caso de alta velocidade de movimento do olho [113]. Portanto, o hardware e o software necessitam de ter uma taxa de frame por segundo (FPS) m´ınima entre 2 e 4 FPS para satisfazer esse requisito. Todos estes requisitos foram considerados na sele¸cão do hardware.

A seguir, os experimentos são descritos e os resultados obtidos são apresentados. Ao final, é realizada uma breve discussão sobre as limita¸cões e os problemas de experiência do usuário que foram identificados.

5.2.1 Desempenho

Quatro placas de desenvolvimento foram escolhidas para avaliar o desempenho do hardware e software. Todas elas respeitam os requisitos de dispositivos vest´ıveis e podem funcionar usando uma bateria como fonte de alimenta¸c˜ao [102]. Foram selecionadas os seguintes sistemas embarcados: Intel Edison (CPU Intel Atom Dual-Threaded @ 500

MHz, Microcontrolador Intel Quark de 32-bit @ 100 MHz, 1 GB de RAM LPDDR3, 1MB de cache L1), Wandboard Quad (CPU Quad Core i.MX6 Freescale @ 1 GHz, 2 GB DDR3 RAM), Raspberry Pi 3 Model B (CPU Quad Core Broadcom BCM2837 de 64 bits @ 1.2GHz, 1GB de SDRAM), Cubieboard (CPU Single Core ARM Cortex A8 @ 1 GHz, 1 GB DDR3).

O Linux foi utilizado como sistema operacional para cada placa de desenvolvimento. Na Intel Edison, foi utilizado o framework Yocto para construir o sistema operacional. Além disso, todas as placas utilizam a versão mais básica do sistema operacional, com intuito de melhorar o desempenho do hardware. Após a instala¸cão dos sistemas opera- cionais, a biblioteca OpenCV foi compilada com as dependências de Python ativadas para possibilitar a execu¸cão do algoritmo.

A métrica definida para avaliar o sistema tratou-se da taxa de frame por segundo (FPS). Foi utilizado um v´ıdeo para avaliar o desempenho do hardware. Embora o sistema use uma câmera como sensor de imagem, essa abordagem foi escolhida para evitar a interferência das limita¸cões da câmera no desempenho do algoritmo, pois esse equipa- mento captura as imagens a uma taxa de, no máximo, 30 FPS.

Figura 5.7: Desempenho, em FPS, das plataformas de hardware avaliadas com intervalo de confian¸ca de 99%

A Figura 5.7 mostra os resultados obtidos após a avalia¸cão. As barras de erro, pre- sentes no gráfico, representam os intervalos de confian¸ca de 99%. Todas as placas de desenvolvimento apresentaram uma taxa de FPS satisfatória para aplica¸cão em questão. Essa avalia¸cão de desempenho mostrou que todas as plataformas de hardware escolhidas

tˆem poder computacional suficiente para receber novas aplica¸c˜oes.

No documento Desenvolvimento de dispositivos vestíveis de realidade aumentada de baixocusto para indústria 4.0. (páginas 91-97)