Resultados e Discussão - HaFT: uma ferramenta para interação natural

em si, podem ser aplicados diretamente ao cenário deste trabalho. Estas cinco problemáticas estão listadas abaixo:

1. Respostas às ações do usuário imprevisíveis; detecção falha das intenções; respostas inconsistentes em relação às ações de entrada.

2. Difícil controle das ações no jogo; controles muito sensíveis; controles não-naturais. 3. A resposta para as ações do usuário não ocorrem em um período de tempo satisfatório; tempo de resposta lento interfere na interação; comandos anteriores e atuais se mostram conflitantes durante o processo.

4. Sequência de comandos exageradamente complexa; curva de aprendizagem é muito íngreme; sequências são complexas, longas e estranhas, tornando o jogo difícil de ser jogado.

5. Representações visuais são difíceis de serem interpretadas; má visualização da informação; muita confusão na tela; muitos elementos na tela ao mesmo tempo; difícil de visualizar e distinguir conteúdo interativo e não interativo.

Assim, depois das sessões de jogo, cada usuário respondeu um questionário com foco na experiência, baseado nos cinco tópicos listados acima. Em adição, algumas perguntas relacionadas especificamente às formas de rastreamento foram inseridas, por exemplo, se o uso de luvas laranja em algum momento incomodou. Para quantificar as respostas, um esquema de intensidade similar ao proposto em (KALAWSKY 1999) foi utilizado. Para cada pergunta, o usuário foi levado a responder cada um das dezessete perguntas do questionário em uma escala de 5 (se concordava 100%) a 1 (discordava completamente), também conhecida como Likert Scale (LIKERT 1932).

5.8 Resultados e Discussão

As respostas dos usuários em relação à interface do Guitars on Air pode ser observada na Figura 5.8.

Por sua vez, a Figura 5.9 ilustra as respostas do usuários para perguntas relacionadas especificamente à cada uma das ferramentas de rastreamento.

A Figura 5.8 e a Figura 5.9 ilustram as respostas dos usuários às perguntas dos questio- nários variando na escala de 1 a 5 como mencionado anteriormente. Os gráficos apresentados se comportam como histogramas. Assim, as colunas da Figura 5.8 representam quantos usuários responderam o quesito com a referente pontuação (expressa abaixo da coluna no eixo horizontal). A Figura 5.9 ilustra gráficos similares tendo as linhas (ou barras horizontais) como representação de quantos usuários respondeu o quesito com a pontuação indicada.

5.8. RESULTADOS E DISCUSSÃO 90

5.8. RESULTADOS E DISCUSSÃO 91

Figura 5.9: Respostas dos usuários às perguntas relacionadas a cada uma das ferramentas de rastreamento.

5.8. RESULTADOS E DISCUSSÃO 92

Figura 5.10: Soma das respostas do questionário realizado.

A Figura 5.10 ilustra os resultados do questionário mostrando a pontuação dos mesmos quesitos presentes nas Figuras 5.8 e 5.9, no entanto de forma mais concisa, tendo colunas como a representação da soma das respostas de todos os usuários. Dado que 12 usuários participaram dos testes e o máximo de pontos que cada quesito pode ter é 5, a pontuação total máxima para cada quesito é 60 e a mínima é 12.

Primeiramente, analisando a Figura 5.10, é possível observar que em relação à imple- mentação do jogo em si (parte superior da figura, contendo respostas genéricas em relação ao jogo e independentes do método de rastreamento), considerando a interface e os comandos requisitados durante as sessões, a pontuação geral foi altamente satisfatória. Todos os quatro aspectos relacionados à interface e os dois relacionados à mecânica do jogo receberam altas pontuações, sendo bem avaliados pelos usuários. Estes seis aspectos estão listados abaixo:

1. Facilidade de interpretação. 2. Clareza da interface.

3. Número adequado de elementos na tela.

4. Fácil distinção sobre elementos interativos e não-interativos. 5. Fácil execução das sequências de comandos

6. Curva de aprendizagem suave

De fato, analisando estes mesmos aspectos nos gráficos mais detalhados da Figura 5.8 é possível observar que todos os usuários responderam 3 ou mais para estes quesitos, com uma maior concentração nos valores de 4 e 5. Ou seja, de forma geral, os usuários se mostraram satisfeitos com a interface do jogo, assim como com o fluxo de comandos e sua curva de aprendizado.

5.8. RESULTADOS E DISCUSSÃO 93 As perguntas seguintes (parte inferior da Figura 5.10) foram direcionadas à avaliação específica de cada método de rastreamento. De forma geral, os usuários revelaram que o método de rastreamento com luvas foi que demonstrou o mais alto grau de satisfação em todos os quesitos. As questões respondidas foram sobre os seguintes tópicos:

7. A coerência entre os gestos realizados e reconhecidos.

8. Ocorrência de falsos-negativos (foi perguntado aos usuários se alguns de seus movimentos não foram reconhecidos).

9. Ocorrência de falsos-positivos (foi perguntado se o jogo levou em conta algum movimento que não chegou a ser realizado pelo usuário).

10. A facilidade de uso de forma geral. 11. O ajuste de sensibilidade.

12. O atraso no tempo de resposta (foi perguntado se o usuário sentiu que suas ações demoravam certo tempo para serem levadas em conta pelo jogo).

De forma geral, do ponto de vista do usuário a ferramenta HAFT se comportou aquém das demais; em todos os quesitos é possível observar a soma das respostas dos usuários é menor para o HAFT (Figura 5.10). Analisando mais a fundo, observando a Figura 5.9, é possível ressaltar o quesito sobre sensibilidade de controle (questão 11) como um dos pontos em que boa parte dos usuários apresentou dificuldade extrema. Esta sensibilidade está diretamente associada ao problema de jitter (tremidas no resultado do rastreamento ao longo do tempo). De fato, o rastreamento provido por HAFT não apresenta nenhum tratamento para o problema de jitter, fornecendo como resultado do rastreamento a posição 2D do ponto guia o qual está sujeito à mudanças sempre que novas features são adicionadas ou removidas da nuvem, além de sofrer influência da velocidade das features presentes. Assim, o comportamento do ponto guia se apresentou de forma caótica devido à própria natureza do algoritmo de rastreamento baseado em nuvem de pontos. Este aspecto influenciou consideravelmente no desempenho dos usuários, assim, em uma leitura mais abrangente é possível relacionar este problema como um dos pilares de dificuldade dos usuários em relação ao uso do HAFT. Desta forma, possivelmente por conta deste impacto, este aspecto por consequência afetou a avaliação dos usuários em vários outras questões como os quesitos 7 e 11 que estão relacionados respectivamente à coerência do rastreamento e ao controle de forma geral.

Outro quesito que captou parte significativa da impressão negativa dos usuários em relação ao HAFT foi o quesito 8. A pergunta sobre a detecção dos comandos realizados deixa claro que para os usuários o HAFT funciona de médio a mal neste ponto, concentrando as respostas em torno dos valores 3, 2 e 1, enquanto que para o Kinect estas estão concentradas em torno do valor 4 e para as Luvas Laranja e maior concentração das respostas é sobre o valor

5.8. RESULTADOS E DISCUSSÃO 94 5. Este quesito revela uma das principais dificuldades da ferramenta proposta que se trata da ausência de um método eficiente de detecção e recuperação automática. Foi observado durante os testes que devido a diversas adversidades como oclusões, movimentos rápidos, limites do campo de visão da câmera, entre outros, o rastreamento proposto por HAFT passava por falhas e era perdido. Enquanto que os outros dois métodos de rastreamento (Kinect e Luvas Laranja) contavam com uma forma de detecção automática, o HAFT requeria que o usuário realizasse um gesto específico para detectar novamente as mãos e assim seguir o rastreamento. Ou seja, mesmo na ocorrência de falhas com o Kinect e as Luvas Laranja a reinicialização se dava de forma automática enquanto que com o HAFT era necessário primeiramente que o usuário percebesse não estar mais controlando devidamente a guitarra virtual, para daí então realizar o gesto requerido para a detecção. Esta dificuldade se repetiu durante vários testes com vários usuários e se reflete em parte no quesito 8, pois esta é uma das causas para o usuário realizar os gestos sem que estes sejam detectados devido à uma falha de rastreamento prévia que não foi recuperada pois seria necessária a execução de uma nova detecção, requerendo do usuário um gesto específico da mão. Mais uma vez, este tópico pode ser compreendido como influenciador nas demais respostas com as dos quesitos 7 e 9, influenciando na avaliação dos usuários como um todo.

Assim, estes dois tópicos críticos sobre o jitter presente no HAFT e a ausência de uma detecção automática como ocorre com o Kinect e com as Luvas Laranja são avaliados, a partir das respostas obtidas nos questionários e da observação da desempenho dos usuários, como os principais aspectos falhos da ferramenta, tendo em vista um uso livre da mesma em uma aplicação como o Guitars on Air.

Em relação outras duas ferramentas testadas, é possível afirmar que o rastreamento através das Luvas Laranja apresentou o melhor retorno em relação à avaliação dos usuários. De forma geral, como pode ser visto na Figura 44, a pontuação somada do rastreamento usando luvas atingiu valores muito próximos de 60 (valor máximo), indicando que em relação à facilidade de uso e de controle da aplicação do Guitars on Air, as luvas se apresentaram como uma solução adequada e muito bem aceita pelos usuários. De fato, em todos os quesitos o rastreamento com luvas se mostra superior aos demais, concentrando opiniões sempre em torno dos valores 4 e 5, com destaque para os quesitos 7, 8, 9 e 10 em que fica claro que o uso das luvas realiza um rastreamento com precisão e pouquíssimas ocorrências de falsos-positivo e/ou falsos-negativo.

Em seguida, os resultados dos questionários apontam o Kinect como uma ferramenta de rastreamento intermediária, considerada satisfatória na avaliação geral, obtendo resultados em torno do valor 4 na maior parte dos quesitos. Ainda em relação ao Kinect, é importante ressaltar o quesito 12 que trata do atraso da resposta de rastreamento. Neste quesito é possível observar que nas demais ferramentas, os usuários na sua maioria optaram por dar o valor máximo (5), indicando que o atraso nestas seria muito pequeno, enquanto que em relação ao Kinect a maioria dos usuários optou pelo valor 4, indicando um indício de atraso que não é crítico mas que está presente. Este quesito levanta a hipótese de que o Kinect apresenta um atraso um pouco maior

5.8. RESULTADOS E DISCUSSÃO 95

Figura 5.11: Perguntas adicionais realizadas. Os gráficos mostram o número de ocorren- cias (colunas) de cada uma das respostas quantitativas (linhas). Topo: questões relacionadas à ergonomia. Centro: experiência pré-existente dos usuários com jogos digitais e mais especificamente jogos musicais. Base: grau de divertimento geral durante a experiência.

que as demais ferramentas.

Em adição aos quesitos já citados, um conjunto de perguntas complementares foi res- pondido pelos usuários (Figura 5.11). Nestas perguntas a mesma escala foi utilizada e a Figura 45 ilustra nos eixos verticais de cada gráfico a quantidade de respostas que cada valor na escala recebeu, com exceção da pergunta sobre jogos musicais que ofereceu uma opção a mais (valor 6) para abarcar usuários com familiaridades excepcionais com estes tipos de jogos.

Analisando a Figura 5.11, é possível observar que ambos, o incômodo do uso das luvas e a fadiga durante a interação e se mostraram como problemas menores, de baixa relevância, os quais não comprometeram o divertimento da experiência. No entanto, estas questões se analisadas em sessões de jogo mais longas (dezenas de minutos ou horas de jogo), podem causar o distanciamento do usuário. Por fim, são mostrados os graus de experiência preexistentes dos usuários em relação a jogos digitais e musicais especificamente, que como resultado revelam que o grau de experiência com jogos musicais varia de forma uniforme entre o conjunto de usuários que participou dos testes, mostrando que o fato da alta compreensão da interface e das mecânicas utilizadas em Guitars on Air não está associado somente a experiências prévias com jogos do

5.8. RESULTADOS E DISCUSSÃO 96

Figura 5.12: Tabela comparativa entre os métodos de rastreamento avaliados, a partir de dados obtidos através do Guitars on Air, com quesitos relacionados à robustez e velocidade. Obs.: os dados usados para gerar esta tabela se encontram no Apêndice.

mesmo tipo.

A tabela ilustrada na Figura 5.12 ilustra os valores médios dos dados coletados ao longo das sessões de jogo. A partir desta tabela é possível perceber que o desempenho dos usuários foi significativamente melhor quando usadas as luvas para o rastreamento. E por sua vez, o Kinect demonstrou desempenho superior ao método de rastreamento proposto neste trabalho. Esta primeira análise demonstra coerência em relação às avaliações do questionário e esta provida pelos dados fornecidos pelo Guitars on Air, revelando que o mesmo, como ferramenta de avaliação para métodos de rastreamento de mãos, fornece resultados coerentes em relação à experiência do usuário.

Sobre a velocidade de reconhecimento dos gestos, o Kinect apresentou uma defasagem de 7 milissegundos (ms) em relação aos outros dois métodos. A medição do atraso é realizada através do cálculo da média dos atrasos em cada um dos casos em que o usuário realiza um comando indicado por uma seta. O atraso de cada um destes momentos consiste na diferença de tempo entre o instante em que a seta estava exatamente sobre a linha base e o instante em que o gesto do usuário foi computado. Assim, este atraso leva em conta todo o processo de captura e rastreamento, além de estar associado ao usuário podendo este influenciar em um atraso maior ou menor dependo da sincronia (ou seja, capacidade de acertar as notas no momento exato) em que o usuário se encontra em relação ao jogo. Assim, é possível que a amostragem de usuários por ser pequena, seja insuficiente para definir com precisão a diferença comparativa de atrasos entre as ferramentas, no entanto vale ressaltar que os indícios apresentados na tabela da Figura 46 levantam a hipótese que o Kinect revela um atraso mínimo em relação às demais ferramentas. É importante ressaltar também que esta hipótese também surgiu ao analisar os questionários respondidos pelos usuários, especialmente o quesito 12. Assim, este ponto permanece como um ponto em aberto a ser averiguado futuramente com maior precisão (visto que na realidade, o atraso de 14,27 ms pode ser maior ou menor), deixando como base a hipótese de que o Kinect apresenta um atraso de interação perceptível ao usuário e maior do que outras ferramentas baseadas puramente em algoritmos de visão como o caso do HAFT e das Luvas Laranja. É importante também ressaltar que uma diferença de atraso de 7 ms é praticamente imperceptível ao ser humano e tem pouco ou quase nenhum impacto na interação.

5.8. RESULTADOS E DISCUSSÃO 97 Em relação à taxa de acerto apresentada pelo HAFT, uma das razões atribuídas ao resultado obtido, é o fato de que a detecção de mãos utilizada não é automática como ocorre nos casos das luvas e do Kinect (nestes casos as mãos são identificadas independente do gesto realizado). Assim, sempre que ocorre uma falha de rastreamento durante o uso de HAFT, primeiramente é necessário que esta seja percebida pelo usuário que em seguida passa a tentar recuperar o rastreamento fazendo gestos específicos para a detecção, o que acaba levando a perda de notas, além da distração causada que atrapalha o desempenho de forma geral. Além disso o problema de jitter foi observado nos testes como um dos principais tópicos críticos presentes no HAFT o qual não se apresentava de forma tão incisiva nas demais ferramentas. Este problema se revelou como um grande desafio para que os usuários controlasse a aplicação devidamente, causando além de sucessivos erros de interação, um desestímulo por parte dos usuários visto que a interface não correspondia às intenções e aos gestos executados.

Mais além, é importante ressaltar que a realização dos testes descritos com os 12 usuários é de extrema importância para a identificação de pontos críticos da ferramenta HAFT no entanto é insuficiente para entender com precisão o comportamento da mesma no cenário de entretenimento proposto. A Figura 5.13 ilustra em separado o desempenho de cada um dos usuários e é possível observar um caso em que o desempenho com as três ferramentas foi muito semelhante (pontilhado em laranja), além de alguns casos em que o usuário atingiu pontuações superiores ao usar a ferramenta HAFT em relação àquela sessão em que o mesmo usuário utilizou o Kinect (pontilhados em amarelo). Assim, é demonstrado que a análise através de valores médios em uma amostragem pequena é insuficiente para afirmar com precisão o quão melhor cada uma das ferramentas é entre si. Além disso, é possível levantar a hipótese de que em um cenário mais controlado, menos sujeito a falhas de rastreamento e fazendo uso de uma versão com o problema de jitter amenizado no HAFT, esta seria capaz de obter resultados superiores ao Kinect em relação ao desempenho em jogo do usuário.

O estudo de caso apresentados se mostrou como um grande desafio para a ferramenta de rastreamento proposta. De fato o HAFT funcionou como uma ferramenta que suporta uma série de cenários adversos (como o suporte a movimentações rápidas), no entanto ainda não se encontra em um estágio que possa ser aplicada para interações livres em aplicações de entretenimento. Por outro lado, o estudo de caso aplicado ao HAFT permitiu encontrar os principais pontos em aberto ao também comparar o HAFT com ferramentas já adaptadas e propícias para o cenário do Guitars on Air. Desta forma a aplicação do Guitars on Air serviu como ponto de comparação sólido para a compreensão dos principais aspectos falhos de HAFT e assim serviu ao seu propósito de estudo de caso e análise para a ferramenta proposta.

Ainda analisando o desempenho dos métodos de rastreamento utilizados, vale ressaltar o tempo de processamento obtido de cada um destes. O tempo de processamento de cada uma das técnicas testadas é consideravelmente baixo, de forma que cada uma das três cumpriu o requisito de ser executada em tempo real, com taxa de atualização igual ou maior que 30 quadros por segundo (também frames per second ou fps). Para que o Kinect forneça novas posições

5.8. RESULTADOS E DISCUSSÃO 98

Figura 5.13: Gráfico ilustrando o desempenho em separado de cada um dos usuários ao usar cada uma das técnicas de rastreamento de mãos testada.

do esqueleto rastreado, um tempo médio de 5 ms é necessário, HAFT por sua vez, leva 7 ms. Ambos os tempos de execução são consideravelmente baixos, no entanto o Kinect apresenta atrasos no final do processo de interação. Este fato sugere que apesar de o Kinect prover um método de rápida execução, o seu resultado final de rastreamento a cada frame acumula um atraso relacionado à posição do frame anterior, produzindo um efeito de deslizamento (drift) de forma que para que a posição se estabilize o usuário precisa ficar parado por um pequeno instante de um ou dois frames de duração. O rastreamento por detecção de luvas de cor laranja por sua vez, é executado em um tempo médio de 3 ms. Desta forma, o tempo de processamento total do jogo varia entre 14 e 18 ms, a depender do método de rastreamento usado como entrada.

Todos os testes aplicados ao Guitars on Air foram realizados com imagens capturadas por uma Webcam comum, na resolução de 320 x 240 pixels a uma taxa de 30 fps. O processador utilizado foi o Intel(R) Core(TM) i5-2300 CPU @ 2.80 GHz, com acesso a uma memória de 4.00 GB RAM, e todo o processamento foi executado sobre o sistema operacional Windows 7 Enterprise x64.

99 99 99

6

CONCLUSÃO

Nesta dissertação é apresentada uma ferramenta para o rastreamento de mãos e faces chamada HAFT. Primeiramente, é demonstrada uma etapa de segmentação de cor de pele, voltada para propósitos de interação, distinguindo grupos de interesse de ruídos e partes irrelevantes do ambiente. Ainda sobre a segmentação, uma série de testes e comparações foi realizada, demonstrando que o método proposto é coeso, agrupando e expandindo setores cor de pele em cada frame capturado.

Em seguida, a partir do conceito de gerenciamento de uma nuvem de features foi demonstrado o rastreamento simultâneo de vários alvos (mãos e faces), de forma robusta a oclusões parciais entre os mesmos. Para tal, a técnica proposta faz uso de pesos como fatores de relevância para cada uma das features rastreadas, sugerindo o uso de um ponto guia como a média ponderada da nuvem rastreada. Entre outras contribuições, está a etapa de segmentação de cor de pele, propondo um método de propagação de influência de pixels iniciadores para

No documento HaFT: uma ferramenta para interação natural (páginas 90-118)