Proposta de interação natural na construção de ambientes de Realidade Virtual e Aumentada

(1)

Proposta de interação natural na construção de

ambientes de Realidade Virtual e Aumentada

Fábio Henrique M. Oliveira, Alexandre Cardoso, Edgard A. Lamounier Jr. Faculdade de Engenharia Elétrica

Universidade Federal de Uberlândia, UFU Uberlândia, Brasil

oliveira_cg@mestrado.ufu.br, {alexandre, lamounier}@ufu.br

Abstract—This paper presents a proposal for a natural in-teraction in building environments Virtual and Augmented Reality, in which user through hand gestures can build 3D objects and virtual environments. This application has no major dependencies of the work environment, lighting or users’ skin color. In this case were used the Kinect sensor, which serves to provide RGB images of the environment and depth map of the scene.

Keywords-Natural Interaction; Natural User Interface; Ubi-quitous Computing;

I. INTRODUÇÃO

A interação entre humanos e computadores é tarefa difícil, principalmente quando se considera o projeto de sistemas computacionais interativos, que devem ser eficientes, de fácil utilização e, além disso, possuam uma usabilidade agradável [1].

O ser humano naturalmente se comunica através de ges-tos, expressões e movimenges-tos, o processo de descoberta do mundo se dá por meio da visão e manipulação de objetos físicos. O pressuposto fundamental é que deveria ser permitido interagir com a tecnologia, do mesmo modo que o ser humano interage com outro da sua espécie e com o mundo real, como a evolução e a educação os ensinou a fazer, ressalta Valli em [2].

Historicamente, a linguagem utilizada entre pessoas e máquinas têm sido determinada por restrições tecnológicas, e o homem tem se adaptado a estas linguagens [3]. Recente-mente vem se tornando possível construir maquinas capazes de se adaptar a linguagem humana [3].

No sentido de tornar o acesso ou manipulação de in-formações digitais mais intuitivo, diversos trabalhos têm sido desenvolvidos. Em muitos deles, pode-se encontrar referências a uma modalidade de interação chamada natural interaction. Valli, por exemplo, define em [2] este conceito como sendo uma forma de permitir a manipulação de um ambiente, em que a necessidade de aprendizagem para a interação seja mínima, ou seja, a metáfora utilizada para interação deve ser tão simples, que qualquer um conseguiria utilizar, necessitando de um mínimo de treinamento.

Formas alternativas ao uso do mouse e/ou teclado para interação homem-máquina, tais como: gestos com a mãos, cabeça e corpo, monitoramento da fixação dos olhos e a fala, vem se tornando populares [4]. Dispositivos como televisões digitais e consoles de videogame que fazem uso de interações naturais como interface, podem ser encontrados no mercado.

Focando na interface com o usuário controlada por gestos, Bhuiyan e Picking em [5] fornecem um histórico do uso e tendências desta tecnologia. Observou-se na literatura que as aplicações baseadas em gestos podem ser usadas em dife-rentes áreas: entretenimento, rotinas diárias, acessibilidade, saúde, treinamento e educação entre outras.

A partir do levantamento bibliográfico, constatou-se que poucos foram os trabalhos encontrados com o foco proposto por este artigo e a possibilidade de relevantes contribuições nas áreas de Computação Gráfica e sub-áreas Realidade Vir-tual e Aumentada. Considerando o avanço e popularização das Natural User Interface (NUI), poderia ajudar muito a facilitar, tornar mais intuitivo e acessível, processos comuns na construção de ambientes virtuais 3D.

Com o objetivo de investigar novas possibilidades de inte-ração, em interfaces gestuais, e a construção de objetos e am-bientes virtuais, este artigo propõe um sistema que permite conceber objetos tridimensionais, com uso de dispositivos de captura de gestos, dispensando aparatos presos ao corpo do usuário. Além disto, provê condições de mapeamento das operações de translação, rotação, escala e extrusão para o domínio da ferramenta de modelagem dos objetos virtuais desejados (em 3D), dispensando etapas de calibração.

Afim de descrever o sistema, na Seção 2, são distinguidos os trabalhos relacionados, com o objetivo de apresentar o estado da arte. A arquitetura e aspectos pertinentes ao projeto do sistema proposto são abordados na Seção 3. Na Seção 4 é apresentado um estudo de caso e resultados preliminares. E por fim na Seção 5, são discutidas as conclusões e trabalhos em andamento.

(2)

II. TRABALHOS RELACIONADOS A. ILoveSketch

Trata-se de um software desenvolvido por Bae, Bala-krishnan e Singh, capaz de criar ambientes tridimensionais, baseados em esboços feitos em um dispositivo de captura por toque [6].

Este sistema permite a navegação e criação de elemen-tos usando um ambiente tridimensional. A construção de elementos se dá pela criação de curvas NURBS. Foi desen-volvido para designers, possibilitando a interação do usuário com seus modelos 3D através de gestos comuns, existentes em uma biblioteca.

São utilizados gestos como ponto, curva, laço, loop, entre outros, para desenhar, transformar e movimentar o ambiente. A Figura 1 apresenta a criação de um esboço e sua finalização.

Figura 1. Exemplo de construção de um elemento com ILoveSketch [6]. O ambiente conta com as principais ferramentas para transformação dos modelos, que alteram suas propriedades geométricas e estéticas. Assim como os grandes editores de modelos 3D, por exemplo, 3ds Max [7] e MayaR [8],R o ILoveSketch disponibiliza diferentes visões de câmera e perspectivas de vista.

Apesar de possuir boas ferramentas para desenho, o software não conta com ferramentas para animação, e a interação se dá por meio de uma tela sensível ao toque. B. Mobiature

Este trabalho desenvolvido por Yoon, Lee, Yeom e Park, apresenta uma técnica para manipulação de modelos 3D utilizando um dispositivo móvel [9].

A técnica desenvolvida permite realizar tarefas como, rotacionar e selecionar partes especificas de um modelo 3D, que é apresentado em um monitor, em que um dispositivo móvel pode ser usado como um controle multimodal. A Figura 2 demonstra o software intitulado Mobiature, sendo utilizado para posicionar dinamicamente um modelo 3D.

O sistema funciona como um replicador do que é feito com e no dispositivo móvel para um monitor, o que, de acordo com os autores dá o sentimento de estar manipulando diretamente uma versão miniatura do modelo 3D. Por esta razão, os autores se referem a técnica como miniatura móvel ou Mobiature.

Figura 2. Modelo 3D sendo posicionado de acordo com a orientação de um dispositivo móvel [9].

A técnica basicamente envolve o monitoramento da ori-entação 3D do dispositivo móvel. Para isso é utilizado o acelerômetro e o sensor magnético. Após coletados os dados, estes são transmitidos através de uma rede WiFi estabelecida entre o dispositivo móvel e o monitor.

Concluindo, o trabalho permite a interação com modelos 3D a nível de apresentação apenas, e possui fortes depen-dências de hardware, dado que os dispositivos moveis devem possuir os sensores acima citados e placa de rede WiFi. Quanto ao ambiente de implementação e execução, nada foi citado no referente trabalho.

III. ARQUITETURA DO SISTEMA A. Tecnologias utilizadas

1) Kinect: O avanço dos dispositivos periféricos, trouxe ao mercado novas possibilidades em relação ao reconheci-mento de gestos. Uma das novidades relaciona-se com a captura de dados, a partir da obtenção da profundidade do ambiente real, considerando elementos nele inseridos [10].

Assim, com o advento e a popularização de tais sensores, há um novo universo de possibilidades, relativos ao reconhe-cimento facilitado de gestos. Algo que, anteriormente, só era possível com a utilização de equipamentos como luvas com a posição controlada por sensores ou combinações de duas ou mais câmeras [11].

Portanto, a posição das mãos pode ser extraída com o auxilio de um sensor de profundidade, popularmente tratado como depth camera, o qual mede o tempo de alcance de uma fonte de luz Infra Vermelha (IR - InfraRed) pulsada, determinando assim a distância de cada pixel contido em sua visualização [10].

Por ser um dispositivo caro, as câmeras com recursos para medição de profundidade possuem, atualmente, usos limitados. No entanto, os custos vem caído rapidamente. O primeiro sensor desse tipo, dedicado para a venda em larga escala, é o sensor Kinect, desenvolvido para ser um controle para o console XBox da Microsoft [12].R

Levando em consideração os recursos e possibilidades da utilização de um sensor de profundidade, esta pesquisa adota

(3)

o dispositivo Microsoft KinectR TM, o qual diferentemente de outros sensores, pode ser encontrado facilmente no mer-cado brasileiro com um preço considerado acessível.

O Kinect é resultado da aquisição pela Microsoft R da tecnologia 3DV para reconhecimento baseado em câ-mera, apesar de ser desenvolvido para o console XBox, da Microsoft , ele utiliza o padrão USB (Universal SerialR Bus) como interface de entrada e saída de dados.

Recentemente, a Microsoft lançou o Kit de Desenvol-R vimento de Software (SDK - Software Development Kit), possibilitando o desenvolvimento de aplicativos para a pla-taforma Windows. O framework suporta duas linguagens de programação, o C# e Visual Basic para escrita de aplicações, as quais utilizam interação natural, ou seja, fazem uso da voz ou gestos para a interação com sistemas computacionais [13].

Desta forma, juntamente com o hardware Kinect, optou-se pela utilização do Microsoft KinectR TM SDK, devido a facilidade na programação e utilização dos recursos.

2) Blender 3D: O Blender é um programa de computador de código aberto, desenvolvido pela Blender Foundation, para modelagem, animação, renderização, criação de apli-cações interativas 3D entre outras funcionalidades [14].

O programa é multiplataforma, estando portanto dispo-nível para diversos sistemas operacionais. Inclui suporte a Python, como linguagem de script, que pode ser usada tanto no Blender, quanto em seu motor de jogo.

Este software adequou-se bem a este trabalho, visto que com sua linguagem de script é possível explorar e utilizar grande parte de suas funcionalidades através da progra-mação, sem a utilização de dispositivos convencionais de entrada. E ainda, possui um conjunto de funcionalidades abrangentes e exporta os modelos 3D, nele construídos, para diversos formatos utilizados no mercado [14].

B. Caracterização da arquitetura

O sistema proposto visa possibilitar um meio de interação natural para construção de ambientes virtuais 3D.

A Figura 3 mostra um desenho simplificado da arquitetura do sistema proposto. Observa-se que o fluxo de execução inicia-se com a captura da imagem do usuário, passa pelo processamento e atuação de acordo com o conteúdo recebido e, por fim, o cenário virtual 3D é atualizado. Notam-se dois blocos principais:

• Processamento das informações: recebe dados (ima-gem RGB e mapa de profundidade) do sensor, neste caso o Kinect, e é responsável por processar essas infor-mações, determinar se algum gesto está sendo realizado ou apenas determinar a posição da mão no espaço. Neste bloco, é utilizado o Microsoft KinectR TM SDK para o estabelecimento da conexão com o dispositivo. • Construção do ambiente virtual: é responsável por

processar os dados recebidos via socket, enviados pelo bloco "Processamento das informações", tratar e efetuar

Usuário

Sensor (Kinect, Xtion e etc)

Captura da imagem Determinação do gesto Processamento das informações Gestos Imagem RGB Profundidade Sock et

Interpretação dos dados recebidos Atualização da cena Construção do ambiente virtual Cena atualizada Monitor (visualização) Imagem

Figura 3. Arquitetura do sistema.

a interação e, por fim, efetuar a atualização da cena que será exibida na interface de visualização do usuário, neste caso o monitor.

Como pode-se observar, a comunicação entre os blocos é realizada através de sockets, que permite uma independência sólida entre os blocos.

IV. ESTUDO DE CASO

Objetivando investigar a possibilidade do desenvolvi-mento da aplicação aqui proposta, desenvolveu-se um protó-tipo que permite ao usuário desenhar, a mão livre, utilizando-se dos movimentos das mãos.

O protótipo se divide em dois módulos, assim como especificado na arquitetura:

• O primeiro, responsável pela captura e processamento das informações (imagens e gestos), foi implementado em C# e faz uso do Microsoft KinectR TMSDK para se comunicar com o Kinect. Os dados são coletados e os movimentos com a mão direita são processados afim de eliminar ruídos e ajustar a precisão, logo em seguida estes dados são enviados para o segundo módulo via conexão socket em um formato padrão, que seja comum às duas linguagens, todo o processo é realizado em tempo real.

• O segundo, recebe os dados enviados via socket pelo primeiro módulo e interpreta-os, afim de estabelecer uma relação proporcional entre as coordenadas x, y e z. Logo em seguida o programa escrito em Python, que esta sendo executando dentro do ambiente de desenvol-vimento do Blender, realiza o desenho na viewport de acordo com as coordenadas recebidas. Essa sequência de operações que dão o feedback ao usuário em forma de desenho, apresentado na viewport do Blender, fica

(4)

sendo executada repetidas vezes, até que o usuário permaneça determinados segundos, com a mão em posição estática, para que o programa entenda que parte do desenho está finalizada. E para finalizar o desenho basta que o usuário retire sua mão do campo de visão do sensor.

A Figura 4 apresenta um desenho realizado a mão livre, já no ambiente de modelagem 3D do Blender.

Figura 4. Resultado de um desenho com o protótipo desenvolvido. Afim de explorar a terceira dimensão, um objeto 3D foi modelado. A Figura 5 ilustra o resultado obtido.

Figura 5. Resultado de um objeto 3D modelado através gestos.

A. Resultados preliminares

Nos resultados preliminares, proporcionou-se ao usuário a interação com um sistema para construção de ambientes virtuais 3D, no qual é permitido desenhar formas abstratas ou não, utilizando uma das mãos.

Quanto à utilização por pessoas com diversos tons de pele, o sistema foi testado com homens e mulheres, de estaturas diferentes e cores de pele branca, morena e negra, obtendo bons resultados de reconhecimento.

Como o dispositivo que captura os dados de profundidade é auxiliado por um sensor infra vermelho (IR), a aplicação se comportou bem com variações de luz, no entanto a visualização da imagem RGB fica prejudicada, já que esta é altamente dependente da iluminação.

Em relação à taxa de quadros por segundo (FPS - Frames Per Second), a aplicação se mostrou bastante eficiente, não ficando abaixo de 30 FPS.

V. CONCLUSÕES E TRABALHOS EM ANDAMENTO O objetivo deste trabalho consistiu em investigar formas de interação naturais e utilizá-las em uma aplicação que permita a construção de ambientes virtuais 3D. Embora o trabalho necessite de melhorias e continuidade no desenvol-vimento, já apresenta resultados satisfatórios, o que permite e motiva a sua continuidade.

A partir do estudo do estado da arte, percebeu-se que a utilização das mãos, através do posicionamento e gestos, consiste em uma interface intuitiva e cognitivamente vanta-josa para utilização.

Sendo assim, através da implementação de um protótipo foi possível validar a arquitetura e verificar a possibilidade do desenvolvimento de um sistema, que faz uso de interações naturais para construir objetos e ambientes virtuais 3D.

Este trabalho está em desenvolvimento e pretende-se implementar as outras funcionalidades descritas na Seção I, como translação, rotação, escala, entre outras que se julguem úteis para melhor interação e maior abrangência da ferramenta de modelagem.

Como trabalhos futuros pretende-se implementar coman-dos por voz, que fazem uso do reconhecimento da fala, e podem ser considerados importantes meios para interações naturais.

AGRADECIMENTOS

Este trabalho é resultado de discussões acerca das apli-cações de RV e RA, realizadas pelo Grupo de Realidade Virtual e Aumentada da Universidade Federal de Uberlândia (GRVA UFU). Os autores agradecem todo apoio dado pelo grupo e ao CNPq e FAPEMIG, pelo apoio financeiro que possibilitou a realização deste trabalho.

REFERÊNCIAS

[1] A. Dix, J. Finlay, and G. Abowd, Human-computer interac-tion. Prentice hall, 2004.

[2] A. Valli, “The design of natural interaction,” Multimedia Tools and Applications, 2008.

[3] D. Norman, The design of everyday things. Basic Books

New York, 1990.

[4] M. Hopmann, P. Salamin, N. Chauvin, F. Vexo, and D. Thal-mann, “Natural activation for gesture recognition systems,” in Proceedings of the 2011 annual conference extended abstracts on Human factors in computing systems, 2011.

[5] M. Bhuiyan and R. Picking, “Gesture-controlled user inter-faces, what have we done and what’s next?” in Proceedings of the Fifth Collaborative Research Symposium on Security, E-Learning, Internet and Networking (SEIN 2009), 2009. [6] S.-H. Bae, R. Balakrishnan, and K. Singh, “Ilovesketch:

as-natural-as-possible sketching system for creating 3d curve models,” in Proceedings of the 21st annual ACM symposium on User interface software and technology, 2008.

(5)

[7] Autodesk. (2011) Autodesk 3ds max. [Online]. Available: http://usa.autodesk.com/3ds-max/

[8] ——. (2011) Autodesk maya. [Online]. Available:

http://usa.autodesk.com/maya/

[9] D. Yoon, J. H. Lee, K. Yeom, and J.-H. Park, “Mobiature: 3d model manipulation technique for large displays using mobile devices,” in Consumer Electronics (ICCE), 2011 IEEE International Conference on, 2011.

[10] D. Gelb, A. Subramanian, and K.-H. Tan, “Augmented rea-lity for immersive remote collaboration,” in Person-Oriented Vision (POV), 2011 IEEE Workshop on, 2011.

[11] H. Benko and A. Wilson, “Depthtouch: Using depth-sensing camera to enable freehand interactions on and above the interactive surface,” in IEEE Workshop on Tabletops and Interactive Surfaces, 2008.

[12] Microsoft. (2011) Microsoft kinect web site. [Online]. Available: http://www.xbox.com/pt-BR/kinect

[13] ——. (2011) Microsoft kinect sdk.

[On-line]. Available:

http://research.microsoft.com/en-us/um/redmond/projects/kinectsdk/guides.aspx

[14] A. Brito, Blender 3D-Guia do Usuário. Novatec Editora,