• Nenhum resultado encontrado

2.2 MODELAGEM E RECONHECIMENTO

2.2.1 Modelagem

Na vasta literatura sobre reconhecimento de gestos, são muito raros os casos em que o gesto é modelado como a combinação de elementos mais simples, reconhecidos separadamente, como se propõe fazer neste trabalho, combinando duas posturas, movimento e local, permitindo a realização de todos os tipos de gestos citados na introdução e que ocorreram nos testes preliminares.

Um dos únicos sistemas que adota e implementa essa estratégia foi desenvolvido por Liu & Fujimura (2004). Os autores citam a possibilidade de

combinar, no modelo do gesto com uma ou duas mãos, uma única postura com um movimento e um local para sua realização e discutem como essa combinação pode aumentar consideravelmente o vocabulário de gestos possíveis. Utilizando 12 movimentos, 7 posturas com uma das mãos e um exemplo de postura feita com ambas as mãos se tocando, reconhece aproximadamente 20 gestos, mas afirma que a combinação de todas as posturas, movimentos e locais que reconhece permitem a definição de até uma centena deles, o que ainda é um número relativamente pequeno de acordo com Derpanis et al. (2004). Esse sistema faz uso de uma câmera capaz de fornecer um mapa de profundidade da imagem.

O sistema OGRE (Salles et al., 2004) também permite a definição de gestos formados por uma série de posturas ligadas por movimentos retilíneos de uma das mãos (e os chama de gestos "ensaiados"). Além disso, define gestos estáticos como somente uma postura e dinâmicos como somente o movimento, ambos para uma das mãos. Dentre os trabalhos pesquisados, o OGRE foi o único que afirmou explicitamente que prevê a configuração do sistema para reconhecimento de um conjunto menor de gestos, selecionado a partir de um conjunto maior de gestos possíveis, o que, de acordo com os autores, torna o reconhecimento mais rápido e preciso.

Derpanis et al. (2004) também modelam o gesto, a partir de uma abordagem linguística, como a combinação de postura, movimento e local, e chamam atenção para como um número relativamente pequeno de cada um desses elementos pode gerar um grande número de sinais possíveis. Nesse trabalho, no entanto, é relatada somente a implementação e testes do reconhecimento de movimentos para uma das mãos e não desse grande número de sinais.

Outros exemplos onde o modelo de gestos inclui posturas ou movimentos mas não a combinação dos dois são os trabalhos de Mo (2007) e Sclaroff et al. (2005). Esse último, no entanto, é uma síntese de diversas pesquisas sobre gestos realizadas em uma mesma instituição e, por isso, não está claro se posturas e gestos estão combinados em um mesmo modelo, ou constituem modelos em sistemas separados.

A raridade da combinação de movimentos, posturas e local dos gestos durante essa revisão chegou a levantar dúvidas sobre a validade dessa combinação no uso cotidiano de gestos e não em línguas de sinais. É simples encontrar uma série de exemplos, no entanto, que mostram essa validade e isso ocorreu inclusive

durante os testes preliminares relatados na introdução. A importância do local já foi exemplificada. Gestos realizados com o mesmo movimento mas com posturas diferentes podem ter significados completamente diferentes, por exemplo como acenar ou pedir carona. O mesmo ocorre quando a mesma postura é usada com movimentos diferentes. Puxar um punho em direção ao corpo pode ter o significado oposto ou nem mesmo estar relacionado a estender bruscamente o braço levando o punho fechado à frente.

Dentre os trabalhos pesquisados, somente três permitem a modelagem de um gesto dinâmico como a transição entre duas posturas: Florez et al. (2002), Shamaie & Sutherland (2003) e Utsumi, Tetsutani, & Igi (2002). Assumindo que seja possível definir um movimento como nulo nos gestos ensaiados do OGRE, esse sistema também permite o uso desse tipo de gesto.

Um grande número de trabalhos reconhece somente gestos estáticos (na maior parte das vezes para uma única mão) e, portanto, modelam gestos como uma única postura, mantida por um certo tempo. Por vezes utilizam também parâmetros como posição para a interação e, em alguns casos, rastreiam essa posição em vez de detectá-la em cada quadro5.

Segen & Kumar (1999) são um exemplo desse tipo de modelagem, mas que se diferencia dos demais por estimar a postura da mão em três dimensões utilizando a sombra que ela projeta em um ambiente com fundo e iluminação controlados e conhecidos. Jennings & Murray (1997) utilizam posturas para controle de um robô, enquanto Bretzner, Laptev & Lindemberg (2002) o fazem para controle de eletrodomésticos e Souza et al. (2006) para controlar avatares em um ambiente 3D. Chen et al. (2007) utilizam comandos na tarefa de navegação, em um ambiente virtual que contém objetos de aprendizagem, usados em educação. Kolsch et al. (2004) implementaram o HandVu, um sistema que facilita o rastreamento da mão direita em seis posturas e que visa facilitar o uso de gestos, inclusive para computação móvel.

———————

5 Essa frase indica a distinção entre detecção e rastreamento, que será utilizada ao longo do texto. A

primeira utiliza somente as informações obtidas a cada instante de tempo para localizar objetos de interesse, enquanto o segundo aproveita a coerência temporal da maioria dos sistemas e utiliza também informações de instantes anteriores para auxiliar essa localização.

Outros exemplos de trabalhos que descrevem o uso de gestos modelados como uma única postura são Hardenberg & Bérard (2001), Mo & Neumann (2006), Maclean et al. (2001), Guan et al. (2006), Terrillon et al. (2002), Peixoto & Carreira (2005), O'Hagan et al. (2002), Du & Li (2000), Schlattmann et al. (2007), Liu & Jia (2004) e Black & Jepson (1998b).

A postura em si pode ser modelada através de características de sua imagem ou com modelos 3D ou simplificados da mão, usando, por exemplo, cilindros curvas quadráticas ou simplesmente retângulos em lugar das falanges (Erol et al., 2005). Todos os trabalhos citados acima modelam a postura da mão com propriedades da imagem.

Quase tão comum quanto modelar um gesto como somente uma postura é considerar somente o movimento da mão, descartando suas posturas ou local.

Kim et al. (2006), em um exemplo de computação atenta, modela um único gesto para reconhecimento por um robô, o de acenar para atrair sua atenção, mas o faz em condições adversas, até mesmo com o usuário deitado. Yang & Ahuja (1998), Ramamoorthy et al. (2003), Hong, Turk & Huang (2000), Rajko & Qian (2008), Marcel et al. (2000), Lee & Kim (1999), Mammen, Chaudhuri & Agarwal (2002), Shan et al. (2004), Black & Jepson (1998a) e Appenrodt et al. (2009) reconhecem gestos modelados como movimentos realizados com uma das mãos, enquanto Suk, Sin & Lee (2008), Just, Bernier & Marcel (2004), Mammen, Chaudhuri & Agarwal (2001), Shamaie & Sutherland (2004) fazem o mesmo para gestos bimanuais. A maior parte desses trabalhos faz o rastreamento da posição da mão e todos modelam a mão através de sua aparência e não com um modelo 3D.

Foram analisados poucos trabalhos que modelam gestos deíticos para reconhecimento por VC. Dentre eles, pode-se citar Park, Roh e Lee (2008), que identificam com uma única câmera a direção em 3D em que um usuário aponta utilizando uma extensão total ou parcial do braço. Marcel et al. (2000) também modela e reconhece gestos deíticos.

Como é comum que o modelo de gesto adotado e as características usadas na análise e no reconhecimento do gesto estejam intimamente relacionados, é preciso estar atento para evitar a confusão entre esses conceitos. O modelo do gesto está muito mais relacionado com conceitos de mais alto nível, como a definição de um gesto, que com a tecnologia usada para reconhecê-lo e é possível que nem mesmo especifique detalhes como, por exemplo, que características são

usadas para descrever a postura da mão. Essa foi inclusive a abordagem adotada na discussão de modelagem feita acima. Ainda que haja casos em que o modelo do gesto usado tem os mesmos elementos que o conjunto de características extraídos na análise (como, por exemplo, no caso de um gesto modelado como as trajetórias no espaço das pontas dos dedos, cujas posições espaciais são extraídas como características utilizando um conjunto de câmeras), o modelo e as características podem também ter naturezas bastante distintas (ainda usando as posições espaciais dos dedos como exemplo de características, o modelo poderia ser definido como o conjunto dos ângulos das articulações de um modelo 3D de mão).