• Nenhum resultado encontrado

Interface Multimodal

No documento Faculdade de Ciências Humanas e Sociais (páginas 45-48)

4. Dispositivos de Entrada e Técnicas de Interacção

5.3. Interface Multimodal

As interfaces multimodais caracterizam-se pelas suas capacidades em integrar e combinar os diferentes tipos e dispositivos de entrada e saída; a conjugação de alguns modos de interacção de forma a torná-la mais rica e mais fácil.

Uma das primeiras interfaces a permitir a combinação do reconheecimento da fala e dos ges- tos foi a Media Room construído pela equipa de Negroponte, Architecture Machine Group no MIT no verão de 1976, que propos ao Cybernetics Technology Office da Advanced Research Projects Agency dos Estados Unido (DARPA) um programa da pesquisa organizado sob o título

Aumento de recursos humanos no comando e no controle com meios múltiplos a Interação

Humano-Máquina (Bolt, 1984). Concebido por Richard Bolt, a Media Room permitia aos utiliza-

dores estar dentro de uma interface de computador e interagir com o computador através da fala, dos gestos e dos olhos. Consistia basicamente numa sala larga, uma parede onde era projectado um painel. O utilizador sentado numa cadeira no centro da sala detectava a posição magnética dos dispositivos de sensores no seu braço para medir os ponteiros dos gestos (Buxton & Dudley Dowright, 2002). O estudo esboçado na proposta recordava um princípio antigo de usar a memo- rização relacionada aos espaços como dispositivo automático de entrada: o efeito Simonides20. 19 Raj Reddy, director da School of Computer Science da Universidade de Carnegie Mellon e pesqui- sador há mais de 30 anos na área de fala, anunciou que os computadores pessoais irão utilizar entradas por voz e Pen dentro de poucos anos.

20 Simonides foi um poeta da Grécia Antiga famoso pelas suas habilidades em recitações longos inteiramente feitos de memória. O seu segredo, que como um professor do reitorica que compartilhava com seus estudantes,

Um outro estudo traçado na mesma proposta olhava para a exploração da espacialidade virtual como uma matriz de organização de informação: Virtual Bulletim Board21 O tamanho tácito

de um “campo” de informação retratada em gráficos de computador não necessita ser limitado pelo tamanho da exposição física. Desde que é virtual, sua organização aparente do tamanho e do gráfico está aberta à definição do utilizador no sentido inacabado da caracterização de Ivan Sutherland (1970) de um ecrã do computador como a window on wonderland de Alice22 .

O sentido do espaço em torno da interface inclui a percepção do sistema do proximidade de campo por parte do utilizador. O tom dos apontamentos no Media Room, especialmente a abertura da cadeira, convidava o utilizador a levantar-se imediatamente da cadeira para poder-se engajar com os dados e gesticular, acenar do braço, apontar, especialmente em con- junto com as indicações da movimentos dos olhos captados através do eye-tracking, dotando o espaço entre o utilizador e o sistema de diversas entidades communicativas ( Bolt, 1979). Em 1962, Mort Heilig um cinematógrafo de Hollywood, patentiou um protótipo do jogo de

arcade mecânico chamado Sensorama23 explorava diversos canais de entrada e saída. Os

jogadores tinham um ambiente multi-sensorial com uma experiência emersiva que incluia todos sentidos visual, sonoro, olfativo, tacto, para além de visualização esterioscópica 3D e

feedback táctil. Sensorama seria uma espécie de realidade pré-virtual, já que na altura nem

os vídeo jogos nem a realidade virtual existiam (Krueger, 1991). Um dos primeiros trabalhos a nível de entrada multimodal foi feito no MIT Lab24, designado de Put-That-There25 era um

sistema criado para explorar a integracção, num ambiente multimodal, das modalidades de reconhecimento de voz e gesto. Esta aplicação consistia na montagem de um puzzle com- posto de diversas peças, em torno de uma única fotografia, usando apenas a voz e o gesto de

era de ligar cada parte sucessiva de um poema ou de um discurso recordado a um local específico dentro da planta do piso mental de um templo real ou imaginado. Então, para cada subseção sucessiva da conversa a ser dada, o orador andaria mentalmente de lugar em lugar dentro do templo, procurando o material apropriado por entre diversas partes de estatuária. O resultado do seu trajeto no templo serviria então como um esquema mental de organização do discurso em cima de seu recitação, o discurso que foi recuperado e reconstruido durante a oração por uma excursão imaginária de estátua em estátua em torno do espaço do templo. Em torno do espaço do templo haviam estátuas, que serviam para aumentar o imaginário de niches ou de cantos espe- cíficos. Para cometer à memória um poema ou um discurso longo, o orador fixaria na sua imaginação antes do ponto inicial, e com esta imagem mental na mente, empreende as observações introdutórias à memória. 21 Este termo refere a uma formulação de um espaço implícito que não ocupa nenhum espaço “real”.

22 Sutherland, I. “Computer Displays”, Scientific American, Junho 1970.

23 “Watch out for a remarkable new process called SENSORAMA! It attempts to engulf the viewer in the stimuli of reality. Viewing of the color stereo film is replete with binaural sound, colors, winds, and vibration. The original scene is recreated with remarkable fidelity. At this time, the system comes closer to duplicating reality than any other system we have seen!” — Lipton, L. “Sensorama”; Popular Photography, July 1964, sit: Fisher, Scott S., Virtual Environments, Personal Simulation, & Telepresence in Virtual Reality: Theory, Practice and Promise, S. Helsel and J.Roth, ed., Meckler Publishing, 1991, reprinted in Ars Electronica: Fac- ing the Future, T. Druckrey, ed., MIT Press, 1999.

24 Bolt, R. (1980). “Put-that-there: Voice and gesture at the graphics interface”, Computer Graphics,14(3), pp. 262-270.

25 Harada S., Hwang J., and Lee B. Put-that-there: What, where, how? Integrating speech and gesture in interactive workspaces, in UBIHCISYS 2003 Online Proceedings, 2003.

apontar como formas de interacção. O sistema era composto por três partes: o reconhecedor de voz, um painél de comandos e um processador de comandos (Bolt, 1980).

Outro importante dispositivo cibernético de interacção multi-sensorial foi Telepresence criado por Scott Fisher26 em 1985 em NASA-Arnes Research Center em Mountain View, Califor-

nia. Este dispositivo criava uma poderosa ilusão de uma digitalização completa do ambiente. Em 2002, foi desenvolvido em Stanford o projecto iRoom27 que foi concebido para explorar

as técnicas de interacção num ambiente interactivo de tamanho de um quarto no qual multiplos- utilizadores podiam interagir com múltiplos computadores sobre vários dispositivos de entrada. Na realidade, o uso do gesto pode ser mais eficaz quando combinado com outros moda- lidades da entrada, especialmente a voz. Permitir a fala combinada com a entrada gestual tem diversas vantagens tangíveis. O primeiro é puramente prático; facilidade de expressão. Como Martin (1989) indica, as modalidades típicas de interacção com o computador são caracterizados pela oposição entre a facilidade e a expressividade. A facilidade corresponde à eficiência com que os comandos podem ser recordados, e a expressividade ao tamanho do vocabulário do comando. A entrada multimodal supera este trade-off; a combinação da fala e dos comandos de gesto são fáceis de executar enquanto retêm um grande vocabulário de comandos. A fala e o gesto complementa-se quando usados junto, criando uma interface mais poderosa que uma ou outra modalidade separadas.

Cohen (1992) mostra como a interacção da linguagem natural é concebida para técnicas des- critivas, enquanto a interacção gestual é ideal para a manipulação directa dos objectos. Por o exemplo, ao contrário da entrada gestual ou com o rato, a fala não está presa a uma metáfora espacial. O que significa que a fala pode interagir com os objectos não obstante o grau da sua exposição visual, particularmente valioso em ambientes virtuais onde os objectos podem ser escondidos ou ocultos noutros objectos. Algumas tarefas são essencialmente gráficas, outras são verbais, no entanto outras requerem a entrada vocal e gestual para serem concluídas. Assim permitir ambos os tipos de entrada maximizam a utilidade de uma interface feita a escala das tarefas que podem ser feitas de uma forma intuitiva. Cohen indica muitos atributos de comple- mentaridade da manipulação directa e da linguagem natural (Buxton, 2002).

26 Scott S. Fisher é um media artista e designer de interacção cujo o trabalho foca essencialmente ambientes interactivos e tecnologias de presença. Conhecido pelos seus trabalhos pioneiros nas areas de Realidade Vir- tual na NASA, a experiência de Fisher na indústria dos media inclui ainda Atari, Paramount, e suas próprias empresas Telepresence Research e Telepresence Media. Estudou no MIT’s Architecture Machine Group (agora Media Lab), na UCLA e UCSD, foi professor na Universidade de Keio no Japão (em linha: http://www.itofisher.com/sfisher/ consultado em 17.11.07).

27 Johanson, B.; Fox A.; Winograd, T. The Interactive Workspaces Project: Experiences with Ubiquitous Computing Rooms. IEEE. Pervasive Computing Magazine 1, April-June, 2002.

A combinação da fala e do gesto melhora a exactidão do reconhecimento e leva um período de tempo mais rápido na conclusão da tarefa comparado com apenas a fala. Usando um discurso multimodal e uma interface baseada na Pen, Oviatt (1996) avaliou o desempenho do utilizador no mapa de tarefas executadas com apenas o uso da fala, apenas da Pen, ou da entrada da fala combinada com a Pen. Ela descobriu que a entrada multimodal produzia uma redução de 36% em erros nas tarefas e 23% que poucas palavras faladas resultavam em 10% de tempo mais rápido comparado com interface de fala apenas. Igualmente, Martin (1989) descobriu que as pessoas que usavam a entrada da fala nos programas do CAD podiam per- manecer focalizados visualmente no ecrã ao usar o comando da fala, causando uma melhoria de 108% na entrada de teclado puramente em excesso de produtividade. Isto era devido ao canal adicional de resposta fornecida pela entrada da fala para além de ser o canal mais efi- ciente a nível da resposta do que a entrada dactilografada. (Buxton, 2002).

5.4. DESEMPENHO HUMANO NO CONTROLO DOS DISPOSITIVOS DE ENTRADA

No documento Faculdade de Ciências Humanas e Sociais (páginas 45-48)

Documentos relacionados