Reconhecimento das Línguas de Sinais a partir de vídeo em LS Esta sessão trata da tradução intersemiótica, que não engloba a

3. ARTEFATOS DE APOIO AO ACESSO DOS SURDOS AO AUDIOVISUAL

3.5 SISTEMAS DE TRADUÇÃO AUTOMÁTICA

3.5.1 Reconhecimento das Línguas de Sinais a partir de vídeo em LS Esta sessão trata da tradução intersemiótica, que não engloba a

tradução entre línguas, mas sim entre os meios de representação de vídeo para escrita. Este tipo de tradução pode ser observada em tecnologias de reconhecimento de voz, no caso de línguas orais, ou de reconhecimento de gestos, no caso de línguas de sinais (WANG et al., 2008; ALLEN; ASSELIN; FOULDS, 2003; HONG; TURK; HUANG, 2000).

Dreuw et al. (2010) desenvolvem um projeto que visa trabalhar com o reconhecimento e tradução das línguas de sinais de modo análogo ao reconhecimento de fala e tradução estatística por máquina das línguas faladas. O objetivo da iniciativa é traduzir a língua de sinais de modo contínuo a partir da aplicação de técnicas de visão computacional em seu reconhecimento, permitindo a oferta de recursos de tradução de vídeo para texto em LS.

A abordagem de Dreuw et al. (2010) visa superar os problemas citados por Ong e Ranganath (2005), em relação ao reconhecimento automático de LS a partir de vídeos,

A análise automática de gestos em LS já percorreu um longo caminho desde seus primórdios quando meramente classificava sinais estáticos e alfabetos. Trabalhos atuais podem lidar com sinais dinâmicos que envolvem movimentos e que aparecem em sequências continuas. Muita atenção tem sido focada na construção de sistemas de reconhecimento de grandes vocabulários. A esse respeito, sistemas baseados em visão computacional ficam atrás de sistemas que adquirem dados dos gestos com dispositivos de medição direta. A robustez do ambiente de captura de imagem também é um problema. Dois aspectos do reconhecimento de gestos que não receberam muita atenção é a construção de sistemas de reconhecimento independentes de sinalizantes e a abordagem de aspectos mais difíceis da sinalização, tais como inflexões gramaticais e sinais miméticos. Além disso, os sinais não manuais tem recebido pouca atenção. O entendimento dos sinais não manuais e sua interpretação em conjunto com o reconhecimento de gestos são vitais para o entendimento da

comunicação em LS (ONG, RANGANATH, 2005, p. 886, tradução nossa).

O sistema de reconhecimento ao utilizar a tradução estatística requer um grande corpora de anotações bilíngues. Além disso, no reconhecimento da LS devem ser tratadas as variações intrapessoais, como a velocidade e aparência do sinal, assim como as diferenças interpessoais presentes na apresentação das LS (DREUW et al., 2008).

No contexto nacional, o Sensor Libras é um sistema para tradução automática da Libras para o português que utiliza luvas de dados (TAVARES; BARBOSA; LEITHARDT, 2009), entretanto está focado apenas nos aspectos manuais dos sinais.

Para o reconhecimento e tradução das línguas de sinais de modo continuo é necessário seu melhor entendimento linguístico, pois o reconhecimento de grandes vocabulários em línguas de sinais a partir de modelos de palavras inteiras não é adequado, sendo inviável produzir material suficiente para treinar os modelos de cada palavra (DREUW et al., 2010).

Como solução para o reconhecimento de grandes vocabulários por meio de visão computacional, Dreuw et al. (2010) propõem o uso de modelos fonológicos que dividam cada palavra em subunidades. Desta forma o treinamento pode focar no reconhecimento de cada uma dessas subunidades, e as palavras podem ser modeladas como a junção destas subunidades, fornecendo um modelo mais robusto para o reconhecimento e permitindo que palavras que não estiverem no conjunto de treinamento também possam ser reconhecidas.

Outros aspectos devem ser considerados no reconhecimento automático de LS:

• Simultaneidade: a maior diferença entre o reconhecimento de línguas faladas diante as línguas de sinais é o uso em paralelo de diferentes canais de comunicação , como expressões faciais, movimentos da mão e postura corporal. • Espaço de sinalização: entidades, tais

como pessoas e objetos, pode ser armazenadas no espaço em torno do sinalizante por meio da execução do sinal em determinada localização e depois apenas referenciá-las apontando para a localização;

• Coarticulação e Epêntese: assim como no reconhecimento da fala, o reconhecimentos de sinais deve considerar os efeitos da coarticulação e da epêntese. A epêntese consiste nos movimentos que ocorrem regularmente quando se move de um estado final de um sinal para o inicio de outro. Este movimento não tem significado em si mas contribui para a informação fonética que é percebida;

• Silêncio: no reconhecimento de fala espaços de silêncio podem ser detectados pela medição da energia do sinal de áudio dentre as sentenças. Entretanto o silêncio na língua de sinais não pode ser reconhecido pela ausência de movimento no vídeo, pois existem sinais que são executados com a parada temporária em uma pose particular no espaço de sinalização durante determinado tempo. Alem disso a posição de descanso das mãos podem ser em outro lugar no espaço de sinalização. • Dialetos e diferentes intérpretes: o

reconhecimento deve ser robusto para que possa ser independente da pessoa que o opera e deve tratar diferentes dialetos de línguas de sinais. (DREUW et al., 2008, tradução nossa).

No processo de reconhecimento são utilizados técnicas como o rastreamento visual de objetos e extração de parâmetros, os quais são fornecidos a um software de classificação do objeto rastreado. Devido à imprecisão no reconhecimento por visão computacional, Aznar, Dalle, Ballabriga (2006) ao adotar a abordagem bitewise para codificação dos sinais, afirmam que

no reconhecimento de vídeo, a abordagem bitewise oferece a vantagem da finalização fuzzy: caso um símbolo especifico não seja completamente reconhecido, pode-se definir os bits para identificar quais parâmetros foram reconhecidos (como a rotação, elemento, etc.) e os

outros parâmetros podem ser informados pelo usuário, ou deduzidos de acordo com o contexto (sinais previamente usados, etc.)(AZNAR; DALLE; BALLABRIGA, 2006, p.31).

É possível o treinamento de um sistema de reconhecimento de LS a partir de vídeos que possuem legendas textuais e janela com o intérprete de Libras (COOPER; BOWDEN, 2009).

De modo similar, Buehler, Everingham e Zisserman (2009) propõem um modelo baseado em aprendizagem de máquina com supervisionamento fraco, que pode aprender sinais da BSL (British Sign Language) a partir de transmissões televisivas que contenham tanto legendas textuais e janela de intérprete de sinais. Para a aprendizagem utilizam técnicas de visão computacional com rastreamento do tronco e descritores extraídos das mãos.

Souza e Pistori (2005) desenvolvem um plugin para o ImageJ que consiste em um extrator de características baseado em momentos da imagem. O plugin é capaz de extrair parâmetros de imagens capturadas, os quais servem de dados de entrada para o processo de reconhecimento de sinais (SOUZA; PISTORI, 2005; PISTORI, 2006).

O reconhecimento da língua de sinais deve ocorrer de modo continuo e gerar uma representação linguística, como a escrita de sinais. Esta representação dos sinais pode gerar uma animação gráfica a partir da composição dos componentes fonológicos dos sinais (EFTHIMIOU et al., 2009).

A próxima sessão descreve técnicas e procedimentos para o reconhecimento de voz e geração de LS a partir de texto e vídeos pré- gravados.

No documento UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPARTAMENTO DE ENGENHARIA E GESTÃO DO CONHECIMENTO Ronnie Fagundes de Brito MODELO DE REFERÊNCIA PARA DESENVOLVIMENTO DE ARTEFATOS DE APOIO AO ACESSO DOS SURDOS AO (páginas 142-146)