Sistemas Single-Stream - MÓDULO DE DESCODIFICAÇÃO

em Português Europeu Recorrendo a Streams Audio-Visuais

4. MÓDULO DE DESCODIFICAÇÃO

5.1 Sistemas Single-Stream

Na tabela 1 mostramos os resultados obtidos para o reconhecimento áudio e vídeo obtido para a relação sinal-ruído original (SNR=40dB), em duas tarefas de reconhecimento diferentes. Numa das tarefas pretende-se reconhecer uma sequência de 9 dígitos que compõe o número de telefone. A outra tarefa consiste no reconhecimento da frase completa, constituída pelo número de telefone seguido do nome próprio e do apelido (ver secção 3.1).

Tabela 1: Resultados Single-Stream.

Taxa de Erro (Word Error Rate - WER) e Frases Certas (Sentence Accuracy - SA).

Tipo Reconhecimento /Tipo Frase WER (%) SA (%)

Áudio / 9 Dígitos 0.19 99.16

Áudio / Frase Completa 3.25 52.10

Vídeo / 9 Dígitos 15.59 36.97

Na tabela 2 encontram-se representados os valores da taxa de erro apenas para o descodificador áudio para diferentes relações sinal-ruído na tarefa de reconhecimento da frase completa.

Tabela 2: Resultados Single-Stream áudio para diversas relações sinal-ruído. SNR (dB) WER (%) 5 63.30 10 53.04 15 45.09 20 31.77 25 14.53 30 12.69 40 (original) 3.25

5.2 Sistemas Multi-Stream

No reconhecedor multi-stream, a complementaridade das informações associadas aos

streams áudio e vídeo permite a redução da taxa do erro quando o valor de SNR é

elevado, correspondendo ao ambiente acústico verificado durante a gravação da BD, e também quando o canal acústico é afectado com ruído aditivo do tipo gaussiano. Os resultados que a seguir se apresentam referem-se à tarefa do reconhecimento da frase completa.

Na tabela 3 podemos ver os resultados multi-stream obtidos para a relação sinal-ruído original. Podemos observar aqui a melhoria da taxa de reconhecimento quando os dois streams são combinados com um determinado valor na relação áudio/vídeo. O peso atribuído aos streams correspondente aos valores 0.93/0.07 foi afinado usando 100 frases pertencentes ao conjunto de treino e desenvolvimento. As taxas apresentadas aqui foram obtidas com as frases de teste, nunca usadas até então.

Tabela 3: Resultados Multi-Stream para diferentes pesos relativos Áudio-Vídeo. Peso Áudio Peso Vídeo WER (%)

1.00 0.00 3.25 0.93 0.07 1.25 0.00 1.00 31.96

De seguida apresentamos resultados do nosso reconhecedor, adicionando previamente ruído branco às faixas de áudio da base de dados, para simular uma situação real em que exista ruído ambiente. Tal como no caso anterior, a afinação dos pesos Áudio/Vídeo foi obtida usando 100 frases pertencentes ao conjunto de treino e desenvolvimento, deixando as frases de teste apenas para a avaliação final. O valor da relação sinal-ruído original das frases tem o valor aproximado de 40dB.

Tabela 4: Resultados Multi-Stream para diferentes valores de SNR. Peso Áudio Peso Vídeo SNR (dB) WER %

0.93 0.070 40 (original) 1.25 0.925 0.075 30 4.11 0.93 0.070 25 6.00 0.75 0.250 20 15.88 0.45 0.550 15 23.92 0.1 0.900 10 27.77 0.05 0.950 5 28.80

O gráfico seguinte apresenta as curvas de desempenho, obtidas pelos reconhecedores construídos, em função do valor da relação sinal-ruído.

0 10 20 30 40 50 60 70 5 10 15 20 25 30 35 40 SNR - Áudio (dB) WE R % Áudio Vídeo Áudio+Vídeo

Figura 4: Evolução da taxa do erro para diferentes valores de SNR e reconhecedores: single-stream

áudio, single-stream vídeo e multi-stream.

Como a figura 4 mostra, o reconhecedor baseado apenas nas características áudio apresenta uma acentuada degradação do desempenho, sobretudo para valores de SNR inferiores a 25dB. Com a inclusão do stream vídeo no processo de reconhecimento, verifica-se uma melhoria substancial na taxa de erro. Esse bom desempenho equivale a um claro ganho na relação SNR: com o descodificador multi-stream obtivemos um ganho efectivo nunca inferior a 5dB para taxas de erro iguais quando comparado com o

reconhecedor single-stream áudio, chegando a valores acima de 10dB (para um WER de 4%). O uso de características visuais não torna apenas o sistema mais insensível a perturbações externas. Apesar de os reconhecedores baseados exclusivamente em

streams acústicos apresentarem taxas de erro reduzidas em situações de quase ausência

de ruído, a inclusão de streams visuais possibilita que essa taxa de erro diminua consideravelmente. Para a relação sinal-ruído original (aproximadamente 40dB) a taxa de erro diminuiu de 3.25% para 1.25% o que significa um ganho relativo de 62%rel.

6. CONCLUSÕES

Os resultados obtidos com este trabalho demonstram experimentalmente que a utilização simultânea de características acústicas e visuais constitui uma abordagem muito eficaz para aplicações de reconhecimento de fala contínua em português europeu. Essa eficácia traduziu-se, nos resultados aqui apresentados, por uma acentuada redução da taxa do erro ao nível da palavra (WER): numa situação de quase inexistência de ruído, esse ganho foi estimado em aproximadamente 62%rel; em situações de ambiente

acústico não controlado, com a relação sinal-ruído variando no intervalo de 5dB a 40dB, verificou-se um decréscimo da taxa do erro entre os valores 47% rel (para um SNR de

15dB) e 68% rel (para um SNR de 30dB). Interessa sublinhar a demonstração feita da

7. REFERÊNCIAS

[Bourlard, et al. 1996] Bourlard H., Dupont S., and Ris C., “Multi-Stream Speech Recognition”, IDIAP-RR 96-07, 1996

[Cheok, et al. 2001] Cheok, A., National University of Singapore, DSTA Report for project on Multi-Modal Speech Recognition: developing the first Asian audio-video corpus, World Wide Web,

www.ece.nus.edu.sg/stfpage/eleadc/dsta/report-DSTA-D1-v2a.pdf

[Hennecke, et al. 1994] Hennecke M., Prasad V., and Stork D., “Using deformable templates to infer visual speech dynamics”, 28th Annual Asimolar Conference on Signals, Systems, and Computer: vol 2 pp. 576-582, Pacific Grove, CA. IEEE

Computer, 1994

[Iwano, et al. 2001] Iwano K., Tamura S. and Furui S., “Bimodal Speech Recognition using Lip Movement Measured by Optical-Flow Analysis”, 2001

[Kass, et al. 1998] Kass M., Witkin A., and Terzopoulos D., “Snakes: active contour models”, International Journal of Computer Vision: vol 1 pp. 321-332, 1998

[Lewis, et al. 2000] Lewis T. and Powers D., “Lip Feature Extraction Extraction using Red Exclusion”, World Wide Web, www.cs.usyd.edu.au/~vip2000 , 2000

[MESSER99] Messer K., Matas J., Kittler J., Luettin J., Maitre G., "XM2VTSDB: The Extended M2VTS Database.", Second International Conference on Audio and Video-based Biometric Person Authentication (AVBPA'99), Washington D.C.,1999

[Potamianos, et al. 2001] Potamianos G. and Neti C., “Automatic Speechreading of Impaired Speech”, Proceedings of the International Conference on Auditory-Visual

Speech Processing, pp. 172-182, Aalborg, 2001

[Pigeon 1997] Pigeon, S. and Vandendorpe, L., “The M2VTS multimodal face database (release 1.00)”, Proceedings of the First International Conference on Audio- and

Video-based Biometric Person Authentication, Crans-Montana, Switzerland, 1997

[Stiefelhagen, et al. 1997] Stiefelhagen R., Yang J., and Meier U., “Real-time lip tracking for lip reading”, Proceedings of Eurospeech 97, 1997

[Young, et al. 1993] Young, S.J., Woodland, P.C. and Byrne, W.J. (1993), HTK:

Hidden Markov Model Toolkit V1.5, Cambridge University Engineering

Department Speech Group and Entropic Research Laboratories Inc.

[Rabiner, 1989] Rabiner L.R., “ A tutorial on Hidden Markov Models and selected applications in Speech Recognition”, Proceedings of IEEE, VOL.77, No. 2,

No documento Actas do 2º Workshop de Sistemas de Informação Multimédia, Cooperativos e Distribuídos (CoopMedia 2003) (páginas 51-56)