A engenharia da linguagem oral - Reconhecimento de Fala de Oradores Estrangeiros

16 A engenharia da linguagem oral

cancelamento adaptativo de rudo

| utiliza dois ou mais microfones, um para cap- tar o sinal de fala corrompido por rudo e os restantes para captarem o rudo (Wi- drow et al., 1975 Harrison et al., 1984 Martins et al., 1990 Teixeira et al., 1993b Martins, 1998b).

Os rudos de baixa frequ^encia podem ser atenuados acusticamente com interfer^encias destrutivas, produzidas por fontes acusticas secundarias. Tambem neste caso, e importante utilizar um ou mais microfones secundarios. Desta forma, conseguem-se atenuac~oes tpicas superiores a 10dB numa zona com um raio de cerca de um decimo do comprimento da onda acustica, em redor de um unico destes microfones. Esta tecnica, designada por cancelamento activo de rudo, e adequada a espacos de pequena dimens~ao, tais como o da cabina dos automoveis, dos avi~oes a jacto ou de helicopteros (Elliot e Nelson, 1993 Lopes et al., 1998).

De referir ainda que existem tecnicas baseadas em agregados de microfones (\beam- forming microphone arrays") que permitem identi car a posic~ao de determinadas fontes acusticas, por exemplo, um orador espec co num auditorio (Lin et al., 1994 Kellermann, 1997).

Este tipo de soluc~oes s~ao contudo pouco efectivas quando o rudo e do tipo impulsivo.

Numa perspectiva mais vasta e integrada com o proprio reconhecedor, surgem alterna- tivas como a da generalizac~ao dos HMMs convencionais para uma decomposic~ao optima de processos simult^aneos (Varga e Moore, 1990). Com o uso de modelos perceptuais, que resultam do modelamento dos fenomenos acusticos siologicos e psicologicos que ocorrem no ouvinte humano, t^em-se conseguido melhorias no desempenho dos sistemas de reconhecimento (Hermanski, 1990b Hermanski, 1990a Perdig~ao, 1997).

Introduc~ao 17 senciais a resolver que est~ao directamente relacionados com a necessidade de se converter uma destas manifestac~oes da linguagem na outra: o reconhecimento e a sntese de fala.

Noutras circunst^ancias, pretende-se utilizar uma representac~ao e ciente para o sinal de fala, minimizando as diferencas perceptuais entre o sinal original e o sinal que e possvel sintetizar a partir dessa representac~ao. Este e o problema da codi cac~ao da fala.

Os problemas referidos correspondem a areas de investigac~ao bem delimitadas e com algumas metodologias proprias. Contudo, tendo por refer^encia comum o sinal de fala, cada area partilha de muitas das metodologias utilizadas nas outras areas, como por exemplo:

a representac~ao espectral, os modelos de predic~ao linear, a quanti cac~ao vectorial, etc.

A sntese de fala representa, pelo menos, uma necessidade para muitas das aplicac~oes descritas utilizando o reconhecimento de fala automatico. Quando se tem de falar com uma maquina espera-se uma resposta tambem oral. Esta necessidade torna-se natural e indispensavel para as aplicac~oes mais so sticadas que utilizam a rede telefonica publica.

Conforme se referiu na subsecc~ao 1.2.3, as actuais aplicac~oes do reconhecimento de fala s~ao relativamente simples, sendo a sntese automatica de fala a partir de texto substituda com e cacia, em muitos casos, por mensagens pre-gravadas.

A codi cac~ao da fala e um problema tpico das telecomunicac~oes que tem por objectivo a transmiss~ao ou o armazenamento do sinal de fala de forma economica e segura (Trancoso, 1987 Marques et al., 1990 Ribeiro, 1991 Abrantes, 1992). Trata-se, em geral, de um problema de reduc~ao da largura de banda utilizada para a transmiss~ao do sinal. Uma de nic~ao preliminar de um codi cador ideal poderia ser concretizada com a exist^encia de um reconhecedor e um sintetizador de fala ideais, associados em serie. Esta de nic~ao so poderia estar certa se a informac~ao contida na linguagem escrita fosse equivalente a do sinal de fala de onde foi extrada. A codi cac~ao de fala e utilizada no canal entre dois interlocutores humanos que precisam ter conhecimento, a todo o momento, de dados que lhe permitam identi car o outro interlocutor e o seu estado emocional. Este tipo de dados n~ao existe numa transcric~ao vulgar do sinal de fala. Ainda assim, a integrac~ao de metodologias do reconhecimento e da sntese de fala, perspectiva uma nova gerac~ao de codi cadores de fala.

O problema do reconhecimento da fala, tema central deste trabalho, encontra soluc~oes essencialmente nas areas do reconhecimento de padr~oes e do processamento de sinais, sendo objecto de inumeros trabalhos e publicac~oes de reconhecido valor nestas areas. O caracter interdisciplinar deste tema abrange, contudo, muitas outras disciplinas.

O reconhecimento de padr~oes

contribui com os metodos para o agrupamento de dados por forma a determinar modelos representativos desses mesmos dados. Esse

18 A engenharia da linguagem oral agrupamento e por sua vez func~ao de determinadas medidas de dist^ancia para com- parac~ao entre esses modelos e os proprios dados. Recentemente, ganham relev^ancia as tecnicas associadas as redes neuronais (Lippmann e Gold, 1987 Almeida, 1993 Cook e Robinson, 1995 Neto, 1998).

O processamento de sinais

devera providenciar a informac~ao relevante do sinal de fala, de forma robusta e e ciente (nomeadamente em tempo real). Os par^ametros de natureza espectral s~ao muito utilizados para caracterizar as propriedades de varia- c~ao no tempo do sinal de fala. A obtenc~ao deste tipo de par^ametros de forma e caz e objecto do estudo do processamento de sinais. Ainda neste contexto, encontram-se metodos de melhoramento do sinal, tais como os de reduc~ao de rudo.

A fsica

encontra-se representada nesta area atraves da acustica e da sua relac~ao com a siologia da produc~ao e da percepc~ao do sinal. O conhecimento destes aspectos tem sido explorado sob diversas perspectivas. Talvez a mais continuada tenha sido a de, na medida do possvel, imitar os mecanismos siologicos da percepc~ao, nomeadamente os que ocorrem no ouvido ate a convers~ao electroqumica para os nervos auditivos.

A teoria da informac~ao

e da comunicac~ao contribui com metodos para a obtenc~ao de estimativas para os par^ametros dos modelos estatsticos e com metodos de detecc~ao de determinados padr~oes no sinal de fala.

A lingustica

contribui com todo o conhecimento sobre o sinal de fala, a comecar na fonologia, na relac~ao entre as palavras com a sintaxe, ate ao seu signi cado e sentido, com a sem^antica e a pragmatica. Estes ultimos aspectos s~ao tambem comuns a linguagem escrita e s~ao objecto de estudo da disciplina da compreens~ao da linguagem natural, habitualmente classi cada na area da intelig^encia articial.

A informatica

e a ci^encia da computac~ao possibilitaram a implementac~ao dos actuais e so sticados metodos de busca utilizados no reconhecimento de fala. Contudo, estas areas bene ciam essencialmente dos sucessivos avancos da microelectronica na tecnologia dos semicondutores, que tem permitido uma vulgarizac~ao crescente da utilizac~ao de memorias e de processadores de grande capacidade e rapidez.

A psicologia

desempenha actualmente um papel importante na adequac~ao das aplica- c~oes e respectivas interfaces com o utilizador humano. Existem ainda aspectos relacionados com a aprendizagem da lngua, a percepc~ao da fala, o estado emocional, etc., que devem ser considerados no desenvolvimento dos modelos e das aplicac~oes de reconhecimento.

Introduc~ao 19

No documento Reconhecimento de Fala de Oradores Estrangeiros (páginas 44-47)