• Nenhum resultado encontrado

A síntese de fala traduz-se na capacidade de uma máquina produzir fala de uma forma artificial. O seu principal objectivo é permitir o estabelecimento de comunicação entre um ser humano e uma máquina. Idealmente, a fala produzida de forma artificial deverá ser tão próxima quanto possível da fala natural. A síntese de fala é, por isso, uma tarefa difícil e que exige conhecimentos de várias áreas científicas (Ribeiro, 2003; Simões, 1999; Teixeira, 2003).

A vontade de criar voz humana de forma artificial não é recente, remontando as primeiras tentativas aos finais do século XVIII (Kratzenstein -1179, von Kempelen -1791 citados por Ribeiro (2003). No entanto, o aparecimento da teoria acústica de produção de fala nos anos 60 e, posteriormente, os grandes desenvolvimentos a nível computacional e tecnológico em muito contribuíram para uma maior investigação nesta área, e com consequente melhoria nos sistemas de síntese de fala.

2.6.1 Sistemas de síntese de fala

Existem várias técnicas para se conseguir sintetizar fala: 1. utilização de mensagens digitais previamente gravadas

2. concatenação de palavras e frases guardadas, a partir das quais se geram novas frases, (que não foram previamente pronunciadas)

3. conversão de texto em fala - vulgarmente conhecida, no inglês, por Text-to-Speech (TTS) O primeiro sistema é o mais simples para produzir um sinal de fala, uma vez que o sistema se limita a reproduzir mensagens pré gravadas. Nestes sistemas, a qualidade do sinal de voz é boa, e o tempo de resposta é curto. É, no entanto, pouco flexível e é necessário um espaço de memória considerável. Geralmente utilizado para aceder a dados bancários via telefone.

2.6.2 Sistemas conversão Texto-Fala (TTS)

Os sistemas TTS são, hoje em dia, os mais divulgados na comunidade científica. Estes sistemas permitem a produção de qualquer mensagem a partir de texto. Neste processo de síntese estão envolvidas duas fases distintas: (1) fase de processamento linguístico e (2) fase de geração do sinal de voz.

A fase de processamento linguístico tem como objectivo obter uma representação fonológica do texto de entrada. Esta fase engloba uma etapa de pré-processamento do texto, que passa pela normalização do texto para que possa ser manipulado nas etapas seguintes. Após esta etapa, segue-se um módulo de transcrição ortográfico-fonética e, posteriormente, uma etapa de processamento prosódico. A naturalidade da fala nestes sistemas depende em muito desta fase do processo de síntese (Simões, 1999; Teixeira, 2003).

A fase de geração de sinal, ou seja, o processo de síntese do sinal pode ser efectuado de formas diferentes:

(1) síntese de formantes ou síntese baseada em regras (2) síntese por concatenação

(3) síntese articulatória

Cada um dos métodos utiliza de forma diferente a informação gerada nas etapas anteriores do processo de conversão texto-fala. A qualidade do sinal gerado é diferente, existindo vantagens e desvantagens em cada um deles. A síntese concatenativa tem sido a mais utilizada e com bastante sucesso, produzindo sinal de fala de qualidade, mas o sistema que parece ser mais promissor é o de síntese articulatória (Simões, 1999; Teixeira, 2003). Uma vez que o nosso trabalho está de alguma forma relacionado com a síntese articulatória só esta será brevemente abordada.

2.6.2.1 Síntese articulatória

A síntese articulatória procura gerar um sinal de fala o mais realista possível e de melhor qualidade e, para isso, procura que o processo de síntese se aproxime do processo natural da produção de fala. Assim, este tipo de síntese baseia-se na construção de um modelo físico fundamentado na descrição detalhada da dinâmica dos diversos articuladores durante a produção de fala. Os parâmetros típicos, utilizados na síntese, são a posição e movimento dos articuladores nomeadamente da língua, dos lábios, da mandíbula e do velo (Simões, 1999; Teixeira, 2003c). Para implementar um sintetizador articulatório é necessário que se construa um modelo matemático do tracto vocal.

Estes sintetizadores incluem, regra geral, dois subsistemas: um modelo anatomo-fisiológico das estruturas envolvidas na produção de fala e um modelo de produção e propagação do som nessas estruturas. O primeiro modelo permite que se transforme a posição dos diversos articuladores durante a produção de sons em áreas transversais do tracto vocal. O segundo modelo consiste num conjunto de equações que descrevem as propriedades acústicas do tracto vocal. Outros parâmetros têm que ser adicionados para que se consiga modelar correctamente a produção de fala. Uma descrição mais aprofundada destes sistemas poderá ser encontrada em Teixeira, 2000; Teixeira & Vaz, 2001, Teixeira et al, 2004a e Teixeira et al, 2005. Como exemplos deste tipo de sintetizadores podemos referir o sistema CASY (Configurable Articulatory Synthetizer) desenvolvido nos laboratórios Haskins (EUA), o ICP (Institute de la Communication Parleé) Virtual Talking Head, o SAPwindows da Universidade de Aveiro, entre outros (Teixeira et al, 2005).

Comparativamente a outros sistemas de síntese, a síntese articulatória é a mais recente e pouca atenção lhe tem sido atribuída. No entanto, alguns autores (Shadle & Damper citados por Teixeira, et al, 2005) consideram a síntese articulatória como a técnica de síntese mais promissora e com mais futuro. A grande vantagem deste tipo de síntese é a possibilidade de criar fala sintetizada de elevada qualidade. Como desvantagens deste método apontam-se: (1) dificuldades na obtenção de informação relativa ao tracto vocal e às pregas vocais durante a produção de fala, (a maior parte da informação obtida é referente a configurações estáticas, sendo a informação relativa à dinâmica dos articuladores ainda muito incompleta); (2) inexistência de um processo de inversão completo para obter os parâmetros articulatórios a partir de fala natural e (3) complexidade dos cálculos envolvidos (Teixeira et al, 2005).

2.6.2.2 Síntese articulatória para o PE Sintetizador articulatório da UA

Na Universidade de Aveiro, existe já um sintetizador de fala baseado em síntese articulatória - o seu nome é SAP Windows (Sintetizador Articulatório do Português para o Windows) e tem permitido alguma investigação na síntese de alguns sons do PE (desde 1995), nomeadamente na síntese das vogais orais e nasais, consoantes nasais e mais recentemente de fricativas (Teixeira et al, 2005).

Os módulos e etapas do processo de síntese podem ser observados de forma esquemática na Figura 2.10.

Figura 2. 10 - Módulos do sintetizador desenvolvido na UA, utilizando síntese articulatória. Fonte:

Teixeira et al. (2004a).

1) Modelo anatómico

O modelo anatómico utilizado no SAP Windows é uma versão adaptada do sintetizador existente na Universidade da Florida que, por sua vez, é baseado no modelo de Mermelstein (1973) (Figura 2.11). Os articuladores são o corpo da língua, a ponta da língua ou coroa, a mandíbula, os lábios, o velo e o hióide. Neste modelo, assume-se que há simetria médio-sagital para estimar a área transversal. As áreas transversas não são determinadas de forma directa. Utiliza uma grelha não regular para calcular as áreas das diversas secções e o comprimento do tracto vocal (Figura 2.12).

Figura 2. 11 - Tracto vocal baseado no modelo de Mermelstein. Fonte:Teixeira et al. (2005).

Figura 2. 12 - Grelha não regular utilizada para cálculo das áreas. Fonte: Teixeira (2000).

O modelo do tracto nasal (Figura 2.13) é utilizado quando se pretendem sintetizar sons nasais. A cavidade nasal é modelada de forma semelhante à cavidade oral podendo ser considerada um ramo lateral do tracto vocal. Na cavidade nasal, a função de área é fixa para a maior parte do tracto, com excepção da zona do velo, que varia com o grau de acoplamento. O sintetizador permite ainda a inclusão dos seios peri-nasais no modelo.

2) Modelo acústico

O modelo acústico utilizado baseia-se na técnica de simulação da propagação do som no domínio da frequência. Foram feitas algumas aproximações: (1) assume-se que a propagação é planar, (2) que o tracto é um tubo e (3) que o tubo é aproximado pela concatenação de tubos acústicos elementares com área constante. Um circuito equivalente, representado por uma matriz de transmissão, modela cada um dos tubos elementares (Teixeira et al, 2004a; Teixeira et al, 2005).

3) Modelo de fonte glotal interactivo

Foi desenvolvido um modelo de excitação glotal que inclui a interacção fonte-tracto, para os sons orais e nasais e que permite o controlo directo dos parâmetros da fonte como, por exemplo, a Frequência Fundamental (F0). Para a modelação de diferentes sons há a necessidade de juntar outros módulos. Por exemplo, para sintetizar fricativas é necessário incluir um modelo acústico que simule o ruído característico na produção desses sons.

Na Figura 2.14 pode observar-se em (a) a definição de parâmetros para obter a palavra António [6~tOniu] e em (b) a síntese da palavra.

Figura 2. 14 - Definição de parâmetros (esquerda) e síntese (direita) de [6~tOniu]. Fonte: Teixeira

et al.(2004a).