• Nenhum resultado encontrado

1.2 Publicações

2.1.2 Pré-processamento do texto

2.1.5.2 Sintetizadores baseados em concatenação de unidades

Os sintetizadores concatenativos produzem um sinal de fala através da concatenação de segmentos de fala natural, previamente gravados e armazenados numa base de dados.

Um dos principais aspectos a ter em conta neste método diz respeito ao tamanho das uni- dades de fala a concatenar. Em se tratando de síntese de fala a partir de texto irrestrito, o recurso a palavras é totalmente inviável: a gravação de milhões de formas lexicais e a sua rápida recupera- ção para a síntese implicaria custos de armazenamento imensos, já para não falar da necessidade em actualizar constantemente o inventário de unidades, de modo a contemplar as novas siglas e neolo- gismos que todos os dias são incorporados à língua. O mesmo acontece em relação às sílabas, cujo inventário, embora menor, continua a ser demasiado elevado para poder ser usado num sistema TTS. Quanto aos fones, embora em número restrito, têm o problema de gerar descontinuidades espectrais muito significativas, quando usados num contexto fonético muito distinto do original, pondo em causa a inteligibilidade do sinal (Harris, 1953, apud Barbosa, 2001).

O maior desafio enfrentado no processo de elaboração de um inventário de unidades é, en- tão, “to capture key coarticulation phenomena while, at the same time keeping the number of units small” (Sproat, 1998, p.200-201). A solução encontrada para lidar com o fenómeno de coarticulação e ao mesmo tempo controlar o tamanho do inventário, passa, actualmente, pela utilização de demissí-

labas, difones, ou outro tipo de unidades com características mistas, que designaremos genericamente

por polifones.

Quando comparadas com os fones e difones, as demissílabas (Fujimura & Lovins, 1978) - unidades que representam metade de uma sílaba, dividida no centro da vogal - implicam substanci- almente menos pontos de concatenação, sendo simultaneamente capazes de capturar grande parte do fenómeno coarticulatório. As desvantagens da utilização das demissílabas como blocos constituintes básicos do sinal de fala sintetizada continuam a estar relacionadas com os custos computacionais (o número de demissílabas é superior aos difones) e, sobretudo, com a impossibilidade de sintetizar to- das as palavras possíveis, apenas com base num sistema baseado em demissílabas (Lemmetty, 1999). Contudo, estas podem ser usadas com sucesso em sintetizadores que recorrem simultaneamente a unidades de tamanho variável (Portele et alii, 1992).

Entre as unidades mais usadas nos sistemas de síntese por concatenação estão os difones ou díades (Peterson et alii, 1958), unidades acústicas que se estendem da região estável de um fone até à região estável do fone seguinte. A principal vantagem dos difones reside na minimização das referidas descontinuidades, já que a transição entre os fones é inteiramente preservada. Isto significa

que o processo de junção das unidades tem lugar precisamente nas regiões mais estáveis do sinal, o que reduz drasticamente as distorções decorrentes do processo de concatenação. Estima-se que, em português, um dicionário de cerca de 1000 elementos seja suficiente para sintetizar todas as palavras da língua (Simões, 1999), enquanto para o francês e o inglês, o número aumenta para 1200 (Dutoit, 1997, p.187) e 1300 difones (Huang et alii, 2001, p.790), respectivamente.

Se a utilização de difones permitiu melhorar substancialmente a qualidade da síntese, os problemas de inteligibilidade persistem em relação a alguns sons, nomeadamente aqueles com uma duração muito curta ou que, em virtude das suas características dinâmicas, não possuem uma região estável. Uma das alternativas passa por considerar sequências de tamanho superior ao difone (e.g. as vogais átonas podem ter de ser inseridas num trifone). Numa altura em que a memória computacional não é mais um problema, unidades de tamanho variável - designadas de poliphones ou N-phone units (Holmes & Holmes, 2001, p.72) - são uma das soluções mais populares.

Uma vez seleccionado o conjunto de unidades a concatenar, o processo de criação do dicio- nário de unidades básicas consiste em 1) efectuar a gravação de amostras de fala natural, contendo as unidades alvo; 2) segmentar as amostras, manual ou automaticamente, de forma a isolar as unidades escolhidas; 3) e armazenar as unidades numa base de dados, juntamente com todas as informações úteis, para posterior utilização pelo sistema de síntese.

Segue-se a fase de síntese propriamente dita, durante a qual os trechos de som pré-gravados - sejam eles demissílabas, difones ou outros - necessários para realizar o enunciado a sintetizar são seleccionados, a partir do dicionário, e concatenados, procurando suavizar as descontinuidades es- pectrais nas junções. Parte deste problema pode ser minimizado mediante uma escolha adequada das unidades base - como foi já referido anteriomente - e do controle rigoroso das condições de gravação e segmentação (seleccção de contextos foneticamente neutros, mediante o recurso a logátomos e frases de suporte; leitura das frases, usando uma taxa de elocução e uma F0 constantes ao longo de toda a gravação; segmentação das unidades em regiões espectralmente estáveis do sinal; escolha adequada do informante). Para além disso, a eficiência do processo de concatenação depende ainda da técnica de processamento do sinal utilizada.

A par da concatenação das unidades pré-gravadas, durante esta fase, é ainda necessário pro- mover uma actualização dos parâmetros prosódicos, de modo a que os segmentos que fazem parte do enunciado a sintetizar venham a ter o contorno prosódico determinado durante a etapa de processa- mento prosódico.

Cabe notar que, não obstante a sua simplicidade15 e qualidade do sinal gerado, o método de síntese em causa não admite alterações prosódicas muito pronunciadas, sob pena de introduzir

15

A elaboração do inventário de unidades e respectiva segmentação constitui, eventualmente, a tarefa mais complexa e demorada de todo o processo. A introdução de algoritmos automáticos para a selecção e segmentação das unidades veio facilitar este trabalho, ainda que os resultados atingidos não sejam totalmente fiáveis. Apesar disso, é actualmente possível construir sistemas de síntese baseados em concatenação de unidades para a maioria das línguas, num curto período de tempo (Sproat, 1998).

graves distorções no sinal. Neste sentido, a síntese por concatenação de unidades mostra-se muito menos flexível do que a síntese de formantes, na medida em que esta última dispõe, como já vimos, de parâmetros que permitem controlar livremente as características da fonte glotal e do tracto oral/ nasal. A esta desvantagem vêm somar-se as já relatadas descontinuidades espectrais decorrentes do processo de concatenação, responsáveis pela sensação de “voz metálica”. Este tipo de efeitos pode ser atenuado - mas jamais compensado totalmente - mediante técnicas de síntese como o Linear

Predictive Coding (LPC), os algoritmos Pitch Synchronous Overlap-Add (PSOLA) ou o mais recente

método Multi-Band Re-synthesis Overlap-Add (MBROLA) (Simões, 1999; Lemmetty, 1999). Muito embora a teoria seja bastante anterior (Peterson et alii, 1958), os primeiros sistemas de síntese de fala por concatenação com base em difones surgem nos finais dos anos 60 (e.g. Dixon & Maxey, 1968, apud Klatt, 1987).

O advento de novos métodos (e.g. predição linear multipulso e método PSOLA), ou a gravação de unidades mais longas (e.g. demissílabas ou trifones) implicará novos ganhos para este tipo de dispositivos, de tal forma que “concatenative synthesis is now the leading approach in speech synthesis, based on numbers of researchers pursuing that approach and numbers of commercial speech synthesizers using it.” (Shadle & Damper, 2001).

A seguinte citação resume, de forma que consideramos esclarecedora, o actual estado de desenvolvimento do método de síntese que nos tem vindo a ocupar:

Currently, the most successful approach for speech generation in the commercial sector is concatenative synthesis. Concatenative synthesizers store segments of natural speech, which are pieced together to form the desired speech output. The best speech quality is currently achieved by so called unit-selection synthesizers. However, all concatenative synthesizers depend on the prerecorded speech material, which can only be modified moderately without a loss of quality. This makes it difficult to simulate arbitrary voices speaking arbitrary languages and to express emotions like happiness or anger. (Birkholz,

2007b)