• Nenhum resultado encontrado

Emprego dos Parâmetros MGC em Síntese de Fala via HMM

Capítulo 4 Modelo Mel-Cepstral Generalizado

4.7 Características do Modelo e Emprego dos Parâmetros MGC em Síntese de Fala Via

4.7.3 Emprego dos Parâmetros MGC em Síntese de Fala via HMM

A técnica de seleção de unidades evoluiu de forma a se tornar a abordagem dominante em conversão texto-fala. A qualidade da síntese por tal técnica é derivada diretamente da qualidade das gravações de sua base, já que ela retém unidades de fala basicamente inalteradas. Já a síntese paramétrica estatística [32], cuja instância principal é a síntese de fala via HMM, que tem crescido em popularidade nos últimos anos, pode ser descrita, de maneira simples, como uma geração de médias de conjuntos de segmentos de fala com sonoridades similares. Apesar do contraste direto com a abordagem dominante, a síntese via HMM tem trazido alguns benefícios em qualidade, o que tem sido constatado em testes subjetivos. A maioria de tais benefícios recai sobre

114

a flexibilidade devido ao processo de modelagem estatística. Um deles corresponde à possibilidade de modificação das características da voz e do estilo de fala do locutor, por técnicas como adaptação e interpolação de locutor. Outro corresponde à cobertura do espaço acústico. Na síntese por seleção de unidades, a seleção é feita a partir de um conjunto finito de segmentos, o que leva a problemas na junção dos mesmos. A síntese paramétrica estatística, por sua vez, usa a estatística para gerar a fala, de maneira que, uma vez que o contexto de um segmento afeta a geração dos parâmetros de fala através do vínculo estabelecido por parâmetros dinâmicos, um intervalo bem mais amplo de

unidades fica efetivamente disponível. Outra vantagem da síntese estatística é o espaço

requerido pelo sistema, que é reduzido, uma vez que são armazenadas estatísticas de modelos acústicos, ao invés de segmentos de fala completos.

Na síntese paramétrica estatística são modelados, basicamente, o espectro, a freqüência fundamental, e a duração da fala. A síntese dos parâmetros gerados é efetuada pelo modelo fonte filtro. Algumas das desvantagens da síntese via HMM são: a baixa qualidade da síntese pela técnica de vocoding, cujo artefato típico é o zumbido; a baixa precisão do modelo estatístico, que faz uso de simplificações que levam a afetar a qualidade da fala sintética; a sobre-suavização das trajetórias dos parâmetros gerados, que levam a síntese a soar abafada. Esta última decorre do processo de médias estatísticas que, apesar de tornar os modelos robustos e levar os parâmetros dinâmicos a gerarem trajetórias suaves (sem problemas de junção como é o caso na síntese por seleção de unidades), remove características detalhadas dos parâmetros de fala. Feitas tais considerações a respeito da síntese paramétrica estatística, aborda-se a seguir o uso dos parâmetros MGC no sistema de síntese e alternativas para amenizar alguns dos problemas mencionados.

A flexibilidade oferecida pelo modelo MGC mediante o ajuste dos parâmetros  e

, e a garantia de estabilidade e bom desempenho sob manipulações [10] (pelo uso dos

parâmetros MGC-LSP), têm feito dos MGC, parâmetros de uso recorrente na modelagem estatística de espectro na síntese via HMM [14].

Um dos problemas do uso dos parâmetros do modelo MGC decorre da seguinte questão: a envoltória do modelo MGC pode vir a registrar as interferências devido ao período fundamental no espectro de fala. Tais interferências se manifestam em oscilações periódicas na curva do espectro. Conforme a freqüência fundamental aumenta, essas oscilações ficam mais lentas, tornando-se passíveis de serem registradas pela curva do modelo MGC. Assim, o uso dos parâmetros MGC obtidos diretamente do

115

espectro de fala, nos HMM, leva os modelos estatísticos de espectro a incorporarem as variabilidades decorrentes de interferências devido à freqüência fundamental. Isso diverge do propósito de se modelar separadamente espectro e freqüência fundamental no sistema de síntese, e conduz a modelos espectrais mais pobres. Uma solução para o problema é o uso de parâmetros MGC obtidos da aplicação da análise MGC a envoltórias pré-suavizadas. O espectro STRAIGHT, que se mostra uma representação de qualidade para a envoltória espectral de fala, tem sido uma alternativa recorrente para tal propósito, e possibilita ordens mais altas para os parâmetros MGC a serem modelados nos HMM. O STRAIGHT [33] é um sistema de vocoding de alta qualidade que extrai os valores de freqüência fundamental F0 e os utiliza em uma análise espectral adaptativa a F0 combinada a um método de reconstrução de superfície na região tempo- freqüência para remover as interferências da periodicidade do sinal de fala. A Figura 4.6 compara as curvas obtidas pela análise Mel-Cepstral convencional ( = 0) de ordens 24, 39, e a análise Mel-Cepstral de ordem 39 aplicada ao espectro STRAIGHT. Nota-se que ambas as análises Mel-Cepstrais convencionais de ordem 24 e 39 registram as interferências de F0 no espectro; o que não ocorre na análise Mel-Cepstral aplicada ao espectro STRAIGHT [34] (Figura 4.6).

Figura 4.6: envoltórias obtidas por análise mel-cepstral ( = 0) aplicada diretamente a um espectro de fala (FFT) (ordem 24 e 39) e ao espectro pré-suavizado STRAIGHT (ordem 39) [34].

A seguir são comentados alguns dos métodos que levam a amenizar os problemas da síntese paramétrica estatística, já citados.

116

O problema da presença do zumbido na fala sintética, artefato típico de Vocoders que fazem uso de fontes simples do tipo trem de impulsos/ruído, tem sido amenizado pelo adoção de modelos de excitação/resíduo mista, cujos parâmetros são integrados no treinamento dos HMM. Alguns exemplos são os modelos de excitação mista do STRAIGHT [35] e aqueles de [36] e [37] [38].

Para o problema da sobre-suavização das trajetórias dos parâmetros gerados, que leva a síntese a soar abafada, melhoras significativas tem sido obtidas pelo uso de um algoritmo de geração de parâmetros considerando Variância Global (GV – Global

Variance) [39]. Tal algoritmo se propõe a recuperar o intervalo dinâmico das trajetórias

dos parâmetros gerados para aproximá-las das trajetórias naturais. Destaca-se que o desempenho da Variância Global é altamente dependente dos parâmetros de espectro. Bons desempenhos têm sido obtidos com o uso dos coeficientes Mel-Cepstrais ( = 0) extraídos, como parâmetros de espectro, a partir da envoltória do STRAIGHT. Isso se relaciona ao fato de sua representação não registrar interferências de F0, o que ocorre na representação pelos Mel-Cepstrais convencionais [34] (ver Figura 4.6). Apesar de os parâmetros MGC-LSP ( ≠ 0) terem bom desempenho sob quantização e interpolação [10], o que os tornaria, a priori, uma boa escolha para parâmetros de espectro nos HMM§, testes subjetivos mostram que, sob a adoção de GV e transformações como a MLLT (Maximum Likelihood Linear Transform) seu desempenho é inferior àquele dos parâmetros Mel-Cepstrais [14] (todos extraídos da análise aplicada à envoltória pré- suavizada do STRAIGHT). Alguns dos problemas da adoção de parâmetros do tipo LSP em síntese paramétrica estatística são abordados em [32].

§

A modelagem estatística tem relação próxima à quantização e a síntese tem relação próxima à interpolação [14].

117

Documentos relacionados