• Nenhum resultado encontrado

3.5 Modelos usando escala de freq¨ uˆencia empenada

3.5.3 Transformada mel-cepstral

A transformada cepstral pode ser definida para escalas perceptivas usando t´ecnicas de processamento de sinais em escalas empenadas. Grande parte dos tra- balhos que usam o cepstro usam tamb´em a escala mel, com implementa¸c˜ao que n˜ao possui reconstru¸c˜ao perfeita. Na sua implementa¸c˜ao mais simples, os coeficientes mel-cepstrais s˜ao calculados fazendo o mapeamento do resultado da primeira FFT na escala mel. Este procedimento ´e ilustrado na Figura 3.11.

FFT mapeamento log FFT-1

na escala mel

Figura 3.11: C´alculo dos coeficientes mel-cepstrais [2].

Alternativas para o m´etodo da Figura 3.11 incluem a substitui¸c˜ao da trans- formada de Fourier por uma transformada de Fourier usando escala de freq¨uˆencia empenada, descrita nos artigos [40, 41, 48]. Contudo, a matriz usada para fazer o c´alculo da transformada de Fourier de tempo discreto se aproxima da singularidade, por isso podem ocorrer problemas ao fazer o c´alculo da transformada inversa.

Para o c´alculo dos coeficientes mel-cepstrais, podemos calcular os coeficientes wLPC usando o m´etodo descrito na Se¸c˜ao 3.5.2 (com ρ escolhido para aproximar a escala mel da equa¸c˜ao (3.52)), e aplicar a rela¸c˜ao descrita na Se¸c˜ao 3.4.1. Outro m´etodo ´e descrito em [49], onde os coeficientes LPC s˜ao primeiro calculados, em um segundo passo ´e aplicada a transforma¸c˜ao bilinear para distorcer o modelo para a escala mel, e no passo final os coeficientes mel-cepstrais s˜ao calculados a partir do

modelo ARMA (auto-regressivo com m´edia m´ovel) obtido. A vantagem do m´etodo anterior ´e que o modelo LPC j´a ´e obtido em uma escala perceptiva, sendo assim seus p´olos distribu´ıdos de acordo com uma resolu¸c˜ao que se aproxima da resolu¸c˜ao da audi¸c˜ao humana para freq¨uˆencias, ao contr´ario do que acontece no m´etodo descrito em [49].

3.6

Conclus˜ao

Este cap´ıtulo apresentou detalhes de modelos do trato vocal que s˜ao usados para a implementa¸c˜ao das t´ecnicas descritas no restante deste texto. A discuss˜ao sobre o modelo LPC na Se¸c˜ao 3.2 apresentou este tipo de modelo, enfatizando seu significado na an´alise de sinais de voz. T´ecnicas para a obten¸c˜ao do modelo LPC foram apresentadas, e s˜ao usadas para modifica¸c˜ao de pitch no Cap´ıtulo 5. Um estudo comparativo entre duas solu¸c˜oes para o modelo LPC mostra as vantagens do modelo seq¨uencial para sistemas de an´alise/modifica¸c˜ao/s´ıntese, uma vez que possui transi¸c˜oes suaves entre modelos e evita descontinuidades, e do modelo em blocos, que possibilita uma representa¸c˜ao compacta importante para compress˜ao de voz. Uma representa¸c˜ao alternativa dos coeficientes LPC ´e apresentada na Se¸c˜ao 3.3, e ser´a usada no Cap´ıtulo 6 para interpola¸c˜ao do modelo LPC na s´ıntese de sinais modifica- dos. Ainda ´e apresentada na Se¸c˜ao 3.4 a transformada cepstral, que tem sido muito usada em sistemas de reconhecimento de voz e detec¸c˜ao de pitch, e cujas aplica¸c˜oes muitas vezes aparecem combinadas com o uso da escala mel. Ainda ´e apresentada na Se¸c˜ao 3.5 uma vis˜ao alternativa dos modelos apresentados anteriormente, com o uso de t´ecnicas de processamento na escala de freq¨uˆencia empenada (frequency warped signal processing). Com o uso deste tipo de t´ecnica ´e poss´ıvel redefinir os modelos de voz de forma a levar em conta aspectos da percep¸c˜ao humana. Desta forma ´e poss´ıvel obter um modelo de predi¸c˜ao linear na escala empenada wLPC, e com ele fazer uma implementa¸c˜ao da transformada mel-cepstral. A transformada mel-cepstral como ´e definida na Se¸c˜ao 3.5.3 ser´a usada para fazer a transforma¸c˜ao de locutor no Cap´ıtulo 6.

Cap´ıtulo 4

Discrimina¸c˜ao de trechos sonoros

e surdos em sinais de voz

4.1

Indrodu¸c˜ao

Como apresentado no Cap´ıtulo 2, os fonemas utilizados na produ¸c˜ao de voz podem ser classificados em sonoros ou surdos de acordo com a vibra¸c˜ao ou n˜ao, respectivamente, das pregas vocais. Muitas t´ecnicas de processamento de sinais apresentadas neste trabalho fazem uso de um modelo f´ısico que leva em considera¸c˜ao o processo de gera¸c˜ao apresentado na Se¸c˜ao 2.4. Portanto, para que esse modelo possa ser bem aproveitado ´e necess´ario que se fa¸ca a distin¸c˜ao entre trechos do sinal de voz contendo silˆencio, fonemas sonoros e fonemas surdos, que ser˜ao tratados de forma diferenciada pelo processamento subseq¨uente.

Para a distin¸c˜ao entre fonemas sonoros e surdos, ser´a feita uma an´alise de parˆametros que podem ser facilmente extra´ıdos de sinais de voz, e que s˜ao indica- dos na literatura do assunto como sendo relevantes para essa discrimina¸c˜ao. Entre essas caracter´ısticas a serem extra´ıdas do sinal est˜ao a energia do sinal, a taxa de cruzamentos por zero [2], os coeficientes de auto-correla¸c˜ao [50], os coeficientes LPC e energia do erro de predi¸c˜ao [51]. Entre outras t´ecnicas para discrimina¸c˜ao de sonoridade est˜ao o uso de modelo harmˆonico [52] e de wavelets [53].

Depois de feita uma an´alise te´orica de cada uma dessas caracter´ısticas, uma an´alise estat´ıstica ´e apresentada para destacar a relevˆancia de cada parˆametro, tanto isoladamente como quando relacionado a outros parˆametros.

Ao final do cap´ıtulo ser´a feito o projeto de um classificador de sinais sonoros, surdos e de silˆencio, levando em conta as caracter´ısticas de cada vari´avel analisada nas se¸c˜oes anteriores, e com ˆenfase na detec¸c˜ao de trechos sonoros.

Documentos relacionados