Descritores de Voz
3.2 MFCC e MFCC com Wavelet Denoising
0dB. Pode-se observar uma maior intensidade no sinal na Figura 3.4, ocasionado pelo ruído do ambiente.
Apesar de a Transformada de Fourier ser muito utilizada nos descritores da voz, ela permite apenas a análise de características no domínio da frequência, não possibilitando a completa determinação da relação espaço frequência, ou seja, a Transformada é capaz de revelar quais frequências estão no sinal, mas não onde elas se encontram [50]. Baseado nesta dificuldade, Dennis Gabor adaptou a Transformada de Fourier para ser aplicada em pequenas janelas deno- minada windowing the signal. Esta adaptação ficou conhecida como Short Time Fourier Trans- form(STFT) [29].
A STFT mostra informações entre o tempo e a frequência do sinal, sendo possível identifi- car quando e em que frequência o evento de um sinal ocorreu. A STFT é a mais aplicada nos estudos de reconhecimento da fala. A desvantagem da técnica é a incapacidade de redimensio- nar o tamanho da janela ao longo do sinal, isto é, quando definido o tamanho da janela ela será a mesma ao longo do sinal. As Figuras 3.5 e 3.6 mostram o espectrograma gerado pela STFT da frase “The birch canoe slid on the smooth planks” com ausência e presença de ruído a 0dB gravado em um aeroporto. O tons avermelhados no espectrograma revela a intensidade sonora da amostra, podemos ver que na Figura 3.5 (amostra sem ruído) a intensidade sonora é menor que na Figura 3.6 (amostra com ruído).
Figura 3.5 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks”.
3.2
MFCC e MFCC com Wavelet Denoising
Os coeficientes Mel-Cepstrais surgiram devido aos estudos na área de psicoacústica (ciên- cia que estuda a percepção auditiva humana), os quais revelam que a percepção humana das frequências de tons puros não seguem uma escala linear. Através dessa análise, surgiu a ideia de
3.2 MFCC E MFCC COM WAVELET DENOISING 21
Figura 3.6 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks” com presença de ruído a 0dB.
serem definidas frequências subjetivas de tons puros. Para cada tom com frequência f, medida em Hz, define-se um tom subjetivo medido em uma escala que se chama escala mel [29].
O Mel é uma unidade de medida da frequência percebida de um tom. Como referência, definiu-se a frequência de 1 kHz, com potência 40 dB acima do limiar mínimo de audição do ouvido humano, como 1000 mels. Os outros valores subjetivos foram obtidos através de experimentos, onde foi observado que a escala em Hz e a escala em Mel são aproximadamente linear abaixo e logarítmica acima dos 1000Hz. Logo, a escala Mel faz com que as faixas de frequência sejam posicionadas em uma escala logarítmica, a qual se aproxima da resposta do sistema auditivo humano [51].
As equações que fazem a conversão da escala Mel para Hz e Hz para Mel são mostradas nas Equações 3.5 e 3.6, respectivamente.
M= 1127, 01048 loge 1 + f 700 (3.5) f = 700e1127,01048m − 1 (3.6) Além da escala Mel, para definir os coeficientes do MFCC, faz-se necessário aplicar a Transformada Rápida de Fourier (FFT - Fast Fourier Transform), o banco de filtro triangular espaçados pela escala Mel e a Transformada Discreta do Cosseno (DCT - Discrete Cosine Transform) [52]. A Figura 3.7 mostra uma adaptação de [52] do diagrama para o cálculo do MFCC.
3.2 MFCC E MFCC COM WAVELET DENOISING 22
Figura 3.7 Diagrama para o cálculo do MFCC. Adaptada de [52].
Inicialmente, divide-se o sinal de voz em janelas. Para cada trecho do sinal obtido, calcula- se a Transformada Rápida de Fourier.
O algoritmo FFT mais conhecido foi desenvolvido por Cooley-Tukey [53] para diminuir a complexidade computacional da Transformada de Fourier [29]. A FFT precisa de O(nlogn) operações enquanto que a Transformada de Fourier de O(n2) operações. Utiliza-se FFT no algoritmo do MFCC para obter os coeficientes no domínio da frequência.
A maior utilidade da escala Mel está na criação do banco de filtro constituído por sobrepo- sição de filtros triangulares. Estes filtros possuem frequências centrais espaçadas linearmente e a largura de banda é espaçada conforme a escala Mel. Para a fala humana são utilizados entre 12 a 30 filtros [28]. A Figura 3.8 foi gerada com o auxílio do software MatLab1 e mostra o banco de filtros triangular composto por 20 filtros, frequência do sinal de voz de 8000 Hz e duração de 256 ms para cada janela.
0 1000 2000 3000 4000 5000 6000 7000 8000 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Frequência (Hz) Magnitude do Filtro
Banco de Filtro Triangular
Figura 3.8 Banco de Filtro Triangular.
1Criado pela MathWorks Inc., o MatLab é um software que permite: a manipulação de matrizes, a criação de
gráficos de funções e de dados, a criação e execução de algoritmos, além de possuir uma vasta gama de funções pré-definidas.
3.2 MFCC E MFCC COM WAVELET DENOISING 23
A última etapa para obter os coeficientes do MFCC é utilizando a DCT [54]. Esta técnica é utilizada para compressão dos dados fazendo uso apenas de números reais. Como resultado é possível ver o acúmulo dos coeficientes mais significativos no início do vetor, deixando os restantes dos valores com pouca ou nenhuma informação. A Equação 3.7 mostra o cálculo da DCT. X(k) = N−1
∑
n=0 x(n)cos[π n(n + 1 2)k] (3.7) onde:X(k)são os coeficientes resultantes da transformada discreta do cosseno; x(n)o sinal da fala;
N o número de coeficientes.
Segundo Patel e Rao [52], de modo simplificado, podem-se obter os coeficientes do MFCC através da seguinte equação:
c(n) = M
∑
k=1 log10X(k) cos(N(k− 1 2 ) π M) (3.8) onde: 1≤ n ≤ N;X(k)é a energia na saída do k-ésimo filtro; Mé o número de filtros;
N é o número de coeficientes.
Trabalhos como Amita e Bansal [55] e Hossan et al. [56] mostram o descritor MFCC apli- cado a amostra ruidosa e sem ruído. O primeiro autor aplica o MFCC em uma base indiana, enquanto que o segundo autor modifica a etapa DCT do descritor MFCC propondo a utilização da técnica chamada de DDCT, do inglês Distributed Discrete Cosine Transform. Os autores revelam, em seus experimentos, o baixo poder de descrição do MFCC quando exposto a amos- tra ruidosa. Devido essa dificuldade, novas técnicas foram propostas para descrever a voz com intuito de aumentar a taxa de reconhecimento da fala em ambientes ruidosos.
Nesse sentido, fizemos uma combinação do descritor MFCC com o Wavelet Denoising (Subseção 4.2.5) para lidar com amostras ruidosas. A Figura 3.9 mostra como a combinação foi realizada.
Figura 3.9 Etapas para a combinação do descritor MFCC com o Wavelet Denoising.
O MFCC foi gerado para toda base NOIZEUS (Noisy Speech Corpus), discutida no Capí- tulo 5, com seguintes parâmetros:
3.2 MFCC E MFCC COM WAVELET DENOISING 24
1. Utilização do sinal da voz amostrado em vários ambientes e como diferentes níveis de ruído.
2. Janela de Hamming com 25ms e sobreposição de 10ms. 3. Utilização de 20 filtros no banco de filtros triangulares.
4. Utilização de apenas 12 coeficientes do MFCC. Cada amostra gerava 39 coeficientes: 12 parâmetros mel-cepstrais 12 derivadas primeira (delta-mel-cepstrais) e 12 deriva- das segunda (delta-delta-mel-cepstrais) dos parâmetros mel-cepstrais, 1 parâmetro de energia, 1 derivada primeira (delta-energia) e 1 derivada segunda (delta-delta-energia) do parâmetro de energia. A escolha desse número de coeficientes é devido ao fato do decréscimo da energia ao longo dos coeficientes, provocando uma suavização no sinal, deixando de ser representativo. A Figura 3.10 mostra o decréscimo da energia para a frase “The birch canoe slid on the smooth planks”.
Figura 3.10 Decréscimo da energia dos coeficientes MFCC para a frase “The birch canoe slid on the smooth planks”.
As Figuras 3.11 e 3.12 mostram os resultados da aplicação desses parâmetros para amostras sem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birch canoe slid on the smooth planks”. Em cada figura, inicialmente, é mostrada o sinal de voz. Podemos observar que na amostra com sinal ruidoso há uma maior intensidade da energia ao longo do sinal. Em seguida, é calculado a energia do banco de filtro, etapa de conversão para frequência mel, e por fim obtemos os coeficientes do MFCC.
O MFCC com Wavelet Denoising também foi aplicado a toda base NOIZEUS utilizando os parâmetros:
1. Utilização do sinal da voz amostrado em vários ambientes e como diferentes níveis de ruído.
2. Janela de Hamming com 25ms e sobreposição de 10ms.
3. Decomposição do sinal em cinco níveis utilizando Wavelet Daubechies. 4. Utilização de 20 filtros no banco de filtros triangulares.