MFCC e MFCC com Wavelet Denoising

Descritores de Voz

3.2 MFCC e MFCC com Wavelet Denoising

0dB. Pode-se observar uma maior intensidade no sinal na Figura 3.4, ocasionado pelo ruído do ambiente.

Apesar de a Transformada de Fourier ser muito utilizada nos descritores da voz, ela permite apenas a análise de características no domínio da frequência, não possibilitando a completa determinação da relação espaço frequência, ou seja, a Transformada é capaz de revelar quais frequências estão no sinal, mas não onde elas se encontram [50]. Baseado nesta dificuldade, Dennis Gabor adaptou a Transformada de Fourier para ser aplicada em pequenas janelas deno- minada windowing the signal. Esta adaptação ficou conhecida como Short Time Fourier Trans- form(STFT) [29].

A STFT mostra informações entre o tempo e a frequência do sinal, sendo possível identifi- car quando e em que frequência o evento de um sinal ocorreu. A STFT é a mais aplicada nos estudos de reconhecimento da fala. A desvantagem da técnica é a incapacidade de redimensio- nar o tamanho da janela ao longo do sinal, isto é, quando definido o tamanho da janela ela será a mesma ao longo do sinal. As Figuras 3.5 e 3.6 mostram o espectrograma gerado pela STFT da frase “The birch canoe slid on the smooth planks” com ausência e presença de ruído a 0dB gravado em um aeroporto. O tons avermelhados no espectrograma revela a intensidade sonora da amostra, podemos ver que na Figura 3.5 (amostra sem ruído) a intensidade sonora é menor que na Figura 3.6 (amostra com ruído).

Figura 3.5 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks”.

3.2 MFCC e MFCC com Wavelet Denoising

Os coeficientes Mel-Cepstrais surgiram devido aos estudos na área de psicoacústica (ciên- cia que estuda a percepção auditiva humana), os quais revelam que a percepção humana das frequências de tons puros não seguem uma escala linear. Através dessa análise, surgiu a ideia de

3.2 MFCC E MFCC COM WAVELET DENOISING 21

Figura 3.6 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks” com presença de ruído a 0dB.

serem definidas frequências subjetivas de tons puros. Para cada tom com frequência f, medida em Hz, define-se um tom subjetivo medido em uma escala que se chama escala mel [29].

O Mel é uma unidade de medida da frequência percebida de um tom. Como referência, definiu-se a frequência de 1 kHz, com potência 40 dB acima do limiar mínimo de audição do ouvido humano, como 1000 mels. Os outros valores subjetivos foram obtidos através de experimentos, onde foi observado que a escala em Hz e a escala em Mel são aproximadamente linear abaixo e logarítmica acima dos 1000Hz. Logo, a escala Mel faz com que as faixas de frequência sejam posicionadas em uma escala logarítmica, a qual se aproxima da resposta do sistema auditivo humano [51].

As equações que fazem a conversão da escala Mel para Hz e Hz para Mel são mostradas nas Equações 3.5 e 3.6, respectivamente.

M= 1127, 01048 log_e 1 + f 700 (3.5) f = 700e1127,01048m _{− 1} (3.6) Além da escala Mel, para definir os coeficientes do MFCC, faz-se necessário aplicar a Transformada Rápida de Fourier (FFT - Fast Fourier Transform), o banco de filtro triangular espaçados pela escala Mel e a Transformada Discreta do Cosseno (DCT - Discrete Cosine Transform) [52]. A Figura 3.7 mostra uma adaptação de [52] do diagrama para o cálculo do MFCC.

3.2 MFCC E MFCC COM WAVELET DENOISING 22

Figura 3.7 Diagrama para o cálculo do MFCC. Adaptada de [52].

Inicialmente, divide-se o sinal de voz em janelas. Para cada trecho do sinal obtido, calcula- se a Transformada Rápida de Fourier.

O algoritmo FFT mais conhecido foi desenvolvido por Cooley-Tukey [53] para diminuir a complexidade computacional da Transformada de Fourier [29]. A FFT precisa de O(nlogn) operações enquanto que a Transformada de Fourier de O(n2) operações. Utiliza-se FFT no algoritmo do MFCC para obter os coeficientes no domínio da frequência.

A maior utilidade da escala Mel está na criação do banco de filtro constituído por sobrepo- sição de filtros triangulares. Estes filtros possuem frequências centrais espaçadas linearmente e a largura de banda é espaçada conforme a escala Mel. Para a fala humana são utilizados entre 12 a 30 filtros [28]. A Figura 3.8 foi gerada com o auxílio do software MatLab1 e mostra o banco de filtros triangular composto por 20 filtros, frequência do sinal de voz de 8000 Hz e duração de 256 ms para cada janela.

0 1000 2000 3000 4000 5000 6000 7000 8000 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Frequência (Hz) Magnitude do Filtro

Banco de Filtro Triangular

Figura 3.8 Banco de Filtro Triangular.

1_{Criado pela MathWorks Inc., o MatLab é um software que permite: a manipulação de matrizes, a criação de}

gráficos de funções e de dados, a criação e execução de algoritmos, além de possuir uma vasta gama de funções pré-definidas.

3.2 MFCC E MFCC COM WAVELET DENOISING 23

A última etapa para obter os coeficientes do MFCC é utilizando a DCT [54]. Esta técnica é utilizada para compressão dos dados fazendo uso apenas de números reais. Como resultado é possível ver o acúmulo dos coeficientes mais significativos no início do vetor, deixando os restantes dos valores com pouca ou nenhuma informação. A Equação 3.7 mostra o cálculo da DCT. X(k) = N−1

∑

n=0 x(n)cos[π n(n + 1 2)k] (3.7) onde:

X(k)são os coeficientes resultantes da transformada discreta do cosseno; x(n)o sinal da fala;

N o número de coeficientes.

Segundo Patel e Rao [52], de modo simplificado, podem-se obter os coeficientes do MFCC através da seguinte equação:

c(n) = M

∑

k=1 log₁₀X(k) cos(N(k− 1 2 ) π M) (3.8) onde: 1≤ n ≤ N;

X(k)é a energia na saída do k-ésimo filtro; Mé o número de filtros;

N é o número de coeficientes.

Trabalhos como Amita e Bansal [55] e Hossan et al. [56] mostram o descritor MFCC aplicado a amostra ruidosa e sem ruído. O primeiro autor aplica o MFCC em uma base indiana, enquanto que o segundo autor modifica a etapa DCT do descritor MFCC propondo a utilização da técnica chamada de DDCT, do inglês Distributed Discrete Cosine Transform. Os autores revelam, em seus experimentos, o baixo poder de descrição do MFCC quando exposto a amostra ruidosa. Devido essa dificuldade, novas técnicas foram propostas para descrever a voz com intuito de aumentar a taxa de reconhecimento da fala em ambientes ruidosos.

Nesse sentido, fizemos uma combinação do descritor MFCC com o Wavelet Denoising (Subseção 4.2.5) para lidar com amostras ruidosas. A Figura 3.9 mostra como a combinação foi realizada.

Figura 3.9 Etapas para a combinação do descritor MFCC com o Wavelet Denoising.

O MFCC foi gerado para toda base NOIZEUS (Noisy Speech Corpus), discutida no Capí- tulo 5, com seguintes parâmetros:

3.2 MFCC E MFCC COM WAVELET DENOISING 24

1. Utilização do sinal da voz amostrado em vários ambientes e como diferentes níveis de ruído.

2. Janela de Hamming com 25ms e sobreposição de 10ms. 3. Utilização de 20 filtros no banco de filtros triangulares.

4. Utilização de apenas 12 coeficientes do MFCC. Cada amostra gerava 39 coeficientes: 12 parâmetros mel-cepstrais 12 derivadas primeira (delta-mel-cepstrais) e 12 derivadas segunda (delta-delta-mel-cepstrais) dos parâmetros mel-cepstrais, 1 parâmetro de energia, 1 derivada primeira (delta-energia) e 1 derivada segunda (delta-delta-energia) do parâmetro de energia. A escolha desse número de coeficientes é devido ao fato do decréscimo da energia ao longo dos coeficientes, provocando uma suavização no sinal, deixando de ser representativo. A Figura 3.10 mostra o decréscimo da energia para a frase “The birch canoe slid on the smooth planks”.

Figura 3.10 Decréscimo da energia dos coeficientes MFCC para a frase “The birch canoe slid on the smooth planks”.

As Figuras 3.11 e 3.12 mostram os resultados da aplicação desses parâmetros para amostras sem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birch canoe slid on the smooth planks”. Em cada figura, inicialmente, é mostrada o sinal de voz. Podemos observar que na amostra com sinal ruidoso há uma maior intensidade da energia ao longo do sinal. Em seguida, é calculado a energia do banco de filtro, etapa de conversão para frequência mel, e por fim obtemos os coeficientes do MFCC.

O MFCC com Wavelet Denoising também foi aplicado a toda base NOIZEUS utilizando os parâmetros:

1. Utilização do sinal da voz amostrado em vários ambientes e como diferentes níveis de ruído.

2. Janela de Hamming com 25ms e sobreposição de 10ms.

3. Decomposição do sinal em cinco níveis utilizando Wavelet Daubechies. 4. Utilização de 20 filtros no banco de filtros triangulares.

No documento Descritor de voz invariante ao ruído (páginas 34-39)