• Nenhum resultado encontrado

Descritores de Voz

3.3 PLP E RASTA-PLP

Figura 3.11 Descrição da fala utilizando o MFCC sem presença de ruído.

5. Utilização de apenas 12 coeficientes do MFCC. Cada amostra gerava 39 coeficientes: 12 parâmetros mel-cepstrais 12 derivadas primeira (delta-mel-cepstrais) e 12 derivadas segunda (delta-delta-mel-cepstrais) dos parâmetros mel-cepstrais, 1 parâmetro de ener- gia, 1 derivada primeira (delta-energia) e 1 derivada segunda (delta-delta-energia) do parâmetro de energia

3.3

PLP e RASTA-PLP

O descritor de voz PLP [57], do inglês Perceptual Linear Predictive, também foi baseado nos princípios da psicoacústica. Esse descritor utiliza um banco de filtros, com objetivo de analisar apenas as frequências do sinal, não fazendo uso da análise temporal.

3.3 PLP E RASTA-PLP 26

Figura 3.12 Descrição da fala utilizando o MFCC na presença de ruído a 0dB gravado em um aeroporto.

ψ (z) =        10(z−zc+0,5), se − 2, 5 < z − z c< −0, 5 1, se − 0, 5 ≤ z − zc≤ 0, 5 10−2,5(z−zc−0.5), se 0, 5 < z − z c< 1, 3 0, se − 2, 5 ≥ z − zc≥ 1, 3 (3.9) onde: ψ (z) bandas críticas; z− zcfrequências centrais.

A característica do PLP é fazer uma boa aproximação das áreas com maior concentração de energia no sinal, desprezando as baixas energias. Segundo Junqua et al. [58], para obter os coeficientes do PLP são necessários:

1. Passar o sinal da voz por filtro passa-baixa anti-aliasing antes de amostrar o sinal. 2. Dividir o sinal em janelas.

3.3 PLP E RASTA-PLP 27

3. Aplicar a FFT em todas as janelas, obtendo o espectro da potência de tempo-curto do sinal da voz.

4. Converter o espectro para a escala de frequência utilizado no PLP, frequência Bark [59], que vai de 1 a 24 Barks, correspondendo às primeiras 24 bandas-críticas do ouvido humano: Ω(w) = 6ln[( w 1200π) + r ( w 1200π) 2+ 1] (3.10) onde:

Ω(w) é a frequência na escala Bark; wé a frequência em rad/s.

A representação das bandas-críticas pode ser vistas na Figura 3.13.

Figura 3.13 Representação das bandas-críticas. Adaptada de [60].

5. Convoluir o espectro utilizando o banco de filtros. São utilizados filtros sobrepostos para obter um espectro similar ao espectro de potência de bandas-críticas, de acordo a função:

3.3 PLP E RASTA-PLP 28

onde:

Θ(Ωi) banco de filtros;

Ω frequência Barks;

P(Ω − Ωi) frequências Barks centrais;

ϒ(Ω) bandas-críticas.

6. Pré-Enfatizar as bandas-críticas utilizando curvas de equalização de sonoridade, dada pelas Equações 3.12 e 3.13:

Ξ(Ω(w)) = E(w)Θ(Ω(w)) (3.12)

onde:

Ξ(Ω(w)) curva de equalização de sonoridade;

E(w) = (w

2+ 56, 28x106)w4

(w2+ 6, 3x106)2(w2+ 0, 38x109) (3.13)

Θ(Ω(w)) é a saída do k-ésimo filtro; wé a frequência em rad/s;

Ω(w) é a frequência na escala Bark correspondente à frequência w.

A curva de Pré-Ênfase pode ser vista na Figura 3.14.

7. É aplicada uma raiz cúbica no espectro de bandas críticas pré-enfatizado, simulando a regra de potência do sistema auditivo humano [60], ou seja, a relação não linear entre a intensidade sonora e sua percepção subjetiva. Esta etapa promove uma compressão da amplitude do espectro, reduzindo a variação da amplitude das bandas-críticas.

Φ(Ω) = Ξ(Ω) 1 3 (3.14) onde: Φ(Ω) compressão da amplitude; Ω frequência Barks;

Ξ(Ω(w)) curva de equalização de sonoridade.

8. Calcular a Transformada Inversa de Fourier. Obtendo assim os valores de autocorrelação que serão os coeficientes do PLP.

3.3 PLP E RASTA-PLP 29

Figura 3.14 Curva de Pré-Ênfase. Adaptada de [60].

O RASTA-PLP [61], do inglês RelAtive SpecTrAl - Perceptual Linear Predictive, foi desen- volvido com objetivo de lidar com amostras ruidosas, independência do microfone e locutor. Para isso, esta técnica utiliza processamento temporal, ao contrário das técnicas MFCC e PLP. Processamento temporal leva em consideração o intervalo de tempo mínimo para o proces- samento de dois ou mais estímulos acústicos [62]. Com isso, observa-se que o espectro do sinal da voz sem ruído varia a uma razão diferente daquele sinal com presença de ruído, conseguindo lidar com certos tipos de ruídos [63].

Segundo Hermansky et al. [61], a técnica RASTA-PLP compreende as mesmas etapas do PLP, acrescentando três novas etapas:

1. Fazer uma transformada na amplitude, através de uma técnica de compressão (função logarítmica é a mais utilizada).

2. Filtrar o sinal através do filtro IIR, do inglês Infinite Impulse Response, com função de transferência:

H(z) = 0, 1z4(2 + z

−1− z−3− 2z−4

1 − 0, 98z−1 ) (3.15)

3. Realizar a transformação inversa da técnica de compressão. A Figura 3.15 mostra as etapas do algoritmo RASTA-PLP.

A desvantagem das técnicas PLP e RASTA-PLP está no baixo poder de classificação para amostras com ruídos variando entre 0dB a 10dB e a dependência do ambiente.

Assim como fizemos com o MFCC, o RASTA-PLP também foi comparado com o descritor MINERS. Os parâmetros utilizados foram baseados em [64]:

3.3 PLP E RASTA-PLP 30

Figura 3.15 Etapas do algoritmo RASTA-PLP.

1. Janela de Hamming com 25ms e sobreposição de 10ms. 2. Utilização de 8 coeficientes.

3.4 PNCC 31

sem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birch canoe slid on the smooth planks”.

Figura 3.16 Extração de características com RASTA-PLP.

Figura 3.17 Extração de características com RASTA-PLP em amostra ruidosa com 0dB.

3.4

PNCC

O PNCC, do inglês Power-Normalized Cepstral Coefficient, é um descritor de voz derivado do MFCC. O mesmo foi desenvolvido com o objetivo de obter características da voz que seja robusto em relação à variação acústica, reverberação e com a complexidade computacional semelhante ao MFCC e PLP [65]. A reverberação ocorre quando o som refletido atinge o observador no instante em que o som está se extinguindo, ocasionando o prolongamento da sensação auditiva.

3.4 PNCC 32

1. Substituição da escala Mel pela escala ERB, do inglês Equivalent Rectangular Bandwidth, e filtros gammatone [66]. A função gammatone é expressa no domínio do tempo por:

g[t] = atn−1e−2πcbtcos(2π f bt+ φ ) (3.16) onde: aé a amplitude; né a ordem do filtro; cbé o comprimento da banda; fbé a frequência central da banda; φ é a fase.

Na Figura 3.18 é mostrado um exemplo de banco de filtros gammatone.

Figura 3.18 Banco de Filtros Gammatone. Adaptada de [66].

A Equação 3.17 é responsável por converter a escala de Hertz para a escala ERB:

e= ERB( fb) = 24, 7(1 + 0, 00437 fb) (3.17) 2. Média das energias do sinal. Para reduzir o ruído nas amostras, é necessário aprofun- dar os vales do sinal, removendo as grandes elevações, pois para certos tipos de ruído, como por exemplo o ruído contínuo estacionário variando até 3 dB, costuma ser mais estacionário que o sinal da voz [66].

3.4 PNCC 33

3. Substituição da função logarítmica pela função de potencialização. A função logarítmica apresenta uma grande inclinação para valores próximos de zero, sendo bastante sensível a ruído quando aplicado a pequenos valores de energia. O algoritmo MFCC é um exemplo de técnica que usa função logarítmica e não apresenta bons resultados perante amostras ruidosas. Já a função de potencialização, cresce mais suavemente.

A estrutura do PNCC é visto na Figura 3.19.

A primeira etapa para obter os coeficientes do PNCC é chamada de Pré-ênfase. Nesta etapa é aplicado o filtro H(z) = 1 − 0, 97z−1 em todo sinal da voz. Em seguida aplica-se STFT [67], do inglês Short Time Fourier Transform, em todo o sinal (já dividido em janelas) obtendo o espectro.

O espectro é dividido em bandas através dos filtros gammatone, estimando e eliminado o ruído. As frequências centrais dos filtros gammatone são separadas linearmente através da escala ERB, variando entre 200Hz a 8000Hz. O ERB tem como característica fornecer uma boa aproximação do sistema auditivo humano.

A energia de cada banda é calculada utilizando a Equação 3.18:

Porg(m, l) = Z π 0 |X(m; ejw)Hl(ejw)|2dω (3.18) onde: mé o número de banda;

lé o número de canais gammatone; Hl(ejw) frequência de cada canal “l”;

X(m; ejw) é o espectro da STFT de cada janela.

Por fim, é executado o algoritmo DCT, para acumular os coeficientes mais significativos no início do vetor, obtendo os coeficientes.

A Figura 3.20 faz um comparativo entre a estrutura do MFCC, RASTA-PLP e PNCC. A desvantagem, em relação aos descritores MFCC e RASTA-PLP, do descritor PNCC está no baixo poder de classificação para amostras sem ruído.

Os parâmetros utilizados para o desenvolvimento do PNCC foram: 1. Janela de Hamming com 25ms e sobreposição de 10ms;

2. FFT com 1024 pontos; 3. 40 filtros gammatone; 4. 40 coeficientes.

As Figuras 3.21 e 3.22 mostram os resultados da aplicação desses parâmetros para amostras sem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birch canoe slid on the smooth planks”. Inicialmente, geramos o espectrograma para o sinal da voz. Essa etapa tem como objetivo mostrar as diferenças de frequência entre um sinal limpo e um sinal ruído. Em seguida é aplicado os filtros gammatone e por fim obtemos os coeficientes do PNCC.

3.4 PNCC 34

3.4 PNCC 35

Figura 3.20 Estrutura do MFCC, RASTA-PLP e PNCC.

Figura 3.21 Espectrograma do algoritmo PNCC para amostra sem ruído. A frase pronunciada foi “The birch canoe slid on the smooth planks”.

3.4 PNCC 36

Figura 3.22 Espectrograma do algoritmo PNCC em amostra ruidosa com 0dB. A frase pronunciada foi “The birch canoe slid on the smooth planks”.

C

APÍTULO

4

No documento Descritor de voz invariante ao ruído (páginas 39-51)

Documentos relacionados