• Nenhum resultado encontrado

2.3 EXTRAÇÃO DE CARACTERÍSTICAS

2.3.4 Coeficientes Mel-cepstrais

Os coeficientes Mel-cepstrais (MFCCs) (DAVIS; MERMELSTEIN, 1980) foram introduzidos na década de 1980 e formam o conjunto de características mais popular em processamento

de áudio e voz. Inicialmente, eles foram propostos para o problema de reconhecimento de fala e então foram aplicados para o reconhecimento de locutores. Mesmo com estudos posteriores de inúmeros extratores de características, o bom desempenho dos MFCCs faz com que sejam utilizados até hoje. Tal desempenho é resultante de um conjunto de aspectos dos MFCCs, como é visto mais adiante, porém, há a conjectura de que o bom desempenho se deve ao fato de tais coeficientes simularem a percepção auditiva humana. Apesar de uma das etapas do cálculo dos coeficientes ser fortemente inspirada na percepção auditiva humana, tal conjectura nunca foi provada ou refutada. O diagrama de blocos para o cálculo dos MFCCs, para um determinado segmento de voz, é apresentado na Figura 10.

DFT Banco de filtros(escala Mel) Log

s[n] DCT

magnitude do espectro

energia das sub-bandas de frequências

MFCCs

Figura 10 – Diagrama de blocos para o cálculo dos MFCCs.

O objetivo principal do método consiste na extração de uma representação robusta para o envelope espectral, extraindo assim informações das componentes ressonantes do trato vocal. Os MFCCs são extraídos a partir de uma combinação entre duas abordagens:

análise de banco de filtros (filter-bank analysis) e análise cepstral.

O primeiro estágio consiste no processamento da magnitude do espectro através de um banco de filtros, que é um conjunto de filtros passa-faixa centrados em diferentes frequên- cias. Cada filtro desse banco, então, captura informações de uma banda de frequência específica. Os filtros são desenvolvidos sob algum formato específico, geralmente trian- gular, e são definidos pela frequência do centro do filtro e pela largura. As informações das bandas são medidas sob a forma de energias dos sinais resultantes da multiplicação da magnitude do espectro com a função de peso do filtro. Tal processo suaviza as gran- des variações de amplitude geradas pelos harmônicos presentes na banda de frequência. Após a passagem desses filtros, produz-se uma representação de como as energias variam com a frequência, que está intrinsecamente ligada às componentes do trato vocal e pouco relacionada com as informações de fonte (pitch).

Além disso, as frequências de centro e larguras dos filtros são escolhidas de maneira que o banco simule a percepção auditiva humana. Estudos realizados por Stevens, Volkmann e Newman, no final da década de 1930, resultaram na definição da medida Mel4 como

uma medida de pitch. Tal estudo permitiu a análise da capacidade perceptiva de um indivíduo de diferenciar tons de diferentes frequências. Os dados foram publicados em 1937 (STEVENS; VOLKMANN; NEWMAN, 1937) e em 1940 (STEVENS; VOLKMANN, 1940), e

posteriormente analisados por O’Shaughnessy, que produziu uma equação que relaciona a capacidade perceptual em função de um tom de frequência específica (O’SHAUGHNESSY, 1987). Essa relação é dada pela equação:

𝑀 𝑒𝑙(𝑓 ) = 1000 ln(1 + 1000700)ln(1 + 𝑓 700) = 1127 ln(1 + 𝑓 700), (2.15)

onde 𝑓 é a frequência do tom, em Hz, e 𝑀 𝑒𝑙(𝑓 ) é a medida de pitch na escala mel. A escala Mel permitiu uma análise do quão bem a percepção auditiva humana atua sobre o espectro audível5. A maneira mais usual para o desenvolvimento do banco consiste

em definir filtros triangulares igualmente espaçados na escala Mel com larguras definidas pelas frequências adjacentes (ver Figura 11).

0 500 1000 1500 2000 2500 3000 3500 4000 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Frequência (Hz) A mp lit u d e

Figura 11 – Banco de filtros com 24 filtros triangulares igualmente espaçados na escala Mel com larguras definidas pelos filtros adjacentes. Nesse caso, o banco de filtros foi construído para operar sobre áudios com frequência de amostragem de 8KHz.

Como o nome sugere, os MFCCs são coeficientes cepstrais. Para isso, aplica-se o loga- ritmo às energias resultantes da passagem do sinal pelo banco de filtros:

𝐿[𝑘] = log10(𝑆𝑘), 𝑘 = 1, ..., 𝐾, (2.16)

5 Apesar disso, existe a crença de que a escala Mel não é apropriada para caracterização da voz de mulheres (ZHOU et al., 2011). Isso porque sinais de voz feminina possuem mais componentes de alta frequência. Como a escala Mel possui baixa resolução nas bandas mais altas, ela se torna inapropriada. Geralmente é considerada uma alternativa onde o banco de filtro é construído seguindo uma escala linear. Nesse caso, os coeficientes são referenciados como Coeficientes Cepstrais de Frequência Linear (Linear Frequency Cepstral Coefficientss - LFCCs).

onde 𝑆𝑘 é a energia resultante do 𝑘-ésimo filtro e 𝐾 é quantidade de filtros presentes no banco. Além das vantagens em se trabalhar com o logaritmo da magnitude do espectro, mencionadas anteriormente, essa operação também tenta refletir aspectos do aparato perceptivo humano sobre a medida de intensidade sonora6.

Ao invés de utilizar a IDFT como na análise cepstral convencional, a transformação do sinal das energias para o espaço cepstral é realizada através da Transformada Discreta do Cosseno (Discrete Cosine Transform - DCT):

𝑐[𝑛] = 𝐾−1 ∑︁ 𝑘=0 𝐿[𝑘] cos (︂

𝜋

𝐾(𝑘 + 1 2) 𝑛 )︂ , 𝑛 = 1, ..., 𝑁 , (2.17)

onde 𝑐[𝑛] é o n-ésimo coeficiente MFCC e 𝑁 é a quantidade de coeficientes extraídos. Para 𝑛 = 0, a componente do cosseno da equação toma o valor 1 e 𝑐[0] se torna igual ao logaritmo da energia média do sinal. Como a energia média não possui informação discriminativa e nem tão pouco reflete o aparato vocal do locutor, é comum a mesma não ser extraída. Portanto, quando é afirmada a extração de 𝑁 coeficientes, o coeficiente 𝑐[0] não é levado em consideração. Quando 𝑐[0] é utilizado, é comum afirmar a extração de 𝑁 coeficientes MFCCs anexados à energia. Nesse caso, os vetores de características possuem dimensão 𝑁 + 1.

Para o cálculo da DCT7 de um sinal discreto de tamanho 𝐾, primeiramente tal si- nal é espelhado e deslocado (𝑛= 𝑛 + 1/2) para a geração de um sinal de tamanho 2𝐾 simétrico. A DCT do sinal original é definido pela DFT desse sinal simétrico, e, conse- quentemente, possui componentes imaginárias nulas. Por essa razão, é comum imaginar essa transformada como “uma versão real” da DFT. Porém, a justificativa para utiliza- ção da DCT provém da sua capacidade de descorrelação do sinal das energias, que está fortemente relacionada à Transformada de Karhunen–Loève (Karhunen–Loève Transform - KLT), que é a base para a Análise dos Componentes Principais (Principal Component

Analysis - PCA), técnica amplamente utilizada para projetar dados de alta dimensão em

um espaço de base ortogonal. Mais precisamente, para sinais descritos por um modelo autoregressivo de primeira ordem:

𝑥[𝑛] = 𝛼𝑥[𝑛 − 1] + 𝑧[𝑛], 0 ≤ 𝛼 ≤ 1, (2.18)

onde 𝛼 é o coeficiente de correlação e 𝑧 um ruído branco, a DCT é assintoticamente equivalente à KLT quando 𝛼 → 1 (RAO; YIP, 2014). Apesar de a DCT muitas vezes estar associada à descorrelação dos coeficientes, na prática, a condição necessária para isso ocorrer (𝛼 = 1) pode não ser alcançada e alguma correlação pode ser observada. Porém, apesar de a descorrelação não ser garantida, a DCT possui a capacidade de descrever o espectro em um espaço mais limitado e a comparação entre espectros pode ser realizada diretamente através dos coeficientes.

6 Intensidade sonora (loudness) define um conceito em psicoacústica que relaciona medidas de intensi- dade (pressão na cóclea) e pitch. A utilização da função logarítmica simula a escala decibel (dB). 7 Para ser exato, a DCT-II (Equação 2.17).

Como é visto mais adiante, a tendência dos MFCCs em descorrelacionar as energias das bandas do espectro proporciona uma simplificação dos modelos que utilizam essa representação para descrição das locuções, onde a independência dos coeficientes é assu- mida. Exemplos disso são funções de densidade de probabilidade sendo modeladas com matrizes de covariância diagonal (Seção 2.4.1).