Ajuste dos parˆ ametros do modelo - Modelos ocultos de Markov (HMMs)

2.3 Modelos ocultos de Markov (HMMs)

2.3.7 Ajuste dos parˆ ametros do modelo

Esse problema consiste em como ajustar os parâmetros HMM dado o conjunto de observa¸cões O, usando a probabilidade máxima como critério de otimiza¸cão. Isto é, reestimar

o modelo λ = (A, B, Π) inicial para encontrar um que maximize P (O|λ).

No intuito de encontrar o modelo que melhor se adequa a uma sequˆencia de obser-

va¸cão dada, para isso usaremos o algoritmo de Baum Welch, que é usado para determinar os parâmetros desconhecidos de um HMM maximizando a probabilidade da sequência de

observa¸cão dada. É importante saber que o algoritmo Baum-Welch possui um máximo local para P (O|λ), mas não garante um máximo global.

Esse algoritmo faz uso do algoritmo foward-backward, explicado anteriormente, junto com as seguintes vari´aveis temporais:

1. γt(i, j) ´e a probabilidade de estar no estado si no instante t e no estado sj no

instante t+1:

γt(i, j) = P (qt= si, qt+1= sj|O, λ) =

αt(i)aijbj(ot+1)βt+1(j)

P (O|λ) (2.45)

A soma de γt(i, j) em t pode ser interpretado como o n´umero esperado de transi¸c˜oes

do estado si para o estado sj dado os parâmetros do modelo e a sequência de observa¸cões

2. γt(i), que j´a foi definido anteriormente:

γt(i) = P (qt= si|O, λ) =

αt(i)βt(i)

A soma de γt(i) em t pode ser interpretado como o n´umero esperado de vezes em

que o estado si foi visitado ou o n´umero esperado de transi¸c˜oes que tiveram origem no

estado si dado os parâmetros do modelo e a sequência de observa¸cão O.

Então, usando essas duas variáveis, nós reestimamos os parâmetros do modelo usando as seguintes defini¸cões:

1. Para i=1,...,N, temos

πi = γ1(i) (2.47)

2. Para i=1,...,N e j=1,...,N temos

aij = PT −1 t=1 γt(i, j) PT −1 t=1 γt(i) (2.48) 3. Para j=1,...,N e k=1,...,M temos bj(k) = P t∈(1,...,T ),Ot=kγt(i, j) PT t=1γt(i) (2.49)

Ent˜ao, podemos definir a reestima¸c˜ao como um processo iterativo:

1. Inicializar λ = (A, B, Π). Se n˜ao houver uma estimativa razo´avel dispon´ıvel, podemos escolher esses valores: πi ≈ 1/N, aij ≈ 1/N e bj(k) ≈ 1/M .

2. Computar αti, βt(i), γt(i, j)eγt(i).

3. Reestimar o modelo λ = (A, B, Π).

4. Se P (O|λ) crescer, repita a partir do 2 com os parˆametros novos reestimados.

Ao trabalhar com sequências extensas de observa¸cão, o processo de reestimativa explicado anteriormente não pode ser implementado do mesmo jeito, é necessário que se

fa¸ca a normaliza¸c˜ao.

A normaliza¸cão é necessária, pois αt(i) consiste na soma de um grande número

de termos, cada um dos quais envolvendo produtos de probabilidades. Como todos esses termos s˜ao inferiores a um, quando t aumenta cada termo de αt(i) come¸ca a diminuir

exponencialmente para zero, o que poderia causar problema de underflow no momento

em que a m´aquina fosse calcular esses valores.

Normaliza¸c˜ao: O procedimento de normaliza¸c˜ao consiste em multiplicar αt(i) por um

coeficiente de normaliza¸c˜ao, dependente do tempo(independente de i) e, tamb´em, fazer o

mesmo com βt(i). Para entender melhor o procedimento de normaliza¸c˜ao, vamos consi-

derar a f´ormula de reestima¸c˜ao do coeficiente aij:

aij = PT −1 t=1 γt(i, j) PT −1 t=1 γt(i) = PT −1 t=1 αt(i)aijbj(ot+1)βt+1(j) PT −1 t=1 PN j=1αt(i)aijbj(ot+1)βt+1(j) (2.50)

Considerando o c´alculo de αt(i), para cada t, primeiro calcula-se o αt(i) e depois

normaliza-se cada termo multiplicando pelo coeficiente de normaliza¸c˜ao

ct=

1 PN

i=1αt(i)

(2.51)

Ent˜ao, para um valor fixo de t, calculamos

αt(i) = N

j=1

( ˆαt−1(j)aij)bj(ot) (2.52)

O coeficiente normalizado ˆαt(i) ´e calculado como

ˆ αt(i) = PN j=1αˆt−1(j)aijbj(ot) PN i=1 PN j=1αˆt−1(j)aijbj(ot) (2.53)

Por indu¸c˜ao, podemos escrever ˆαt−1(j) como

ˆ αt−1(j) = ( t−1 Y T =1 cT)αt−1(j) (2.54)

ˆ αt(i) = αt(i) PN i=1αt(i) (2.55)

Uma vez que temos αt(i) normalizado, normalizamos βt(i) usando o mesmo fator de escala

para cada instante t. Consequentemente,

βt(i) = ctβt(i) (2.56)

Então, usando os valores normalizados, a fórmula de reestima¸cão do aij torna-se

aij = PT −1 t=1 αˆt(i)aijbj(ot+1) ˆβt+1(j) PT −1 t=1 PN j=1αˆt(i)aijbj(ot+1) ˆβt+1(j) (2.57)

Mas sabendo que ˆαt(i) e ˆβt+1(j) podem ser escritos como

ˆ αt(i) = [ t Y k=1 ck]αt(i) = Ctαt(i), (2.58) ˆ βt+1(j) = [ T Y k=t+1 ck]βt+1(j) = Dt+1βt+1(j) (2.59)

A f´ormula de reestima¸c˜ao pode ser escrita como

aij = PT −1 t=1 Ctαt(i)aijbj(ot+1)Dt+1βt+1(j) PT −1 t=1 PN j=1Ctαt(i)aijbj(ot+1)Dt+1βt+1(j) (2.60)

J´a que o termo CtDt+1 ´e independente de t(CtDt+1 = CT), ele pode ser cancelado

na fórmula acima, e obteremos a mesma fórmula de reestima¸cão antes de fazer a normaliza¸cão. Sendo assim, todas as fórmulas de reestima¸cão permanecem válidas usando o

procedimento de normaliza¸c˜ao descrito.

A mudan¸ca mais importante é a maneira de calcular P (O|λ) quando usamos os valores normalizados. Como ˆαt(i) está normalizado, não podemos somar seus termos

para calcular P (O|λ), pois seriam obtidos valores maiores do que um. Nesse caso vamos considerar a seguinte propriedade:

T Y t=1 ct N X i=1 αT(i) = CT N X i=1 αT(i) = 1 (2.61)

Ent˜ao, temos

T Y t=1 ctP (O|λ) = 1 (2.62) e P (O|λ) = 1 T Y t=1 ct (2.63)

para evitar o underflow, usamos log[P (O|λ)] = −PT

t=1log ct.

Portanto, a medida log[P (O|λ)] = PT

t=1log ct, que ´e o logaritmo da verossimilhan¸ca da

sequência O com rela¸cão ao modelo λ, é calculável e torna-se uma medida extremamente importante para se avaliar a semelhan¸ca da sequência com o modelo.

Cap´ıtulo 3

Metodologia e implementa¸c˜ao

Todo o processo implementado em c´odigo neste trabalho apresenta uma metodologia para

a realiza¸cão da verifica¸cão de um locutor. Essa metodologia se mantém para qualquer altera¸cão realizada no trabalho com o fim de melhorar o desempenho no programa. Ela

apresenta três etapas básicas: a aquisi¸cão de dados a partir dos áudios do locutor; o treinamento de um modelo para o locutor de interesse; e a realiza¸cão de testes para

verifica¸c˜ao da autenticidade do locutor.

Para o primeiro passo, ´e necess´ario que o locutor de interesse possua uma base de

audios contendo a pronúncia de uma certa palavra-chave que será usada para a verifica¸cão. Desses áudios, serão extra´ıdos alguns dados que são caracter´ısticos do locutor de interesse

de forma a diferenciá-lo de um poss´ıvel locutor impostor. Esses dados podem ser divididos em coeficientes cepstrais na escala Mel (MFCC), parâmetros de frequência extra´ıdos do

sinal glotal e parâmetros de tempo extra´ıdos do sinal glotal. Como citado anteriormente, os MFCCs são os coeficientes mais usados na análise da voz e são os parâmetros base do

trabalho proposto. Será mostrado a melhora nos resultados ao se adicionar os parâmetros relativos ao tempo do sinal glotal para melhorar a verifica¸cão, pois os parâmetros de

frequˆencia j´a haviam sido explorados no trabalho anterior [3].

Após coletar os dados relativos aos áudios, é necessário treinar um modelo para

o locutor de interesse. A modelagem estocástica seguiu os Modelos Ocultos de Markov (HMMs), pois eles se adaptam bem ao processo de verifica¸cão de locutor. Conforme já

apresentado no Cap´ıtulo 2, o HMM é uma Cadeia de Markov onde os estados do modelo são ocultos. Dessa forma, o modelo é constru´ıdo a partir dos observáveis que, no caso

ser os MFCCs, os parâmetros de frequência e os parâmetros de tempo. Dessa forma, o

algoritmo utilizado para encontrar uma HMM espec´ıfica considera esses observ´aveis e, a cada conjunto deles, converge para um modelo espec´ıfico para o locutor de interesse.

Quanto mais diversas forem as situa¸cões em que os áudios forem gravados, melhor será a verifica¸cão. Isso se deve ao fato de que se os áudios apresentarem variadas situa¸cões

em que o locutor se encontra, o modelo conseguirá distinguir quais caracter´ısticas são intr´ınsecas ao locutor e quais são variáveis dependendo da situa¸cão.

Após ter obtido o modelo com o treinamento, é poss´ıvel realizar a verifica¸cão, ou seja, é poss´ıvel decidir se um novo áudio pertence ao locutor de interesse ou pertence a

um locutor impostor. Para esse novo locutor, também são extra´ıdos os mesmos dados usados para o treinamento do modelo. A partir desses dados e do modelo já treinado,

é usado o algoritmo para o cálculo do logaritmo da verossimilhan¸ca (definido na Eq. 2.27) que é uma medida do quão próximo esses novos dados estão do modelo treinado.

Quanto maior a verossimilhan¸ca, mais pr´oximo eles est˜ao do modelo, indicando que o ´

audio provavelmente pertence ao locutor de interesse. Caso contr´ario, indicar´a que o

audio pertence a um locutor impostor. Como o valor de verossimilhan¸ca geralmente é muito pequeno, a análise é feita a partir do seu logaritmo e o critério de decisão é baseado

em um limiar preestabelecido que servirá como referência para a decisão. Caso o logaritmo da verossimilhan¸ca seja maior do que o limiar, o programa verificará que o áudio testado

realmente pertence ao locutor de interesse, e caso o contr´ario, ele ser´a do locutor impostor.

3.1 Estrutura geral do c´odigo

Como este trabalho consiste na continua¸cão de um trabalho anterior [3], é necessário

enfatizar as mudan¸cas realizadas neste projeto em compara¸c˜ao com o que j´a foi feito. ´

E importante explicar a estrutura geral do c´odigo de onde foi iniciado o projeto para

entendermos as mudan¸cas aplicadas que geraram os avan¸cos na verifica¸cão do locutor. Seguindo a lógica apresentada no in´ıcio do cap´ıtulo, o código inicialmente foi dividido em

algumas partes: leitura dos áudios e extra¸cão dos dados referentes ao locutor de interesse; treinamento do modelo HMM e testes com os áudios do locutor de interesse; leitura e

extra¸cão dos dados referente aos áudios dos locutores impostores; e testes com os áudios dos locutores impostores. Essa se¸cão, portanto, destina-se a explicar essa estrutura do

c´odigo e, para isso, ´e importante dizer que todos os algoritmos foram implementados em

MATLAB[12]. Os códigos estão disponibilizados no Apêndice.

A parte de leitura dos ´audios referentes ao locutor de interesse ´e realizada a partir

de um processo iterativo onde cada itera¸cão irá considerar um áudio do locutor de interesse e extrair seus parâmetros. No caso desse trabalho, foram lidos 200 áudios, onde 160 são

para o treinamento do HMM e 40 para os testes referentes ao locutor de interesse. No in´ıcio de cada itera¸cão, é criado um vetor com as caracter´ısticas extra´ıdas. Em seguida, é

feito um recorte dos momentos de silêncio do sinal, pois o silêncio não carrega informa¸cão e aumenta a carga computacional. Esses momentos de silêncio são os trechos no in´ıcio e no

fim do áudio onde o locutor permanece um tempo sem emitir nenhum som e consistem no instante em que é iniciada a grava¸cão e demora um tempo até come¸car a fala propriamente

dita e, depois, quando ela termina at´e encerrar a grava¸c˜ao. O algoritmo usado nessa parte relaciona a energia do sinal de fala e a taxa de cruzamento de zeros num curto intervalo

de tempo [9] [13].

A extra¸cão dos parâmetros é toda realizada através de uma mesma fun¸cão e tem

como sa´ıda um vetor contendo os parˆametros. A primeira parte do vetor corresponde aos MFCCs extra´ıdos. Em seguida, o sinal glotal ´e obtido do sinal de voz, por filtragem

inversa(IAIF) e, então, parâmetros são extra´ıdos do sinal glotal para completar o vetor. O pacote voicebox do MATLAB é usado para extrair a frequência fundamental do sinal,

através da fun¸cão fxrapt [14]. Com a frequência fundamental de cada ciclo, o per´ıodo pode ser determinado através da rela¸cão:

T = 1

, (3.1)

onde f0é a frequência fundamental e T é o per´ıodo do ciclo. Dado o per´ıodo funda-

mental, o programa calcula os parâmetros de jitter, shimmer e parâmetros de frequência, conforme são mostrados nas se¸cões 2.1.2 e 2.1.4. Para calcular esses parâmetros, o sinal

de voz e o sinal glotal são divididos em trechos que serão analisados individualmente. Se o código utilizar um conjunto de N parâmetros, o resultado da análise será um vetor de

comprimento N, onde cada elemento ´e o valor de um parˆametro.

Ao término do cálculo, os parâmetros são incorporados a uma matriz denominada

dados. Essa matriz contém todos os dados calculados de todos os áudios e é passada para o HMM que utiliza o algoritmo de Baum-Welch e é implementado pelo Hidden Markov

Model (HMM) Toolbox for Matlab [15]. Para cada ´audio, s˜ao calculados os logaritmos

da verossimilhan¸ca a partir da fun¸cão denominada de mhmm logprob e são armazenados em um vetor chamado de alllog. Esse é o vetor referente às probabilidades do locutor

de interesse. Cerca de 80% dos áudios são usados para treino do modelo e 20% para testes, conforme dito anteriormente. As porcentagens foram decididas após vários testes

de acordo com o trabalho anterior [3].

Para os testes com os ´audios dos locutores impostores, repetimos o mesmo procedi-

mento. Primeiramente, é implementada uma estrutura de repeti¸cão onde cada repeti¸cão analisa um áudio individualmente. Cada áudio é convertido em um vetor a ser passado

para a fun¸cão parametros para o cálculo dos MFCCs e dos outros parâmetros. A partir desses dados, é calculado o logaritmo da verossimilhan¸ca. Para análise dos resultados,

calcula-se o coeficiente L1(distˆancia entre as fun¸c˜oes densidade de probabilidade) a partir

das fun¸c˜oes densidade de probabilidade dos logaritmos das verossimilhan¸cas. O c´alculo

do coeficiente L1 será melhor explicado na próxima se¸cão.

Por último, calculam-se os limiares e a decisão sobre a autenticidade do áudio.

Neste código, são calculados 3 limiares distintos que terão seus desempenhos analisados para decidir qual está mais próximo do limiar de decisão ideal e seus cálculos também serão

apresentados na próxima se¸cão. Tendo o valor desses limiares, o código realiza a decisão. Para todos os áudios analisados, o programa nos diz a quantidade de falsos positivos

e falsos negativos que ficam armazenados em duas matrizes de dados denominadas de ErroFP e ErroFN. Esses valores de erros ser˜ao a base para a an´alise dos resultados que

ser´a apresentada no Cap´ıtulo 4.

No documento Desenvolvimento de um programa de verificação de locutor usando como entrada para HMMs parâmetros extraı́dos do sinal de voz e do sinal glotal na emissão de palavras contendo conjuntamente sons vozeados e não-vozeados (páginas 37-45)