Crit´ erio do coeficiente L 1 - Adapta¸c˜ ao do c´ odigo para utiliza¸c˜ ao de palavras

3.4 Adapta¸c˜ ao do c´ odigo para utiliza¸c˜ ao de palavras

4.1.1 Crit´ erio do coeficiente L 1

Um primeiro crit´erio utilizado na an´alise desses resultados foi o do coeficiente L1, pois

compara a distância entre as fun¸cões densidade de probabilidade. Os testes foram feitos a partir das poss´ıveis combina¸cões dos parâmetros de tempo, individualmente, dois a dois, e

três a três, utilizando um total de 30 áudios para cada locutor impostor. Como explicado anteriormente, para cada áudio de um locutor, é calculado o logaritmo da verossimilhan¸ca

que é usado para se obterem duas fun¸cões de densidade de probabilidade. A distância entre essas curvas é medida pelo coeficiente L1 que tem seu valor definido no intervalo

entre 0 e 1, pode-se observar que L1 = 0 significa que a distˆancia entre as curvas ´e zero e

a distância máxima é obtida para L1 = 1.

As tabelas 4.1 e 4.2 mostram os principais resultados obtidos com as combina¸c˜oes de parˆametros, considerando os locutores de interesse masculino, onde iremos chamar de

Freq a união dos parâmetros de frequência dH12 e HRF em todo o restante do texto. As melhores combina¸cões de parâmetros foram selecionadas em negrito, sempre o interessante

é verificar se há uma melhoria em rela¸cão ao uso apenas de MFCC.

Parˆametros Locutor 1 Locutor 2 Locutor 3 Locutor 4 Locutor de interesse

MFCC 0.999 0.999 0.999 0.999 0.153

MFCC+Jitter+Freq 0.999 0.999 0.999 0.993 0.121

MFCC+Jitter+Freq+QOQ 0.999 0.999 0.999 0.999 0.227

MFCC+Jitter+Freq+OQA 0.999 0.999 0.999 0.999 0.228

MFCC+Jitter+Freq+CIQ 0.999 0.999 0.999 0.999 0.200

Tabela 4.1: Coeficiente L1 para o primeiro locutor de interesse masculino de acordo com

a combina¸c˜ao de parˆametros.

Parˆametros Locutor 1 Locutor 2 Locutor 3 Locutor 4 Locutor de interesse

MFCC 0.999 0.999 0.999 0.999 0.336

MFCC+Jitter+Freq 0.999 0.999 0.999 0.959 0.327

MFCC+Jitter+Freq+QOQ 0.999 0.999 0.999 0.983 0.240

MFCC+Jitter+Freq+OQa 0.993 0.997 0.999 0.968 0.259

MFCC+Jitter+Freq+CIQ 0.999 0.999 0.999 0.973 0.250

Tabela 4.2: Coeficiente L1 para o segundo locutor de interesse masculino de acordo com

Vale a pena lembrar que, para o locutor impostor, o ideal ´e que o coeficiente L1

seja o maior poss´ıvel e que, para o locutor de interesse, ocorra ao contr´ario, ou seja, o coeficiente deve ser o menor poss´ıvel.

A Figura 4.2 ilustra a compara¸c˜ao do locutor de interesse com o locutor impostor 3.

Figura 4.2: Curva de referˆencia do primeiro locutor de interesse em azul e curva de teste

do locutor impostor 3 em vermelho.

Lembrando que quanto maior o coeficiente, mais afastadas est˜ao as curvas. E´ interessante observar na Fig. 4.2 que os valores do coeficiente come¸cam a mudar na quinta

casa decimal e não fazem diferen¸ca efetivamente na verifica¸cão, como será conclu´ıdo mais a frente ao analisar os valores dos limiares.

Na Figura 4.3 acontece exatamente o oposto do que foi mostrado na Fig. 4.2, como o locutor testado ´e o que gerou a base ent˜ao as curvas ficam quase coincidentes, por isso

os valores do coeficiente devem ser bem menores.

Figura 4.3: Curva de referˆencia do primeiro locutor de interesse masculino em azul e curva

Podemos observar que, nesse caso, os parˆametros de frequˆencia junto ao MFCC

deram melhores resultados, em termos de coeficiente L1. Ao adicionar o parˆametro OQA

aos testes n˜ao houve melhora significativa na verifica¸c˜ao deste locutor.

Na Figura 4.4, pode ser observado que os valores do coeficiente L1 come¸cam a

se alterar na terceira casa decimal. Graficamente, j´a ´e poss´ıvel observar uma diferen¸ca

significativa na distˆancia das curvas, diferentemente do que foi observado na Fig. 4.2.

Figura 4.4: Curva de referˆencia do segundo locutor de interesse masculino em azul e curva

de teste do locutor impostor 2 em vermelho.

Na Figura 4.5 est˜ao mostrados os gr´aficos onde o melhor resultado foi obtido, com

a adi¸cão do parâmetro de tempo QOQ, em compara¸cão com o teste feito apenas com o MFCC. É poss´ıvel perceber melhoria significativa no valor do coeficiente L1.

Figura 4.5: Curva de referˆencia do segundo locutor de interesse masculino em azul e curva de teste do segundo locutor de interesse em vermelho.

Neste caso, podemos perceber a vantagem em utilizar os parˆametros de tempo para que a verifica¸c˜ao de locutor tenha um melhor desempenho.

Como pode ser observado nas Tabs. 4.1 e 4.2, o valor do coeficiente L1 para os

OQa e CIQ. A melhoria observada est´a no valor do coeficiente para o segundo locutor

de interesse. Se observarmos a última coluna das tabelas, o valor da primeira posi¸cão é maior do que das posi¸cões seguintes. Isso mostra que esses parâmetros poderão influenciar

positivamente para melhorar a identifica¸c˜ao.

Nas Tabs. 4.3 e 4.4, temos um resumo dos testes com os locutores de interesse

feminino que foram feitos, onde as melhores combina¸c˜oes de parˆametros foram selecionadas em negrito.

Parˆametros Locutor 1 Locutor 2 Locutor 3 Locutor 4 Locutor de interesse

MFCC 0.492 0.548 0.806 0.150 0.169

MFCC+Jitter+Freq 0.839 0.697 0.737 0.219 0.053

MFCC+Jitter+Freq+QOQ 0.999 0.870 0.791 0.566 0.168

MFCC+Jitter+Freq+OQa 0.944 0.861 0.873 0.394 0.114

Tabela 4.3: Coeficiente L1 para o primeiro locutor de interesse feminino de acordo com a

combina¸c˜ao de parˆametros.

Parˆametros Locutor 1 Locutor 2 Locutor 3 Locutor 4 Locutor de interesse

MFCC 0.399 0.508 0.531 0.401 0.436

MFCC+Jitter+Freq 0.447 0.257 0.212 0.311 0.337

MFCC+Jitter+Freq+QOQ 0.469 0.284 0.407 0.146 0.329

MFCC+Jitter+Freq+OQa 0.559 0.410 0.481 0.269 0.282

Tabela 4.4: Coeficiente L1 para o segundo locutor de interesse feminino de acordo com a

combina¸c˜ao de parˆametros.

Na Figura 4.6 pode ser observado como a adi¸cão do parâmetro QOQ melhorou o distanciamento das curvas de referência e teste, podemos observar que utilizando apenas

o MFCC para a verifica¸c˜ao obtemos um resultado pior.

Com adi¸cão do parâmetro QOQ, as curvas ficam mais afastadas e com isso há uma

melhoria no desempenho do programa de verifica¸cão, onde há mais chances do áudio do locutor impostor em questão ser rejeitado pelo sistema.

Figura 4.6: Curva de referˆencia do segundo locutor de interesse feminino em azul e curva

de teste do quarto locutor de interesse em vermelho.

Na Figura 4.7 os parâmetros de frequência juntos ao MFCC levaram aos melhores resultados e o parâmetro QOQ foi o pior entre os melhores parâmetros de tempo, pelos

gráficos podemos ver que as curvas de referência e teste dos parâmetros de frequência junto ao MFCC deram quase idênticas enquanto as do parâmetro QOQ têm um afastamento, de

acordo com o valor do coeficiente L1 podemos perceber o que foi observado nos gr´aficos.

Figura 4.7: Curva de referˆencia do segundo locutor de interesse feminino em azul e curva

de teste do segundo locutor de interesse feminino em vermelho.

E interessante notar na Fig. 4.8 que, apesar do coeficiente L1 ter um valor maior

para o caso do parâmetro OQA as curvas não estão muito espa¸cadas, isso se deve ao fato

de a amplitude das curvas serem menores em rela¸cão às do MFCC, por isso é bom ter outros critérios para definir se o áudio pertence ao locutor que treinou a base.

Como pode ser observado nas Tabs. 4.3 e 4.4, o valor do coeficiente L1 para os

locutores impostores apresentaram uma melhora considerável com a adi¸cão dos parâmetros

QOQ e OQa. Apenas o locutor impostor 4 para a Tab. 4.4 teve uma piora, pois os parˆametro de tempo apresentaram um valor menor do coeficiente L1 do que sem eles.

Figura 4.8: Curva de referˆencia do segundo locutor de interesse feminino em azul e curva

de teste do segundo locutor de interesse feminino em vermelho.

Levando em conta o locutor de interesse, a 4.4 apresentou uma melhora pois o valor do

coeficiente L1 diminuiu, enquanto para a 4.3 os resultados foram bons apenas para o

parˆametro OQa e QOQ, em compara¸c˜ao com o MFCC.

A partir dos resultados obtidos, podemos concluir que o coeficiente L1 ´e capaz

de mostrar o desempenho do código a partir da distância das curvas. Porém, além das

varia¸cões não serem muito grandes nos resultados apresentados, o coeficiente L1 não pode

ser usado para a verifica¸c˜ao de locutor devido ao fato de ser necess´ario um conjunto

de ´audios relativamente grande para se obter uma distribui¸c˜ao que se ajuste aos dados do logaritmo da verossimilhan¸ca. Ele apenas ajuda, em alguns casos, a identificar os

melhores parâmetros. Portanto é necessário utilizar o critério dos limiares para se obter um resultado mais preciso do desempenho do programa. Na próxima se¸cão serão trabalhados

No documento Desenvolvimento de um programa de verificação de locutor usando como entrada para HMMs parâmetros extraı́dos do sinal de voz e do sinal glotal na emissão de palavras contendo conjuntamente sons vozeados e não-vozeados (páginas 61-67)