3.4 Adapta¸c˜ ao do c´ odigo para utiliza¸c˜ ao de palavras
4.1.1 Crit´ erio do coeficiente L 1
Um primeiro crit´erio utilizado na an´alise desses resultados foi o do coeficiente L1, pois
compara a distˆancia entre as fun¸c˜oes densidade de probabilidade. Os testes foram feitos a partir das poss´ıveis combina¸c˜oes dos parˆametros de tempo, individualmente, dois a dois, e
trˆes a trˆes, utilizando um total de 30 ´audios para cada locutor impostor. Como explicado anteriormente, para cada ´audio de um locutor, ´e calculado o logaritmo da verossimilhan¸ca
que ´e usado para se obterem duas fun¸c˜oes de densidade de probabilidade. A distˆancia entre essas curvas ´e medida pelo coeficiente L1 que tem seu valor definido no intervalo
entre 0 e 1, pode-se observar que L1 = 0 significa que a distˆancia entre as curvas ´e zero e
a distˆancia m´axima ´e obtida para L1 = 1.
As tabelas 4.1 e 4.2 mostram os principais resultados obtidos com as combina¸c˜oes de parˆametros, considerando os locutores de interesse masculino, onde iremos chamar de
Freq a uni˜ao dos parˆametros de frequˆencia dH12 e HRF em todo o restante do texto. As melhores combina¸c˜oes de parˆametros foram selecionadas em negrito, sempre o interessante
´e verificar se h´a uma melhoria em rela¸c˜ao ao uso apenas de MFCC.
Parˆametros Locutor 1 Locutor 2 Locutor 3 Locutor 4 Locutor de interesse
MFCC 0.999 0.999 0.999 0.999 0.153
MFCC+Jitter+Freq 0.999 0.999 0.999 0.993 0.121
MFCC+Jitter+Freq+QOQ 0.999 0.999 0.999 0.999 0.227
MFCC+Jitter+Freq+OQA 0.999 0.999 0.999 0.999 0.228
MFCC+Jitter+Freq+CIQ 0.999 0.999 0.999 0.999 0.200
Tabela 4.1: Coeficiente L1 para o primeiro locutor de interesse masculino de acordo com
a combina¸c˜ao de parˆametros.
Parˆametros Locutor 1 Locutor 2 Locutor 3 Locutor 4 Locutor de interesse
MFCC 0.999 0.999 0.999 0.999 0.336
MFCC+Jitter+Freq 0.999 0.999 0.999 0.959 0.327
MFCC+Jitter+Freq+QOQ 0.999 0.999 0.999 0.983 0.240
MFCC+Jitter+Freq+OQa 0.993 0.997 0.999 0.968 0.259
MFCC+Jitter+Freq+CIQ 0.999 0.999 0.999 0.973 0.250
Tabela 4.2: Coeficiente L1 para o segundo locutor de interesse masculino de acordo com
Vale a pena lembrar que, para o locutor impostor, o ideal ´e que o coeficiente L1
seja o maior poss´ıvel e que, para o locutor de interesse, ocorra ao contr´ario, ou seja, o coeficiente deve ser o menor poss´ıvel.
A Figura 4.2 ilustra a compara¸c˜ao do locutor de interesse com o locutor impostor 3.
Figura 4.2: Curva de referˆencia do primeiro locutor de interesse em azul e curva de teste
do locutor impostor 3 em vermelho.
Lembrando que quanto maior o coeficiente, mais afastadas est˜ao as curvas. E´ interessante observar na Fig. 4.2 que os valores do coeficiente come¸cam a mudar na quinta
casa decimal e n˜ao fazem diferen¸ca efetivamente na verifica¸c˜ao, como ser´a conclu´ıdo mais a frente ao analisar os valores dos limiares.
Na Figura 4.3 acontece exatamente o oposto do que foi mostrado na Fig. 4.2, como o locutor testado ´e o que gerou a base ent˜ao as curvas ficam quase coincidentes, por isso
os valores do coeficiente devem ser bem menores.
Figura 4.3: Curva de referˆencia do primeiro locutor de interesse masculino em azul e curva
Podemos observar que, nesse caso, os parˆametros de frequˆencia junto ao MFCC
deram melhores resultados, em termos de coeficiente L1. Ao adicionar o parˆametro OQA
aos testes n˜ao houve melhora significativa na verifica¸c˜ao deste locutor.
Na Figura 4.4, pode ser observado que os valores do coeficiente L1 come¸cam a
se alterar na terceira casa decimal. Graficamente, j´a ´e poss´ıvel observar uma diferen¸ca
significativa na distˆancia das curvas, diferentemente do que foi observado na Fig. 4.2.
Figura 4.4: Curva de referˆencia do segundo locutor de interesse masculino em azul e curva
de teste do locutor impostor 2 em vermelho.
Na Figura 4.5 est˜ao mostrados os gr´aficos onde o melhor resultado foi obtido, com
a adi¸c˜ao do parˆametro de tempo QOQ, em compara¸c˜ao com o teste feito apenas com o MFCC. ´E poss´ıvel perceber melhoria significativa no valor do coeficiente L1.
Figura 4.5: Curva de referˆencia do segundo locutor de interesse masculino em azul e curva de teste do segundo locutor de interesse em vermelho.
Neste caso, podemos perceber a vantagem em utilizar os parˆametros de tempo para que a verifica¸c˜ao de locutor tenha um melhor desempenho.
Como pode ser observado nas Tabs. 4.1 e 4.2, o valor do coeficiente L1 para os
OQa e CIQ. A melhoria observada est´a no valor do coeficiente para o segundo locutor
de interesse. Se observarmos a ´ultima coluna das tabelas, o valor da primeira posi¸c˜ao ´e maior do que das posi¸c˜oes seguintes. Isso mostra que esses parˆametros poder˜ao influenciar
positivamente para melhorar a identifica¸c˜ao.
Nas Tabs. 4.3 e 4.4, temos um resumo dos testes com os locutores de interesse
feminino que foram feitos, onde as melhores combina¸c˜oes de parˆametros foram selecionadas em negrito.
Parˆametros Locutor 1 Locutor 2 Locutor 3 Locutor 4 Locutor de interesse
MFCC 0.492 0.548 0.806 0.150 0.169
MFCC+Jitter+Freq 0.839 0.697 0.737 0.219 0.053
MFCC+Jitter+Freq+QOQ 0.999 0.870 0.791 0.566 0.168
MFCC+Jitter+Freq+OQa 0.944 0.861 0.873 0.394 0.114
Tabela 4.3: Coeficiente L1 para o primeiro locutor de interesse feminino de acordo com a
combina¸c˜ao de parˆametros.
Parˆametros Locutor 1 Locutor 2 Locutor 3 Locutor 4 Locutor de interesse
MFCC 0.399 0.508 0.531 0.401 0.436
MFCC+Jitter+Freq 0.447 0.257 0.212 0.311 0.337
MFCC+Jitter+Freq+QOQ 0.469 0.284 0.407 0.146 0.329
MFCC+Jitter+Freq+OQa 0.559 0.410 0.481 0.269 0.282
Tabela 4.4: Coeficiente L1 para o segundo locutor de interesse feminino de acordo com a
combina¸c˜ao de parˆametros.
Na Figura 4.6 pode ser observado como a adi¸c˜ao do parˆametro QOQ melhorou o distanciamento das curvas de referˆencia e teste, podemos observar que utilizando apenas
o MFCC para a verifica¸c˜ao obtemos um resultado pior.
Com adi¸c˜ao do parˆametro QOQ, as curvas ficam mais afastadas e com isso h´a uma
melhoria no desempenho do programa de verifica¸c˜ao, onde h´a mais chances do ´audio do locutor impostor em quest˜ao ser rejeitado pelo sistema.
Figura 4.6: Curva de referˆencia do segundo locutor de interesse feminino em azul e curva
de teste do quarto locutor de interesse em vermelho.
Na Figura 4.7 os parˆametros de frequˆencia juntos ao MFCC levaram aos melhores resultados e o parˆametro QOQ foi o pior entre os melhores parˆametros de tempo, pelos
gr´aficos podemos ver que as curvas de referˆencia e teste dos parˆametros de frequˆencia junto ao MFCC deram quase idˆenticas enquanto as do parˆametro QOQ tˆem um afastamento, de
acordo com o valor do coeficiente L1 podemos perceber o que foi observado nos gr´aficos.
Figura 4.7: Curva de referˆencia do segundo locutor de interesse feminino em azul e curva
de teste do segundo locutor de interesse feminino em vermelho.
´
E interessante notar na Fig. 4.8 que, apesar do coeficiente L1 ter um valor maior
para o caso do parˆametro OQA as curvas n˜ao est˜ao muito espa¸cadas, isso se deve ao fato
de a amplitude das curvas serem menores em rela¸c˜ao `as do MFCC, por isso ´e bom ter outros crit´erios para definir se o ´audio pertence ao locutor que treinou a base.
Como pode ser observado nas Tabs. 4.3 e 4.4, o valor do coeficiente L1 para os
locutores impostores apresentaram uma melhora consider´avel com a adi¸c˜ao dos parˆametros
QOQ e OQa. Apenas o locutor impostor 4 para a Tab. 4.4 teve uma piora, pois os parˆametro de tempo apresentaram um valor menor do coeficiente L1 do que sem eles.
Figura 4.8: Curva de referˆencia do segundo locutor de interesse feminino em azul e curva
de teste do segundo locutor de interesse feminino em vermelho.
Levando em conta o locutor de interesse, a 4.4 apresentou uma melhora pois o valor do
coeficiente L1 diminuiu, enquanto para a 4.3 os resultados foram bons apenas para o
parˆametro OQa e QOQ, em compara¸c˜ao com o MFCC.
A partir dos resultados obtidos, podemos concluir que o coeficiente L1 ´e capaz
de mostrar o desempenho do c´odigo a partir da distˆancia das curvas. Por´em, al´em das
varia¸c˜oes n˜ao serem muito grandes nos resultados apresentados, o coeficiente L1 n˜ao pode
ser usado para a verifica¸c˜ao de locutor devido ao fato de ser necess´ario um conjunto
de ´audios relativamente grande para se obter uma distribui¸c˜ao que se ajuste aos dados do logaritmo da verossimilhan¸ca. Ele apenas ajuda, em alguns casos, a identificar os
melhores parˆametros. Portanto ´e necess´ario utilizar o crit´erio dos limiares para se obter um resultado mais preciso do desempenho do programa. Na pr´oxima se¸c˜ao ser˜ao trabalhados