• Nenhum resultado encontrado

7.2

Experimentos utilizando a base de dados Nist

2002

Nesta se¸c˜ao, os experimentos usando a base Nist 2002 s˜ao apresentados. As amostras de fala da base Nist 2002 foram gravadas a uma taxa de 8 kHz. Assim, h´a a necessidade do uso de t´ecnicas de normaliza¸c˜ao.

Nesse sentido, inicialmente avaliamos o efeito da aplica¸c˜ao das t´ecnicas de normaliza¸c˜ao descritas na se¸c˜ao 3.2. As t´ecnicas CMN, CMVN e FW foram testadas em um sistema UBM-GMM utilizando os coeficientes MFCCs. Notamos, pela figura 7.5, melhoria no desempenho dos sistemas ao utilizar as t´ecnicas de normaliza¸c˜ao, onde SN indica que nenhuma t´ecnica de normaliza¸c˜ao foi utilizada nos vetores de parˆametros MFCCs.

Baseado nesses resultados, um novo experimento foi delineado procurando-se encontrar a melhor metodologia do uso das t´ecnicas de normaliza¸c˜ao. Verificamos que as t´ecnicas CMVN e FW apresentaram os melhores resultados, o que nos levou a combinar ambas t´ecnicas. Na literatura, ´e comum a combina¸c˜ao de t´ecnicas de normaliza¸c˜ao [63]. Na figura 7.6 apresentamos a curva DET obtida sem o uso de t´ecnicas de normaliza¸c˜ao e a curva DET ao utilizar as t´ecnicas FW e CMVN em sequˆencia nos vetores de parˆametros. Adotamos como padr˜ao esse procedimento nos experimentos seguintes. Ressalta-se que as t´ecnicas de normaliza¸c˜ao foram utilizadas somente nos parˆametros MFCCs.

0.1 0.2 0.5 1 2 5 10 20 40 0.1 0.2 0.5 1 2 5 10 20 40

Taxa de Falsa Aceitação (%)

Taxa de Falsa Rejeição (%)

SN CMN CMVN FW

Figura 7.5: Curvas DETs em sistemas de verifica¸c˜ao de locutor utilizando diferentes t´ecnicas de normaliza¸c˜ao de parˆametros

7.2. Experimentos utilizando a base de dados Nist 2002 72 0.1 0.2 0.5 1 2 5 10 20 40 0.1 0.2 0.5 1 2 5 10 20 40

Taxa de Falsa Aceitação (%)

Taxa de Falsa Rejeição (%)

SN: EER= 18,8% e MinDCF= 7,12 FW+CMVN: EER= 10,29% e MinDCF= 4,57

Figura 7.6: Curvas DETs em sistemas de verifica¸c˜ao de locutor utilizando combina¸c˜oes de t´ecnicas de normaliza¸c˜ao de parˆametros

7.2. Experimentos utilizando a base de dados Nist 2002 73

7.2.1

Testes de fus˜ao de parˆametros MFCCs e VVGP

Nessa se¸c˜ao, avaliamos a fus˜ao de parˆametros MFCCs com os parˆametros VVGP em sistemas de verifica¸c˜ao de locutor UBM-GMM e i-vector PLDA utilizando a base de dados Nist 2002. Inicialmente, utilizamos o m´etodo de fus˜ao ao n´ıvel das caracter´ısticas. Neste caso, ambos vetores de parˆametros MFCCs e VVGP foram obtidos utilizando janelas de 30 ms deslocadas a cada 10 ms. N˜ao notamos melhoria ao utilizar o parˆametro VVGP como podemos concluir pela figura 7.7. Ao utilizar o m´etodo de fus˜ao ao n´ıvel das pontua¸c˜oes, novamente o parˆametro VVGP n˜ao contribuiu para a melhoria no desempenho do sistema como indicado na tabela 7.4.

0.1 0.2 0.5 1 2 5 10 20 40 0.1 0.2 0.5 1 2 5 10 20 40

Taxa de Falsa Aceitação (%)

Taxa de Falsa Rejeição (%) VVGP

MFCC

Fusão ao nível das características

Figura 7.7: Curvas DETs em sistemas de verifica¸c˜ao de locutor UBM-GMM utilizando a base de dados Nist 2002

Em seguida avaliamos a fus˜ao de parˆametros MFCCs e VVGP em um sistema i-vector PLDA. Verificamos ligeira melhoria no desempenho do sistema para alguns pontos de opera¸c˜ao como podemos visualizar na figura 7.8 ao utilizar o m´etodo de fus˜ao ao n´ıvel das caracter´ısticas. Neste experimento, ambos os vetores parˆametros MFCCs e VVGP foram obtidos utilizando janelas de 30 ms deslocadas a cada 10 ms.

Estes resultados indicam que os parˆametros VVGP n˜ao apresentam um bom compor- tamento devido `a dimens˜ao das janelas utilizado. Com base nisso, para melhor avaliar o uso do parˆametro VVGP, novos testes foram conduzidos utilizando o m´etodo de fus˜ao ao n´ıvel das pontua¸c˜oes.

7.2. Experimentos utilizando a base de dados Nist 2002 74 0.1 0.2 0.5 1 2 5 10 20 40 0.1 0.2 0.5 1 2 5 10 20 40

Taxa de Falsa Aceitação (%)

Taxa de Falsa Rejeição (%)

VVGP MFCC

Fusão ao nível das características Fusão ao nível das pontuações

Figura 7.8: Curvas DETs em sistemas de verifica¸c˜ao de locutor i-vector PLDA utilizando a base de dados Nist 2002

No m´etodo de fus˜ao ao n´ıvel das pontua¸c˜oes, utilizamos os parˆametros MFCCs e VVGP individualmente. Os vetores de parˆametros VVGP foram obtidos utilizando janelas de 32 ms com deslocamento de 16 ms e os parˆametros MFCCs foram estimados como anteriormente. Assim, dois sub-scores foram obtidos. Em seguida, combinamos os valores dos sub-scores para compor o score final.

A tabela 7.5 mostra os valores de EER e de MinDCF, ao passo que variamos os pesos dos sub-scores. Pela an´alise da tabela, observa-se que o melhor desempenho corresponde ao uso dos valores de pesos w1 = 0.3 e w2 = 0.7, onde w1 e w2 correspondem ao peso dado

aos parˆametros MFCCs e VVGP respectivamente. Apesar do parˆametro MFCC obter melhores resultados quando comparado ao parˆametro VVGP, ao realizar a fus˜ao, a melhor configura¸c˜ao em termos de EER foi obtida ao estipular um peso maior ao parˆametro VVGP.

Na figura 7.8, as curvas Dets resultantes dos experimentos s˜ao mostradas e na Tabela 7.4 os valores de EER e MinDCF podem ser analisados.

Verificamos que o m´etodo de fus˜ao ao n´ıvel das pontua¸c˜oes foi o mais indicado no caso de locu¸c˜oes com frequˆencia de amostragem de 8 kHz, pois possibilita encontrar a melhor configura¸c˜ao para diferentes vetores de parˆametros (utilizamos janelas de 30 ms ao obter os parˆametros MFCC e janelas de 32 ms ao obter o parˆametro VVGP). Especificamente, no processo de estima¸c˜ao do parˆametro VVGP, h´a a necessidade de se utilizar janelas de tamanho maior, assim mais amostras s˜ao utilizadas na gera¸c˜ao das cascatas respons´aveis na obten¸c˜ao do parˆametro VVGP.

7.2. Experimentos utilizando a base de dados Nist 2002 75 Tabela 7.4: Valores de EER e MinDCF para diferentes configura¸c˜oes utilizando a base Nist 2002.

M´etodo EER (%) MinDCF

VVGP (UBM-GMM) 24,13 9,28

MFCC (UBM-GMM) 10,29 4,57

Fus~ao ao n´ıvel das caracter´ısticas (UBM-GMM) 14,34 5,80 Fus~ao ao n´ıvel das pontua¸c~oes (UBM-GMM) 10,29 4,57

VVGP (i-vector PLDA) 12,64 5,58

MFCC (i-vector PLDA) 7,49 2,44

Fus~ao ao n´ıvel das caracter´ısticas (i-vector PLDA) 8,04 2,17 Fus~ao ao n´ıvel das pontua¸c~oes (i-vector PLDA) 5,19 1,93

Tabela 7.5: Valores de EER e MinDCF para diferentes valores de w1 (peso associado ao pa-

ametro MFCC) e w2 (peso associado ao parˆametro VVGP) em um sistema i-vector PLDA

. w1 w2 EER (%) MinDCF 1 0 7,49 2,44 0,9 0,1 7,55 2,31 0,8 0,2 7,13 2,09 0,7 0,3 6,89 2,04 0,6 0,4 6,64 2,08 0,5 0,5 5,90 2,00 0,4 0,6 5,74 1,95 0,3 0,7 5,19 1,93 0,2 0,8 5,86 2,17 0,1 0,9 8,58 3,12 0 1 12,64 5,58

a base Nist 2002 foi utilizada. Al´em da baixa frequˆencia de amostragem (8kHz), da reso- lu¸c˜ao de 16 bits/amostras e do canal telefˆonico, a dura¸c˜ao do tempo de fala dispon´ıvel nas locu¸c˜oes de cadastro e de teste tamb´em deve ser considerada. Na tabela 6.3 ´e informado que as locu¸c˜oes de cadastro possuem 2 minutos de material de fala. Contudo ao realizar o processo de VAD, apenas 56 %, em m´edia, dos quadros ´e utilizado. As locu¸c˜oes de teste possuem em m´edia 45 segundos de material, contudo ap´os o VAD, 60 % dos quadros, em m´edia, s˜ao utilizados.

Cap´ıtulo 8. Conclus˜ao 76

Cap´ıtulo

8

Conclus˜ao

Neste trabalho, inicialmente, uma vis˜ao geral das t´ecnicas utilizadas ao longo de d´eca- das no desenvolvimento de sistemas de verifica¸c˜ao de locutor foi apresentada. Em seguida, foram introduzidos conceitos gerais de um sistema de reconhecimento biom´etrico, listando suas vantagens, aplica¸c˜oes, com enfoque em sistemas de verifica¸c˜ao de locutor.

Posteriormente, foram apresentadas as principais etapas que comp˜oem o desenvolvi- mento de um sistema de verifica¸c˜ao de locutor : captura do sinal de fala, extra¸c˜ao de parˆametros, normaliza¸c˜ao de parˆametros, modelamento, compara¸c˜ao e um m´etodo de decis˜ao. As principais t´ecnicas encontradas na literatura para cada etapa foram descritas. Ap´os o estudo realizado, notou-se um grande esfor¸co por parte da comunidade acadˆe- mica em busca por parˆametros que melhor caracterizem um locutor e que, apesar da etapa de extra¸c˜ao de parˆametros possuir uma variedade de t´ecnicas propostas, os parˆametros MFCCs ainda s˜ao os mais utilizado na maioria dos trabalhos.

Neste trabalho mostramos que parˆametros baseados na teoria multifractal carregam informa¸c˜ao complementar e seu uso traz ganho de desempenho nos sistemas de verifica¸c˜ao de locutor.

No in´ıcio do projeto, dois objetivos principais foram determinados:

 Avaliar o uso do parˆametro VVGP em sistemas de verifica¸c˜ao de locutor.  Desenvolvimento de um sistema do estado-da-arte de verifica¸c˜ao de locutor.

Em rela¸c˜ao ao primeiro objetivo, inicialmente apresentamos conceitos relativos `a teoria multifractal, com foco nas cascatas multiplicativas. Apresentamos o processo de extra¸c˜ao dos parˆametros VVGP e listamos suas vantagens e desvantagens. Testamos o parˆametro VVGP utilizando duas bases de dados com frequˆencias de amostragem de 22,5 kHz e de 8 kHz. Al´em disso, dois m´etodos de fus˜ao foram testados: fus˜ao ao n´ıvel das caracter´ısticas e fus˜ao ao n´ıvel das pontua¸c˜oes. Quando utilizamos a base Ynoguti, ambos m´etodos de fus˜ao apresentaram bom comportamento. Ao usar a base de canal telefˆonico Nist 2002,

8.1. Trabalhos futuros 77 apenas o m´etodo de fus˜ao ao n´ıvel das pontua¸c˜oes apresentou bons resultados. Esse re- sultado indica que o parˆametro VVGP ´e sens´ıvel ao comprimento da janela utilizado no processo de extra¸c˜ao de parˆametros, uma vez que ´e um m´etodo que envolve estima¸c˜ao de histogramas. O m´etodo de fus˜ao ao n´ıvel das pontua¸c˜oes tem a vantagem de utilizar janelas de comprimentos diferentes para cada parˆametro utilizado. Al´em disso, determi- namos os pesos que cada parˆametro tem no processo de decis˜ao. Notamos que os pesos ´

otimos foram diferentes para cada base de dados. Ao utilizar a base Ynoguti, o melhor desempenho correspondeu ao usar mais informa¸c˜oes (maior peso) referentes ao parˆametro MFCC, ao passo que o contr´ario ocorreu ao utilizar Nist 2002.

Em rela¸c˜ao ao segundo objetivo do trabalho, dois sistemas de verifica¸c˜ao foram imple- mentados: UBM-GMM e i-vector PLDA. Os sistemas s˜ao relacionados e ambos utilizam o modelo UBM. Nos sistemas UBM-GMM, cada locutor ´e representado por um GMM adaptado a partir do UBM num processo denominado MAP. Em sistemas i-vector PLDA, o UBM ´e utilizado na obten¸c˜ao da matriz T que ´e utilizada para obter um i-vector. A metodogia baseada em i-vectors representa locutores por um ´unico vetor de baixa dimen- s˜ao, projetado a partir do espa¸co definido pela matriz T, onde ambas variabilidades inter e intra-classe s˜ao encontradas. Em seguida, a t´ecnica de redu¸c˜ao de dimensionalidade LDA ´e aplicada com o objetivo de maximizar a variabilidade inter-classe e minimizar a variabilidade intra-classe. O processo de decis˜ao final envolve a t´ecnica PLDA.

Com isto, pode-se concluir que os objetivos iniciais foram atingidos. Este trabalho avaliou o parˆametro VVGP como vetor de caracter´ısticas e al´em disso procurou encontrar a melhor metodologia de fus˜ao com os parˆametros tradicionais MFCCs.

8.1

Trabalhos futuros

 Valida¸c˜ao do parˆametro VVGP em sinais de fala corrompidos com ru´ıdo aditivo.  Realiza¸c˜ao de testes combinando os parˆametros MFCCs e VVGP utilizando dife-

Bibliografia 78

Bibliografia

[1] R. Kent. The Speech Sciences. San Diego: Singular Publishing Group, 1997.

[2] J. Markel, B. Oshika B. e J. A. H. Gray. Long-term features averaging for speaker recognition. IEEE Trans. Audio, Speech and Signal Processing 25, pp. 330-337, 1977. [3] N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, e P. Ouellet . “Front-end factor analysis

for speaker verification”. IEEE TASLP, vol. 19, pp. 788-798, Maio 2011. [4] M. H´ebert e K. Kin. Text-dependent speaker recognition. Spring Verlag. 2008.

[5] A. Langi, K. Soemintapura, W. Kinsner. Multifractal processing of speech signals. In: Proc. IEEE International Conference on Information, Communications and Signal Processing, pp. 527-531, 1997.

[6] D. Gonzalez e L. L. Ling. Uso de parˆametros multifractais no reconhecimento do locutor. Tese de Mestrado. Universidade Estadual de Campinas, 2012.

[7] S. Davis e P. Mermelstein. “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences.” IEEE Trans. Acoustics, Speech, and Signal Processing, pp. 357-366. Agosto 1980.

[8] D. Reynolds. Speaker identification and verification using Gaussian mixture speaker models. Speech Comm. 17, pp. 91-108, 1995.

[9] W. Campbell, , D. Sturim e D. Reynolds. Support vector machines using GMM su- pervectors for speaker verification. IEEE Signal Process. Lett. 13 (5), 2006.

[10] E. Shriberg, L. Ferrer, S. Kajarekar, A. Venkataraman e A. Stolcke. Modeling proso- dic feature sequences for speaker recognition. Speech Communication, Special Issue on Quantitative Prosody Modelling for Natural Speech Description and Generation, 2005. [11] L. Ferrer, E. Shriberg, S. Kajarekar e K. Sonmez. Parameterization of prosodic fe- ature distributions for SVM modeling in speaker recognition. In Proc. Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP),2007.

BIBLIOGRAFIA 79 [12] W. Campbell, J. Campbell, D. Reynolds, D. Jones e T. Leek. Phonetic speaker recog- nition with support vector machines. In Advances in Neural Information Processing Systems 16, Cambridge,2004.

[13] C. Burges. A tutorial on support vector machines for pattern recognition. Data Mi- ning Knowl. Discov., vol. 2, no. 2, pp. 121-167, 1998.

[14] C. Bishop. Pattern Recognition and Machine Learning. Springer Science + Business Media, LLC, New York, 2006.

[15] K. Muller, S. Mika, G. Ratsch, K. Tsuda e B. Scholkopf. An introduction to kernel- based learning algorithms. IEEE Trans. Neural Networks 12 (2), pp. 181-201, 2001. [16] P. Kenny. Joint factor analysis of speaker and session variability: theory and algo-

rithms. Technical Report CRIM, 2006.

[17] P. Kenny , G. Bouliange, P. Ouellet e P. Dumouchel. Speaker and session variabi- lity in GMM-based speaker verification. IEEE Trans. Audio, Speech and Language Processing 15, pp. 1448- 1460, 2007.

[18] N. Evans, T. Kinnunen e J. Yamagishi. Spoofing and countermeasures for automatic speaker verification. In Interspeech, Lyon, France ,2013.

[19] R. Gonzalez Hautamaki, T. Kinnunen, V. Hautamaki, T. Leino, e A-M. Laukkanen. I-vector meet imitators: on vulnerability of speaker verification systems against voice mimicry. in Interspeech, Lyon, France,2013.

[20] J. Villalba e E. Lleida. Detecting replay attacks from far-field recordings on speaker verification systems. Biometrics and ID Management,2011.

[21] P.L. De Leon, M. Pucher, J. Yamagishi, I. Hernaez, e I. Saratxaga Evaluation of speaker verification security and detection of HMM-based synthetic speech. Audio, Speech, and Language Processing, IEEE Transactions on, vol. 20, no. 8,2012

[22] T. Kinnunen, Z.-Z. Wu, K. A. Lee, F. Sedlak, E. S. Chng, e H. Li Vulnerability of speaker verification systems against voice conversion spoofing attacks: the case of telephone speech. In ICASSP 2012, Kyoto, Japan ,2012

[23] K. Fukunaga. Introduction to Statistical Pattern Recognition. 2nd ed. New York: Academic Press, 1990, cap. 10.

[24] S. J .D. Prince e J. H. Elder. “Probabilistic linear discriminant analysis for inferences about identity”. in Proc. IEEE ICCV, Rio de Janeiro, Brazil, Out. 2007.

BIBLIOGRAFIA 80 [25] J. Deller, J. Proakis e J. Hansen. Discrete-Time Processing of Speech Signals, Mac-

millan, 1993.

[26] A. Jain, R. Duin e J. Mao. Statistical pattern recognition: A review. IEEE Trans. on Pattern Analysis and Machine Intelligence 22, 2000.

[27] P. Rose. Forensic Speaker Identification. Taylor and Francis,2002.

[28] Q. Jin e T. F. Zheng. Overview of Front-end Features for Robust Speaker Recognition. In Proc. APSIPA, 2011.

[29] M. Murthi e B. Rao. Minimum variance distortionless response (MVDR) modeling of voiced speech. In Proc. ICASSP, vol.3, pp. 1687-1690, 1997.

[30] S. O. Sadjadi e J. H. L. Hansen. Assessment of single-channel speech enhancement techniques for speaker identification under mismatched conditions. ISCA Interspeech, pp. 2138-2141, 2010.

[31] J. M. K. Kua, T. Thiruvaran, M. Nosratighods, E. Ambikairajah e J. Epps. Investi- gation of spectral centroid magnitude and frequency for speaker recognition. In Proc. Speaker Odyssey: the Speaker Recognition Workshop,2010.

[32] G. Ashour e I. Gath. Characterization of speech during imitation. In Proc. 6th Euro- pean Conf. on Speech Communication and Technology (Eu- rospeech 1999). Budapest, Hungary, 1999.

[33] K. Iwano, T. Asami e S. Furui. Noise-robust speaker verification using f0 features. In Proc. Int. Conf. on Spoken Language Processing (ICSLP), pp. 1417-1420, 2004. [34] B. Peskin, J. Navratil, J. Abramson, D. Jones, D. Klusacek, D. Reynolds e B. Xiang.

Using Prosodic and Conversational Features for High-performance Speaker Recogni- tion: ICASSP,2003.

[35] N. Dehak, P. Dumouchel, e P. Kenny. Modeling prosodic features with joint fac- tor analysis for speaker verification. IEEE Trans. on Audio, Speech, and Language Processing,pp. 2095- 2103, 2007.

[36] G. Doddington. Speaker Recognition based on Idiolectal Differences between Spea- kers. Eurospeech, Vol. 4, pp. 2517-2520, 2001.

[37] S. Kajarekar, L. Ferrer, E. Shriberg, K. Sonmez, A. Stolcke, A. Venkataraman e J. Zheng. SRIs 2004, NIST Speaker Recognition Evaluation System. In Proc. ICASSP,2005.

BIBLIOGRAFIA 81 [38] G. Tur, E. Shriberg, A. Stolcke e S. Kajarekar. Duration and Pronunciation Condi-

tioned Lexical Modeling for Speaker Verification. In Proc. of Interspeech, 2007. [39] J. L. V´ehel, E. Lutton e C. Tricot. Fractals in Engineering. Springer-Verlag, 1997. [40] Z. Xu, L. Wang and K. Wang.“ A New Multifractal Model Based on Multiplicative

Cascade”. Information Technology Journal, 10: pp. 452-456, 2011.

[41] M. Aloud, E. Tsang, A. Dupuis e R. Olsen. “Minimal Agent-Based Model for the Ori- gin of Trading Activity in Foreign Exchange Market”. In: Computational Intelligence for Financial Engineering and Economics (CIFEr), pp 1-8, 2011.

[42] A. Paschalis, P. Molnar e P. Burlando. “Temporal Dependence Structure in Weights in a Multiplicative Cascade Model for Precipitation”. Water Resour. Res., 48, W01501. 2012.

[43] N. Bouaynaya e D. Schonfeld. “Nonstationary Analysis of Coding and Noncoding Regions in Nucleotide Sequences”. In IEEE Journal of Selected Topics in Signal Pro- cessing. V.2(3), pp. 357-364. 2008.

[44] M. Krishna, V. Grade, U. Dessay. Multifractal Based Network Traffic Modeling. Bombay: Kluwer Academic Publishers, 2003.

[45] S. Furui. Cepstral analysis technique for automatic speaker verification. IEEE Tran- sactions on Acoustics, Speech and Signal Processing 29, pp. 254-272, 1981.

[46] J. Pelecanos e S. Sridharan. Feature warping for robust speaker verification. In Proc. Speaker Odyssey: the Speaker Recognition Workshop (Odyssey) , pp. 213-218, 2001. [47] D. Reynolds, T. F. Quatieri e R. B. Dunn, “Speaker verification using adapted gaus-

sian mixture models”. Digital Signal Processing, vol. 10, pp. 19-41, 2000.

[48] A. Dempster, N. Laird e D. Robin. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society, pp. 1-38, 1997.

[49] A. Stolcke, S. Kajarekar, L. Ferrer e E. Shriberg. Speaker recognition with session variability normalization based on MLLR adaptation transforms. IEEE Trans. Audio, Speech and Language Processing 15, pp. 1987-1998, 2007.

[50] R. Kuhn, J-C. Junqua, P. Nguyen e N.Niedzielski, ”Rapid Speaker Adaptation in Eigenvoice Space,”IEEE Transactions on Speech and Audio Processing, vol. 8, no. 6, pp. 695-706, Nov. 2000.

[51] O. Thyes, R. Kuhn, P. Nguyen, e J-C. Junqua, ”Speaker Identification and Verifica- tion using Eigenvoices,”in Proceedings of ICSLP, Beijing, China, 2000.

BIBLIOGRAFIA 82 [52] P. Kenny e P. Dumouchel, ”Experiments in Speaker Verification using Factor Analysis Likelihood Ratios,”in Proceedings of Odyssey 04 - Speaker and Language Recognition Workshop, Toledo, Spain, 2004.

[53] H. Hermansky, “Perceptual linear prediction (PLP) analysis for speech”. Journal of the Acoustic Society of America 87, pp. 1738-1752, 1990.

[54] A. Petry e D. A. C. Barone. “Speaker identification using nonlinear dynamical features ” [J]. Chaos, Solitons & Fractals, 13(2), 2002

[55] F.V. Nelwamondo, U. Mahola U. e T. Marwala . “Improving speaker identification rate using fractals”. International Joint Conference on Neural Networks, Vancouver, BC, Canada, pp. 16-21 Jul. 2006.

[56] Zhou Y, Wang J e Zhang X . “Research on speaker recognition based on multifractal spectrum feature”. In: Proc. IEEE Second International Conference on Computer Modeling and Simulation, pp 463-466, , Sanya, China.

[57] L. L. Lee e D. C. Gonzalez. “Improving MFCC Based ASI System Performance Using Novel Multifractal Cascade Features”. In: the Fifth International Conference on Intelligent Control and Information Processing (ICICIP2014), pp. 123 - 129, Dalian, 2014.

[58] D. Garcia-Romero e C.Y. Espy-Wilson. “ Analysis of i-vector length normalization in speaker recognition systems”. in Proc. INTERSPEECH, Florence, Italy, pp. 249-252, 2011.

[59] P. Kenny. “Bayesian speaker verification with heavy tailed priors”. In: Proceedings of Speaker Odyssey, 2010.

[60] “Advancing human language technology in Brazil and the United states through collaborative research on portuguese spoken language systems.” Federal University of Rio Grande do Sul, University of Caxias do Sul, Colorado University, and Oregon Graduate Institute, 2001.

[61] C. A. Ynoguti e F. Violaro. “A Brazilian Portuguese Speech Database”. XXVI Sim- posio Brasileiro de Telecomunicac˜oes - SBrt. 2008.

[62] National Institute of Standards and Technology (NIST). The Nist Year 2002 Speaker Recognition Evaluation Plan. Dispon´ıvel em: <http://www.itl.nist.gov/iad/mig/tests/spk/2002/2002-spkrec-evalplan-v60.pdf>. Acesso em: 1 jul. 2015.

[63] T. Kinnunen e H. Li. “An overview of text-independent speaker recognition: from features to supervectors”. Speech Communication, vol. 52, no. 1, pp. 12-40, Jan. 2010.

BIBLIOGRAFIA 83 [64] S. Sadjadi, M. Slaney e L. Heck. “MSR Identity Toolbox v1. 0: A MATLAB To- olbox for Speaker Recognition Research”. Speech and Language Processing Technical Committee Newsletter, 2013.

[65] A. Martin , G. Doddington, T. Kamm, M. Ordowski e M. Przybocki. The DET curve in assessment of detection task perfomance. In proc. 5th European Conference on Speech Communication and Technology , pp 1899-1903, 1997.

[66] J. Picone. Signal Modeling Techniques In Speech Recognition. In Proc. IEEE Vol. 81, no. 9, pp. 1215 - 1247,1997.

[67] J. C. Canuto e L. L. Ling. Eficiˆencia da an´alise multifractal na verifica¸c˜ao de as- sinaturas dinˆamicas. Disserta¸c˜ao de Mestrado, Universidade Estadual de Campinas, 2010.

Documentos relacionados