EM aplicado a um Modelo de Misturas Gaussianas

Dado um conjunto de amostras conhecidas, X, deseja-se estimar os parâmetros µi, Σi e P (ωi) de cada uma das distribuições que compõem o modelo final λ. Aqui, podemos enxergar as variáveis ωi como as variáveis latentes desconhecidas. Estimar P (ωi) significa, portanto, estimar o peso final da distribuição i.

Suponha X = {x1, ..., xN} e que tenhamos M distribuições no modelo, cujos parâmetros são referenciados como λ, então:

p(xk|λ) = M

j=1

p(xk|ωj, λj)P (ωj). (A.4)

Por definição, a verossimilhança do modelo, com relação às N amostras de X é: p(X|λ) =

k=1

p(xk|λ), (A.5)

e a estimativa do máximo da verossimilhança, λ0, é o valor de λ que maximiza p(X|λ). Se assumirmos que p(X|λ) é uma função diferenciável em λ, então podemos derivar as condições necessárias para os valores de λ0. Definimos então L como sendo o logaritmo da verossimilhança e ∇λiL o gradiente de L com respeito a λi, que é um subconjunto de

λ, referente aos parâmetros da i-ésima distribuição. Então: L = N X k=1 log p(xk|λ) (A.6) e ∇λiL = N X k=1 1 p(xk|λ) ∇λi[ M X j=1 p(xk|ωj, λj)P (ωj)]. (A.7)

Se assumirmos que os parâmetros de duas distribuições diferentes, λi e λj são independentes e se introduzimos a probabilidade a posteriori,

P (ωi|xk, λ) =

p(xk|ωi, λi)P (ωi) p(xk|λ)

, (A.8)

podemos observar que o gradiente do logaritmo da verossimilhança com respeito aos parâmetros pode ser escrito como:

∇λiL = N

k=1

P (ωi|xk, λ)∇λi[log p(xk|ωi, λi)]. (A.9)

Uma vez que o gradiente deve desaparecer em λi que maximiza L, a estimativa do máximo de verossimilhança, λ0_i, deve satisfazer a condição:

N X k=1 P (ωi|xk, λ0)∇λi[log p(xk|ωi, λ 0 i)] = 0, (A.10)

APÊNDICE A. Algoritmo de Maximização de Expectativa (EM) 131

i = 1, ..., M. (A.11)

Finalmente, as regras de atualização dos parâmetros do modelo, em cada etapa do passo de maximização, dadas pela solução da equação acima, são definidas como:

132

APÊNDICE B – Cálculo da probabilidade de

um Modelo de União a Posteriori

Como visto na Seção 3.3.5, quando um Modelo de União a Posteriori é utilizado, uma aproximação é empregada sobre a verossimilhança de um modelo com respeito a um subconjunto do vetor de características. Para um subconjunto de um determinado vetor

x, xsub, a verossimilhança de um determinado modelo, λ, é aproximada pela soma das verossimilhanças de todos os subconjuntos de mesmo tamanho que xsub. Nesse caso, se o subconjunto é de tamanho M , temos, segundo a Equação 3.43:

p(xsub,M|λ) ∝

x0_sub,M⊂x

p(x0_sub,M|λ), (B.1)

onde x0_sub,M é um vetor de características, subconjunto do vetor original x, de tamanho M . Além disso, quando as características utilizadas são consideradas independentes, a verossimilhança de um modelo com respeito ao subconjunto é definido como o produto das verossimilhanças de cada uma das características. Segundo a Equação 3.36, temos que:

p(xsub|λ) =

xd∈xsub

p(xd|λ). (B.2)

Suponha que o objetivo é calcular o somatório de todas as verossimilhanças dos subconjuntos de tamanho M = 2 e que o vetor de características completo possua D dimensões. Nesse caso, temos:

X x0 sub,2⊂x p(x0_sub,2|λ) =X j>i p(xi|λ)p(xj|λ), (B.3)

onde 1 ≤ i ≤ D e 1 ≤ j ≤ D, de modo que, para o cálculo dessa probabilidade, é necessário tomar todas as combinações possíveis de subconjuntos de tamanho 2. Para ilustrar esse cálculo, suponha um total de D = 4 características. Suponha também que pi corresponde à probabilidade associada a i-ésima dimensão, isto é, p(xi|λ). O resultado da Equação B.3 seria:

p1p2+ p1p3+ p1p4+ p2p3+ p2p4+ p3p4. (B.4)

Uma vez calculadas as probabilidades p1, p2, ..., pD, para o cálculo da verossimilhança da Equação B.1 com relação aos subconjuntos de tamanho M , 1 ≤ M ≤ D, deve-se combinar todas as probabilidades M a M , realizar a multiplicação dos elementos de cada combinação e então somar todos os resultados. Nesse trabalho, foi desenvolvido um algoritmo baseado em programação dinâmica que realiza o cálculo descrito acima. Dados

APÊNDICE B. Cálculo da probabilidade de um Modelo de União a Posteriori 133 os valores das probabilidades individuais, o algoritmo computa os valores dos somatórios das combinações dessas probabilidades para os tamanhos de 1 a D. Tal algoritmo é descrito a seguir.

p₁ p ₂

...

V

p _D

Figura 24 – Vetor contendo todas as probabilidades individuais de um vetor de caracterís- ticas de dimensão D.

Suponha primeiramente que os valores das probabilidades individuais estejam armazenadas em um vetor de dimensão D, digamos V (Figura 24). A ideia do algoritmo é realizar cálculos em uma determinada matriz, digamos W , de dimensão D × D, seguindo uma abordagem de programação dinâmica. O primeiro passo é inicializar a primeira linha da matriz W com as probabilidades combinadas 1 a 1 (ver Figura 25). Isto é,

W [1, i] ← i

k=1

V [k], (B.5)

onde 1 ≤ i ≤ D. Além disso, o restante da matriz é inicializado com zeros.

p₁ p + p ₁ ₂ p + p + ... + p₁ ₂

...

W[1]

Figura 25 – Inicialização da matriz W . A primeira linha é definida pelas combinações das probabilidades individuais 1 a 1. O restante da matriz é inicializado com zeros.

Algoritmo 1 Após a inicialização, os valores são calculados em cada linha levando em

consideração as somas das combinações calculadas na linha anterior. Esse procedimento insere, na posição W [k, D], o somatório da probabilidades combinadas k a k.

for (i ← 2; i ≤ D; i ← i + 1) do for (j ← i; j ≤ D; j ← j + 1) do

W [i, j] ← (W [i − 1, j − 1]V [j]) + W [i, j − 1]

end for end for

Como pode ser observado, a entrada da matriz em W [1, D] já possui o valor do somatório das probabilidades combinadas 1 a 1. O processamento que será realizado em seguida possui o objetivo de atribuir a W [k, D] o somatório das probabilidades combinadas k a k. Esse processamento deve ser realizado a cada uma das linhas iterativamente, de modo que, para o cálculo da soma das combinações k a k, o algoritmo utiliza os resultados parciais computados na soma anterior, com as combinações k − 1 a k − 1. O processamento

APÊNDICE B. Cálculo da probabilidade de um Modelo de União a Posteriori 134 é iniciado na segunda linha da matriz W e, em cada linha, o processamento é iniciado na coluna correspondente à diagonal principal da matriz. Por exemplo, na segunda linha, o processamento irá começar no índice [2, 2] e terminará no índice [2, D]. O valor de uma determinada posição [i, j] da matriz é definido como:

W [i, j] ← (W [i − 1, j − 1]V [j]) + W [i, j − 1]. (B.6)

O procedimento descrito acima está mostrado no Algoritmo 1. No fim da execução, o elemento W [k, D] possui o valor de p(xsub,M|λ) da Equação B.1 quando M = k. Como pode ser observado, a complexidade do algoritmo é quadrática para a quantidade de características presentes no vetor.

135

Referências

ABATE, A. F. et al. 2D and 3D face recognition: A survey. Pattern Recognition Letters, Elsevier, v. 28, n. 14, p. 1885–1906, 2007. Citado na página 24.

ADAMI, A. G. et al. Modeling prosodic dynamics for speaker recognition. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 2003. v. 4, p. IV–788. Citado na página 43.

AHMAD, S.; TRESP, V. Some solutions to the missing feature problem in vision. Advances in neural information processing systems, Morgan Kaufmann Publishers, p. 393–393, 1993. Citado na página 90.

ALEXANDER, A. et al. The effect of mismatched recording conditions on human and automatic speaker recognition in forensic applications. Forensic Science International, Elsevier, v. 146, p. S95–S99, 2004. Citado na página 32.

ATAL, B. S. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification. the Journal of the Acoustical Society of America, Acoustical Society of America, v. 55, n. 6, p. 1304–1312, 1974. Citado 3 vezes nas páginas 31, 71 e 123.

AUCKENTHALER, R.; CAREY, M.; LLOYD-THOMAS, H. Score normalization for text-independent speaker verification systems. Digital Signal Processing, Elsevier, v. 10, n. 1, p. 42–54, 2000. Citado 4 vezes nas páginas 79, 80, 81 e 123.

BARCLAYS. Barclays Speaker Recognition System over Telephone. 2014. <http://wealth.barclays.com/en_gb/internationalwealth/manage-your-money/

banking-on-the-power-of-speech.html>. Acessado em Junho de 2014. Citado na página 32.

BEEK, B.; NEUBERG, E.; HODGE, D. An assessment of the technology of automatic speech recognition for military applications. IEEE Transactions on Acoustics, Speech and Signal Processing, IEEE, v. 25, n. 4, p. 310–322, 1977. Citado na página 30.

BEIGI, H. Fundamentals of speaker recognition. [S.l.]: Springer, 2011. Citado 3 vezes nas páginas 27, 31 e 33.

BESACIER, L.; BONASTRE, J.-F.; FREDOUILLE, C. Localization and selection of speaker-specific information with statistical modeling. Speech Communication, Elsevier, v. 31, n. 2, p. 89–106, 2000. Citado na página 90.

BILMES, J. A. et al. A gentle tutorial of the EM algorithm and its application to parameter estimation for gaussian mixture and hidden markov models. International Computer Science Institute, v. 4, n. 510, p. 126, 1998. Citado 2 vezes nas páginas 52

e 128.

BIOMETRICS. Biometrics History. 2006. <http://biometrics.gov/Documents/BioHistory. pdf>. Acessado em Junho de 2014. Citado na página 24.

Referências 136 BIOMETRICS. Biometrics Consortium. 2014. <http://www.biometrics.org>. Acessado em Junho de 2014. Citado na página 24.

BOLL, S. Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on Acoustics, Speech and Signal Processing, IEEE, v. 27, n. 2, p. 113–120,

1979. Citado na página 90.

BOURLARD, H.; DUPONT, S. A mew ASR approach based on independent processing and recombination of partial frequency bands. In: IEEE. International Conference on Spoken Language. [S.l.], 1996. v. 1, p. 426–429. Citado na página 76.

BRICKER, P. D. et al. Statistical techniques for talker identification. Bell System Technical Journal, Wiley Online Library, v. 50, n. 4, p. 1427–1454, 1971. Citado na

página 30.

BURGES, C. J. C. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, Springer, v. 2, n. 2, p. 121–167, 1998. Citado na página 58.

CAMPBELL, J. P. Speaker recognition: a tutorial. Proceedings of the IEEE, IEEE, v. 85, n. 9, p. 1437–1462, 1997. Citado na página 27.

CAMPBELL, J. P.; REYNOLDS, D. A.; DUNN, R. B. Fusing high-and low-level features for speaker recognition. In: Interspeech. [S.l.: s.n.], 2003. Citado na página 43.

CAMPBELL, W. M. Generalized linear discriminant sequence kernels for speaker recognition. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 2002. v. 1, p. I–161. Citado na página 67.

CAMPBELL, W. M.; ASSALEH, K. T. Polynomial classifier techniques for speaker verification. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 1999. v. 1, p. 321–324. Citado na página 63.

CAMPBELL, W. M.; STURIM, D. E.; REYNOLDS, D. A. Support vector machines using GMM supervectors for speaker verification. IEEE Signal Processing Letters, IEEE, v. 13, n. 5, p. 308–311, 2006. Citado 2 vezes nas páginas 64 e 77.

CAMPBELL, W. M. et al. SVM based speaker verification using a gmm supervector kernel and nap variability compensation. In: IEEE. International Conference on Acoustics, Speech and Signal Processing. [S.l.], 2006. v. 1, p. I–I. Citado 4 vezes nas páginas 68, 87, 89 e 123.

COOKE, M.; ELLIS, D. P. The auditory organization of speech and other sources in listeners and computational models. Speech communication, Elsevier, v. 35, n. 3, p. 141–177, 2001. Citado na página 90.

DAUGMAN, J. Iris recognition border-crossing system in the UAE. International Airport Review, v. 8, n. 2, 2004. Citado na página 25.

DAVIS, S.; MERMELSTEIN, P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on Acoustics, Speech and Signal Processing, IEEE, v. 28, n. 4, p. 357–366, 1980. Citado na página 46.

Referências 137 DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum likelihood from incomplete data via the EM algorithm. In: . [S.l.: s.n.], 1977. v. 39, n. 1, p. 1–38. Citado 2 vezes nas páginas 52 e 128.

DENG, L.; O’SHAUGHNESSY, D. Speech processing: a dynamic and optimization-oriented approach. [S.l.]: CRC Press, 2003. Citado na página 39.

DO, M. N. Fast approximation of Kullback-Leibler distance for dependence trees and hidden Markov models. IEEE Signal Processing Letters, IEEE, v. 10, n. 4, p. 115–118, 2003. Citado na página 66.

DODDINGTON, G. R. A method or speaker verification. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 49, n. 1A, p. 139–139, 1971. Citado na página 30.

DODDINGTON, G. R. Speaker recognition - identifying people by their voices. Proceedings of the IEEE, IEEE, v. 73, n. 11, p. 1651–1664, 1985. Citado na página 44. DODDINGTON, G. R. et al. Speaker recognition based on idiolectal differences between speakers. In: Interspeech. [S.l.: s.n.], 2001. p. 2521–2524. Citado na página 43.

DRYGAJLO, A.; EL-MALIKI, M. Speaker verification in noisy environments with combined spectral subtraction and missing feature theory. In: IEEE. International Conference on Acoustics, Speech and Signal Processing. [S.l.], 1998. v. 1, p. 121–124.

Citado na página 90.

DUDA, R. O.; HART, P. E. Pattern Classification and Scene Analysis. New York: Wiley, 1973. Citado na página 55.

ENDRESS, W.; BAMBACH, W.; FLOSSER, G. Voice spectrograms as a function of age. Voice Disguise and Voice Imitation, JASA, v. 49, n. 6, p. 2, 1971. Citado na página 30.

FAUVE, B. G. B.; EVANS, N. W. D.; MASON, J. S. D. Improving the performance of text-independent short duration SVM-and GMM-based speaker verification. In: Odyssey. [S.l.: s.n.], 2008. p. 18. Citado na página 40.

FBI. Integrated Automated Fingerprint Identification System (IAFIS). 2014. <http://www.fbi.gov/hq/cjisd/iafis.htm>. Acessado em Junho de 2014. Citado na

página 26.

FEBRABAN. CIAB FEBRABAN - Setor Bancário em Números. 2012. <http: //www.febraban.org.br/7Rof7SWg6qmyvwJcFwF7I0aSDf9jyV/sitefebraban/Pesquisa% 20CIAB%20FEBRABAN%202012.pdf>. Acessado em Junho de 2014. Citado na página 18.

FINDBIOMETRICS. Iris Scanners and Recognition. 2014. <http://findbiometrics.com/ solutions/iris-scanners-recognition>. Acessado em Junho de 2014. Citado na página 25. FINGERPRINTING. History of Fingerprinting. 2014. <http://www.fingerprinting.com/ history-of-fingerprinting.php>. Acessado em Junho de 2014. Citado 2 vezes nas páginas 24 e 25.

FLANAGAN, J. L. Speech analysis: Synthesis and perception. [S.l.]: Springer-Verlag, 1972. Citado na página 44.

Referências 138 FURUI, S. An analysis of long-term variation of feature parameters of speech and its application to talker recognition. Electronics and Communications in Japan, v. 57, n. 12, p. 34–42, 1974. Citado na página 30.

FURUI, S. Cepstral analysis technique for automatic speaker verification. IEEE Transactions on Acoustics, Speech and Signal Processing, IEEE, v. 29, n. 2, p. 254–272,

1981. Citado 6 vezes nas páginas 31, 43, 50, 71, 72 e 123.

FURUI, S. Recent advances in speaker recognition. In: SPRINGER. Audio-and Video-based Biometric Person Authentication. [S.l.], 1997. p. 235–252. Citado 2 vezes nas

páginas 34 e 69.

FURUI, S. 50 years of progress in speech and speaker recognition. Speech Communication, p. 1–9, 2005. Citado na página 31.

FURUI, S.; ITAKURA, F.; SAITO, S. Talker recognition by long time averaged speech spectrum. Electronics and Communication in Japan, v. 55–A, n. 10, p. 54–61, 1972. Citado na página 30.

GAUVAIN, J. L.; LEE, C.-H. Maximum a posteriori estimation for multivariate gaussian mixture observations of markov chains. In: IEEE Transactions on Speech and Audio Processing. [S.l.: s.n.], 1994. v. 2, n. 2, p. 291–298. Citado 2 vezes nas páginas 55 e 56. GISH, H. et al. Investigation of text-independent speaker indentification over telephone channels. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 1985. v. 10, p. 379–382. Citado na página 54.

GOLUB, g. H.; REINSCH, C. Singular value decomposition and least squares solutions. Numerische Mathematik, Springer, v. 14, n. 5, p. 403–420, 1970. Citado na página 88. GONZALEZ-RODRIGUEZ, J. et al. Robust estimation, interpretation and assessment of likelihood ratios in forensic speaker recognition. Computer Speech & Language, Elsevier, v. 20, n. 2, p. 331–355, 2006. Citado na página 32.

GUDNASON, J.; BROOKES, M. Voice source cepstrum coefficients for speaker identification. In: IEEE. International Conference on Acoustics, Speech and Signal Processing. [S.l.], 2008. p. 4821–4824. Citado na página 42.

HARRINGTON, J.; CASSIDY, S. Techniques in speech acoustics. [S.l.]: Springer, 1999. v. 8. Citado 2 vezes nas páginas 39 e 46.

HARSHA, B. V. A noise robust speech activity detection algorithm. In: IEEE. Proceedings of International Symposium on Intelligent Multimedia, Video and Speech Processing. [S.l.], 2004. p. 322–325. Citado na página 40.

HAUTAMÄKI, V. et al. Improving speaker verification by periodicity based voice activity detection. In: International Conference on Speech and Computer (SPECOM). [S.l.: s.n.], 2007. p. 645–650. Citado na página 40.

HENNANSKY, H.; TIBREWALA, S.; PAVEL, M. Towards ASR on partially corrupted speech. In: IEEE. International Conference on Spoken Language. [S.l.], 1996. v. 1, p. 462–465. Citado na página 76.

Referências 139 HERMANSKY, H. Perceptual linear predictive (PLP) analysis of speech. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 87, n. 4, p. 1738–1752, 1990. Citado na página 46.

HERMANSKY, H.; MORGAN, N. RASTA processing of speech. Speech and Audio Processing, IEEE Transactions on, IEEE, v. 2, n. 4, p. 578–589, 1994. Citado 2 vezes nas páginas 73 e 123.

HERMANSKY, H. et al. RASTA-PLP speech analysis technique. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 1992. v. 1, p. 121–124.

Citado 2 vezes nas páginas 73 e 123.

HIGGINS, A. L.; BAHLER, L.; PORTER, J. Speaker verification using randomized phrase prompting. In: Digital Signal Processing. [S.l.: s.n.], 1991. v. 1, n. 2, p. 89–106. Citado na página 53.

HIGGINS, J. J. An introduction to modern nonparametric statistics. [S.l.]: Brooks/Cole Pacific Grove, CA, 2004. Citado na página 106.

HUANG, X. et al. Spoken language processing: A guide to theory, algorithm, and system development. [S.l.]: PTR Prentice Hall, 2001. Citado na página 46.

JAAKKOLA, T.; HAUSSLER, D. Exploiting generative models in discriminative classifiers. Advances in Neural Information Processing Systems, MIT; 1998, p. 487–493, 1999. Citado na página 63.

JAIN, A. K.; BOLLE, R.; PANKANTI, S. Biometrics: Personal Identification in Networked Society. [S.l.]: Springer, 1999. Citado na página 18.

JAIN, A. K. et al. An identity-authentication system using fingerprints. Proceedings of the IEEE, v. 85, n. 9, p. 1365–1388, 1997. Citado na página 24.

JAIN, A. K.; KUMAR, A. Biometrics of next generation: An overview. Second Generation Biometrics, Springer, 2010. Citado na página 26.

JOLLIFFE, I. Principal component analysis. [S.l.]: Wiley Online Library, 2005. Citado na página 88.

JR, H. L. P. et al. Inhibiting the lombard effect. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 85, n. 2, p. 894–900, 1989. Citado 2 vezes nas páginas 70 e 104.

JUNQUA, J.-C. The lombard reflex and its role on human listeners and automatic speech recognizers. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 93, n. 1, p. 510–524, 1993. Citado 2 vezes nas páginas 70 e 104.

KINNUNEN, T.; ALKU, P. On separating glottal source and vocal tract information in telephony speaker verification. In: IEEE. International Conference on Acoustics, Speech and Signal Processing. [S.l.], 2009. p. 4545–4548. Citado na página 42.

KINNUNEN, T.; LI, H. An overview of text-independent speaker recognition: from features to supervectors. Speech Communication, Elsevier, v. 52, n. 1, p. 12–40, 2010. Citado 5 vezes nas páginas 34, 44, 68, 69 e 87.

Referências 140 LI, K. P.; DAMMANN, J. E.; CHAPMAN, W. D. Experimental studies in speaker verification, using an adaptive system. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 40, n. 5, p. 966–978, 1966. Citado na página 30. LI, K.-P.; HUGHES, G. W. Talker differences as they appear in correlation matrices of continuous speech spectra. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 55, n. 4, p. 833–837, 1974. Citado na página 30.

MAK, M.-W.; YU, H.-B. Robust voice activity detection for interview speech in nist speaker recognition evaluation. Proceedings of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2010. Citado na página 39.

MAKHOUL, J. Linear prediction: A tutorial review. Proceedings of the IEEE, IEEE, v. 63, n. 4, p. 561–580, 1975. Citado na página 45.

MAMMONE, R. J.; ZHANG, X.; RAMACHANDRAN, R. P. Robust speaker recognition: A feature-based approach. IEEE Signal Processing Magazine, IEEE, v. 13, n. 5, p. 58, 1996. Citado 2 vezes nas páginas 44 e 45.

MING, J. Universal compensation–an approach to noisy speech recognition assuming no knowledge of noise. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 2004. v. 1, p. I–961. Citado na página 91.

MING, J. et al. Robust speaker recognition in noisy conditions. IEEE Transactions on Audio, Speech, and Language Processing, IEEE, v. 15, n. 5, p. 1711–1723, 2007. Citado 11 vezes nas páginas 90, 92, 97, 99, 100, 119, 120, 122, 123, 124 e 126.

MING, J.; JANCOVIC, P.; SMITH, F. J. Robust speech recognition using probabilistic union models. IEEE Transactions on Speech and Audio Processing, IEEE, v. 10, n. 6, p. 403–414, 2002. Citado na página 96.

MING, J.; LIN, J.; SMITH, F. J. A posterior unionmodel with applications to robust speech and speaker recognition. EURASIP Journal on Applied Signal Processing, Hindawi Publishing Corporation, v. 2006, p. 37–37, 2006. Citado na página 96.

MING, J.; STEWART, D.; VASEGHI, S. Speaker identification in unknown noisy conditions-a universal compensation approach. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 2005. v. 1, p. 617–620. Citado 3 vezes nas páginas 34, 69 e 91.

MOON, T. K. The expectation-maximization algorithm. In: . [S.l.: s.n.], 1996. v. 13, n. 6, p. 47–60. Citado na página 128.

MORRIS, A. C.; COOKE, M. P.; GREEN, P. D. Some solution to the missing feature problem in data classification, with application to noise robust ASR. In: IEEE. International Conference on Acoustics, Speech and Signal Processing. [S.l.], 1998. v. 2, p. 737–740. Citado na página 90.

NADEU, C.; HERNANDO, J.; GORRICHO, M. On the decorrelation of filter-bank energies in speech recognition. In: Eurospeech. [S.l.: s.n.], 1995. v. 95, p. 1381–1384. Citado 4 vezes nas páginas 76, 77, 110 e 123.

Referências 141 NIEMI-LAITINEN, T. et al. Applying mfcc-based automatic speaker recognition to gsm and forensic data. In: Proceedings of Second Baltic Conference on Human Language Technologies. [S.l.: s.n.], 2005. p. 317–322. Citado na página 32.

OGLESBY, J.; MASON, J. S. Radial basis function networks for speaker recognition. In: IEEE. International Conference on Acoustics, Speech, and Signal. [S.l.], 1991. p. 393–396. Citado na página 54.

OPPENHEIM, A. V. et al. Discrete-time signal processing. [S.l.]: Prentice-hall Englewood Cliffs, 1989. v. 2. Citado na página 70.

PALIWAL, K. K. Decorrelated and liftered filter-bank energies for robust speech recognition. In: Eurospeech. [S.l.: s.n.], 1999. v. 99, p. 85–88. Citado 4 vezes nas páginas 76, 77, 110 e 123.

PALIWAL, K. K.; ALSTERIS, L. D. Usefulness of phase spectrum in human speech perception. In: Interspeech. [S.l.: s.n.], 2003. Citado na página 47.

PELECANOS, J.; SRIDHARAN, S. Feature warping for robust speaker verification. International Speech Communication Association (ISCA), 2001. Citado 3 vezes nas páginas 74, 76 e 123.

PFISTER, B.; BEUTLER, R. Estimating the weight of evidence in forensic speaker verification. In: Interspeech. [S.l.: s.n.], 2003. Citado na página 32.

PLAMONDON, R.; SRIHARI, S. N. Online and off-line handwriting recognition: a comprehensive survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE, v. 22, n. 1, p. 63–84, 2000. Citado na página 25.

PLUMPE, M. D.; QUATIERI, T. F.; REYNOLDS, D. A. Modeling of the glottal flow derivative waveform with application to speaker identification. IEEE Transactions on Speech and Audio Processing, IEEE, v. 7, n. 5, p. 569–586, 1999. Citado na página 42. POLLACK, I.; PICKETT, J. M.; SUMBY, W. H. On the identification of speakers by voice. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 26, n. 3, p. 403–406, 1954. Citado na página 30.

PORITZ, A. Linear predictive hidden markov models and the speech signal. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 1982. v. 7, p. 1291–1294. Citado na página 31.

PRASANNA, S. R. M.; GUPTA, C. S.; YEGNANARAYANA, B. Extraction of speaker-specific excitation information from linear prediction residual of speech. Speech Communication, Elsevier, v. 48, n. 10, p. 1243–1261, 2006. Citado na página 42.

PRUZANSKY, S. Pattern-matching procedure for automatic talker recognition. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 35, n. 3, p. 354–358, 1963. Citado na página 30.

PRUZANSKY, S.; MATHEWS, M. V. Talker-recognition procedure based on analysis of variance. The Journal of the Acoustical Society of America, Acoustical Society of America, v. 36, n. 11, p. 2041–2047, 1964. Citado na página 30.

Referências 142 RABINER, L. R.; JUANG, B.-H. Fundamentals of speech recognition. [S.l.]: PTR Prentice Hall, 1993. v. 14. Citado na página 46.

RAMIREZ, J. et al. Efficient voice activity detection algorithms using long-term speech information. Speech Communication, Elsevier, v. 42, n. 3, p. 271–287, 2004. Citado na página 40.

REYNOLDS, D. A. A gaussian mixture modeling approach to text-independent speaker identification. PhD Thesis, Georgia Institute of Technology, 1992. Citado 2 vezes nas páginas 40 e 43.

REYNOLDS, D. A. Experimental evaluation of features for robust speaker identification. IEEE Transactions on Speech and Audio Processing, IEEE, v. 2, n. 4, p. 639–643, 1994. Citado 2 vezes nas páginas 72 e 74.

REYNOLDS, D. A. Speaker identification and verification using gaussian mixture speaker models. Speech communication, Elsevier, v. 17, n. 1, p. 91–108, 1995. Citado 3 vezes nas páginas 51, 53 e 54.

REYNOLDS, D. A. Comparison of background normalization methods for text- independent speaker verification. In: Eurospeech. [S.l.: s.n.], 1997. Citado 2 vezes nas páginas 79 e 123.

REYNOLDS, D. A. Channel robust speaker verification via feature mapping. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 2003. v. 2, p. II–53. Citado 3 vezes nas páginas 85, 86 e 123.

REYNOLDS, D. A.; QUATIERI, T. F.; DUNN, R. B. Speaker verification using adapted gaussian mixture models. Digital Signal Processing, Elsevier, v. 10, n. 1, p. 19–41, 2000. Citado 8 vezes nas páginas 53, 54, 58, 65, 77, 80, 81 e 123.

REYNOLDS, D. A.; ROSE, R. C. Robust text-independent speaker identification using gaussian mixture speaker models. IEEE Transactions on Speech and Audio Processing, IEEE, v. 3, n. 1, p. 72–83, 1995. Citado 3 vezes nas páginas 51, 53 e 54.

REYNOLDS, D. A.; ROSE, R. C.; SMITH, M. J. T. PC-based TMS320C30 implementation of the gaussian mixture model text-independent speaker recognition system. In: Proceedings of the International Conference on Signal Processing Applications and Technology. [S.l.: s.n.], 1992. p. 967–973. Citado na página 40.

ROSE, P. Forensic speaker identification. [S.l.]: CRC Press, 2003. Citado na página 41. ROSE, R. C.; REYNOLDS, D. A. Text independent speaker identification using automatic acoustic segmentation. In: IEEE. International Conference on Acoustics, Speech, and Signal Processing. [S.l.], 1990. p. 293–296. Citado na página 31.

No documento Verificação de locutores independente de texto: uma análise de robustez a ruído (páginas 131-146)