• Nenhum resultado encontrado

4.3 Avaliação das Características da CDBN

4.3.1 Discussão

Os resultados neste trabalho mostram que as características obtidas pela CDBN podem ser usadas em problemas de transferência de aprendizado em bases de áudio.

Também verificamos que o esquema utilizado em (LEE et al., 2009b) para identi- ficação de locutor, onde as características da CDBN são utilizadas por um SVM, não é adequado para a base MIT-MDSVC, apresentando um resultado abaixo do esperado. A razão para os resultados ruins nessa base ainda precisa ser investigada, e sugerimos aqui algumas possibilidades.

Um dos motivos possíveis para essa grande diferença no resultado na TIMIT para o resultado na MIT-MDSVC é que o esquema de classificação utilizado neste trabalho, na qual os scores de um SVM são agregados sobre todos os frames, não é adequado às locuções da MIT-MDSVC. Isso ocorre porque as locuções dessa base possuem longos trechos silenciosos. Esses trechos impactam negativamente a classificação do SVM, já que os scores do trechos silenciosos são agregados juntamente com os scores dos trechos de fala. Isto se torna ainda mais problemático, porque algumas locuções dessa base possuem trechos silenciosos mais longos do que os trechos de fala. Apesar de termos utilizado um método automático de remoção dos trechos de silêncio para essa base (já pensando neste problema), como foi relatado na Seção 3.3, uma análise visual dos espectrogramas feita posteriormente mostrou que essa remoção não foi precisa o suficiente. Portanto, o método de classificação que funcionou perfeitamente na base TIMIT, pode não ter sido adequado para a base MIT-MDSVC. Para testar essa hipótese, podemos utilizar o mesmo esquema de classificação, porém fazendo uma remoção mais cuidadosa dos trechos de silêncio nas locuções dessa base.

Uma outra explicação para esse problema, tem relação com a grande diferença entre a base MIT-MDSVC e a TIMIT, que não se resume à presença de ruído natural, mas até mesmo no conteúdo das locuções. A TIMIT foi projetada para o problema de reconhecimento de voz, possuindo um conteúdo fonético balanceado e com pouca repetição

Capítulo 4. Experimentos e Resultados 51

nas frases pronunciadas pelos locutores. Na MIT-MDSVC, além da presença de longos trechos silenciosos (como já mencionado), todos os locutores pronunciam as mesmas frases. Esses atributos podem tornar a MIT-MDSVC boa para o problema de verificação de locutores em conjunto fechado, porém isso a torna drasticamente diferente da TIMIT, em se tratando de riqueza do conteúdo fonético das locuções.

Apesar do conteúdo fonético não ser algo diretamente relevante para o problema de identificação de locutor, ele é bastante relevante para os resultados obtidos na base TIMIT neste problema. Uma maneira de validar essa hipótese é avaliando a CDBN em outra base ruidosa, que possua as mesmas características da TIMIT, como por exemplo a NTIMIT (JANKOWSKI et al., 1990). Caso a CDBN obtenha bons resultados na NTIMIT, mas continue obtendo resultados bastante inferiores na base MIT-MDSVC, mesmo depois da cuidadosa remoção dos trechos de silêncio, isso indicaria que os resultados da TIMIT obtidos com um esquema simples de classificação (i.e. SVM) foram, em boa parte, decorrência do rico conteúdo fonético das locuções, e não devido ao superior poder discriminatório dessas características no problema de identificação de locutor.

Uma outra questão a ser levantada é o baseline de comparação utilizado neste trabalho. Em (LEE et al., 2009b), os resultados com as características da CDBN foram comparados com o esquema descrito em (REYNOLDS, 1995), que utiliza o MFCC como característica, e GMM para classificação. Ao invés de comparar a CDBN com um es- quema como o GMM-UBM, talvez faça mais sentido comparar com esse esquema mais simples, usando GMM, pois esta comparação é mais adequada para comparar o poder discriminatório das características da CDBN com o MFCC.

Resumidamente, para investigar os maus resultados obtidos pela CDBN na base MIT-MDSVC, e analisar de forma mais completa a capacidade de aprendizado da CDBN em bases de áudio ruidosas, os seguintes experimentos podem ser realizados:

1. Remover os trechos de silêncio da base MIT-MDSVC de forma mais cuidadosa. 2. Testar a CDBN na base NTIMIT, que é idêntica a TIMIT porém com adição de

ruído. Este base é mais adequada para analisar os efeitos do ruído no aprendizado não-supervisionado de características.

3. Replicar o método de (REYNOLDS, 1995) (i.e. MFCC e GMM), e o utilizar como

baseline para avaliar o poder discriminatório das características aprendidas pela

52

5 CONCLUSÃO

Neste trabalho, duas hipóteses foram avaliadas. A primeira era que as características aprendidas de forma não-supervisionada pela Convolutional Deep Belief Network (CDBN) teriam um bom poder de discriminação no problema de identificação de locutor em bases de áudio ruidosas (i.e. MIT-MDSVC). A segunda hipótese era que as características da CDBN poderiam ser aprendidas em uma base de áudio e utilizadas de forma proveitosa em outra base (i.e. transferência de aprendizado).

Os resultados mostraram que a primeira hipótese não se confirmou, e os resultados obtidos na base MIT-MDSVC foram bem abaixo do esperado. A razão para esta perfor- mance abaixo das expectativas ainda precisa ser investigada, e sugestões nesse sentido foram apresentadas durante a discussão dos resultados. A segunda hipótese, que tinha por objetivo o uso da CDBN em problemas com transferência de aprendizado, foi confirmada. Os resultados mostraram que as características aprendidas em uma das bases pode ser utilizada em outra base, com resultados competitivos.

Entre as limitações deste trabalho estão: a ausência de testes estatísticos que validem os resultados reportados de forma empírica, o número reduzido de bases de voz utilizadas nos experimentos e a falta de resultados conclusivos devido ao pequeno número de experimentos realizados.

Como trabalhos futuros, podemos citar a utilização de mais bases de áudio na avaliação do aprendizado não-supervisionado da CDBN, o uso de outros modelos não- supervisionados como a Deep Boltzmann Machine (DBM), e a utilização de um esquema de classificação mais complexo, que utilize as características aprendidas pela CDBN como substitutas do MFCC (Mel-Frequency Cepstral Coefficients).

53

REFERÊNCIAS

ACKLEY, D. H.; HINTON, G. E.; SEJNOWSKI, T. J. A learning algorithm for boltzmann machines. Cognitive science, Wiley Online Library, v. 9, n. 1, p. 147–169, 1985. Citado na página 18.

BENGIO, Y. Learning deep architectures for ai. Foundations and trends in MachineR

Learning, Now Publishers Inc., v. 2, n. 1, p. 1–127, 2009. Citado 3 vezes nas páginas 14,

19 e 24.

BENGIO, Y.; COURVILLE, A. C.; BERGSTRA, J. S. Unsupervised models of images by spike-and-slab rbms. In: Proceedings of the 28th International Conference on Machine

Learning (ICML-11). [S.l.: s.n.], 2011. p. 1145–1152. Citado na página 24.

CAMPBELL, J. P.; JR. Speaker recognition: A tutorial. Proceedings of the IEEE, IEEE, v. 85, n. 9, p. 1437–1462, 1997. Citado na página 15.

CHO, K.; ILIN, A.; RAIKO, T. Improved learning of gaussian-bernoulli restricted boltzmann machines. In: Artificial Neural Networks and Machine Learning–ICANN 2011. [S.l.]: Springer, 2011. p. 10–17. Citado na página 25.

COURVILLE, A. C.; BERGSTRA, J.; BENGIO, Y. A spike and slab restricted boltzmann machine. In: International Conference on Artificial Intelligence and Statistics. [S.l.: s.n.], 2011. p. 233–241. Citado na página 24.

DESJARDINS, G.; BENGIO, Y. Empirical Evaluation of Convolutional RBMs for Vision. [S.l.], 2008. Citado na página 28.

FISHER, W. M.; DODDINGTON, G. R.; GOUDIE-MARSHALL, K. M. The darpa speech recognition research database: specifications and status. In: Proc. DARPA

Workshop on speech recognition. [S.l.: s.n.], 1986. p. 93–99. Citado 2 vezes nas páginas 14

e 39.

GIANNAKOPOULOS, T. A method for silence removal and segmentation of speech signals, implemented in matlab. Department of Informatics and Telecommunications,

University of Athens, Greece, Computational Intelligence Laboratory (CIL), Insititute of Informatics and Telecommunications (IIT), NCSR DEMOKRITOS, Greece, 2009. Citado

na página 42.

HÉBERT, M. Text-dependent speaker recognition. In: Springer handbook of speech

processing. [S.l.]: Springer, 2008. p. 743–762. Citado na página 15.

HINTON, G. Training products of experts by minimizing contrastive divergence. Neural

computation, MIT Press, v. 14, n. 8, p. 1771–1800, 2002. Citado 2 vezes nas páginas 22

e 23.

HINTON, G. A practical guide to training restricted boltzmann machines. Momentum, v. 9, n. 1, p. 926, 2010. Citado 4 vezes nas páginas 22, 23, 24 e 46.

Referências 54

HINTON, G.; DENG, L.; YU, D.; DAHL, G. E.; MOHAMED, A.-r.; JAITLY, N.; SENIOR, A.; VANHOUCKE, V.; NGUYEN, P.; SAINATH, T. N. et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. Signal Processing Magazine, IEEE, IEEE, v. 29, n. 6, p. 82–97, 2012. Citado na página 40.

HINTON, G. E.; OSINDERO, S.; TEH, Y.-W. A fast learning algorithm for deep belief nets. Neural computation, MIT Press, v. 18, n. 7, p. 1527–1554, 2006. Citado 3 vezes nas páginas 24, 27 e 31.

HINTON, G. E.; SALAKHUTDINOV, R. R. Reducing the dimensionality of data with neural networks. Science, American Association for the Advancement of Science, v. 313, n. 5786, p. 504–507, 2006. Citado 4 vezes nas páginas 18, 23, 24 e 25.

HYVÄRINEN, A. Estimation of non-normalized statistical models by score matching. In:

Journal of Machine Learning Research. [S.l.: s.n.], 2005. p. 695–709. Citado na página 22.

JANKOWSKI, C.; KALYANSWAMY, A.; BASSON, S.; SPITZ, J. Ntimit: A phonetically balanced, continuous speech, telephone bandwidth speech database. In: IEEE. Acoustics,

Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on.

[S.l.], 1990. p. 109–112. Citado na página 51.

KINNUNEN, T.; LI, H. An overview of text-independent speaker recognition: From features to supervectors. Speech communication, Elsevier, v. 52, n. 1, p. 12–40, 2010. Citado 2 vezes nas páginas 15 e 16.

KOLLER, D.; FRIEDMAN, N. Probabilistic graphical models: principles and techniques. [S.l.]: MIT press, 2009. Citado na página 18.

KRIZHEVSKY, A.; HINTON, G. Learning multiple layers of features from tiny images. [S.l.]: Citeseer, 2009. Citado 2 vezes nas páginas 24 e 25.

KRIZHEVSKY, A.; SUTSKEVER, I.; HINTON, G. E. Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems. [S.l.: s.n.], 2012. p. 1097–1105. Citado na página 13.

LECUN, Y.; BOTTOU, L.; BENGIO, Y.; HAFFNER, P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, IEEE, v. 86, n. 11, p. 2278–2324, 1998. Citado na página 28.

LEE, H. Unsupervised Feature Learning via Sparse Hierarchical Representations. Tese (Doutorado) — Stanford University, 2010. Citado na página 13.

LEE, H.; EKANADHAM, C.; NG, A. Y. Sparse deep belief net model for visual area v2. In: Advances in Neural Information Processing Systems. [S.l.: s.n.], 2008. p. 873–880. Citado 2 vezes nas páginas 25 e 26.

LEE, H.; GROSSE, R.; RANGANATH, R.; NG, A. Y. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In: ACM. Proceedings of

the 26th Annual International Conference on Machine Learning. [S.l.], 2009. p. 609–616.

Referências 55

LEE, H.; PHAM, P.; LARGMAN, Y.; NG, A. Y. Unsupervised feature learning for audio classification using convolutional deep belief networks. In: Advances in Neural Information

Processing Systems. [S.l.: s.n.], 2009. p. 1096–1104. Citado 9 vezes nas páginas 14, 17, 28,

29, 42, 45, 49, 50 e 51.

LI, J.; YU, D.; HUANG, J.-T.; GONG, Y. Improving wideband speech recognition using mixed-bandwidth training data in cd-dnn-hmm. In: IEEE. Spoken Language Technology

Workshop (SLT), 2012 IEEE. [S.l.], 2012. p. 131–136. Citado na página 17.

LI, L.; LIN, Y.; ZHANG, Z.; WANG, D. Improved deep speaker feature learning for text-dependent speaker recognition. arXiv preprint arXiv:1506.08349, 2015. Citado na página 17.

LOWE, D. G. Object recognition from local scale-invariant features. In: IEEE. Computer

vision, 1999. The proceedings of the seventh IEEE international conference on. [S.l.], 1999.

v. 2, p. 1150–1157. Citado na página 14.

MOHAMED, A.-r.; DAHL, G. E.; HINTON, G. Acoustic modeling using deep belief networks. Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, v. 20, n. 1, p. 14–22, 2012. Citado na página 40.

NEUSTEIN, A.; PATIL, H. A. Forensic speaker recognition. [S.l.]: Springer, 2012. Citado na página 15.

NOROUZI, M.; RANJBAR, M.; MORI, G. Stacks of convolutional restricted boltzmann machines for shift-invariant feature learning. In: Computer Vision and Pattern Recognition,

2009. CVPR 2009. IEEE Conference on. [S.l.: s.n.], 2009. p. 2735–2742. Citado na página

28.

OPPENHEIM, A. V.; SCHAFER, R. W.; BUCK, J. R. et al. Discrete-time signal

processing. [S.l.]: Prentice-hall Englewood Cliffs, 1989. v. 2. Citado na página 34.

PAN, S. J.; YANG, Q. A survey on transfer learning. Knowledge and Data Engineering,

IEEE Transactions on, IEEE, v. 22, n. 10, p. 1345–1359, 2010. Citado na página 13.

RABINER, L. R.; SCHAFER, R. W. Introduction to digital speech processing.

Foundations and trends in signal processing, Now Publishers Inc., v. 1, n. 1, p. 1–194,

2007. Citado 4 vezes nas páginas 14, 16, 37 e 38.

RANZATO, M.; HINTON, G. E. Modeling pixel means and covariances using factorized third-order boltzmann machines. In: IEEE. Computer Vision and Pattern Recognition

(CVPR), 2010 IEEE Conference on. [S.l.], 2010. p. 2551–2558. Citado na página 24.

REYNOLDS, D. An overview of automatic speaker recognition. In: Proceedings of

the International Conference on Acoustics, Speech and Signal Processing (ICASSP)(S. 4072-4075). [S.l.: s.n.], 2002. Citado na página 15.

REYNOLDS, D. A. Speaker identification and verification using gaussian mixture speaker models. Speech communication, Elsevier, v. 17, n. 1, p. 91–108, 1995. Citado 2 vezes nas páginas 16 e 51.

REYNOLDS, D. A.; QUATIERI, T. F.; DUNN, R. B. Speaker verification using adapted gaussian mixture models. Digital signal processing, Elsevier, v. 10, n. 1, p. 19–41, 2000. Citado 2 vezes nas páginas 16 e 49.

Referências 56

RICHARDSON, F.; REYNOLDS, D.; DEHAK, N. A unified deep neural network for speaker and language recognition. arXiv preprint arXiv:1504.00923, 2015. Citado na página 17.

SALAKHUTDINOV, R.; HINTON, G. E. Deep boltzmann machines. In: International

Conference on Artificial Intelligence and Statistics. [S.l.: s.n.], 2009. p. 448–455. Citado 4

vezes nas páginas 24, 27, 31 e 33.

SARKAR, A. K.; UMESH, S.; RATH, S. P. Text-independent speaker identification using vocal tract length normalization for building universal background model. In:

INTERSPEECH. [S.l.: s.n.], 2009. p. 2331–2334. Citado na página 49.

SCHMAH, T.; HINTON, G. E.; SMALL, S. L.; STROTHER, S.; ZEMEL, R. S. Generative versus discriminative training of rbms for classification of fmri images. In:

Advances in neural information processing systems. [S.l.: s.n.], 2008. p. 1409–1416. Citado

na página 24.

SMOLENSKY, P. Information processing in dynamical systems: Foundations of harmony theory. Department of Computer Science, University of Colorado, Boulder, 1986. Citado na página 18.

SOHN, K.; JUNG, D. Y.; LEE, H.; HERO, A. O. Efficient learning of sparse, distributed, convolutional feature representations for object recognition. In: IEEE. Computer Vision

(ICCV), 2011 IEEE International Conference on. [S.l.], 2011. p. 2643–2650. Citado na

página 26.

TAIGMAN, Y.; YANG, M.; RANZATO, M.; WOLF, L. Deepface: Closing the gap to human-level performance in face verification. In: IEEE. Computer Vision and Pattern

Recognition (CVPR), 2014 IEEE Conference on. [S.l.], 2014. p. 1701–1708. Citado na

página 13.

TIELEMAN, T. Training restricted boltzmann machines sing approximations to the likelihood gradient. In: ACM. Proceedings of the 25th international conference on Machine

learning. [S.l.], 2008. p. 1064–1071. Citado na página 22.

WOO, R. H.; PARK, A.; HAZEN, T. J. The mit mobile device speaker verification corpus: Data collection and preliminary experiments. In: In Proc. of Odyssey, The Speaker &

Language Recognition Workshop. [S.l.: s.n.], 2006. Citado 2 vezes nas páginas 39 e 40.

YOSINSKI, J.; LIPSON, H. Visually debugging restricted boltzmann machine training with a 3d example. In: Representation Learning Workshop, 29th International Conference

Documentos relacionados