• Nenhum resultado encontrado

As técnicas utilizadas neste trabalho são parte do estado da arte para reconhe- cimento (verificação) de locutor e foram aplicadas ao reconhecimento (identificação) de sotaques. Sabe-se que existem diferenças nas frequências fundamentais e formânticas da fala entre o sexo feminino e masculino, algumas vezes dificultando o reconhecimento. Não utilizamos neste trabalho uma técnica de normalização do trato vocal (Vocal Tract Length

Normalization), desta forma, pensamos em considerar o uso de VTLN também como uma

das etapas para identificação de sotaques regionais e verificar se existe alguma melhoria. Pretendemos continuar a análise das variações linguísticas do português brasileiro associado ao reconhecimento de fala, utilizando técnicas de Deep Learning, conforme re- portando nos trabalhos de Ma et al. (2012) e Najafian et al. (2016). A ideia é melhorar a capacidade de aprendizado das características intrínsecas da fala e a separação dos dados de treinamento, oferecendo melhor discriminação das diferentes classes de sotaques. Isso ajudaria a identificar claramente os problemas existentes e melhorar a precisão dos siste- mas de reconhecimento. Além disso, considerar a interpretabilidade em machine learning para entender não apenas qual sotaque regional foi predito pelo modelo, mas entender o porquê da predição ter sido feita. O princípio da interpretabilidade diz que um modelo deve explicar como chegou a previsão (o porquê), porque uma previsão correta apenas re- solve parcialmente seu problema original (NARAYANAN et al., 2018). Em muitos casos, saber o “porquê” pode auxiliar no aprendizado do problema, dos dados e a razão pela qual um modelo pode falhar.

Por fim, dar continuidade à confecção de uma base de dados mais completa e ro- busta, alcançando maior representatividade das variações linguísticas na fala do português brasileiro. A ideia é aplicar modelos de sotaques como uma fase anterior aos sistemas de reconhecimento de locutor e verificar se sua performance é melhorada. Para isso é necessá- ria a confecção de uma base de dados com diferentes condições de captura de um mesmo locutor, por exemplo, capturar em amostras de voz de um mesmo locutor em diferentes períodos de tempo.

101

Referências

ALI, A. M.; BELL, P.; RENALS, S. Automatic dialect detection in arabic broadcast speech. In: INTERSPEECH. [S.l.: s.n.], 2016. Citado na página 46.

ALVES, M. M. As Vogais Médias em Posíção PréTônica nos nomes no dialeto de Belo

Horizonte: Estudo da Variação a Luz da Teoria da Otimalidade. Tese (Doutorado) —

Faculdade de Letras da UFMG, 2008. Citado na página 37.

ANJOS, A.; GÜNTHER, M.; PEREIRA, T. de F.; KORSHUNOV, P.; MOHAMMADI, A.; MARCEL, S. Continuously reproducing toolchains in pattern recognition and machine learning experiments. In: International Conference on Machine Learning

(ICML). [s.n.], 2017. Disponível em: <http://publications.idiap.ch/downloads/papers/

2017/Anjos_ICML2017-2_2017.pdf>. Citado na página 87.

ANJOS, A.; SHAFEY, L. E.; WALLACE, R.; GÜNTHER, M.; MCCOOL, C.; MARCEL, S. Bob: a free signal processing and machine learning toolbox for researchers. In: 20th ACM

Conference on Multimedia Systems (ACMMM), Nara, Japan. [s.n.], 2012. Disponível em:

<https://publications.idiap.ch/downloads/papers/2012/Anjos_Bob_ACMMM12.pdf>. Citado na página 87.

BAHARI, M. H.; AL et. Accent recognition using i-vector, gaussian mean supervector and gaussian posterior probability supervector for spontaneous telephone speech. In:

2013 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.:

s.n.], 2013. p. 7344–7348. ISSN 1520-6149. Citado na página 44.

BARBOSA, P. A.; ALBANO, E. C. Brazilian portuguese. Journal of the International

Phonetic Association: Illustrations of the IPA, 2004. Citado na página 33.

BEHRAVAN, H. Dialect and Accent Recognition. Dissertação (Mestrado) — University of Eastern Finland, Dec 2012. Citado 6 vezes nas páginas 23, 34, 50, 52, 53 e 55. BEHRAVAN, H.; HAUTAMAKI, V.; SINISCALCHI, S. M. ivector modeling of speech attributes for automatic foreign accent recognition. IEEE/ACM Transactions on Audio,

Speech, and Language Processing, v. 24, n. 1, January 2016. Citado na página 46.

BENZEGHIBA, M.; MORI, R. D.; DEROO, O.; DUPONT, S.; ERBES, T.; JOUVET, D.; FISSORE, L.; LAFACE, P.; MERTINS, A.; RIS, C.; ROSE, R.; TYAGI, V.; WELLEKENS, C. Automatic speech recognition and speech variability. Speech

Communiation, Feb 2007. Citado na página 23.

BIADSY, F. Automatic Dialect and Accent Recognition and Its Application to Speech

Recognition. Tese (Doutorado) — Columbia University, New York, NY, USA, 2011.

AAI3450188. Citado na página 40.

BISHOP, C. M. Pattern Recognition and Machine Learning (Information Science and

Statistics). Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006. ISBN 0387310738.

BROWN, G. Automatic accent recognition systems and the effects of data on performance. In: Odyssey 2016. [s.n.], 2016. p. 94–100. Disponível em: <http: //dx.doi.org/10.21437/Odyssey.2016-14>. Citado 3 vezes nas páginas 39, 44 e 46. CALLOU, D.; LEITE, Y. Iniciação à Fonética e à Fonologia). [S.l.: s.n.], 1990. Citado na página 29.

CAMARA, E. Estrutura e significado: Implicações fenomenológicas e políticas do sotaque regional brasileiro. InterDISCIPLINARY Journal of Portuguese Diaspora Studies, v. 3.1, 2014. Citado 2 vezes nas páginas 35 e 38.

CAMARA, J. M. Estrutura da Língua Portuguesa. [S.l.]: Petrópolis: Vozes, 1970. Citado na página 29.

CAMPBELL, C. Radial basis function networks 1. In: HOWLETT, R. J.; JAIN, L. C.; KACPRZYK, J. (Ed.). Vienna, Austria, Austria: Physica Verlag Rudolf Liebing KG, 2001. cap. An Introduction to Kernel Methods, p. 155–192. ISBN 3-7908-1367-2. Disponível em: <http://dl.acm.org/citation.cfm?id=375930.375939>. Citado na página 67.

CAMPBELL, W.; CAMPBELL, J.; REYNOLDS, D.; SINGER, E.; TORRES- CARRASQUILLO, P. Support vector machines for speaker and language recognition.

Computer Speech Language, v. 20, n. 2, p. 210 – 229, 2006. ISSN 0885-2308.

Odyssey 2004: The speaker and Language Recognition Workshop. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0885230805000318>. Citado 3 vezes nas páginas 68, 69 e 71.

CARDOSO, D. P. Fonologia da Língua Portuguesa. [S.l.]: Universidade Federal De Sergipe, 2009. Citado 4 vezes nas páginas 27, 29, 36 e 39.

CARDOSO, S. A. M. d. S.; MOTA, J. A.; AGUILERA, V. d. A.; ARAGÃO, M. d. S. S. d.; ISQUERDO, A. N.; RAZKY, A.; MARGOTTI, F. W. Book. Atlas Linguístico do

Brasil. [S.l.]: EDUEL - Editora da Universidade Estadual de Londrina and EDUFBA -

Editora da Universidade Federal da Bahia., 2014. v. 2. 368 p. p. Citado na página 36. CHEN, T.; HUANG, C.; CHANG, E.; WANG, J. Automatic accent identification using gaussian mixture models. In: Automatic Speech Recognition and Understanding, 2001.

ASRU ’01. IEEE Workshop on. [S.l.: s.n.], 2001. p. 343–346. Citado na página 45.

CHERIFI, F.; HEMERY, B.; GIOT, R.; PASQUET, M.; ROSENBERGER, C. Performance Evaluation Of Behavioral Biometric Systems. In: Book on Behavioral

Biometrics for Human Identification: Intelligent Applications. IGI, 2009. p. 21. Disponível

em: <https://hal.archives-ouvertes.fr/hal-00990311>. Citado na página 73.

CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, v. 20, n. 3, p. 273–297, Sep 1995. ISSN 1573-0565. Disponível em: <https://doi.org/10.1007/ BF00994018>. Citado na página 64.

DEHAK, N. Discriminative and Generative Approaches for Long- and Short-term

Speaker Characteristics Modeling: Application to Speaker Verification. Tese (Doutorado)

Referências 103

DEHAK, N.; DEHAK, R.; KENNY, P.; BRUMMER, N.; OUELLET, P.; DUMOUCHEL, P. Support vector machines versus fast scoring in the low-dimensional total variability space for speaker verification. 01 2009. Citado 2 vezes nas páginas 64 e 71.

DEMPSTER, A.; LAIRD, N.; RUBIN, D. B. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society. Series B (Methodological), v. 39, p. 1–38, 01 1977. Citado na página 57.

DIAS, R. de S. F. Normalização de Locutor em Sistema de Reconhecimento de Fala. Dissertação (Mestrado) — Universidade Estadual de Campinas, 2000. Citado na página 54.

DJELLAB, M.; AMROUCHE, A.; MEHALLEGUE, N.; BOURIDANE, A. Regional accents recognition based on i-vectors approach: The case of the algerian linguistic environment. In: 2015 4th International Conference on Electrical Engineering (ICEE). [S.l.: s.n.], 2015. p. 1–5. Citado na página 45.

FRIEDLAND, G.; VINYALS, O.; HUANG, Y.; MULLER, C. Prosodic and other long-term features for speaker diarization. IEEE Transactions on Audio, Speech, and

Language Processing, v. 17, n. 5, p. 985–993, July 2009. ISSN 1558-7916. Citado 2 vezes

nas páginas 39 e 51.

FUKUDA, T.; ICHIKAWA, O.; NISHIMURA, M. Long-term spectro-temporal and static harmonic features for voice activity detection. IEEE Journal of Selected Topics in

Signal Processing, v. 4, n. 5, p. 834–844, Oct 2010. ISSN 1932-4553. Citado na página

48.

GE, Z. Improved accent classification combining phonetic vowels with acoustic features.

CoRR, abs/1602.07394, 2016. Disponível em: <http://arxiv.org/abs/1602.07394>.

Citado 2 vezes nas páginas 40 e 57.

GE, Z.; TAN, Y.; GANAPATHIRAJU, A. Accent classification with phonetic vowel representation. In: 2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR). [S.l.: s.n.], 2015. p. 529–533. Citado na página 45.

GUTMAN, D.; BISTRITZ, Y. Speaker verification using phoneme-adapted gaussian mixture models. In: 2002 11th European Signal Processing Conference. [S.l.: s.n.], 2002. p. 1–4. ISSN 2219-5491. Citado na página 46.

HANANI, A.; BASHA, H.; SHARAF, Y.; TAYLOR, S. Palestinian arabic regional accent recognition. In: 2015 International Conference on Speech Technology and

Human-Computer Dialogue (SpeD). [S.l.: s.n.], 2015. p. 1–6. Citado 3 vezes nas páginas

40, 46 e 82.

HANANI, A.; RUSSELL, M. J.; CAREY, M. J. Human and computer recognition of regional accents and ethnic groups from british english speech. Comput. Speech Lang., Academic Press Ltd., London, UK, UK, v. 27, n. 1, p. 59–74, jan. 2013. ISSN 0885-2308. Disponível em: <http://dx.doi.org/10.1016/j.csl.2012.01.003>. Citado na página 39. HANSEN, J.; LIU, G. Unsupervised accent classification for deep data fusion of accent and language information. Speech Commun., Elsevier Science Publishers B. V., Amsterdam, The Netherlands, The Netherlands, v. 78, n. C, p. 19–33, abr. 2016. ISSN

0167-6393. Disponível em: <http://dx.doi.org/10.1016/j.specom.2015.12.004>. Citado na página 41.

HEARST, M. A. Trends controversies: Support vector machines. IEEE Intelligent

System, v. 13, n. 4, p. 18–28, 1998. Citado na página 71.

HERBRICH, R. Learning Kernel Classifiers: Theory and Algorithms. Cambridge, MA, USA: MIT Press, 2001. ISBN 026208306X. Citado na página 71.

JALALVAND, S.; AKBARI, A.; NASERSHARIF, B. A classifier combination approach for farsi accents recognition. In: 20th Iranian Conference on Electrical Engineering

(ICEE2012). [S.l.: s.n.], 2012. p. 716–720. ISSN 2164-7054. Citado na página 45.

KANNADAGULI, P.; BHAT, V. A comparison of gaussian mixture modeling (gmm) and hidden markov modeling (hmm) based approaches for automatic phoneme recognition in kannada. In: 2015 International Conference on Signal Processing and Communication

(ICSC). [S.l.: s.n.], 2015. p. 257–260. Citado 3 vezes nas páginas 24, 42 e 53.

KARPAGAVALLI, S.; CHANDRA, E. Phoneme and word based model for tamil speech recognition using gmm-hmm. In: 2015 International Conference on Advanced Computing

and Communication Systems. [S.l.: s.n.], 2015. p. 1–5. Citado na página 42.

KHARROUBI, J.; PETROVSKA-DELACRÉTAZ, D.; CHOLLET, G. Combining gmm’s with suport vector machines for text-independent speaker verification. In:

INTERSPEECH. [S.l.: s.n.], 2001. Citado 3 vezes nas páginas 46, 68 e 86.

KUMPF, K.; KING, R. W. Automatic accent classification of foreign accented australian english speech. In: Spoken Language, 1996. ICSLP 96. Proceedings., Fourth International

Conference on. [S.l.: s.n.], 1996. v. 3, p. 1740–1743 vol.3. Citado na página 51.

LAZARIDIS, A.; KHOURY, E.; GOLDMAN, J.-P.; AVANZI, M.; MARCEL, S.; GARNER, P. Swiss french regional accent identification. 01 2014. Citado na página 24. LEITE, C. M. B. O /r/ em posição de coda silábica na capital do interior paulista: uma abordagem sociolinguística. Revistas IEL - Unicamp, 2012. Citado na página 37.

LI, H.; MA, B.; LEE, K. A. Spoken language recognition: From fundamentals to practice.

Proceedings of the IEEE, v. 101, n. 5, p. 1136–1159, May 2013. ISSN 0018-9219. Citado

2 vezes nas páginas 42 e 59.

LI, S. Z.; JAIN, A. K. Handbook of Face Recognition. 2nd. ed. [S.l.]: Springer Publishing Company, Incorporated, 2011. ISBN 085729931X, 9780857299314. Citado na página 72. MAK, M.-W.; YU, H.-B. A study of voice activity detection techniques for nist speaker recognition evaluations. Computer Speech and Language, v. 28, n. 1, p. 295 – 313, 2014. ISSN 0885-2308. Disponível em: <http://www.sciencedirect.com/science/article/pii/ S0885230813000533>. Citado na página 48.

Mercer, J. Functions of positive and negative type, and their connection with the theory of integral equations. Philosophical Transactions of the Royal Society of London Series

Referências 105

MUKHERJEE, R.; ISLAM, T.; SANKAR, R. Text dependent speaker recognition using shifted mfcc. In: 2012 Proceedings of IEEE Southeastcon. [S.l.: s.n.], 2012. p. 1–4. ISSN 1091-0050. Citado 2 vezes nas páginas 45 e 82.

NAJAFIAN, M.; SAFAVI, S.; HANSEN, J. H. L.; RUSSELL, M. Improving speech recognition using limited accent diverse british english training data with deep neural networks. In: 2016 IEEE 26th International Workshop on Machine Learning for Signal

Processing (MLSP). [S.l.: s.n.], 2016. p. 1–6. Citado 2 vezes nas páginas 24 e 40.

NARAYANAN, M.; CHEN, E.; HE, J.; KIM, B.; GERSHMAN, S.; DOSHI-VELEZ, F. How do humans understand explanations from machine learning systems? an evaluation of the human-interpretability of explanation. CoRR, abs/1802.00682, 2018. Disponível em: <http://arxiv.org/abs/1802.00682>. Citado na página 100.

NASCENTES, A. O linguajar carioca em 1922. [S.l.]: Sussekind de Mendonça comp., 1922. Citado 2 vezes nas páginas 36 e 38.

PARKER, S. O Livro Do Corpo Humano. CIRANDA CULTURAL, 1990. ISBN 9788575208922. Disponível em: <https://books.google.com.br/books?id= 8151PgAACAAJ>. Citado na página 27.

RABINER, L.; SCHAFER, R. Theory and Applications of Digital Speech Processing. 1st. ed. Upper Saddle River, NJ, USA: Prentice Hall Press, 2010. ISBN 0136034284, 9780136034285. Citado na página 51.

RAMOS, J. Avaliação de dialetos brasileiros: o sotaque. REVISTA DE ESTUDOS

DA LINGUAGEM, v. 5, n. 1, p. 103–125, 1997. ISSN 2237-2083. Disponível em:

<http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/1045>. Citado 2 vezes nas páginas 33 e 38.

RAO, K. S.; KOOLAGUDI, S. G. Identification of hindi dialects and emotions using spectral and prosodic features of speech. In: . [S.l.: s.n.], 2013. Citado na página 23. REFAEILZADEH, P.; TANG, L.; LIU, H. Cross-validation. In: . Encyclopedia of

Database Systems. Boston, MA: Springer US, 2009. p. 532–538. ISBN 978-0-387-39940-9.

Disponível em: <https://doi.org/10.1007/978-0-387-39940-9_565>. Citado na página 86.

REYNOLDS, D. A. Speaker identification and verification using gaussian mixture speaker models. Speech Communication, v. 17, n. 1, p. 91 – 108, 1995. ISSN 0167-6393. Disponível em: <http://www.sciencedirect.com/science/article/pii/016763939500009D>. Citado 2 vezes nas páginas 44 e 57.

REYNOLDS, D. A.; QUATIERI, T. F.; DUNN, R. B. Speaker verification using adapted gaussian mixture models. Digital Signal Processing, v. 10, n. 1, p. 19 – 41, 2000. ISSN 1051-2004. Disponível em: <http://www.sciencedirect.com/science/article/pii/ S1051200499903615>. Citado 2 vezes nas páginas 57 e 59.

REYNOLDS, D. A.; ROSE, R. C. Robust text-independent speaker identification using gaussian mixture speaker models. IEEE Transactions on Speech and Audio Processing, v. 3, n. 1, p. 72–83, Jan 1995. ISSN 1063-6676. Citado na página 57.

ROSE, P. Book. Forensic speaker identification. [S.l.]: Taylor & Francis London, 2002. xvi, 364 p. : p. ISBN 0415271827. Citado na página 23.

SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e Fonologia do

Português Brasileiro. [S.l.]: Universidade Federal de Santa Catarina, 2011. Citado 7 vezes nas páginas 26, 27, 28, 30, 31, 38 e 39.

SENOUSSAOUI, M.; KENNY, P.; DEHAK, N.; DUMOUCHEL, P. An i-vector Extractor

Suitable for Speaker Recognition with both Microphone and Telephone Speech. 2010.

Citado na página 46.

SHAFEY, L. E. Scalable Probabilistic Models for Face and Speaker Recognition. Tese (Doutorado) — École Polytechnique Fédérale de Lausanne (EPFL), abr. 2014. Disponível em: <http://pypi.python.org/pypi/xbob.thesis.elshafey2014>. Citado 3 vezes nas páginas 56, 57 e 59.

SHEN, Z.; WEI, J.; LU, W.; DANG, J. Voice activity detection based on sequential gaussian mixture model with maximum likelihood criterion. In: 2016 10th International

Symposium on Chinese Spoken Language Processing (ISCSLP). [S.l.: s.n.], 2016. p. 1–5.

Citado na página 49.

SILVA, D. D. C. da. Reconhecimento de Fala Contínua para o Português Brasileiro em

Sistemas Embarcados. Tese (Doutorado) — Universidade Federal de Campina Grande,

2011. Citado 3 vezes nas páginas 50, 51 e 52.

SILVA, T. C. Book. Fonética e Fonologia do Português. [S.l.]: Editora Contexto, 2010. 265 p. p. Citado 8 vezes nas páginas 27, 29, 30, 31, 32, 33, 36 e 37.

SOUZA, C. J. S. de. Sistemas de Verificação de Locutor Baseados em I-Vectors. Dissertação (Mestrado) — Universidade Estadual de Campinas, 2015. Citado na página 28.

VAPNIK, V.; CHERVONENKIS, A. Theory of Pattern Recognition [in Russian]. Moscow: Nauka, 1974. (German Translation: W. Wapnik & A. Tscherwonenkis, Theorie der Zeichenerkennung, Akademie–Verlag, Berlin, 1979). Citado 3 vezes nas páginas 64, 66 e 67.

VIARO, M. E. NOÇÕES DE TRANSCRIÇÃO FONÉTICA. [S.l.], 2018. Fonética e Fonologia do Português (FLC 0275). Citado na página 29.

WALLACE, R.; MCLAREN, M. Total variability modelling for face verification. IET

Biometrics, v. 1, n. 4, p. 188–199, December 2012. ISSN 2047-4938. Citado na página

71.

YNOGUTI, C. A. Reconhecimento de Fala Contínua Utilizando Modelos Ocultos de

Markov. Tese (Doutorado) — Unicamp - Campinas, 1999. Citado 2 vezes nas páginas

25 e 81.

ZISSMAN, M. A. Comparison of four approaches to automatic language identification of telephone speech. IEEE Transactions on Speech and Audio Processing, v. 4, n. 1, p. 31–, Jan 1996. ISSN 1063-6676. Citado na página 44.

107

APÊNDICE A – Resultados Quantitativos

dos Experimentos