3 TRABALHOS CORRELATOS
3.2 CLASSIFICAÇÃO DE SOTAQUES
Esta seção descreve trabalhos relacionados à tarefa de identificação de sotaques em áudios. As mesmas tendências identificadas nos trabalhos de análise de áudio foram identificadas nesta tarefa específica. Em geral, espectrogramas dos áudios são usados como entrada para modelos baseados em redes neurais artificiais profundas. A seção inicia descrevendo trabalhos em linguagens diversas e finaliza apresentando os trabalhos com foco na identificação de sotaques brasileiros.
Chen et al. (2015) estudam o reconhecimento de fala sujeito à sotaques de diferentes regiões da China. O trabalho inicia fazendo uma distinção entre a classificação de sotaques regionais e a identificação de sotaques entre falantes nativos e não-nativos. O método proposto usa i-vectors e técnicas de adaptação de modelo para melhorar o desempenho de redes neurais profundas no reconhecimento de fala em mandarim com múltiplos sotaques. A rede neural convolucional recebe como entrada o áudio pré-processado para extração de features acústicas e i-vectors. Ela possui várias cabeças, uma para reconhecimento de fala em cada sotaque, enquanto as camadas ocultas são compartilhadas. Trabalhos anteriores com foco em reconhecimento de voz em múltiplas línguas haviam mostrado que camadas ocultas compartilhadas podem extrair features de alto nível entre linguagens enquanto as camadas finais se especializam nas diferenças entre idiomas (HUANG et al., 2013). Experimentos de reconhecimento de discurso em mandarim com sotaque mostraram redução na taxa de erro em relação ao baseline processado com a técnica GMM e modelos ocultos de Markov (hidden Markov models - HMM).
Em 2016, foi realizado o desafio INTERSPEECH 2016 com objetivo de reconhecer o idioma nativo do falante em inglês. A base de dados do evento possui conjuntos de treinamento, com 3300 amostras, validação, com 965 amostras, e teste, contendo 867 amostras, totalizando 5132 falantes em inglês para os quais os labels possuem 11 idiomas nativos. A duração de cada amostra é de 45 segundos. A acurácia obtida para o sistema de base do evento foi de 44,66%.
Jiao et al. (2016) propuseram uma solução para o desafio combinando redes neurais convolucionais e redes neurais recorrentes treinadas usando informações de curto e longo prazo. No pré-processamento, são retirados os silêncios dos áudios com duração maiores que 300 milissegundos. Depois se divide o áudio restante em janelas de 4 segundos de duração, e as janelas são divididas em janelas menores com duração de 25 milissegundos e sobreposição de 10 milissegundos. Então, estas pequenas janelas são transformadas com espectrogramas
mel com compressão logarítmica. Para cada segmento, redes convolucionais são usadas para identificar padrões estatísticos de longo prazo nos áudios, enquanto as redes recorrentes são usadas para identificar características acústicas de curto prazo. Os resultados mostraram uma acurácia de 51,92% para o sistema.
Wu, Mao e Yi (2018) propuseram uma arquitetura de rede neural chamada FreqCNN construída para o processamento de áudio, mas sem se ater à uma tarefa específica. O sinal de voz original é representado como espectrograma e, posteriormente, dividido ao longo do domínio da frequência para formar o espectrograma com distribuição de frequência. O modelo foi avaliado em três cenários: classificação de sotaques usando o UT-Podcast corpus, identificação de falantes usando o CHAINS speech corpus e reconhecimento de emoções na fala usando a base de dados eNTERFACE. No UT-Podcast corpus, os sotaques ingleses são da Austrália, dos Estados Unidos e do Reino Unido, com 1.101 amostras para treinamento e 661 amostras para testes. A revocação média na classificação de sotaques foi de 79,32%, melhores que as abordagens por i-vector, e usando as CNN AlexNet, VGG-11 e ResNet-18.
Jain, Upreti e Jyothi (2018) estudam o problema de identificação de sotaques do idioma in- glês quando uma classe que ainda não fora treinada é apresentada ao sistema. Basicamente o que se propõe é apresentar ao sistema de reconhecimento de sotaques um sotaque que ainda não foi treinado. Para resolver ou melhorar a performance nestes casos, ele utilizou embeddings de sotaque e aprendizado multitarefa para melhorar o reconhecimento de fala com sotaque. A arquitetura multitarefa aprende um modelo acústico multi-sotaques em conjunto com um classificador de sotaques. A proposta de Jain, Upreti e Jyothi (2018) consiste em uma estrutura multi-tarefa onde se supervisiona explicitamente um modelo acústico multi-sotaques com informações de sotaque treinando em conjunto a um classificador de sotaque. Também é treinada uma rede separada que aprende embeddings de sotaque que podem ser incorporados como entradas auxiliares na estrutura multitarefa.
Weninger et al. (2019) usaram BiLSTMs e i-vectors para a classificação de 15 sotaques de Mandarim. Foi alcançada uma acurácia de 26,09% por amostra de fala e 34,1% por falante.
Agrupando os 15 sotaques em 3 grupos relativos a regiões geograficamente próximas, o modelo alcançou revocação média de 66,4%.
Ahmed et al. (2019) propuseram a VFNet (Variable Filter Net), uma arquitetura baseada em redes neurais convolucionais que captura uma hierarquia de características. O sinal de áudio
bruto é convertido em um espectrograma pela aplicação da Short-Time Fourier transform (STFT), pela qual o sinal do domínio do tempo foi convertido para o domínio da frequência.
Para melhor convergência e generalização das redes, o espectrograma é dividido em colunas de tamanho 120, e todas elas são rotuladas. Em seguida, eles são amostrados aleatoriamente do conjunto de dados de forma a criar um espectrograma segmentado. A rede é treinada em amostras retiradas do Speech Accent Archive, um repositório de arquivos de áudio que consiste em uma frase falada por mais de 2.000 falantes em mais de 100 sotaques. O conjunto de dados fornece sinais de voz e seus rótulos de sotaque correspondentes. Foram usados falas de 74 mulheres com o mesmo sotaque para treinar as redes e o restante foi usado para testes.
A acurácia chegou em 70,33%, maior que aquelas alcançadas usando as redes AlexNet e Resnet.
Viglino, Motlicek e Cernak (2019) explicam que o problema de sotaques surge a medida que os sistemas de reconhecimento de voz avançam em sua aplicação comercial e a grande variedade de forma que um ser humano pode falar o mesmo idioma. Eles utilizaram espec- trograma mel no pré-processamento dos áudios e aplicaram a uma rede neural convolucional de duas camadas convolucionais. Em seguida, ele tem uma camada bidirectional Gated Recurrent Units (BiGRU) como camada recorrente. Com a saída da camada recorrente, são processadas 2 camadas totalmente conectadas com ativação Rectified Linear Units (RELU).
Por fim, existe a camada de saída que utiliza ativação softmax. Após a rede neural multi-camadas, eles usam treinamento multitarefa e incorporam o sotaque na rede de reconhecimento de voz que é treinada fim a fim. Ele alcançou uma melhora de cerca de 25%
na taxa de erro por palavra com o treinamento multitarefa.
Salau, Olowoyo e Akinola (2020) construíram um modelo com 6 camadas LSTM seguidas por uma camada convolucional 1D para classificação de três dialetos da Nigéria: Hausa, Igbo e Yoruba. Foi alcançada uma acurácia média de 94,9%.
Wang, Zhang e Wu (2020) apresentaram a SAR-Net, uma arquitetura de aprendizado profundo que adota um mecanismo de aprendizagem multitarefa e consiste principalmente em três módulos: um codificador front-end baseado em CNNs e RNNs compartilhadas, uma cabeça de reconhecimento de sotaque e uma cabeça de reconhecimento de fala auxiliar que recebe um espectrograma como entrada. Os áudios foram da base de dados do Accented English Speech Recognition Challenge 2020 (AESRC2020), em que pessoas de 8 diferentes nacionalidades falam inglês: chinês, indiano, japonês, coreano, americano, britânico,
português e russo. o SAR-Net é o melhor comparado às propostas da competição em termos da função de perda circle loss.
Chionh, Song e Yin (2018) utilizaram redes convolucionais CNN com duas ou três camadas para identificação de sotaques do idioma inglês para quatro sotaques de falantes não nativos:
Arábicos, Italianos, Japoneses e Coreanos. Eles utilizaram a base de dados Foreign Accented English v1.2 dataset (LANDER, 2007). Eles obtiveram o valor da métrica acurácia para o test-dataset de 78,5% para a CNN com 3 camadas e 77,9% para a CNN com 2 camadas.
Até onde sabemos, os únicos trabalhos de reconhecimento de sotaques desenvolvido para o português brasileiro foram desenvolvidos por Batista et al. (2018; 2019). Batista et al. (2019) desenvolveram um sistema de identificação automática de sotaques regionais brasileiros considerando 7 sotaques: baiano, carioca, fluminense, mineiro, nordestino, nortista e sulista.
Para que o estudo pudesse ser realizado, eles criaram a base de dados brasileira de sotaques Braccent. A fonética do idioma português brasileiro foi analisada com objetivo de definir frases para compor a base de dados. As frases são recitadas pelos diversos participantes do projeto. No estudo realizado da linguagem se destacam as características do nível pré-léxico:
fono-táticas, prosódicas e acústicas. No total foram criadas 16 frases considerando características diversas do idioma como, por exemplo: vogais orais, vogais nasais, modos de articulação de consoantes e pontos de articulação de consoantes. Além do sotaque utilizado pelos falantes, os autores também anotaram os fonemas presentes em cada frase.
Para classificação de sotaques, foram comparados métodos GMM-UBM, i-vectors e GMM com um classificador do tipo support vector machine (SVM). O melhor resultado na base de dados Braccent foi alcançado com o GMM-UBM obtendo acurácia de 73%. Foram realizados experimentos utilizando ainda outras duas bases de dados, a base criada por Ynoguti et al.
(1999) e o Corpus Forense do Português Brasileiro criado pelo Departamento de Criminalística da Polícia Federal.