• Nenhum resultado encontrado

3.1 Representações para o Sinal de Voz

3.1.3 Espectrograma de voz

Um espectrograma de voz é uma representação visual de um sinal acústico. Desde da década de 1940 o espectrograma vem sendo usado como uma ferramenta básica para ganhar entendimento sobre como os sons vocais são produzidos e como a informação fonética é codificada no sinal de voz. Atualmente, o espectrograma de áudio é obtido utilizando técnicas de processamento digital de sinais, e é visualizado usando imagens em preto e branco ou com algum mapa de cores.

O processo de obtenção de um espectrograma de áudio é bastante simples, e utiliza como base a STFT do sinal de voz. Todos os espectrogramas desta dissertação foram obtidos por (RABINER; SCHAFER, 2007):

Capítulo 3. Processamento de Voz 39

Figura 11: Espectrograma visualizado com o mapa de cores jet.

onde |X[n, k]| é a magnitude da STFT, operação que elimina a informação de fase, fazendo com que não se possa recuperar o sinal original a partir do espectrograma.

A largura da janela utilizada na STFT afeta bastante o espectrograma obtido. Uma janela mais curta produzirá resultados mais precisos no tempo, em detrimento da precisão da representação de frequência. Uma janela mais longa produzirá uma representação de frequência mais precisa, em detrimento da precisão temporal. Ou seja, a escolha do tamanho da janela depende da aplicação, e existe um trade-off entre a precisão no domínio do tempo vs. domínio da frequência.

Uma escolha muito comum em reconhecimento de voz é utilizar uma largura de janela de 20ms, e um tamanho de passo de 10ms, o que gera uma sobreposição de 10ms nos segmentos janelados.

3.2

Bases de Dados

Nós utilizamos duas bases de dados de áudio para os experimentos, a TIMIT (FISHER; DODDINGTON; GOUDIE-MARSHALL, 1986), base que é bastante conhecida na literatura, e cujas locuções praticamente não apresentam ruído, e a MIT-MDSVC (WOO; PARK; HAZEN, 2006), usada em verificação de locutores em telefonia móvel, e

que contém locuções com ruído natural.

A TIMIT (FISHER; DODDINGTON; GOUDIE-MARSHALL, 1986) é uma base de voz comissionada pelo DARPA (Defense Advanced Research Projects Agency) com o propósito de ser usada em pesquisas de natureza acústico-fonética, e para o desenvolvi- mento e avaliação de sistemas automáticos de reconhecimento de voz. As locuções foram

Capítulo 3. Processamento de Voz 40

gravadas na Texas Instruments Inc. (TI), e foram transcritas no Massachussets Institute

of Technology (MIT), o que deu origem ao seu nome (i.e. TIMIT).

Conjunto No de locutores No de locuções

Treinamento 462 4620

Teste 168 1680

Tabela 1: Número de locutores e de locuções presentes no conjunto de treinamento e teste sugeridos oficialmente para base TIMIT.

A TIMIT possui locuções de 630 locutores diferentes, de 8 diferentes dialetos do inglês (americano). Para cara locutor, 10 locuções de frases foneticamente ricas foram gravadas e todas as locuções foram verificadas manualmente. Essa base é dividida em um conjunto de treinamento e outro de teste. O conjunto de treinamento contém 4620 locuções, obtidas de 462 locutores, enquanto o conjunto de teste contém 1680 locuções de 168 locutores.

Figura 12: Espectrograma de uma locução escolhida aleatoriamente da base TIMIT.

A TIMIT tem sido uma base padrão para a comunidade de reconhecimento de voz por várias décadas e ainda hoje é bastante utilizada (MOHAMED; DAHL; HINTON, 2012) (HINTON et al., 2012), tanto para reconhecimento de voz quando para identificação de locutor. Isto não se deve apenas pelo fato de que cada locução é foneticamente anotada à mão e classificada por códigos representando o número do locutor, o seu sexo e a região do seu dialeto, mas também por ser considerada pequena o suficiente para garantir uma avaliação de experimentos relativamente rápida, e grande o suficiente para demonstrar a capacidade do sistema. Resumindo, a TIMIT é usada como um benchmark na comunidade de reconhecimento de voz.

A MIT Mobile Device Speaker Verification Corpus (WOO; PARK; HAZEN, 2006) é a outra base utilizada nesta dissertação. Ela foi disponibilizada em 2006 pelo MIT, e como o seu nome já diz, foi criada para o problema de verificação de locutor, mais especificamente, em telefonia móvel. Uma limitação desta base é que o número de locutores

Capítulo 3. Processamento de Voz 41

e locuções é relativamente pequeno, porém, a presença de ruído real a torna adequada para análise de técnicas na presença de ruído.

Sessão No de locutores No de Locuções Treinamento Teste

Locutores Cadastrados - 1 48 2592 X

Locutores Cadastrados - 2 48 2592 X

Impostores 40 2123 X

Tabela 2: Informações sobre a MIT-MDSVC. A tabela também indica a subdivisão trei- namento/teste recomendada para o problema de verificação de locutor nessa base.

Essa base possui dois conjuntos de locutores: um conjunto de 48 locutores cadas- trados, dos quais 22 são do sexo feminino e 26 do sexo masculino e um conjunto de 40 locutores não cadastrados (i.e. impostores, no contexto de verificação), dos quais 17 são do sexo feminino e 23 são do sexo masculino. Para o conjunto de locutores cadastrados, os dados de locução foram coletados no decorrer de duas diferentes sessões de 20 minutos (uma para treinamento e outra para avaliação) que ocorreram em dias separados. Para o

conjunto de locutores não cadastrados, uma única sessão de 20 minutos foi realizada. Para introduzir uma variabilidade de ambientes e condições acústicas geralmente encontradas durante o uso de dispositivos móveis, tanto o ambiente quanto as condições do microfone foram alteradas durante a coleta dos dados. Para cada sessão, os dados foram coletados em três locais diferentes: em um escritório silencioso (ruído baixo), na entrada de um prédio (ruído médio) e no cruzamento de duas ruas movimentadas (ruído alto). Essa base cujo propósito original é o problema de verificação, foi adaptada nesta dissertação para ser usada em identificação. Para isso, descartamos a sessão de Impostores desta base, e trabalhamos apenas com as locuções da primeira e da segunda sessão.

Figura 13: Espectrograma de uma locução escolhida aleatoriamente da base MIT-MDSVC. Observe que o início e o final da locução possuem um trecho sem fala.

Existem várias diferenças entre as locuções da base MIT-MDSVC quando compara- das com as locuções da TIMIT, e entre elas podemos citar: (1) as frases pronunciadas são

Capítulo 3. Processamento de Voz 42

bastante curtas; (2) os intervalos de silêncio nas locuções não foram removidos/reduzidos (como observado na Figura 13); (3) os locutores desta base pronunciaram as mesmas frases; (4) As locuções da base MIT-MDSVC foram gravadas em ambiente com ruído natural, enquanto as locuções da TIMIT foram gravadas em um ambiente controlado. Quando comparamos os espectrogramas na Fig. 12 e na Fig. 13, podemos verificar algumas dessas diferenças.

3.3

Pré-processamento

Para a base TIMIT, nós extraímos o espectrograma de cada locução de voz utilizando janelas de 20ms com sobreposição de 10ms. Os espectrogramas resultantes possuem em torno de 160 canais (bandas de frequência), e o número de frames varia de acordo com a duração da locução. Nesse contexto, cada canal é considerado uma característica, e os diversos frames são interpretados como vetores de características. Como esse número de características acarreta um custo computacional relativamente alto, nós aplicamos PCA

Whitening (seguindo (LEE et al., 2009b)) nos espectrogramas para criar uma representação

com menos características. A visualização desse processo pode ser observada na Figura 14. Para a base MIT-MDSVC realizamos o mesmo procedimento, porém com uma etapa adicional. Como algumas das locuções dessa base apresentam longos períodos de silêncio (ao contrário da TIMIT, que foi preprocessada a priori), nós utilizamos um método3

simples para reduzir os trechos de silêncio de cada locução (GIANNAKOPOULOS, 2009). Para o PCA Whitening, dada uma matriz X ∈ Rd×m, onde d é a dimensão original de um único frame, m é o numero de frames, e a matriz X é construída através da concatenação de espectrogramas selecionados de forma aleatória da base de treinamento, nós calculamos a decomposição em autovalores de XTX = EDET, onde E é uma matriz

ortogonal, e D é uma matriz diagonal (não-negativa). Nós definimos as submatrizes ˆE e ˆD

ao tomar as colunas e entradas diagonais que correspondem aos nc maiores autovalores, e

calculamos os componentes após o whitening para cada frame do espectrograma x ∈ Rd,

usando a decomposição, da seguinte forma:

xwhitenened = ( ˆD + I)−1/2EˆTx (3.6)

onde  é uma pequena constante que previne a amplificação excessiva de componentes do PCA com pequenos autovalores. Após o aplicar o PCA Whitening, nós obtemos um espectrograma preprocessado, que servirá como entrada para o modelo não-supervisionado.

Em todos os nossos experimentos, utilizamos o número de componentes principais

nc = 80, e  = 3 (seguindo (LEE et al., 2009b)). Isso quer dizer que o espectrograma

Capítulo 3. Processamento de Voz 43 0 1 2 3 4 5 x 104 −0.1 −0.05 0 0.05 0.1 50 100 150 200 250 50 100 150 50 100 150 200 250 20 40 60 80 (b) (a) (c)

Figura 14: Visualização do pré-processamento utilizado durante os experimnetos. (a) Sinal de voz original de qualquer uma das bases utilizadas; (b) Espectrograma obtido a partir do sinal de voz; e (c) Espectrograma preprocessado, após a aplicação do PCA Whitening com nc = 80 e  = 3.

Capítulo 3. Processamento de Voz 44 50 100 150 200 250 300 350 400 450 500 20 40 60 80 100 120 140 160 50 100 150 200 250 300 350 400 450 500 20 40 60 80 100 120 140 160

Figura 15: Perda de informação após o PCA Whitening com nc = 80 e  = 3. Ao aplicar o

PCA Whitening e conservar apenas 80 canais (i.e. características), podemos aplicar a transformada inversa para visualizar os dados no espaço original.

45

4 EXPERIMENTOS E RESULTADOS

Neste capítulo, iremos apresentar os experimentos realizados e resultados obtidos neste trabalho. Na Seção 4.1, apresentamos a motivação para realização dos experimentos, assim como os experimentos em si. Na Seção 4.2, descrevemos a arquitetura da Convolutio-

nal Deep Belief Network (CDBN) utilizada, e detalhamos o método de treinamento. Ainda

nesta seção, damos uma breve introdução a métodos de monitoração do treinamento das camadas. Na Seção 4.3, descrevemos os experimentos realizados com as características aprendidas de forma não-supervisionada, e apresentamos os resultados.

4.1

Introdução

Os experimentos realizados neste trabalho tiveram como motivação os resultados obtidos em (LEE et al., 2009b), que utilizou uma CDBN para aprender características de forma não-supervisionada na base TIMIT, utilizando essas características em vários problemas da voz, como identificação de locutor, classificação de gênero do locutor, classificação de fonema, etc. Nos experimentos, nós utilizamos a mesma arquitetura proposta em (LEE et al., 2009b), e a utilizamos na TIMIT (para validar os resultados) e em outra base, mais ruidosa, chamada MIT-MDSVC. Os principais questionamentos que os experimentos querem responder é se a CDBN é capaz de aprender características com bom poder discriminatório, mesmo em bases de áudio ruidosas, e se essas características, aprendidas em uma base, são robustas o suficiente para serem utilizadas em uma outra base de áudio.

4.2

Aprendizado Não-Supervisionado

Nos experimentos, utilizamos a CDBN para aprender uma representação hierárquica dos dados de forma não-supervisionada. O treinamento da CDBN se dá camada à camada, onde uma camada, já treinada, passa suas ativações para a próxima camada, como dados de treinamento.

Todos os experimentos realizados nessa dissertação utilizam uma CDBN com a mesma arquitetura usada em (LEE et al., 2009b) para o problema de identificação de locutor na base TIMIT. Essa arquitetura possui duas camadas:

1. A primeira camada é modelada como uma CRBM com camada visível Gaussiana e com 300 filtros, cada um com 80 canais de largura 6 (obtidos empiricamente), e uma vizinhança de tamanho 3 para o probabilistic max-pooling.

Capítulo 4. Experimentos e Resultados 46 nc nv K nc nw H

Camada Visível Filtros Camada Escondida

V

K

nv− nw+ 1

Figura 16: Diagrama da primeira camada da CDBN aplicada em áudio (sem a camada de pooling). A camada vísivel é um espectrograma preprocessado, e possui nc

canais, e nv frames. Temos K filtros, onde cada filtro possui nccanais e largura

nw. A camada escondida tem K mapas de características, onde cada mapa

possui nv− nw+ 1 componentes (que representam os frames).

2. A segunda camada é modelada como uma CRBM binária, e possui 300 filtros, cada um com 300 canais e 6 de largura

Nós treinamos as duas camadas da CDBN utilizando dados de áudio não rotulados. Para a base TIMIT, nós utilizamos o conjunto de treinamento próprio dessa base, e para base MIT-MDSVC nós utilizamos as locuções da primeira sessão. A entrada para o modelo consistiu nos espectrogramas preprocessados (Seção 3.3) obtidos de cada uma das locuções utilizadas. O treinamento propriamente dito foi feito utilizando gradiente descendente e

contrastive divergence, utilizando um sparsity target de 0.05 para primeira camada e de

0.02 para a segunda.

Após o treinamento não-supervisionado camada à camada, utilizamos a CDBN resultante para extrair características de cada espectrograma preprocessado.

Documentos relacionados