• Nenhum resultado encontrado

Descritor de voz invariante ao ruído

N/A
N/A
Protected

Academic year: 2021

Share "Descritor de voz invariante ao ruído"

Copied!
76
0
0

Texto

(1)

Universidade Federal de Pernambuco

Centro de Informática

Mestrado em Ciência da Computação

Descritor de Voz Invariante ao Ruído

Hesdras Oliveira Viana

Dissertação de Mestrado

Recife

26-02-2013

(2)

Universidade Federal de Pernambuco

Centro de Informática

Hesdras Oliveira Viana

Descritor de Voz Invariante ao Ruído

Trabalho apresentado ao Programa de Mestrado em Ciên-cia da Computação do Centro de Informática da Universi-dade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Orientador: Prof. Dr. Carlos Alexandre Barros de Mello

Recife

26-02-2013

(3)

Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4-571

Viana, Hesdras Oliveira

Descritor de voz invariante ao ruído. / Hesdras Oliveira Viana. - Recife: O Autor, 2013.

xii, 62 folhas: fig., tab.

Orientador: Carlos Alexandre Barros de Mello.

Dissertação (mestrado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013.

Inclui bibliografia.

1. Inteligência artificial. 2. Processamento de voz. I. Mello, Carlos Alexandre Barros de (orientador). II. Título.

(4)

Dissertação de Mestrado apresentada por Hesdras Oliveira Viana à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “Descritor de Voz Invariante ao Ruído” orientado pelo Prof. Carlos Alexandre Barros de Mello e aprovada pela Banca Examinadora formada pelos professores:

__________________________________ Prof. Tsang Ing Ren

Centro de Informática / UFPE

___________________________________ Prof. Francisco Madeiro Bernardino Junior

Escola Politécnica de Pernambuco / UPE

_________________________________ Prof. Carlos Alexandre Barros de Mello

Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 26 de fevereiro de 2013.

_________________________________ Profa. Edna Natividade da Silva Barros

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

Dedico esse trabalho aos meus pais, Nivaldo Viana e Miralva Santos, aos meus irmãos, Rondinelli Viana e Nivaldo Júnior, a minha tia,Valda Santos, e a minha namorada, Karla Abobreira. A todos eu dedico.

(6)

Agradecimentos

Agradeço primeiramente a Deus, que me deu sabedoria e força para seguir em frente sempre mostrando-me o caminho correto. Obrigado, Meu Pai Celestial, pela dádiva!

Agradeço aos meus heróis, comumente chamados de pai e mãe, Nivaldo Morais Viana e Miralva Santos de Oliveira Viana, por fazerem sacrifícios inimagináveis em prol da minha educação. Não tenho palavras para agradecê-los. Muito Obrigado por serem meus espelhos, por me incentivar nos momentos de desânimo, por me fazer acreditar no inacreditável e com isso poder sorrir no final.

Agradeço as minhas tias e tios, em especial Valda Santos, por me mostrar o caminho da ver-dade, pelo apoio e vibração inconteste. Tia, você é o sinônimo da felicidade. Muito Obrigado por existir em minha vida!

Agradeço aos meus irmãos, Rondinelli Oliveira Viana e Nivaldo Morais Viana Júnior, pelos conselhos sábios. Obrigado irmãos, vocês foram peças fundamentais nessa minha jornada!

Agradeço a minha namorada, Karla Conceição Abobreira, pelo carinho, compreensão e paciência ao longo da minha jornada. Obrigado Amor, sem você nada disso seria possível!

Agradeço ao meu orientador, Dr. Carlos Alexandre Barros de Mello, por ajudar-me a con-cretizar um sonho, sendo sempre paciente, presente e muito dedicado. Obrigado Carlos, agora eu sei o que é ser pesquisador!

Agradeço aos meus professores da graduação na Universidade Estadual do Sudoeste da Bahia, em especial ao professor Dr. Roque Mendes Prado Trindade, por abrir os caminhos da pesquisa. Muito Obrigado por acreditar nos meus sonhos!

Agradeço aos meus professores do mestrado, por me conduzir ao longo dessa jornada. Obrigado, Mestres!

Agradeço aos grupos de pesquisas VIISAR e SIAC, pelos estudos na área de reconheci-mento de voz. Muito Obrigado!

Agradeço a todos que, direta ou indiretamente, contribuíram no meu mestrado. Muito Obrigado!

(7)

Resumo

Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental (pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP (RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coef-ficient) são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvan-tagens, expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS (Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Sup-port Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB, 5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu para validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Inva-riant to Noise and Environment and Robust for Speech), apresentou melhores resultados entre todos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTA-PLP e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o classificador SVM.

Palavras-chave: Processamento de Voz, Descritores de Voz, MFCC, PNCC, RASTA-PLP.

(8)

Abstract

Speech features extracting is a fundamental step for speech recognition systems. It is through the descriptors that it is possible to extract features as the signal energy, fundamental frequency (pitch) and formants structure that can be used as identifiers for each spoken word. Descriptors such as MFCC (Mel Frequency Cepstral Coefficient), RASTA-PLP (RelAtive Spec-TrAl Perceptual Linear Predictive) and PNCC (Power Normalized Cepstral Coefficient) are commonly used in the state-of-the-art for speech recognition. However, these descriptors fail to provide good results when exposed to noisy samples, speaker variability and continuous speech. The objective of this work is to develop a descriptor for speech that is invariant to noise, environment and speaker. For this, we analysed some well known speech descrip-tors, identifying their advantages and disadvantages, and exposing them to several different situations. To review the techniques, we used the NOIZEUS (Noisy Speech Corpus) data-base and two classifiers: HMM (Hidden Markov Models) and SVM (Support Vector Machine). This database is characterized by the presence of 0dB, 5dB, 10dB and 15dB noise, with speech signals recorded in various environments. The use of the classifiers have served to validate the descriptors for speech. The proposed descriptor, called MINERS (Model Invariant to Noise and Environment and Robust for Speech), have presented better results among all other evaluated descriptor (MFCC, MFCC combined with Wavelet Denoising, RASTA-PLP and PNCC). The most successful approach was obtained using the MINERS with SVM classifier.

Keywords: Speech Recognition, Speech Feature Extracting, MFCC, PNCC, RASTA-PLP.

(9)

Sumário

1 Introdução 1

1.1 Objetivos 2

1.1.1 Objetivo Geral 2

1.1.2 Objetivos Específicos 2

1.2 Breve Histórico dos Reconhecedores da Fala 3

1.3 Reconhecimento Automático da Fala 5

1.4 Estrutura do Documento 8

2 Fonética e Fonologia 9

2.1 Produção da voz 9

2.2 Fonética Articulatória 10

2.2.1 Formação das Vogais 11

2.2.2 Formação das Consoantes 12

2.3 Unidades Menores que Palavra 14

3 Descritores de Voz 16

3.1 Parâmetros da Fala 16

3.2 MFCC e MFCC com Wavelet Denoising 20

3.3 PLP e RASTA-PLP 25

3.4 PNCC 31

4 Método Proposto: MINERS 37

4.1 Classificação do sinal como ruidoso ou não 37

4.2 Wavelet+PNCC2 42 4.2.1 Pré-Processamento 43 4.2.2 Decomposição do Sinal 43 4.2.3 Wavelet Denoising 45 4.2.4 Filtros Gammatone 45 4.2.5 Mascaramento Temporal 45 4.2.6 DCT 46 4.2.7 Média da Normalização 46 5 Experimentos 48 5.1 Base 48 5.2 Experimento 1: HMM 48 5.3 Experimento 2: SVM 51 vii

(10)

SUMÁRIO viii

5.4 Análise 52

6 Conclusão 55

(11)

Lista de Figuras

1.1 Fonemas utilizados no desenvolvimento do sistema de reconhecimento de fo-nemas japoneses, utilizado por Sakay e Doshita [13]. 4 1.2 Diagrama do sistema de reconhecimento de fonemas japoneses, utilizado por

Sakay e Doshita [13]. 5

1.3 Esquema hierárquico dos sistemas de processamento da fala. Adaptada de [28]. 6

1.4 Conversão analógico digital. Adaptada de [32]. 7

2.1 Os Sistemas: Respiratório, Fonatório e Articulatório. Adaptada de [29]. 9

2.2 Trato vocal. Adaptada de [33]. 10

2.3 Trapézio vocálico. Adaptada de [36]. 11

2.4 Classificação das vogais de acordo a tabela IPA1. 12

3.1 Janelas de Hamming aplicadas a um sinal. 17

3.2 Sobreposição das janelas de Hamming. Adaptada de [48]. 18 3.3 Transformada de Fourier aplicada a frase “The birch canoe slid on the smooth

planks”. 19

3.4 Transformada de Fourier aplicada a frase “The birch canoe slid on the smooth

planks” com presença de ruído a 0dB. 19

3.5 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks”. 20 3.6 Espectrograma da STFT para a frase “The birch canoe slid on the smooth

planks” com presença de ruído a 0dB. 21

3.7 Diagrama para o cálculo do MFCC. Adaptada de [52]. 22

3.8 Banco de Filtro Triangular. 22

3.9 Etapas para a combinação do descritor MFCC com o Wavelet Denoising. 23 3.10 Decréscimo da energia dos coeficientes MFCC para a frase “The birch canoe

slid on the smooth planks”. 24

3.11 Descrição da fala utilizando o MFCC sem presença de ruído. 25 3.12 Descrição da fala utilizando o MFCC na presença de ruído a 0dB gravado em

um aeroporto. 26

3.13 Representação das bandas-críticas. Adaptada de [60]. 27

3.14 Curva de Pré-Ênfase. Adaptada de [60]. 29

3.15 Etapas do algoritmo RASTA-PLP. 30

3.16 Extração de características com RASTA-PLP. 31

3.17 Extração de características com RASTA-PLP em amostra ruidosa com 0dB. 31

3.18 Banco de Filtros Gammatone. Adaptada de [66]. 32

3.19 Estrutura do PNCC. Adaptada de [8]. 34

(12)

LISTA DE FIGURAS x

3.20 Estrutura do MFCC, RASTA-PLP e PNCC. 35

3.21 Espectrograma do algoritmo PNCC para amostra sem ruído. A frase pronunci-ada foi “The birch canoe slid on the smooth planks”. 35 3.22 Espectrograma do algoritmo PNCC em amostra ruidosa com 0dB. A frase

pro-nunciada foi “The birch canoe slid on the smooth planks”. 36

4.1 Fluxograma do algoritmo MINERS. 37

4.2 Wavelet combinado com PNCC2. 38

4.3 Transformada de Fourier de um sinal (a) sem ruído e (b) com ruído a 5dB. 39 4.4 MFCC de um sinal (a) sem ruído e (b) com ruído a 5dB. 39 4.5 Outro exemplo do cálculo da MFCC de um sinal de voz (a) sem ruído e (b)

com ruído. 40

4.6 Binarização dos tons avermelhados dos sinais apresentados nas Figuras (a) 4.4.a (sinal sem ruído) e (b) 4.4.b (sinal com ruído). 41 4.7 Resultado da aplicação de uma operação de fechamento morfológico nas

ima-gens das Figuras (a) 4.6.a e (b) 4.6.b. 41

4.8 Componentes de aproximação e detalhes de um sinal obtidos através de filtros

passa-baixa e passa-alta. 42

4.9 Exemplos de funções Wavelets da família Daubechies. 43

4.10 Árvore de decomposição de três níveis. 44

4.11 Decomposição da frase “The birch canoe slid on the smooth planks” em três

níveis. 44

4.12 Wavelet Denoising. 45

4.13 Mascaramento Temporal. 46

4.14 Sinal da fala (a) e aplicação do DCT (b). 47

5.1 Quantidade de fonemas pronunciados para cada classificação articulatória.

Adap-tada de Hu[75]. 49

5.2 Resposta em frequência do filtro IRS. 49

5.3 MFCC da frase “The set of china hit the floor with a cras”. 53 5.4 Binarização dos tons avermelhados do sinal apresentado na Figura 5.3

con-forme descrito no algoritmo. 54

5.5 Resultado da aplicação da operação de fechamento morfológico na imagem da

(13)

Lista de Tabelas

1.1 Aspectos para os sistemas de reconhecimento da fala. Adaptada de [3]. 2

5.1 Lista das frases presente na base NOIZEUS. 50

5.2 Taxa de acerto dos descritores MINERS, MFCC, MFCC com Wavelet

Denoi-sing, PNCC e RASTA-PLP utilizando HMM. 51

5.3 Taxa de acerto dos descritores MINERS, MFCC, MFCC com Wavelet

Denoi-sing, PNCC e RASTA-PLP utilizando SVM. 52

(14)

Lista de Siglas

HMM Hidden Markov Model

MFCC Mel-Frequency Cepstral Coefficients LPC Linear Predictive Codes

PNCC Power-Normalized Cepstral Coefficient SVM Support Vector Machine

PCM Pulse Code Modulation

LD-CELP Low Delay Codebook Excited Linear Prediction IPA International Phonetic Alphabet

PLP Perceptual Linear Predictive

RASTA-PLP RelAtive SpecTrAl - Perceptual Linear Predictive STFT Short Time Fourier Transform

FFT Fast Fourier Transform DCT Discrete Cosine Transform

MINERS Model Invariant to Noise and Environment and Robust for Speech IIR Infinite Impulse Response

ERB Equivalent Rectangular Bandwidth FIR Finite Impulse Response

WPT Wavelet Packet Transform RBF Radial Basis Function

PCA Principal Component Analysis SNR Signal-to-Noise Ratio

DDCT Distributed Discrete Cosine Transform

(15)

C

APÍTULO

1

Introdução

Graças aos avanços tecnológicos, sobretudo na área de Inteligência Artificial, encontramos uma interface humano-computador que é o reconhecedor da fala. Hoje, essa interface pode ser encontrada em dispositivos móveis, atendimento automático nos call-centers, dispositivos de autenticação, jogos eletrônicos, automação industrial, robótica, dentre outros. Reconhecimento da fala permite que dispositivos equipados com microfone identifiquem comandos, frases ou fala contínua pronunciadas pelo locutor [1].

As aplicações com essa interface tornaram-se uma das principais ferramentas adaptativas utilizadas por pessoas com deficiências visuais e motoras. Segundo o IBGE (2010) 1, cerca de 25,72% da população brasileira são portadoras de deficiências visuais ou motoras o que representam 49,65 milhões de pessoas. Esse cenário revela a importância de um aprimoramento nos reconhecedores da fala, proporcionando maior independência, qualidade de vida e inclusão social.

Os sistemas de reconhecimento da fala eram desenvolvidos apenas para reconhecerem pala-vras isoladas, ou seja, cada palavra que o locutor pronunciava representava um comando. O software de ditado ViaVoice 2 da IBM é um exemplo desse tipo de sistema que tem como característica uma alta taxa de reconhecimento.

Com a crescente demanda por essa tecnologia, surgiu a necessidade da criação de reconhe-cedores para a fala contínua substituindo os sistemas de palavras isoladas. A diferença entre um sistema de reconhecimento de palavras isoladas e o de fala contínua está no fato de que para reconhecer palavras isoladas, o locutor efetua uma pequena pausa entre as palavras, enquanto que um sistema de reconhecimento de fala contínua não apresenta esta condição. A dificuldade em fala contínua é diferenciar se o interlocutor fez apenas uma pausa entre as palavras ou se já concluiu o comando [2]. O êxito desses sistemas está ligado a uma boa definição das unida-des fonéticas e do algoritmo de unida-descrição de voz que será utilizada. Alguns aspectos para os sistemas de reconhecimento da fala podem ser encontrados na Tabela 1.1 [3].

Apesar dos visíveis avanços alcançados na área de reconhecimento da fala, especialmente depois da introdução do HMM, do inglês Hidden Markov Model, e do modelo estatístico da linguagem. Ainda encontram-se dificuldades no reconhecimento da fala em ambientes ruidosos ou com variabilidade acústica. Ruído é um som indistinto e sem harmonia, cuja intensidade é medida em decibéis (dB). A escala de decibéis é logarítmica, de modo que um aumento no nível de som de três decibéis representa um aumento da intensidade de ruído para o dobro [4]. Quando o ruído é inserido na voz dificulta a extração de característica da fala também conhecida como descrição da fala.

1http://www.ibge.gov.br/home/estatistica/populacao/censo2010/default.shtm, Visto em Fevereiro, 2013. 2http://www-01.ibm.com/software/pervasive/viavoice.html, Visto em Dezembro, 2012.

(16)

1.1 OBJETIVOS 2

Tabela 1.1 Aspectos para os sistemas de reconhecimento da fala. Adaptada de [3].

Parâmetros Faixa

Modo de Pronúncia De palavras isoladas a fala contínua Estilo de pronúncia De leitura a fala espontânea

Treinamento De dependente de locutor a independente de locutor Vocabulário De pequeno (< 20 palavras) a grande (> 20000 palavras) Modelo de linguagem De estados finitos a sensível a contexto

Perplexidade De pequena (< 10) a grande (> 100) SNR De alta (> 30 dB) a baixa (< 10 dB)

Transdutor De microfone com cancelamento de ruído a telefone

Descrever a fala é obter os seus atributos, cujo objetivo é diferenciar as palavras pronuncia-das por cada locutor. Uma boa descrição faz com que os classificadores consigam reconhecer as palavras mesmo que elas sejam pronunciadas por pessoas de diferente sexo, idade ou ambiente. Trabalhos como Goyani et al. [5], Combrinck e Botha [6] e Rahman e Islam [7] demons-traram a eficiência dos descritores da fala em amostras sem ruído como MFCC, do inglês Mel-Frequency Cepstral Coefficients, e LPC, do inglês Linear Predictive Codes, porém, quando há presença de ruído, os descritores não apresentaram resultados (taxa de acerto) iguais ou superi-ores aos demonstrados na ausência de ruído. Com isso surgiu um novo algoritmo para descrever a fala, o PNCC, do inglês Power-Normalized Cepstral Coefficient. Essa técnica mostrou supe-rioridade quando expostas ao ruído, entretanto, na ausência de ruído os resultados não são os melhores [8].

Apesar do aumento das taxas de reconhecimento, ainda encontra-se dificuldade para reco-nhecer a fala independente dos ambientes, como por exemplo o trabalho de Kim (8) onde o descritor PNCC apresenta boas taxas de acerto para ambientes como rua e aeroporto mas não mantém as boas taxas de acertos para ambientes com pouco ruído, como dentro de casa. Muitos problemas se dão devido ao baixo poder de generalização que as técnicas propõem, alavancando a necessidade de bons descritores.

1.1

Objetivos

1.1.1 Objetivo Geral

O objetivo geral desta dissertação é desenvolver um descritor para a fala que seja invariante ao ruído e ao ambiente.

1.1.2 Objetivos Específicos

Como objetivos específicos temos:

1. Avaliar os descritores de sinais de voz para fala contínua;

(17)

1.2 BREVE HISTÓRICO DOS RECONHECEDORES DA FALA 3

inglês Support Vector Machine.

1.2

Breve Histórico dos Reconhecedores da Fala

A década de 50 marca o início do desenvolvimento de sistemas para o reconhecimento da fala. Esse interesse surgiu devido à evolução no campo da fonética e fonologia que exploravam as frequências fundamentais (pitch) e os formantes da fala.

Em 1952, surgiu um dos primeiros sistemas automático para reconhecimento de voz que reconheciam dígitos de zero ao nove de um único locutor. Davis e Balashek [9] propuseram um circuito elétrico que realizava essa função. O reconhecedor usava os formantes da fala para identificar cada número pronunciado e tinha uma taxa de reconhecimento de 97%. Os formantes são picos de energia em uma região do espectro sonoro, ocasionado pelos vários componentes do trato vocal, possuindo um importante papel na inteligibilidade da fala.

Essa abordagem não era capaz de reconhecer outro locutor (o circuito foi projetado para reconhecer a voz de um locutor em específico), era necessário o tempo de pausa para cada dígito pronunciado (o locutor realizava uma pausa de 350 ms antes de pronunciar o próximo número) e não reconheciam as palavras fora do alfabeto de dígitos.

Em 1959, os pesquisadores Fry e Denis desenvolveram um sistema capaz de reconhecer quatro fonemas e nove consoantes da língua inglesa através de um analisador de espectro e uma combinação de padrões. A técnica apresentou um baixo poder de generalização das palavras, dependência do locutor e a não conseguia reconhecer dígitos [10].

Na década de 60 surgiram os primeiros sistemas japoneses que reconheciam dígitos e fone-mas. Autores como Suzuki e Nakata [11] e Nagata e Kato [12] utilizaram as regras de decisão de Bayes para reconhecerem dígitos. Já Sakay e Doshita [13] utilizou a taxa de passagem pelo zero para identificar os padrões dos fonemas pronunciados. O sistema era dividido em três partes: classificador dos fonemas, circuito de controle e circuito de análise. As técnicas tinham como desvantagem a incapacidade de reconhecer palavras e a dependência de locutor. Nas Figuras 1.1 e 1.2 são mostrados os fonemas e o diagrama utilizados para o reconhecimento dos fonemas, respectivamente.

A década de 70 trouxe o reconhecimento de palavras isoladas. O avanço ocorreu devido aos seguintes fatores:

• Em 1964, Martins et al. [14] desenvolveram um sistema para detectar o início e o fim da fala através da normalização.

• Entre 1970 e 1978, Velichko e Zagoruyko[15] e Sakoe e Chiba [16] desenvolveram um reconhecedor de palavras isoladas utilizando programação dinâmica. Essa evolu-ção proporcionou o desenvolvimento dos descritores LPC e MFCC para extrair atributos da voz [17], [18].

Com os sistemas desenvolvidos na década de 70, como os citados anteriormente, era possí-vel reconhecer até 200 palavras com uma taxa de 97,3% de acerto. A dificuldade era a impre-cisão perante o ruído, a não representatividade de todas as palavras e a dependência de locutor.

(18)

1.2 BREVE HISTÓRICO DOS RECONHECEDORES DA FALA 4

Figura 1.1 Fonemas utilizados no desenvolvimento do sistema de reconhecimento de fonemas japone-ses, utilizado por Sakay e Doshita [13].

A década de 80 marcou o início das pesquisas com fala contínua, utilizando novas técnicas para a classificação da fala. O modelo estatístico HMM, desenvolvido em 1966 [19], tornou-se a principal ferramenta de classificação para a fala. As redes neurais, que surgiram em 1943 com o trabalho de McCulloch e Pitts [20], e alcançaram uma larga utilização em 1958 com o trabalho de Rosemblatt denominado de Percepton [21], foram utilizadas nos reconhecedores de palavras proporcionando uma boa taxa de classificação. Os problemas das técnicas foram a incapacidade de lidar com amostras ruidosas e com a independência de locução.

Nos anos 90 as pesquisas seguiram a tendência da década anterior, evolução da fala contínua e dos classificadores. Surgiram sistemas com dicionários cada vez mais extensos, fazendo com que os reconhecedores fossem capazes de reconhecer um maior número de comandos. No mesmo período surgiu o SVM, do inglês Support Vector Machine, desenvolvido por Vapnik [22]. O SVM é uma rede de aprendizado supervisionada que é aplicada para o reconhecimento de padrão e regressão. Apesar de ter aumentado a capacidade de generalização dos sistemas, ainda encontra-se dificuldade para lidar com ruído e com independência do locutor.

A partir dos anos 2000, começaram a hibridização das técnicas. Com a evolução dos algo-ritmos de Bagging [23], Boosting [24] e AdaBoost [25], muitos pesquisadores começaram a utilizar os ensembles (máquinas de comitês) para classificar as amostras de voz alcançando melhores resultados [26]. Os ensembles são um conjunto de classificadores que se baseiam na ideia de unir as opiniões que os compõem para aumentar a precisão de um sistema de classifi-cação de padrões. Cada classificador contribui com sua visão do espaço de características do problema apresentado, promovendo, assim, a diversidade entre seus integrantes.

(19)

1.3 RECONHECIMENTO AUTOMÁTICO DA FALA 5

Figura 1.2 Diagrama do sistema de reconhecimento de fonemas japoneses, utilizado por Sakay e Doshita [13].

1.3

Reconhecimento Automático da Fala

Reconhecimento automático da fala tem sido uma das principais fontes de pesquisa por mais de seis décadas na área de processamento de sinais de voz. Interagir com dispositivos eletrônicos usando a fala tem influenciado filmes de ficção científica, como o computador HAL do filme “2001-Uma Odisséia no Espaço”, o carro do filme “Batman” e o robô R2D2 do filme “Guerra nas Estrelas”. Mesmo com os avanços durante as décadas, ainda não é possível reco-nhecer um discurso de uma pessoa qualquer dentre o universo de vários falantes, idiomas e ambientes distintos [27].

(20)

1.3 RECONHECIMENTO AUTOMÁTICO DA FALA 6

Os sistemas de processamento da fala são divididos em codificação da fala, síntese da fala e reconhecimento automático da fala. A codificação da fala é feita através de técnicas que buscam representar de forma compacta o sinal da voz. Além disso, deve-se perceber não só a inteligibilidade do que é ouvido, mas também outras informações como a entonação e a emoção do interlocutor [27].

A síntese da fala constitui em produzir sons parecidos com a voz humana a partir de um texto escrito verificando aspectos como: naturalidade, a qual releva até que ponto o sintetizador soa como a voz humana, e inteligibilidade, que avalia a facilidade do entendimento da saída da fala [27].

O reconhecimento do locutor é um modelo biométrico que tem como objetivo preservar características que diferencie um locutor do outro. O reconhecimento de locutor pode ser divi-dida em duas aplicações distintas: a verificação de locutor, cujo objetivo é a autenticação de uma pessoa, e a identificação de locutor, cujo objetivo é identificar o indivíduo que fala [27].

O reconhecimento automático da fala refere-se ao aspecto de como a máquina irá reco-nhecer a fala humana para executar os comandos propostos. O mesmo é dividido em: modo dependente ou independente de locutor. No modo dependente de locutor, as elocuções são pronunciadas por locutores previamente conhecidos. Já no modo independente de locutor, qualquer pessoa pode pronunciar frases sem necessidade de treinamento adicional do sistema [28]. Na Figura 1.3 é mostrada a hierarquia dos sistemas de processamento da fala.

Figura 1.3 Esquema hierárquico dos sistemas de processamento da fala. Adaptada de [28].

Sistemas de processamento da fala são compostos por: 1. Codificação do sinal de voz.

2. Pré-processamento do sinal da voz. 3. Descrição da voz.

(21)

1.3 RECONHECIMENTO AUTOMÁTICO DA FALA 7

4. Classificação.

A codificação o sinal de voz tem como objetivo representar a informação digital de voz na forma mais compacta possível, aumentando a eficiência do armazenamento da voz digitalizada. A compressão dos dados consiste em reduzir o número de bits necessários para representar uma informação. Existem diferentes formas de implementação de codificadores de voz, que pode ser dividida nas seguintes classes básicas: codificadores de forma de onda, como por exem-plo PCM, do inglês Pulse Code Modulation, codificadores paramétricos, como por exemexem-plo o LPC, e codificadores híbridos que apresentam características de codificação de forma de onda e codificadores paramétricos, como por exemplo o LD-CELP, do inglês Low Delay Codebook Excited Linear Prediction[29].

Após a etapa da codificação é realizado o pré-processamento do sinal da voz que é dividido em quatro etapas principais: conversão do sinal analógico em digital (conversor A/D), atenua-ção dos componentes de baixa frequência, extraatenua-ção de quadros e identificaatenua-ção de início e fim da fala (endpoint). A primeira etapa geralmente é feita através de um transdutor que, em geral, é um microfone. É através do microfone que passamos o sinal da voz para o computador que fará o reconhecimento da fala [30].

A amostragem da voz geralmente é efetuada entre 6k à 44kHz, com tamanho variando entre 8 a 16 bits, satisfazendo o teorema de Nyquist [31]. Em muitos sistemas é comum a aplicação de um filtro passa-baixas para limitar a banda de frequência do sinal. Com isto, pode-se eliminar o fenômeno conhecido como aliasing [32].

Figura 1.4 Conversão analógico digital. Adaptada de [32].

A segunda etapa é atenuar os componentes de baixa frequência do sinal, prevenindo contra instabilidade numérica. Essa etapa denomina-se de pré-ênfase e é executada através do uso de filtros de primeira ordem dada pela Equação 1.1:

H(z) = 1 − az−1 (1.1)

Oppenheim et al. [32] revela que o valor mais comum que “a” assume é aproximadamente 0,95.

A terceira etapa é a extração de quadros da amostra do sinal. Isso ocorre porque o sinal é variante no tempo. Por isso, geralmente, define-se uma janela de largura suficiente para cobrir entre 10-45 ms das amostras que é movida ao longo do sinal da voz, com ou sem superposição entre janelas adjacentes [29].

Existem diversas formas de implementar o janelamento do sinal, a mais comum foi proposta por Oppenheim et al. [32], conhecida como janela de Hamming, definida por

(22)

1.4 ESTRUTURA DO DOCUMENTO 8

w(n) = 0, 54 − 0, 46 cos( 2nπ

Nw− 1) (1.2)

onde:

Nwé o tamanho da janela.

A última etapa, identificação de início e fim da fala (endpoint), evita o processamento dos segmentos onde não há voz, evitando carga computacional e economizando tempo, servindo como marco de início e fim de um segmento de voz. A determinação do endpoint deve ser feita de forma cuidadosa, pois os mínimos erros nesta estimação podem degradar o reconhecimento. Feito o pré-processamento, o sistema segue para a etapa da descrição da voz que é de suma importância para o reconhecimento da fala. É nessa etapa que são extraídos os atributos que serão utilizados nas etapas de treinamento e reconhecimento. No Capítulo 3 detalhamos essa etapa.

Por fim, é feita a classificação da fala que tem com objetivo fazer com que o dispositivo eletrônico identifique os padrões de voz de cada locutor provenientes da descrição da fala. Esses padrões são diferenciados por algoritmos como HMM ou Redes Neurais, identificando a instrução passada pelo locutor.

1.4

Estrutura do Documento

Além deste capítulo, esta dissertação é apresentada em mais cinco capítulos que estão orga-nizados da seguinte forma:

Capítulo 2: São apresentados os conceitos básicos da fonética e fonologia para o melhor entendimento do trabalho. Mostramos como a voz é produzida e explicamos sobre a variabilidade linguística.

Capítulo 3: São apresentados os descritores de voz MFCC, MFCC combinado com Wave-let Denoising, PLP, RASTA-PLP e PNCC, revelando as vantagens e desvantagens de cada descritor. Também revelamos os parâmetros utilizados no desenvolvimento desses descritores.

Capítulo 4: É apresentado o descritor de voz MINERS, do inglês Model Invariant to Noise and Environment and Robust for Speech, proposto neste trabalho.

Capítulo 5: É apresentada a metodologia experimental, bem como a análise dos resultados. Capítulo 6: São expostas as conclusões sobre a dissertação e sugestões de trabalhos futuros.

(23)

C

APÍTULO

2

Fonética e Fonologia

A fonética e a fonologia são as áreas da linguística que estudam os sons da fala. A fonética visa o estudo do ponto de vista articulatório, verificando como os sons são produzidos pelo aparelho fonador. Já a fonologia dedica-se ao estudo dos sistemas de sons, a sua descrição, estrutura e funcionamento [33].

Este capítulo descreve a produção da fala levando em consideração apenas aspectos articu-latórios e acústicos. Além disso, é explanado sobre como escolher as unidades fonéticas para um sistema de reconhecimento de voz.

2.1

Produção da voz

A fala é um meio de comunicação entre as pessoas. É através do som que vinculamos significados e interagimos socialmente, sem dar conta de sua organização interna [34].

A voz é produzida a partir de três grupos de órgão que apoiam essa produção, são eles: Sistema Respiratório, Sistema Fonatório e Sistema Articulatório. A Figura 2.1 apresenta os três sistemas citados.

Figura 2.1 Os Sistemas: Respiratório, Fonatório e Articulatório. Adaptada de [29].

Portanto, de forma simples, quando se fala, o ar é puxado dos pulmões, passa pela garganta e pelas cordas vocais, sai pela boca e é produzida a voz. Ao falar, o trato vocal muda de forma, produzindo diferentes sons [33]. O trato vocal é um tubo de ar fechado constituído pelo conjunto de órgãos responsáveis por produzir a fala. Alguns sons raros, como por exemplo, um clique na língua africana, são as exceções da regra. Tais sons são produzidos pela corrente de ar

(24)

2.2 FONÉTICA ARTICULATÓRIA 10

gerada por movimentos da laringe enquanto a glote está fechada, não fazendo uso da corrente de ar da respiração. A Figura 2.2 mostra o trato vocal adaptada de [33].

Figura 2.2 Trato vocal. Adaptada de [33].

A perfeita sincronia desses três grupos de órgãos possibilita a produção de uma voz enten-dível denominada de fala.

O conjunto limitado de sons que conseguimos produzir é classificado em quatro tipos. Os sons sonoros (ou vozeados) que representam o vibrar das cordas, os sons surdos (ou não voze-ados) onde as cordas vocais não vibram, apenas permanecem abertas, os sons explosivos que resultam do fechamento completo do trato vocal e os sons de excitação mista que combinam a vibração das pregas vocais (sons sonoros) com a excitação não vozeada (sons surdos) [33].

2.2

Fonética Articulatória

Com intuito de explorar os métodos para descrição, classificação e transcrição dos sons da fala, a fonética divide em três focos de estudos, que, segundo Ladefoged e Johnson [33] são:

• Fonética Articulatória: Descreve como a fala é produzida do ponto de vista articulatório e fisiológico.

• Fonética Auditiva: Compreende o estudo da percepção da fala.

• Fonética Acústica: Compreende o estudo das propriedades físicas dos sons da fala, a partir da sua transmissão do falante ao ouvinte.

(25)

2.2 FONÉTICA ARTICULATÓRIA 11

A presença ou ausência de obstrução na passagem de ar pela cavidade supraglotais, cavi-dade que engloba a oral, nasal e a faringe, produz sons que classificamos como: glides ou semi-vogais, vogais e consoantes. Caso o ar sofra obstrução o som é classificado como consoantes, caso contrário, é classificado como vogal. Entretanto, existem aquelas sons que a passagem do ar não são definidas, sendo classificados como glide ou semivogais [35].

Cada vogal ou consoante se diferenciam pela forma articulatória que são produzidas. Por conta disso, a Associação Fonética Internacional criou uma classificação desses segmentos conhecida como Alfabeto Fonético Internacional (IPA), nos quais vogais, consoantes e segmen-tos que não se enquadram como nenhum dos dois, são classificados de acordo a forma de articulação.

2.2.1 Formação das Vogais

A principal diferença entre a articulação das vogais e das consoantes está no fato de que para identificar a vogal precisa-se olhar a totalidade da cavidade oral, pois há uma ausência de obstrução à passagem do ar pela boca.

Para emitir uma vogal, o ápice da língua se desloca no interior do aparelho fonador tanto no eixo horizontal como no eixo vertical. Deslocando-se na horizontal, a língua vem para frente ou recua para o fundo da boca. Ao deslocar-se na vertical, a língua sobe ou desce. Todo esse deslocamento lembra um trapézio com a base menor para baixo. Os foneticistas chamam esse processo de deslocamento de trapézio vocálico [36]. A Figura 2.3 mostra o trapézio vocálico.

Figura 2.3 Trapézio vocálico. Adaptada de [36].

Foneticamente, as vogais podem ser classificadas de acordo a posição da língua e abertura bucal:

(26)

2.2 FONÉTICA ARTICULATÓRIA 12

• Posição horizontal da língua. • Posição dos lábios.

A posição vertical da língua faz com que as vogais sejam classificadas em alta, média e baixa. As vogais altas são aquelas em que a língua, seja em direção à parte anterior da boca ou à parte posterior, atinge a maior altura, como, por exemplo, as vogais [i] e [u]. As vogais médias mantêm a língua na posição entre a mais alta e em repouso (mais baixa), por exemplo, as vogais [e], [o]. Já na vogal baixa a língua mantém-se em posição de repouso; a vogal [a] é um exemplo [36].

Em relação à posição horizontal da língua, a mesma pode ir à direção anterior da boca ou na direção frontal, o que nos dá as vogais anteriores [i], [I] e [e]. Se a língua ficar em repouso, temos a vogal [a] classificada como central. Caso a língua recue na direção posterior da boca, temos as vogais [o], e [u], também denominadas de posteriores [35].

Quanto à posição dos lábios, temos as vogais arredondadas e as não-arredondadas. De acordo com a formação dos lábios, podemos identificar a qual se refere. Por exemplo, são arredondadas as vogais [o] e [u], e as não arredondadas as vogais [e], [a].

Na Figura 2.4 é mostrada a classificação das vogais de acordo a tabela IPA1.

Figura 2.4 Classificação das vogais de acordo a tabela IPA1.

2.2.2 Formação das Consoantes

Consoantes são classificadas de acordo ao modo e o lugar de articulação. Em [33], o modo articulatório das consoantes são classificados como:

• Oclusivas: O som é produzido por um bloqueio na corrente de ar. Exemplo: pato; • Nasais: O som é produzido com o bloqueio do ar na cavidade oral e o rebaixamento do

palatino, o qual permite a passagem de ar pelas narinas. Exemplo: dama;

• Fricativos: O som é produzido com o estreitamento de alguma parte do aparelho fonador, sofrendo fricção. Exemplo: f aca;

(27)

2.2 FONÉTICA ARTICULATÓRIA 13

• Africados: O som o produzido inicialmente pelo bloqueio da passagem de ar dentro da cavidade oral, sofrendo posteriormente uma obstrução que provoca fricção. Exemplo: Tiago;

• Laterais: A cavidade oral anterior bloqueia a passagem central do ar, permitindo apenas uma passagem lateral. Ex: labirinto, calha;

• Vibrantes ou vibrantes múltiplos: Caracterizados por batidas rápidas da língua no véu palatino;

• Vibrante simples ou tepe: Uma batida rápida da ponta da língua nos alvéolos dos incisos superiores, provocando uma rápida obstrução do ar. Ex: bravo;

• Retroflexo: O som é produzido pelo curvamento da ponta da língua para cima e para trás, como na pronúncia do “r” nos dialetos do interior de alguns estados como São Paulo; • Aproximantes: São sons formados acima da área das vogais, mas a passagem de ar é

maior que a pressão que causa a fricção.

No que diz respeito ao lugar da articulação, em [37] encontramos:

• Bilabial: Essa consoante é formada pela obstrução da passagem do ar que resulta no movimento de um lábio contra o outro, sendo que o lábio inferior é o articulador ativo e o lábio superior é o articulador passivo. Exemplo: /p/, /m/, /b/;

• Labiodental: O articulador ativo é o lábio inferior e o passivo são os dentes incisivos superiores. Exemplos: /f/, /v/;

• Dental: Nessa consoante, o articulador ativo é a língua (ápice ou lâmina), e seus articu-ladores passivos são os dentes incisivos superiores. Exemplo: data;

• Alveolar: São as consoantes cujo som é articulado no encontro da ponta da língua com os alvéolos dentários. O articulador ativo é a língua (ápice ou lâmina) e o passivo são os alvéolos. Exemplo: lata;

• Palatoalveolar: É produzido na região imediatamente posterior à região onde o som alve-olar é produzido;

• Alveopalatal: Esta consoante também é chamada de pós-velares. Onde o articulador ativo é a parte anterior da língua e o passivo é a parte medial do palato duro (céu da boca). Exemplos: tia, dia;

• Palatal: A sua pronúncia é formada pela aproximação ou o contato do dorso da língua com o palato duro. O articulador ativo é a parte média da língua e o passivo é a parte final do palato duro. Exemplo: palha;

• Velar: É formado pela aproximação ou o contato da língua com o palato mole (véu palatino). O articulador ativo é a parte posterior da língua e o passivo é o palato mole. Exemplo: gata, rata;

• Uvular: É produzida pela parte posterior da língua pressionando o fundo da cavidade oral (palato mole e úvula);

• Faringal: É produzida pela constrição da ponta da língua com a faringe;

• Glotal: Em sua pronúncia, o ponto de articulação é o glote que se comporta como articu-ladores. Exemplo: a palavra escarrar, pronunciando o /r/ ao mesmo tempo.

(28)

2.3 UNIDADES MENORES QUE PALAVRA 14

2.3

Unidades Menores que Palavra

Um reconhecedor de voz pode ser caracterizado, entre outros fatores, pela unidade fonética utilizada. Em um sistema de vocabulário pequeno (algumas dezenas de palavras) é comum utilizar as palavras como unidades fundamentais. Para um treinamento adequado destes siste-mas, deve-se ter um grande número de exemplos de cada palavra. Entretanto, para sistemas com vocabulários maiores, a disponibilidade de um grande número de exemplos de cada pala-vra torna-se inviável. A utilização de subunidades fonéticas, tais como: fonemas, sílabas, trifo-nes e difotrifo-nes são alternativas bastante razoáveis, pois agora é necessário ter vários exemplos de cada subunidade e não vários exemplos de cada palavra [38].

Os fonemas são as menores unidades fonéticas da língua que estabelecem papéis distinti-vos. Por exemplo: o /p/ e /b/ representam fonemas diferentes, pois diferenciam palavras como “basta” e “pasta”.

Os difones são unidades que englobam somente uma transição entre os fones resultando em descontinuidade relativamente pequena das palavras, visto que o meio dos fones é a sua região mais estável. Portanto, os difones possuem partes dos vários efeitos coarticulatórios da língua falada que afetam um fone inteiro [39].

Esses efeitos levaram à criação dos trifones que englobam um fone inteiro e suas transições à direita e à esquerda. Eles constituem um complemento aos difones, podendo solucionar os efeitos dinâmicos citados. A associação entre difones e trifones para cobrir efeitos contextuais deu origem à técnica chamada de polifones.

Existem dois critérios para definir qual unidade fonética utilizar: consistência e treinabili-dade. A consistência tem como característica uma determinação efetiva entre unidades distin-tas. As unidades devem ter características similares em sentenças diferentes. Já no critério da treinabilidade devem existir amostras suficientes para o treinamento e a criação de um modelo com bom desempenho nos testes. Sua importância reside no fato de os modelos atualmente usados no reconhecimento exigirem grandes quantidades de dados de treinamento [39].

Ao longo dos anos, vários trabalhos foram propostos na tentativa de explicar qual a melhor unidade fonética a utilizar. Dentre eles destacam-se:

• Malbos et al. [40] foram um dos primeiros trabalhos que utilizou Wavelets em sistemas de reconhecimento de voz. Os autores escolheram consoantes oclusivas (/p/, /k/, /t/, /b/, /g/ e /d/) aplicadas à língua francesa. A dificuldade apresentada foi o não reconhecimento na presença do ruído.

• Marchesi et al. [41] fizeram um estudo de reconhecimento das vogais orais do português brasileiro, utilizando as frequências fundamentais como descritores.

• Deshmukh et al. [42] utilizaram os parâmetros acústico-fonético no reconhecimento de voz.

• Rodrigues e Yehia [43] utilizaram as vogais orais do português para extrair parâmetros da fala.

• Farooq e Datta [44] utilizaram fonemas como unidade da fala e descreveram a voz com Wavelet Packets. Os mesmos utilizaram a base de voz TIMIT2, utilizando os fonemas: 2http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC93S1, Visto em Fevereiro, 2013.

(29)

2.3 UNIDADES MENORES QUE PALAVRA 15

/aa/, /ax/ /iy/, /v/, /dh/, /z/, /f/, /sh/, /s/, /b/, /d/, /g/, /p/, /t/ e /k/. Os autores tiveram como maior taxa de acerto o fonema /p/ com 83,52%.

Os trabalhos mostram a dependência do idioma do falante e a incapacidade de reconhecer a fala na presença de ruído.

A escolha de qual unidade utilizar é fundamental para conseguir descrever e classificar a fala. A melhor estratégia ainda é a utilização das unidades menores que a palavra, mesmo com a dificuldade de treinamento ocasionado pela separação das silábica [45].

(30)

C

APÍTULO

3

Descritores de Voz

Através da análise da fonética e fonologia discutidas no capítulo 2, podemos encontrar indicações presentes no sinal acústico que possibilitam a identificação de fonemas através de análise acústica. Estas indicações são conhecidas como atributos da fala [46].

Os atributos da fala são: frequência fundamental (pitch), energia, número de picos, taxa de cruzamento por zero e estrutura dos formantes. A frequência fundamental é determinada pelo número de vibração das cordas vocais. Nos homens a frequência fica em torno de 80 a 150 Hz e nas mulheres entre 150 a 250 Hz [47].

A energia tem o papel de medir a intensidade sonora. É através dela que é feita a diferencia-ção entre segmentos surdos e sonoros do sinal de voz, devido à amplitude nos segmentos surdos ser mais baixa do que nos segmentos sonoros. Para medir a energia, técnicas no domínio do tempo (análise temporal) ou no domínio da frequência (análise espectral) são utilizadas [46].

A estrutura dos formantes fornecem indicações de como os fonemas são formados. É atra-vés dela que é identificada a duração da fala, que depende da velocidade com que os fonemas são pronunciados, a pausa e a entonação da fala, que é a variação da frequência fundamental.

Os atributos da fala são responsáveis por diferenciar as palavras e são extraídos a partir de descritores como: MFCC, RASTA-PLP, do inglês RelAtive SpecTrAl - Perceptual Linear Predictive, e PNCC. Neste capítulo explanamos sobre os parâmetros da fala, destacando os descritores MFCC, RASTA-PLP e PNCC.

3.1

Parâmetros da Fala

Devido à variabilidade do microfone e ambiente, os descritores da voz podem apresentar dificuldades em representar, eficientemente, os atributos da fala. Esta dificuldade se dá devido à presença do ruído, distância do microfone, velocidade da pronúncia, período de silêncio, dentre outros. Para minimizar os efeitos faz-se necessário a utilização de um pré-processamento no sinal da voz, com intuito de deixar o sinal mais próximo da fala “limpa”.

Uma das etapas do pré-processamento é a utilização do janelamento na voz. O janelamento é necessário devido à natureza da variação do sinal da fala, sendo comum dividir em frames, realizada segundo os princípios da análise em curto prazo, dada pela Equação 3.1 [27].

Xn= ∞

m=−∞ x[m]w[n − m] (3.1) onde: 16

(31)

3.1 PARÂMETROS DA FALA 17

Xné o vetor de parâmetros em um tempo de análise “n”;

w[n − m] sequência de janelas deslocadas ao longo do tempo;

x[m] segmento das sequências de janelas deslocadas ao longo do tempo.

O objetivo da divisão em frame é suavizar as extremidades do sinal, ocasionado pelas altas frequências geradas pela segmentação. A janela de Hamming[48] é a mais utilizada para esta função, que pode ser matematicamente representada pela Equação 3.2.

w(n) = 0.54 − 0.46 cos(

N−1), n = 0,1,...,N-1

0, caso contrário (3.2)

O tamanho de cada janela e da sobreposição é escolhido de acordo ao experimento proposto. Neste trabalho foi utilizada uma janela de 25ms e uma sobreposição de 10ms definida expe-rimental. A Figura 3.1 mostra a representação em tempo discreto da janela de Hamming. Já a Figura 3.2 tem-se uma visão geral da sobreposição das janelas de Hamming aplicadas a um sinal.

Figura 3.1 Janelas de Hamming aplicadas a um sinal.

Jean-Baptiste Joseph Fourier afirmou que qualquer função periódica, independente do nível de complexidade, pode ser expressa como uma soma de senos e/ou cossenos de diferentes

(32)

3.1 PARÂMETROS DA FALA 18

Figura 3.2 Sobreposição das janelas de Hamming. Adaptada de [48].

frequências, cada uma multiplicada por um coeficiente diferente. Essa soma ficou conhecida como série de Fourier [49].

Fourier também propôs uma transformada que leva seu nome, transformada de Fourier. Essa transformada permite que funções não periódicas, mas cuja área sob a curva é finita, seja expressa como uma integral de senos e/ou cossenos multiplicada por uma função de pondera-ção. A Equação 3.3, mostra como obter a transformada de Fourier de uma função contínua f (t) de uma variável contínua, t, expressa por F(ω).

F(ω) = Z ∞ −∞ f(t)e− jωtdt (3.3) onde: ω = 2π µ ; µ = variável contínua; j=√−1; e− jωt = cos(ω) − jsen(ω).

A transformada inversa de Fourier é realizada para conseguir obter o sinal original após a execução da transformada Fourier:

f(t) = F−1(F(ω)) = 1 2π

Z ∞

−∞F(ω)e

jωtdt (3.4)

Nas Figuras 3.3 e 3.4 pode ser observada a aplicação da Transformada de Fourier na frase “The birch canoe slid on the smooth planks” gravada em ambiente sem ruído e com ruído a

(33)

3.1 PARÂMETROS DA FALA 19

Figura 3.3 Transformada de Fourier aplicada a frase “The birch canoe slid on the smooth planks”.

Figura 3.4 Transformada de Fourier aplicada a frase “The birch canoe slid on the smooth planks” com presença de ruído a 0dB.

(34)

3.2 MFCC E MFCC COM WAVELET DENOISING 20

0dB. Pode-se observar uma maior intensidade no sinal na Figura 3.4, ocasionado pelo ruído do ambiente.

Apesar de a Transformada de Fourier ser muito utilizada nos descritores da voz, ela permite apenas a análise de características no domínio da frequência, não possibilitando a completa determinação da relação espaço frequência, ou seja, a Transformada é capaz de revelar quais frequências estão no sinal, mas não onde elas se encontram [50]. Baseado nesta dificuldade, Dennis Gabor adaptou a Transformada de Fourier para ser aplicada em pequenas janelas deno-minada windowing the signal. Esta adaptação ficou conhecida como Short Time Fourier Trans-form(STFT) [29].

A STFT mostra informações entre o tempo e a frequência do sinal, sendo possível identifi-car quando e em que frequência o evento de um sinal ocorreu. A STFT é a mais aplicada nos estudos de reconhecimento da fala. A desvantagem da técnica é a incapacidade de redimensio-nar o tamanho da janela ao longo do sinal, isto é, quando definido o tamanho da janela ela será a mesma ao longo do sinal. As Figuras 3.5 e 3.6 mostram o espectrograma gerado pela STFT da frase “The birch canoe slid on the smooth planks” com ausência e presença de ruído a 0dB gravado em um aeroporto. O tons avermelhados no espectrograma revela a intensidade sonora da amostra, podemos ver que na Figura 3.5 (amostra sem ruído) a intensidade sonora é menor que na Figura 3.6 (amostra com ruído).

Figura 3.5 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks”.

3.2

MFCC e MFCC com Wavelet Denoising

Os coeficientes Mel-Cepstrais surgiram devido aos estudos na área de psicoacústica (ciên-cia que estuda a percepção auditiva humana), os quais revelam que a percepção humana das frequências de tons puros não seguem uma escala linear. Através dessa análise, surgiu a ideia de

(35)

3.2 MFCC E MFCC COM WAVELET DENOISING 21

Figura 3.6 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks” com presença de ruído a 0dB.

serem definidas frequências subjetivas de tons puros. Para cada tom com frequência f, medida em Hz, define-se um tom subjetivo medido em uma escala que se chama escala mel [29].

O Mel é uma unidade de medida da frequência percebida de um tom. Como referência, definiu-se a frequência de 1 kHz, com potência 40 dB acima do limiar mínimo de audição do ouvido humano, como 1000 mels. Os outros valores subjetivos foram obtidos através de experimentos, onde foi observado que a escala em Hz e a escala em Mel são aproximadamente linear abaixo e logarítmica acima dos 1000Hz. Logo, a escala Mel faz com que as faixas de frequência sejam posicionadas em uma escala logarítmica, a qual se aproxima da resposta do sistema auditivo humano [51].

As equações que fazem a conversão da escala Mel para Hz e Hz para Mel são mostradas nas Equações 3.5 e 3.6, respectivamente.

M= 1127, 01048 loge  1 + f 700  (3.5) f = 700e1127,01048m − 1  (3.6) Além da escala Mel, para definir os coeficientes do MFCC, faz-se necessário aplicar a Transformada Rápida de Fourier (FFT - Fast Fourier Transform), o banco de filtro triangular espaçados pela escala Mel e a Transformada Discreta do Cosseno (DCT - Discrete Cosine Transform) [52]. A Figura 3.7 mostra uma adaptação de [52] do diagrama para o cálculo do MFCC.

(36)

3.2 MFCC E MFCC COM WAVELET DENOISING 22

Figura 3.7 Diagrama para o cálculo do MFCC. Adaptada de [52].

Inicialmente, divide-se o sinal de voz em janelas. Para cada trecho do sinal obtido, calcula-se a Transformada Rápida de Fourier.

O algoritmo FFT mais conhecido foi desenvolvido por Cooley-Tukey [53] para diminuir a complexidade computacional da Transformada de Fourier [29]. A FFT precisa de O(nlogn) operações enquanto que a Transformada de Fourier de O(n2) operações. Utiliza-se FFT no algoritmo do MFCC para obter os coeficientes no domínio da frequência.

A maior utilidade da escala Mel está na criação do banco de filtro constituído por sobrepo-sição de filtros triangulares. Estes filtros possuem frequências centrais espaçadas linearmente e a largura de banda é espaçada conforme a escala Mel. Para a fala humana são utilizados entre 12 a 30 filtros [28]. A Figura 3.8 foi gerada com o auxílio do software MatLab1 e mostra o banco de filtros triangular composto por 20 filtros, frequência do sinal de voz de 8000 Hz e duração de 256 ms para cada janela.

0 1000 2000 3000 4000 5000 6000 7000 8000 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Frequência (Hz) Magnitude do Filtro

Banco de Filtro Triangular

Figura 3.8 Banco de Filtro Triangular.

1Criado pela MathWorks Inc., o MatLab é um software que permite: a manipulação de matrizes, a criação de

gráficos de funções e de dados, a criação e execução de algoritmos, além de possuir uma vasta gama de funções pré-definidas.

(37)

3.2 MFCC E MFCC COM WAVELET DENOISING 23

A última etapa para obter os coeficientes do MFCC é utilizando a DCT [54]. Esta técnica é utilizada para compressão dos dados fazendo uso apenas de números reais. Como resultado é possível ver o acúmulo dos coeficientes mais significativos no início do vetor, deixando os restantes dos valores com pouca ou nenhuma informação. A Equação 3.7 mostra o cálculo da DCT. X(k) = N−1

n=0 x(n)cos[π n(n + 1 2)k] (3.7) onde:

X(k)são os coeficientes resultantes da transformada discreta do cosseno; x(n)o sinal da fala;

N o número de coeficientes.

Segundo Patel e Rao [52], de modo simplificado, podem-se obter os coeficientes do MFCC através da seguinte equação:

c(n) = M

k=1 log10X(k) cos(N(k− 1 2 ) π M) (3.8) onde: 1≤ n ≤ N;

X(k)é a energia na saída do k-ésimo filtro; Mé o número de filtros;

N é o número de coeficientes.

Trabalhos como Amita e Bansal [55] e Hossan et al. [56] mostram o descritor MFCC apli-cado a amostra ruidosa e sem ruído. O primeiro autor aplica o MFCC em uma base indiana, enquanto que o segundo autor modifica a etapa DCT do descritor MFCC propondo a utilização da técnica chamada de DDCT, do inglês Distributed Discrete Cosine Transform. Os autores revelam, em seus experimentos, o baixo poder de descrição do MFCC quando exposto a amos-tra ruidosa. Devido essa dificuldade, novas técnicas foram propostas para descrever a voz com intuito de aumentar a taxa de reconhecimento da fala em ambientes ruidosos.

Nesse sentido, fizemos uma combinação do descritor MFCC com o Wavelet Denoising (Subseção 4.2.5) para lidar com amostras ruidosas. A Figura 3.9 mostra como a combinação foi realizada.

Figura 3.9 Etapas para a combinação do descritor MFCC com o Wavelet Denoising.

O MFCC foi gerado para toda base NOIZEUS (Noisy Speech Corpus), discutida no Capí-tulo 5, com seguintes parâmetros:

(38)

3.2 MFCC E MFCC COM WAVELET DENOISING 24

1. Utilização do sinal da voz amostrado em vários ambientes e como diferentes níveis de ruído.

2. Janela de Hamming com 25ms e sobreposição de 10ms. 3. Utilização de 20 filtros no banco de filtros triangulares.

4. Utilização de apenas 12 coeficientes do MFCC. Cada amostra gerava 39 coeficientes: 12 parâmetros mel-cepstrais 12 derivadas primeira (delta-mel-cepstrais) e 12 deriva-das segunda (delta-delta-mel-cepstrais) dos parâmetros mel-cepstrais, 1 parâmetro de energia, 1 derivada primeira (delta-energia) e 1 derivada segunda (delta-delta-energia) do parâmetro de energia. A escolha desse número de coeficientes é devido ao fato do decréscimo da energia ao longo dos coeficientes, provocando uma suavização no sinal, deixando de ser representativo. A Figura 3.10 mostra o decréscimo da energia para a frase “The birch canoe slid on the smooth planks”.

Figura 3.10 Decréscimo da energia dos coeficientes MFCC para a frase “The birch canoe slid on the smooth planks”.

As Figuras 3.11 e 3.12 mostram os resultados da aplicação desses parâmetros para amostras sem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birch canoe slid on the smooth planks”. Em cada figura, inicialmente, é mostrada o sinal de voz. Podemos observar que na amostra com sinal ruidoso há uma maior intensidade da energia ao longo do sinal. Em seguida, é calculado a energia do banco de filtro, etapa de conversão para frequência mel, e por fim obtemos os coeficientes do MFCC.

O MFCC com Wavelet Denoising também foi aplicado a toda base NOIZEUS utilizando os parâmetros:

1. Utilização do sinal da voz amostrado em vários ambientes e como diferentes níveis de ruído.

2. Janela de Hamming com 25ms e sobreposição de 10ms.

3. Decomposição do sinal em cinco níveis utilizando Wavelet Daubechies. 4. Utilização de 20 filtros no banco de filtros triangulares.

(39)

3.3 PLP E RASTA-PLP 25

Figura 3.11 Descrição da fala utilizando o MFCC sem presença de ruído.

5. Utilização de apenas 12 coeficientes do MFCC. Cada amostra gerava 39 coeficientes: 12 parâmetros mel-cepstrais 12 derivadas primeira (delta-mel-cepstrais) e 12 derivadas segunda (delta-delta-mel-cepstrais) dos parâmetros mel-cepstrais, 1 parâmetro de ener-gia, 1 derivada primeira (delta-energia) e 1 derivada segunda (delta-delta-energia) do parâmetro de energia

3.3

PLP e RASTA-PLP

O descritor de voz PLP [57], do inglês Perceptual Linear Predictive, também foi baseado nos princípios da psicoacústica. Esse descritor utiliza um banco de filtros, com objetivo de analisar apenas as frequências do sinal, não fazendo uso da análise temporal.

(40)

3.3 PLP E RASTA-PLP 26

Figura 3.12 Descrição da fala utilizando o MFCC na presença de ruído a 0dB gravado em um aeroporto.

ψ (z) =        10(z−zc+0,5), se − 2, 5 < z − z c< −0, 5 1, se − 0, 5 ≤ z − zc≤ 0, 5 10−2,5(z−zc−0.5), se 0, 5 < z − z c< 1, 3 0, se − 2, 5 ≥ z − zc≥ 1, 3 (3.9) onde: ψ (z) bandas críticas; z− zcfrequências centrais.

A característica do PLP é fazer uma boa aproximação das áreas com maior concentração de energia no sinal, desprezando as baixas energias. Segundo Junqua et al. [58], para obter os coeficientes do PLP são necessários:

1. Passar o sinal da voz por filtro passa-baixa anti-aliasing antes de amostrar o sinal. 2. Dividir o sinal em janelas.

(41)

3.3 PLP E RASTA-PLP 27

3. Aplicar a FFT em todas as janelas, obtendo o espectro da potência de tempo-curto do sinal da voz.

4. Converter o espectro para a escala de frequência utilizado no PLP, frequência Bark [59], que vai de 1 a 24 Barks, correspondendo às primeiras 24 bandas-críticas do ouvido humano: Ω(w) = 6ln[( w 1200π) + r ( w 1200π) 2+ 1] (3.10) onde:

Ω(w) é a frequência na escala Bark; wé a frequência em rad/s.

A representação das bandas-críticas pode ser vistas na Figura 3.13.

Figura 3.13 Representação das bandas-críticas. Adaptada de [60].

5. Convoluir o espectro utilizando o banco de filtros. São utilizados filtros sobrepostos para obter um espectro similar ao espectro de potência de bandas-críticas, de acordo a função:

(42)

3.3 PLP E RASTA-PLP 28

onde:

Θ(Ωi) banco de filtros;

Ω frequência Barks;

P(Ω − Ωi) frequências Barks centrais;

ϒ(Ω) bandas-críticas.

6. Pré-Enfatizar as bandas-críticas utilizando curvas de equalização de sonoridade, dada pelas Equações 3.12 e 3.13:

Ξ(Ω(w)) = E(w)Θ(Ω(w)) (3.12)

onde:

Ξ(Ω(w)) curva de equalização de sonoridade;

E(w) = (w

2+ 56, 28x106)w4

(w2+ 6, 3x106)2(w2+ 0, 38x109) (3.13)

Θ(Ω(w)) é a saída do k-ésimo filtro; wé a frequência em rad/s;

Ω(w) é a frequência na escala Bark correspondente à frequência w.

A curva de Pré-Ênfase pode ser vista na Figura 3.14.

7. É aplicada uma raiz cúbica no espectro de bandas críticas pré-enfatizado, simulando a regra de potência do sistema auditivo humano [60], ou seja, a relação não linear entre a intensidade sonora e sua percepção subjetiva. Esta etapa promove uma compressão da amplitude do espectro, reduzindo a variação da amplitude das bandas-críticas.

Φ(Ω) = Ξ(Ω) 1 3 (3.14) onde: Φ(Ω) compressão da amplitude; Ω frequência Barks;

Ξ(Ω(w)) curva de equalização de sonoridade.

8. Calcular a Transformada Inversa de Fourier. Obtendo assim os valores de autocorrelação que serão os coeficientes do PLP.

(43)

3.3 PLP E RASTA-PLP 29

Figura 3.14 Curva de Pré-Ênfase. Adaptada de [60].

O RASTA-PLP [61], do inglês RelAtive SpecTrAl - Perceptual Linear Predictive, foi desen-volvido com objetivo de lidar com amostras ruidosas, independência do microfone e locutor. Para isso, esta técnica utiliza processamento temporal, ao contrário das técnicas MFCC e PLP. Processamento temporal leva em consideração o intervalo de tempo mínimo para o proces-samento de dois ou mais estímulos acústicos [62]. Com isso, observa-se que o espectro do sinal da voz sem ruído varia a uma razão diferente daquele sinal com presença de ruído, conseguindo lidar com certos tipos de ruídos [63].

Segundo Hermansky et al. [61], a técnica RASTA-PLP compreende as mesmas etapas do PLP, acrescentando três novas etapas:

1. Fazer uma transformada na amplitude, através de uma técnica de compressão (função logarítmica é a mais utilizada).

2. Filtrar o sinal através do filtro IIR, do inglês Infinite Impulse Response, com função de transferência:

H(z) = 0, 1z4(2 + z

−1− z−3− 2z−4

1 − 0, 98z−1 ) (3.15)

3. Realizar a transformação inversa da técnica de compressão. A Figura 3.15 mostra as etapas do algoritmo RASTA-PLP.

A desvantagem das técnicas PLP e RASTA-PLP está no baixo poder de classificação para amostras com ruídos variando entre 0dB a 10dB e a dependência do ambiente.

Assim como fizemos com o MFCC, o RASTA-PLP também foi comparado com o descritor MINERS. Os parâmetros utilizados foram baseados em [64]:

(44)

3.3 PLP E RASTA-PLP 30

Figura 3.15 Etapas do algoritmo RASTA-PLP.

1. Janela de Hamming com 25ms e sobreposição de 10ms. 2. Utilização de 8 coeficientes.

(45)

3.4 PNCC 31

sem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birch canoe slid on the smooth planks”.

Figura 3.16 Extração de características com RASTA-PLP.

Figura 3.17 Extração de características com RASTA-PLP em amostra ruidosa com 0dB.

3.4

PNCC

O PNCC, do inglês Power-Normalized Cepstral Coefficient, é um descritor de voz derivado do MFCC. O mesmo foi desenvolvido com o objetivo de obter características da voz que seja robusto em relação à variação acústica, reverberação e com a complexidade computacional semelhante ao MFCC e PLP [65]. A reverberação ocorre quando o som refletido atinge o observador no instante em que o som está se extinguindo, ocasionando o prolongamento da sensação auditiva.

(46)

3.4 PNCC 32

1. Substituição da escala Mel pela escala ERB, do inglês Equivalent Rectangular Bandwidth, e filtros gammatone [66]. A função gammatone é expressa no domínio do tempo por:

g[t] = atn−1e−2πcbtcos(2π f bt+ φ ) (3.16) onde: aé a amplitude; né a ordem do filtro; cbé o comprimento da banda; fbé a frequência central da banda; φ é a fase.

Na Figura 3.18 é mostrado um exemplo de banco de filtros gammatone.

Figura 3.18 Banco de Filtros Gammatone. Adaptada de [66].

A Equação 3.17 é responsável por converter a escala de Hertz para a escala ERB:

e= ERB( fb) = 24, 7(1 + 0, 00437 fb) (3.17) 2. Média das energias do sinal. Para reduzir o ruído nas amostras, é necessário aprofun-dar os vales do sinal, removendo as grandes elevações, pois para certos tipos de ruído, como por exemplo o ruído contínuo estacionário variando até 3 dB, costuma ser mais estacionário que o sinal da voz [66].

(47)

3.4 PNCC 33

3. Substituição da função logarítmica pela função de potencialização. A função logarítmica apresenta uma grande inclinação para valores próximos de zero, sendo bastante sensível a ruído quando aplicado a pequenos valores de energia. O algoritmo MFCC é um exemplo de técnica que usa função logarítmica e não apresenta bons resultados perante amostras ruidosas. Já a função de potencialização, cresce mais suavemente.

A estrutura do PNCC é visto na Figura 3.19.

A primeira etapa para obter os coeficientes do PNCC é chamada de Pré-ênfase. Nesta etapa é aplicado o filtro H(z) = 1 − 0, 97z−1 em todo sinal da voz. Em seguida aplica-se STFT [67], do inglês Short Time Fourier Transform, em todo o sinal (já dividido em janelas) obtendo o espectro.

O espectro é dividido em bandas através dos filtros gammatone, estimando e eliminado o ruído. As frequências centrais dos filtros gammatone são separadas linearmente através da escala ERB, variando entre 200Hz a 8000Hz. O ERB tem como característica fornecer uma boa aproximação do sistema auditivo humano.

A energia de cada banda é calculada utilizando a Equação 3.18:

Porg(m, l) = Z π 0 |X(m; ejw)Hl(ejw)|2dω (3.18) onde: mé o número de banda;

lé o número de canais gammatone; Hl(ejw) frequência de cada canal “l”;

X(m; ejw) é o espectro da STFT de cada janela.

Por fim, é executado o algoritmo DCT, para acumular os coeficientes mais significativos no início do vetor, obtendo os coeficientes.

A Figura 3.20 faz um comparativo entre a estrutura do MFCC, RASTA-PLP e PNCC. A desvantagem, em relação aos descritores MFCC e RASTA-PLP, do descritor PNCC está no baixo poder de classificação para amostras sem ruído.

Os parâmetros utilizados para o desenvolvimento do PNCC foram: 1. Janela de Hamming com 25ms e sobreposição de 10ms;

2. FFT com 1024 pontos; 3. 40 filtros gammatone; 4. 40 coeficientes.

As Figuras 3.21 e 3.22 mostram os resultados da aplicação desses parâmetros para amostras sem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birch canoe slid on the smooth planks”. Inicialmente, geramos o espectrograma para o sinal da voz. Essa etapa tem como objetivo mostrar as diferenças de frequência entre um sinal limpo e um sinal ruído. Em seguida é aplicado os filtros gammatone e por fim obtemos os coeficientes do PNCC.

(48)

3.4 PNCC 34

(49)

3.4 PNCC 35

Figura 3.20 Estrutura do MFCC, RASTA-PLP e PNCC.

Figura 3.21 Espectrograma do algoritmo PNCC para amostra sem ruído. A frase pronunciada foi “The birch canoe slid on the smooth planks”.

(50)

3.4 PNCC 36

Figura 3.22 Espectrograma do algoritmo PNCC em amostra ruidosa com 0dB. A frase pronunciada foi “The birch canoe slid on the smooth planks”.

(51)

C

APÍTULO

4

Método Proposto: MINERS

No capítulo anterior, foram abordadas as técnicas de extração de características mais utili-zadas e que serviram de base para o desenvolvimento do descritor MINERS (Model Invariant to Noise and Environment and Robust for Speech) proposto.

O MINERS tem como objetivo extrair características robustas da voz, independente do ambiente e da presença ou ausência do ruído. O descritor foi desenvolvido seguindo as etapas:

1. Classificação do sinal como ruidoso ou não;

2. Utilização da Transformada Wavelet [68] combinada com o PNCC2; 3. Utilização da técnica MFCC.

A Figura 4.1 mostra o processo decisório do descritor MINERS. Já a Figura 4.2 mostra as etapas da combinação do Wavelet com PNCC2 (Subseção 4.2.5). Chamamos de PNCC2 o descritor PNCC com mascaramento temporal. Neste capítulo descrevemos cada etapa desse novo descritor de voz.

Figura 4.1 Fluxograma do algoritmo MINERS.

4.1

Classificação do sinal como ruidoso ou não

Para classificar um sinal como ruidoso ou não, utilizamos a imagem da representação do sinal de voz. Por exemplo, considere um sinal de voz ao qual é adicionado um ruído de 5dB.

(52)

4.1 CLASSIFICAÇÃO DO SINAL COMO RUIDOSO OU NÃO 38

Referências

Documentos relacionados

átomos seriam constituídos por um núcleo muito denso, carregado positivamente, onde se concentraria praticamente toda a massa. Ao redor desse centro positivo, ficariam

(32) para avaliar a ocorrência de Campylobacter em fezes de frango, 35% das 404 amostras apresentaram resultado positivo, sendo possível afirmar que as condições de

Este questionário é uma das etapas de um conjunto de procedimentos e técnicas de pesquisa para coleta de dados com o objetivo de investigar a existência de

Os pacientes portadores de fissuras labiais e palatinas precisam de cuidados especiais com tratamentos voltados para todos os níveis de atenção de complexidade,

Deste modo, o principal objetivo deste projeto aplicado é obter um conhecimento mais aprofundado dos programas transfronteiriços e de coesão, e proceder a uma

magna foram realizados ensaios de controle de sensibilidade com cloreto de potássio (KCl), como pode ser observado mais detalhadamente no item 4.5.1.. 4.2.2

3Es – Eficiência, Eficácia e Efetividade AACC – Associação de Apoio às Comunidades do Campo do Rio Grande do Norte ANA – Agência Nacional de Águas AP1MC – Associação

Os indicadores de desempenho dos clientes permitem que as empresas se voltem para resultados relacionados à satisfação, fidelidade, retenção, captação e