2014.1 Alan Carlos Passos e Silva

(1)

ALAN CARLOS PASSOS E SILVA

RECONHECIMENTO DE VOGAIS DA LÍNGUA PORTUGUESA UTILIZANDO ESTIMAÇÃO DE FORMANTES PARA TRADUÇÃO EM LIBRAS.

FEIRA DE SANTANA 2014

(2)

RECONHECIMENTO DE VOGAIS DA LÍNGUA PORTUGUESA UTILIZANDO ESTIMAÇÃO DE FORMANTES PARA TRADUÇÃO EM LIBRAS.

Trabalho de Conclusão de Curso apresentado ao Colegiado de Engenharia de Computação como requisito parcial para obtenção do grau de Bacharel no Engenharia de Computação da Universidade Estadual de Feira de Santana.

Orientador: Prof. Dr. Edgar Silva Júnior

FEIRA DE SANTANA 2014

(3)

(4)

Essa monografia não seria possível sem a ajuda de muitas pessoas que eu gostaria de agradecer.

Primeiramente a minha noiva Fernanda pelo incentivo, amor, companheirismo, paciência e compreensão em todos esses anos que não pude dar a atenção necessária.

Gostaria de agradecer também ao meu pai e minha mãe pelo amor incondicional e por orientar o caminho a ser trilhado.

Ao meu irmão Wendel pelo apoio e pelas intervenções nos momentos tensos em frente ao computador.

Aos meus amigos em especial Ronaldo, Marcio, Marcos pelos momentos de diversão fundamentais nessa jornada.

Gostaria também de mostrar meu profundo agradecimento a Professora Dra. Gabriela Rezende e a Professora Dra. Claudia Pinto pela confiança, conselhos e incentivos em momentos críticos.

Ao Professor Dr. Edgar Silva pela orientação, apoio, amizade e paciência. Ao Professor Dr. Matheus Pires pelo fornecimento de materiais e sugestões. À todos os voluntários e aos meus estimados amigos e colegas de curso. Não poderia esquecer de agradecer minha cunhada Caroline por me ajudar no empréstimo de livros na biblioteca.

(5)

O reconhecimento de fala desperta o interesse de cientistas de todo o mundo há décadas. O reconhecimento de vogal é uma das primeiras etapas para realização de um sistema de reconhecimento de fala, e uma boa precisão desse sistema está intimamente relacionada a uma boa desempenho de seus módulos, principalmente do reconhecimento de vogais. Os sistemas de reconhecimento de fala têm inúmeras aplicações, entre elas o suporte a pessoas portadoras de deficiência. Diante disso, foi proposta um sistema para o reconhecimento das cinco vogais do português brasileiro e a partir da sua saída fazer a conversão para a Linguagem Brasileira de Sinais (LIBRAS). O grande desafio dos sistemas de reconhecimento de fala é sua interdisciplinaridade, além das diversas variações ocorridas devido às características intrínsecas de cada pessoa e do ambiente em que estão expostas. O sistema em questão utiliza técnicas de pré-processamento do sinal de voz; Cepstrum para identificação do sexo do locutor; Linear Predicition Coding (LPC) para extração das formantes; e Redes Perceptrons de múltiplas camadas (PMC) para reconhecimento de padrões. Os resultados obtidos com esse projeto foram considerados satisfatórios, visto que a taxa de precisão de acertos apresentada foi alta (maior que 98%).

(6)

Speech recognition arouses the interest of scientists from around the world for decades. The vowel recognition is one of the first steps towards realization of a speech recognition system and a good precision of this system is closely related to good performance of its modules, mainly the vowel recognition . The speech recognition systems have several applications, including supporting for people with disabilities. Therefore, it was proposed an software to recognize the five vowels in Brazilian Portuguese and its output convert to Brazilian Sign Language (LIBRAS). The great challenge of speech recognition systems is their interdisciplinarity, in addition to several variations occurred due to intrinsic features of each person and of the environment in which they are exposed. The system in question uses the techniques of preprocessing of the speech signal Cepstrum for identifying the genre of the speaker; Linear Predicition Coding (LPC) for the extraction of formants; and Neural Network Multilayer Perceptron (MLP) for pattern recognition . The results from this project were considered satisfactory , since the accuracy rate of correct answers given was high (most than 98%).

(7)

Figura 1 A esquerda as cordas vocais fechadas quando, por exemplo, ingerimos um alimento. No centro cordas vocais vibrando (som vozeado). A direita as cordas vocais estão abertas (som não vozeado). 16

Figura 2 Anatomia da produção da fala humana. 16

Figura 3 Processo da Produção da fala simplificado. 17

Figura 4 Mapeamento entre escala real e escala em mel. 18

Figura 5 Um modelo fonte-filtro simplificado. 19

Figura 6 Modelo fonte-filtro simples. Onde e[n] é a sinal de excitação, g[n] é a resposta ao impulso do modelo de pulso glotal. u[n] é a saída. 19 Figura 7 Modelo de pulso glotal de Rosenberg. 0 até b fase de abertura das

cordas vocais; b até c fechando as cordas vocais; c até T cordas vocais fechadas. O ciclo glótico corresponde de 0 até T. 20

Figura 8 Espectro do pulso glotal da Figura (7). 20

Figura 9 Um modelo de tubo para o trato vocal. 21

Figura 10 Modelo da produção de fala em tempo discreto e sua correspondência

fisiológica. 22

Figura 11 Modelo de síntese de fala baseado no modelo de predição linear onde u[n] é o sinal de excitação (trem de impulso ou ruído); G é o ganho; H(z) a função transferência (4); e s[n] é o sinal de saída. 22

(8)

Figura 14 Janela Hamming para N = 65. Por conveniência a janela foi desenhada como uma função contínua. Entretanto, trata-se de uma sequência de valores inteiros como descreve a Equação (39). 29 Figura 15 Sobreposição da janela de Hamming sobre um sinal de voz. 29 Figura 16 Exemplo de zona de ressonância. Fc é a frequência central e B é a

largura de banda. 30

Figura 17 Espectro LPC da vogal /a/ falada por um adulto do sexo masculino. 30 Figura 18 Deferentes configurações da língua e lábios ao pronunciar as vogais

orais. 31

Figura 19 Textos somente com consoantes e somente com vogais. 32

Figura 20 Alfabeto LIBRAS. 33

Figura 21 Neurônio Artificial. 35

Figura 22 Função logística. 36

Figura 23 Função tangente hiperbólica. 36

Figura 24 Rede Perceptron Multicamadas. 37

Figura 25 Classificação de padrões em regiões disjuntas e não convexa. 38

Figura 26 Diagrama de blocos do sistema. 39

(9)

Figura 29 Estágios do pré-processamento. 41

Figura 30 Filtro Passa Faixa. 42

Figura 31 Fluxograma para retirar silêncio. 43

Figura 32 Sinal não normalizado. 44

Figura 33 Sinal normalizado. 45

Figura 34 Processo de extração dos parâmetros da fala. 47 Figura 35 Rede PMC. Onde w é peso sináptico e b é limiar de ativação. 48 Figura 36 Arquivo de treinamento. Onde 10000 corresponde a vogal /a/; 01000 a

vogal /E/; 00100 a vogal /i/; 00010 a vogal /o/; 00001 a vogal /u/. 48

Figura 37 Representação da letra a na LIBRAS. 50

Figura 38 Tela inicial do software de reconhecimento de vogais. 51

Figura 39 Gravando áudio. 52

Figura 40 Gravando áudio. 53

Figura 41 Valores das formantes para cada segmento. Neste caso foram 17

segmentos analisados. 54

Figura 42 Espectro LPC da vogal /E/. 54

(10)

Figura 45 Erro na determinação da vogal /o/. O software exibiu como resultado a

vogal /E/. 57

(11)

Tabela 1 Vogais Orais. 31 Tabela 2 Exemplo do processo de reconhecimento da vogal /u/. 49 Tabela 3 Teste realizados com pessoas do sexo feminino. ‘V’ significa que foi

reconhecida a vogal corretamente e ‘F’ indica que o resultado exibido

pelo software foi errado. 56

Tabela 4 Teste realizados com pessoas do sexo masculino. ‘V’ significa que foi reconhecida a vogal corretamente e ‘F’ indica que o resultado exibido

(12)

LPC Linear Predictive Coding

FIR Finite Impulse Response

LIBRAS Língua Brasileira de Sinais RNAs Redes Neurais Artificiais

PMC Perceptron de Múltiplas Camadas

MLP Multilayer Perceptron

(13)

1 INTRODUÇÃO. . . 13

2 FUNDAMENTAÇÃO TEÓRICA . . . 15

2.1 O PROCESSO DE PRODUÇÃO DA VOZ . . . 15

2.2 FREQUÊNCIA FUNDAMENTAL . . . 17

2.3 PITCH . . . 18

2.4 MODELO FONTE-FILTRO DE PRODUÇÃO DE FALA . . . 18

2.5 PREDIÇÃO LINEAR . . . 23

2.6 ESTIMAÇÃO DA FREQUÊNCIA FUNDAMENTAL . . . 26

2.7 FILTRO PRÉ-ÊNFASE . . . 27 2.8 JANELAMENTO . . . 28 2.9 FORMANTE . . . 29 2.10 VOGAIS . . . 31 2.11 LIBRAS . . . 32 2.12 ESTIMAÇÃO DE FORMANTE . . . 33

2.13 REDES NEURAIS ARTIFICIAIS. . . 34

2.13.1 NEURÔNIO ARTIFICIAL . . . 34

2.13.2 PERCEPTRON DE MÚLTIPLAS CAMADAS . . . 36

3 METODOLOGIA . . . 39

3.1 AQUISIÇÃO DE VOZ . . . 39

3.2 PRÉ-PROCESSAMENTO . . . 40

3.2.1 FILTRO PASSA-FAIXA . . . 41

3.2.2 RETIRAR SILÊNCIO . . . 42

3.2.3 VERIFICAÇÃO DA QUANTIDADE DE AMOSTRA . . . 43

3.2.4 NORMALIZAÇÃO . . . 44

3.2.5 SEGMENTAÇÃO E JANELAMENTO . . . 45

3.2.6 PRÉ-ÊNFASE . . . 45

3.3 EXTRAÇÃO DOS PARÂMETROS DA FALA . . . 45

3.4 CLASSIFICAÇÃO DAS VOGAIS E BANCO DE DADOS . . . 47

3.5 REDE NEURAL . . . 47

3.6 RECONHECIMENTO DA VOGAL . . . 48

3.7 TRADUÇÃO EM LIBRAS. . . 49

(14)

4.2 TESTES E RESULTADOS DO RECONHECIMENTO DE VOZ . . . 55 5 CONCLUSÃO E TRABALHOS FUTUROS. . . 59 REFERÊNCIAS . . . 60

(15)

1 INTRODUÇÃO

A fala tem como seu principal objetivo a comunicação, isto é, a transmissão de mensagens entre um falante e um ouvinte (RABINER; SCHAFER, 1978). Ela por excelência nos distingue dos outros seres vivos e permite-nos verbalizar pensamentos, emoções, opiniões, além de ser parte integrante de nossa identidade, pois permite mesmo que intuitivamente identificar alguém pelo simples fato de chamar o nome.

A comunicação por fala é uma das básicas e mais importantes capacidades possuídas pelo ser humano. A habilidade de adquirir e produzir a linguagem de forma complexa são as duas principais características que diferenciam os seres humanos de outros animais e essa troca de informações desempenha um papel muito importante em nossas vidas (FURUI, 2001).

Segundo Furui (2001), embora nós, possivelmente, recebemos mais estímulos externos através dos olhos que através dos ouvidos, a comunicação visual entre dois indivíduos é quase que ineficaz se comparado com as possibilidades da comunicação por fala.

A invenção revolucionária do telefone por Alexander Granh Bell marcou a época mais importante da história da comunicação. Desde então, a fala foi tratada como alvo de cientistas e engenheiros objetivando a criação de sistemas mais eficientes e eficazes para a comunicação entre humano-humano e humano- máquina (FURUI, 2001; RABINER; SCHAFER, 2011).

O reconhecimento de fala por máquinas tem sido alvo de pesquisas há mais de quatro décadas, uma vez que o homem sempre teve o desejo de comunicar-se com as máquinas através da voz (RABINER; JUANG, 1993). Uma prova disso são os filmes de ficção científica como por exemplo, o filme “A Space Odyssey” onde o computador HAL era capaz de conversar, bem como o filme “Real Steel”, onde o robô Atom era capaz de entender e executar comandos provenientes da voz. Entretanto, apesar dos enormes esforços investidos na criação desse tipo de máquina, ainda não há uma máquina que possa entender qualquer frase sobre qualquer assunto por todos os falantes em todos os ambientes.

A tecnologia de reconhecimento de fala é diferente do reconhecimento de voz; esse último pode ser definido também como reconhecimento de locutor, ou seja, verifica a identidade de quem está falando. Já o reconhecimento de fala consiste em gerar, a partir de um sinal acústico, a representação correspondente que um computador seja capaz de entender.

(16)

As aplicações para os sistemas de reconhecimento de fala são muitas e variadas (RABINER; SCHAFER, 1978) como por exemplo, a escrita de um texto a partir de um operador de voz, e a interação por voz com os sistemas embarcados associados a redes de telefonia para fazer diversos procedimentos sem a necessidade de fazer o uso do teclado. A utilização dessa tecnologia também contribui para a inclusão digital e social de pessoas portadoras de deficiência física, além de prover interação mais amigáveis e simples de usar.

Nesse sentido, o trabalho em questão tem como objetivo o desenvolvimento de um sistema utilizando linguagem a MATLAB R _{para o reconhecimento de cinco}

vogais do português brasileiro utilizando estimativa de formantes e redes neurais para tradução para a Linguagem Brasileira de Sinais (Libras).

Esta monografia foi dividida em cinco capítulos. O primeiro é a que o leitor está, a introdução, onde foi realizada a contextualização, motivação, objetivos e apresentação do projeto. O segundo capítulo é a fundamentação teórica onde serão apresentados conceitos essenciais para o melhor entendimento dos processos utilizados no desenvolvimento do projeto. A metodologia empregada para a implementação do projeto é descrita no terceiro capítulo. Na quarta seção serão descritos os resultados obtidos no projeto e suas respectivas discussões. Finalmente, a conclusão será apresentada no quinto capítulo.

(17)

2 FUNDAMENTAÇÃO TEÓRICA

Neste capítulo alguns conceitos serão apresentados, uma vez que consistem em pontos importantes para a compreensão do conteúdo global deste trabalho. 2.1 O PROCESSO DE PRODUÇÃO DA VOZ

Para aplicar as técnicas de processamento digital de sinais para os problemas de comunicação de voz é essencial compreender a forma como os seres humanos produzem os sinais de fala (RABINER; SCHAFER, 2011).

Para se ter uma fonte geradora de som é necessário, basicamente, três elementos: um fornecedor primário de energia, um elemento produtor de som (corpo vibratório) e os elementos que modifiquem e direcionem o som (ressonadores) (STOLFI, 2006). No corpo humano, a responsabilidade de produzir a voz é do aparelho fonador, o qual está dividido em três grupos principais: os pulmões (fornecedor primário), a laringe (elemento produtor de som), e o trato vocal (ressonador).

O processo de produção da fala inicia-se quando o diafragma, os pulmões e os músculos associados atuam como uma fonte de ar. Essa fonte de ar pressiona o ar para fora dos pulmões que segue pelos brônquios, traquéia e laringe onde estão localizadas as cordas vocais. Quando as cordas vocais estão tensas, o fluxo de ar faz com que vibrem produzindo o que se chama de som vocalizado ou vozeado. Caso o ar proveniente dos pulmões passe livremente pela glote, através das pregas vocais, o som é dito não vozeado (Figura 1).

Em seguida, o ar proveniente do pulmões passa para o trato vocal. O trato vocal é composto da cavidade oral que segue da laringe até a boca e de uma passagem nasal que é unida a ele pelo véu palatino (PARREIRA, 2005). Essa etapa é responsável por produzir a ressonância resultando na amplificação do som (FREITAS, 2010). De acordo com Parreira (2005), se fosse ouvido o som, depois de passado pelas dobras vocais durante o processo de fala, seria ouvido apenas um zumbido tendo o trato vocal a função de modelar a fonte e gerar novas fontes de sons.

Na Figura (2) pode ser vista a anatomia da produção de fala do ser humano. Na Figura (3) é apresentado um mecanismo simplificado da produção da fala supracitado.

(18)

Figura 1: A esquerda as cordas vocais fechadas quando, por exemplo, ingerimos um alimento. No centro cordas vocais vibrando (som vozeado). A direita as cordas vocais estão abertas (som não vozeado).

Fonte: Figura adaptada de National Institute on Deafness and Other Communication Disorders (2014)

Figura 2: Anatomia da produção da fala humana.

(19)

Figura 3: Processo da Produção da fala simplificado.

Fonte: Figura adaptada de Rabiner e Juang (1993)

2.2 FREQUÊNCIA FUNDAMENTAL

A frequência fundamental pode ser definida como o número de vibrações por segundo das pregas vocais (dobras vocais), produzindo no ar zonas de compressão e rarefação (som) (PINHO, 2003). De acordo com Gusmão, Campos e Maia (2008), a frequência fundamental também pode ser definida pelo som inicial que as pregas vocais emitem numa fala habitual. Alguns autores também chamam essa frequência de pitch.

Em termos da fala humana, de acordo com Behlau (2001), a frequência fundamental depende tanto do tamanho natural das pregas vocais como também da velocidade em que as mesmas vibram. Tais valores de frequências podem variar de 80 a 150 Hz para os homens, de 150 a 250 Hz para as mulheres e acima de 250 Hz para as crianças.

Levando em consideração a frequência da fala habitual, a frequência fundamental depende do sexo, da idade e do processo de mudança da voz do indivíduo, que ocorre na puberdade. Mas outros fatores podem interferir temporariamente nesse processo, a saber fatores comportamentais, emocionais e orgânicos (GUSMÃO; CAMPOS; MAIA, 2008)

(20)

2.3 PITCH

Pitch é definido como “a dimensão psicoacústica que corresponde à sensação de frequência” (FROTA, 2003). O pitch não deve ser confundido com a frequência fundamental; ele leva em consideração a frequência, intensidade e as propriedades espectrais do som (BEHLAU, 2001).

A escala perceptual de pitch é denominada mels e é uma escala logarítmica. A relação entre frequência e pitch é aproximadamente dada pela Equação (1) (RABINER; SCHAFER, 2007). Por exemplo, uma frequência de 6000 Hz corresponde a um pitch de 2546 mels aproximadamente. Definiu-se o valor de 1000 Hz a 40 dB correspondente a 1000 mels (PARANAGUÁ, 1997).

mels = 1127log_e(1 + f /700) (1)

Figura 4: Mapeamento entre escala real e escala em mel.

Fonte: (PARANAGUÁ, 1997)

2.4 MODELO FONTE-FILTRO DE PRODUÇÃO DE FALA

O modelo fonte-filtro descreve a produção de fala em três estágios independentes, ou seja, a mudança nas propriedades de um estágio não modifica as propriedades do outro estágio. Como pode ser visto na Figura (5), os três estágios em questão são: a fonte de som (laringe), o filtro (trato vocal) e radiação dos lábios (FLOHBERGER, 2013). A saída desse sistema é o sinal de voz.

(21)

Figura 5: Um modelo fonte-filtro simplificado.

Fonte: Adaptado de Eulenberg (2011)

Como já explicado na seção 2.1, o som pode ser vozeado e não vozeado dependendo das respostas das cordas vocais ao fluxo de ar provenientes dos pulmões.

Caso o som seja vozeado as cordas vocais estarão tensas e vibrarão quase periodicamente. A fonte de excitação, e[n] nesse caso, será um trem de impulsos periódico com os impulsos separados por um período igual ao inverso da frequência fundamental (T0=1/ f0)(RABINER; SCHAFER, 2007). Esse trem de impulsos será convoluído com um pulso glotal como mostra a Figura (6).

Figura 6: Modelo fonte-filtro simples. Onde e[n] é a sinal de excitação, g[n] é a resposta ao impulso do modelo de pulso glotal. u[n] é a saída.

Fonte: Próprio autor

Os modelos de pulso glotal descrevem o fluxo de ar através das cordas vocais e há muitos na literatura, a saber: Rosenberg, Fant e Fujisaki. A Figura (7) exemplifica um modelo de pulso glotal de Rosenberg e a Figura (8) mostra o respectivo espectro. Tal espectro tem como característica a diminuição da amplitude dos harmônicos com o aumento da frequência em 12dB/oitava (HARRINGTON; CASSIDY, 1999).

(22)

Figura 7: Modelo de pulso glotal de Rosenberg. 0 até b fase de abertura das cordas vocais; b até c fechando as cordas vocais; c até T cordas vocais fechadas. O ciclo glótico corresponde de 0 até T.

Fonte: (HARRINGTON; CASSIDY, 1999)

Figura 8: Espectro do pulso glotal da Figura (7).

Fonte: (HARRINGTON; CASSIDY, 1999)

Para os sons não vozeados as cordas vocais não vibram e o sinal de excitação se comporta como um ruído aleatório (MESEGUER, 2009).

O filtro na produção da fala é o trato vocal. Na produção de um som vozeado oral o trato vocal pode ser considerado um tubo de seção transversal irregular fechado na extremidade da glote, durante o fechamento das cordas vocais, e aberto na outra extremidade localizado nos lábios (Figura 9) (HARRINGTON; CASSIDY, 1999).

(23)

Figura 9: Um modelo de tubo para o trato vocal.

Fonte: (RUSSO, 1999)

Outro filtro envolvido na produção da fala, corresponde ao efeito da saída do som pelos lábios (radiação). Este filtro tem como característica espectral o aumento de 6 dB por oitava, ou seja, baixas frequências são atenuadas enquanto que altas frequências não (FURUI, 2001; CASSIDY, 2013).

O modelo de tempo discreto da produção da fala é mostrado na Figura (10). Matematicamente, o sinal s[n] vozeado pode ser representado pela Equação (2)

s[n] = e[n] ⇤ g[n]Av⇤ v[n] ⇤ l[n] (2) Onde * representa a convolução, e[n] é o sinal de excitação (trem de impulso), g[n] é a resposta impulsiva do modelo de pulso glotal , Av é o fator de ganho a fim de controlar a intensidade do sinal de excitação (DIAS, 2012), v[n] é a resposta ao impulso do trato vocal, l[n] é a resposta impulsiva da radiação dos lábios e s[n] é o sinal de saída. Pode-se também expressar no domínio da frequência utilizando a transformada Z da seguinte forma:

(24)

Figura 10: Modelo da produção de fala em tempo discreto e sua correspondência fisiológica.

Fonte: Figura adaptada de Dias (2012)

No modelo de predição linear da produção da fala humana que será abordado na próxima seção, H(z) é a combinação do filtro G(z) (modelo de pulso glotal), V (z) (trato vocal) e L(z)(radiação dos lábios). Ou seja,

H(z) = G(z)V (z)L(z) (4)

A Figura 11 mostra o modelo de predição linear para produção da fala.

Figura 11: Modelo de síntese de fala baseado no modelo de predição linear onde u[n] é o sinal de excitação (trem de impulso ou ruído); G é o ganho; H(z) a função transferência (4); e s[n] é o sinal de saída.

(25)

2.5 PREDIÇÃO LINEAR

Uma das técnicas para a análise de fala é a predição linear ou linear predictive coding ( LPC ) (RABINER; SCHAFER, 2011; RIBEIRO, 2012). A importância da predição linear deve-se ao fato do método poder representar, de forma eficiente e precisa as características onda e o espectro da fala com uma quantidade pequena de parâmetros(FURUI, 2001). De acordo com Rabiner e Juang (1993), o LPC oferece um bom modelo de sinal de fala, especialmente, em sons vozeados e tem uma boa performance em aplicações de reconhecimento de fala.

É sabido que a voz é um sinal não estacionário, isto é, as características estatísticas mudam ao longo do tempo. Contudo se for considerado apenas uma pequena faixa (segmento) do sinal de voz, essa poderá ser considerada como quase estacionária visto que a variação do trato vocal é lenta. Tal segmento é geralmente de 10 a 30 ms (FURUI, 2001; RABINER; JUANG, 1993).

A predição linear se baseia na ideia em que uma amostra pode ser aproximada (predita) da combinação linear dos valores das amostras anteriores utilizando a correlação entre essas amostras (RIBEIRO, 2012). Em outras palavras, dada uma amostra de um sinal de fala no tempo n, s[n], pode ser aproximada como uma combinação linear das p amostras anteriores (RABINER; JUANG, 1993), ou seja

s[n] ⇡ a1s[n 1] + a2s[n 2] + ... + aps[n p] (5) Em que os coeficientes a1,a2, . . .ap são constantes dos segmento de voz em análise. Ele são chamados de coeficientes-LPC ou coeficientes de predição.

Convertendo a Equação (5) e definindo ˆs[n] como valor predito tem-se: ˆs[n] =

p

Â

i=1

ais[n i] (6)

Onde ai são os coeficientes de predição e p a ordem da predição.

Outro conceito importante é o erro de predição também conhecido como resíduo. Ele é definido como a diferença entre o valor predito e o valor do sinal, como mostra a Equação (7).

e[n] = s[n] ˆs[n] = s[n]

Â

p i=1

ais[n i] (7)

Considerando o erro de predição (e[n]) como sinal de entrada pode-se interpretar como um sistema em que o sinal de entrada e[n], gera o sinal de saída

(26)

s[n]. Desse modo, a partir da Equação (7) tem-se:

s[n] = e[n] + ˆs[n] (8)

s[n] = e[n] +

Â

p i=1

ais[n i] (9)

Fazendo uma comparação com o modelo de produção de fala mostrado na Figura (11), onde e[n] é a entrada do sistema tem-se que

e[n] = u[n]G (11)

Assim, pode-se rescrever a Equação (9) como s[n] = u[n]G +

Â

p

i=1

ais[n i] (12)

A Equação (12) pode ser representada no domínio z utilizando a transformada z. Obtendo assim, a equação

S(z) = U(z)G +

Â

p i=1

aiz iS(z) (13)

Da qual pode-se encontrar a função de transferência H(z)

S(z) Â_i=1p aiz iS(z) = U(z)G (14) S(z) Â_i=1p aiz iS(z) = U(z)G (15) S(z) 1 Â_i=1p aiz i =U(z)G (16) S(z) U(z)G = 1 Âpi=11aiz i (17) H(z) =_U(z)GS(z) = ₁ _Âp1 i=1aiz i = 1 A(z) (18)

Para encontrar os valores dos coeficientes de predição (ai) utiliza-se a minimização do erro quadrático médio. O erro quadrático é definido como:

E =

Â

n (e[n])2 (20) =

Â

n (s[n] ˆs[n]) 2 ₍₂₁₎ =

Â

n(s[n]) 2 _{2s[n] ˆs[n] + ( ˆs[n])}2 ₍₂₂₎

(27)

Como deseja-se escolher os coeficientes de predição de modo que E seja mínimo em todo intervalo (não especificado), deriva-se a Equação (22) em relação a cada coeficiente de predição e iguala a zero.

∂E ∂ai =0 para 1  i  p (24) ∂ ∂ai ✓

Â

n ⇥ (s[n])2 2s[n] ˆs[n] + ( ˆs[n])2⇤ ◆ = 0 (25) ∂ ∂ai

Â

n (s[n])2 ∂ ∂ai

Â

n(2s[n] ˆs[n]) + ∂ ∂ai

Â

n(ˆs[n]) 2 ₌ ₀ ₍₂₆₎ 2

Â

n s[n] ∂ ∂aiˆs[n] + 2

Â

_n ˆs[n] ∂ ∂aiˆs[n] = 0 (27)

Â

n s[n] ∂ ∂aiˆs[n] =

Â

n ˆs[n] ∂ ∂aiˆs[n] (28)

Da Equação (6) tem-se que ∂ ∂aiˆs[n] = s[n i] (30) Portanto,

Â

n s[n](s[n i]) =

Â

n ˆs[n](s[n i]) (31)

Â

n s[n](s[n i]) =

Â

n p

Â

k=1 aks[n k]s[n i] (32)

Â

n s[n]s[n i] = p

Â

k=1 ak

Â

n s[n k]s[n i] (33) Se for definido f(i,k) =

Â

n s[n k]s[n i] (35)

Então, pode-se reescrever a Equação (33) como f(i,0) =

Â

p

k=1

akf(i,k) (36)

Os limites do somatório, ainda não definidos, são definidos por basicamente dois métodos: Autocorrelação e Covariância. Dados os limites dos somatórios, o conjunto de equações obtidas definem p equações e p incógnitas. Essas equações são chamados de equações normais ou de Yulle-Walker. Assim, resolvendo tais

(28)

equações obtêm-se os coeficientes de predição (ai).

Neste trabalho utilizou-se do método de autocorrelação e do algoritmo de Levinson-Durbin para resolver as p equações.

2.6 ESTIMAÇÃO DA FREQUÊNCIA FUNDAMENTAL

Há diversos métodos para estimar a frequência fundamental. O escolhido para o trabalho em questão foi a técnica denominada Power Cepstrum, pois trata-se de um método prático para extrair a frequência fundamental. De acordo com Müller e Ball (2012), a utilização do cepstrum para a determinação da frequência fundamental funciona bem quando a frequência fundamental não muda rapidamente, quando a frequência fundamental não é muito alta e quando o sinal é relativamente livre de ruído.

A palavra cepstrum é derivada da inversão das quatro primeiras letras da palavra spectrum. O Power Cepstrum de um sinal é definido como o quadrado da magnitude da transformada de Fourier do logaritmo do quadrado da magnitude da transformada de Fourier do sinal original. A Equação (37) define matematicamente o power cepstrum.

A Figura (12) mostra o power cepstrum da vogal /a/ emitida por um locutor do sexo masculino. A unidade do eixo da abscissa é chamado de Quefrency.

Para encontrar a frequência fundamental a partir do power cepstrum deve-se identificar o valor Quefrency correspondente ao pico mais alto e então fazer a inversão (1/Que f rency). Por exemplo, na Figura (12) o valor correspondente ao pico mais alto no eixo da abscissa é aproximadamente 8 ms. Portanto, a frequência fundamental desse sinal é de 125 Hz.

(29)

Figura 12: Power Cepstrum.

Powercepstrum= F ⇣n

log₁₀⇣|F ( f (t))|2⌘o⌘ 2 (37)

2.7 FILTRO PRÉ-ÊNFASE

De modo a compensar uma atenuação do espectro do sinal de fala, provocado pelo efeito decrescente de 12dB/oitava dos pulsos glotais e pelo efeito de radiação dos lábios de 6dB/oitava, utiliza-se um filtro de pré-ênfase (DIAS, 2000).

De regra, utiliza-se um filtro FIR passa-alta de primeira ordem definido pela função transferência descrita pela Equação (38). De acordo com Rabiner e Juang (1993), o valor de a mais comumente utilizado é por volta de 0,95. A resposta em frequência é mostrado na Figura (13).

(30)

Figura 13: Resposta em frequência do Filtro pré-ênfase com a = 0.95.

2.8 JANELAMENTO

Janelamento significa multiplicar um sinal s[n] por uma janela w[n]. Como já explicado anteriormente na seção 2.5, o sinal de voz pode ser considerado quase estacionário em intervalos pequenos. Por esse motivo é comum dividir o processamento do sinal de fala em pequenos quadros.

Para fazer tal divisão e amenizar a descontinuidade do início e fim dos quadros do sinal de fala, geralmente, utiliza-se a janela de Hamming, definida pela Equação (39) e mostrada na Figura (14). wH= 8 > < > : 0,54 + 0,46cos✓ 2pn N 1 ◆ 0  n  N 1 0 caso contrário (39)

(31)

Figura 14: JanelaHamming para N = 65. Por conveniência a janela foi desenhada como uma função contínua. Entretanto, trata-se de uma sequência de valores inteiros como descreve a Equação (39).

Outro fato importante é que quando o sinal de fala é multiplicado pela janela de Hamming, a duração do intervalo considerado eficaz é cerca de 40 % mais curta, visto que as extremidades do sinal de fala são comprimidas pelo janelamento (FURUI, 2001). Para solucionar tal problema deve-se fazer a sobreposição das janelas por todo o sinal de fala como mostra a Figura (15).

Figura 15: Sobreposição da janela deHamming sobre um sinal de voz.

Fonte: (RABINER; SCHAFER, 2007)

2.9 FORMANTE

Dependendo da configuração do trato vocal (filtro), como por exemplo, a posição da mandíbula, os dentes, os lábios, véu palatino e a língua, diversas componentes harmônicas são amplificadas e outras atenuadas. As zonas espectrais amplificadas são as zonas de ressonâncias e possuem: frequência central, largura de

(32)

banda e energia (Figura 16). Essa frequência central de ressonância é definida como formante (RIBEIRO, 2012). De acordo com Behlau (2001), quanto menor o trato vocal mais agudas serão as formantes produzidas.

Figura 16: Exemplo de zona de ressonância. Fc é a frequência central e B é a largura de

banda.

Fonte: (WIKIPEDIA, 2014)

Na Figura (17) é mostrado o espectro LPC referente a vogal /a/ falada por um adulto do sexo masculino. Os picos descritos como F1, F2, F3 e F4 são as formantes.

Figura 17: Espectro LPC da vogal /a/ falada por um adulto do sexo masculino.

Segundo Andrade (2009), a frequência do primeiro formante (F1) está relacionada ao deslocamento da língua no plano vertical e com o movimento da mandíbula; a frequência do segundo formante (F2) está relacionada ao deslocamento anteroposterior da língua; a frequência do terceiro formante (F3) está relacionada a cavidade atrás ou à frente da constrição da língua; e a frequência do quarto formante(F4) está relacionada com a posição vertical da laringe.

(33)

2.10 VOGAIS

O som produzido por uma vogal é determinado, principalmente, pela posição da língua, mas as posições da mandíbula, lábios e uma pequena extensão do véu palatino também influenciam no som resultante. As características acústicas das vogais são geradas por um som quase periódico produzido pela laringe (fonte de excitação) que é modificado pelas propriedades de ressonância do trato vocal (BEHLAU, 2001). A Figura (18) mostra os diferentes posicionamentos dos lábios e língua quando pronunciadas as vogais orais.

Figura 18: Deferentes configurações da língua e lábios ao pronunciar as vogais orais.

Fonte: (MARCHAL; REIS, 2012)

Na língua portuguesa, falada no Brasil, há 7 vogais orais representadas por /a/ /e/ /E/ /i/ /o/ /O/ /u/ (Tabela 1) e 5 vogais nasais. No trabalho em questão será feito o reconhecimento somente das cinco vogais orais: /a/ /E/ /i/ /o/ /u/.

Tabela 1: Vogais Orais.

Vogais Exemplos /a/ alho /e/ ele /E/ ela /i/ iate /o/ ovo /O/ ova /u/ urano

Fonte: Próprio Autor.

De acordo com Gusmão, Campos e Maia (2008), uma análise acústica com cinco formantes, as três primeiras são responsáveis pela identificação das vogais

(34)

são instáveis, ou seja, mudam de vogal a vogal e a quarta e quinta formante são consideradas estáveis, pois não variam com a mesma proporção das outras formantes. Já Pinho (2003) e Andrade (2009) afirmam que as duas primeiras formantes são suficientes para identificar uma vogal.

Para um ser humano identificar um texto escrito, as vogais não são tão relevantes se comparado com as consoantes. Perceba pela Figura (19) que é possível identificar a primeira frase (vogais ocultas) facilmente.

Figura 19: Textos somente com consoantes e somente com vogais.

Entretanto, nos sistemas de reconhecimento de fala as vogais são de grande importância para que o mesmo atinja uma boa precisão. Isso acontece devido as vogais possuírem maior duração e espectros bem definidos, se comparadas com as consoantes. Desse modo, as vogais se tornam mais confiáveis e mais facilmente reconhecidas pelo sistema de reconhecimento de fala (RABINER; JUANG, 1993). 2.11 LIBRAS

A Língua Brasileira de Sinais ( LIBRAS ) é a segunda língua oficial no Brasil e difere das línguas de sinais utilizadas em outros países. A oficialização da língua aconteceu em 2012 através da Lei 10.436 e é amplamente utilizada para comunicação entre deficientes auditivos (DA’s) e entre ouvintes e DA’s.

A LIBRAS possui diversos parâmetros para determinar o significado de cada palavra ou frase como por exemplo, localização das mãos em relação ao corpo, a expressão facial, a movimentação que se faz ao produzir o sinal (ARAUJO, 2013). Na Figura (20) é mostrado o alfabeto da LIBRAS.

(35)

Figura 20: Alfabeto LIBRAS.

Fonte: (CDI, 2013)

2.12 ESTIMAÇÃO DE FORMANTE

Há diversos métodos para se fazer a estimação das formantes. Porém, utilizando a LPC existem dois caminhos. O primeiro é obter o espectro e escolher os picos do espectro (Figura 17), o segundo é analisar as raízes do denominador do filtro de predição linear (Equação 18).

Uma vez encontrados os coeficientes de predição, as raízes (pólos) do filtro allpole (A(z) = 0), fornece pares de números complexos conjugados

z = rke±iq (40)

onde rk é o módulo eq é a fase.

Esses pares serão usados para estimar as frequências candidatas a formante. De acordo com Snell e Milinazzo (1993), as formantes Fk e suas respectivas larguras de banda Bk podem ser calculadas pelas Equações (41) e (42)

Fk= _2pfs q Hz (41)

Bk= _pfslnrk Hz (42)

onde fs é frequência de amostragem. Fk é considerada candidata, pois só terá significado de formante caso a largura de banda Bk seja suficientemente estreita, para

(36)

isso rk deve ser próximo de 1 (RIBEIRO, 2012).

Para um filtro de ordem p tem-se p pólos e p

2 formantes candidatas. Para determinar a ordem do filtro allpole alguns autores definem como uma boa regra a relação dada pela Equação (43).

fs

1000+2 (43)

2.13 REDES NEURAIS ARTIFICIAIS

Redes Neurais Artificiais ( RNAs ) são modelos computacionais baseados em analogias extraídas do sistema nervoso dos seres vivos. As RNAs podem ser definidas como um conjunto de sistemas paralelos distribuídos, formado por unidades de processamento simples (neurônios artificiais) que calculam determinadas funções matemáticas, geralmente não-lineares. Essas unidades são interligadas por um grande número de conexões, denominadas sinapses artificiais (SILVA; SPATTI; FLAUZINO, 2010; BRAGA; CARVALHO; LUDERMIR, 2000).

O grande atrativo das RNAs é a capacidade de extrair o relacionamento existente entre as variáveis e estimar soluções para os dados não conhecidos. Em outras palavras, as RNAs tem a capacidade de aprender e generalizar soluções a partir de qualquer entrada inserida caso tenha sido anteriormente treinada.

Entre os inúmeros problemas que as RNAs podem ser aplicadas destaca-se, para o trabalho em questão, os problemas envolvendo classificação de padrões. Em tais problemas é feita a relação das entradas do sistema com classes previamente definidas, por exemplo, as formantes (entradas) são associadas com determinadas vogais (classes).

2.13.1 Neurônio Artificial

Neurônio artificial é um modelo simplificado do neurônio biológico. De acordo com Silva, Spatti e Flauzino (2010), o modelo mais simples e que engloba as principais características da rede neural biológica foi proposto por McCulloch e Pitts (1943). Tal modelo pode ser visto na Figura (21).

(37)

Figura 21: Neurônio Artificial.

Fonte: Adaptado de Haykin e Engel (2007)

Os sinais x1,x2. . . ,xn são as entradas do sistemas e w1,w2. . . ,wn são os pesos sinápticos. As entradas são multiplicadas pelos seus respectivos pesos sinápticos, ponderando-se, todas as entradas. A junção aditiva ou combinador linear (Â) tem como objetivo produzir um potencial de ativação; para isso soma-se todos os sinais de entrada ponderados. O limiar de ativação (q) especifica o limite para que o resultado do combinador linear possa produzir um determinado valor em direção à saída. O potencial de ativação (u) é a diferença entre o limiar de ativação e o combinador linear conforme a Equação (44).

u =

Â

n i=1

uixi q (44)

A função de ativação (j) limita a amplitude de saída de um neurônio. A forma mais comum utilizada em redes neurais Perceptron de Múltiplas Camadas é a sigmóide (HAYKIN; ENGEL, 2007). Dois exemplos de função sigmóide são as funções logística e tangente hiperbólica, cujo o gráfico tem forma representada pelas Figuras (22) e (23), respectivamente.

(38)

Figura 22: Função logística.

Figura 23: Função tangente hiperbólica.

Tais funções podem ser definidas pelas expressões matemáticas 45 e 46, respectivamente.

j(u) = 1

1 + e u (45)

j(u) = 1 e u

1 + e u (46)

Portanto, a saída (y) do neurônio artificial pode ser definida como: y =j(

Â

n

i=1

uixi q) (47)

2.13.2 Perceptron de Múltiplas Camadas

As redes Perceptron de múltiplas camadas ( PMC ) ou Multilayer Perceptron ( MLP ) constituem-se de uma camada de entrada, pelo menos uma camada intermediária ou camadas ocultas e uma camada de saída. Desse modo, uma

(39)

rede PMC tem no mínimo duas camadas com neurônios que estão distribuídos nas camadas ocultas e de saída (SILVA; SPATTI; FLAUZINO, 2010). A Figura (24) ilustra uma rede PMC.

Figura 24: RedePerceptron Multicamadas.

Fonte: (SILVA; SPATTI; FLAUZINO, 2010)

A arquitetura utilizada é denominada feedfoward onde o sinais são propagados para a frente em direção à camada de saída. Segundo Haykin e Engel (2007), as redes Perceptrons de Multicamadas tem tido sucesso em resolver problemas considerados difíceis, utilizando o treinamento de forma supervisionada, com o algoritmo conhecido como retropropagação de erro ou error back-propagation. A forma supervisionada de treinamento consiste em se ter disponível os valores das amostra de entrada e suas respectivas saídas.

O algoritmo de aprendizagem error back-propagation é basicamente realizado em duas fases. A primeira é denominada forward onde os sinais pertencentes ao conjunto de treinamento são inseridos na camada de entrada até a produção da saída. Em seguida as respostas produzidas pela saída são comparadas com os valores de saída desejados. A partir dos valores de erros dá-se o início à segunda fase, denominada backward, onde os pesos sinápticos e limiares de todos os neurônios da rede são ajustados de acordo com uma regra de correção de erro (HAYKIN; ENGEL, 2007; SILVA; SPATTI; FLAUZINO, 2010). Assim, a aplicação das duas fases sucessivamente, tende a minimizar o erro entre o valor desejado e o valor obtido pela

(40)

rede.

Segundo Silva, Spatti e Flauzino (2010), o algoritmo error back-propagation, na prática, tem grande custo computacional e tende a convergir muito lentamente. Umas das técnicas mais utilizadas para reduzir o tempo de convergência e diminuir o esforço computacional é o algoritmo de Levenberg-Marquardt proposto por Hagan e Menhaj (1994).

De acordo com Haykin e Engel (2007), uma rede PMC treinada com o algoritmo error back-propagation, em geral, aprende mais rápido caso seja utilizada a função de ativação sigmóide antissimétrica do que a função não-simétrica. Um exemplo de função antisimétrica sigmóide é uma tangente hiperbólica mostrada na Figura (23).

Quanto a quantidade de camadas ocultas em uma rede PMC, Lippmann (apud SILVA; SPATTI; FLAUZINO, 2010) afirma que com apenas duas camadas ocultas é possível classificar padrões que estejam em qualquer tipo de regiões geométricas, até mesmo conjuntos disjuntos e regiões com formato não-convexo, como ilustra a Figura (25).

Figura 25: Classificação de padrões em regiões disjuntas e não convexa.

(41)

3 METODOLOGIA

O sistema é composto de 8 módulos principais, a saber: aquisição de voz, pré-processamento, extração dos parâmetros da fala, classificação das vogais, banco de formantes, redes neurais, reconhecimento de vogal e tradutor. Tais módulos serão detalhados nas próximas seções.

A interligação entre os blocos e o fluxo de dados mencionados pode ser visto na Figura (26).

Figura 26: Diagrama de blocos do sistema.

3.1 AQUISIÇÃO DE VOZ

A aquisição de voz foi feita utilizando um microfone (Figura 27) conectado a uma placa de áudio Realtek High Definition, driver de versão 6.0.1.6699. A frequência de amostragem utilizada foi de 44.1kHz e 216 _{níveis de quantização. A Figura (28)} mostra o processo de aquisição do áudio.

(42)

Figura 27: Microfone.

Figura 28: Processo de aquisição da voz.

Fonte: (SILVA, 2009)

Basicamente, o sinal acústico emitido pelo locutor é convertido pelo transdutor (microfone) em sinais elétricos. Após essa etapa o sinal é filtrado (filtro anti-aliasing) e feita a conversão do sinal analógico em digital. Todo esse processo de filtragem e conversão do sinal é realizado pela placa de áudio supracitada.

3.2 PRÉ-PROCESSAMENTO

Após a etapa de aquisição do sinal de voz é realizado um pré-processamento desse sinal antes de fazer a extração dos parâmetros da fala. A etapa de pré-processamento é essencial para melhorar o desempenho na extração dos parâmetros da fala.

(43)

Essa etapa foi subdividida em seis estágios onde a saída de cada estágio é a entrada do estágio seguinte (Figura 29).

Figura 29: Estágios do pré-processamento.

3.2.1 Filtro Passa-Faixa

A fim de retirar o ruído proveniente do ambiente de gravação foi utilizado um filtro passa-faixa. A implementação do filtro foi realizada utilizando a técnica Discrete Fourier Transform ( DFT ), tendo como entrada a saída da etapa de aquisição de voz e frequências de corte de 60Hz e 5kHz (Figura 30). Vale ressaltar que com esse procedimento não há perdas de informações relevantes para o trabalho em questão, pois como explicado na seção 2.2, a frequência fundamental mais baixa fica em torno de 80 Hz e as frequências mais altas das vogais correspondentes a terceira formante (formante mais alta utilizada neste projeto) giram em torno de 4000 Hz. Segundo Behlau (2001), a terceira formante da vogal /i/ corresponde a mais alta frequência entre a vogais, onde a média é de 3668Hz.

(44)

Figura 30: Filtro Passa Faixa.

3.2.2 Retirar Silêncio

Esse estágio tem como objetivo retirar do sinal de áudio as partes que não correspondem à pronuncia da vogal. Isso acontece, pois cada pessoa que irá utilizar o software terá tempos diferentes para começar e encerrar a pronuncia da vogal.

Inicialmente, definiu-se um limiar para a amostra e outro para a energia média do bloco. Depois percorre-se todo o sinal até encontrar uma amostra com um valor maior que o primeiro limiar. Caso encontre tal amostra, então é construído um frame de 5 ms com início na amostra de valor maior que o limiar. Em seguida, é calculada a energia média do frame (Equação 48) e verificado se o valor é maior que o segundo limiar anteriormente definido. Caso isso ocorra, tem-se o marco do início da pronuncia da vogal. Caso o valor seja menor que o segundo limiar, continua-se percorrendo o sinal em busca de uma amostra com o valor maior que o primeiro limiar. A Figura (31) mostra o fluxograma do processo.

O processo para determinar o fim da pronuncia da vogal é análogo, contudo inicia-se a procura do limiar do fim da gravação em direção ao início.

En = 1 N N 1

Â

n=0 x2[n] (48)

(45)

Figura 31: Fluxograma para retirar silêncio.

3.2.3 Verificação da Quantidade de Amostra

Nesse estágio é verificado se existe uma quantidade de amostras suficientes para fazer a análise do sinal. Por exemplo, para fazer a análise do sinal da voz é preciso, ao menos um segmento de voz com tempo de 10 a 30 ms. Contudo, um único segmento muitas vezes não é suficiente para determinar com precisão a vogal analisada devido as áreas de instabilidades no início e no final do sinal de voz. Diante disso, foi definida como quantidade mínima de 10 segmentos de 25 ms cada.

(46)

3.2.4 Normalização

A normalização é realizada para deixar todos os valores de amplitude dos sinais na mesma faixa de valores, a saber: 1 e -1. Desse modo, todos os sinais serão processados com a mesma faixa de amplitude, ou seja, mesmo volume de voz independentemente da vogal pronunciada, distância do microfone e intensidade na hora de falar a vogal. As Figuras (32) e (33) mostram o sinal antes e depois de passar pelo estágio de normalização, respectivamente.

Figura 32: Sinal não normalizado.

(47)

Figura 33: Sinal normalizado.

3.2.5 Segmentação e Janelamento

Após a normalização, o sinal foi multiplicado por janelas de Hamming superpostas. A duração da janela foi escolhida de acordo com o limite de estacionariedade do sinal de voz que varia de 10 a 30 ms, como já explicado na seção 2.5. Neste sentido, optou-se por janelas com duração de 25 ms com superposição de 40%.

3.2.6 Pré-ênfase

O filtro pré-ênfase utilizado é definido pela Equação 49

L(z) = 1 0,95z 1 (49)

3.3 EXTRAÇÃO DOS PARÂMETROS DA FALA

Essa etapa tem como objetivo fazer a estimativa das três primeiras formantes. Para isso foi necessário, primeiramente, identificar o sexo do locutor, posteriormente utilizar a técnica LPC e o método de estimativa de formante utilizando raízes do denominador da função transferência como descrito na seção 2.12.

(48)

Para identificar o sexo do locutor foi implementado o método descrito na seção 2.6, o qual utiliza-se a técnica de Power Cepstrum para determinar a frequência fundamental da vogal pronunciada pelo locutor. Nessa etapa, foi utilizado somente a região central do sinal de voz, pois trata-se de um região mais estável. De posse da frequência fundamental basta verificar se o valor obtido pertence a faixa de frequência masculina (80 até 150 Hz) ou feminina (150 até 250 Hz).

Após definir o gênero do locutor, define-se os valores da ordem (p) do filtro LPC definido pela função transferência representada pela Equação (18), e o limiar da largura de banda (Bk) representada pela Equação (42). Tais valores foram definidos empiricamente através de exaustivos testes que tinham como objetivo definir a melhor ordem para o filtro LPC e o limiar da largura de banda para cada gênero. Nestes testes foram analisados valores entre 30 e 90 para ordem do filtro e largura de banda de 25 a 500 Hz.

Para o trabalho em questão foi utilizado p igual a 61 e 55 para pessoas do sexo masculino e feminino, respectivamente. Já o valor do limiar da largura de banda (Blimiar) foi definido 100 Hz para locutores homens e 200 Hz para mulheres.

Depois de definidos os valores de p e Blimiar, foi feito o cálculo dos coeficientes de predição linear para todos o segmentos, conforme explicado na seção 2.5. Após a obtenção dos coeficientes de predição linear foi realizada a estimação da formante propriamente dita, fazendo-se o cálculo dos pólos do filtro LPC que fornece raízes complexas conjugadas e depois aplicando esses resultados nas Equações (41) e (42) para o cálculo da formante (Fk) e sua respectiva largura de banda(Bk).

O próximo passo é desconsiderar as formantes que possuem largura de banda (Bk) maior que Blimiar e depois classificar em ordem crescente as formantes restantes (F1<F2<F3). Esse passo é possível, pois em um segmento de voz pode haver mais que três frequências candidatas à formante, então, caso uma dessas frequências não se encaixe nos padrões pré-determinados ela é desconsiderada. Caso em um segmento haja mais que três formantes as de maiores frequências ( fk) são desconsideradas e são utilizadas apenas as três primeiras de menores frequências para posterior análise da rede neural.

(49)

Figura 34: Processo de extração dos parâmetros da fala.

3.4 CLASSIFICAÇÃO DAS VOGAIS E BANCO DE DADOS

Para fazer o reconhecimento das vogais, o sistema deve primeiro classificar as formantes de cada vogal, ou seja, deve-se fazer a relação dos valores das formantes com suas respectivas vogais. Cada locutor terá valores diferentes de formantes para as mesmas vogais faladas e por isso essa etapa é fundamental.

Inicialmente, foi solicitado a 23 pessoas do sexo feminino e 26 do sexo masculino que gravassem o som das cinco vogais orais. Após pré-processado e feita a extração das formantes, foi registrado os valores de cada formante (F1, F2, F3), sua respectiva vogal e o sexo do locutor em um banco de dados para posterior uso na implementação da rede neural.

3.5 REDE NEURAL

Essa etapa se fez necessário devido as regiões fronteiriças que definem as vogais não serem bem definidas. Diante disso, foi utilizada a ferramenta do Neural Network Toolbox do MATLAB R _{para implementar redes neurais Perceptrons}

Multicamadas.

A rede neural utilizada foi a PMC com quatro camadas: 1 de entrada, 2 escondidas e 1 de saída. Na primeira camada são inseridas as três formantes (F1, F2, F3), extraídas na etapa anterior (seção 3.3). Na primeira camada escondida utilizou-se 10 neurônios, enquanto que na segunda foram utilizados 5 neurônios. Na camada de saída foram utilizados 5 neurônios, cada um representando uma das cinco vogais orais. Os neurônios utilizados nessa rede têm como função de ativação tangente

(50)

hiperbólica. A Figura (35) mostra a rede PMC implementada.

Para fazer o treinamento da rede utilizou-se os algoritmos de error back-propagation e Levenberg-Marquardt com 70% das amostra para treinamento, 20% para validação e 10% teste. Os arquivos usados no treinamento foram configurados como mostra a Figura (36). As três primeiras colunas correspondem as formantes (entradas) e as restantes são as saídas.

Foram implementadas duas redes com configurações iguais, porém com dados de entrada diferentes. Uma rede foi desenvolvida para o reconhecimento de vogais pronunciadas por pessoas do sexo masculino e uma outra rede para sexo o feminino. Assim, fez-se necessário separar o conjunto das três primeiras formantes e sua respectiva vogal por gênero.

Figura 35: Rede PMC. Onde w é peso sináptico e b é limiar de ativação.

Figura 36: Arquivo de treinamento. Onde 10000 corresponde a vogal /a/; 01000 a vogal /E/; 00100 a vogal /i/; 00010 a vogal /o/; 00001 a vogal /u/.

3.6 RECONHECIMENTO DA VOGAL

Essa etapa é responsável por identificar qual vogal está sendo pronunciada pelo locutor a partir da saída da rede PMC. A saída da rede neural, como explicado anteriormente possui cinco valores, um para cada neurônio e estão na faixa de 0 e 1. Assim, após a rede PMC processar a entrada e gerar a saída é verificada qual vogal corresponde aquela saída, examinando-se qual dos neurônios tem o valor mais

(51)

próximo de 1. Por exemplo, ao analisar um segmento do sinal voz correspondente a uma vogal, caso o resultado da rede neural seja 0 0,98 0 0 0 significa que esse segmento corresponde a vogal /E/. Caso a saída seja do tipo 0,3 0,1 0,1 0,77 0,99 a vogal correspondente é /u/.

Contudo, analisar somente um segmento não é suficiente. Então, é feita a análise de todos os segmentos do sinal de voz, como explicado na seção 3.2.5, e definida como vogal a saída com maior indício de repetição. A Tabela 2 mostra um exemplo de como do processo de reconhecimento do sinal funciona. Neste exemplo, como pode ser visto a vogal identificada foi a vogal /u/.

Tabela 2: Exemplo do processo de reconhecimento da vogal /u/.

Caso no final da análise dos segmentos haja duas vogais com o mesmo número de repetição o sistema não tem como definir qual vogal o sinal representa e solicita para o usuário fazer uma nova tentativa.

3.7 TRADUÇÃO EM LIBRAS

A última etapa é a exibição da imagem em LIBRAS que representa a vogal. Nessa etapa foi feita a relação da vogal identificada na etapa anterior com sua respectiva imagem representativa. Por exemplo, caso a vogal reconhecida seja a letra a o software irá exibir a Figura (37).

(52)

Figura 37: Representação da letraa na LIBRAS.

(53)

4 RESULTADOS

Nesta seção serão apresentados o software e os resultados obtidos no reconhecimento de voz de alguns voluntários.

4.1 O SOFTWARE

Ao iniciar o software é exibida a tela inicial como mostra a Figura (38). Nesta tela há diversos recursos que podem ser utilizados pelo usuário e inicialmente, será explicado como utilizar o software para fazer o reconhecimento de vogais.

Figura 38: Tela inicial do software de reconhecimento de vogais.

O software disponibiliza duas formas de se obter o áudio para reconhecer a vogal. A primeira é a partir de um arquivo tipo wav. Para isso o usuário deve clicar no botão com ícone de uma pasta e selecionar o arquivo desejado. A segunda é fazendo a gravação do áudio a partir do botão com o ícone de microfone (necessário um microfone). Ao clicar no botão, o ícone mudará de imagem indicando que a gravação começou como mostra a Figura (39). Quando a imagem do ícone volta ao original (Figura 38), significa que a gravação foi finalizada. O tempo de gravação pré-estabelecido foi de 3 segundos.

(54)

Figura 39: Gravando áudio.

Após a etapa de seleção ou gravação do áudio, o usuário pode escolher o sexo do locutor ou simplesmente deixar em automático e o sistema irá tentar reconhecer o sexo do locutor. Por fim, o usuário deve clicar no botão localizado no centro da interface para dar início ao reconhecimento (Figura 40).

Ao fim do reconhecimento é apresentada a representação da letra em LIBRAS como pode ser visto na Figura (40).

(55)

Figura 40: Gravando áudio.

Há também outros recursos no software que servem para a análise do sinal de voz. O primeiro deles é a opção Formants, a qual é possível visualizar as três primeiras formantes de cada segmento do sinal de voz. O segundo recurso é o LPC spectrum onde é possível visualizar o espectro LPC. A terceira opção (signal) é possível visualizar o sinal no domínio do tempo. A quarta opção denominada Fundamental Frequency permite visualizar o Power Cepstrum e o valor estimado da frequência fundamental. Os exemplos da utilização dos recursos extras podem ser visto nas Figuras (41), (42), (43) e (44).

(56)

Figura 41: Valores das formantes para cada segmento. Neste caso foram 17 segmentos analisados.

Figura 42: Espectro LPC da vogal /E/.

(57)

Figura 43: Exemplo do sinal no domínio do tempo.

Figura 44: Power Cespstrum com frequência fundamental estimada 151,03 Hz.

4.2 TESTES E RESULTADOS DO RECONHECIMENTO DE VOZ

Para a realização dos testes foram adquiridas mais 10 vozes do sexo masculino e 10 vozes do sexo feminino, pronunciando as vogais /a/, /E/, /i/, /o/ e /u/, totalizando 100 sons de vogais. Vale ressaltar que tais vozes são diferentes daquelas usadas para

(58)

o treinamento e implementação da rede PMC.

A Tabela (3) mostra o resultado do reconhecimento das vogais pronunciadas por pessoas do sexo feminino. A indicação ‘V’ significa que o reconhecimento foi correto e ‘F’ indica que o resultado apresentado pelo software não foi o esperado.

Tabela 3: Teste realizados com pessoas do sexo feminino. ‘V’ significa que foi reconhecida a vogal corretamente e ‘F’ indica que o resultado exibido pelo software foi errado.

Observa-se pela tabela acima que apenas uma vogal não foi reconhecida corretamente. Tal fato pode ser explicado pelas condições do ambiente em que foram gravadas, como por exemplo, pessoas conversando perto do microfone quando a gravação estava sendo efetuada, o que levou o programa a identificar valores de formantes incorretos. A Figura (45) mostra as áreas em que o software (rede PMC) leva em consideração para determinar a vogal e o valor das formantes dos três segmentos analisados. Este gráfico foi confeccionado com os valores das formantes de cada vogal utilizado no treinamento e implementação da rede neural PMC para vozes femininas, ou seja, as vogais armazenadas no banco de dados.

(59)

Figura 45: Erro na determinação da vogal /o/. O software exibiu como resultado a vogal /E/.

Figura 46: Imagem com as três primeiras formantes (F1, F2e F3) da figura acima.

Analisando atentamente as duas figuras acima, percebe-se que dois dos três segmentos analisados tiveram formantes próximas da área da vogal /E/ (cor vermelho) e somente um segmento dentro da área da vogal /o/ (cor rosa), motivo esse que fez o programa determinar a vogal /E/ quando o certo seria a vogal /o/.

(60)

reconhecida corretamente como mostra a Tabela (4). Esse erro pode ter ocorrido devido a dicção do locutor que pronunciava a vogal /i/ muito semelhante a vogal /e/.

Tabela 4: Teste realizados com pessoas do sexo masculino. ‘V’ significa que foi reconhecida a vogal corretamente e ‘F’ indica que o resultado exibido pelo software foi errado.

Conforme os dados apresentados, há uma taxa de acerto de 98% para sexo feminino, 98% para o sexo masculino o que resulta um total de 98% de acertos no total.

(61)

5 CONCLUSÃO E TRABALHOS FUTUROS

O trabalho em questão teve como objetivo a pesquisa e o desenvolvimento de um sistema para o reconhecimento da fala humana. Nesse sentido foi proposto o desenvolvimento de um sistema capaz de reconhecer as 5 vogais orais da língua portuguesa brasileira. O projeto também pode ser utilizado por profissionais de fonoaudiologia que utilizam as formantes das vogais orais e a frequência fundamental para realizar diagnósticos.

O resultado obtido no reconhecimento das vogais foi considerado satisfatório visto que a taxa de acerto foi de 98%. Porém observou-se que em alguns casos há a necessidade de escolher manualmente o sexo do locutor, pois o sistema não foi capaz de defini-lo. Tal resultado sugere um estudo mais detalhado sobre o reconhecimento de gênero no reconhecimento de vogal.

Também foi observado que os tratamentos realizados na etapa pré-processamento foram de fundamentais para o sucesso do resultado final, pois muitas das gravações foram realizadas em ambientes com ruídos de ar-condicionado, ventiladores entre outros.

Por fim, há diversos trabalhos que podem ser realizados para dar continuidade a esse. Por exemplo, é possível expandir o vocabulário do reconhecimento para outras vogais e consoantes, fonemas e até mesmo para palavras isoladas. Também é possível migrar para a área da saúde onde há diversos trabalhos sendo realizados por pesquisadores de todo mundo.

(62)

REFERÊNCIAS

ANDRADE, F. V. de. Análise de parâmetros espectrais da voz em crianças saudáveis de 4 a 8 anos. Dissertação (Mestrado) — Universidade Veiga de Almeida, 2009.

ARAUJO, A. P. de. Lingua Brasileira de Sinais (LIBRAS): Site. 2013. Disponível em: <http://www.infoescola.com/portugues/lingua-brasileira-de-sinais-libras/>. Acesso em: 1 julho. 2013.

BEHLAU, M. Voz: o livro do especialista. [S.l.]: Revinter, 2001. ISBN 9788573095258.

BRAGA, A. de P.; CARVALHO, A. de L. F.; LUDERMIR, T. Redes neurais artificiais: teoria e aplicações. [S.l.]: LTC Editora, 2000. ISBN 9788521612186.

CASSIDY, S. Chapter 7. The Source Filter Model of Speech Production. 2013. Disponível em:

<http://web.science.mq.edu.au/~cassidy/comp449/html/ch07s02.html>. Acesso em: 21 fev. 2013.

CDI. CDI Comunidade Crescer: Site. 2013. Disponível em:

<http://cdicomunidadecrescer.blogspot.com.br/>. Acesso em: 1 julho. 2013.

DIAS, R. S. F. Normalização de locutor em sistema de reconhecimento de fala. Dissertação (Mestrado) — Universidade Estadual de Campinas, Novembro 2000. DIAS, S. O. Estimation of the glottal pulse from speech or singing voice. Dissertação (Mestrado) — School of Engineering of the University of Porto, Julho 2012.

EULENBERG, J. Source-Filter Model. Maio 2011. Disponível em: <https://www.msu.edu/course/asc/232/Charts/>. Acesso em: 1 fev. 2014. FLOHBERGER, M. Source/Filter–Model. 2013. Disponível em:

<http://www2.spsc.tugraz.at/www-archive/AdvancedSignalProcessing/SpeechSynthesis.new/ flohberger_report.pdf>. Acesso em: 1 fev. 2014.

FREITAS, F. E. de. Reconhecimento De Voz Utilizando Transformada Wavelet E Codificação Preditiva Linear. Dissertação (Mestrado) — Universidade Federal do Ceará, 2010.

FROTA, S. Fundamentos em fono: audiologia. [S.l.]: Guanabara Koogan, 2003. ISBN 9788527708463.

FURUI, S. Digital speech processing, synthesis, and recognition. [S.l.]: CRC Press, 2001.

GUSMÃO, C.; CAMPOS, P.; MAIA, M. O formante do cantor e os ajustes laríngeos utilizados para realizá-lo: uma revisão descritiva. Per Musi–Revista Acadêmica de Música [periódico online], v. 21, p. 43–50, 2008.

(63)

HAGAN, M.; MENHAJ, M. B. Training feedforward networks with the marquardt algorithm. Neural Networks, IEEE Transactions on, v. 5, n. 6, p. 989–993, Nov 1994. ISSN 1045-9227.

HARRINGTON, J.; CASSIDY, S. Techniques in Speech Acoustics. Springer, 1999. (Text, Speech and Language Technology). ISBN 9780792357315. Disponível em: <http://books.google.com.br/books?id=E1SyZZN8WQkC>.

HAYKIN, S.; ENGEL, P. Redes neurais: princípios e prática. [S.l.]: Artmed, 2007. LIPPMANN, R. An introduction to computing with neural nets. ASSP Magazine, IEEE, v. 4, n. 2, p. 4–22, Apr 1987. ISSN 0740-7467.

MARCHAL, A.; REIS, C. PRODUÇAO DA FALA. [S.l.]: UFMG, 2012. 297 p. ISBN 9788570419446.

MCCULLOCH, W.; PITTS, W. A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, Kluwer Academic Publishers, v. 5, n. 4, p. 115–133, 1943. ISSN 0007-4985. Disponível em: <http://dx.doi.org/10.1007/BF02478259>.

MESEGUER, N. A. Speech Analysis for Automatic Speech Recognition. [S.l.]: Institutt for elektronikk og telekommunikasjon, 2009. 87 p.

MÜLLER, N.; BALL, M. Research Methods in Clinical Linguistics and Phonetics: A Practical Guide. [S.l.]: Wiley, 2012. (GMLZ - Guides to Research Methods in Language and Linguistics). ISBN 9781118349694.

NATIONAL INSTITUTE ON DEAFNESS AND OTHER COMMUNICATION DISORDERS. Stuttering Illustration: Site. 2014. Disponível em:

<http://www.nidcd.nih.gov/health/voice/pages/stutter08_img.aspx>. Acesso em: 1 fev. 2014.

PARANAGUÁ, E. D. S. Reconhecimento de Locutores Utilizando Modelos de Markov Escondidos Contínuos. Dissertação (Mestrado) — Tese de Mestrado, IME, 1997.

PARREIRA, W. D. Reconhecimento de Locutor pela Voz usando o Classificador Polinomial e Quantização Vetorial. Dissertação (Mestrado) — Universidade Federal de Urbelândia, 2005.

PINHO, S. M. R. Fundamentos em fonoaudiologia: tratando os distúrbios da voz. [S.l.]: Guanabara Koogan, 2003.

RABINER, L.; JUANG, B.-H. Fundamentals of speech recognition. [S.l.]: Prentice hall, 1993.

RABINER, L.; SCHAFER, R. Digital processing of speech signals. [S.l.]: Prentice-Hall, 1978. (Prentice-Hall signal processing series). ISBN 9780132136037. RABINER, L.; SCHAFER, R. Theory and Applications of Digital Speech

(64)

RABINER, L. R.; SCHAFER, R. W. Introduction to digital speech processing. Found. Trends Signal Process., Now Publishers Inc., Hanover, MA, USA, v. 1, n. 1, p. 1–194, jan. 2007. ISSN 1932-8346. Disponível em: <http://dx.doi.org/10.1561/2000000001>. RIBEIRO, C. E. M. Processamento digital de fala. Instituto Superior de Engenharia de Lisboa, v. 1, p. 209, 2012.

RUSSO, I. Acústica e psicoacústica aplicadas à fonoaudiologia. [S.l.]: Lovise, 1999. ISBN 9788585274559.

SILVA, A. G. da. Reconhecimento de voz para palavras isoladas. Dissertação (Mestrado) — Universidade Federal de Pernanbuco, 2009.

SILVA, I. da; SPATTI, D.; FLAUZINO, R. REDES NEURAIS ARTIFICIAIS PARA ENGENHARIA E: CIENCIAS APLICADAS - CURSO PRATICO. [S.l.]: ARTLIBER, 2010. ISBN 9788588098534.

SNELL, R. C.; MILINAZZO, F. Formant location from lpc analysis data. IEEE Transactions on Speech and Audio Processing, v. 1, n. 2, p. 129–134, 1993. STOLFI, R. O. Síntese e Reconhecimento da Fala Humana. Dissertação (Mestrado) — Universidade Estadual de Campinas, Campinas, SP, 2006. Dissertação (mestrado profissional).

WIKIPEDIA. File:Bandwidth 2.svg — From Wikipedia, the free encyclopedia. 2014. Disponível em: <http://en.wikipedia.org/wiki/File:Bandwidth_2.svg>. Acesso em: 04 fev. 2014.