• Nenhum resultado encontrado

UTILIZAÇÃO DE REDES NEURAIS ARTIFICIAIS NO RECONHECIMENTO DE VOGAIS

N/A
N/A
Protected

Academic year: 2021

Share "UTILIZAÇÃO DE REDES NEURAIS ARTIFICIAIS NO RECONHECIMENTO DE VOGAIS"

Copied!
10
0
0

Texto

(1)

Nilmar de Souza (1) (nilmarufrb@gmail.com); Walter Gonçalves de Souza Filho (2) (waltersouzafilho@gmail.com); Micael Lima Conceição (3) (micael.ufrb@hotmail.com);

José Antônio dos Santos da Silva (4) (jbcet2009@hotmail.com)

(1)

Universidade Federal da Bahia (UFBA); Programa de Pós Graduação em Mecatrônica

(2) Centro Educação Tecnológica Estado Bahia (CETEB);

(3)Universidade Federal do Recôncavo da Bahia (UFRB); Centro de Ciências Exatas e Tecnológicas (4)Universidade Federal do Recôncavo da Bahia (UFRB); Centro de Ciências Exatas e Tecnológicas

RESUMO: As ferramentas de reconhecimento de padrões de voz deixaram de ser um luxo para poucos, e

têm se tornado uma tecnologia cada vez mais acessível. O principal objetivo deste trabalho foi construir uma ferramenta de reconhecimento de padrões de voz em Matlab utilizando Redes Neurais Artificiais. A primeira etapa na execução do trabalho foi a captação do sinal de voz, em seguida o sinal foi normalizado e posteriormente foi aplicada a Transformada Rápida de Fourier. As frequências dominantes foram encontradas e entraram na rede como característica de classificação. A rede neural tem 20 nós na camada de entrada, 7 nós em cada uma das duas camadas intermediárias e 5 na camada de saída. Para o presente trabalho foram utilizadas 15 amostras de cada vogal coletadas de 6 faladores. Essas amostras foram processadas e como resultados foram extraídas 20 características, as quais foram introduzidas na rede neural. A rede apresentou um acerto médio de 70%, com voz de pessoas que não participaram do treinamento. Para melhorar o índice de acerto deverão ser escolhidas novas faixas de extração de características e utilizar ambientes menos ruidosos para gravação e teste do sistema.

PALAVRAS-CHAVE: Transformada Rápida de Fourier (FFT), Acústica, Reconhecimento de Padrões,

Inteligência Artificial.

USE OF ARTIFICIAL NEURAL NETWORKS IN MEMBERS RECOGNITION

ABSTRACT: The applications of pattern voice recognition are no longer a luxurry for the few, and have

become an increasingly accessible technology. The main objective of this paper was to develop a tool for recognition of voice patterns in Matlab using Artificial Neural Networks. The first step in the execution of the paper was to capture the voice signal, then the signal was normalized and was later applied the Fast Fourier Transform. The dominant frequencies were found and entered the network as a classification feature. The neural network has 20 nodes in the input layer nodes 7 in each of the two intermediate layers and 5 in the output layer. Were used 15 samples collected from each vowel 6 talkers. These samples were processed and results are extracted as features 20, which were used as input to the neural network. The network had an average of 70% correct, with the voice of people who attended the training. o improve the hit rate should be chosen new tracks feature extraction and use less noisy for recording and system testing.

(2)

1. INTRODUÇÃO

As primeiras experiências de construção de sistemas em máquinas de reconhecimento automático de padrões de voz surgiram na década de 50 (BRESOLIN, 2003). E vários trabalhos seguiram a mesma intenção em construir uma ferramenta funcional para esse fim.

A dificuldade na aplicação dessa está ligada a interdisciplinaridade necessária para a construção de tipo de sistema. Basicamente, as áreas que ligadas a sua construção estão sendo listadas a seguir:

Processamento de Sinais: é uma das etapas mais importantes do processo. Nela ocorre a seleção de informações relevantes do sinal da fala. É onde ocorre a análise espectral usada para caracterizar as propriedades variantes no tempo do sinal da voz.

Acústica: para realizar um reconhecimento eficiente é necessário conhecer o funcionamento de produção (fala) e percepção do sinal de voz (audição).

Padrões de Reconhecimento: corresponde ao grupo de algoritmos utilizados na construção de conjunto de dados com características comuns.

Análise de Padrões: procedimentos que estimam parâmetros de modelos estatísticos.

Linguística: corresponde à ciência ligada ao estudo da linguagem, gramática e evolução dos idiomas.

Fisiologia: é a parte das ciências biológicas responsável pelo estudo das funções mecânicas, físicas e bioquímicas nos seres vivos. É aplicada principalmente quando as redes neurais são aplicadas, visto que essa ferramenta simula o funcionamento dos neurônios biológicos.

Ciências da Computação: o seu conhecimento aumenta a eficiência dos algoritmos usados num sistema de reconhecimento de voz.

O reconhecimento de padrões é um processo de classificação de objetos, baseado em informações previamente fornecidas (PETTRES, 2011). Essa é uma ciência com longa história, entretanto foi fortemente desenvolvida a partir dos anos 60. Pode ser usada para resolver problemas das mais diversas áreas como estatística, engenharia, ciências da computação, psicologia e fisiologia, entre outras.

Um sistema de reconhecimento de padrões é composto basicamente por três etapas: representação dos dados de entrada e sua mensuração, extração de características e classificação do objeto em análise (CASTRO & PRADO, 2002).

O fluxograma da Figura 1 ilustra as principais etapas do reconhecimento de padrões.

FIGURA 1 - Principais etapas para o diagnóstico de falhas.

Captação do Sinal Extração de Características Classificação de Objetos

(3)

Uma forma particular de reconhecimento de padrões é o reconhecimento de voz. Para Kumari (2012) o reconhecimento de voz é um processo de identificação de características individuais de cada palavra incluídas nas ondas da fala (KUMARI et. al, 2012). É uma técnica que tem várias aplicações dentre as quais podem ser citadas: biometria baseada em voz, serviços de acesso a banco de dados, serviços de atendimento em call center, aplicativos para smartphones, acessibilidade para pessoas com deficiência visual.

Existem vários caminhos possíveis para elaborar uma ferramenta para o reconhecimento de voz. Vyas (2013) apresentou um modelo de reconhecimento de palavras utilizando técnicas de janelamento e Mel Frequency Cepstrum Co-Efficients (MFCC) para extração de características e Gaussian Mixture Models (GMM) para a classificação (VYAS, 2013). Shisode e Miskin (2013) realizaram a identificação de faladores utilizando janelamento hamming, transformada rápida de Fourier (FFT) e MFCC para extração de características e GMM para classificação (SHISODE & MISKIN, 2013). Dede e Sazl (2010) realizaram o tratamento de sinal e extração de características utilizando janelamento, FFT e MFCC, para o reconhecimento eles utilizaram três tipos de redes neurais (Perceptron Multicamadas Elman network, Probabilistic Neural Network (PNN)) (DEDE & SAZL, 2010).

Dentro do reconhecimento de voz, alguns trabalhos têm focado no reconhecimento de vogais. Ferreira (2007) desenvolveu um instrumento para reconhecer as vogais pronunciadas por mulheres e crianças, utilizando Perceptual Spectral Clusters (PSC) e MFCC (FERREIRA, 2007). Kumar e Lajish (2012) construíram uma ferramenta para reconhecer as vogais pronunciadas em Malayalam, nesse trabalho eles utilizaram o número de vezes que o sinal passava pelo zero como parâmetro de classificação (zerocrossing). Eles perceberam que essa características é semelhante para as mesmas vogais e diferente entre vogais distintas. Na etapa de classificação os autores utilizaram redes neurais artificiais (KUMAR & LAJISH, 2013).

No presente trabalho a está sendo proposta uma estratégia semelhante a de Kumar e Lajish, entretanto no lugar de utilizar a zerocrossinhg foi utilizada a FFT. Foi identificado que entre as mesmas vogais existem freqüências parecidas, as quais se diferenciam entre vogais diferentes. Sendo assim, essa foi a estratégia utilizada para classificação.

1.1 Objetivo

Construir uma ferramenta de reconhecimento de padrões de voz.

(4)

principalmente IEEE. Foram identificadas possíveis saídas para o problema, mas a pouca experiência do usuário com o processamento de sinal atrapalhou a aplicação dos artigos. Por isso foi necessário encontrar uma técnica que tornasse viável construir uma ferramenta com o conhecimento adquirido.

Para chegar a uma versão definitiva algumas experiências foram realizadas. A primeira foi a elaboração de um programa de comparação, sem utilizar uma estratégia de inteligência artificial de aprendizado. Consistia em uma ferramenta na qual havia uma amostra de cada vogal, para utilizar o usuário fala uma vogal e o programa compara com a vogal que existe. Para uma mesma pessoa falando ele funcionou muito bem, entretanto quando outros usuários utilizaram os resultados não foram muito satisfatórios.

O segundo desenvolvido seguia o modelo proposto por Hasnain (2008), que inicia com a normalização, identificação do comprimento do vetor (length) que será usado na FFT, detecção de endpoint (isolar a palavra do ruído), aplicar uma técnica de janelamento, fragmentação do sinal em frações estacionárias (o autor usou 100ms, mas na literatura o comum é entre 10 e 30 ms), aplicar a Transformada rápida de Fourier (FFT), calculo do coeficiente de correlação e aplicação da rede neural.

O terceiro e definitivo foi baseado na idéia proposta por Kumar e Lajish. Eles perceberam que o zerocrossing de mesmas vogais é muito parecido e apresenta diferenças consideráveis entre vogais diferentes. E esse foi o mecanismo utilizado selecionar as vogais, a rede neural recebeu elementos separados segundo a faixa de cruzamentos com a origem. No presente trabalho a transformada rápida de Fourier substituiu a zerocrossing. Uma vez que analisando as freqüências das vogais foi observado que existe uma similaridade nos picos de amplitude em freqüências muito parecidas para as mesmas vogais, e que esses picos mudavam para vogais diferentes.

A primeira etapa foi a captação do sinal de voz, foram coletadas 15 amostras de cada vogal, pronunciadas por 6 faladores. Os sinais extraídos estão sendo apresentados na Figura 2.

(5)

A E

I O

U

FIGURA 2 - Sinal das Vogais

Na segunda etapa o sinal foi normalizado. Em seguida foi aplicada a Transformada Rápida de Fourier, na qual foram observadas as freqüências comuns que foram utilizadas como critério de classificação. Da Figura 3 a 7 estão sendo apresentados gráficos de modo que é possível observar as frequências dominantes de cada vogal. A faixa onde essas frequências são encontradas foram extraídas de todos os sinais e entraram na rede como características de classificação.

(6)

FIGURA 3 - Frequência Dominante da Vogal "A "

FIGURA 4 - Frequência Dominante da Vogal "E "

(7)

FIGURA 6 - Frequência Dominante da Vogal "O "

FIGURA 7 - Frequência Dominante da Vogal "U"

O método de classificação adotado foram as redes neurais artificiais que aparecem com freqüência em aplicações de reconhecimento de padrões de voz, inclusive no usado como base para a elaboração do presente trabalho. Foram usados 20 nós na camada de entrada, 7 nós em cada uma das duas camadas intermediarias e 5 na camada de saída (um para cada vogal).

A função de ativação utilizada foi a sigmoidal (logsig). A tela da nntraintool está sendo apresentada na Figura 8.

(8)

FIGURA 8 - Tela nntraintool

O trabalho foi desenvolvido seguindo as seguintes etapas:

TABELA 1 - Metodologia

Etapa Método

Captação do Sinal Foi utilizado o software ACID Music Studio 9.0, com o microfone do notebook, a uma taxa de 8 bits a 8kHz. A cada falador foram dados 2 segundos.

Extração de Características Transformar de Estéreo para Mono Normalizar

Aplicar a transformada de Fourier Normalizar

Seleção das Frequências Importante para diferenciar as vogais.

(9)

3. RESULTADOS

Para o presente trabalho foram utilizadas 15 amostras de cada vogal coletadas de 6 faladores. Essas amostras foram processadas e como resultados foram extraídas 20 características, as quais foram introduzidas na rede neural. A rede apresentou um acerto médio de 70%, com voz de pessoas que não participaram do treinamento.

TABELA 2 - Resultado Vogal Percentual de Acerto

A 90% E 70% I 70% O 60% U 60% 4. CONCLUSÃO

A ferramenta produzida apresenta bons resultados para classificações com indicies de acerto acima de 70%. Entretanto como algumas amostras foram produzidas em ambiente ruidoso quando essas amostras são usadas no treinamento elas conduzem o sistema a um erro. Para melhorar o índice de acerto do programa poderão ser escolhidas novas faixas de extração de características e utilizar ambiente menos ruidosos para gravação e teste do sistema.

(10)

REFERÊNCIAS

BRESOLIN, A. A. Estudo do Reconhecimento de Voz para o Acionamento de Equipamentos Elétricos via Comandos em Português. Dissertação de Mestrado em Automação Industrial. Universidade do Estado de Santa Catarina (UESC), 2003.

CASTRO, A. A. M. de; PRADO, P. P. L. do. Algoritmos para Reconhecimento de Padrões. Rev. Ciênc. Exatas, Taubaté-SP, v. 5-8, p. 129-145, 2002

DEDE, G; SAZL, M. H. Speech recognition with artificial neural networks. Digital Signal Processing, v. 20, p. 763–768, 2010.

FERREIRA, A. J. S. Static features in real-time recognition of isolated vowels at high pitch. Acoustical Society of America. V. 122(4), p. 2389–2404, 2007.

KUMAR, R. K. S.; LAJISH, V. L. Phoneme recognition using zerocrossing interval distribution of speech patterns and ANN. Int J Speech Technol, v. 16, p. 125–131, 2013.

KUMARI, S; ARYA, K; SAXENA, K. Controlling Of Device Through Voice Recognition Using Matlab. International Journal of Advanced Technology & Engineering Research (IJATER), Vol. 2, 2012.

PETTRES, R. Reconhecimento de Padrões de Defeitos em Concreto a Partir de Imagens Térmicas Estacionárias e Redes Neurais Artificiais. Dissertação de Mestrado em Ciências. Universidade Federal do Paraná (UFPR), 2011.

SHISODE, P. A.; MISKIN, V. S. Speaker Recognition Using Matlab. Golden Research Thoughts, Volume 2, 2013.

VYAS, M. A Gaussian Mixture Model Based Speech Recognition System Using Matlab. Signal & Image Processing : An International Journal (SIPIJ) Vol.4, No.4, 2013.

Referências

Documentos relacionados

o) Regras relativas a de cada uma das categorias de investidores a que se refere o artigo 44.º e, se for o caso, à identificação do representante comum.. 4 - No caso de fundos

Como não foram encontradas diferenças de processamento online (tempos de reação) entre os sobrecomuns e os nomes com estereótipo de gênero em nenhum dos dois testes, conclui-se

Para acessar as opções de gerenciamento de energia, acesse o Menu pela tecla [MENU] e usando as teclas de navegação (F2/▲ e F3/▼) marque a opção “Opções” e

Figura 7: Porcentagem de enraizamento de miniestacas herbáceas de cinco porta- enxertos de pessegueiro, tratadas com diferentes concentrações de AIB ...39 Figura 8: (A)

3M RACING - DOMÍNIO AMBIENTAL - CLUBE VERDE SÉRGIO IZIDORO - ARQUITETURA DE TEATROS MARUMBY RACING. BATUKE PNEUS

Theo Pas’Cal, que trabalha profissional- mente desde os 13 anos e é formado pelo Conservatório de Música de Lisboa, para além de várias digressões pelo mundo com Carmen e

 Esse medicamento foi receitado para você e não deve ser fornecido a outras pessoas, pois pode ser prejudicial a elas, mesmo que os sintomas que elas apresentem sejam iguais

Os indivíduos com insuficiência hepática grave (Child-Pugh C) apresentam uma capacidade reduzida para eliminar o lenvatinibe conforme demonstrado pelos aumentos de AUC