• Nenhum resultado encontrado

Sobre os desempenhos da Série de Volterra e de redes neurais na modelagem de não-linearidades de um microfone de carvão

N/A
N/A
Protected

Academic year: 2021

Share "Sobre os desempenhos da Série de Volterra e de redes neurais na modelagem de não-linearidades de um microfone de carvão"

Copied!
8
0
0

Texto

(1)

Sobre os desempenhos da Série de

Volterra e de redes neurais

na modelagem de não-linearidades

de um microfone de carvão

Carlos P. Bernal O.*, Gleyson A. da Silva*,

Luiz P. Calôba** e José A. Apolinário Jr.***

PESQUISA

PESQUISA

PESQUISA

PESQUISA

PESQUISA

* Mestrando da Seção de Engenharia Elétrica – IME.

* * Dr. Ing., Professor do Programa de Engenharia Elétrica – COPPE/UFRJ. *** Dr. Sc., Professor da Seção de Engenharia Elétrica – IME.

INTRODUÇÃO

Uma das principais causas da queda de de-sempenho de sistemas de reconhecimento de voz que utilizam sistemas telefônicos fixos é o descasamento entre as locuções utilizadas para treinamento e as de teste. Este descasamento é devido, principalmente, à cápsula utilizada nos telefones, normalmente de carvão ou eletreto [1], [2]. Foi mostrado em [1], [3] que a degradação RESUMO

Este artigo apresenta uma comparação entre a utilização de Séries de Volterra e de Redes Neurais na modelagem das não-linearidades introduzidas num sinal de voz por um microfone de carvão. Esta comparação pretende estabelecer qual método possui melhor desempenho na simulação das distorções geradas pelo microfone de carvão em sinais de voz. Um bom modelo para o microfone, capaz de representar bem suas não-linearidades, é de grande interesse para diversas aplicações, incluindo reconhecimento de locutor e criptoanálise de sinal de voz embaralhado.

PALAVRAS-CHAVE

Fast Backpropagation, Séries de Volterra, identificação de sistemas, microfone.

pelas cápsulas de carvão pode ser descrita como uma função não-linear com memória.

Existem várias ferramentas para se realizar a identificação de canais não-lineares. Pode-se destacar: Séries de Volterra [4], Redes Neurais Ar-tificiais (RNAs) [5] e filtros LNL [1]. Esta última é uma estrutura constituída de um pré-filtro linear, um filtro não-linear sem memória e um pós-filtro linear, ligados em cascata. Em [1], foi utilizado o algoritmo de Newton para minimizar uma

(2)

fun-ção de erro baseada no somatório de diferenças entre as transformadas de Fourier de tempo cur-to (STFT) dos sinais de referência e modelado, cur- to-mados em quadros sucessivos e uniformemente espaçados. Este procedimento, contudo, mos-trou-se de implementação complexa, além de possuir uma representação equivalente usando-se uma Série de Volterra.

No presente trabalho, procurou-se estabele-cer uma comparação de desempenho, na identifi-cação da resposta em freqüência do microfone de carvão, entre Séries de Volterra e RNAs, ferramen-tas mais usuais e de mais simples implementação. A análise dos resultados foi visualmente ba-seada no espectro da resposta em freqüência dos coeficientes LPC do sinal de voz e, como medidas objetivas, foram empregadas a distância cepstral e uma medida de distância espectral de Bark.

Este artigo está dividido como segue: na seção 2, é feita uma descrição dos modelos utili-zados – Séries de Volterra e RNAs; na seção 3, é mostrado o desempenho de cada modelo levan-tado a partir de experimentos realizados com si-nais reais e, por fim, na seção 4, são apresentadas as conclusões obtidas.

Modelos

A modelagem de um sistema é um proble-ma clássico onde se deseja, dada a entrada, x(n), e a saída de uma planta desconhecida, d(n), criar uma função que busque reproduzir, eficientemente, o par {x(n), d(n)}.

No diagrama mostrado na figura 1, o bloco denominado PLANTA representa o sistema desco-nhecido para o qual apenas se conhecem a entra-da x(n) e a saída d(n). O bloco denominado MODE-LO designa uma estrutura, linear ou não-linear, co-nhecida e cujos parâmetros se procura identificar.

Na identificação do microfone de carvão (plan-ta desconhecida), foram ado(plan-tadas duas estraté-gias: uma filtragem adaptativa não-linear com a utilização de uma série truncada de Volterra e uma identificação com uma RNA conhecida como perceptrons multicamadas (MLP). Estes métodos são resumidos a seguir.

Série de Volterra

Consideremos x(n) e y(n) como os sinais de entrada e saída, respectivamente, de um sistema não-linear causal e discreto no tempo. A expan-são da Série de Volterra usando x(n) é dada por [6]

A série em (1) hp(m1 ,m2 , . . . ,mp) é conhecida como a p-ésima ordem do núcleo do sistema de Volterra. Assumindo que os termos da expressão acima são simétricos, ou seja, que x(n-mi )x(n-mj ) = x(n-mj )x(n-mi ), ressaltamos que o núcleo de Volterra

é formado considerando-se que hp(m1 ,m2 ,...,mp)

não sofre alterações para as p! possíveis permuta-ções dos índices de m1 ,m2 , ... , mp.

Observando que a série infinita em (1) não é adequada para utilização em filtragem adaptativa,

(3)

deve-se trabalhar com as extensões truncadas da Série de Volterra, como mostrado na Figura 2. Em nosso caso, podemos assumir h0 = 0.

Após o truncamento, a equação (1) fica:

Considerando-se um sistema com ordem p = 3 e um número de retardos N – 1 = 2, é possível modelar um núcleo de Volterra que permita ex-pressar o sinal de entrada pelo seguinte vetor [7]:

A figura 2 e a equação (3) possibilitam a com-preensão de como se forma o núcleo de Volterra. A estrutura deste vetor de entrada x(n) é a principal diferença para com os filtros lineares convencio-nais, pois, em vez de serem utilizadas somente amostras retardadas do sinal de entrada, são uti-lizados também produtos cruzados entre amos-tras atuais e aamos-trasadas. Convém salientar que, à medida que se aumenta o número de retardos ou a ordem do polinômio gerado pelos produtos cru-zados, torna-se mais difícil a elaboração do núcleo, gerando uma estrutura de grande dimensão que pode inviabilizar a solução do problema.

Pode-se ressaltar que qualquer tipo de algo-ritmo adaptativo (LMS, RLS, CG, QRD-RLS etc.)

pode ser aplicado para o ajuste dos parâmetros da estrutura [7]. No experimento apresentado neste trabalho, o filtro implementado foi o Conju-gate Gradient (CG) [8].

Redes Neurais Artificiais

Atualmente, as redes neurais constituem-se numa ferramenta de extrema importância na mo-delagem de sistemas não-lineares e, além disso, também podem ser aplicadas a problemas linea-res, cujo funcionamento, nesses casos, asseme-lha-se ao de um filtro adaptativo.

A figura 3 apresenta um exemplo de estru-tura de rede neural constituída de entrada, ca-mada intermediária e caca-mada de saída. De modo geral, a quase totalidade dos problemas em que se aplicam RNAs pode ser resolvida por uma rede similar à indicada no exemplo.

Fig. 2 – Sistema de Volterra ordem p = 3 e 2 (ou N – 1) elementos de retardo.

(4)

Para o propósito deste trabalho, foi utilizada uma rede neural com a seguinte estrutura: duas camadas, em que a intermediária é formada por neurônios do tipo tangente hiperbólica e a cama-da de saícama-da é constituícama-da tal qual o apresentado na figura 3, por um neurônio linear, caracterizan-do um aproximacaracterizan-dor. O tipo de treinamento em-pregado foi uma versão rápida do algoritmo de retropropagação do erro (Fast Backpropagation), conhecido como RPROP [9]. A finalidade do uso desse algoritmo é permitir que a rede convirja de forma mais rápida, fazendo com que, em menos épo-cas, se alcance o valor mínimo da função objetivo. Resultados experimentais

Nas simulações realizadas nesta seção, foi empregado ruído branco Gaussiano gerado de forma artificial como sinal de treinamento. Este si-nal foi reproduzido por uma caixa acústica de alta qualidade e gravado simultaneamente por dois microfones: um profissional (AKG C 3000 B [10]), com uma resposta em freqüência assumida pla-na pla-na faixa de interesse, e um segundo sendo uma cápsula telefônica de carvão. A referida gravação foi realizada num ambiente silencioso (estúdio).

Pôde-se constatar que, ao efetuar gravações desta maneira, foram introduzidos retardos in-desejados. Para poder compensá-los e sincroni-zar o sinal limpo com o distorcido, foi inserida uma seqüência PN (Pseudo-Noise) com o intuito de se obter, pelo emprego da Transformada Rápida de Fourier (FFT), o início do sinal.

Na abordagem pela Série de Volterra, par-tindo de um núcleo puramente linear de 500 coe-ficientes, foram testados vários núcleos a fim de se determinar a melhor escolha. Deste modo, tra-balhou-se com núcleos não-lineares de terceira, quarta, quinta e sexta ordem.

Foram empregados, no primeiro experi-mento, cinco retardos. Para se determinar o nú-mero total de coeficientes dos núcleos (na tabe-la abaixo), foi utilizada a expressão dada em [11]:

Alguns núcleos de Volterra com certas mo-dificações foram construídos para tentar obter um ganho com respeito aos primeiros núcleos. Adotou-se o CG com um fator de esquecimen-to λ = 0.9998. A variável η, que é responsável por uma melhora na convergência do algoritmo, e es-tá compreendida no intervalo (λ – 0.5) ≤ η ≤ λ [8], foi assumida com o valor 0.53. Os resultados são apresentados na tabela 1.

Fig. 3 – Configuração de uma rede neural

Tabela 1 – Parâmetros do Kernel de Volterra

(5)

Para o melhor núcleo obtido (indicado nú-cleo reduzido na tabela 1), foram empregados 150 coeficientes para a parte linear e excluídas as po-tências pares. Após a observação dos resultados com as potências ímpares, optou-se pela utiliza-ção da potência de terceira ordem com 10 retardos. Na figura 4, é possível observar a conver-gência da curva de erro quadrático do núcleo re-duzido, naturalmente ruidosa por ter sido execu-tada uma única realização.

Para o treinamento da rede neural, foi em-pregado o mesmo sinal que fora utilizado com o filtro de Volterra. Levando em consideração que o número de entradas da rede representa o núme-ro de retardos que se intnúme-roduz no sinal, foi arbitra-do o número de neurônios na camada interme-diária igual ao de entradas mais dois.

Como exposto anteriormente, foram utili-zados neurônios do tipo tangente hiperbólica na camada intermediária e um neurônio linear na camada de saída, todos utilizando polarização. Para o treinamento da rede, foram empregadas 2000 épocas e o RPROP. Os resultados podem ser observados na tabela II e na figura 5.

Em ambos os casos, Volterra e RNA, para ter-mos mais parâmetros para avaliar o desempenho

dos mesmos para sinais de interesse, empregou-se um sinal de voz que foi distorcido pelo sistema modelado, com o propósito de ser estabelecida uma comparação com o sinal passado pelo micro-fone de carvão. Duas medidas objetivas de distor-ção do sinal foram utilizadas para comparadistor-ção: a distância cepstral, conforme detalhado em [12], e a medida perceptual Modified Bark Spectral Distortion (MBSD), em [13], [14].

Para a implementação de tais medidas, fo-ram utilizadas janelas com duração em torno de 20ms, o que, com uma taxa de amostragem de 8.000Hz, corresponde a 160 amostras. Isto é usualmente feito de modo a termos um sinal aproximadamente estacionário neste intervalo. A distância cepstral foi computada sem superpo-sição de janelas e a MDSB com uma superposi-ção de 50%. Os resultados da distância cepstral,

Fig. 4 – Curva de aprendizagem da Série de Volterra.

Tabela II – Desempenho das diferentes configurações de RNAS

(6)

obtidos a partir dos modelos gerado e original, são apresentados na Tabela III.

Em negrito estão destacados os melhores resultados das simulações. Para a Série de Volterra,

o melhor desempenho foi obtido com o núcleo reduzido e, para a rede neural, o melhor resulta-do foi obtiresulta-do pela rede com 20 neurônios.

A outra medida (MBSD), apesar de objetiva, busca verificar a perceptualidade do sinal, ou seja, observar o quão próximo é o sinal que se escuta do sinal desejado. Os resultados são apresenta-dos na Tabela IV. Como no caso anterior, os me-lhores resultados estão destacados em negrito.

Uma forma de visualizar os resultados é me-diante o emprego dos coeficientes LPC [15] para representar o espectro do sinal de voz; isto pode ser observado na figura 6. Nessa figura, o valor 1 corresponde a 4 kHz, ou metade da freqüência de

amostragem. Observando a figura 6, pode-se per-ceber que a rede neural apresentou desempenho inferior ao da Série de Volterra, particularmente nas altas freqüências. Considerando-se que o mi-crofone se comporta como um filtro passa-bai-xas, infere-se ser este o fato motivador da rede neural tratar inadequadamente a informação pre-sente nas freqüências mais altas. Buscando um melhor resultado, realizou-se uma pré-ênfase no sinal de treinamento, passando-se o ruído bran-co pelo seguinte filtro:

P(z) = 1 – µz –1 (4)

onde µ é o coeficiente de pré-ênfase.

Usando µ = 0.95 e repetindo o experimento, um novo espectro, mostrado na figura 7, foi obti-do. Os novos resultados de MSE após conver-gência e distâncias são apresentados na tabela V.

Tabela III – Distância Cepstral

Tabela IV – Medida MBSD

Fig. 6 – Espectro dos coeficientes LPC (freqüência normalizada)

Tabela V – Parâmetros das Redes com Pré-ênfase

(7)

Para um total de 2.000 épocas, pode-se cons-tatar, pela comparação dos resultados das tabe-las II e V, que houve uma melhora nos valores obtidos para o erro médio quadrático. Por outro lado, esse efeito não foi observado da mesma maneira para as medidas de distâncias: a cepstral apresentou piores resultados (ao compararmos as tabelas III e V) e a MSDB, apesar de em geral ter melhorado ao compararmos as tabelas IV e V, mostrou um comportamento atípico em rela-ção ao número de neurônios. A melhoria obtida, visualizada na figura 7, ainda apresenta resulta-dos inferiores aos obtiresulta-dos pela série de Volterra. CONCLUSÕES

Neste trabalho, foi realizada uma análise com-parativa entre a utilização de Séries de Volterra e de redes neurais na modelagem das não-lineari-dades introduzidas num sinal de voz por um mi-crofone de carvão. Os resultados experimentais mostraram que, para a série de Volterra, o núcleo reduzido de terceira ordem apresentou desem-penho superior aos demais; a modelagem

usan-Fig. 7 – Espectro dos Coeficientes LPC.

Referências bibliográficas

[1] T. F. Quatieri, D. A. Reynolds, G. C. O’Leary, Estimation of Handset Nonlinearity with Application to Speaker Recongnition, IEEE Transactions on Speech and Audio Processing, p. 567-584, v. 8, no 5, September 2000.

[2] D. A. Reynolds, M. A. Zissman, T. F. Quatieri, G. C. O’Leary, B. A. Carlson, The effects of telephone transmission degradations on speaker recognition performance, ICASSP, 1995.

[3] H. F. Olson, Elements of Acoustic Engineering, UK, Chapman & Hall, 1940.

[4] Ibnkahla, M. Bershad, N. J. Sombrin, F. Castaníe, Neural Networks Modeling and Identification of Nonlinear Channels with Memory: Algorithms, Applications, and Analytic Models, IEEE Transactions on Signal Processing, p. 1.208-1.220, v. 46, no 5, May 1998.

[5] A. Juditsky et al. Nonlinear black-box modeling in system identification: Mathematical foundations, Automatica, v. 31, no 12, p. 1.725-1.750, 1995.

[6] V. John Mathews, Adaptive Polynomial Filters, IEEE Signal Processing Magazine, v. 6, p. 10-26, 1991.

[7] P. S. R. Diniz, Adaptive Filtering Algorithms and Practical Implementation, 2nd Edition, Klumer Academic Publishers, Boston, 2002.

[8] P. S. Chang, A. N. Willson, Analysis of Conjugate Gradient Algorithms for Adaptive Filtering, IEEE Transactions on Signal Processing, v. 48, no 2, p. 409-417, February 2000.

do Série de Volterra obteve melhores resultados do que usando rede neural, tanto no que diz res-peito à distância cepstral, quanto no observado para a medida perceptual. Em trabalhos futuros, pretende-se investigar o efeito dos seguintes as-pectos: utilização de uma base de dados em vez de poucos sinais gravados, utilização de novas estruturas (modelo híbrido linear em paralelo a uma rede neural) e o tratamento do espectro em sub-bandas por ferramentas como pacotes de wavelets e bancos de filtros.

(8)

[9] M. Riedmiller, H. Braun, A direct Adaptative Method for Faster Backpropagation Learning: The RPROP Algorithm, Proceedings of the IEEE Int. Conf. on NN (ICNN), p. 586-591, San Francisco, 1993.

[10] http://www.akg-acoustics.com

[11] L. Tan, J. Jiang, Adaptive Volterra Filters for Active Control of Nonlinear Noise Processes, IEEE Trans. on Signal Processing, v. 49, no 8, p. 1.667-1.676, August 2001.

[12] S. Dimolitsas, Objective Speech distortion measures and their relevance to speech quality assessment, Communications, Speech, and Vision, IEE Proceedings, v. 136, no 5, p. 317-324, October 1989.

[13] Wonho Yang, M. Dixon, R. Yantorno, A Modified Bark Spectral Distortion Measure which uses Noise Masking Threshold, Speech Coding For Telecommunications Proceeding, 1997, IEEE Workshop on, p. 55-56, September 1997.

[14] Wonho Yang, R. Yantorno, Improvement of MBSD by scaling noise masking threshold and correlation analysis with MOS difference instead of MOS, Acoustics, Speech, and Signal Processing, 1999. ICASSP ’99. Proceedings., 1999 IEEE International Conference on, v. 2, p. 673-676, March 1999.

[15] J. D. Markel, A. H. Gray Jr., Linear Prediction of Speech, Springer-Verlag, Berlin Heidelberg, 1976.

Trata-se de perfeita introdução ao estudo do novo fenômeno que

preocupa a humanidade: o terrorismo internacional. A obra reúne

significativa matéria oriunda de estudiosos desse complexo

tema que, ora, aflige a humanidade. O autor explora definições,

conseqüências sociológicas e psicológicas, legais e éticas.

Este título oferece aos assinantes/leitores novas informações

da forma e dos processos de atuação do terrorismo mundial em sua

tentativa para desgastar a autoridade do Estado constituído.

Terrorismo, um Retrato

David J. Whittaker

BIBLIOTECA DO EXÉRCITO EDITORA

Coleção General Benício

BIBLIOTECA DO EXÉRCITO EDITORA

Coleção General Benício

Referências

Documentos relacionados

The challenges of aging societies and the need to create strong and effective bonds of solidarity between generations lead us to develop an intergenerational

Afinal de contas, tanto uma quanto a outra são ferramentas essenciais para a compreensão da realidade, além de ser o principal motivo da re- pulsa pela matemática, uma vez que é

de professores, contudo, os resultados encontrados dão conta de que este aspecto constitui-se em preocupação para gestores de escola e da sede da SEduc/AM, em

O Programa de Avaliação da Rede Pública de Educação Básica (Proeb), criado em 2000, em Minas Gerais, foi o primeiro programa a fornecer os subsídios necessários para que

Com a mudança de gestão da SRE Ubá em 2015, o presidente do CME de 2012 e também Analista Educacional foi nomeado Diretor Educacional da SRE Ubá e o projeto começou a ganhar

Dessa maneira, os resultados desta tese são uma síntese que propõe o uso de índices não convencionais de conforto térmico, utilizando o Índice de Temperatura de Globo Negro e

​ — these walls are solidly put together”; and here, through the mere frenzy of bravado, I rapped heavily with a cane which I held in my hand, upon that very portion of

Bom, eu penso que no contexto do livro ele traz muito do que é viver essa vida no sertão, e ele traz isso com muitos detalhes, que tanto as pessoas se juntam ao grupo para