Universidade Federal de Pernambuco
Centro de Informática
Mestrado em Ciência da Computação
Plano de Dissertação de Mestrado
Anderson Gomes da Silva (ags@cin.ufpe.br)
Recife – fevereiro 2012.
2 Índice 1 Identificação... 3 1.1 Mestrando ... 3 1.2 Orientador ... 3 1.3 Título provisório ... 3 1.4 Área de concentração... 3 1.5 Linha de pesquisa ... 3 2 Motivação ... 4 3 Estado da arte ... 5 4 Proposta de Trabalho ... 7 5 Cronograma de Atividades ... 8 6 Referências ... 9
3
1 Identificação
1.1 Mestrando
Anderson Gomes da Silva
1.2 Orientador
Tsang Ing Ren
1.3 Título provisório
Separação cega de sinais de áudio
1.4 Área de concentração
Inteligência artificial
1.5 Linha de pesquisa
4
2 Motivação
A linguagem oral é o modo natural de comunicação do ser humano e também o mais rápido [1]. Isto motiva o estudo de sistemas de reconhecimento e síntese de voz a fim de se criar uma interface homem-máquina mais amigável e simples de usar a partir da comunicação oral, permitindo assim o uso de computadores e outros aparelhos eletrônicos por mais pessoas. Em virtude desse fato, grandes esforços têm sido realizados para a obtenção de sistemas capazes de se comunicar através da fala. Deste modo diversas técnicas têm sido desenvolvidas e aprimoradas com o objetivo de obter melhores resultados nessa categoria de algoritmos. Com o progresso do poder de processamento dos computadores e sistemas embarcados esta área cresce a cada dia. O interesse pelo desenvolvimento de sistemas capazes de ouvir, entender e falar em uma linguagem natural não é novo, porém, a pesquisa se intensificou bastante nas duas últimas décadas [2].
Apesar desses esforços, muitas restrições ainda dificultam a aplicação do reconhecimento automático da fala em ambientes reais. O principal problema existente é a qualidade do sinal de voz recebido pelo sistema, de modo que este alcança uma boa performance diante de sinais limpos e livres de distorções, porém à medida que a qualidade do sinal piora, o desempenho do mesmo cai drasticamente. Durante o percurso percorrido pelo sinal de voz, desde a fonte até o sensor de recepção, pode ocorrer a contaminação deste por ruídos de fundo, vozes de outras pessoas, música, ou até mesmo por versões atrasadas do próprio sinal de voz devido a reflexões em obstáculos, como paredes e móveis, efeito chamado de reverberação. De modo geral, não é possível evitar estas misturas do sinal de voz a outros sinais em aplicações reais, nem é conhecida a forma comi foi realizada estas misturas, sendo então necessário a aplicação de algoritmos que possam separar o sinal de voz original de outros sinais de áudio que tenham se misturado a ele.
Atualmente, a maior limitação dos sistemas de reconhecimento automático da fala é a separação destes sinais. Resolvendo este problema, a implementação de uma máquina capaz de compreender a linguagem falada se torna plausível. Este problema é conhecido como Separação Cega de Fontes (BSS – Blind Source Separation), sendo denominada cega devido à ausência de informações prévias acerca das fontes e do ambiente, que é responsável pelas funções de transferência dos modelos acústicos envolvidas no processo de gravação. A BSS tem sido alvo de pesquisa em diversas áreas, como, por exemplo, processamento de sinais, telecomunicações e bioengenharia. Recentemente, têm sido publicado muitos artigos sobre este assunto e muitas técnicas diferentes foram desenvolvidas a fim de resolver este problema.
5
3 Estado da arte
Em 1985, J. Hérault, C. Jutten, e B. Ans [3], propuseram uma técnica eficiente e inovadora para separação cega de fontes, denominada por eles como análise em componentes independentes (ICA – Independent Component Analisys), devido a similaridade com a técnica de análise em componentes principais (PCA – Principal Component Analisys). Atualmente, a ICA é uma das técnicas mais aplicadas à separação cega de fontes, além de ser a base para diversas outras técnicas e metodologias que utilizam os mesmos princípios para realizar a separação dos sinais.
Um problema de separação cega de sinais muito conhecido é o Cocktail Party, representado na figura 1. Este problema consiste em aplicar um método de separação a uma mistura composta, por exemplo, pelo som da fala de várias pessoas conversando ao mesmo tempo numa sala, por uma música tocando ao fundo e pela reverberação de todos estes sinais presentes, com o objetivo de conseguir o sinal de voz de cada uma destas pessoas isoladamente e também da música. Este problema foi mencionado pela primeira vez em 1953 por Cherry [4].
Figura 1 - Ilustração do problema Cocktail Party.
Inicialmente, a técnica ICA foi criada com o objetivo de resolver problemas semelhantes ao Cocktail Party. Todavia, existem estudos diferentes áreas de conhecimento
6 como, por exemplo, telecomunicações [5], biomedicina [6] e processamento de áudio e imagem [6-9].
Em ambientes livres de reverberação e com atrasos desprezíveis de propagação entre sensores, o problema da separação cega de sinais já está resolvido. Supondo que cada uma das fontes seja estatisticamente independente das outras, é possível separar as componentes independentes de um sinal, através da técnica ICA. Porém, em geral, em ambientes reais, a reverberação está presente, o que complica significativamente o problema, além de não haver ainda uma solução definitiva para este caso. Nestes casos, cada sinal é filtrado pela resposta de frequência do ambiente, tornando bastante complexo o ICA e levando, portanto, a um maior tempo de processamento. Porém, é possível diminuir esta complexidade, trabalhando com os sinais no domínio da frequência, abordagem esta conhecida como Separação Cega de Fontes no Domínio da Frequência (FDBSS – Frequency-Domain Blind Source Separation) [12], que traz outros problemas, como o problema da permutação.
A grande maioria das abordagens para a BSS utiliza a suposição de que as fontes são independentes, visto que a técnica ICA não consegue separar os sinais quando há dependência dos mesmos, devido a esta trabalhar baseada no conceito de independência de sinais. Conceito este que está relacionado diretamente à não-gaussianidade, de forma que esta deve ser maximizada para que os sinais sejam independentes. Diversas técnicas baseadas em ICA têm sido então desenvolvidas com o objetivo de maximizar a não-gaussianidade. Em 1999, Hyvärinen [10], desenvolveu uma técnica chamada FastICA, que é baseado em um esquema de iteração de ponto fixo, maximizando a não-gaussianidade como uma medida de independência. É possível, também, derivar o ICA através da maximização da verossimilhança, algoritmo este conhecido como Natural ICA [11], que necessita da estimativa da distribuição das fontes. Estes dois algoritmos formam a base principal da FDBSS.
Nos últimos anos, alguns trabalhos trouxeram comparações entre alguns dos principais algoritmos ICA e BSS. Chevalier et al [5] realizaram uma comparação entre oito métodos de separação cega de fontes aplicados em sinais de rádio-comunicação. Giannakopoulos et al [13], compararam cinco dos principais métodos para ICA, avaliando a separação de fontes a partir de três conjuntos de dados distintos.
7
4 Proposta de Trabalho
O principal objetivo desse trabalho é realizar um estudo comparativo dos diversos métodos ICA propostos na literatura para BSS e aplicá-los a sinais de áudio, comparando os seus desempenhos e então propor uma nova técnica para separação cega de sinais de áudio, baseada em ICA.
Todas as técnicas apresentadas neste trabalho serão avaliadas através de experimentos práticos com diversos sinais de áudio. Os algoritmos que necessitarem ser implementados, serão no software Matlab da MathWorks.
Os experimentos serão realizados a partir de sinais gravados separadamente como, por exemplo, sinais de fala, trechos musicais, ruídos, dentre outros, que serão misturados sintéticamente e também a partir de sinais gravados já misturados, de forma a simular situações reais.
8
5 Cronograma de Atividades
O cronograma abaixo demonstra o planejamento para as atividades principais do processo de conclusão do mestrado durante os próximos 6 meses (março/2012 – agosto/2012). Todas as disciplinas já foram concluídas e portanto, o cronograma apresenta apenas as atividades relacionadas a dissertação.
Atividades:
A1 – Levantamento bibliográfico – Em andamento A2 – Estudo do material bibliográfico – Em andamento
A3 – Testes e comparação das técnicas de BSS que possuem melhores resultados A4 – Implementação de uma técnica de BSS para áudio baseada em ICA
A5 – Escrita da dissertação (capítulos iniciais)
Atividades Março Abril Maio Junho Julho Agosto
A1 A2 A3 A4 A5
9
6 Referências
[1] Rabiner, L. R., Juang B. H. Automatic speech recognition - a brief history of the technology
development, Elsevier Encyclopedia of Language and Linguistics, 2005.
[2] Prasad, R. K., Saruwatari, H., Shikano, K. Robots That Can Hear, Understand and Talk,
Advanced Robotics, Vol. 18, n. 5, pp. 533–564, 2004.
[3] Hérault, J., Jutten, C., Ans, B. Détection de grandeurs primitives dans un message composite par
une architecture de calcul neuromimétique en apprentissage non supervisé, Actes du Xième colloque
GRETSI, Vol. 2, pp 1017-1022, Nice, France, Mai 1985.
[4] Cherry, E. C. Some Experiments on the Recognition of Speech, with One and with Two Ears, The Journal of the Acoustical Society of America, Vol. 25, Issue 5, pp. 975-979, Sep. 1953.
[5] Chevalier, P., Albera, L., Comon, P., Ferreol, A. Comparative performance analysis of eight
blind source separation methods on radiocommunication signals, Proc. Intl. Joint Conf. on Neural
Networks, Budapest, Hungary, Jul. 2004.
[6] Calhoun, V. D., Adali, T., Hansen, L. K., Larsen J., Pekar, J. J. ICA of Functional MRI
Data: An Overview, 4th International Symposium on Independent Component Analysis and
Blind Source Separation (ICA2003), Nara, Japan, Apr, 2003.
[7] Chien, J.-T., Chen, B.-C. A New Independent Component Analysis for Speech Recognition and
Separation, IEEE Transactions on Audio, Speech and Language Processing, Vol. 14, No. 4,
Jul. 2006.
[8] Vincent, E., Gribonval, R., Févotte C. Performance Measurement in Blind Audio Source
Separation, IEEE Transactions on Audio, Speech and Language Processing, Vol. 14, No. 4,
Jul. 2006.
[9] Mitianoudis, N., Davies, M. E. Audio source separation: solutions and problems, International Journal of Adaptive Control and Signal Processing, 18:299-314, 2004.
[10] Hyvärinen, A. Fast and Robust Fixed-Point Algorithms for Independent Component Analysis, IEEE Transactions on Neural Networks, Vol. 10, No. 3, 626-634, May 1999.
[11] Amari, S., Cichocki, A., Yang, H. H. A New Learning Algorithm for Blind Signal
Separation, Advances in Neural Information Processing Systems, Vol. 8, pp. 757–763, 1996.
[12] Makino, S., Araki, S., Sawada, H. Frequency-Domain Blind Source Separation. In: S. Makino, T. Lee, H. S. (Ed.), Blind Speech Separation, Springer, cap. 2, pp. 47–78, 2007.
10 [13] Giannakopoulos, X., Karhunen, J., Oja, E. “Experimental comparison of neural
algorithms for independent component analysis and blind separation, Int. J. Neural Syst., vol. 9, pp.