Algoritmos heuristicos em separação cega de fontes

(1)

DEPARTAMENTO DE COMUNICAÇÕES

Algoritmos Heurísticos em Separação Cega de Fontes

Autor Tiago Macedo Dias

Orientador

Prof. Dr. João Marcos Travassos Romano

Co-orientador

Prof. Dr. Romis Ribeiro de Faissol Attux

Banca Examinadora:

Prof. Dr. João Marcos Travassos Romano (FEEC/UNICAMP) Prof. Dr. Christiano Lyra Filho (FEEC/UNICAMP)

Prof. Dr. Luiz Cláudius Coradine (IC/UFAL)

Dissertação apresentada à Faculdade de Engenharia Elétrica e de Computação da Universidade Estadual de Campinas como parte dos requisitos para a obtenção do título de Mestre em Engenharia Elétrica.

(2)

Dias, Tiago Macedo

D543a Algoritmos Heurísticos em Separação Cega de Fontes /Tiago Macedo Dias. – Campinas, SP: [s.n.], 2008.

Orientadores: João Marcos Travassos Romano, Romis Ribeiro de Faissol Attux.

Dissertação de Mestrado - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação.

1. Sistemas de telecomunicação. 2. Sistemas não-lineares. 3. Algoritmos genéticos. 4. Teoria da informação. I. Romano, João Marcos Travassos. II. Attux, Romis Ribeiro de Faissol. III. Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação. IV. Título

Título em Inglês: Heuristic Algorithms Applied to Blind Source Separation

Palavras-chave em Inglês: Telecommunication systems, Blind Source Separation, Nonlinear Blind Source Separation, Bioinspired Algorithms, Metaheuristics

Área de concentração: Telecomunicações e Telemática Titulação: Mestre em Engenharia Elétrica

Banca Examinadora: Christiano Lyra Filho, Luis Cláudius Coradine Data da defesa: 16/12/2008

Programa de Pós Graduação: Engenharia Elétrica

(3)

(4)

Esta dissertação se propõe a estudar um novo método para separação cega de fontes baseado no modelo Post-Nonlinear, que une uma ferramenta de busca global baseada em computação bioinspirada a uma etapa de busca local conduzida pelo algoritmo FastICA. A idéia subjacente à proposta é procurar obter soluções precisas e eficientes usando de maneira parcimoniosa os recursos computacionais disponíveis. A nova proposta foi testada em diferentes cenários, e, em todos os casos, estabeleceram-se comparações com uma abordagem alternativa, cujo passo de otimização não inclui o estágio de busca local (ou “memética”). Os resultados obtidos por meio de simulações indicam que um bom compromisso entre desempenho e custo computacional foi, de fato, atingido.

Palavras-chave: Post-Nonlinear, algoritmos bioinspirados, separação cega de fontes, algoritmos meméticos.

Abstract

This work deals with a new method for source separation of Post-Nonlinear mixtures that brings together an evolutionary-based global search and a local search step based on the FastICA algorithm. The rationale of the proposal is to attempt to obtain efficient and precise solutions using with parsimony the available computational resources. The new proposal was tested in different scenarios and, in all cases, we attempted to establish grounds for comparison with an alternative approach whose optimization step does not include the local (memetic) search stage. Simulation results indicate that a good tradeoff between performance and computational cost was indeed reached.

Keywords: Post-Nonlinear, bioinspired algorithms, blind source separation, memetic algorithms.

(5)

Ao meu orientador Prof. João Marcos Travassos Romano e co-orientador Prof. Romis Ribeiro de Faissol Attux, sou grato pela orientação.

Agradeço em especial ao Ricardo Suyama pela orientação informal. A todo pessoal do DSPCom pela colaboração, orientação e amizade. Aos demais colegas de pós-graduação, pelas críticas e sugestões. A minha família pelo apoio durante essa jornada.

A minha namorada pela compreensão e apoio.

(6)

Aos meus pais, irmãos, avós e tios.

Em especial a minhas avós Maria Hipólito Macedo e Rosária Dias.

(7)

Lista de Figuras xiii

Lista de Tabelas xv

Abreviaturas xvii

Lista de Símbolos xvii

Trabalhos Publicados Pelo Autor xix

1 Introdução 1

1.1 Organização . . . 2

2 Separação Cega de Fontes 3 2.1 Descrição do problema . . . 3

2.2 Aplicações . . . 5

2.2.1 Separação de sinais de áudio - O cocktail party-problem . . . 5

2.2.2 Processamento de sinais biomédicos . . . 6

2.2.3 Telecomunicações - BSS e equalização cega de canais . . . 7

2.2.4 Exploração Geofísica - Remote Sensing . . . 9

2.2.5 Extração de imagens . . . 10

2.2.6 Outras Aplicações . . . 11

2.3 Formalização matemática . . . 12

2.3.1 Sistemas Lineares e Não-Lineares . . . 13

2.3.2 Sistemas Instantâneos e com Memória . . . 13

2.3.3 Com Relação ao Número de Fontes e de Sensores . . . 13

2.4 Análise por Componentes Independentes . . . 14

2.4.1 Independência x Descorrelação Estatística . . . 15

2.4.2 Separabilidade . . . 17

2.5 Estratégias para ICA (Independent Component Analysis . . . 18 ix

(8)

2.5.1 Entropia e Informação Mútua . . . 18

2.5.1.1 Divergência de Kullback-Leibler . . . 19

2.5.1.2 Contrastes . . . 19

2.5.1.3 MaxEnt e InfoMax . . . 20

2.5.2 Critérios Baseados em Não-Gaussianidade - Negentropia, Curtose e FastICA . . . 22

2.5.2.1 Negentropia . . . 22

2.5.2.2 Curtose . . . 23

2.5.3 FastICA . . . 23

2.5.4 Estimação por máxima verossimilhança . . . 25

2.5.5 Análise por componentes principais (PCA), Braqueamento e PCA não-linear (NPCA) . . . 27

2.6 Separação de misturas não-lineares . . . 30

2.6.1 ICA não-linear . . . 31

2.6.2 Modelo Post-NonLinear (PNL) . . . 34

2.6.3 Recuperação da independência estatística . . . 35

2.7 Métodos para Separação de Misturas PNL . . . 36

2.7.1 O algoritmo de Taleb-Jutten . . . 36

2.7.2 Gaussianização de variáveis . . . 38

2.8 Comentários Gerais . . . 39

3 Algoritmos Heurísticos e Metaheurísticas 41 3.1 Aplicações . . . 42

3.2 Algoritmos de busca local . . . 44

3.3 Metaheurísticas de análise de vizinhança . . . 45

3.3.1 Busca Tabu . . . 45 3.3.2 Colônia de Formigas . . . 46 3.3.3 Simulated Annealing . . . 48 3.4 Algoritmos Bioinspirados . . . 49 3.4.1 Algoritmos Genéticos . . . 49 3.4.1.1 A Técnica . . . 51 3.4.1.2 Codificação . . . 52

3.4.1.3 Função de Avaliação - Fitness . . . 53

3.4.1.4 Operadores genéticos . . . 53

3.4.1.5 Convergência . . . 58

3.4.1.6 Parâmetros . . . 59

3.4.1.7 Aplicando a técnica . . . 60

3.4.2 Sistema Imunológico Artificial (Algoritmo opt-aiNet) . . . 61

3.4.2.1 Propriedades . . . 61

3.4.2.2 Definições . . . 62

(9)

3.4.2.4 Sistema Imune Adaptativo . . . 63

3.4.2.5 Características de Sistemas Imunológicos . . . 66

3.4.2.6 O Algoritmo opt-aiNet . . . 67

3.5 Algoritmos Meméticos ou híbridos . . . 69

3.5.1 Pseudocódigo . . . 70

4 Análise de Técnicas de Otimização Bioinspiradas e Meméticas em NBSS 73 4.1 Aplicabilidade do modelo de Misturas PNL (Post-NonLinear) utilizando a Informação Mútua . . . 74

4.1.1 Estimação de entropia usando Estatísticas de ordem . . . 75

4.1.2 Aplicação de Algoritmos Bioinspirados . . . 77

4.1.2.1 Aplicação de Algoritmos Genéticos . . . 77

4.1.2.2 Aplicação de Algoritmo opt-aiNet . . . 79

4.1.3 Interpretação dos Resultados . . . 80

4.1.3.1 Primeiro cenário . . . 80

4.1.3.2 Segundo cenário . . . 85

4.2 Aplicação de Técnicas de Gaussianização . . . 87

4.2.1 Minimização da Negentropia como medida de Gaussianização . . 88

4.2.2 Aplicabilidade ao problema PNL . . . 89

4.2.2.1 Aplicação de Algoritmos Genéticos . . . 89

4.2.2.2 Aplicação de Algoritmo opt-aiNet . . . 90

4.2.3 O conceito de Gaussianização estendida . . . 91

4.2.4 Interpretação dos Resultados . . . 92

4.2.4.1 Primeiro cenário . . . 92

4.2.4.2 Segundo cenário . . . 98

(10)

2.1 O Cocktail-party Problem . . . 6

2.2 O Esquema de Equalização . . . 8

2.3 Imagens Iniciais . . . 11

2.4 Imagens Misturadas . . . 11

2.5 Estimativas . . . 11

2.6 Modelo do sistema de misturas do problema de BSS. . . 12

2.7 Sistema Separador para o caso Linear . . . 14

2.8 Sistema Separador x Sistema Misturador . . . 15

2.9 Fontes . . . 16

2.10 Misturas . . . 17

2.11 Estrutura do sistema separador no critério InfoMax . . . 21

2.12 Tratamento da BSS considerando estatística de segunda ordem. . . 30

2.13 Modelo PNL . . . 34

2.14 Modelo PNL - Gaussianização . . . 38

3.1 Gráfico de uma função objetivo com uma variável. . . 45

3.2 Codificação Binária, Inteira e Real . . . 53

3.3 Método da roleta. . . 54

3.4 Método do torneio. . . 55

3.5 Método da roleta com melhor indivíduo distante dos restantes sob a ótica do fitness. . . 55

3.6 Método do rank para o mesmo problema da figura 3.5, com mapeamento ζ(·) da função de fitness. . . 56

3.7 Exemplo de cross-over multiponto. . . 56

3.8 Ilustração da técnica de algoritmo genético. . . 61

3.9 Funcionamento do sistema imunológico. Fonte: [de Castro & Zuben (2000)]. . . 63

3.10 O linfócito e o antígeno. Fonte: [de Castro & Zuben (2000)]. . . 64 xiii

(11)

3.11 Recombinação para geração de anticorpos. Fonte: [de Castro & Zuben

(2000)]. . . 65

3.12 Maturação de Afinidade. Fonte: [de Castro & Zuben (2000)]. . . 66

4.1 O modelo Post-NonLinear (PNL). . . 75

4.2 Estimação da entropia de uma variável aleatória uniforme [Duarte (2006)]. 78 4.3 Sinais observados e estimados para o primeiro cenário utilizando método memético com opt-aiNet. . . 81

4.4 Sinais observados e estimados para o primeiro cenário utilizando método memético com GA. . . 82

4.5 Gráficos de performance para o primeiro cenário (IM). . . 82

4.6 Gráficos comparativos do Erro Quadrático Médio para o primeiro cenário (IM). . . 83

4.7 Gráficos de performance para o segundo cenário (IM). . . 86

4.8 Gráficos comparativos do Erro Quadrático Médio para o segundo cenário (IM). . . 86

4.9 Modelo PNL - Gaussianização . . . 87

4.10 Estratégia de transformação gaussiana de uma variável aleatória . . . 88

4.11 Técnica de gaussianização estendida . . . 92

4.12 Gaussianização estendida no problema PNL . . . 92

4.13 Gráficos de performance para o primeiro cenário (Gauss.). . . 94

4.14 Gráficos comparativos do Erro Quadrático Médio para o primeiro cenário (Gauss.). . . 95

4.15 Gráficos de performance para o primeiro cenário (Gauss. Est.). . . 95

4.16 Gráficos comparativos do Erro Quadrático Médio para o primeiro cenário (Gauss. Est.). . . 96

4.17 Soma da Densidade de n sinais uniformemente distribuídos. . . 97

4.18 Gráficos de performance para o segundo cenário (Gauss.). . . 99

4.19 Gráficos comparativos do Erro Quadrático Médio para o segundo cenário (Gauss.). . . 99

4.20 Gráficos de performance para o segundo cenário (Gauss. Est.). . . 100

4.21 Gráficos comparativos do Erro Quadrático Médio para o segundo cenário (Gauss. Est.). . . 100

(12)

2.1 Algoritmo FastICA com ortogonalização simétrica. . . 25 2.2 Algoritmo de Taleb e Jutten. . . 37 4.1 Resultados relacionados à convergência e tempo de simulação para o primeiro cenário

(IM). . . 81 4.2 Média de resultados MSE para o primeiro cenário (IM). . . 81 4.3 Resultados relacionados à convergência e tempo de simulação para o segundo cenário

(IM). . . 85 4.4 Média de resultados MSE para o segundo cenário (IM). . . 85 4.5 Resultados relacionados à convergência e tempo de simulação para o primeiro cenário

(Gauss.). . . 93 4.6 Resultados relacionados à convergência e tempo de simulação para o primeiro cenário

(Gauss.) - continuação. . . 94 4.7 Média de resultados MSE para o primeiro cenário (Gauss.). . . 94 4.8 Resultados relacionados à convergência e tempo de simulação para o segundo cenário

(Gauss.). . . 98 4.9 Resultados relacionados à convergência e tempo de simulação para o segundo cenário

(Gauss.) - continuação. . . 98 4.10 Média de resultados MSE para o segundo cenário (Gauss.). . . 98

(13)

AG: Algoritmos Genéticos

AGH: Algoritmos Genéticos Híbridos AM: Algoritmos Meméticos

ARB: Artificial Recognition Ball BS: Bell-Sejnowski

BSS: Blind Source Separation– Separação Cega de Fontes ECG: Eletrocardiograma

EEG: Eletroencefalograma MSE: Erro Quadrático Médio

fMRI: Functional Magnetic Resonance Imaging– Ressonância Magnética Funcional HOS: Higher Order Statistics– Estatísticas (ou Momentos) de Ordem Elevada

IM: Informação Mútua

KLD: Kullback Leibler Divergence– Divergênciad e Kullback Liebler MEG: Magnetoencefalograma

MMSE: Minimum Mean Square Error– Erro Quadrático Médio Mínimo NAT: Network Affinity Threshold

NBSS: Nonlinear Blind Source Separation– Separação Cega de Fontes Não-linear NICA: Nonlinear Independent Component Analysis– Análise de Componentes

Independentes Não-linear

NPCA: Nonlinear Principal Component Analysis– Análise de Componentes Principais Não-linear

ICA: Independent Component Analysis– Análise de Componentes Independentes Infomax: Information Maximization

PCA: Principal Component Analysis– Análise de Componentes Principais PNL: Post-Nonlinear

SNR: Signal-to-Noise Ratio– Relação Sinal-Ruído

(14)

1. T.M. Dias, R. Suyama, L.T. Duarte, R.R.F. Attux, J.M.T. Romano. “Blind Source Separation using Evolutionary Computation and a Local Search Procedure”. Sociedade Brasileira de Telecomunicações (SBrT’2007). 2007

2. R.R.F. Attux, A. Neves, L.T. Duarte, R. Suyama, C.C.M. Junqueira, L.E.P. Rangel, T. M. Dias, J.M.T. Romano. “On the Relationships between Blind Equalization and Blind Source Separation - Part I”. Aceito pelo Journal of the Brazilian Telecommunications Society. 2007 3. R.R.F. Attux, A. Neves, L.T. Duarte, R. Suyama, C.C.M. Junqueira, L.E.P. Rangel, T. M. Dias, J.M.T. Romano. “On the Relationships between Blind Equalization and Blind Source Separation - Part II: Relationships”. Aceito pelo Journal of the Brazilian Telecommunications Society. 2007

4. T.M. Dias, R.R.F. Attux, R. Suyama, J.M.T. Romano. “Blind Source Separation of Post-Nonlinear Mixtures Using Evolutionary Computation and Gaussianization”. Aceito pelo 8th International Conference on ICA and BSS. 2009

(15)

Cap´ıtulo

1

Introdução

No campo de estudos de processamento de sinais, um dos problemas de maior importância é a recuperação de sinais através da observação de misturas. Nas estratégias clássicas, esse processo é realizado através da análise de informações sobre os sinais originais ou sobre o processo de mistura. Tal metodologia é referenciada como supervisionada, já que pressupõe o conhecimento de informações prévias sobre as fontes. A necessidade desse conhecimento torna-se uma limitação dessa estratégia, já que existem problemas em que não é possível obter tais informações. Além disso, há ainda, nesse modelo, hipóteses sobre os sinais e as misturas, que também restringe o seu espaço de aplicação.

É nesse contexto, que se buscam criar estratégias que necessitem tão pouca informação quanto possível na recuperação dos sinais. Dessa metodologia não-supervisionada ou cega, se origina o problema de BSS (Separação Cega de Fontes, do inglês Blind Source Separation). Desde 1980 esse problema vem sendo estudado por muitos pesquisadores, devido à sua extensa aplicação nas mais diversas áreas de conhecimento: telecomunicações, tratamento de sinais de áudio, processamento de sinais biométicos e sensores. Fato é que, em alguns dos problemas analisados observou-se uma característica não-linear das misturas, o que levou à definição de uma metodologia de estudo denominada NBSS (Separação Não-linear Cega de Fontes, do inglês Nonlinear Blind Source Separation). Da análise desses problemas sugiram alguns modelos não-lineares, dentre os quais destaca-se o modelo Post-Nonlinear, principal objeto de estudo desse trabalho. Com a construção desses modelos, as metodologias para análise e resolução do problema concentram-se em sua característica multimodal, que torna mais complexo o processo de busca por uma solução, sugerindo a utilização de técnicas de otimização mais robustas, tais como os algoritmos bioinspirados.

Desta forma, o principal objetivo deste trabalho é estudar o modelo Post-Nonlinear 1

(16)

em NBSS, apresentando e discutindo os algoritmos meméticos: uma combinação de algoritmos heurísticos (bioinspirados e de análise de vizinhança) com técnicas de otimização baseadas em busca local (FastICA).

1.1 Organização

Essa dissertação está organizada em cinco capítulos, com os seguintes conteúdos e objetivos:

• Capítulo (2): A teoria de separação de fontes a ser aplicada nesse trabalho é apresentada neste capítulo, mostrando suas principais estratégias. Após apresentar os conceitos relacionados ao problema de separação de fontes e suas aplicações, o capítulo analisa o método ICA (Independent Component Analysis), suas estratégias e algoritmos associados. O estudo de técnicas para tratamento de problemas com mistura não-linear também é parte deste texto, reforçando o modelo Post-Nonlinear, ponto central do estudo desse trabalho.

• Capítulo (3): Este capítulo versa sobre as estratégias de algoritmos heurísticos bioinspirados e aqueles baseados em análise de vizinhança. O objetivo é fornecer ao leitor conceitos relacionados a estratégias de otimização, mostrar sua aplicabilidade e construir a base teórica, para posterior aplicação em problemas de separação cega de fontes. Justificar e comparar conceitualmente algumas das técnicas é também um dos objetivos deste capítulo.

• Capítulo (4): Este capítulo mostra as metodologias empregadas nesse trabalho e os resultados obtidos. Foram estudadas aplicações de algoritmos heurísticos (bioinspirados) em problemas de separação cega de fontes não-linear (NBSS). Mais especificamente, relata-se o modelo Post-Nonlinear (PNL) e algoritmos bioinspirados e meméticos guiados por estratégias de otimização baseadas em conceitos relacionados à BSS.

• Capítulo (5): As conclusões mostram um resumo das estratégias discutidas e analisadas no decorrer do trabalho. Os modelos, resultados e análises são sumarizados, permitindo tecer comentários finais e avaliar possibilidades e sugestões para trabalhos futuros nessa área.

(17)

Cap´ıtulo

2

Separação Cega de Fontes

Este capítulo propõe-se a discutir teoricamente e analisar propostas relacionadas ao problema de Separação Cega de Fontes (BSS, do inglês Blind Source Separation). Inicialmente, apresenta-se o problema sob sua ótica histórica. A segunda parte do capítulo mostra algumas aplicações nas quais podem ser utilizados conceitos de Separação Cega de Fontes. Posteriormente analisam-se o modelo matemático e as técnicas e algoritmos utilizados para tratar este tipo de problema nas suas formas linear e não-linear.

2.1 Descrição do problema

As primeiras pesquisas sobre separação cega (ou autodidata) de fontes (BSS) datam do início dos anos 80. Christian Jutten, da Universidade de Grenoble, iniciou nessa época alguns trabalhos para processamento de sinais neurofisiológicos em um modelo simplificado de codificação do movimento muscular que deu origem ao trabalho conjunto com Hérault e Ans [Hérault et al. (1985)]. A idéia foi estudar o processo de movimentação dos músculos coordenado pelo cérebro para alcançar um determinado objeto. Os sinais coletados dos nervos musculares dependiam da distância do objeto e da velocidade de movimentação (no caso, deslocamento e velocidade angular do movimento). Para simplificação, Jutten e Hérault mediram o sinal incidente no nervo muscular e consideraram esse sinal como sendo uma combinação linear dos estímulos provenientes do cérebro usados para movimentar o músculo em direção a um objeto, ou seja, uma combinação linear de dois sinais: um deles representando o descolamento e o outro a velocidade angular. Dessa forma, os autores propuseram um método baseado em uma estrutura de redes neurais artificiais capaz de separar os sinais linearmente

(18)

misturados1_{, o clássico algoritmo Hérault-Jutten [Hérault & Jutten (1994)].}

No final da década de 80, com o trabalho dos franceses Pierre Comon e Jean-François Cardoso, o problema de separação cega de fontes foi formalizado matematicamente. Utilizando os trabalhos iniciais de Jutten, a teoria da informação de Claude Shannon e os trabalhos de Darmois da década de 1950, Comon elaborou um modelo matemático mais completo para o problema de BSS. O pesquisador formalizou a idéia da ICA (análise por componentes independentes, do inglês Independent Component Analysis) e mostrou como a independência estatística se insere no problema de separação de fontes [Comon (1994)]. Já Cardoso contribuiu com os estudos sobre o estimador de máxima verossimilhaça em BSS [Cardoso (1998)], introduziu métodos tensoriais [Cardoso & Souloumiac (1993)] e também desenvolveu a técnica de gradiente relativo [Cardoso & Laheld (1996)], posteriormente muito difundido em BSS. Nessa mesma época, o trabalho de Bell e Sejnowski [Bell & Sejnowski (1995)] ajudou a popularizar a BSS. Ao aliar conceitos de codificação neural e ICA, as técnicas propostas nesse estudo possibilitaram separar tipos diferentes de fontes, com o uso de algoritmos aplicáveis e relativamente simples de implementar.

Posteriormente, destacam-se os trabalhos de três pesquisadores finlandeses, Karhunen, Oja e Hyvärinen, que concentraram seus estudos na técnica ICA. Karhunen e Oja [Karhunen et al. (1998)] analisaram a ICA como uma extensão não-linear da técnica de Análise de Componentes Principais (PCA, do inglês Principal Component Analysis – vide seção 2.5.5). O grupo também observou que uma das dificuldades da técnica ICA é a necessidade de estimar a função densidade de probabilidade dos sinais das fontes. Tal estimativa era muito complexa e praticamente infactível com os recursos computacionais e técnicas disponíveis até então. Sua grande contribuição veio da proposição de um novo algoritmo ao qual se deu o nome de FastICA. O novo algoritmo simplificou a maneira como se obtém as estimativas das fontes [Hyvarinen & Oja (2000), Hyvarinen et al. (2000)] e permitiu a maior popularização e disseminação de técnicas para resolução de problemas em BSS.

Atualmente, diversos pesquisadores têm buscado analisar mais profundamente o problema de separação cega de fontes através da utilização de novas técnicas alternativas à ICA. Ramificações das linhas de pesquisa produziram abordagens diferentes para o problema de BSS, aumentando a riqueza de técnicas e trazendo maior flexibilidade em sua resolução. As atenções voltaram-se para a extensão dos resultados previamente

1_{Um Rede Neural Artificial (do inglês, Artificial Neural Network-ANN) é um modelo matemático} ou computacional baseado em redes neurais biológicas. Ele consiste em um grupo de neurônios interconectados que se adaptam através do processamento de informações internas e externas [Gurney (1997)].

(19)

obtidos a casos mais complexos de sistemas misturadores, como, por exemplo, modelos não-lineares, convolutivos e sub-determinados. Ainda nos dias atuais, essas vertentes correspondem aos principais temas de estudo em BSS, devido à sua importância e à sua complexidade. A capacidade de estender o problema para lidar com praticamente quaisquer tipos de misturas aumenta consideravelmente o espectro de atuação da BSS e permite utilizá-la em uma ampla gama de problemas práticos. É nesse sentido que este trabalho busca analisar estratégias para separação de fontes, dando maior foco a problemas em que a mistura apresenta características não-lineares.

2.2 Aplicações

Um problema tem sua importância reforçada quando se analisa, sobretudo, a sua aplicabilidade em situações práticas. Observa-se que o problema de BSS possui uma gama de aplicações bastante variada e pode ser muito flexível para se adaptar a inúmeros tipos de cenários. Esta seção busca descrever algumas das mais importantes aplicações dessa técnica.

2.2.1 Separação de sinais de áudio - O cocktail party-problem

Se uma pessoa estiver numa sala ouvindo duas outras falarem simultaneamente, ela será capaz de isolar uma das falas que mais lhe interessar. Constantemente o cérebro humano repete esse processo e, para coordená-lo, basta que uma pessoa se concentre naquilo que quer escutar. A esse processo dá se o nome de cocktail-party effect [Arons (1992)]. Mas, se o cérebro humano é capaz de realizar essa separação, deve ser possível estudar esse sistema e inspirar modelos artificiais para solucionar problemas similares em separação cega de fontes. Essa observação motivou a pesquisa sobre o problema atualmente conhecido como o cocktail party problem, conforme ilustrado na Figura 2.1.

Um problema de separação de áudio normalmente é caracterizado por um ambiente ou uma sala, na qual existem pessoas conversando, e as vozes dessas pessoas são capturadas por um conjunto de microfones. Para simplificar, suponha que há em tal sala duas pessoas falando simultaneamente e que o som está sendo capturado por dois microfones (dois canais). Se nesse sistema é possível conhecer as condições de transmissão dos sinais desde sua fonte (a boca da pessoa que está falando) até o sensor (microfone), em alguns casos (sistemas não convolutivos e/ou não subparametrizados), através de cálculos não tão complexos, é possível recuperar as falas de cada uma das pessoas separadamente. Esse processo caracteriza uma separação não-cega de fontes, pois os princípios de mistura são

(20)

Fig. 2.1: O Cocktail-party Problem

conhecidos. No entanto, caso não seja possível conhecer previamente informações sobre a mistura, está caracterizado um problema de separação cega de fontes.

Um conjunto de aplicações nasce do cocktail party problem. Alguns exemplos: X Transcrissão automática de sinais de áudio musicais determinando, em uma música,

quais instrumentos e quais notas estão sendo tocados em determinado instante [Plumbley et al. (2002)];

X Processos de reconhecimento de voz [Arons & Schuster (1997)];

X Separação de vozes em uma sala de reuniões através da utilização de um conjunto de microfones espalhados pela sala: aqui há necessidade do uso de técnicas de supressão de eco de derreverberação (eliminação da reverberação) [Huang et al. (2006)].

2.2.2 Processamento de sinais biomédicos

Em engenharia biomédica, é de grande interesse o desenvolvimento de métodos de aquisição de sinais que sejam não-invasivos e, ainda assim, confiáveis. O EEG (Eletroencefalograma) [Jung et al. (2000), Calhoun et al. (2003), Vigário (1988)] e o ECG (Eletrocardiograma) [Jung et al. (2000), Lathauwer et al. (2000), Barros (2002)] são dois exemplos bem conhecidos de técnicas que operam de acordo com esse princípio. Todavia, tal tarefa é de extrema complexidade, tendo em vista a impossibilidade de captar, por meio

(21)

de sensores posicionados em uma determinada região do corpo humano, apenas os sinais de interesse para um determinado exame, principalmente devido à interferência de sinais gerados pelos mais diversos tipos de atividade fisiológica. Em suma, esses procedimentos são, geralmente, caracterizados por uma baixa relação sinal-ruído (SNR, Signal-to-Noise Ratio) ou sinal-interferente.

Uma estratégia frequentemente utilizada para diminuir a intensidade do ruído nas amostras obtidas fundamenta-se na repetição de diversas realizações do exame, de modo que seja possível levantar um comportamento médio dos dados de interesse. A despeito dos bons resultados atingidos, esse tipo de abordagem exige a execução de um elevado número de repetições, o que, em alguns casos, pode não ser um procedimento desejável, ou mesmo viável. Além disso, tal conduta pode causar fadiga nos indivíduos examinados, o que, por sua vez, acarreta alterações artificiais dos padrões obtidos, principalmente no monitoramento de sinais cerebrais.

O emprego de técnicas de BSS oferece uma alternativa eficiente a essa abordagem, posto que, nesse caso, a recuperação dos sinais de interesse se dá através de estágios sofisticados de processamento conduzidos posteriormente à captação dos dados, o que requer a realização de apenas um experimento. Além disso, a ausência de modelos capazes de determinar quais sinais fisiológicos interferentes são captados e, ademais, como eles se misturam, posiciona esse tipo de problema em uma condição favorável à aplicação dos métodos de BSS. Uma boa evidência dessa aplicabilidade pode ser comprovada pela expressiva quantidade de trabalhos de separação de sinais biomédicos, a tal ponto que pode-se dizer que, atualmente, essa área corresponde a um dos principais domínios de aplicações técnicas de BSS [Hyvarinen et al. (2000)].

2.2.3 Telecomunicações - BSS e equalização cega de canais

A aplicação da BSS em telecomunicações está fortemente relacionada a um tema de expressiva relevância em comunicações digitais: a equalização de canais. A idéia essencial de um sistema de comunicação é fazer com que a informação enviada por um transmissor possa ser obtida de maneira tão fiel ao original quanto possível por um receptor. Assim sendo, é primordial que o desenvolvimento de sistemas de comunicação leve em conta estratégias capazes de mitigar as distorções introduzidas pelo canal, elemento presente entre o transmissor e o receptor, na informação transmitida. Em uma das estratégias mais empregadas, a equalização de canal, utiliza-se um filtro (equalizador) no receptor de modo que este seja capaz de inverter a ação do canal. O esquema básico da equalização é apresentado na Figura 2.2. No caso, os sinais s(n), x(n) e y(n)

(22)

correspondem, respectivamente, ao sinal transmitido, ao sinal recebido e à estimativa do sinal transmitido.

Fig. 2.2: O Esquema de Equalização

Em essência, o desenvolvimento de técnicas de equalização está intimamente relacionado à concepção de critérios que guiem o ajuste dos parâmetros livres do equalizador, de modo que se obtenha uma boa estimativa do sinal transmitido. Por exemplo, no caso do paradigma de Wiener, adota-se como critério a minimização do erro quadrático médio entre a saída do equalizador e o sinal desejado, no caso, o sinal transmitido [Haykin (1996)].

No caso supracitado, chama a atenção o fato de que o critério adotado se apóia no conhecimento tanto do sinal recebido quanto de amostras do sinal transmitido. Essa necessidade caracteriza o paradigma de equalização supervisionada [Haykin (1996)]. Em contrapartida, os critérios presentes na equalização não-supervisionada (ou cega) utilizam, além dos sinais recebidos, apenas algumas informações estatísticas dos sinais transmitidos. Uma vantagem dessa estratégia em relação à supervisionada é a possibilidade de realizar o ajuste dos parâmetros concomitantemente com a transmissão dos dados. Por outro lado, a etapa de ajuste dos parâmetros no caso cego é significativamente mais complexa [Haykin (1994)].

Percebe-se então que a equalização cega busca recuperar o sinal transmitido, através de um filtro no receptor, valendo-se apenas de amostras da saída do canal. Observa-se que a equalização e a estratégia de BSS são muito similares. A diferença básica é que, originalmente, a equalização é definida em um cenário SISO (Single-Input Single-Output) e se baseia em filtragem temporal, ao passo que a BSS aborda sistemas MIMO (Multiple-Input Multiple-Output) e se fundamenta em filtragem espacial ou espaço-temporal. Ainda assim, é possível formular o problema de equalização cega de canais SISO como uma tarefa de BSS [Hyvarinen et al. (2000), Attux et al. (2006)].

No que tange o problema de equalização cega de canais MIMO, pode-se afirmar que, em um âmbito teórico, essa situação praticamente se confunde com a formulação da BSS. Nesse contexto, merece destaque o trabalho de Cavalcante [Cavalcante (2004)], que tratou um tópico relacionado à equalização MIMO, a detecção multiusuário, a partir de uma abordagem fundamentada em BSS. A particularidade nessa situação é que se trata de um canal de múltiplo acesso, ou seja, a transmissão das informações enviadas por diferentes

(23)

usuários se dá num mesmo canal. Esse compartilhamento de recursos é possível devido à implantação de um esquema de múltiplo acesso como, por exemplo, as conhecidas estratégias FDMA, TDMA e CDMA.

2.2.4 Exploração Geofísica - Remote Sensing

Remote sensing é um processo de aquisição de informações sobre um objeto ou fenômeno através da gravação ou uso de sensores em tempo real que não estão em contato próximo com esse objeto. Dentre alguns exemplos de sensores é possível citar: instrumentos de observação da Terra, satélites de coleta de dados meteorológicos, plataformas para observação atmosférica e oceanográfica.

São definidos dois tipos de sensores remotos [Levada (2006)]:

1. Sensores passivos que detectam energia natural (radiação) emitida ou refletida por um objeto ou área em observação. Luz solar refletida é uma das fontes mais comuns de radiação medida por sensores passivos. Alguns exemplos desse tipo de sensor são: fotografia com filme, infra-vermelho, radiômetros.

2. Sensores de coleta ativos que emitem energia para escanear objetos e áreas nas quais um sensor passivo é usado para detectar e medir a rediação refletida. O RADAR é um exemplo de sensor ativo cujo princípio básico é medir o tempo entre a emissão e o retorno do sinal estabelecendo a localização, tamanho e direção de um objeto.

Sensores remotos são comumente usados para monitorar desmatamento em áreas como a floresta Amazônica; monitorar os efeitos da mudança climática em áreas glaciais, regiões árticas ou antárticas; medir a profundidade de oceanos e costas. Pode-se citar alguns exemplos de sistemas sensoriais (não traduzidos para manter o significado): Landsat Thematic Mapper, Seasat, Heat Capacity Mapping Mission, Space Shuttle Imaging Radar, Large Format Camera, Advanced Very High Resolution Radiometer, Coastal Zone Scanner, and Thermal Infrared Multispectral Scanner.

Os sinais coletados através dos sensores descritos acima apresentam informações misturadas de várias fontes ou até mesmo interferências do mesmo sinal no tempo. As técnicas de separação cega de fontes podem então ser aplicadas diretamente nesses tipos de problemas, como, por exemplo, no uso de sensores hiperespectrais [Borges & Marçal (2007)]. Um dos principais problemas da aplicação desses sensores está relacionado ao número grande de dimensões, fato que aumenta muito a complexidade computacional e justifica a aplicação de técnicas de BSS. Tais técnicas são usadas com dois objetivos:

(24)

redução da dimensão do sistema e, posteriormente, reconhecimento das imagens obtidas. A idéia é preservar o maior conjunto de informações possível do conjunto de dados original para, em seguida, aplicar técnicas de classificação de imagens.

2.2.5 Extração de imagens

A extração de imagens não conhecidas a priori em ambientes contaminados por interferência é mais um problema de destaque na área de BSS. Pode-se citar, entre outras aplicações, os casos de ultrassonografia, recuperação de imagens deterioradas e tratamento de imagens em astronomia.

Para ilustrar esse tópico, pode-se analisar, por exemplo, imagens que são combinadas pixel a pixel através de uma matriz de mistura obtida de forma aleatória. Na Figura 2.3, pode-se visualizar as duas fontes que são empregadas para a simulação. As duas imagens são conhecidas no campo de reconhecimento de imagens (ao lado esquerdo Lenna e ao lado direto Peppy). As misturas obtidas nos sensores são ilustradas na Figura 2.4. Com o conhecimento prévio das duas imagens originais, pode-se observar claramente que as imagens em cada um dos sensores apresentam características das duas fontes. No entanto, essa inferência não pode ser feita pelo receptor, que observa somente os sinais dos sensores, sem conhecimento prévio das fontes. As estimativas dos sinais após a separação podem ser visualizadas na Figura 2.5. Uma importante informação a ser destacada é que a existência de duas estimativas para cada sinal original é usual em problemas desse tipo. Isto ocorre pois as estruturas de separação apresentam pontos de equilíbrio para os sinais originais e para os sinais duais, ou seja, aqueles com os pixels com tons de cinza invertidos.

(25)

Fig. 2.3: Imagens Iniciais

Fig. 2.4: Imagens Misturadas

Fig. 2.5: Estimativas

2.2.6 Outras Aplicações

Além das aplicações descritas, há ainda outros problemas de BSS provenientes das mais diversas áreas como, por exemplo, arranjos de sensores químicos [Bermejo et al.

(26)

(2006)] e cancelamento de reflexões [Hyvarinen et al. (2000)]. O leitor interessado em outras aplicações pode consultar as referências [Hyvarinen et al. (2000), Cichocki & Amari (2002), Puntonet & Prieto (2004); Rosca et al. (2006)].

2.3 Formalização matemática

Sabe-se que num problema de separação cega existem as fontes, a mistura e os sinais misturados (vide Figura 2.6). Matematicamente, representam-se os sinais de entrada por: s(n) = [s1(n) s2(n) . . . sN(n)]T. Esses sinais são misturados através de uma sistema

misturador F . Os sinais na saída, ou seja, os sinais misturados, são representados por: x(n) = [x1(n) x2(n) · · · xM(n)]T.

Fig. 2.6: Modelo do sistema de misturas do problema de BSS. Pode-se então escrever:

x(n) = F (s(n), s(n − 1) . . . s(n − L), r(n)), (2.1) onde:

• F (·) representa a ação do sistema misturador

• L corresponde ao número de amostras passadas levadas em conta no processo de mistura

• r(n) é um vetor que denota o ruído associado às próprias fontes (ruído de fonte) e/ou aos sensores (ruído de sensor)

Devido a limitações nas técnicas de análises e de síntese, os problemas de BSS geralmente não consideram todos os componentes do modelo descrito acima. Na prática, o modelo deve ser simplificado para que seja possível estudar o seu comportamento. Uma das simplificações é excluir o ruído associado às fontes e aos sensores, reduzindo o modelo a:

(27)

x(n) = F (s(n), s(n − 1) . . . s(n − L)), (2.2) Sabendo como se dá o modelamento do problema geral é possível classificar um sistema de separação cega de fontes de acordo com as seguintes propriedades: linearidade, memória e número de fontes/sensores, como mostram as seções seguintes.

2.3.1 Sistemas Lineares e Não-Lineares

Um sistema misturador pode ser classificado como linear se o mapeamento F atende ao princípio da superposição, ou seja, quando:

F (a1s1(n) + a2s2(n)) = a1F (s1(n)) + b2F (s2(n)), (2.3)

Essa expressão deve ser válida para quaisquer constantes a1 e a2 e vetores s1(n) e s2(n).

Caso contrário, o sistema misturador é dito não-linear.

2.3.2 Sistemas Instantâneos e com Memória

Quando o sistema misturador considera não só amostras instantâneas do sinal como também amostras passadas, chama-se o sistema de convolutivo ou com memória. Nesse caso, L > 0 e é necessário considerar não só a mistura dada pela composição dos sinais de entrada no instante n, mas também nos instantes passados n − 1, n − 2 até n − L, como mostra a equação (2.2).

Caso o sistema não tenha memória, diz-se que ele é instantâneo. Nesse caso, L = 0 e os sinais na saída do sistema misturador dependem somente dos sinais de entrada no instante da medição:

x(n) = F (s(n)) (2.4)

2.3.3 Com Relação ao Número de Fontes e de Sensores

Um sensor é um dispositivo usado para capturar os sinais das fontes. Por exemplo, num sistema em que se deseja captar os sinais de cinco pessoas falando e para o qual temos quatro microfones, tem-se cinco fontes e quatro sensores. Pode ser que um determinado problema possua mais fontes do que sensores ou vice-versa. Quando o número de sensores é maior que o número de fontes, diz-se que há um problema de BSS sobre-determinado. Caso contrário, se o número de sensores é menor que o de fontes, tem-se o

(28)

caso sub-determinado.

O caso mais simples e mais estudado de problema de BSS é o caso em que se tem um sistema linear, instantâneo e que possui o mesmo número de fontes e sensores, sem ruído. Nesse caso, pode-se modelar o sistema misturador por uma matriz A e o modelo matemático fica:

x(n) = As(n), (2.5)

onde:

• A é uma matriz N × N chamada matriz de mistura. • s(n) são os sinais instantâneos das fontes.

• x(n) são os sinais misturados.

2.4 Análise por Componentes Independentes

A Análise por Componentes Independentes (do inglês ICA, Independent Component Analysis) é uma das principais ferramentas utilizadas no problema de BSS. A ICA de um vetor aleatório x = [x1 x2· · · xM]T consiste na determinação de uma transformação

linear y = Wx de tal maneira que os elementos do vetor aleatório y = [y1 y2· · · yN]T

sejam tão estatisticamente independentes quanto possível, no sentido de otimizar uma função custo Ψ(y), denominada função contraste (vide seção 2.4.2). Tal definição dá origem ao sistema separador exibido na Figura 2.7. Nesse sistema, pode-se observar os sinais estimados y = [y1y2· · · yN]T e o sistema separador que é modelado pela matriz de

separação W.

Fig. 2.7: Sistema Separador para o caso Linear

Aplicando-se o sistema separador da Figura 2.7 ao sistema misturador da Figura 2.6 e, utilizando a técnica de ICA, é possível obter estimativas das fontes, como mostra a Figura 2.8.

(29)

Fig. 2.8: Sistema Separador x Sistema Misturador

Para aplicação de técnicas baseadas em ICA, há uma restrição importante quanto à função densidade de probabilidade das fontes: no máximo uma delas pode ser gaussiana [Kofidis (2001), Hyvarinen et al. (2000)]. Essa restrição é importante porque, num cenário no qual todas as fontes são gaussianas, a soma dos sinais também será gaussiana, impossibilitando inferir qualquer informação sobre as fontes somente através da observação do sinal nos receptores (vide seção 2.4.1).

Os trabalhos de Pierre Comon [Comon (1994)] e de Hyvärinen e Eriksson [Hyvarinen et al. (2000), Eriksson & Koivunen (2004), Hyvärinen (1999)] apresentam detalhes sobre os conceitos e a metodologia da ICA. Conceitos como independência estatística, descorrelação estatística, contraste e representação de sinais são alguns dos pontos importantes no estudo da ICA. Explorar estes conceitos é objetivo das próximas seções.

2.4.1 Independência x Descorrelação Estatística

Independência estatística é um dos conceitos fundamentais na teoria da probabilidade. Quando diz-se que um vetor de sinais x(·) tem componentes independentes, matematicamente, isto significa que a função densidade de probabilidade conjunta desse vetor é igual ao produto das funções densidade de probabilidade marginais de suas componentes: px1,x2,...xN(x1, x2, . . . xN) = px1(x1)px2(x2) . . . pxN(xN) , k Y i=1 pxi(xi) (2.6) onde:

px1,x2,...xN(x1, x2, . . . xN) corresponde à função densidade de probabilidade

conjunta das variáveis envolvidas.

pxi(xi) representa a função densidade de probabilidade marginal de xi.

(30)

o conceito de descorrelação estatística. A descorrelação estatística é menos restritiva que a independência. Matematicamente, diz-se que um conjunto K-dimensional de variáveis aleatórias (v.a.) é formado de variáveis descorrelacionadas se a sua covariância é zero:

E{x1· x2. . . xK} − E{x1} · E{x2} . . . E{xK} = 0 (2.7)

ou seja, se a esperança do produto das componentes de x é dada pela multiplicação da esperança de cada componente do vetor x.

Sabe-se que, se as variáveis são independentes, elas são descorrelacionadas: no entanto, o fato de serem descorrelacionadas não implica que elas sejam independentes. A única classe de variáveis aleatórias em que vale o intercâmbio entre descorrelação e independência são as váriaveis gaussianas [Haykin (1994)]. No entanto, trabalhar com variáveis aleatórias gaussianas não traz resultados satisfatórios para separação de misturas utilizando a técnica ICA.

Pode-se ilustrar essa limitação da ICA observando as Figuras 2.9.(a) e 2.9.(b), que ilustram fontes gaussianas e fontes uniformes misturadas através de uma matriz ortogonal. As Figuras 2.10.(a) e 2.10.(b) permitem visualizar as respectivas misturas lineares produzidas a partir das fontes gaussianas e das fontes uniformes. Fica clara a simetria geométrica entre a mistura e as fontes para o caso gaussiano (não há rotação), e a presença de direções preferenciais caso as fontes tenham distribuição uniforme. Graficamente, verifica-se que a mistura de fontes gaussianas gera uma densidade conjunta gaussiana similar às anteriores. Fica impossível distinguir os sinais das fontes em meio a essa mistura.

(a) Distribuição conjunta de fontes gaussianas

(b) Distribuição conjunta de fontes uniformes

(31)

(a) Mistura de fontes gaussianas (b) Mistura de fontes uniformes Fig. 2.10: Misturas

2.4.2 Separabilidade

A definição de separabilidade em um modelo ICA recai novamente na análise da equação que define um sistema BSS linear, reescrita a seguir2:

x = As (2.8)

Nesse sistema, a estimativa das fontes é dada por:

y = Wx (2.9)

Como mostrado nas seções acima, a matriz W é a matriz de separação. Caso seja possível tornar os elementos do vetor y estatisticamente independentes, pode-se dizer que o sistema é separável. Nesse caso, a matriz W · A pode ser reescrita como o produto de uma matriz diagonal Λ e de uma matriz de permutação P. Reescrevendo a equação de separação, tem-se:

y = PΛs (2.10)

Caso o modelo seja separável, a solução encontrada pela ICA corresponderá à equação (2.10), na qual as matrizes P e Λ mostram que as fontes podem não ser recuperadas na mesma ordem e que há efeitos de ganho de escala. No entanto, como uma permutação e um fator de escala não alteram a condição de independência entre os sinais, as estimativas encontradas podem ser consideradas soluções satisfatórias para o problema.

Formalmente, a definição de separação em ICA é [Comon (1994)]:

(32)

Definição 2.4.1 (Separação em ICA) O modelo x = As é separável se e somente se a matrizA possuir posto completo e, no máximo, um dos elementos do vetor aleatório s for gaussiano.

2.5 Estratégias para ICA (Independent Component

Analysis

Esta seção tem como objetivo estudar os conceitos e principais estratégias utilizadas em Análise por Componentes Independentes. São analisados os conceitos de entropia, informação mútua e gaussianização; o algoritmo FastICA; técnicas de estimação por máxima verossimilhança; e estratégias de PCA, NPCA e branqueamento.

2.5.1 Entropia e Informação Mútua

Segundo a teoria de Shannon [Shannon (1948)], a entropia é uma medida da incerteza de uma variável aleatória. Matematicamente, pode-se definir, para um vetor de v.a. contínuas x, sua entropia diferencial H(x) como:

H(x) , −E{ln[px(x)]} = −

Z ∞

−∞

px(x) · ln(px(x))dx (2.11)

Outra definição importante é a da entropia condicional, que mede a incerteza do vetor de variáveis aleatórias x condicionada a um outro vetor y. A incerteza remanescente em x após observar y é dada por:

H(x|y) , −E{ln[px|y(x|y)]} = −

Z ∞

−∞

px|y(x|y) · ln(px|y(x|y))dxdy (2.12)

em que:

px,y(x, y) = px|y(x|y)py(y) (2.13)

é a função densidade de probabilidade conjunta de x e y. Então, é válida a seguinte relação [Cover & Thomas (1991)]:

I(x, y) = H(x) − H(x|y) (2.14)

e tem-se a definição de informação mútua, que é a diferença entre as entropias do vetor de v. a. x e a incerteza que se tem após a observação de x por y. Em resumo, essa grandeza é

(33)

capaz de medir a informação adquirida sobre x através da observação de y. A informação mútua assume valor zero se e somente se x e y são independentes. Isto significa que pode-se usar a informação mútua como uma medida da independência estatística.

A informação mútua pode também ser definida entre componentes de um único vetor de variáveis aleatórias y [Haykin (1998)]:

I(y) = −H(y) +

K

X

i=1

H(yi) (2.15)

Essa expressão mostra que minimizar a informação mútua entre os componentes do vetor y é, como esperado, tornar a entropia de y o mais próximo possível da soma de suas entropias marginais.

2.5.1.1 Divergência de Kullback-Leibler

Outra forma de definir a informação mútua é através da Divergência de Kullback-Leibler (KLD, do inglês Kullback-Kullback-Leibler Divergence), que permite mensurar a similaridade entre funções estritamente positivas [Kullback & Leibler (1951)]. Esse tipo de medida é usualmente empregado para a comparação entre duas funções densidade de probabilidade. Matematicamente: D(px(x)||gx(x)) , Z ∞ −∞ px(x) · ln[ px(x) gx(x) ]dx (2.16) onde

p(x) e g(x) são duas funções densidade de probabilidade estritamente positivas. D(·||·) é a divergência de Kullback-Leibler.

Usando a KLD, pode-se escrever a informação mútua como:

I(x, y) = Z ∞ −∞ px,y(x, y) · ln[ px,y(x, y) px(x)py(y)

]dxdy = D(px,y(x, y)||px(x)py(y)) (2.17)

2.5.1.2 Contrastes

Uma ferramenta importante num sistema separável analisado sob a técnica ICA é a função contraste ou simplesmente contraste. Uma função é definida como contraste (representada por Ψ(·)), se atender aos seguintes requisitos [Comon (1994); Kofidis (2001)]:

(34)

1. Ψ(y) deve ser invariante às permutações dos elementos de y: Ψ(y) = Ψ(P · y) para qualquer matriz de permutação P;

2. Ψ(y) deve ser invariante à mudanças de escala: Ψ(y) = Ψ(Λ · y), para qualquer matriz diagonal Λ;

3. Quando y possuir elementos independentes entre si, é necessário que, para qualquer matriz inversível A:

Ψ(y) ≥ Ψ(A · y) - considerando que a maximização do contraste resultou em fontes independentes.

Ψ(y) ≤ Ψ(A · y) - considerando que a minimização do contraste resultou em fontes independentes.

4. A igualdade nas expressões acima só deve ser respeitada se A = P · Λ onde P é uma matriz de permutação e Λ é uma matriz diagonal inversível.

Assumindo um sistema de separação de fontes linear, é possível construir, a partir da informação mútua, o seguinte contraste: [Papoulis (1993); Picinbono (1993); Cavalcante (2004)]

ΨICA(W) = −I(y) = −H(x) + ln[|det(W)|] + E{ln[ K

Y

i=1

pyi(yi)]} (2.18)

Como a matriz W não depende da entropia de x, tem-se como expressão a ser otimizada: ln[|det(W)|] + E{ln[ K Y i=1 pyi(yi)]} (2.19)

Quando os sinais são pré-branqueados (vide seção 2.5.5), W é ortogonal e o primeiro termo da equação (2.18) torna-se zero. Então, a maximização da função contraste ΨICA(W) corresponde à minimização da soma de entropias das componentes de y.

2.5.1.3 MaxEnt e InfoMax

O conceito Infomax (Information Maximization), inicialmente proposto por Linsker [Linsker (1988)], foi relacionado, em 1994, a um caso não-linear com o princípio da redução de redundância de Barlow [Nadal & Parga (1994)], que está diretamente ligado à ICA. O trabalho de Bell e Sejnowski [Bell & Sejnowski (1995)], além de mostrar

(35)

essa relação, propôs também uma técnica para resolver o problema de BSS utilizando o InfoMax.

Fig. 2.11: Estrutura do sistema separador no critério InfoMax

A Figura 2.11 mostra o modelo adotado por Bell e Sejnowski. O modelo é composto por dois estágios: o primeiro é o linear representado pela matriz W, e o segundo é o não-linear, caracterizado pelo vetor de funções g(·) = [g1(·) . . . gN(·)]. Matematicamente,

essa estrutura pode ser representada por:

z = g(y) = g(Wx) = [ g1(w1x) . . . gN(wNx) ]T. (2.20)

A partir da definição da Informação Mútua (vide seção 2.5.1), e levando em conta somente a matriz W como a variável a ser otimizada, a aplicação do critério InfoMax na estrutura descrita em (2.20) resulta no seguinte problema de otimização:

max

W I(z, x) = H(z) − H(z|x), (2.21)

onde I(z, x) corresponde à informação mútua entre z e x.

Como o mapeamento entrada-saída da estrutura mostrada em (2.20) é determinístico, observa-se que a entropia condicional H(z|x) não depende de W, e, portanto, nessa situação, o critério Infomax é equivalente à maximização da entropia conjunta das saídas dessa rede. Dessa forma pode-se escrever:

max

W I(z, x) = H(z), (2.22)

É possível ainda mostrar que a entropia conjunta das saídas pode ser expressa por [Duarte (2006)]:

H(z) = H(x) + E{

N

X

i=1

log(g_i0(wix))} + log(| det(W)|), (2.23)

onde g0_i(·) representa a derivada primeira da função gi(·).

Nota-se que apenas os dois últimos termos dependem de W, e, portanto, o problema de otimização pode ser descrito por:

(36)

max

W H(z) , maxW E{ N

X

i=1

log(g_i0(wix))} + log(| det(W)|). (2.24)

A nova formulação do critério Infomax proposta pela equação (2.24) em BSS mostra que há uma correspondência entre essa abordagem e a estimação por máxima verossimilhança (vide seção 2.5.4). A equivalência entre essas duas abordagens foi demonstrada por Cardoso [Cardoso (1997)].

2.5.2 Critérios Baseados em Não-Gaussianidade - Negentropia,

Curtose e FastICA

As medidas de não-gaussianidade permitem quantificar a proximidade de uma variável aleatória qualquer em relação a uma variável aleatória gaussiana. Estas medidas são utilizadas, por exemplo, no algoritmo FastICA, descrito na seção 2.5.3.

2.5.2.1 Negentropia

A Negentropia é uma medida de gaussianidade de uma variável aleatória. Para defini-la, considera-se uma variável aleatória y e uma variável aleatória yGaussiano com distribuição gaussiana e com média e matriz covariância iguais às do vetor y. Matematicamente, a negentropia é então dada por:

NG(y) , H(yGaussiano) − H(y) (2.25)

Como a entropia de uma variável gaussiana é maior que a de qualquer outra variável [Picinbono & Barret (1990)], pode-se dizer que a negentropia é uma medida sempre não-negativa.

Reescrevendo (2.25) com o auxílio da divergência de Kullback-Leibler, tem-se:

NG(y) , D(py(y)||pyGaussiano(yGaussiano)) (2.26)

Esse é um estimador ótimo cuja finalidade é medir a não-gaussianidade dos sinais [Picinbono & Barret (1990)]. Nesse caso, o objetivo é maximizar a Negentropia para que os sinais estimados não sejam gaussianos.

Na prática, há uma certa dificuldade na utilização da negentropia ao problema de BSS devido à necessidade de estimação de entropia como mostrado na equação (2.25). Por esse motivo, geralmente, faz-se necessária a utilização de uma aproximação baseada nos chamados momentos polinomiais [Hyvarinen (1999)], dada por:

(37)

NG(y) = α(E{G(y)} − E{G(yGaussiano)})2 (2.27)

onde:

• G(·) é uma função não-linear não-quadrática; • α é uma constante;

• yGaussiano_{é uma variável aleatória gaussiana de média zero e variância unitária.}

2.5.2.2 Curtose

A curtose é o cumulante de quarta ordem de uma variável aleatória [Papoulis (1993); Picinbono (1993)]. Matematicamente, para uma variável x, a curtose é dada por:

K{x} , E{x4} − 3 · (E{x2})2 (2.28)

A curtose permite classificar uma função densidade de probabilidade em relação à uma função densidade de probabilidade gaussiana:

. Distribuição gaussiana: K{x} = 0 . Distribuição sub-gaussiana: K{x} < 0 . Distribuição super-gaussiana: K{x} > 0

Conclui-se então que, ao maximizar o módulo da curtose num problema de separação de fontes, o sistema está, na realidade, diminuindo a gaussianidade dos sinais estimados. Há uma série de trabalhos que mostram a aplicabilidade dessa idéia em BSS [Zarzoso & Nandi (1998), Matsuoka et al. (2000), Papadias (1993), Papadias (2000), Sharma & Paliwala (2006)].

2.5.3 FastICA

Para entender o desenvolvimento do algoritmo FastICA, primeiramente, é importante observar que ele é baseado em técnicas de maximização da não-gaussianidade. Um resultado importante nesse sentido é o teorema central do limite, que, em termos simples, mostra que a soma de variáveis aleatórias independentes tende assintoticamente a uma variável aleatória gaussiana. Com esse conceito em mente, é natural tentar estimar as fontes buscando obter sinais que tenham pouca ou nenhuma característica gaussiana,

(38)

pois, em teoria, isso reverteria o processo de mistura das fontes e traria uma estimativa satisfatória.

Com o objetivo de analisar a técnica FastICA matematicamente, considera-se a recuperação de uma das fontes yi. Ou seja, considerando o caso linear, para encontrar

a estimativa yi, determina-se a linha da matriz W, dada por wTi de forma que yi = wiTx.

A expressão (2.27) mostra a Negentropia aproximada. Ao maximizar a Negentropia em termos de wT_i , tem-se:

˜

wi = arg max

wi (E{G(y

i)} − E{G(yiGaussiano)})2 (2.29)

sujeita a E{yi} = E{wTi x} = 1

Observando a expressão (2.29), verifica-se que o termo E{G(yiGaussiano)} é constante.

Dessa forma, basta otimizar o primeiro termo da equação para encontrar o valor ótimo de w_iT. De acordo com as condições de Kuhn-Tucker [Luenberger (1969)], esse ótimo é obtido nos pontos onde [Hyvarinen & Oja (2000)]:

E{xG0(wTi x)} + λwi = 0 (2.30)

onde λ é uma constante (multiplicador de Lagrange).

A partir dessa condição de otimalidade, define-se o algoritmo FastICA. Tomando como premissa que os sinais que compõe a mistura são descorrelacionados, têm média zero e variância unitária, pode-se utilizar um método de Newton aproximado para resolver a equação (2.30), obtendo a regra de atualização dada por [Hyvarinen & Oja (2000)]:

wi ←− E{xG0(wTi x)} − E{G 00_(wT

i x)}wi

wi ←− wi/ k wi k

(2.31) A restrição imposta em (2.29), que exige variância unitária, é cumprida através da premissa de que os sinais são descorrelacionados. Uma função não-linear normalmente empregada para G(·) é a tangente hiperbólica (tanh).

A partir da expressão (2.31), é possível determinar as N fontes. Para isso basta executar a otimização para os N vetores wi. No entanto, é necessário controlar as

diferentes execuções do algoritmo para que não seja estimada sempre a mesma fonte. Uma maneira de evitar encontrar a mesma solução mais de uma vez é utilizar a informação de que o sistema separador pode ser representado por uma matriz ortogonal, já que houve os sinais são descorrelacionados. Ou seja, inserir no algoritmo alguma restrição que garanta a ortogonalidade da matriz W é suficiente para evitar essa repetição.

(39)

1. Descorrelacionar e normalizar os dados para que tenham média nula e variância unitária.

2. Definir os valores iniciais de wi (colunas de W). Ortogonalizar W de acordo com

o passo 4.

3. Para todo i, executar a regra de ajuste da equação (2.31).

4. Realizar a ortogonalização simétrica de W, que pode ser feita do seguinte modo W ← WWT−1/2W.

5. Caso não convirja, voltar ao passo 3.

Tab. 2.1: Algoritmo FastICA com ortogonalização simétrica.

2.5.4 Estimação por máxima verossimilhança

A técnica de máxima verossimilhança [Cardoso (1997)] é uma abordagem clássica da teoria de estimação e é uma das estratégias que podem ser aplicadas ao problema de separação linear. Ela representa uma alternativa à aplicação de estratégias ligadas mais diretamente à ideía de ICA, como aquelas baseadas em informação mútua.

Primeiramente, é interessante recapitular o conceito de estimação por máxima verossimilhança. Para isso, toma-se primeiro o conceito de estimação de parâmetros, ou seja, de determinar um estimador para os parâmetros θ= [θ1, . . . , θp] a partir de um

conjunto de amostras e = [e(1), . . . , e(J )]. Numa estratégia de máxima verossimilhança, as estimativas de θ, denotadas por ˆθ, podem ser obtidas através da maximização da função de verossimilhança L(θ). Matematicamente, tem-se:

ˆ

θ = arg max

θ L(θ) = arg maxθ pe(e | θ), (2.32) Considerando e = [e(1), . . . , e(J )] estatisticamente independentes entre si a função de verossimilhança é dada por:

L(θ) = pe(e | θ) = J

Y

j=1

pe(e(j)|θ). (2.33)

Em um problema de BSS linear, as informações que se possui são as amostras das misturas dadas por x = [x(1), . . . , x(J )], e se quer determinar os valores dos elementos da matriz de separação W. Observando a equação (2.33) é possível escrever:

(40)

L(W) =

J

Y

j=1

px(x(j)|W). (2.34)

Sabendo que [Papoulis (1993)]:

px(x) =

ps(A−1x)

onde wndenota a n-ésima linha da matriz W.

É possível fazer mais duas considerações para simplificar a expressão. Uma delas permite transformar os produtórios em somatórios utilizando a função de máxima verossimilhança logarítmica. A outra utiliza as leis dos grandes números para obter uma variante probabilística.

Através da aplicação da primeira idéia de simplificação tem-se: 1 J log(L(W)) = 1 J J X j=1 N X n=1

log(psn(wnx(j))) + log(| det(W)|). (2.37)

Considerando a lei dos grandes números: 1

J log(L(W)) = E{

N

X

n=1

log(psn(wnx(j)))} + log(| det(W)|). (2.38)

A divergência de Kullback-Leibler permite ainda escrever [Kofidis (2001)]:

f

W = arg max

W (L(W)) , arg minW (D(py(y|W))) | ps(y)). (2.39)

Essa expressão pode ser considerada um contraste, pois satisfaz todos os critérios apontados na seção 2.4.2. Assim, conclui-se que a máxima verossimilhança é obtida através da escolha de uma matriz W que minimize a divergência de Kullback-Leibler entre as funções densidade de probabilidade das misturas s e as funções densidade de probabilidade de suas estimativas x. No entanto, é importante observar que essa estratégia exige, a rigor, o conhecimento das funções densidade de probabilidade das fontes e, em geral, essa informação não está disponível em sistemas de separação cega.

(41)

2.5.5 Análise por componentes principais (PCA), Braqueamento e

PCA não-linear (NPCA)

A PCA (Análise por Componentes Indepedente, do inglês Principal Component Analysis)[Hyvarinen et al. (2000)], também chamada de transformada discreta de Karhunen-Loève, é geralmente usada em aplicações de compressão de dados e extração de características. A PCA utiliza a medida de correlação para quantificar a redundância entre componentes de um sinal, em contraste com a ICA, que utiliza uma medida de independência.

Matematicamente, uma das interpretações da PCA é considerá-la como uma estratégia que busca comprimir um vetor x = [x1· · · xM]T que, por construção, apresenta uma

certa redundância, através de um vetor y = [y1· · · yN]T tal que N < M e com

elementos descorrelacionados entre si. Para isso, a tarefa da PCA é encontrar uma transformação linear que permita mapear x em y. Aos elementos do vetor y dá-se o nome de componentes principais.

Para encontrar as componentes principais, é necessário buscar um vetor w1 =

[w11· · · wM 1]T de norma euclidiana unitária que garanta a máxima variância da expressão

para a primeira componente principal de y, y1:

y1 = wT1x. (2.40)

As outras componentes principais y2. . . yM são determinadas de maneira semelhante:

y2 = wT2x, (2.41)

Deve-se ter o cuidado de selecionar uma componente principal y2 cuja correlação

com y1seja nula. Sendo assim, em um sistema de duas dimensões, deve-se determinar os

componentes de y usando as equações transcritas abaixo: y1 = w1Tx

y2 = w2Tx

E{y1· y2} − E{y1} · E{y2} = 0

(2.42)

onde wT₁x e wT

2x são determinados de forma a garantir a máxima variância das

componentes de y.

De forma generalizada, tem-se:

(42)

onde wT

i wj = δij, onde δij corresponde à função delta de Kronecker.

Uma outra maneira de visualizar a análise por componentes principais é utilizar a minimização do erro quadrático médio mínimo (MMSE, Minimum Mean Square Error) entre o sinal e a sua estimativa (erro de compressão) para obter os vetores wi:

JP CA = E{kx − N

X

i=1

(wT_i x)wik2}, (2.44)

onde deve-se impor que wT_i wj = δij. Uma observação interessante é que, quanto maior

for o número de componentes principais considerados na compressão, menor será o erro de compressão.

Mas e se N = M ? Nesse caso, o objetivo não é a compressão dos dados, mas sim encontrar uma transformação linear sobre x que resulte em um vetor aleatório descorrelacionado y: essa é a definição de branqueamento espacial. É importante lembrar que descorrelação não significa independência entre as variáveis aleatórias, ou seja, a PCA não garante que as componentes de y sejam independentes.

O desenvolvimento a seguir mostra que, assumindo um vetor x de média nula, a solução do problema de otimização descrito pela expressão (2.44) está relacionada aos autovetores da matriz de correlação Rx = E{xxT}. Para iniciar, observa-se que no

modelo ICA a matriz de correlação entre as misturas é dada por:

Rx = E{xxT} = ARsAT = AAT, (2.45)

onde Rsé a matriz de correlação das fontes.

A seguir, assumindo um sistema linear, a correlação das estimativas das fontes é dada por:

Ry = WRxWT, (2.46)

Para branquear as saídas, é necessário determinar W tal que:

Ry= I → WRxWT = I, (2.47)

Uma solução dessa expressão pode ser dada por:

Rx = EDET (2.48)

onde:

(43)

D é uma matriz diagonal contendo os autovalores de Rx

Usando essa relação, chega-se a expressão abaixo que permite obter a matriz W:

W = ED−1/2ET. (2.49)

Note que a matriz W apenas garante que as estimativas y serão descorrelacionadas e não independentes, e, portanto, a separação dos sinais só será efetuada com uma matriz complementar de rotação, conforme ilustrado na Figura 2.12. A Figura 2.12(a) mostra as fontes, a Figura 2.12(b) mostra as misturas e a Figura 2.12(c) mostra as estimativas obtidas através do branqueamento.

Como se assume que o sistema misturador é linear, as misturas são geradas a partir de escalonamentos e rotações das fontes. Apesar de a recuperação via braqueamento possibilitar a recuperação das escalas das fontes, ela não consegue recuperar a rotação, como mostra a Figura 2.12(c).

Embora não garanta a solução ótima para o problema, a estratégia de branqueamento pode ser usada como ponto de partida para algoritmos de otimização que permitam encontrar tal solução. A complexidade dos algoritmos de ICA pode ser reduzida significativamente, já que o problema restante se resume em determinar uma matriz de rotação complementar.

A limitação da técnica PCA linear em recuperar a rotação das fontes pode ser contornada através da introdução de componentes não-lineares. Com isso define-se a NPCA (do inglês, Nonlinear Principal Component Analysis), que prevê a modificação da equação (2.44) incluindo componentes não-lineares:

JN P CA= E{kx − N

X

i=1

(gi(wTi x))wik2}, (2.50)

onde gié uma função necessariamente não-linear.

Simplificando, pode-se ainda escrever:

JN P CA= E{kx − WTg(Wx)k2}, (2.51)

Essa não é a única maneira de transformar a estratégia de PCA em NPCA. A não-linearidade pode ser posicionada em outros pontos da equação [Hyvarinen et al. (2000)]. Na abordagem via NPCA, é comum fazer com que as misturas passem por um estágio de branqueamento, que, como já apresentado, pode ser conduzido pela aplicação da PCA. Nesse caso, a matriz W a ser determinada é ortogonal, ou seja, WWT = I. Aplicando essa condição na descrição matricial do problema, e, após um breve desenvolvimento,

(44)

(a) Distribuição conjunta das fontes. (b) Distribuição conjunta das misturas.

(c) Distribuição conjunta das estimativas obtidas a partir do braqueamento das misturas.

Fig. 2.12: Tratamento da BSS considerando estatística de segunda ordem.

obtém-se que: JN P CA = E{kWx − g(Wx)k2} = E{ky − g(y)k2} =PN i=1E{[yi − gi(yi)] 2_} (2.52)

Essa função apresenta uma similaridade patente com os critérios de Bussgang [Attux et al. (2006)], uma classe de funções custo amplamente utilizadas em equalização cega.

2.6 Separação de misturas não-lineares

Desde o início, esse trabalho tem enfatizado bastante as técnicas de separação linear e suas aplicações, pois elas são a base da teoria que dá suporte à BSS. No entanto, alguns tipos de problemas podem ser gerados por um certo número de fontes que interagem entre