Uma abordagem baseada em otimização multiobjetivo para o problema de separação cega de fontes

(1)

Faculdade de Ciências Aplicadas

Guilherme Dean Pelegrina

Uma abordagem baseada em otimização multiobjetivo

para o problema de separação cega de fontes

Limeira

2017

(2)

Uma abordagem baseada em otimização multiobjetivo

para o problema de separação cega de fontes

Dissertação apresentada a Faculdade de Ci-ências Aplicadas para obtenção do Título de Mestre em Engenharia de Produção e de Ma-nufatura, na área de concentração Pesquisa Operacional e Gestão de Processos.

Orientador: Prof. Dr. Leonardo Tomazeli Duarte

Este exemplar corresponde à versão final da dissertação defendida pelo aluno Guilherme Dean Pelegrina, e orientada pelo Prof. Dr. Leonardo Tomazeli Duarte

Limeira

2017

(3)

Ficha catalográfica

Universidade Estadual de Campinas Biblioteca da Faculdade de Ciências Aplicadas

Renata Eleuterio da Silva - CRB 8/9281

Pelegrina, Guilherme Dean,

P362a PelUma abordagem baseada em otimização multiobjetivo para o problema de separação cega de fontes / Guilherme Dean Pelegrina. – Limeira, SP : [s.n.], 2017.

PelOrientador: Leonardo Tomazeli Duarte.

PelDissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Ciências Aplicadas.

Pel1. Separação cega de fontes. 2. Otimização multiobjetivo. 3. Algoritmos evolutivos. I. Duarte, Leonardo Tomazeli,1982-. II. Universidade Estadual de Campinas. Faculdade de Ciências Aplicadas. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: A multi-objective optimization approach for blind source separation Palavras-chave em inglês:

Blind source separation Multi-objective optimization Evolutionary algorithms

Área de concentração: Pesquisa Operacional e Gestão de Processos Titulação: Mestre em Engenharia de Produção e de Manufatura Banca examinadora:

Leonardo Tomazeli Duarte [Orientador] Romis Ribeiro de Faissol Attux

Guilherme Palermo Coelho Data de defesa: 08-02-2017

Programa de Pós-Graduação: Engenharia de Produção e de Manufatura

(4)

Autor: Guilherme Dean Pelegrina.

Título: Uma abordagem baseada em otimização multiobjetivo para o problema de separação cega de fontes.

Natureza: Dissertação.

Instituição: Universidade Estadual de Campinas. Data da Defesa: Limeira, 08 de fevereiro de 2017.

BANCA EXAMINADORA

Prof. Dr. Leonardo Tomazeli Duarte (Orientador)

Prof. Dr. Romis Ribeiro de Faissol Attux

Prof. Dr. Guilherme Palermo Coelho

A Ata da Defesa, com as respectivas assinaturas dos membros, encontra-se no processo de vida acadêmica do aluno.

(5)

À minha namorada Thais, pelo amor, carinho, compreensão e companhia em todos esses anos.

Aos meus pais, José Carlos e Rosemary, e aos meus avós, Artêmio e Catarina, pela criação e apoio familiar.

Ao meu orientador, professor Leonardo Tomazeli Duarte, pela amizade e ensina-mentos oferecidos desde a graduação.

Aos membros da banca, professor Romis Ribeiro de Faissol Attux e professor Guilherme Palermo Coelho, pela disponibilidade e pelas valiosas sugestões.

Ao professor Washington Alves de Oliveira, pelos conselhos oferecidos.

Aos amigos José Leonardo Takahashi e Lucas Antônio Risso, pela amizade dentro e fora da universidade.

À Faculdade de Ciências Aplicadas (FCA) da Universidade Estadual de Campinas (UNICAMP), pela estrutura acadêmica oferecida desde a graduação.

À todos os professores e amigos do Centro de Pesquisa Operacional (CPO) da FCA, pelo convívio e pelas interessantes discussões.

Aos demais amigos e familiares.

À Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), pelo apoio financeiro (Processo 2014/27108-9).

(6)

Vários problemas em processamento de sinais são formulados como problemas de sepa-ração cega de fontes. Classicamente, tais problemas são resolvidos através da otimização de um critério de separação relacionado a informações sobre o conjunto de sinais fonte. No entanto, em diversas situações práticas, há mais de uma informação sobre as fontes e, consequentemente, mais de um critério de separação pode ser construído para resolver o problema. Assim, este trabalho propõe a aplicação da abordagem multiobjetivo, cuja resolução é obtida através da otimização simultânea de mais de um critério, para resolver os problemas no contexto da separação cega de fontes. Com o intuito de demonstrar a aplicabilidade desta abordagem, experimentos numéricos foram realizados de maneira a comparar as soluções obtidas através da abordagem multiobjetivo com as soluções otimi-zando individualmente cada critério. Os resultados sugerem que a abordagem multiob-jetivo fornece soluções que, analisadas pelo tomador de decisão envolvido no problema, são melhores que as alcançadas quando apenas um critério é levado em consideração no modelo.

Palavras-chaves: Separação Cega de Fontes; Otimização Multiobjetivo; Algoritmos Evo-lutivos.

(7)

Several problems in signal processing are formulated as blind source separation problems. Classically, these problems are solved through the optimization of a separation criterion related to the source signals. However, in many practical situations, there is more than one information about the sources and, consequently, more than one separation criterion can be built to solve the problem. Therefore, this work proposes the application of a multi-objective approach, whose resolution is achieved by simultaneous optimization of more than one criterion, to solve blind source separation problems. With the purpose of demonstrating the applicability of this approach, numerical experiments were performed in order to compare the solutions obtained by the multi-objective approach with the solu-tions optimizing each criterion individually. The results suggest that the multi-objective approach provides solutions that, analyzed by the decision makers involved in the prob-lem, are better than those achieved when only one criterion is taken into account in the model.

Keywords: Blind Source Separation; Multi-objective Optimization; Evolutionary Algo-rithms.

(8)

Figura 1 – O problema de separação cega de fontes. . . 19

Figura 2 – O problema de extração cega de fontes. . . 20

Figura 3 – Cocktail party problem. . . 20

Figura 4 – Aplicação da BSS em sinais de ECG de uma mulher grávida. Extraído de (BARROS; CICHOCKI, 2001) . . . 22

Figura 5 – Comparação entre as distribuições conjuntas das fontes e misturas. . . 26

Figura 6 – Comparação entre as distribuições conjuntas das estimativas pós PCA e ICA. . . 26

Figura 7 – Comparação entre sinal autocorrelacionado e sem estrutura temporal. . 30

Figura 8 – Comparação entre sinal esparso e sinal não-esparso. . . 32

Figura 9 – O problema de não-linearidade posterior. . . 35

Figura 10 – Estratégia memética. . . 36

Figura 11 – O problema inverso. . . 37

Figura 12 – Espaço de variáveis e função-objetivo na otimização mono-objetivo. . . 40

Figura 13 – Espaço de variáveis e espaço de objetivos na otimização multiobjetivo. 41 Figura 14 – Comparação entre conjunto convexo e não-convexo. . . 43

Figura 15 – Comparação entre função convexa e não-convexa. . . 43

Figura 16 – Soluções Pareto-ótimas. . . 45

Figura 17 – Solução ideal e solução nadir. . . 46

Figura 18 – O método da soma ponderada. . . 48

Figura 19 – Método da soma ponderada e sua desvantagem. . . 49

Figura 20 – O método do 𝜖-restrito. . . . 50

Figura 21 – Método do 𝜖-restrito e sua desvantagem. . . . 51

Figura 22 – Exemplo de indivíduo e população. . . 53

Figura 23 – Exemplo de fontes e misturas. . . 58

Figura 24 – Estimativas para diferentes valores de 𝜆. . . . 58

Figura 25 – Conjunto de soluções Pareto-ótimas disponíveis para o decisor. . . 59

Figura 26 – Operadores evolutivos. . . 62

Figura 27 – Conjunto de dados. . . 64

Figura 28 – Função de autocorrelação. . . 65

Figura 29 – Soluções obtidas pelos critérios individuais, abordagem multiobjetivo e filtragem de Wiener. . . 67

Figura 30 – Fonte e estimativas. . . 67

Figura 31 – Evolução das soluções encontradas pelo algoritmo. . . 68

Figura 32 – SIR para diferentes níveis de AWGN. . . 69

(9)

Figura 35 – Soluções obtidas pelos critérios individuais, abordagem multiobjetivo e

filtragem de Wiener. . . 72

Figura 36 – Fontes e estimativas. . . 72

Figura 38 – SIR para diferentes níveis de AWGN. . . 74

Figura 39 – Estratégia memética utilizada no modelo PNL para o cálculo das funções-objetivo. . . 76

Figura 41 – Soluções obtidas pelos critérios individuais e abordagem multiobjetivo. 78 Figura 42 – Fontes e estimativas. . . 79

Figura 43 – Comparação entre as soluções encontradas, com relação à SIR. . . 79

Figura 46 – Soluções obtidas pelos critérios individuais e abordagem multiobjetivo. 81 Figura 47 – Fontes e estimativas. . . 81

Figura 48 – Comparação entre as soluções encontradas, com relação à SIR. . . 82

Figura 51 – Soluções obtidas pelos critérios individuais e pela abordagem multiob-jetivo, destacando a melhor neste último conjunto. . . 85

Figura 52 – Comparação entre fontes e estimativas, sem ruído no processo de mistura. 85 Figura 53 – Evolução das soluções encontradas pelo algoritmo. . . 86

Figura 54 – Soluções obtidas pelos critérios individuais e pela abordagem multiob-jetivo, destacando a melhor neste último conjunto. . . 87

Figura 55 – Comparação entre fontes e estimativas, com ruído no processo de mistura. 88 Figura 56 – SIR para diferentes níveis de AWGN. . . 88

(10)

Tabela 1 – Investimentos e respectivos valores de retorno esperado. . . 41 Tabela 2 – Investimentos e respectivos valores de retorno esperado e risco envolvido. 42

(11)

AWGN Additive White Gaussian Noise (Ruído Gaussiano Branco Aditivo)

BSE Blind Source Extraction (Extração Cega de Fontes)

BSS Blind Source Separation (Separação Cega de Fontes)

ECG Eletrocardiograma

EEG Eletroencefalograma

HOS Higher Order Statistics (Estatísticas de Ordem Superior)

ICA Independent Component Analysis (Análise de Componentes Independentes)

ISE Ion-Selective Electrode (Eletrodo Íon-Seletivo)

MSE Mean Squared Error (Erro Quadrático Médio)

NSGA Nondominated Sorting Genetic Algorithm

PCA Principal Component Analysis (Análise de Componentes Principais)

PNL Post-Nonlinear (Não-Linearidade Posterior)

SIR Signal-to-Interference Ratio (Razão Sinal-Interferência)

SNR Signal-to-Noise Ratio (Razão Sinal-Ruído)

SOS Second Order Statistics (Estatísticas de Segunda Ordem)

SPEA Strength Pareto Evolutionary Algorithm

(12)

1 Introdução . . . 15

1.1 Motivação . . . 15

1.2 Objetivos . . . 16

1.3 Organização . . . 16

2 Separação cega de fontes . . . 18

2.1 Histórico . . . 18

2.2 Descrição do problema de BSS . . . 19

2.3 Aplicações . . . 20

2.3.1 Separação de sinais de áudio . . . 20

2.3.2 Processamento de sinais biomédicos . . . 21

2.3.3 Processamento de dados químicos . . . 21

2.3.4 Outras aplicações . . . 21

2.4 Formulação matemática do problema de BSS - caso linear . . . 22

2.5 Critérios de separação . . . 23

2.5.1 Análise de componentes independentes . . . 24

2.5.1.1 Considerações gerais . . . 24

2.5.1.2 PCA e a etapa de branqueamento . . . 25

2.5.1.3 Maximização da não-gaussianidade . . . 27

2.5.1.4 Informação mútua . . . 28

2.5.2 Critérios baseados em estatísticas de segunda ordem e na tempora-lidade das fontes . . . 29

2.5.2.1 Diagonalização conjunta das matrizes de covariância . . . 29

2.5.2.2 Autocorrelação . . . 29

2.5.3 Esparsidade . . . 31

2.5.3.1 Esparsidade através de norma-ℓ0 . . . 31

2.5.3.2 Esparsidade através de norma-ℓ1 . . . 33

2.5.4 Técnicas que combinam dois ou mais critérios . . . 33

2.6 O caso da não-linearidade posterior . . . 34

2.6.1 Estratégias de resolução . . . 35

2.7 O problema de BSS visto como um problema inverso . . . 36

2.7.1 Visão geral do problema e relação com o problema de BSS . . . 37

2.7.2 Critérios de otimização . . . 37

2.8 Resumo do capítulo . . . 38

3 Otimização multiobjetivo . . . 39

3.1 Histórico . . . 39

(13)

3.3 Conceitos e definições . . . 42

3.3.1 Convexidade . . . 42

3.3.2 Relação de dominância . . . 43

3.3.3 Soluções de Pareto . . . 44

3.3.3.1 Soluções fortemente Pareto-ótimas . . . 44

3.3.3.2 Soluções fracamente Pareto-ótimas . . . 44

3.3.4 Exemplo ilustrativo . . . 45

3.3.5 Soluções especiais . . . 46

3.4 Técnicas para encontrar o conjunto Pareto-ótimo . . . 47

3.4.1 Métodos tradicionais . . . 47

3.4.1.1 Soma ponderada . . . 47

3.4.1.1.1 Resultados teóricos . . . 48

3.4.1.2 𝜖-restrito . . . 49

3.4.1.2.1 Resultados teóricos . . . 50

3.4.2 Métodos baseados em meta-heurísticas . . . 51

3.4.3 SPEA2 . . . 52

3.4.3.1 Definições básicas . . . 52

3.4.3.2 O algoritmo SPEA2 . . . 53

4 Metodologia . . . 57

4.1 Justificativa da otimização multiobjetivo em BSS e problemas inversos . . . 57

4.2 Otimização multiobjetivo em BSS e BSE . . . 59

4.3 Otimização multiobjetivo em problemas com não-linearidade posterior . . . 60

4.4 Otimização multiobjetivo em problemas inversos . . . 60

4.5 Considerações gerais sobre o algoritmo multiobjetivo adotado . . . 61

5 Experimentos e resultados . . . 64

5.1 Otimização multiobjetivo aplicada à BSE . . . 64

5.1.1 Conjunto de dados e critérios adotados . . . 64

5.1.2 Variáveis e parâmetros do SPEA2 . . . 65

5.1.3 Experimento sem ruído no processo de mistura . . . 66

5.1.4 Experimento com adição de ruído no processo de mistura . . . 67

5.2 Otimização multiobjetivo aplicada à BSS - caso linear . . . 69

5.3 Otimização multiobjetivo aplicada à BSS - caso da PNL . . . 74

(14)

5.3.4 Experimento com dados sintéticos . . . 77

5.3.5 Experimento com dados reais . . . 79

5.4 Otimização multiobjetivo aplicada ao problema inverso . . . 82

6 Conclusões e perspectivas . . . 89

(15)

1 Introdução

O problema de separação cega de fontes (BSS, Blind Source Separation), intro-duzido na década de 1980 por Hérault, Jutten e Ans (1985), é um problema em processa-mento de sinais que visa recuperar um conjunto de sinais fonte a partir de um conjunto de misturas de tais fontes, desconhecendo tanto os dados originais quanto os parâmetros do processo de mistura. Relacionada a este problema está a extração cega de fontes (BSE, Blind Source Extraction), que visa extrair um sinal dentre as misturas observadas.

Esses problemas, embora ditos “cegos”, requerem alguma informação a priori sobre as fontes e o processo de mistura para serem resolvidos. Com base nessa informa-ção, então, um critério de otimização pode ser construído a fim de recuperar os sinais misturados.

Nas décadas seguintes ao surgimento do problema de BSS, diversos critérios de otimização foram desenvolvidos, relacionados às mais diversas características das fontes. Dentre eles, pode-se citar os baseados na independência estatística, na descorrelação, na estrutura temporal e na esparsidade dos sinais (COMON; JUTTEN, 2010). Em todos os modelos baseados nesses critérios, há a presença de uma única função-objetivo a ser otimizada. Consequentemente, sua resolução fornece uma solução para o problema de BSS, ou seja, uma estimativa dos sinais fontes.

No entanto, há casos em que há um conjunto de informações a priori sobre as fontes e, dessa forma, mais de um critério de otimização pode ser construído para resolver o problema. O que geralmente acontece nesses casos é a combinação dos critérios em uma única função-objetivo, a qual contempla todas as características dos sinais fonte. Essa combinação é realizada, por exemplo, através de uma ponderação (CICHOCKI et al., 2006), sendo que a intensidade dos pesos atribuídos para cada critério é pré-estabelecida pelo tomador de decisão (usuário do sistema) envolvido no problema em questão.

1.1 Motivação

Visto que a presença de mais de uma informação a respeito dos sinais fonte é comum em diversas aplicações e, assim, um conjunto de critérios de otimização pode ser obtido, este estudo visa abordar os problemas de separação cega de fontes através da otimização multiobjetivo (MIETTINEN, 1999). Dessa forma, ao invés de combinar os critérios em uma única função-objetivo, os mesmos serão otimizados simultaneamente.

Na abordagem proposta, diferentemente da abordagem mono-objetivo que resulta em uma solução para o problema, um conjunto de soluções (Pareto-ótimas) será gerado.

(16)

Assim, o tomador de decisão não terá a necessidade de pré-estabelecer ponderações para os critérios, e sim, terá em mãos uma gama de soluções igualmente ótimas para basear sua decisão.

Vale ressaltar que, embora haja trabalhos que consideram mais de um critério na formulação de uma uma função-objetivo, a otimização simultânea dos mesmos é pouco explorada no contexto da separação cega de fontes. Alguns trabalhos utilizam essa abor-dagem em casos específicos, como no processamento de sinais de eletroencefalograma (EEG) (PHLYPO et al., 2006; GOH et al., 2016). Portanto, essa lacuna na literatura também serve de motivação para o presente estudo.

1.2 Objetivos

Diante da motivação apresentada na seção anterior, o objetivo principal deste estudo é verificar a aplicabilidade da otimização multiobjetivo nos problemas de extração e separação cega de fontes, com a extensão deste último para o caso não-linear. Além disso, a abordagem proposta também será analisada no contexto da BSS formulada como um problema inverso.

Os modelos de otimização multiobjetivo serão resolvidos a partir de uma técnica baseada em algoritmos evolutivos. Portanto, um estudo acerca dessa técnica e adequação da mesma para os problemas considerados aqui será realizada neste trabalho.

Com base nos resultados obtidos através do algoritmo evolutivo, as soluções al-cançadas pela abordagem multiobjetivo serão comparadas com as soluções que seriam obtidas ao otimizar cada critério individualmente. Dessa forma, será verificado o desem-penho da abordagem multiobjetivo frente ao modelo envolvendo apenas um critério.

Além desses objetivos mencionados, visto que a otimização multiobjetivo é pouco explorada no contexto da separação cega de fontes, este estudo também visa incentivar pesquisas neste assunto. Assim, este trabalho servirá como um documento no qual traba-lhos futuros podem se basear para explorar a abordagem multiobjetivo nos mais variados problemas em BSS.

1.3 Organização

Com relação à organização deste trabalho, inicialmente, no Capítulo 2, será apre-sentado o problema de separação cega de fontes. Primeiramente, será dado um breve histórico deste problema, descrevendo as principais contribuições ao longo das décadas após sua origem. Em seguida, o problema será detalhado, expondo algumas aplicações e sua formulação matemática. Feito isto, os critérios de otimização utilizados para

(17)

resol-ver os problemas de BSS serão apresentados. Finalmente, será discutida uma formulação alternativa para o problema.

Após a apresentação do problema de BSS, o Capítulo 3 discutirá os aspectos fundamentais sobre a otimização multiobjetivo. Um histórico sobre essa abordagem e a formulação matemática do modelo multiobjetivo é mostrada no início do capítulo. Em seguida, os principais conceitos sobre as soluções ótimas do problema, chamadas de so-luções Pareto-ótimas, são descritos. Finalmente, as técnicas para a determinação de tal conjunto de soluções são discutidas, incluindo a que será utilizada nos experimentos.

No Capítulo 4, a justificativa pelo uso da abordagem multiobjetivo no contexto de problema de separação cega de fontes é apresentada e a metodologia deste estudo é descrita. Além disso, os aspectos gerais de cada experimento e as considerações sobre o algoritmo multiobjetivo utilizado são discutidos.

Em seguida, no Capítulo 5, os experimentos realizados e os resultados obtidos neste estudo são apresentados. Para cada experimento, a abordagem multiobjetivo é uti-lizada a fim de verificar sua aplicabilidade na resolução do problema considerado.

Por fim, o Capítulo 6 expõe as conclusões deste estudo. Além disso, as perspec-tivas futuras também são levantadas, de maneira a incentivar a continuação da pesquisa no assunto abordado neste trabalho.

(18)

2 Separação cega de fontes

Este capítulo discorrerá sobre um problema inserido na área de processamento de sinais conhecido como separação cega de fontes (BSS, Blind Source Separation). Inicial-mente, será apresentado um histórico sobre estudos neste contexto e uma breve descrição do que é o problema de BSS, tanto para o caso linear quanto para o não-linear. Algumas aplicações também serão exibidas a fim de ilustrar o problema. Em seguida, serão discu-tidos alguns critérios de otimização usados na resolução de tais problemas. Por fim, será apresentado o problema de BSS formulado como um problema inverso.

2.1 Histórico

Pode-se dizer que as origens do problema de separação cega de fontes estão em meados da década de 1980, a partir do trabalho de Hérault, Jutten e Ans (1985). Neste estudo, visto que um único sinal emitido pelo sistema nervoso é traduzido por duas infor-mações relacionadas à ativação muscular (deslocamento e velocidade angular), os autores se interessavam em desenvolver um método computacional capaz de distinguir tais infor-mações. Além do pioneirismo na abordagem de problemas de BSS, este trabalho também contribuiu apontando a necessidade em considerar estatísticas de ordem superior (HOS, Higher Order Statistics) na resolução de tal problema.

Apesar das contribuições de Hérault, Jutten e Ans (1985) na década de 1980, os problemas de BSS começaram a ser mais estudados na década de 1990. Um marco nesse período foi o trabalho de Comon (1994), o qual explorou os resultados obtidos por Darmois (1953) e formalizou a influência da independência nos problemas de BSS. Este estudo deu origem à ideia da análise de componentes independentes (ICA, Independent Component Analysis), a qual utiliza estatísticas de ordem superior para resolver os problemas de BSS. Ainda no contexto de métodos baseados em HOS, Bell e Sejnowski (1995) propuseram um método bem eficiente em termos de capacidade de separação e simplicidade de implemen-tação, conhecido como Infomax. No final da década de 1990, Cardoso (1997) contribuiu para estudos sobre o estimador de máxima verossimilhança e demonstrou que esta abor-dagem está relacionada ao método proposto por Bell e Sejnowski (1995), resultando em algoritmos similares.

Além dos métodos baseados em HOS, também surgiram na década de 1990 e no início de 2000 trabalhos que exploravam estatísticas de segunda ordem (SOS, Second Order Statistics). Características como a estrutura temporal das fontes e a correlação entre elas eram levadas em conta no algoritmo. Nesse contexto, autores como Tong et al. (1990), Belouchrani et al. (1997) e Yeredor (2000) contribuíram, respectivamente, no

(19)

desenvolvimento dos algoritmos conhecidos como AMUSE, SOBI e WASOBI.

Outro problema explorado no contexto da BSS na década de 90 foi a não-linearidade no processo de mistura das fontes. O trabalho de Yang, Amari e Cichocki (1998) discute os modelos de mistura não-lineares em sua forma geral e Taleb e Jut-ten (1999) apresentam o caso particular conhecido como não-linearidade posterior (PNL, Post-Nonlinear ).

Já nos anos 2000, explorando o caso do processo de mistura linear, Hyvärinen, Karhunen e Oja (2001) apresentaram diversas técnicas baseadas na maximização da não-gaussianidade, dentre elas, o FastICA. Mais recentemente, diversas outras abordagens foram feitas a respeito do problema de BSS, explorando características como esparsi-dade, não-negativiesparsi-dade, dentre outras. Além disso, abordagens bayesianas também foram propostas. A obra de Comon e Jutten (2010) contempla esses assuntos.

2.2 Descrição do problema de BSS

Em linhas gerais, o problema de separação cega de fontes consiste em estimar um conjunto de sinais fonte a partir de um conjunto de misturas de tais dados, desconhe-cendo tanto os sinais originais quanto os parâmetros do processo de mistura (COMON; JUTTEN, 2010). Assim, um sistema separador é ajustado de maneira a inverter o sis-tema misturador. A Figura 1 ilustra este procedimento, onde os sinais observados 𝑥𝑗(𝑡), 𝑗 = 1, . . . , 𝑀 , obtidos a partir da mistura das fontes 𝑠𝑖(𝑡), 𝑖 = 1, . . . , 𝑁 , são submetidos ao processo de separação, resultando nas estimativas 𝑦𝑖(𝑡), 𝑖 = 1, . . . , 𝑁 .

Processo

de mistura

s1(t) s2(t) sN(t)

Processo

de

separação

x1(t) x2(t) xM(t) y1(t) y2(t) yN(t)

Fontes Misturas Estimativas

Figura 1 – O problema de separação cega de fontes.

Relacionado ao problema de BSS está a extração cega de fontes que, ao invés de estimar o conjunto inteiro de fontes misturadas, busca extrair apenas um sinal de inte-resse (COMON; JUTTEN, 2010). Dessa forma, um vetor de extração é ajustado a fim de recuperar o sinal desejado. A Figura 2 ilustra este processo, onde os sinais observa-dos 𝑥𝑗(𝑡), 𝑗 = 1, . . . , 𝑀 , obtidos a partir da mistura das fontes 𝑠𝑖(𝑡), 𝑖 = 1, . . . , 𝑁 , são utilizados no processo de extração, resultando na estimativa 𝑦(𝑡).

De certa forma, o problema de BSS pode ser visto como a resolução de sucessivas instâncias do problema de BSE, até que se extraiam todas as fontes que haviam sido

(20)

Processo

de mistura

s1(t) s2(t) sN(t)

Processo

de

extração

x1(t) x2(t) xM(t) y (t)

Fontes Misturas Estimativa

Figura 2 – O problema de extração cega de fontes.

misturadas. A técnica denominada deflação, por exemplo, busca estimar as fontes uma por uma. Além disso, outra técnica que pode ser empregada é a ortogonalização simétrica, na qual as fontes são recuperadas em paralelo (HYVÄRINEN et al., 2001).

2.3 Aplicações

Esta seção apresenta algumas aplicações envolvendo os problemas de BSS e BSE, em diversas áreas de pesquisa.

2.3.1 Separação de sinais de áudio

Um dos exemplos mais ilustrativos de situações em que a BSS se aplica é um problema conhecido como cocktail party problem (CHOI; CICHOCKI, 1997). Suponha que uma pessoa esteja em local onde outras pessoas estejam conversando (uma festa, por exemplo) e haja também um ruído de fundo (uma música, por exemplo). Mesmo com todos os sons sendo recebidos ao mesmo tempo, a pessoa consegue identificar o som de interesse (vindo de uma determinada fonte). A Figura 3 ilustra essa situação.

Fontes

Mistura

(21)

O interessante nesse contexto é que, visto que os sistemas nervoso e auditivo atuam conjuntamente a fim de extrair o som desejado, seria possível ajustar um modelo separador capaz de recuperar o som desejado a partir de uma mistura de sinais de áudio? Técnicas de BSS, principalmente as baseadas na ICA, são utilizadas para resolver esse problema.

2.3.2 Processamento de sinais biomédicos

Na medicina, diversas técnicas são desenvolvidas a fim de evitar exames invasivos em pacientes. Na especialidade da cardiologia, por exemplo, um exame muito comum é o eletrocardiograma (ECG), responsável por diagnosticar alterações nos batimentos cardía-cos. Neste exame, sinais elétricos são captados através de eletrodos colocados na pele do indivíduo analisado. No entanto, no momento da aquisição dos dados, há a presença de interferências vindas das mais variadas atividades fisiológicas do indivíduo. Um exemplo seria o ECG realizado em uma mulher grávida, cujos dados obtidos contêm uma mistura dos sinais elétricos oriundos do coração da mãe e do feto (BARROS; CICHOCKI, 2001). Suponha que deseje-se verificar os batimentos do feto. Assim, a partir dos dados mistu-rados, pode-se estimar o ECG fetal. A Figura 4 ilustra um sinal ECG de uma mulher grávida (dentre outros presente no conjunto de sinais misturados) e o sinal estimado do ECG do feto.

2.3.3 Processamento de dados químicos

No processo de controle de qualidade da água, por exemplo, um parâmetro im-portante é a concentração de íons na solução aquosa (SAKAI et al., 2000). Dispositivos conhecidos como eletrodos íon-seletivos (ISEs, Ion-Selective Electrodes) são usados para determinar essa concentração. Em linhas gerais, o ISE mede o potencial eletroquímico do íon de interesse a partir de uma membrana sensível imersa na solução (GRÜNDLER, 2007).

O problema envolvendo o uso do ISE reside no fato de que o mesmo não é tão seletivo quanto aos íons presentes na solução, sofrendo interferências de outros íons que não são o de interesse. Dessa forma, os dados coletados a partir dos ISEs representam uma mistura de atividades iônicas e, portanto, é de interesse o uso de técnicas de BSS a fim de separá-los (DUARTE et al., 2009; DUARTE et al., 2014b; DUARTE et al., 2014a; ANDO et al., 2015).

2.3.4 Outras aplicações

Além das aplicações mencionadas, há diversas outras em diferentes áreas de es-tudo. Dentre elas, tem-se aplicações em sinais geofísicos (TAKAHATA et al., 2012;

(22)

BA-(a) ECG materno.

(b) ECG fetal.

Figura 4 – Aplicação da BSS em sinais de ECG de uma mulher grávida. Extraído de (BARROS; CICHOCKI, 2001)

TANY et al., 2016), processamento de imagens (CICHOCKI; AMARI, 2002) e sinais hiperespectrais (MA et al., 2014).

2.4 Formulação matemática do problema de BSS - caso linear

Nesta seção, os problemas de BSS e BSE no caso do processo de mistura li-near são apresentados em sua forma matemática. Considere, inicialmente, o sistema de mistura/separação apresentado na Figura 1. Seja s(𝑡) = [𝑠1(𝑡), 𝑠2(𝑡), . . . , 𝑠𝑁(𝑡)]𝑇 o vetor de 𝑁 sinais fonte, cada um com 𝑡 = 1, . . . , 𝑇 amostras. Os dados observados x(𝑡) = [𝑥1(𝑡), 𝑥2(𝑡), . . . , 𝑥𝑀(𝑡)]𝑇 são obtidos através do processo de mistura

x(𝑡) = As(𝑡) + r(𝑡), (2.1)

onde A ∈ R𝑀 ×𝑁 e r(𝑡) representam, respectivamente, a matriz de mistura linear e o ruído aditivo1_{. O objetivo da separação cega de fontes é, então, ajustar uma matriz W ∈ R}𝑁 ×𝑀

1 _{Vale ressaltar que serão realizados neste estudo tanto experimentos com ruído gaussiano aditivo quanto}

sem o mesmo no processo de mistura. Além disso, será considerado também que o número de fontes é igual ao número de misturas, ou seja, 𝑁 = 𝑀

(23)

que forneça o conjunto y(𝑡) = [𝑦1(𝑡), 𝑦2(𝑡), . . . , 𝑦𝑁(𝑡)] 𝑇

de estimativas das fontes originais, através da equação

y(𝑡) = Wx(𝑡). (2.2)

Embora o problema seja dito cego, i.e., tanto as fontes quanto os parâmetros do processo de mistura sejam desconhecidos, o ajuste da matriz W requer alguma informação a priori sobre as fontes. Essa informação é necessária para o desenvolvimento de um critério de otimização 𝐽 (W) responsável pela recuperação dos sinais fonte. Com base nesse critério, o problema de BSS é modelado como

min

W /maxW 𝐽 (W) (2.3)

𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 W ∈ Ω, onde Ω, subconjunto de R𝑁 ×𝑀_{, é a região factível}2_.

Considerando o problema de BSE, como ilustrado na Figura 2, ao invés de ajustar uma matriz de separação W, o objetivo aqui é encontrar um vetor w ∈ R𝑀 _{que forneça} a estimativa 𝑦(𝑡) da fonte de interesse através da equação

𝑦(𝑡) = w𝑇x(𝑡). (2.4)

Da mesma forma que em BSS, o ajuste do vetor w requer alguma informação a priori sobre a fonte de interesse a fim de criar um critério de otimização 𝐽 (w) que resultará na extração deste sinal. Com isso, o problema de BSE é modelado como

min

w /maxw 𝐽 (w) (2.5)

𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 w ∈ Ω, onde Ω, subconjunto de R𝑀_{, é a região factível.}

Nas próximas seções serão apresentados alguns critérios de otimização utilizados na resoluções de ambos os problemas.

2.5 Critérios de separação

Como discutido na seção anterior, a construção dos modelos de otimização para resolver os problemas BSE e BSS é baseada em um critério associado às fontes. A de-terminação de tal critério é um fator muito importante, uma vez que, ao considerá-lo no problema, deve-se garantir a extração/separação dos sinais misturados. Um critério cuja otimização resulta na extração/separação de todas as fontes é chamado de função-contraste (COMON; JUTTEN, 2010). Esta seção apresenta algumas funções-função-contraste comumente utilizadas na resolução dos problemas de BSE e BSS.

2 _{Como será comentado na Seção 2.5.1.2, Ω poderia representar o espaço de busca onde a matriz de}

(24)

2.5.1 Análise de componentes independentes

Os primeiros critérios apresentados aqui são baseados na análise de componentes independentes. As considerações gerais sobre a ICA e os critérios desenvolvidos neste contexto são apresentados nas próximas seções.

2.5.1.1 Considerações gerais

A ICA surgiu a partir do trabalho de Hérault, Jutten e Ans (1985) e foi forma-lizada por Comon (1994). Neste último trabalho, Comon apresentou uma definição geral para a ICA:

Definição 2.1 (Análise de Componentes Independentes) A ICA de um vetor ale-atório x = [𝑥1, 𝑥2, . . . , 𝑥𝑀]𝑇 consiste em determinar uma matriz de separação W que, a partir da transformação y = Wx, resulte em um vetor aleatório y = [𝑦1, 𝑦2, . . . , 𝑦𝑁]𝑇 que seja tão estatisticamente independente quanto possível no sentido da maximização de uma dada função-contraste 𝐽 (y).

Dessa forma, a ICA tem como princípio a independência entre as fontes. A matriz de separação W é ajustada, então, considerando uma função contraste 𝐽 (y) que leva em consideração uma medida de independência (baseada em estatísticas de ordem superior). Para que as fontes sejam totalmente separadas com base na independência esta-tística, tanto as fontes quanto o sistema separador devem satisfazer algumas condições. A fim de definir essas condições, considere inicialmente o modelo de mistura x = As e o sistema separador y = Wx. Relacionando ambos, tem-se que y = WAs. O modelo de mistura descrito é, então, dito separável se y = Wx for estatisticamente independente e se WA = ΛP, onde Λ é uma matriz diagonal e P uma matriz de permutação. Vale res-saltar que, como a independência estatística não é afetada por permutações e alterações de escala, as fontes recuperadas podem estar com ordem invertida e com ganhos de es-cala (multiplicadas por um eses-calar, tanto positivo quanto negativo) (COMON; JUTTEN, 2010).

Além da condição sobre o sistema separador, Comon (1994) apresenta outras condições sobre as fontes e a matriz de mistura. O teorema a seguir contém essas condições:

Teorema 2.1 (Separabilidade na ICA) O modelo de mistura x = As é separável se e somente se a matriz A tiver posto completo e, no máximo, um dos elementos do vetor aleatório s for gaussiano.

Resumindo, a separação das fontes através da ICA presume que as mesmas sejam independentes e identicamente distribuídas (i.i.d) e não-gaussianas. Assim, a correlação

(25)

não é suficiente para garantir a separação das fontes, uma vez que o conceito de inde-pendência estatística é mais “forte”3_{. No entanto, uma etapa que considera medidas de}

correlação (etapa de branqueamento) é utilizada por várias técnicas de ICA como um pré-processamento. Essa etapa, relacionada à análise de componentes principais (PCA, Principal Component Analysis) (HYVÄRINEN et al., 2001) será discutida na seção se-guinte.

2.5.1.2 PCA e a etapa de branqueamento

A análise de componentes principais (também conhecida como transformada de Hotelling), é uma técnica muito utilizada na extração de características e compressão de dados (HYVÄRINEN et al., 2001). Em linhas gerais, o objetivo da PCA é ajustar uma matriz de transformação V ∈ R𝑁 ×𝑀 (𝑁 < 𝑀 ) a fim de comprimir o vetor aleatório x = [𝑥1, 𝑥2, . . . , 𝑥𝑀]𝑇 através da equação

z = Vx, (2.6)

onde z = [𝑧1, 𝑧2, . . . , 𝑧𝑁]𝑇 representa o vetor aleatório cujos elementos são descorrela-cionados entre si (chamados de componentes principais). Dessa forma, a PCA elimina redundâncias na representação dos dados, objetivo este similar ao da ICA considerando 𝑁 = 𝑀 . No entanto, ao levar em conta a descorrelação entre os elementos de z, a PCA se baseia em estatísticas de segunda ordem no processo de transformação. Ao conside-rar tal medida, como comentado na seção anterior, o vetor aleatório resultante z não é, necessariamente, independente, ou seja, a separação completa das fontes não é garantida apenas com a PCA. Para ilustrar esses resultados, considere inicialmente as distribuições conjuntas entre as fontes (independentes) e entre as misturas nas Figuras 5a e 5b, res-pectivamente. Aplicando a PCA para extrair os sinais descorrelacionados (procedimento conhecido como branqueamento) e a ICA para recuperar os dados independentes, as dis-tribuições conjuntas resultantes são ilustradas nas Figuras 6a e 6b, respectivamente.

Como pode ser notado na Figura 6a, mesmo obtendo dados descorrelacionados, eles ainda são dependentes entre si.

Apesar de não recuperar as fontes, o branqueamento geralmente é utilizado como uma etapa de pré-processamento da ICA. Uma maneira de obter os dados brancos consiste, primeiramente, em decompor a matriz de covariância de x, representada por Cxx =

𝐸[xx𝑇_{], em autovalores e autovetores}4_{, ou seja}

𝐸[xx𝑇] = EDE𝑇, (2.7)

onde E é a matriz ortogonal dos autovetores e D = 𝑑𝑖𝑎𝑔(𝑑1, 𝑑2, . . . , 𝑑𝑛) é a matriz diagonal dos autovalores. Com base nessas matrizes, encontra-se a matriz de branqueamento V

3 _{A correlação pode ser vista como uma aproximação de segunda ordem da independência.}

4 _{Vale ressaltar que todos os cálculos realizados na ICA são baseados em vetores com média igual a}

(26)

(a) Distribuição conjunta das fontes. (b) Distribuição conjunta das misturas.

Figura 5 – Comparação entre as distribuições conjuntas das fontes e misturas.

(a) Distribuição conjunta dos dados brancos. (b) Distribuição conjunta das fontes recupe-radas.

Figura 6 – Comparação entre as distribuições conjuntas das estimativas pós PCA e ICA.

através da equação

V = ED−1/2E𝑇, (2.8)

onde D−1/2= 𝑑𝑖𝑎𝑔(𝑑−1/2₁ , 𝑑−1/2₂ , . . . , 𝑑−1/2_𝑛 ). Por fim, os dados brancos z são dados por

z = Vx. (2.9)

Reescrevendo a Equação (2.9) em função das fontes z, tem-se que

(27)

Como o vetor aleatório z é branco e o vetor aleatório s é independente, 𝐸[zz𝑇_{] = 𝐸[ss}𝑇_{] =} I, onde I é a matriz identidade. Com isso, desenvolvendo a equação

𝐸[zz𝑇] = (VA)𝐸[ss𝑇](VA)𝑇 = (VA)(VA)𝑇 = I, (2.11)

obtém-se que VA é ortogonal5_{. Dessa forma, como comentado anteriormente, o}

branque-amento serve como pré-processbranque-amento da ICA uma vez que restringe o espaço de busca por matrizes que são ortogonais (HYVÄRINEN et al., 2001).

Visto os conceitos gerais sobre ICA, na seção seguinte serão apresentados alguns critérios de otimização usados para separar as fontes misturadas.

2.5.1.3 Maximização da não-gaussianidade

Os critérios apresentados neste trabalho no contexto da ICA estão relacionados à condição de não-gaussianidade das fontes. De acordo com o teorema central do limite (TCL), a soma de um conjunto de variáveis aleatórias resulta em uma variável cuja distri-buição está mais próxima da distridistri-buição gaussiana do que da distridistri-buição de uma variável desse mesmo conjunto (PAPOULIS; PILLAI, 2002). Dessa forma, supondo que as fontes s são independentes entre si e que, ao sofrerem um processo de mistura de acordo com a equação x = As, as misturas x se tornam dependentes (o que resulta de uma combinação linear de s), de acordo com o TCL, x passa a seguir uma distribuição que será aproxima-damente gaussiana. Tendo isto em vista, busca-se ajustar um critério que, ao maximizar uma medida de não-gaussianidade, implica na recuperação das fontes.

Uma medida que leva em consideração a gaussianidade de um vetor aleatório é a curtose. A curtose de uma variável aleatória 𝑦, definida (para valores reais) por

𝜅4(𝑦) = 𝐸[𝑦4] − 3(𝐸[𝑦2])2, (2.12)

corresponde à estatística de quarta-ordem de 𝑦 (HYVÄRINEN et al., 2001). Quanto maior o valor da curtose (em módulo), menos gaussiano é o conjunto de dados. Assim, um critério de otimização que pode ser criado a fim de extrair um vetor 𝑦 = w𝑇x não-gaussiano é a maximização da curtose. O problema, então, é dado por

max

w 𝐸[𝑦

4_{] − 3(𝐸[𝑦}2_])2 _(2.13)

𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 w ∈ Ω,

onde Ω, subconjunto de R𝑀_{, é a região factível. Vale ressaltar que (2.13) também pode} ser utilizada para o problema de separação, empregando a deflação ou a ortogonalização simétrica (HYVÄRINEN et al., 2001).

5 _{Lembrando que uma matriz quadrada é ortogonal quando sua inversa coincide com sua transposta.}

(28)

Além da curtose, outra medida que pode ser utilizada para mensurar a gaussi-anidade de um sinal é a negentropia (HYVÄRINEN et al., 2001). Essa medida vem do conceito de entropia da teoria da informação. Dado que a distribuição gaussiana tem a maior medida de entropia dentre todas as variáveis aleatórias de mesma variância (CO-VER; THOMAS, 1991), esta informação pode ser utilizada para formular um critério de não-gaussianidade. A negentropia é definida pela seguinte expressão:

𝜂(𝑦) = 𝐻(𝑦𝑔𝑎𝑢𝑠𝑠) − 𝐻(𝑦), (2.14)

onde 𝑦𝑔𝑎𝑢𝑠𝑠 corresponde a uma variável aleatória gaussiana cuja variância é a mesma que a de 𝑦 e 𝐻(𝑦), definida por

𝐻(𝑦) = −

∫︁

𝑝𝑦(𝜂) log 𝑝𝑦(𝜂)𝑑𝜂, (2.15)

é a entropia da variável aleatória 𝑦, cuja densidade de probabilidade é 𝑝𝑦(𝜂). Visto que quanto maior o valor da negentropia, menos gaussiano é o sinal recuperado, o modelo de extração resultante é dado por

max

w 𝐻(𝑦𝑔𝑎𝑢𝑠𝑠) − 𝐻(𝑦) (2.16)

onde Ω, subconjunto de R𝑀, é a região factível. Novamente, a Equação (2.16) pode ser utilizada para o problema de separação aplicando a deflação ou a ortogonalização simé-trica (HYVÄRINEN et al., 2001).

Nos critérios apresentados em (2.13) e (2.16), como mencionado na seção anterior, as estimativas 𝑦 podem ser obtidas a partir dos dados brancos, ou seja, 𝑦 = w𝑇z.

2.5.1.4 Informação mútua

A informação mútua é uma medida que, em linhas gerais, indica a quantidade de informação que variáveis aleatórias em um determinado conjunto possuem acerca de outra variável aleatória neste mesmo conjunto (HYVÄRINEN et al., 2001). Matematicamente, ela é dada por

𝐼(𝑦1, 𝑦2, . . . , 𝑦𝑁) = 𝑁

∑︁

𝑖=1

𝐻(𝑦𝑖) − 𝐻(y), (2.17)

onde 𝐻(𝑦𝑖) é a entropia da variável aleatória 𝑦𝑖 e 𝐻(y) é a entropia do vetor aleatório y = [𝑦1, 𝑦2, . . . , 𝑦𝑁]𝑇. Assim, se 𝑦𝑖, 𝑖 = 1, 2, . . . , 𝑁 , são independentes, eles não possuem informações uns dos outros e, consequentemente, a informação mútua é igual a zero.

Com a minimização da informação mútua, então, podemos construir um critério de otimização a fim de recuperar fontes independentes. Considerando a transformação linear y = Wx, tem-se que 𝐻(y) = 𝐻(x) + log |det W| (HYVÄRINEN et al., 2001) e,

(29)

portanto, o modelo de separação resultante é dado por min W 𝑁 ∑︁ 𝑖=1 𝐻(𝑦𝑖) − 𝐻(x) − log |det W| (2.18) 𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 W ∈ Ω, onde Ω, subconjunto de R𝑁 ×𝑀_{, é a região factível.}

2.5.2 Critérios baseados em estatísticas de segunda ordem e na temporalidade

das fontes

Nesta seção, serão apresentados alguns critérios que levam em consideração medi-das de correlação. Assim, diferentemente da seção anterior, os critérios aqui são baseados em estatísticas de segunda ordem.

2.5.2.1 Diagonalização conjunta das matrizes de covariância

Como salientado na Seção 2.5.1.2, a descorrelação entre as fontes não é suficiente para garantir a separação dos sinais. Em outras palavras, obter um conjunto de estimativas y(𝑡) tais que a matriz de covariância 𝐶yy = 𝐸[y(𝑡)y(𝑡)𝑇] seja diagonal não resolve o

problema de BSS. No entanto, algumas técnicas consideram a diagonalização conjunta de duas ou mais matrizes de covariância dos sinais recuperados para diferentes atrasos 𝑟. Desse forma, esses métodos buscam recuperar um conjunto de sinais y(𝑡) tais que as matrizes de covariância 𝐶yy(𝑟) = 𝐸[y(𝑡)y(𝑡 − 𝑟)𝑇], para 𝑟 = 1, 2, . . . , 𝑅, sejam diagonais.

Os algoritmos AMUSE (TONG et al., 1990), SOBI (BELOUCHRANI et al., 1997) e WASOBI (YEREDOR, 2000) aplicam um procedimento de diagonalização conjunta das matrizes 𝐶yy(𝑟), 𝑟 = 1, 2, . . . , 𝑅, para separar as fontes misturadas.

Matematicamente, como descrito no trabalho de Belouchrani et al. (1997), a diagonalização pode ser formulada anulando os elementos que não estão na diagonal de cada matriz de covariância 𝐶yy(𝑟). O problema de otimização com base nessa medida é

dado por min W 𝑅 ∑︁ 𝑟=1 ⎛ ⎝ 𝑁 ∑︁ 𝑖,𝑗, 1≤𝑖̸=𝑗≤𝑁 ⃒ ⃒ ⃒𝐶yy𝑖𝑗(𝑟) ⃒ ⃒ ⃒ 2 ⎞ ⎠ (2.19) 𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 W ∈ Ω, onde Ω, subconjunto de R𝑁 ×𝑀, é a região factível. 2.5.2.2 Autocorrelação

Diferente do critério discutido na seção anterior, aqui será apresentado um critério que leva em consideração a autocorrelação de um sinal. Para ser autocorrelacionado, o sinal deve apresentar uma estrutura temporal que se repete após 𝜏 amostras. Exemplos

(30)

de fontes autocorrelacionadas e sem estrutura temporal podem ser vistas nas Figuras 7a e 7b, respectivamente.

(a) Sinal autocorrelacionado. (b) Sinal sem estrutura temporal.

Figura 7 – Comparação entre sinal autocorrelacionado e sem estrutura temporal.

O objetivo, então, é extrair um sinal o mais autocorrelacionado possível dado um atraso 𝜏 . O problema de otimização com base na maximização da autocorrelação do sinal extraído 𝑦(𝑡) = w𝑇_{x(𝑡) é dado por}

max w |𝐸[𝑦(𝑡)𝑦(𝑡 − 𝜏 )]| = maxw ⃒ ⃒ ⃒w 𝑇_{𝐸[x(𝑡)x(𝑡 − 𝜏 )]w}⃒⃒ ⃒ (2.20) 𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 w ∈ Ω,

onde 𝐸[x(𝑡)x(𝑡 − 𝜏 )] = Cxx𝜏 representa a matriz de autocorrelação de x dado um atraso

𝜏 e Ω, subconjunto de R𝑀, é a região factível.

Diversos trabalhos consideram a extração de fontes autocorrelacionadas, princi-palmente no contexto do processamento de sinais de ECG (BARROS; CICHOCKI, 2001; ZHANG; YI, 2006; SHI; ZHANG, 2007a; SHI; ZHANG, 2007b). O trabalho de Barros e Cichocki (2001) apresenta uma formulação interessante para a extração de um sinal de ECG. Considerando o erro 𝜖(𝑡) = 𝑦(𝑡)−𝑏𝑦(𝑡−𝜏 ), onde 𝑏 é uma constante a ser determinada e 𝜏 é o atraso pelo qual 𝐸[𝑠𝑖(𝑡)𝑠𝑖(𝑡 − 𝜏 )] ̸= 0 (fonte de interesse 𝑖 autocorrelacionada com atraso 𝜏 ), procura-se minimizar o erro quadrático médio 𝐸[𝜖2_{]. Como mostrado em}

(BAR-ROS; CICHOCKI, 2001), a minimização de 𝐸[𝜖2_{] leva à seguinte regra de atualização do}

vetor w:

˙

w = 𝐸[x(𝑡)𝑦(𝑡 − 𝜏 )] = 𝐸[x(𝑡)x(𝑡 − 𝜏 )𝑇]w, (2.21) onde ˙w é o vetor atualizado. Com base nesse resultado, a convergência do algoritmo proposto é alcançada quando ˙w é suficientemente próximo de w. Assim, um problema

(31)

de otimização que leva em consideração essa diferença como um critério de minimização pode ser formulado como

min w ⃒ ⃒ ⃒w˙ 𝑇_w_˙⃒⃒ ⃒− ⃒ ⃒ ⃒w˙ 𝑇_w⃒⃒ ⃒ (2.22) 𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 w ∈ Ω,

onde Ω, subconjunto de R𝑀_{, é a região factível. O vetor de extração w ajustado a partir} da resolução do problema (2.22) e tendo como base a regra de atualização (2.21) leva, então, à recuperação da fonte com maior autocorrelação para um dado 𝜏 (BARROS; CICHOCKI, 2001).

Vale ressaltar que a maximização da autocorrelação descrita em (2.20) resulta na extração de um sinal com estrutura temporal que se repete a partir de 𝜏 amostras. No entanto, essa medida pode ser estendida para o caso da separação maximizando a soma da autocorrelação de cada sinal para um determinado atraso 𝜏 . O problema, então, é dado por max W 𝑁 ∑︁ 𝑖=1 |𝐸[𝑦𝑖(𝑡)𝑦𝑖(𝑡 − 𝜏 )]| = max W 𝑁 ∑︁ 𝑖=1 ⃒ ⃒ ⃒w 𝑇 𝑖 𝐸[x(𝑡)x(𝑡 − 𝜏 ) 𝑇_]w 𝑖 ⃒ ⃒ ⃒ (2.23) 𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 W ∈ Ω,

onde w𝑇_𝑖 representa a linha 𝑖 da matriz de separação W associada à estimação da fonte 𝑖 e Ω, subconjunto de R𝑁 ×𝑀, é a região factível.

Os problemas aqui apresentados são baseados na autocorrelação dado um atraso 𝜏 . Dessa forma, é de extrema importância a determinação do atraso 𝜏 a ser considerado na otimização. Uma maneira de obter tal parâmetro é a partir da função de autocorrela-ção da mistura observada cuja estrutura temporal esteja, visualmente, mais evidente. Os experimentos apresentados nas Seções 5.1 e 5.2 ilustram esse procedimento.

2.5.3 Esparsidade

Esta seção apresenta dois critérios de otimização usados para extrair sinais que são ditos esparsos em algum domínio. Entende-se por um sinal esparso um conjunto de dados cuja maior parte dos elementos são nulos ou próximos de zero (HOYER, 2004). As Figuras 8a e 8b ilustram, respectivamente, a diferença entre uma fonte esparsa e outra que não possui tal característica.

2.5.3.1 Esparsidade através de norma-ℓ0

O primeiro critério apresentado será a norma-ℓ0 (DUARTE et al., 2011), definida

como o número de amostras não-nulas em um determinado conjunto de dados. Seja w ∈ R𝑀 o vetor de extração e x = [𝑥1, 𝑥2, . . . , 𝑥𝑀]𝑇 o conjunto de 𝑀 misturas, a recuperação

(32)

(a) Sinal esparso. (b) Sinal não-esparso.

Figura 8 – Comparação entre sinal esparso e sinal não-esparso.

do sinal esparso 𝑦 = w𝑇_{x é obtida a partir da minimização da norma-ℓ}

0 de 𝑦. O problema,

então, é dado por

min

w ‖𝑦‖0 (2.24)

onde Ω, subconjunto de R𝑀_{, é a região factível. Como comentado, esse critério leva em} consideração o número de amostras não-nulas do vetor recuperado. No entanto, em di-versas situações práticas, é razoável considerar que amostras próximas de zero também podem ser consideradas como nulas. Assim, o problema apresentado em (2.24) pode ser reescrito como min w ‖𝑦‖ Δ 0 = min_w 𝑇 − 𝑇 ∑︁ 𝑡=1 𝐹Δ(𝑦(𝑡)), (2.25) 𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 w ∈ Ω,

onde 𝑇 é o número de amostras de 𝑦, 𝐹Δ(𝑦(𝑡)) é uma função tal que 𝐹Δ(𝑦(𝑡)) = {𝑦(𝑡)/𝑦(𝑡) ∈

R, |𝑦(𝑡)| ≤ Δ}, em que Δ é a tolerância admitida para que uma amostra seja considerada nula, e Ω, subconjunto de R𝑀_{, é a região factível. Maiores detalhes sobre esse critério e} condições para que seja considerado uma função-contraste são apresentados no trabalho de Duarte et al. (2011).

Vale ressaltar que o problema apresentado em (2.25) também pode ser expandido para a separação das fontes. Dessa forma, ele é dado por

min W ‖y‖ Δ 0 = min_W 𝑁 ∑︁ 𝑖=1 (︃ 𝑇 − 𝑇 ∑︁ 𝑡=1 𝐹Δ(𝑦𝑖(𝑡)) )︃ , (2.26) 𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 W ∈ Ω, onde Ω, subconjunto de R𝑁 ×𝑀_{, é a região factível.}

(33)

2.5.3.2 Esparsidade através de norma-ℓ1

O segundo critério apresentado no contexto da esparsidade é o baseado na norma-ℓ1 (NADALIN et al., 2010). Definido como a soma do módulo das amostras de um vetor6,

a minimização deste critério também busca a extração do sinal 𝑦 = w𝑇_{x mais esparso a} partir do conjunto de misturas x. O problema, então, é dado por

min w ‖𝑦‖1 = minw 𝑇 ∑︁ 𝑡=1 |𝑦(𝑡)| (2.27) 𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 w ∈ Ω,

onde Ω, subconjunto de R𝑀_{, é a região factível. Uma análise detalhada dessa} função-contraste pode ser encontrada no trabalho de Nadalin et al. (2010).

Assim como no critério da esparsidade através de norma-ℓ0, o problema descrito

em (2.27) pode ser ajustado para o caso da separação. O problema resultante é dado por

min W ‖y‖1 = minW 𝑁 ∑︁ 𝑖=1 (︃ _𝑇 ∑︁ 𝑡=1 |𝑦(𝑡)| )︃ (2.28) 𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 W ∈ Ω, onde Ω, subconjunto de R𝑁 ×𝑀, é a região factível.

2.5.4 Técnicas que combinam dois ou mais critérios

Os problemas de otimização apresentados nas seções anteriores, desenvolvidos a partir de um critério relacionado a uma característica das fontes, são usados para resolver os problemas de BSS e BSE, fornecendo uma solução ótima. No entanto, em diversas situações práticas, o tomador de decisão pode possuir mais de uma informação a respeito das fontes. Com isso, é possível usar tal conhecimento para formular modelos de otimização que combinam mais de um critério.

Na literatura, há diversos trabalhos que abordam os problemas de BSS e BSE combinando mais de um critério no modelo de otimização. Shi e Zhang (2007a) exploram a temporalidade e a não-gaussianidade no problema de extração de sinais de ECG. Li, Liu e Principe (2007) propõem uma abordagem capaz de explorar tanto a independên-cia quanto a diversidade temporal entre as fontes. Duarte, Moussaoui e Jutten (2014b) citam as características de não-negatividade e suavidade presentes em sinais químicos. Em um contexto conhecido como análise de vetores independentes, Adali, Anderson e Fu (2014) exploram diferentes tipos de diversidades das fontes. Para lidar com o problema de decomposição de matrizes, Hoyer (2004) utiliza as características de esparsidade e não-negatividade das fontes.

6 _{As normas ℓ}

𝑝, para 1 ≤ 𝑝 < ∞, são definidas por ‖v‖𝑝 = (

∑︀

𝑖|𝑣𝑖| 𝑝

(34)

Ao analisar essas referências, nota-se que todas combinam mais de um critério em uma única função a ser otimizada, resultando em uma única solução para o problema. Nesse tipo de abordagem, é comum combinar os critérios a partir de uma ponderação de acordo com a intensidade que as respectivas características estão presentes nos sinais estudados ou de acordo com algum conhecimento subjetivo do decisor.

2.6 O caso da não-linearidade posterior

Na Seção 2.4 apresentamos a formulação do problema de BSS no caso linear, ou seja, onde o processo de mistura compreende apenas a combinação linear das fontes (com ou sem a introdução de ruído). No entanto, há situações em que os dados observados são resultados de uma função não-linear das fontes. Assim, o modelo de mistura, em sua forma geral, é representado por

x(𝑡) = u(s(𝑡)), (2.29)

onde u(·) = [𝑢1(·), 𝑢2(·), . . . , 𝑢𝑀(·)] representa o conjunto de não-linearidades no processo de mistura das 𝑁 fontes s(𝑡) (YANG et al., 1998).

Um caso específico de misturas não-lineares tratado na literatura é o chamado não-linearidade posterior (PNL), ilustrado na Figura 9 (TALEB; JUTTEN, 1999). Nessa formulação, as funções u(·) são aplicadas após a mistura linear das fontes7_{. Dessa forma,}

o modelo de mistura pode ser representado por

x(𝑡) = u(e(𝑡)) = u(As(𝑡)), (2.30)

onde e(𝑡) = [𝑒1(𝑡), 𝑒2(𝑡), . . . , 𝑒𝑀(𝑡)] representa o conjunto de dados após o processo de mistura linear das fontes s(𝑡) e u(e(𝑡)) = [𝑢1(𝑒1(𝑡)), 𝑢2(𝑒2(𝑡)), . . . , 𝑢𝑀(𝑒𝑀(𝑡))] representa a introdução da não-linearidade posterior, componente por componente. Dessa forma, além de ajustar uma matriz de separação W, também buscamos ajustar um conjunto de funções v(x(𝑡)) = [𝑣1(𝑥1(𝑡)), 𝑣2(𝑥2(𝑡)), . . . , 𝑣𝑀(𝑥𝑀(𝑡))] a fim de inverter a ação da não-linearidade u(e(𝑡)). Essa inversão, dada por c(𝑡) = v(x(𝑡)), leva ao sistema de separação

y(𝑡) = Wc(𝑡) = Wv(x(𝑡)). (2.31)

Novamente, embora o problema seja cego, informações a priori acerca das fontes e da não-linearidade são necessárias para a determinação do critério de otimização 𝐽 (W, 𝜃) responsável pela recuperação das fontes a partir do problema de otimização

min

W,𝜃/maxW,𝜃 𝐽 (W, 𝜃) (2.32)

𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 W ∈ Ω

𝜃 ∈ Ψ,

(35)

𝐀

s1(t) sN(t) e1(t) eM(t) Fontes x1(t) xM(t) Misturas observadas 𝑢1(e1(t)) c 1(t) cM(t) y1(t) yN(t)

𝐖

Estimativas 𝑢M(eM(t)) 𝑣1(x1(t)) 𝑣M(xM(t))

Figura 9 – O problema de não-linearidade posterior.

onde 𝜃 representa o conjunto de parâmetros das funções v(·), cujos valores factíveis são delimitados pela região Ψ e Ω, subconjunto de R𝑁 ×𝑀 _{é a região factível para W.}

2.6.1 Estratégias de resolução

Duas estratégias de resolução do problema de PNL são discutidas neste traba-lho. A primeira envolve a informação mútua, similarmente ao que foi apresentado na Seção 2.5.1.4, cujo intuito é recuperar fontes independentes. No entanto, além de ajus-tar o vetor de separação W, deve-se considerar a função v(·) que inverterá a ação da não-linearidade.

Sendo a informação mútua dada por 𝐼(𝑦1, 𝑦2, . . . , 𝑦𝑁) = ∑︀𝑁𝑖=1𝐻(𝑦𝑖) − 𝐻(y), e o processo de separação y(𝑡) = Wv(x(𝑡)), tem-se que 𝐻(y) = 𝐻(x) + log |det W| + 𝐸[log∏︀

onde 𝑣_𝑖′(·) é a primeira derivada de 𝑣𝑖(·)8, Ψ é a região factível para os parâmetros 𝜃 das funções v(·) e Ω, subconjunto de R𝑁 ×𝑁 _{é a região factível para W.}

A segunda estratégia compreende a utilização de um algoritmo memético (KRAS-NOGOR; SMITH, 2005). Partindo do princípio de que o problema de PNL pode ser di-vidido em dois blocos principais (o da inversão da não-linearidade e o da inversão da transformação linear), essa abordagem procura combinar técnicas evolutivas para a busca global (parâmetros da não-linearidade) e métodos de BSS já bem definidos para a busca local (matriz de separação linear). O problema, então, é dado por

min

𝜃 /max𝜃 𝐽 (W, 𝜃) (2.34)

𝑆𝑢𝑗𝑒𝑖𝑡𝑜 𝑎 𝜃 ∈ Ψ,

8 _{Supomos, então, que 𝑣}

(36)

onde Ψ é a região factível para os parâmetros 𝜃 das funções v(·). Assim, a matriz W não é mais uma variável do problema de otimização, e sim uma entrada obtida por um método de BSS existente.

Um exemplo de aplicação desta técnica pode ser encontrada no trabalho de Dias et al. (2007), o qual utiliza a computação evolutiva para ajustar os parâmetros das funções não-lineares e o algoritmo FastICA para os elementos da matriz de separação. Dessa forma, em cada iteração do método evolutivo, os parâmetros 𝜃 são ajustados e, em seguida, a matriz de separação W é determinada pelo FastICA. Após sucessivas iterações do método evolutivo, a convergência é alcançada quando a função-custo 𝐽 (W, 𝜃) atinge o critério de parada pré-estabelecido. A Figura 10 ilustra esse procedimento.

Conjunto de misturas

Ajuste dos parâmetros𝜽 e inversão da não-linearidade Atingiu o critério de parada? Determinação da matriz𝐖 (FastICA) e inversão da transformação linear Cálculo da função-custo 𝐽(𝐖, 𝜽) Fim do algoritmo (𝜽 e 𝐖 ajustados) Sim Não

Figura 10 – Estratégia memética.

Visto que a matriz W é obtida a partir de uma técnica já bem estabelecida em BSS, o algoritmo memético promove uma rápida convergência à solução do problema, evitando mínimos locais que poderiam ser alcançados ao ajustar 𝜃 e W simultaneamente. Vale ressaltar que o FastICA, o qual supõe a independência entre as fontes, é uma das técnicas que podem ser usadas na busca local. Outras técnicas também podem ser exploradas, relacionadas a diferentes informações a priori sobre as fontes.

2.7 O problema de BSS visto como um problema inverso

Esta seção apresenta uma abordagem diferente das mencionadas acima para o problema de BSS. Aqui, ele será formulado como um problema inverso (ASTER et al., 2013; TARANTOLA, 2005).

(37)

2.7.1 Visão geral do problema e relação com o problema de BSS

Os problemas inversos consistem, basicamente, em estimar um conjunto de da-dos de entrada s de um sistema a partir de um conjunto de dada-dos observada-dos x de tal sistema (ASTER et al., 2013). Matematicamente, essa relação pode ser escrita como

x = G(s), (2.35)

onde G(·) representa o operador do sistema. A Figura 11 ilustra este problema.

Parâmetros

de entrada s

Dados de

saída x

Modelo

G(s)

Problema inverso

Figura 11 – O problema inverso.

Um exemplo dessa aplicação pode ser notada no tratamento de sinais de tomo-grafia sísmica, cujo objetivo é determinar os parâmetros s relacionados à velocidade de propagação das ondas sísmicas na superfície. A partir de um operador G(·) que modela a propagação do sinal (através da equação da onda, por exemplo), os parâmetros po-dem ser estimados a partir dos dados x coletados na superfície através de geofones ou hidrofones (ASTER et al., 2013).

A complexidade da estimação é dependente do operador G(·). Se ele é conhecido e inversível, a estimação é facilmente realizada através da inversão do operador. No entanto, o que se encontra na prática, são operadores desconhecidos ou não inversíveis, tornando necessária a elaboração de um modelo de otimização para estimar os parâmetros originais s.

Problemas de separação cega de fontes, por exemplo, podem ser formulados como problemas inversos. Nesse caso, os sinais observados x seriam os dados coletados do sis-tema e tanto as fontes quanto a matriz de mistura seriam os parâmetros a serem estimados, uma vez que o problema é cego (s e A desconhecidos). Portanto, essa formulação nos leva a um problema inverso não-linear mal-posto. Como já mencionado, então, se torna ne-cessário ajustar algum critério de otimização capaz de estimar as fontes s e a matriz de mistura A. Os critérios de otimização usados neste contexto são discutidos na próxima seção.

2.7.2 Critérios de otimização

Como o objetivo do problema inverso apresentado é estimar um conjunto de entradas s que, ao passarem por um processo de mistura A, dão origem ao conjunto de

(38)

saídas x, um critério de otimização simples, e muito utilizado, é o erro de representação do modelo. Uma métrica que pode ser utilizada neste contexto é a norma-ℓ2 (TARANTOLA,

2005), resultando no problema de otimização dado por

min

A,s ‖x − As‖2. (2.36)

Ao minimizar (2.36), soluções com o mínimo de erro de representação são en-contradas. No entanto, desconhecendo tanto os sinais s quanto a matriz de mistura A, há inúmeras combinações entre esses elementos que minimizam (2.36). Uma solução para este inconveniente seria introduzir termos de regularização ao modelo de otimização. Es-tes, por sua vez, são criados a partir de outras informações a priori acerca das fontes. O problema de minimização resultante é dado por

min

A,s ‖x − As‖2+ 𝜆𝑅(s), (2.37)

onde 𝑅(s) representa o termo de regularização ponderado pela constante 𝜆. Um exemplo de termo de regularização para sinais esparsos é a norma-ℓ1 (ELAD, 2010). De posse dessa

métrica de esparsidade, o problema (2.37) pode ser reescrito como

min

A,s ‖x − As‖2+ 𝜆 ‖s‖1. (2.38)

2.8 Resumo do capítulo

Este capítulo discutiu os aspectos essenciais acerca do problema de separação cega de fontes. Inicialmente, um histórico da evolução no estudo desse problema foi levantado e uma descrição detalhada do mesmo foi apresentada. Aplicações também foram mostradas a fim de exemplificar o problema. Em seguida, vários critérios de otimização utilizados na resolução de problemas de BSS foram discutidos. Estes critérios são construídos com base nas mais variadas hipóteses a respeito das fontes, como a independência, descorre-lação, estrutura temporal e esparsidade. Vale ressaltar que os modelos baseados nestes critérios nortearão os experimentos deste estudo, os quais levarão em conta algumas das características presentes nos sinais fonte.