Uma implementação da análise de componentes independentes em plataforma de hardware reconfigurável

(1)

Universidade Federal do Rio Grande do Norte Departamento de Computação e Automação

Programa de Pós-graduação em Engenharia Elétrica e de Computação

Alan Paulo Oliveira da Silva

Uma Implementa¸c˜

ao da An´

alise de Componentes

Independentes em Plataforma de Hardware Reconfigur´

avel

(2)

Uma Implementa¸c˜

ao da An´

alise de Componentes

Independentes em Plataforma de Hardware Reconfigur´

avel

Disserta¸cão de Mestrado apresentada ao Programa de Pós-gradua¸cão em Engenharia Elétrica e de Com-puta¸cão da UFRN, como parte dos requisitos para a obten¸cão do grau de MESTRE em Ciências.

Orientador: Profa. Dra. Ana Maria Guimar˜aes Guerreiro

Co-orientador: Prof. Dr. Adri˜ao Duarte D´oria Neto

(3)

(4)

Uma Implementa¸c˜

ao da An´

alise de Componentes

Independentes em Plataforma de Hardware Reconfigur´

avel

Disserta¸cão de Mestrado apresentada ao Programa de Pós-gradua¸cão em Engenharia Elétrica e de Com-puta¸cão da UFRN, como parte dos requisitos para a obten¸cão do grau de MESTRE em Ciências.

Aprovado em de junho de 2010

BANCA EXAMINADORA

Profa. Dra. Ana Maria Guimar˜aes Guerreiro

Prof. Dr. Adri˜ao Duarte D´oria Neto

Prof. Dr. Gl´aucio Bezerra Brand˜ao

(5)

Resumo

A Separa¸cão Cega Fontes (BSS) refere-se ao problema de estimar sinais origi-nais a partir de misturas lineares observadas sem nenhum tipo de conhecimento acerca das fontes ou do processo de mistura. A Análise de Componentes Independentes (ICA) é uma técnica aplicada principalmente ao problema do BSS e dentre os algor´ıtmos que imple-mentam essa técnica, o FastICA é um algor´ıtmo iterativo de alto desempenho e de baixo custo computacional que utiliza medidas de não-gaussianidade baseadas em estat´ıstica de alta ordem para estimar as fontes originais. O grande número de aplica¸cões onde ICA se mostra útil reflete a necessidade da implementa¸cão dessa técnica em hardware e o para-lelismo natural do FastICA favorece a implementa¸cão desse algor´ıtmo em plataforma de hardware digital.

Este trabalho propõe a implementa¸cão do FastICA em uma plataforma de hardware reconfigurável para a viabiliza¸cão de sua utiliza¸cão em problemas de separa¸cão cega de fontes, mais especificamente em um protótipo de hardware embarcado em uma placa Field Programmable Gate Array (FPGA) para a monitora¸cão de leitos em ambientes hospitalares. As implementa¸cões serão realizadas através de modelos em Simulink e a sintetiza¸cão dos mesmos será feita com o aux´ılio do software DSP Builder da Altera Corporation.

(6)

Abstract

Blind Source Separation (BSS) refers to the problem of estimate original signals from observed linear mixtures with no knowledge about the sources or the mixing process. Independent Component Analysis (ICA) is a technique mainly applied to BSS problem and from the algorithms that implement this technique, FastICA is a high performance iterative algorithm of low computacional cost that uses nongaussianity measures based on high order statistics to estimate the original sources. The great number of applications where ICA has been found useful reflects the need of the implementation of this technique in hardware and the natural paralelism of FastICA favors the implementation of this algorithm on digital hardware.

This work proposes the implementation of FastICA on a reconfigurable hard-ware platform for the viability of it’s use in blind source separation problems, more speci-fically in a hardware prototype embedded in a Field Programmable Gate Array (FPGA) board for the monitoring of beds in hospital environments. The implementations will be carried out by Simulink models and it’s synthesizing will be done through the DSP Builder software from Altera Corporation.

(7)

Agradecimentos

A todos os meus entes queridos e amigos, pelo encorajamento e apoio.

Aos professores Ana Maria e Adri˜ao, pela orienta¸c˜ao e oportunidade de realizar este trabalho.

Aos professores do Programa de Pós-gradua¸cão em Engenharia Elétrica e de Computa¸cão pelos ensinamentos, orienta¸cão e contribui¸cão para nosso enriquecimento pessoal e profissional.

(8)

Sum´

ario

Lista de Figuras 6

1 Introdu¸c˜ao 9

1.1 Motiva¸c˜ao . . . 11

1.2 Objetivos . . . 12

1.3 Estado da Arte . . . 13

1.4 Organiza¸c˜ao do Trabalho . . . 15

2 An´alise de Componentes Independentes 16 2.1 Defini¸c˜ao do Modelo . . . 16

2.2 Restri¸c˜oes . . . 17

2.3 Ambiguidades de ICA . . . 19

2.4 Pr´e-processamento dos Dados . . . 20

2.4.1 Centraliza¸c˜ao . . . 20

2.4.2 Branqueamento . . . 21

2.5 N˜ao-gaussianidade e independˆencia . . . 24

2.6 Medidas de N˜ao-gaussianidade . . . 26

2.6.1 Kurtosis . . . 26

2.6.2 Negentropia . . . 27

2.7 Algoritmo FastICA . . . 29

2.8 Calculando mais de uma componente independente . . . 31

2.8.1 Ortogonaliza¸c˜ao deflacion´aria . . . 32

2.8.2 Ortogonaliza¸c˜ao sim´etrica . . . 32

(9)

3 FPGA e Linguagem de Descri¸c˜ao de Hardware 38

3.1 Hist´orico . . . 38

3.2 Funcionamento interno . . . 41

3.2.1 Blocos l´ogicos configur´aveis . . . 42

3.3 Linguagem de Descri¸c˜ao de Hardware . . . 45

3.4 Projeto em N´ıvel de Sistema . . . 46

4 Implementa¸c˜ao do FastICA em FPGA 48 4.1 Projeto do Modelo do Hardware . . . 49

4.2 Modelos Sintetiz´aveis . . . 55

5 Resultados 68 5.1 An´alise Hardware-Software . . . 75

6 Conclus˜ao 81

(10)

Lista de Figuras

1.1 Sinais estimados por ICA a partir das misturas . . . 11

2.1 Distribui¸c˜ao de probabiliade gaussiana . . . 19

2.2 Fun¸c˜ao densidade de probabilidade conjunta dex1 e x2 . . . 23

2.3 Fun¸c˜ao densidade de probabilidade conjunta das vari´aveis brancas . . . 24

2.4 Sinais do lado esquerdo: sinais originais gerados manualmente. Sinais do lado direito: misturas geradas a partir de uma transforma¸c˜ao linear dos sinais originais utilizando a matrizA . . . 34

2.5 Componentes independentes obtidas utilizando a matriz de separa¸c˜ao W calculada pelo algoritmo FastICA . . . 35

2.6 Sinais do lado esquerdo: sinais de voz originais. Sinais do lado direito: misturas obtidas a partir da transforma¸c˜ao linear entre a matriz de mistura A e os sinais originais . . . 36

2.7 Componentens independentes obtidas com a matriz de separa¸c˜aoW calcu-lada pelo algoritmo FastICA . . . 37

3.1 Arquitetura interna de um CPLD: pinos de entrada e sa´ıda interligados aos dispositivos GAL através de uma switch matrix que realiza também a interliga¸cão dos dispositivos entre s´ı . . . 41

3.2 Arquitetura interna de um FPGA: blocos lógicos configuráveis (CLBs) formados por lookup tables, flip-flops e multiplexadores são interligados através de diversas switch matrixes . . . 42

3.3 Implementa¸cão de uma fun¸cão lógica combinacional de 3 bits em uma Loo-kup Table com oito posi¸cões de memória: fun¸cão lógica (esquerda), tabela da verdade (centro) e mapeamento em lookup table (direita) . . . 43

(11)

3.5 Dois CLBs (lookup tables,flip-flops e multiplexadores) interconectados por uma switch matrix(implementada atrav´es de multiplexadores) . . . 44

4.1 Diagrama de alto-n´ıvel de todo o processo, onde o FastICA ´e executado uma vez para cada componente a ser calculada . . . 48

4.2 Hardwares de uma itera¸c˜ao principal do algor´ıtmo FastICA para os casos de 3 (A) e 2 (B) componentes independentes . . . 51

4.3 Hardwares de uma itera¸c˜ao principal do algor´ıtmo FastICA para os casos de 3 (A) e 2 (B) componentes independentes . . . 51

4.4 Hardware da ortogonaliza¸c˜ao deflacion´aria para duas componentes inde-pendentes . . . 52

4.5 Hardware da ortogonaliza¸cão deflacionária para três componentes indepen-dentes . . . 53

4.6 Hardware do c´alculo dos dados de sa´ıda para trˆes (A) e duas (B) componentes 54

4.7 Componentes independentes calculadas na simula¸cão com dados reais de eletroencefalograma, após a redu¸cão de dimensão através do PCA . . . 55

4.8 Blocos dispon´ıveis no softwareDSP Builder utilizados no desenvolvimento do hardware . . . 56

4.9 Modelo sintetiz´avel que realiza a itera¸c˜ao principal do FastICA para 2 componentes . . . 58

4.10 Modelo sintetiz´avel que realiza a itera¸c˜ao principal do FastICA para 3 componentes . . . 59

4.11 Hardware necess´ario para propagar os sinais da entrada de um bloco l´ogico 59

4.12 Modelo sintetizável que realiza a ortogonaliza¸cão necessária no FastICA, para 2 componentes . . . 60

4.13 Modelo sintetizável que realiza a ortogonaliza¸cão necessária no FastICA, para 3 componentes . . . 61

4.14 Modelo sintetizável que realiza a normaliza¸cão e o cálculo de convergência do sistema para 2 componentes . . . 62

(12)

4.15 Modelo sintetiz´avel que realiza o c´alculo da sa´ıda do sistema para 3 com-ponentes . . . 63

4.16 Modelo sintetiz´avel do algoritmo FastICA para o c´alculo de 2 componentes independentes . . . 64

4.17 Modelo sintetiz´avel do algoritmo FastICA para o c´alculo de 3 componentes independentes . . . 65

4.18 Bloco SignalCompiler do DSP Builder . . . 66

4.19 Fun¸c˜oes do bloco SignalCompiler . . . 66

5.1 Componentes independentes calculadas pelo hardware direcionado ao pro-blema da Cocktail Party . . . 69

5.2 Componentes independentes calculadas pelo modelo sintetiz´avel para trˆes componentes para os sinais propostos no experimento computacional em [Haykin, 2001] . . . 71

5.3 Sinais reais de eletroencefalograma utilizados . . . 73

5.4 Componentes independentes calculadas pelo modelo sintetiz´avel para trˆes componentes, com sinais reais de eletroencefalograma como entrada do modelo . . . 74

5.5 Observa¸cão da influência do acúmulo do erro numérico nas simula¸cões em software . . . 77

(13)

9

1 Introdu¸c˜

ao

Na área da engenharia elétrica e de comunica¸cões os sinais são quantidades variantes no tempo ou no espa¸co que podem possuir diferentes naturezas, tais como sinais elétricos, acústicos, de rádio e etc. Esses sinais podem ser emitidos por uma fonte f´ısica, por exemplo, áreas do cérebro humano emitindo sinais elétricos, pessoas falando em uma mesma sala emitindo sinais acústicos de voz ou telefones celulares emitindo sinais de rádio.

No processo de extra¸cão da informa¸cão é comum que dois ou mais sinais fontes se misturem, de forma que os sinais captados pelos sensores são misturas dos sinais origi-nais. Em situa¸cões reais, as únicas informa¸cões acerca dos sinais em questão são os dados captados pelos sensores, ou seja, os dados provenientes de misturas dos sinais originais. É nesse contexto que surge o problema da Separa¸cão Cega de Fontes (Blind Source Separa-tion - BSS), que consiste em estimar os sinais originais tendo somente a informa¸cão das suas misturas. O termo “Cega”refere-se ao fato de que não se tem informa¸cão alguma acerca dos sinais originais nem do processo de mistura que gerou os sinais captados.

A Análise de Componentes Independentes (ICA) é uma técnica aplicada prin-cipalmente na separa¸cão cega de fontes. O modelo básico de ICA supõe que as fontes originais são estatisticamente independentes, e com base nesse princ´ıpio estima as compo-nentes de forma que estas sejam as mais independentes poss´ıveis. Isso é poss´ıvel através da maximiza¸cão da não-gaussianidade das misturas, com base no resultado do teorema do limite central que diz que a soma de duas variáveis aleatórias não-gaussianas possui distribui¸cão mais próxima da gaussiana em rela¸cão as variáveis originais. Mais detalhes sobre esse processo são abordados no Cap´ıtulo 2.

(14)

1 Introdu¸c˜ao 10

A ICA também é útil em aplica¸cões onde técnicas clássicas de filtragem seletiva não apresentam bons resultados, como por exemplo no caso do sinal fonte e o ru´ıdo possu´ırem a mesma frequência.

Outra aplica¸cão interessante é o cálculo das componentes independentes em sinais biológicos. Esses sinais são captados em um mesmo indiv´ıduo e podem representar a pressão arterial, batimento card´ıaco e sinais de EEGs e MEGs (eletroencefalogramas e magnetoencefalogramas, respectivamente), entre outros. Os sinais de EEG e MEG são extra´ıdos por sensores no escalpo humano (EEGs são medi¸cões do campo elétrico no escalpo, enquanto MEGs são medi¸cões do campo magnético) e podem conter influências de sinais de atividade muscular e cerebral de várias origens como por exemplo, movimentos oculares e batimento card´ıaco, portanto, uma análise mais precisa desses dados requer um tratamento prévio que pode ser alcan¸cado pelo ICA.

A ICA também é utilizada no processamento de imagens em aplica¸cões como compressão e extra¸cão de ru´ıdo. Técnicas clássicas de processamento de imagens como Fourier e a transformada Cosseno realizam suas aplica¸cões através de representa¸cões li-neares nos dom´ınios das respectivas transformadas, mas pode ser interessante estimar representa¸cões lineares através do próprio dado. Isso pode ser alcan¸cado através do ICA.

A técnica ICA foi introduzida no in´ıcio da década de 80 por J. Hérault, C. Jutten e B. Ans em uma abordagem neurofisiológica de codifica¸cão de movimento, onde dados a velocidade e posi¸cão de uma articula¸cão de corpo humano, pode-se medir a contra¸cão muscular gerada por esse movimento.

(15)

1.1 Motiva¸c˜ao 11

Figura 1.1: Sinais estimados por ICA a partir das misturas

Desde então, houve um aumento significativo no número de trabalhos e con-ferências relacionadas a ICA e a separa¸cão cega de fontes.

A tecnologia FPGA (Field Programmable Gate Array) é uma plataforma de hardware digital reprogramável que pode implementar algoritmos de processamento di-gital de sinais com uma alta capacidade de reprograma¸cão. Mais detalhes sobre essa tecnologia serão discutidos no Cap´ıtulo 3.

Neste trabalho propomos implementa¸cões embarcadas em uma placa FPGA do algoritmo FastICA, com o objetivo de realizar a separa¸cão cega de fontes de sinais captados em ambiente hospitalar com base na suposi¸cão de que os sinais fontes são es-tatisticamente independentes. Na figura 1.1, temos um esquema de como esses sinais podem ser processados através da técnica ICA, em uma plataforma reconfigurável. Todos os sensores (pressão, card´ıaco, pulso e canais de EEG) captam seus respectivos sinais em um mesmo indiv´ıduo, porém, ainda podemos supor que os sinais são independentes já que são provenientes de diferentes órgãos do corpo humano.

Serão utilizados sinais gerados manualmente e sinais de áudio para validar os hardwares propostos, além de sinais biológicos reais para validar os hardwares propostos.

1.1 Motiva¸c˜

ao

(16)

1.2 Objetivos 12

década de 90 houveram avan¸cos significativos em rela¸cão a algoritmos e a aplica¸cões reais onde o ICA poderia ser utilizado, de tal forma que o interesse acerca dessa técnica tem aumentado significativamente. Uma das poss´ıveis áreas de pesquisa é o estudo e imple-menta¸cão de algoritmos que realizam o ICA em plataformas de hardware, como ASICs (Application-specific integrated circuits) ou FPGAs, uma vez que em muitas aplica¸cões, existe a necessidade de executar esses algoritmos em campo.

Porém, projetar hardware para fins genéricos é uma tarefa dif´ıcil, de tal forma que os algoritmos implementados nessas plataformas são voltados para aplica¸cões es-pec´ıficas. A plataforma FPGA possui uma alta capacidade e facilidade de reconfigura¸cão, o que favorece o desenvolvimento de modelos independentes espec´ıficos para determina-dos casos, de tal forma que reconfigurar os dispositivos para alternar entre aplica¸cões pode ser feito facilmente em laboratório ou mesmo em campo com o aux´ılio de compu-tadores móveis, além disso, os FPGAs oferecem vantagens como o paralelismo inerente à sua arquitetura, o cont´ınuo desenvolvimento desses dispositivos programáveis e baixo custo NRE (Non-recurring engineering: valor relativo a o per´ıodo anterior à fabrica¸cão em massa do produto, este valor envolve gastos com pesquisa, desenvolvimento, projeto e testes).

O FPGA possibilita não só a implementa¸cão deste algor´ıtmo, mas também de outras funcionalidades necessárias para o desenvolvimento do protótipo de hardware para o monitoramento de leitos em ambientes hospitalares. Dentro desse contexto, surgiu a ne-cessidade do desenvolvimento e implementa¸cão do ICA em uma plataforma reconfigurável para complementar as pesquisas desenvolvidas no LAHB (Laboratório de Automa¸cão Hos-pitalar e Bioengenharia da UFRN) com a principal finalidade de compor um hardware para controle e monitoramento de sinais vitais em leitos hospitalares.

1.2 Objetivos

Este trabalho tem como objetivo o desenvolvimento e implementa¸cão da técnica ICA para a separa¸cão cega de fontes de misturas provenientes de sinais fontes, embar-cada em uma plataforma de hardware reconfigurável, que poderá ser utilizada em diversas aplica¸cões, principalmente com sinais biomédicos.

(17)

1.3 Estado da Arte 13

em Simulink1

voltados para diferentes aplica¸cões relacionadas com a utiliza¸cão do algo-ritmo que implementa a Análise de Componentes Independentes, FastICA, no problema da separa¸cão cega de fontes.

Os modelos ser˜ao simulados e sintetizados em uma placa FPGA Cyclone II EP2C35 da Altera Corporation2

através do software DSP Builder disponibilizado pela Altera em seu DSP Development Kit. Este software possui um conjunto de blocos es-pec´ıficos para a gera¸cão de modelos em Simulink e a sintetiza¸cão dos mesmos em um dispositivo reconfigurável, como por exemplo, um FPGA. Além disso, o DSP Builder também possui blocos direcionados para a visualiza¸cão dos testes realizados na placa de hardware em ambiente Simulink.

O algoritmo FastICA foi previamente implementado e testado de diferentes formas em ambiente MATLAB3

com o objetivo de compreender seu funcionamento.

Três modelos principais serão implementados, um voltado para aplica¸cão de extra¸cão de ru´ıdo, outro voltado para resolver o problema da Cocktail Party e outro onde serão utilizados sinais reais de eletroencefalograma cedidos pelo Instituto Internacional de Neurociências de Natal Edmond e Lily Safra4

(IINN-ELS).

1.3 Estado da Arte

Nos últimos anos o número de estudos relacionados à implementa¸cão de algorit-mos que realizam o ICA em plataformas de hardware tem aumentado significativamente. Em 2001, Nordin, Hsu e Szu propuseram um projeto em FPGA do algoritmo FastICA para aplica¸cões de processamento de imagens hiper-espectrais (HSI), usadas geralmente em problemas de reconhecimento de áreas geográficas remotamente. Eles traduziram parte do código dispon´ıvel gratuitamente no FastICA Package5

para MATLAB em m´odulos em linguagem C e realizaram simula¸c˜oes ([Nordin, Hsu and Szu, 2001]).

1

Simulink é um ambiente gráfico e interativo que fornece um conjunto de bibliotecas contendo blocos que podem ser customizados de acordo com as necessidades do usuário para projetar, simular, implemen-tar e tesimplemen-tar sistemas de processamento de sinais.

2

http://www.altera.com/

3

MATLAB é um ambiente de linguagem de computa¸cão técnica de alto n´ıvel para desenvolvimento de algoritmos, visualiza¸cão e análise de dados e computa¸cão numérica.

4

http://natalneuroscience.com/

5

(18)

1.3 Estado da Arte 14

Du e Qi publicaram uma nova implementa¸cão em paralelo do ICA em FPGA ([Du and Qi, 2004]) para realizar a redu¸cão da dimensão em imagens hiper-espectrais com o objetivo de reduzir o tempo computacional necessário para se processar grandes volumes de dados como nos problemas de HSI. Embora bons resultados tenham sido obtidos, uma compara¸cão com o algoritmo FastICA, que é um algoritmo iterativo rápido e simples, pode ser interessante.

Em 2005, Charoensak e Sattar propuseram a implementa¸cão de um modelo em Simulink para resolver o problema da separa¸cão cega de fontes utilizando um algoritmo ICA baseado em uma rede de Torkkola modificada. O modelo foi simulado e sinteti-zado em uma placa FPGA Virtex-E da Xilinx através de seu software System Generator ([Charoensak and Sattar, 2005]).

Em [Kim, Park, Kim, Choi and Lee, 2003], foi proposto uma implementa¸c˜ao de um algoritmo ICA para resolver o problema da separa¸cao cega de fontes e cancelamento adaptativo de ru´ıdo em FPGA.

Em [Costa, 2006], Costa propôs a implementa¸cão do algoritmo FastICA em ambiente de rede Foudation Fieldbus, tanto por blocos funcionais padrões de uma rede Foundation Fieldbus com treinamento online via OPC como em tecnologia embarcada utilizando um DSP com o objetivo de extra¸cão de ru´ıdos de sinais provenientes de uma planta de medi¸cão de vazão.

Em 2006, Shyu e Li propuseram uma implementa¸cão em FPGA do algoritmo FastICA em linguagem de descri¸cão de hardware (HDL). Também foi implementada uma aritmética de ponto flutuante com o objetivo de agilizar as opera¸cões realizadas com os números em representa¸cão numérica de ponto flutuante e diminuir a alta necessidade de hardware em opera¸cões desse tipo ([Shyu and Li, 2006]). Embora o projeto puramente em HDL possa ser dif´ıcil, é poss´ıvel ter um maior controle de uso de hardware e minimizar as suas necessidades.

(19)

1.4 Organiza¸c˜ao do Trabalho 15

1.4 Organiza¸c˜

ao do Trabalho

(20)

16

2 An´

alise de Componentes Independentes

Neste cap´ıtulo, discutiremos conceitos básicos da técnica Análise de Compo-nentes Independentes (ICA), sua defini¸cão como um modelo estat´ıstico de variáveis laten-tes e algumas restri¸cões necessárias para que o modelo possa ser um estimador. Também discutiremos a rela¸cão de ICA com a técnica chamada Análise de Componentes Principais (PCA), além de introduzir um princ´ıpio simples e intuitivo de estimativa do modelo ICA apresentado e um algoritmo baseado em itera¸cão de ponto-fixo utilizado na estimativa do modelo, bem como suas propriedades.

2.1 Defini¸

c˜

ao do Modelo

Para definir ICA, é utilizado um modelo estat´ıstico de variáveis latentes, ou seja, variáveis não observadas diretamente, mas sim inferidas através das propriedades de outras variáveis observadas. Sejam n variáveis aleatórias observadas x1, ..., xn, que

significam para nós as misturas captadas pelos sensores em uma abordagem de Separa¸cão Cega de Fontes. Cadaxié modelado como uma combina¸cão linear denvariáveis aleatórias

s1, ..., sn, tal que:

xi =ai1s1+a_i2s2+...+a_ins_n, para todo i, j = 1, ..., n (2.1)

onde os aij são os coeficientes de mistura. Por defini¸cão, as componentes si são estatisti-camente independentes.

Como uma combina¸c˜ao linear, o modelo tamb´em pode ser escrito como:

xi = n

X

j=1

aijsj (2.2)

Adotando um modelo matricial e denotando a matriz formada pelos coeficien-tes de mistura por A, temos que:

x=As (2.3)

(21)

2.2 Restri¸c˜oes 17

Para ilustrar o modelo, nós podemos considerar duas variáveis aleatórias x1 e

x2, pelo modelo temos que:

x1 =a11s1+a12s2 (2.4)

x2 =a21s1+a22s2 (2.5)

Na nossa abordagem de Separa¸cão Cega de Fontes, osxi são as misturas obser-vadas, aij são os coeficientes da matriz de mistura esi são as componentes independentes, de tal forma que:

  x1 x2   =  

a11 a12

a21 a22 

 



s1 1, s

2

1, ..., sk1

s1 2, s

2

2, ..., sk2 

 (2.6)

O problema da estimativa do modelo ICA apresentado é estimar as componen-tes independencomponen-tes, dado que não se tem conhecimento acerca dos coeficiencomponen-tes de mistura e das componentes independentes, ou seja, estimar uma matriz de separa¸cãoW composta por vetores linha wi, onde i= 1, ..., n tal que:

s=W x (2.7)

Como a matriz A é desconhecida, não se pode determinar uma matriz W tal que a eq. (2.7) seja satisfeita, mas nós podemos encontrar um W∗ _{tal que:}

y=W∗_x _(2.8)

onde _ks₋y_k=min.

Esse é o modelo básico de ICA, porém, em muitas aplica¸cões seria mais rea-lista assumir que nas medi¸cões dos sensores (microfones no Cocktail-party problem) está presente também ru´ıdo, o que significaria adicionar um termo para o ru´ıdo no modelo. Para fins de simplicidade, são omitidos quaisquer termos relacionados a ru´ıdos no mo-delo básico, já que este é suficiente em muitas aplica¸cões. Ainda assim, momo-delos mais complexos são introduzidos em [Hyvärinen, Karhunnen and Oja, 2001].

2.2 Restri¸

c˜

oes

(22)

2.2 Restri¸c˜oes 18

1. ´E preciso assumir que as componentes independentes s˜ao estatisticamente independentes.

Duas ou mais variáveis aleatórias são ditas estatisticamente independentes se a informa¸cão contida nos valores de qualquer uma delas não fornece informa¸cão alguma acerca dos valores de qualquer uma das outras. A independência estatistica pode ser defi-nida formalmente através das fun¸cões densidade de probabilidade das variáveis aleatórias. Sejamp(y1, y2) a fun¸cão densidade de probabilidade conjunta (fdp) das variáveis aleatórias

y1 ey2 epi(yi) a fun¸c˜ao densidade de probabilidade marginal deyi, ou seja, a fun¸c˜ao

den-sidade de probabilidade de yi quando somente esta ´e considerada. ´E dito que y1 e y2

são estatisticamente independentes se e somente se a fun¸cão densidade de probabilidade conjunta for fatorável da seguinte maneira:

p(y1, y2) = p1(y1)p2(y2) (2.9)

Uma propriedade importante da independência de variáveis aleatórias é que, dado duas fun¸cões h1 e h2, nós sempre teremos que:

E_{h1(y1)h2(y2)}=E{h1(y1)}E{h2(y2)} (2.10)

2. As componentes independentes precisam ter distribui¸c˜oes de probabilidade n˜ao-gaussianas.

No modelo ICA, não é assumido que as distribui¸cões de probabilidade das componentes independentes são conhecidas, porém, é preciso assumir que elas sejam não-gaussianas. As distribui¸cões gaussianas são simétricas (Fig. 2.1). Não há uma dire¸cão de maior concentra¸cão de valores que possa ser privilegiada na estimativa do modelo ICA, isso significa que as distribui¸cões gaussianas possuem cumulantes de alta ordem iguais a zero, mas essas informa¸cões de alta ordem são importantes na estimativa do modelo ICA. Embora seja assumido que as distribui¸cões das componentes independentes sejam não-gaussianas, certamente as distribui¸cões das misturas observadas serão.

Nas se¸cões 2.5, 2.6 e 2.7, entraremos em detalhes sobre como essas restri¸cões se relacionam e como o modelo ICA é estimado fazendo uso delas, além de introduzir um algoritmo de ponto-fixo baseado nos conceitos de independência estat´ıstica e não-gaussianidade para estimar o modelo ICA.

(23)

2.3 Ambiguidades de ICA 19

Figura 2.1: Distribui¸c˜ao de probabiliade gaussiana

é quadrada e, portanto, pode possuir inversa. Se esse não for o caso, haverão misturas redundantes que poderão ser omitidas no modelo.

2.3 Ambiguidades de ICA

Existem algumas ambiguidades decorrentes do modelo ICA b´asico. Elas s˜ao as seguintes:

1. Não é poss´ıvel determinar as variâncias das componentes independentes.

Como tanto A quanto s são desconhecidos, qualquer escalar α multiplicado em alguma das componentes independentes poderia ser cancelado dividindo a coluna correspondente ai de Apelo mesmo escalar. Uma poss´ıvel solu¸cão é fixar as energias das variáveis aleatórias e um método simples de se fazer isso é considerar que suas variâncias sejam unitárias, ou seja,E_{s2

(24)

2.4 Pr´e-processamento dos Dados 20

2. N˜ao se pode determinar a ordem das componentes independentes.

Isso se dá novamente por A e s serem desconhecidos, já que sendo assim, podemos trocar livremente a ordem dos termos na soma (2.2) e obter o mesmo resultado na combina¸cão linear. Uma solu¸cão para essa ambiguidade é adicionar uma matriz de permuta¸cão P e sua inversa no modelo tal que:

x=AP−1

P s (2.11)

de forma que as componentes independentes P s ser˜ao as componentes originais si, em outra ordem. A matriz AP−1

ser´a a nova matriz de mistura a ser estimada.

2.4 Pr´

e-processamento dos Dados

Antes de aplicar o modelo ICA para a estimativa das componentes indepen-dentes, é recomendável realizar algumas etapas de pré-processamento no conjunto de misturas observadas. Nessa se¸cão, iremos discutir algumas técnicas de pré-processamento que tornam as misturas observadas melhor condicionadas e a estimativa do modelo mais simples. Além disso, veremos que caso a dimensão dos dados seja muito grande, pode ser útil calcular o PCA a fim de diminuir essa dimensão para um intervalo previamente estabelecido.

2.4.1 Centraliza¸c˜

ao

Esse é o pré-processamento mais básico, embora tenha uma boa contribui¸cão em simplificar a teoria envolvida no modelo ICA e os algoritmos para estimar o modelo.

Sem perda de generalidade, nós podemos assumir que as componentes inde-pendentes e as misturas observadas possuem média zero. Para que isso seja estritamente verdade, as misturas observadas passam pela fase de centraliza¸cão, que significa subtrair das misturas a sua média. Denotando as misturas observadas originais porx, as misturas centralizadas xc são tais que:

xc =x−E{x} (2.12)

Dessa forma, as componentes independentes também terão média zero já que

E_{s_}=A−1

(25)

O modelo continua sendo estimado da mesma forma, pois não há altera¸cão alguma na matriz de mistura, além disso, após a matriz de mistura ser estimada (consi-derando que as misturas observadas passaram pela fase de centraliza¸cão), a média sub-tra´ıda pode ser reconstru´ıda adicionando a W∗_E_{_x_} _{(lembrando que} _W ₌ _A−1

e W∗ _é uma aproxima¸cão ótima de W) as componentes independentes de média zero, ou seja, as componentes independentes que foram estimadas no modelo.

2.4.2 Branqueamento

A fase de branqueamento, apesar de ser um pouco mais dif´ıcil de ser calculada do que a centraliza¸cão, ainda é um procedimento simples de ser implementado além ajudar a de diminuir significativamente a complexidade do problema. Sendo assim, o branqueamento ajuda a resolver o problema para o qual ICA é proposto. Esse pré-processamento é aplicado nas misturas centralizadas.

O branqueamento é uma propriedade um pouco mais poderosa em rela¸cão à descorrela¸cão. Duas variáveis aleatórias y1 e y2 são descorrelacionadas se sua covariância

for igual a zero, ou seja:

cov(y1, y2) = E{y1y2} −E{y1}E{y2}= 0 (2.14)

Se duas variáveis aleatórias forem independentes, necessariamente elas serão descorrelacionadas. Essa afirma¸cão pode ser verificada se nós tomarmosh1 =y1 eh2 =y2

na eq. (2.10)). Dessa forma, temos que:

E_{y1y2}=E{y1}E{y2} (2.15)

que implica em descorrela¸cão das variáveis aleatórias.

Por outro lado, descorrela¸cão não implica independência. Se nós tomarmos duas variáveis aleatórias discretas com uma distribui¸cão tal que o par possui probabilidade 1/4 para os seguintes valores: (0,1), (0,-1), (1,0) e (-1,0). Nós temos que as duas variáveis são descorrelacionadas, porém, a condi¸cão da eq. (2.10) é violada como podemos ver em (2.16), portanto, y1 e y2 não são independentes.

E_{y2 1y

2

2}= 0 6=

1

4 =E{y

2 1}E{y

2

2} (2.16)

(26)

além de serem descorrelacionadas possuem variância unitária, ou seja, possuem matriz de covariância igual a matriz identidade:

Cy =E{yyt}=I (2.17)

O processo de branqueamento consiste em aplicar uma determinada trans-forma¸cão linear em uma variável aleatória x, obtendo assim uma nova variávei aleatória

z, a qual ´e branca:

z =V x (2.18)

Um método popular para se realizar o branqueamento é a decomposi¸cão por auto-valor (EVD do inglês Eigenvalue Decomposition) da matriz de covariância:

E_{xxt_}=EDEt (2.19)

tal que E é a matriz ortogonal dos auto-vetores associados aos auto-valores da matriz de covariância E_{xxt_} _e _D _{é a matriz diagonal de auto-valores da matriz de covariância. A} matriz de transforma¸cão utilizada no branqueamento (geralmente chamada pormatriz de branqueamento) é definida por:

V =ED−1_/2

Et (2.20)

Pela defini¸cão do modelo ICA básico, nós temos que:

z = V As (2.21)

= A′s (2.22)

A utilidade do branqueamento reside no fato de que a nova matriz de mis-tura A′

´e ortogonal, ou seja, como A′₋1

= A′_t

(no caso de matrizes ortogonais), a es-timativa da matriz de mistura se restringe ao espa¸co de matrizes ortogonais. Ao inv´es de estimar os n2

parâmetros da matriz de mistura original, somente é preciso estimar os parâmetros da matriz ortogonal A′₋1

, o que significa n(n ₋1)/2 parâmetros. Para exemplificar essa propriedade, será reproduzido a seguir um experimento realizado em [Hyvärinen, Karhunnen and Oja, 2001]. Consideremos duas variáveis aleatórias x1 e x2

com distribui¸c˜oes uniformes p(si), tal que:

p(si) =





 1

2√3 se si ≤

√

3

(27)

Figura 2.2: Fun¸c˜ao densidade de probabilidade conjunta de x1 ex2

Os valores da distribui¸cão uniforme foram escolhidos de tal forma que a fun¸cão densidade de probabilidade conjuta das duas variáveis aleatórias seja propositalmente quadrada (Fig. 2.2).

Após o branqueamento, a fun¸cão densidade de probabilidade conjunta das variáveis brancas é uma versão rotacionada da fun¸cão das variáveis originais, como visto em (Fig. 2.3). Isso se dá porque em um espa¸co bidimensional, uma transforma¸cão ortogo-nal (z =A′

s) é determinada por um único parâmetro, que é o ângulo da rota¸cão, ou seja, ao invés de estimarmos todos os 4 parâmetros de uma matriz 2x2, estimamos somente um parâmetro de rota¸cão, caso as variáveis tenham passado pelo processo de branqueamento.

Em algumas aplica¸cões onde a massa de dados é muito grande, pode ser útil extrair as componentes principais dos dados antes de realizar o branqueamento, por meio da técnica PCA. A solu¸cão para o problema do PCA de uma massa de dadosxé dada em termos dos autovetores e1, ..., e_n da matriz de covariância Cx, onde C_x =E{xxt} ([Oja,

1983]). Os autovetores são então ordenados de acordo com seus respectivos autovalores, tal que d1 ≥ d2 ≥, ..., ≥ dn. Os menores autovalores são então descartados de acordo

(28)

2.5 N˜ao-gaussianidade e independˆencia 24

Figura 2.3: Fun¸c˜ao densidade de probabilidade conjunta das vari´aveis brancas

2.5 N˜

ao-gaussianidade e independˆ

encia

Nesta se¸cão, iremos discutir a rela¸cão entre as restri¸cões de não-gaussianidade e independência estat´ıstica das componentes independentes, assim como a maneira como ICA se utiliza dessas restri¸cões para estimar o modelo.

´

E poss´ıvel mostrar que para componentes independentes com distribui¸cões de probabilidade gaussianas (eq. 2.24), a matriz de mistura não surte efeito algum nas distri-bui¸cões das misturas (eq. 2.25), ou seja, as distridistri-bui¸cões são identicas, o que significa que não há meios de se estimar a matriz de mistura tendo somente as informa¸cões fornecidas pelas misturas observadas. Isso também acontece se nós tornarmos as componentes in-dependentes brancas, por meio do branqueamento. Na verdade, é até mais fácil entender porque não podemos estimar a matriz de mistura no caso de componentes independentes gaussianas se as componentes forem brancas.

p(s1, s2) =

1

2πexp(− s2

1+s 2 2

2 ) (2.24)

p(x1, x2) =

1

2πexp(− x2

1 +x 2 2

2 ) (2.25)

(29)

2.5 N˜ao-gaussianidade e independˆencia 25

matriz de mistura e consequentemente recuperar as componentes baseando-se somente nas informa¸cões fornecidas pelas misturas observadas. O Teorema do Limite Central nos dá uma idéia de como isso é poss´ıvel.

O teorema do limite central é um resultado clássico da teoria de probabilidade. O teorema afirma que, se nós considerarmos uma sequência de variáveis aleatórias esta-tisticamente independentes e igualmente distribu´ıdasx1, x2, ..., xk, a soma y_k =x1+x2+

...+xk converge para uma distribui¸cão gaussiana sek → ∞. Na prática, nós não temos

k _{→ ∞}, mas baseados no teorema do limite central, nós podemos dizer que a soma de duas variáveis aleatórias estatisticamente independentes e igualmente distribu´ıdas geral-mente tem uma distribui¸cão que é mais próxima de uma gaussiana do que qualquer uma das distribui¸cões das variáveis originais. Dessaf forma, o Teorema do Limite Central pode ser utilizado para estimar as componentes independentes da seguinte forma.

Pelo modelo ICA b´asico, n´os temos que:

s =A−1

x (2.26)

Portanto, para se estimar uma das componentes independentes, nós podemos considerar uma combina¸cão linear das misturas observadas y, tal quey =bx, ondebé um vetor linha a ser determinado. Pelo modelo, nós temos também que y=bAs, ou seja, yé uma combina¸cão linear das componentes independentes com o vetor bA. Se denotarmos esse vetor por q, temos que:

y=bx=qs=X i

qisi (2.27)

Se n´os observarmos a eq. (2.26) e considerarmos que b corresponde a uma das linhas de A−1

, então a combina¸cão linear bx teria como resultado uma das componentes independentes. Consequentemente, se nós consideramos q = bA e b como uma linha da inversa de A, q será necessariamente um vetor com somente um elemento igual a 1 e todos os outros iguais a zero. Se nós estamos considerando que as componentes independentes são estatisticamente independentes, pelo teorema do limite central nós podemos afirmar que qualquer combina¸cão linear das componentes terá distribui¸cão mais próxima da gaussiana do que as distribui¸cões de qualquer uma das componentes, portanto,

y = qs ser´a sempre mais gaussiana do que qualquer si a menos que qs resulte em uma das componentes independentes.

(30)

2.6 Medidas de N˜ao-gaussianidade 26

até que y se igualasse a uma das componentes independentes, mas na prática somente os valores das misturas observadas x são conhecidas. Por outro lado, nós sabemos também queqs=bx, então, se nós pudermos calcular um vetorbque maximize a não-gaussianidade de bx, esse vetor seria necessariamente igual ao vetor bA, ou seja, y = bx = qs será equivalente a uma das componentes independentes.

Embora a rela¸cão entre independência e não-gaussianidade tenha sido esclare-cida (com o aux´ılio do teorema do limite central), outra questão precisa ser discutida. A combina¸cão linear y=bx seria equivalente a uma das componentes independentes se nós pudéssemos calcular um vetor b que maximize a não-gaussianidade de bx. Mas como a não-gaussianidade pode ser medida? Essa questão será discutida na se¸cão (2.6).

2.6 Medidas de N˜

ao-gaussianidade

Para utilizar a não-gaussianidade na estimativa do modelo ICA, nós precisamos ter uma medida quantitativa da não-gaussianidade de uma variável aleatória y. Apesar de existirem outros métodos relacionados com não-gaussinidade de variáveis aleatórias que podem ser utilizados para estimar o modelo ICA, como Máxima verossimilhan¸ca e Informa¸cão mútua, nessa se¸cão iremos nos restringir a discutir duas importantes medidas

de n˜ao-gaussianidade utilizadas neste trabalho: a Kurtosis e a Negentropia.

2.6.1 Kurtosis

Uma medida clássica de não-gaussianidade é a Kurtosis, também chamada de Cumulante de Quarta-ordem. A fun¸cão Kurtosis de uma variável aleatória y é dada da seguinte forma:

kurt(y) = E_{y4

} −3(E_{y2

})2

(2.28)

Se nós assumirmos que y possui variância unitária (se a variável for branca, por exemplo), então a fun¸cão é simplificada da seguinte forma:

kurt(y) =E_{y4

} −3 (2.29)

A eq. (2.29) nos mostra que a fun¸cão kurt é uma versão normalizada do momento de quarta ordem E_{y4

(31)

Usando o valor absoluto da kurtosis, chega-se na medida de não-gaussianidade. O quadrado do valor absoluto da kurtosis também pode ser utilizado. Para o caso de uma variável gaussiana, o resultado da fun¸cão kurtosis é, na maioria das vezes, igual a zero. Para variáveis não-gaussianas, o valor absoluto (ou seu quadrado) da kurtosis é diferente de zero.

A razão pela qual a kurtosis é amplamente utilizada é pela sua simplicidade. Na prática, a kurtosis pode ser calculada utilizando somente o momento de quarta ordem e além disso, para duas variáveis aleatórias independentes s1 e s2, temos as seguintes

propriedades de linearidade:

kurt(s1+s2) =kurt(s1) +kurt(s2) (2.30)

kurt(αs1) = α 4

kurt(s1) (2.31)

Apesar de sua simplicidade, a kurtosis possui algumas desvantagens na prática. A questão é que somente algumas amostras de uma variável aleatória podem ter uma maior influência no valor absoluto da kurtosis em rela¸cão a todas as outras amostras. Se nós considerarmos uma variável aleatória com 1000 amostras (com média zero e variância unitária) com valores que variam entre 0 e 1 e algum agente externo contribuisse para que uma amostra possuisse valor igual a 10, o valor da kurtosis seria igual a pelo menos 104

/1000₋3 = 7, ou seja, a kurtosis é uma medida de não-gaussianidade simples mas não robusta.

2.6.2 Negentropia

Nessa se¸cão, será apresentada uma segunda medida de não-gaussianidade, cha-mada Negentropia. A negentropia se baseia na quantidade de informa¸cão teórica de uma variável dada pela entropia diferencial, tratada simplesmente por entropia.

(32)

probabilidade py(η) ´e definida da seguinte forma:

H(y) =₋

Z

py(η)log(py)dη (2.32)

Um resultado fundamental da teoria da informa¸cão é que uma variável gaussi-ana possui a maior entropia dentre todas as variáveis aleatórias de igual variância. Isso sig-nifica que distribui¸cões gaussianas são as mais aleatórias e desestruturadas dentre todas as distribui¸cões, ou seja, nós podemos utilizar a entropia como medida de não-gaussianidade.

A negentropia é uma versão normalizada da entropia, de tal forma que a negentropia é sempre não-negativa e zero para uma variável gaussiana. A negentropia J

de uma variável aleatória yé definida da seguinte forma:

J(y) =H(ygauss)−H(y) (2.33)

onde ygauss é uma variável aleatória com distribui¸cão gaussiana e mesma matriz de cor-rela¸cão (e portanto, covariância) que y.

A negentropia é uma medida de não-gaussianidade bem justificada pela teo-ria estat´ıstica e é por vezes considerada um estimador ótimo de não-gaussianidade. O problema é que, como nós podemos constatar pela própria defini¸cão, a negentropia é uma medida de dif´ıcil implementa¸cão computacional, além de ser necessário ter conhe-cimento (ou ao menos uma estimativa) da fun¸cão densidade de probabilidade. A seguir serão discutidas algumas boas aproxima¸cões da negentropia que tornam a medida mais praticável.

O primeiro método de aproxima¸cão é utilizando cumulantes de alta-ordem. Dessa forma, nós temos a seguinte aproxima¸cão:

J(y)_≈ 1 12E{y

2

}2

+ 1

48kurt(y)

2

(2.34)

Como podemos constatar na eq. (2.34), a aproxima¸cão utilizando cumulantes de alta-ordem levam ao uso da kurtosis apresentada na se¸cão (2.6.1). Como consequência disso, essa aproxima¸cão da negentropia não é tão robusta, assim como a kurtosis.

Um método mais sofisticado é utilizar esperan¸cas de fun¸cões não-quadráticas. Nós podemos utilizar quaisquer duas fun¸cões não-quadráticas G1

eG2

tal queG1

´e ´ımpar e G2

é par. Isso nos dá a seguinte aproxima¸cão:

J(y)_≈k1(E{G 1

(y)_})2

+k2(E{G 2

(y)_{} −}E_{G2

(v)_})2

(33)

2.7 Algoritmo FastICA 29

onde k1 e k2 são constantes positivas e v é uma variável aleatória gaussiana com média

zero e variˆancia unit´aria.

Se nós usarmos somente uma fun¸cão não-quadráticaG, a aproxima¸cão se torna a seguinte:

J(y)_∝[E_{G(y)_{} −}E_{G(v)_}]2

(2.36)

A questão agora é a escolha de uma fun¸cão não-quadrática G. A escolha de uma G que não cres¸ca tão depressa resulta em estimadores mais robustos. As seguintes fun¸cões tem provado serem boas escolhas:

G1(y) =

1

a1

log(cosh(a1y)) (2.37)

G2(y) = −exp(−

y2

2) (2.38)

onde a1 ´e uma constante, tal que: 1≤a1 ≤2.

2.7 Algoritmo FastICA

Nesta se¸cão será apresentado um bom algoritmo baseado em itera¸cão de ponto-fixo que maximiza a não gaussianidade de wz (máximo local), onde z são as misturas observadas centralizadas e brancas e w é um vetor de coeficientes de separa¸cão. É im-portante notar que o algoritmo encontra somente uma componente independente. Para estimar todas as componentes independentes, é preciso executar o algoritmo para cada componente. Esse algoritmo recebe o nome de FastICA.

O algoritmo FastICA pode ser derivado tanto para o caso de maximizar a não-gaussianidade utilizando o método kurtosis quanto o método negentropia. A diferen¸ca básica entre os algoritmos será a itera¸cão que calculará o novow. Abaixo segue o algoritmo utilizando o método negentropia:

1. Escolher um vetor de pesosw inicial (por exemplo, aleatoriamente).

2. w∗ _←_E_{_zg₍_wt_z₎_{} −}_E_{_g′₍_wt_z₎_}_w_.

3. w_← w

∗

(34)

2.7 Algoritmo FastICA 30

4. Se n˜ao convergiu, voltar ao passo 2.

Como fun¸cão g, as derivadas das fun¸cões descritas nas equa¸cões 2.37 e 2.38 podem ser utilizadas (equa¸cões 2.39 e 2.40), pois resultam em boas aproxima¸cões da negentropia. Além dessas fun¸cões, pode-se utilizar também a derivada do momento de quarta ordem, que resultará no método kurtosis (equa¸cão 2.41).

g1(y) = tanh(a1y) (2.39)

g2(y) = yexp(−

y2

2) (2.40)

g3(y) =y 3

(2.41)

As derivadas g′ _{s˜ao dadas por:}

g′

1(y) = a1(1−tanh 2

(a1y)) (2.42)

g′

2(y) = (1−y 2

)exp(₋y

2

2) (2.43)

g′

3(y) = 3y 2

(2.44)

A itera¸c˜ao utilizando o kurtosis, ´e dada da seguinte forma:

w∗ _←_E_{_z₍_wt_z₎3

} −3w (2.45)

O critério de convergência é o novo e antigowapontarem para a mesma dire¸cão (considerando que w e ₋w são iguais, como visto nas ambiguidades do modelo ICA).

Abaixo seguem algumas propriedades do algoritmo FastICA:

(35)

2.8 Calculando mais de uma componente independente 31

2. Contrário a algoritmos baseados em gradiente, não há nenhum parâmetro de taxa de aprendizagem para escolher, o que torna o FastICA mais simples.

3. O algoritmo encontra diretamente as componentes independentes de praticamente qualquer distribui¸cão não-gaussiana usando qualquer medida de não-linearidade g, ao contrário de muitos algoritmos onde a medida de não-linearidade precisa ser escolhida especificamente.

4. O desempenho do algoritmo pode ser melhorado com a escolha adequada de uma medida de n˜ao-linearidade.

5. As componentes independentes podem ser estimadas uma a uma, o que diminui o custo computacional em casos onde somente algumas das componentes independen-tes precisam ser estimadas.

6. O algoritmo FastICA possui outras vantagens como: paralelismo, ´e distribuido, com-putacionalmente simples e requer pouco espa¸co de mem´oria.

2.8 Calculando mais de uma componente

indepen-dente

Como visto anteriormente, o algoritmo FastICA apresentado calcula somente uma componente independente. É poss´ıvel calcular todas as componentes executando o FastICA um número de vezes igual ao número de componentes independentes, além de variar o vetor w inicial, porém, existe o risco de um mesmo máximo local ser calculado mais de uma vez. Para eliminar este problema, é utilizada a propriedade de que os vetores

wi s˜ao ortogonais no espa¸co branco. Isto se d´a devido a ortogonalidade da nova matriz de misturaA′

obtida ap´os o branqueamento. ComoA′₋1

=A′_t

, os vetoreswi s˜ao as linhas de

A′₋1

e as colunas deA′_t

, portanto, para evitar que um mesmo máximo local seja calculado mais de uma vez, é preciso ortogonalizar os vetores wi a cada itera¸cão do algoritmo.

(36)

2.8 Calculando mais de uma componente independente 32

2.8.1 Ortogonaliza¸

c˜

ao deflacion´

aria

Um método simples e bastante conhecido na álgebra linear de ortogonaliza¸cão deflacionária é o método de Gram-Schmidt. A cada itera¸cão o algoritmo FastICA calcula um novo vetor wp e para ortogonalizá-lo, basta subtrair as proje¸cões (wpt)wj, onde j = 1, ..., p ₋1, dos p₋ 1 vetores calculados nas itera¸cões anteriores e então renormalizar

wp. Dessa forma as componentes independentes são calculadas uma a uma, ou seja, sequencialmente. Por esse motivo, o erro de ortogonaliza¸cão é propagado para as próximas componentes independentes.

Utilizando a ortogonaliza¸cão deflacionária, os passos para a estimativa das componentes independentes são os seguintes:

2. Executar uma itera¸c˜ao do algoritmo FastICA.

3. Realizar a ortogonaliza¸c˜ao apresentada na equa¸c˜ao 2.46.

wp ←wp− p−1 X

j=1

(w_ptwj)wj (2.46)

4. Normalizar wp.

6. p_←p+ 1. Se p_≤n, voltar ao passo 1.

2.8.2 Ortogonaliza¸

c˜

ao sim´

etrica

Na ortogonaliza¸cão deflacionária, as componentes independentes são calcula-das uma a uma, por isso possui a desvantagem de propagar erros de estima¸cão para as componentes subsequentes. Por esse motivo, pode ser interessante uma outra técnica de natureza simétrica de ortogonaliza¸cão onde as componentes não são mais calculadas se-quencialmente mas sim paralelamente, ou seja, como as componentes independentes são calculadas todas ao mesmo tempo, não há propaga¸cão de erro de estima¸cão.

(37)

2.9 Exemplo de aplica¸c˜ao do ICA 33

O algoritmo completo da estimativa das componentes independentes utilizando ortogonaliza¸cão simétrica é dado a seguir:

2. Executar uma itera¸c˜ao do algoritmo FastICA para todos vetores wi em paralelo.

3. Realizar uma ortogonaliza¸c˜ao sim´etrica nos vetoreswi.

A ortogonaliza¸cão simétrica pode ser obtida pelo método clássico da raiz qua-drada de uma matriz. Dessa forma, a matrizW formada pelos vetoreswié ortogonalizada da seguinte maneira:

W _←(W Wt)−1₂_W _(2.47)

Uma outra maneira ´e executar o seguinte algoritmo iterativo:

1. W _← W

kW _k.

2. W _← 3

2W − 1 2W W

t_W_.

3. SeW Wt _{n˜ao pr´oximo o bastante da matriz identidade, voltar ao passo 2.}

2.9 Exemplo de aplica¸

c˜

ao do ICA

Após a defini¸cão de diversos aspectos que envolvem a análise de componen-tes independencomponen-tes, se torna necessário a visualiza¸cão da técnica como uma ferramenta para resolver o problema da separa¸cão cega de fontes. Dessa maneira, nessa se¸cão serão apresentados e discutidos alguns exemplos da utiliza¸cão do ICA.

O primeiro exemplo é um exerc´ıcio proposto como experimento computacional em [Haykin, 2001]. O experimento propõe a utiliza¸cão dos seguintes sinais e matriz de mistura:

(38)

Figura 2.4: Sinais do lado esquerdo: sinais originais gerados manualmente. Sinais do lado direito: misturas geradas a partir de uma transforma¸c˜ao linear dos sinais originais utilizando a matriz A

2. u2(k) = 0,01sign(sen((500k) + 9cos(40k)))

3. u3(k) = ru´ıdo uniformemente distribu´ıdo no intervalo [-1, 1]

A=     

0,56 0,79 ₋0,37

−0,75 0,65 0,86

0,17 0,32 ₋0,48

     (2.48)

Os sinais originais e as misturas obtidas após a transforma¸cão linear são ilus-trados na figura 2.4.

As misturas são então, dadas como entrada do algoritmo FastICA que irá iterativamente calcular proje¸cões wi (vetores ou pontos no espa¸co), onde i = 1, ...n e

n = 3. Os vetores wi iniciais são obtidos aleatoriamente, o valor do erro é definido como 0,0001 e o número máximo de itera¸cões para cada componente independente foi definido como 500. A fun¸cão g escolhida para medir a não-gaussianidade das componentes foi a

g3(y) =y 3

, vista na eq. (2.43).

(39)

Figura 2.5: Componentes independentes obtidas utilizando a matriz de separa¸c˜ao W

calculada pelo algoritmo FastICA

Como pode ser observado, o FastICA obteve uma estimativa das componentes independentes satisfatória (Figura 2.5), embora seja poss´ıvel perceber aspectos discutidos na se¸cão 2.3, onde foram detalhadas algumas ambiguidades da análise de componen-tes independencomponen-tes. A primeira delas trata da impossibilidade de determinar as energias (variâncias) das componentes independentes, já que qualquer escalar multiplicado nas componentes independentes pode ser eliminado na matriz de mistura, já que ambos são desconhecidos. Por isso, percebemos altera¸cões nas amplitudes dos sinais estimados em rela¸cão aos sinais originais. Além disso, é ainda poss´ıvel inverter qualquer uma das com-ponentes independentes, já que as proje¸cões wi e −wi possuem mesma dire¸cão, embora estejam em sentidos contrários. O critério de convergência do algoritmo FastICA leva em considera¸cão as duas proje¸cões.

A segunda ambiguidade trata da ordem das componentes independentes. Como visto na se¸cão 2.3, não é poss´ıvel estimar as componentes independentes e garantir que estas estejam ordenadas exatamente como os sinais originais, já que podemos trocar os ter-mos na equa¸cão (2.2) livremente e ainda assim obter o mesmo resultado. Isto também se dá pelo fato da matriz de mistura e das componentes independentes serem desconhecidos.

(40)

Figura 2.6: Sinais do lado esquerdo: sinais de voz originais. Sinais do lado direito: misturas obtidas a partir da transforma¸c˜ao linear entre a matriz de mistura A e os sinais originais

A matriz de mistura A utilizada foi a mesma utilizada nos experimentos em [Charoensak and Sattar, 2005] para obter os sinais de mistura, tal que:

A=





0.6 1 1 0.6



 (2.49)

A figura 2.6 ilustra os sinais de voz originais (lado esquerdo) e as misturas obtidas a partir da transforma¸c˜ao linear entre a matriz de mistura Ae os sinais originais (lado direito).

Da mesma forma que o exemplo anterior, os pontos wi iniciais são obtidos aleatoriamente, onde i = 1, ..., n e n = 2. O valor do erro foi definido em 0,0001, o número máximo de itera¸cões foi definido como 500 e a fun¸cão escolhida para medir a não-gaussianidade das componentes foi a g3(y) =y

3

.

A primeira componente independente foi calculada após 5 itera¸coes do algo-ritmo, enquanto a segunda foi calculada após 2 itera¸cões. A figura 2.7 mostra as com-ponentes indenpendentes obtidas e embora o algoritmo apresente boas estimativas, nova-mente é poss´ıvel observar a presen¸ca das ambiguidades do modelo ICA.

(41)

Figura 2.7: Componentens independentes obtidas com a matriz de separa¸c˜aoW calculada pelo algoritmo FastICA

medi¸c˜ao da n˜ao-gaussianidade. Na maioria dos experimentos o algoritmo apresentou boas estimativas das componentes independentes.

(42)

38

3 FPGA e Linguagem de Descri¸

c˜

ao de

Hardware

A tecnologiaField Programmable Gate Array (FPGA) surgiu nos anos 80 como uma alternativa aos já comuns Dipositivos Lógico Programáveis e com o intuito de possi-bilitar a implementa¸cão de circuitos lógicos complexos e de alta performace. Constitu´ıdos de interconexões programáveis e blocos lógicos que reunem aspectos de lógica combinaci-onal e sequencial, os FPGAs são considerados uma boa alternativa para a implementa¸cão de circuitos lógicos de grande porte e ainda assim possuir uma grande capacidade de re-programa¸cão. O termo Field Programmable refere-se ao fato de que, diferentemente de dispositivos projetados por seus manufaturadores, FPGAs são configurados no campo, ou seja, em um laboratório ou até mesmo já estando conectados a um sistema eletrônico.

Neste cap´ıtulo serão discutidos alguns aspectos dessa tecnologia, além de de-talhar o funcionamento interno dos FPGAs e a utiliza¸cão de linguagens de descri¸cão de hardware para a implementa¸cão circuitos lógicos nesses dispositivos.

3.1 Hist´

orico

Os Dispositivos Lógico Programáveis (PLDs) foram introduzidos na metade dos anos 70 com o objetivo de implementar circuitos lógicos combinacionais que possu´ıssem aspectos programáveis. Em contraste com os microprocessadores, que podem executar programas implementados em linguagens de programa¸cão clássicas mas possuem um hard-ware fixo, os PLDs surgiram com o objetivo de levar a reprograma¸cão a um n´ıvel de hardware. Isso significa que os PLDs são dispositivos utilizados para a implementa¸cão de aplica¸cões generalizadas, mas que o hardware pode ser reconfigurado para se adequar a um tipo espec´ıfico de circuito.

(43)

3.1 Hist´orico 39

o lan¸camento dos PAL foram introduzidos PLDs com circuitos flip-flops embutidos nas sa´ıdas dos dispositivos, os quais foram chamados de Registered PLDs. Dessa forma, se tornava poss´ıvel a implementa¸cão de fun¸cões sequenciais ao invés de puramente combina-cionais.

No in´ıcio dos anos 80, foi adicionado às sa´ıdas dos PLDs lógica combinacio-nal extra, que continha portas lógicas e circuitos multiplexadores. Essa nova tecnologia também era programável, permitindo vários modos de opera¸cão, além disso, permitia um sinal de retorno das sa´ıdas dos dispositivos para o circuito interno. Esse novo tipo de estrutura foi chamado de Generic PAL (GAL). Todos esses dispositivos (PAL, Registered PLD e GAL) são hoje conhecidos como SPLDs (Simple PLDs).

Rapidamente, diversos dispositivos GAL foram produzidos em um mesmo chip, possibilitando a implementa¸cão de circuitos mais complexos e além disso, várias funcio-nalidades e propriedades (como suporte a diversos padrões lógicos) foram adicionadas aos circuitos. Essa nova estrutura ficou conhecida como CPLD (Complex PLD). Os CPLDs são circuitos lógico programáveis bastante populares, devido a caracter´ısticas como alta performance e baixo custo (em [Pedroni, 2004], é visto que CPLDs com pre¸co abaixo de um dolar podem ser encontrados no mercado).

Na metade dos anos 80, os FPGAs foram introduzidos no mercado pela Xilinx. Estes dispositivos diferem dos CPLDs em muitos aspectos, como por exemplo tecnologia de armazenamento (CPLDs utilizam memórias EEPROM e Flash, enquanto os FPGAs utilizam SRAM, portanto estes últimos são mais voláteis), número de propriedades em-butidas e custo. Além disso, os FPGAs foram desenvolvidos com o objetivo de suprir a cadência de dispositivos lógico programáveis direcionados para a implementa¸cão de circuitos complexos e de grande porte.

Nos anos 90, os FPGAs se tornavam mais e mais sofisticados em termos de tamanho e caracter´ısticas adicionais. Nessa época, o principal mercado atingido por esses dispositivos foi o de telecomunica¸cões e redes, e a principal aplica¸cão era a de processa-mento de grandes blocos de dados. Como os FPGAs continuaram a crescer, no final dos anos 90 eles já eram utilizados em aplica¸cões industriais e automotivas

(44)

veloci-3.1 Hist´orico 40

dade. Com isso, os FPGAs podem ser utilizados para implementar circuitos complexos e de grande porte em quase que qualquer aplica¸cão, desde dispositivos de telecomunica¸cões, dispositivos wireless definidos por software, radar, imagem e processamento digital de sinais ([Maxfield, 2004]). Mais especificamente, os FPGAs estão se destacando em quatro grandes áreas da engenharia e eletrônica: o projeto de protótipos de ASICs (Applica-tion Specific Integrated Circuit, circuitos integrados voltados para aplica¸cões espec´ıficas),

processamento digital de sinais, microcontroladores e chips de comunica¸c˜ao em camada f´ısica.

Protótipos de ASICs: FPGAs têm sido utilizados para implementar circuitos que eram implementados somente em ASICs, como forma de um protótipo, já que o tempo e custo de projeto de ASICs é bastante superior ao de FPGAs.

Processamento digital de sinais: Anteriormente, a maioria das aplica¸cões em pro-cessamento digital de sinais eram implementadas em microprocessadores especiais chamados Digital Signal Processors (DSPs) mas com o aumento de caracter´ısticas adicionais em FPGAs tais como multiplicadores embutidos, memória externa e ro-teamento aritmético dedicado, o número de aplica¸cões de DSPs implementadas em FPGAs vem crescendo continuamente. Além disso, aliar todas essas caracter´ısticas com o paralelismo dos FPGAs podem resultar em ganhos de desempenho nos FP-GAs em rela¸cão aos DSPs ([Maxfield, 2004]).

Microcontroladores: A grande maioria de aplica¸cões envolvendo fun¸cões de controle são implementadas em dispositivos chamados Microcontroladores. Porém, comoo custo dos FPGAs tem ca´ıdo gradualmente, além do fato que os FPGAs possuem mais que o necessário para a implementa¸cão de fun¸cões de controle, estes dispositivos estão se tornando cada vez mais interessantes para a implementa¸cão de aplica¸cões em controle.

Comunica¸cão em camada f´ısica: A utiliza¸cão de FPGAs na comunica¸cão entre ca-mada f´ısica e protocólos de caca-madas de mais alto n´ıvel já é tradicional. O que chama a aten¸cão é que com o avan¸co dos FPGAs, hoje em dia um dispositivo pode conter multiplos transceivers de alta velocidade. Isso quer dizer que as fun¸cões de rede e comunica¸cões podem ser concentradas em um único chip.

(45)

3.2 Funcionamento interno 41

Figura 3.1: Arquitetura interna de um CPLD: pinos de entrada e sa´ıda interligados aos dispositivos GAL através de uma switch matrix que realiza também a interliga¸cão dos dispositivos entre s´ı

já se encontram inclu´ıdos, o surgimento desses dispositivos criou um novo mercado, a computa¸cão reconfigurável. Esse novo mercado refere-se ao aproveitamento do paralelismo inerente e capacidade de reconfigura¸cão dos FPGAs.

3.2 Funcionamento interno

O funcionamento interno de um FPGA difere em muitos aspectos dos CPLDs. Nos CPLDs, as fun¸cões lógicas são implementadas através da união de vários disposi-tivos GAL, que são constitu´ıdos de interconexões programáveis e portas lógicas AND seguidas de uma porta lógica OR. Além disso, é utilizada uma matriz de interconexões programáveis, chamada de switch matrix para customizar a interliga¸cão dos dispositivos GAL entre s´ı e com os pinos de entrada e sa´ıda. Na figura 3.1, temos a ilustra¸cão da arquitetura interna de um CPLD descrita de forma simplificada.

(46)

Figura 3.2: Arquitetura interna de um FPGA: blocos lógicos configuráveis (CLBs) for-mados por lookup tables, flip-flops e multiplexadores são interligados através de diversas switch matrixes

tables resulta nos Blocos Lógicos Configuráveis (CLBs) que fazem parte da arquitetura interna dos FPGAs. Para que fun¸cões lógicas complexas e de grande porte possam ser implementadas, os CLBs são interligados através de diversas interconexões programáveis (Switch Matrix). Na figura 3.2, temos a ilustra¸cão da arquitetura interna de um FPGA.

Outra diferen¸ca fundamental entre FPGAs e CPLDs está na tecnologia de armazenamento das interconexões. Enquanto os CPLDs são não-voláteis (utilizam EE-PROM e Flash), a maioria dos FPGAs utilizam SRAM, e portanto, são voláteis. A vantagem de usar SRAM é a economia de espa¸co, mas como os FPGAs possuem uma grande quantidade de interconexões, é necessária a utiliza¸cão de uma ROM externa. Em-bora a maioria dos FPGAs sejam voláteis também existem os não-voláteis, que apesar de não serem tão comuns, podem ser interessantes em aplica¸cões onde a reprograma¸cão não seja necessária.

3.2.1 Blocos l´

ogicos configur´

aveis

(47)

Figura 3.3: Implementa¸cão de uma fun¸cão lógica combinacional de 3 bits em umaLookup

Table com oito posi¸cões de memória: fun¸cão lógica (esquerda), tabela da verdade (centro) e mapeamento em lookup table (direita)

As lookup tables são blocos constitu´ıdos por células de memória que são utili-zados para implementar qualquer fun¸cão lógica combinacional. Isso é poss´ıvel através do mapeamento dos resultados poss´ıveis de uma fun¸cão lógica combinacional em cada célula de memória em uma determinada posi¸cao. Na figura 3.3 temos a implementa¸cão de uma simples fun¸cão lógica combinacional de 3 bits em uma lookup table com 8 posi¸cões de memória. O número de posi¸cões de memória necessárias para a implementa¸cão de uma fun¸cão lógica combinacional é obtido através do seguinte cálculo: 2n_{, onde} _n _{é o n´}_umero de bits de entrada da fun¸cão lógica. As posi¸cões de memória nas quais são mapeados os re-sultados de uma fun¸cão lógica são geralmente dadas pelo valor em decimal da combina¸cão de bits de entrada que geram aquele resultado.

No caso de fun¸cões lógicas combinacionais de até 3 bits as lookup tables fun-cionam muito bem. A desvantagem dessa abordagem aparece quando o número de bits de entrada cresce, já que o número de posi¸cões de memória necessários para armazenar os resultados da fun¸cão lógica cresce em uma escala exponencial em rela¸cão ao núnero de bits de entrada. Para verificar essa desvantagem, basta utilizarmos o cálculo das posi¸cões de memória descrito acima. Dessa forma, podemos perceber que para implementar uma fun¸cão lógica de 8 entradas (relativamente simples) utilizando uma abordagem de lookup tables, seria necessário um total de 256 posi¸cões de memória. Para a implementa¸cão de uma fun¸cão lógica com 16 bits de entrada, seriam necessárias 65.536 posi¸cões de memória.

(48)

Figura 3.4: Implementa¸cão de uma fun¸cão lógica combinacional de 5 bits de entrada utilizando duas lookup tables de 8 posi¸cões de memória cada

Figura 3.5: Dois CLBs (lookup tables, flip-flops e multiplexadores) interconectados por uma switch matrix(implementada atrav´es de multiplexadores)

facilitar a visualiza¸cão, o circuito foi dividido em duas partes, onde a primeira representa o circuito que resulta no bit x e a segunda representa o circuito que resulta no bit w. Em FPGAs recentes a concatena¸cão de lookup tables é realizada através de interconexões programáveis, ou seja, uma ou mais switch matrixes, assim como a interconexão de CLBs com o objetivo de alcan¸car o máximo em capacidade de reprograma¸cão.

As lookup tables somente implementam lógica combinacional. Portanto nas sa´ıdas de cada bloco de memória existem flip-flops, que são responsáveis por implementar fun¸cões lógicas sequenciais. A sele¸cão entre as sa´ıdas dos flip-flops ou diretamente das lookup tables é feita através de multiplexadores.