2.4 Sum´ario
3.1.4 Maximiza¸c˜ao da n˜ao-gaussianidade
Outra estrat´egia efetiva na separa¸c˜ao de fontes consiste em adaptar a matriz de se- para¸c˜ao de forma a maximizar a n˜ao-gaussianidade dos sinais estimados. Embora n˜ao seja evidente, o princ´ıpio leva `a estima¸c˜ao de sinais independentes entre si, mostrando- se um m´etodo apropriado para a ICA.
A abordagem pode ser compreendida atrav´es do teorema central do limite [109], um resultado cl´assico da teoria de probabilidade. Segundo o teorema, a fun¸c˜ao densidade de probabilidade da soma de vari´aveis aleat´orias independentes, sob certas condi¸c˜oes, tende `a de uma vari´avel gaussiana [37]. Portanto, de certa forma, a pdf da soma de duas vari´aveis aleat´orias independentes est´a mais “pr´oxima” de uma distribui¸c˜ao gaussiana do que qualquer uma das vari´aveis originais [66] (vide figura 3.1).
Mistura Instantânea -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Figura 3.1: Exemplo de mistura de duas fontes independentes, uma com distri- bui¸c˜ao uniforme, e outra com distribui¸c˜ao laplaciana. Nota-se que as observa¸c˜oes possuem perfil mais pr´oximo ao de uma vari´avel aleat´oria gaussiana do que as vari´aveis originais.
Tomemos o modelo dado por (2.3), onde as observa¸c˜oes s˜ao o resultado de uma mistura linear instantˆanea. Digamos que estejamos interessados em recuperar apenas uma das fontes e, para isso, utilizaremos um vetor de separa¸c˜ao w1:
y1 = wT1x = qTs = N X i=1 qisi , (3.12) onde q = wT
1A representa o efeito conjunto da mistura e do sistema separador. Note
s. Assim, para que se tenha uma estimativa do sinal original, basta que q seja um vetor com apenas um elemento n˜ao nulo.
Como a estimativa y1 = qT1s ´e uma soma ponderada dos sinais das fontes, podemos
dizer que a sua distribui¸c˜ao ser´a mais pr´oxima `a de uma vari´avel gaussiana do que aquela de um dos sinais si. Portanto, pensando de forma inversa, y1 ser´a o menos
gaussiana poss´ıvel quando sua distribui¸c˜ao for igual `a de qualquer uma das fontes si, ou seja, quando q possuir apenas um elemento n˜ao nulo. Dessa forma, obter o
vetor w1 que maximize a n˜ao-gaussianidade de wT1x configura-se como uma poss´ıvel
estrat´egia para recupera¸c˜ao da fonte.
A forma cl´assica de se averiguar se uma vari´avel possui distribui¸c˜ao gaussiana ´e atrav´es de sua curtose [109], definida, de acordo com a nota¸c˜ao em (3.9), como:
K (x) = cum(x, x, x, x) = Ex4 − 3 E x2 2
. (3.13)
Para uma ampla gama de distribui¸c˜oes a curtose apresenta valores diferentes de zero, sendo a distribui¸c˜ao gaussiana uma das poucas exce¸c˜oes. De fato, ´e usual classificar as distribui¸c˜oes com rela¸c˜ao aos valores de suas curtoses: caso K (x) > 0, diz-se que x possui distribui¸c˜ao super-gaussiana; caso K (x) < 0 diz-se que x possui distribui¸c˜ao sub-gaussiana. Portanto, um crit´erio para se maximizar a n˜ao-gaussianidade do sinal estimado seria
max
w |K (yi)| , (3.14)
tendo como principal atrativo sua simplicidade. Sua estima¸c˜ao, a partir de um conjunto de dados, pode ser feita atrav´es de uma
Uma outra op¸c˜ao de medida de n˜ao-gaussianidade, mais robusta no que diz re- speito a outliers, ´e a Negentropia. Lembrando que uma vari´avel aleat´oria com distri- bui¸c˜ao gaussiana possui a maior entropia dentre as demais distribui¸c˜oes com mesma variˆancia [109], define-se a negentropia:
Defini¸c˜ao 3.1.5 (Negentropia). A negentropia de uma vari´avel aleat´oria (ou equivalentemente, um vetor de v.a.’s) corresponde a
JN egentropia(y) = H (ygauss) − H (y) , (3.15)
onde ygauss representa uma vari´avel aleat´oria com distribui¸c˜ao gaussiana e
Uma vez que a entropia de uma vari´avel aleat´oria ´e m´axima para a distribui¸c˜ao gaussiana, a negentropia sempre assumir´a valores maiores ou iguais a zero, ocorrendo a igualdade somente quando y possuir distribui¸c˜ao normal. Dessa forma a negentropia fornece uma id´eia da distˆancia entre a distribui¸c˜ao de y e a vari´avel gaussiana. O conceito pode ser estendido diretamente para um vetor y de vari´aveis aleat´orias, sendo JN egentropia(y) = H (ygauss) − H (y), onde ygauss representa um vetor aleat´orio
com distribui¸c˜ao gaussiana e matriz de covariˆancia igual `a de y.
Extra¸c˜ao cega de fontes
Diferentemente das estrat´egias anteriores, a abordagem de maximiza¸c˜ao da n˜ao- gaussianidade, por se basear em uma medida que depende somente de um dos sinais estimados, pode ser utilizada para estima¸c˜ao individual das componentes indepen- dentes. As t´ecnicas que se baseiam nesta id´eia s˜ao comumente associadas ao problema de Extra¸c˜ao Cega de Fontes [89, 39], muito semelhante ao problema de BSS.
No problema de extra¸c˜ao de fontes o objetivo n˜ao ´e obter todos os sinais das fontes, e sim conseguir extrair da mistura apenas os sinais de interesse, mas ainda considerando que estes s˜ao independentes dos demais sinais presentes na mistura. Se o n´umero de sinais extra´ıdos for igual ao n´umero total de fontes presentes veremos que os dois problemas s˜ao equivalentes.
O procedimento para extra¸c˜ao de mais de uma fonte pode ser efetuado utilizando-se pelo menos duas estrat´egias distintas, por´em ambas explorando a id´eia de que os vetores wi, obtidos a partir de dados branqueados, ser˜ao necessariamente ortogonais:
1. Estima¸c˜ao serial: Nesta abordagem as componentes s˜ao estimadas seq¨uen- cialmente. Inicia-se estimando, sem restri¸c˜ao, a primeira componente indepen- dente, e com isso obt´em-se um vetor w1 (que deve ter norma unit´aria). A partir
da segunda componente, a adapta¸c˜ao dos vetores wi deve ser feita sempre rea-
lizando um passo intermedi´ario de ortonormaliza¸c˜ao do vetor sendo ajustado em rela¸c˜ao aos demais j´a obtidos, o que pode ser feito com o m´etodo de Gram- Schmidt [57]. Esta abordagem tamb´em ´e conhecida como separa¸c˜ao de fontes por defla¸c˜ao (do inglˆes Deflation approach).
2. Estima¸c˜ao paralela: Neste caso um certo n´umero de fontes ser´a estimado ao mesmo tempo, adaptando-se paralelamente os vetore wi. No entanto, a cada
passo executado, ´e necess´ario garantir que as solu¸c˜oes encontradas s˜ao ortonor- mais entre si, o que tamb´em pode ser efetuado com o m´etodo de Gram-Schmidt.
No entanto, ´e poss´ıvel utilizar uma t´ecnica de ortogonaliza¸c˜ao sim´etrica [66], dada por
˜
W ← ˜W ˜WT1/2W,˜ (3.16) onde ˜W representa uma matriz composta pelos vetores wi.