• Nenhum resultado encontrado

O contraste ortogonal de mínima entropia marginal é definido como

φoMME[y] = N X i=1 H[yi] = N X i=1 E[log fyi(yi)], (7.22)

em que H denota a entropia diferencial conforme a Definição 2.9 e yi é o i-ésimo elemento

do vetor aleatório de fontes estimadasy. C

A mesma interpretação dada ao contraste ortogonal de máxima negentropia pode ser adaptada ao contraste ortogonal de mínima entropia marginal. Isso porque, dado um conjunto de variáveis de mesma variância, as com distribuição gaussiana são as únicas que possuem máxima entropia diferencial, conforme a Proposição 2.2-(iii). Sendo assim, a maximização da não gaussianidade via minimização de φo

MN[y] é equivalente à minimização da entropia diferencial via minimização de φo

MME[y] (CARDOSO, 1999).

A seguir, apresenta-se um resumo sobre os contrastes entrópicos abordados ao longo dessa seção.

7.2. Contrastes entrópicos 169

7.2.5 Relações entre os contrastes entrópicos

Na Figura 25, é mostrado um diagrama de blocos em que são resumidas as principais expressões obtidas, ao longo dessa seção, dos contrastes entrópicos baseados em indepen- dência. No diagrama,y denota o vetor aleatório de fontes estimadas cujo i-ésimo elemento

é dado por yi; ˘s denota o vetor aleatório de fontes hipotéticas, com função densidade de

probabilidade f˘s e i-ésimo elemento ˘si; e g denota uma função não linear vetorial tomada

elemento a elemento.

Máxima verossimilhança: φML[y] = K[yk˘s]

Infomax: φIM[y] = − H[g(y)]

Princípio: imposição de independência e “casamento” de distribuição

Máxima informação mútua: φMI[y] = I[y]

Princípio: imposição de independência

Máxima negentropia: φoMN[y] = − N X i=1

J[yi]

Mínima entropia marginal: φo MME[y] =

N X i=1

H[yi] Princípio: maximização de não gaussianidade

min f˘s φML[y] = min f˘s I[y] +XN i=1 K[yiksi] !

φMI[y] = I[yG] + J[y] −

N X i=1

J[yi], com E[y] = 0 e E[yyT] = I

N

Figura 25 – Relações entre contrastes entrópicos baseados em independência e suas expressões; H, K, I e J denotam, respectivamente, a entropia diferencial, a divergência K-L, a informação mútua e a negentropia, cujas definições são apresentadas na Seção 2.2.

Fonte: autoria própria.

Como considerações importantes sobre os contrastes entrópicos para separação por imposição de independência, ressalta-se que:

 Pode-se afirmar que o contraste fundamental no contexto de separação cega de fontes por imposição de independência é o de máxima informação mútua, i.e., φMI[y]. Esse

contraste resume o objetivo de separação vislumbrado por P. Comon a partir do teorema de Darmois–Skitovich, o qual é abordado no Capítulo 5 (COMON, 1994). No entanto, estimar o gradiente desse contraste pode ser custoso computacional- mente. Em alguns casos, pode ser mais interessante o uso do contraste de máxima verossimilhança φML[y] — cuja estimativa do gradiente é menos custosa —, mesmo que seja necessário supor uma distribuição hipotética para as fontes (CARDOSO, 1998).

 Na prática, a resolução do problema de separação cega de fontes a partir do princípio de máxima verossimilhança via φML[y] (ou, equivalentemente, a partir do princípio

infomax via φIM[y]) permite a consideração de informações adicionais sobre a dis-

tribuição das fontes. Essas informações a priori podem ser englobadas no modelo hipotético de f˘s (ou, equivalentemente, nas não linearidades g). Quando o conheci-

mento sobre a distribuição das fontes é muito vago, devido à possibilidade de não convergência do estimador de máxima verossimilhança para um ponto de separação, recomenda-se utilizar o contraste de máxima informação mútua φMI[y] ou contrastes

de máxima negentropia φMN[y] ou mínima entropia marginal φMME[y] (HYVÄRINEN;

KARHUNEN; OJA, 2001).

 Os contrastes não ortogonais podem ser aplicados mesmo sob restrições de média nula e branqueamento. Nesse caso, o contraste de informação mútua pode ser convenientemente simplificado, resultando nos contrastes de máxima negentropia e de mínima entropia marginal (CARDOSO, 1998).

 Os contrastes de máxima negentropia e mínima entropia marginal por serem ortogo- nais, realizam a busca sobre um espaço mais restrito de coeficientes W em relaçãog

aos contrastes não ortogonais. Além disso, ambos os contrastes permitem a estimação das fontes individualmente, já que são baseados em uma soma “medidas” de não gaussianidade individuais de cada fonte estimada.

 O desempenho de uma técnica de separação depende tanto da escolha do contraste quanto do método de otimização utilizado. A escolha do contraste tem efeitos sobre as propriedades estatísticas da técnica de separação, como a consistência dos estimadores, robustez dos estimadores a outliers, etc. Já a escolha do método de otimização possui efeitos sobre a velocidade de convergência da técnica, seu custo computacional e estabilidade numérica (HYVÄRINEN; KARHUNEN; OJA, 2001). Os contrastes obtidos até aqui são entrópicos — i.e., dependem explicitamente da distribuição de probabilidade do vetor aleatório de fontes estimadas y. Isso pode ser uma

desvantagem prática, pois exceto para o contraste de máxima verossimilhança, seria preciso estimar de alguma forma a distribuição de y para realizar a separação cega de fontes

— o que pode ser relativamente complicado e pouco eficiente na prática (CARDOSO, 1999). Uma alternativa ao uso de contrastes entrópicos na obtenção de métodos de separação consiste em aproximá-los lançando-se mão de expansões de funções densidade de probabilidade baseadas em estatísticas de ordem superior (CARDOSO, 1999) ou de funções não lineares (HYVÄRINEN; OJA, 2000), por exemplo. Trata-se de maneiras implícitas, e por vezes eficientes, de estimar a distribuição da saíday do sistema separador (CARDOSO,

7.3. Contrastes aproximados 171

7.3 Contrastes aproximados

Inicialmente, na Subseção 7.3.1 introduz-se uma ferramenta importante para aproximar contrastes com base em estatísticas de ordem superior. Na Subseção 7.3.2, apresentam-se algumas das aproximações de contrastes decorrentes do uso dessa ferramenta, e que se baseiam em estatísticas de ordem superior.

7.3.1 Expansão de Edgeworth

Em geral, na prática não se conhece com exatidão distribuição de probabilidade da saída do sistema separador y. Na obtenção de métodos para a otimização de contrastes, torna-se

necessário estimá-la (CARDOSO, 1999). A expansão de densidades de probabilidade em uma soma infinita é um assunto que chamou a atenção dos estatísticos desde o século XIX, como P. Chebyshev e C. Charlier, por exemplo (MCCULLAGH, 2018).

Cumulantes permitem descrever, tanto qualitativamente quanto quantitativamente, aspectos do formato de uma densidade de probabilidade — como sua assimetria em relação à média ou o decaimento assintótico de suas caudas. Portanto, intuitivamente é razoável pensar que a função densidade de probabilidade de uma variável aleatória possa ser decomposta em uma soma infinita de termos que dependam de seus cumulantes4.

Entre os vários tipos de expansões para funções densidade de probabilidade existentes, merecem atenção especial na obtenção de aproximações de contrastes a expansão de Gram–Charlier e expansão de Edgeworth (EDGEWORTH, 1905; FELLER, 1968–1971; KENDALL, 1945). Trata-se de expansões que envolvem uma aproximação inicial da função densidade de probabilidade que se deseja expandir, multiplicada por uma soma de termos cujos coeficientes são simples combinações dos cumulantes do vetor aleatório associado (MCCULLAGH, 2018; CAVALCANTE, 2004). Em ambos os tipos de expansão, a aproximação inicial usualmente utilizada é de uma densidade gaussiana, com média e matriz de covariância preestabelecidas — embora outras aproximações iniciais também possam ser consideradas (EDGEWORTH, 1905; KENDALL, 1945).

Inicialmente, apresenta-se a expansão de Gram–Charlier para o caso de uma densidade correspondente a apenas uma variável aleatória considerada, por simplicidade, de média nula (MCCULLAGH, 2018).

Definição 7.9. Seja a uma variável aleatória de média nula com função densidade de