• Nenhum resultado encontrado

O princípio de máxima verossimilhança aplicado ao modelo mostrado

na Figura 23-(b), para T → +∞ observações, equivale à minimização da função φML[y] = K[yk˘s] = E " log fy(y) f˘s(y) !# (7.11)

em que K denota a divergência K-L segundo a Definição 2.10, y é o vetor aleatório de fontes estimadas e ˘s é o vetor aleatório de fontes hipotéticas, cujas funções densidade de

7.2. Contrastes entrópicos 159

probabilidade são denotadas por fy e f˘s, respectivamente. A minimização é feita variando- se tanto a matriz de mistura hipotética ˘H, tal que y = W x com W = ˘H−1, quanto a

função densidade de probabilidade hipotética f˘s.

Demonstração. Veja a Seção A.4 do Apêndice A.

Uma dificuldade prática em relação à função apresentada em (7.11) é que a sua minimização deve ser feita variando-se tanto um parâmetro matricial ˘H quanto uma

grandeza paramétrica de dimensão infinita f˘s — a qual depende, em geral, de uma

quantidade infinita de parâmetros (HYVÄRINEN; KARHUNEN; OJA, 2001). No contexto de separação, a densidade f˘s é geralmente considerada um parâmetro de incômodo (do

inglês nuisance) de dimensão infinita — i.e., não se está interessado propriamente em sua estimação, mas apenas em estimar ˘H que propicie a separação. Mesmo assim, em problemas

gerais de inferência estatística, os parâmetros de incômodo devem ser estimados a fim de estimar os parâmetros de interesse de maneira consistente (CARDOSO, 2000). Entretanto, no caso específico de separação, é possível mostrar que a estimação não paramétrica de

fs pode ser evitada. Isso pode ser feito assumindo-se uma densidade hipotética fixa das

fontes independentes (a partir de algum conhecimento a priori incluído no modelo ou de um “chute inicial”), ou então parametrizando-se uma família de densidades hipotéticas com base em um conjunto limitado de parâmetros (HYVÄRINEN; KARHUNEN; OJA, 2001).

Por simplicidade, considera-se que a minimização da função φML[y] é feita variando-se

apenas a matriz hipotética de mistura ˘H e mantendo-se fixa a função densidade de

probabilidade hipotética f˘s das fontes independentes — como é usual em separação cega

de fontes (CARDOSO, 1998; HYVÄRINEN; KARHUNEN; OJA, 2001). Assim, a partir de (7.11), obtém-se uma outra interpretação para o princípio de máxima verossimilhança aplicado à separação cega de fontes: encontrar ˘H tal que a distribuição do vetor aleatório y = ˘H−1x seja o mais “próxima” possível, no sentido da minimização da divergência K-L, da distribuição das fontes hipotéticas ˘s (CARDOSO, 1998).

Resta saber se esse procedimento garante sempre a separação adequada das fontes sob as condições do Teorema 5.4 de separabilidade apresentado no Capítulo 5. Inicialmente, de acordo com a Proposição 2.3-(i), recorda-se que a divergência K-L é não negativa, de modo que

φML[y] = K[yk˘s] ≥ 0.

De acordo com a Proposição 2.3-(ii), tem-se que a igualdade é satisfeita se, e somente se, a distribuição de y for igual à distribuição de ˘s, exceto eventualmente em um conjunto de

pontos com medida nula. Consideram-se os casos de distribuições de fontes elencados a seguir:

 f˘s = fs: No caso em que a função densidade de probabilidade hipotética das fontes é

igual à do modelo exato, tem-se que

φML[y] = K[yks]

de modo que quando o mínimo de φML[y] é atingido, i.e., φML[y] = 0, tem-se que as

distribuições de y e de s se igualam. Portanto, a independência é recuperada à saída

do sistema separador e as fontes são adequadamente separadas sob as condições do Teorema 5.4. As fontes são separadas em uma ordem particular e com fatores de escala específicos dados por f˘s. Nesse caso, φML[y] poderia ser denominado um contraste

generalizado, para o qual não valem as condições de invariância à permutação e à mudança de escala da Definição 7.2.

 f˘s 6= fs: Nesse caso, a função φML[y] não deve possuir mínimo valendo zero, pois isso

implicaria uma contradição de acordo com o Teorema 5.4: a recuperação das fontes independentes satisfazendo o modelo de distribuição hipotética no lugar do modelo exato. Nesse caso, φML[y] deve possuir mínimos em que a distribuição de y mais se aproxime da distribuição de ˘s, mas sem haver a igualdade das distribuições. No

caso considerado, pode-se mostrar que quando φML[y] atinge um mínimo não nulo

para alguma matriz ˘H, esse ponto extremo pode ou não corresponder à recuperação

de uma cópia do vetor de fontes via y = ˘H−1x. Isso depende, essencialmente, da distribuição hipotética fixa adotada para as fontes no modelo (CARDOSO, 1998; CARDOSO, 2000).

Nos trabalhos de Cardoso (1998), Cardoso (2000), Hyvärinen, Karhunen e Oja (2001), são apresentadas condições quantitativas sobre a função densidade de probabilidade hi- potética f˘s adotada para as fontes de modo que os mínimos de φML[y], na vizinhança

dos pontos de separação, correspondam à recuperação de cópias das fontes. Resumida- mente, ressaltam-se as seguintes observações qualitativas sobre essas condições, que estão demonstradas nos trabalhos de Cardoso (2000), Hyvärinen, Karhunen e Oja (2001):

 Pequenos erros de especificação na densidade hipotética f˘s em relação à densidade

verdadeira fs podem ser tolerados. Isso significa que não é preciso ter um modelo hipotético muito preciso (ou igual ao modelo exato) para a distribuição das fontes de modo que a minimização de φML[y] variando-se ˘H, na proximidade dos pontos de

separação, resulte na recuperação de uma cópia adequada. Em geral, a recuperação das fontes em uma ordem particular, mas com eventuais mudanças de escala, cor- responde a pontos estacionários de φML[y] (CARDOSO, 2000). Garante-se, ainda,

que esses pontos são mínimos locais se for feita a escolha de um modelo tal que cada densidade hipotética f˘si possua decaimento assintótico (i.e., decaimento de

7.2. Contrastes entrópicos 161

2000). Mais precisamente, consideram-se dois tipos de decaimento assintótico de uma função densidade de probabilidade: mais rápidos ou mais lentos do que o decaimento de uma gaussiana3. Como regra geral, f

˘

si e fsi devem estar do “mesmo lado da

gaussiana” (CARDOSO, 2000), i.e., deve-se adotar um modelo cuja densidade possua decaimento assintótico, em relação à gaussiana, do mesmo tipo que a densidade verdadeira. Se essa condição for satisfeita, φML pode ser compreendido, localmente, como um contraste não simétrico.

 A consideração de f˘s com fontes hipotéticas conjuntamente gaussianas não é suficiente

para permitir a recuperação adequada de cópias das fontes. Pode-se mostrar que, nesse caso, φML[y] possui mínimos locais para fontes estimadas não correlacionadas.

Sabe-se, a partir das condições de separabilidade estabelecidas no Capítulo 5, que a não correlação imposta à saída do sistema separador não implica a separação de fontes independentes. Logo, o modelo hipotético de distribuição não deve ser gaussiano (CARDOSO, 1998).

 Se as fontes verdadeiras com densidade de probabilidade fs forem conjuntamente

gaussianas, pode-se demonstrar que a consideração de qualquer densidade hipo- tética f˘s não é suficiente para que se tenha separação adequada nos mínimos de φML[y] (CARDOSO, 1998). Isso também está em acordo com o Teorema 5.4, que

estabelece que não se garante a separação cega de fontes iid e mutuamente indepen- dentes no espaço a partir da imposição de independência, quando essas fontes são conjuntamente gaussianas.

Na prática, se as distribuições verdadeiras das fontes não forem conhecidas, costumam- se escolher densidades f˘si, para i = 1, 2, . . . , N , que sejam o mais próximas possível das

densidades verdadeiras das fontes (na medida do conhecimento a priori disponível). Além disso, também é importante escolher densidades que possam ser tratadas matematicamente de forma conveniente para a posterior obtenção de soluções (e.g., densidades relacionadas a distribuições tangente hiperbólica ou sigmoidais) (HYVÄRINEN; KARHUNEN; OJA, 2001). Quando não há qualquer conhecimento prévio disponível sobre a distribuição conjunta das fontes, um contraste baseado somente em independência estatística pode ser mais adequado (CARDOSO, 1999).

Finalmente, a representação do contraste de verossimilhança conforme (7.11) facilita o estabelecimento de relações entre contrastes aparentemente distintos. Nesse sentido, apresenta-se a seguir uma função contraste desenvolvida de forma independente em relação ao contraste de máxima verossimilhança, mas com o qual possui muitas semelhanças.

3 Na literatura, essas distribuições são denominadas subgaussianas ou supergaussianas, respectivamente.

No caso univariado, um exemplo de distribuição subgaussiana é a uniforme; já um exemplo de distribuição supergaussiana é a laplaciana (HYVÄRINEN; KARHUNEN; OJA, 2001). Em alguns casos específicos, cumulantes de ordem quatro podem ser utilizados para identificar e inferir o tipo de uma distribuição. Uma discussão mais aprofundada pode ser encontrada em Mansour e Jutten (1999).

7.2.2 Maximização de entropia diferencial (infomax)

O princípio de separação conhecido como infomax, originário da área de redes neu- rais, o utiliza uma não linearidade aplicada à saída do sistema separador para separar fontes (BELL; SEJNOWSKI, 1995; CARDOSO, 1999). Na Figura 24, é mostrada a confi- guração padrão para descrever o princípio infomax. A não linearidade aplicada à saída consiste em uma função vetorial particular fixa g : RN → (0, 1)N, tomada elemento a

elemento e dada por

g(y) = [ g1(y1) g2(y2) · · · gN(yN) ]

T

, (7.12)

em que g1, g2, . . . , gN são funções não lineares aplicadas, respectivamente, às saídas do

sistema separador y1, y2, . . . , yN que compõem o vetor aleatório y = W x.

Misturas: x fx(x) g(y) Fontes estimadas: y Fontes independentes: s fs(s) Sistema misturador H Sistema separador W Sistema não linear g(·) N N N N

Figura 24 – Esquema simplificado da aplicação de uma não linearidade à saída do sistema separador para a descrição do critério infomax.

Fonte: autoria própria.

O objetivo do princípio infomax consiste em, variando-se a matriz de separação W ,

minimizar-se a função (BELL; SEJNOWSKI, 1995; CARDOSO, 1997)

φIM[y] =− H[g(y)] = − E[log fg(y)(g(y))], (7.13)

em que H denota a entropia diferencial segundo a Definição 2.9. As não linearidades emg

devem ser escolhidas de modo que g1, g2, . . . , gN :R → (0, 1) sejam funções estritamente

crescentes. Se sob essas condições e para i = 1, 2, . . . , N as funções gi forem absolutamente contínuas (BREIMAN, 1992), então podem-se interpretá-las como funções distribuição de probabilidade dadas por

gi(yi) =

Z yi

−∞

qi(a) da

em que as respectivas funções densidade de probabilidade qi :R → R+ são definidas como

qi(yi) =

dgi(yi) dyi

.

A escolha da não linearidade g possui um papel importante no desempenho da separação

a partir da minimização de φIM[y]. A fim de compreender melhor a influência das não linearidades nos pontos de mínimo, considera-se a seguinte proposição.

7.2. Contrastes entrópicos 163

Proposição 7.2. Sejam r1, r2, . . . , rN variáveis aleatórias mutuamente independentes