Centroides no Modelos das Distribui¸c˜oes Normais Multivariadas

critérios de linkage mais utilizados são os critérios da distância: m´ınima, máxima e média dados, respectivamente, por

Dmin(A, B) = min{d(a, b); a ∈ A, ∈ B},

Dmax(A, B) = max{d(a, b); a ∈ A, ∈ B},

Dav(A, B) =

|A||B|{d(a, b); a ∈ A, ∈ B},

(3.2)

em que d ´e uma distˆancia entre os objetos dos conjuntos.

Diferentes algoritmos de agrupamento hierárquico podem ser obtidos a depender da distância d escolhida. Além disso, é preciso também determinar um ponto que rep- resente cada conjunto (centroide). Na Se¸cão 3.3.2 definimos dois algoritmos hierárquicos para simplificar misturas Gaussianas com matrizes de covariância diagonais utilizando a distância de Fisher-Rao.

Na próxima se¸cão vamos mostrar dois modos de definir centroide no modelo _M das distribui¸cões normais multivariadas.

3.2 Centroides no Modelos das Distribui¸c˜oes Nor-

mais Multivariadas

O cálculo do centroide na variedadeM é um problema ainda em aberto, até mesmo porque não se tem uma fórmula fechada para a distância no caso geral. Abaixo vamos apresentar alguns centroides definidos na variedade_{M: os primeiros utilizam a divergência} de Bregman e o último utiliza a distância de Fisher-Rao na subvariedade _MD.

3.2.1 Centroides de Bregman

Dado um conjunto _{C com os m parâmetros de uma mistura Gaussiana de dis-} tribui¸cões exponencial (parametrizada com seus parâmetros naturais),

C = {{α1, ϑ1}, {α2, ϑ2}, . . . , {αn, ϑn}},

o centroide de Bregman é um ponto que minimiza a média da divergência e Bragman. Como a divergência de Bregman não é simétrica, consideramos três tipos de centroides: o centroide de Bregman à direita ¯ϑD, o centroide de Bregman à esquerda ¯ϑE e o centroide

de Bregman simetrizado ¯ϑS, que satisfazem, respectivamente, as seguintes equa¸c˜oes [45]

¯ ϑD = argmin ϑ 1 P iαi X i αiDF(ϑikϑ), (3.3)

¯ ϑE = argmin ϑ 1 P iαi X i αiDF(ϑkϑi), (3.4) ¯ ϑS = argmin ϑ 1 P iαi X i αiSDF(ϑkϑi),

onde SDF ´e a divergˆencia de Bregman simetrizada dada por

SDF(ϑ, ϑi) =

DF(ϑikϑ) + DF(ϑkϑi)

2 .

Observemos que devido a rela¸cão entre a divergência de Bregman e a divergência de Kullback-Leibler (1.14), podemos considerar DF(ϑikϑ) = DKL(p(x; θ)kp(x; θi))..

A minimiza¸cão das equa¸cões (3.3) e (3.4) fornece uma fórmula fechada para os centroides direito e esquerdo, respectivamente, dados por

¯ ϑD = P iαiϑi P iαi (3.5) ¯ ϑE =∇F∗ P iαi∇F (ϑi) P iαi , (3.6)

em que _∇F∗ _{é o gradiente do dual de Legendre da fun¸cão de log-normalizer F [45]. Não}

existe uma fórmula fechada para o centroide simétrico mas ele pode ser estimado através do algoritmo geodesic walk dado em [45].

Observemos que, como a divergência de Kullback-Leibler é uma aproxima¸cão de segunda ordem da distância do quadrado da distância de Fisher-Rao, ver a Proposi¸cão 1.24 e o Corolário 1.25,os centroides de Bregman podem ser utilizados como uma aproxima¸cão para um centroide que minimize o quadrado da distância de Fisher-Rao.

Algoritmos de agrupamento de distribui¸cões normais multivariadas usando a dis- tância de Fisher-Rao são poucos utilizados dado que não se tem uma fórmula fechada para a distância. Entretanto, Schwander e Nielsen [52] propuseram o algoritmo k-médias para simplificar misturas gaussianas univariadas usando a distância de Fisher-Rao dada em (1.11). Eles obtiveram bons resultados em compara¸cão com o algoritmo k-média baseado na divergência de Kullback-Leibler. Para fazer as itera¸cões do k-médias eles definiram centroides no espa¸co paramétrico das distribui¸cões normais univariadasMH usando o cen-

troide dado por Galperin [27] para espa¸cos de curvatura constante (Euclidiano, hiperb´olico ou esf´erico).

3.2.2 Centroide de Galperin

Seja H2_{o plano superior de Poincar´e. Galperin [27] definiu um centroide no espa¸co}

hiperb´olico utilizando o modelo de Minkowski, o qual ´e dado pela folha superior do hiperboloide z2 _{= 1+x}2_+y2_{. Para levar um conjunto de pontos de H}2 _{no modelo de Minkowiski}

3.2. Centroides no Modelos das Distribui¸cões Normais Multivariadas 89 e calcular o centroide, Schwander e Nielsen [52] utilizaram diversos modelos do espa¸co hiperbólico (disco de Poincaré, disco de Klein, modelo de Minkowski ) e suas rela¸cões.

Seja (a, b) um ponto de H2_{, fazendo z = a + bi, sua representa¸c˜ao no disco de}

Poincar´e ´e

z0 = z− 1 z + 1.

Reciprocamente, dado z0 _{no disco de Poincaré, sua representa¸cão no plano hiperbólico é}

(Re(z), Im(z)), onde

z = (z

0_{+ 1)i}

1_{− z}0 .

Agora, dado um ponto z0 _{no disco de Poincar´e e um ponto p no disco de Klein, a rela¸c˜ao}

entre eles ´e dada por

z0 = 1−p1 − hp, pi hp, pi p e p = 2 1 +_hz0_{, z}0_iz 0 .

Por fim, dado p = (xp, yp) no disco de Klein, seu mergulho no modelo de Minkowski ´e

dada por p0 _{com coordenadas:}

¯ xp0 = xp 1_{− x}2 p− yp2 , y¯p0 = yp 1_{− x}2 p− yp2 e z¯p0 = zp 1_{− x}2 p− yp2 . E, dado p0 _{= (¯}_x p0, ¯y_p0, ¯z_p0) no modelo de Minkowski, p= ¯xp0 ¯ zp0, ¯ yp0 ¯ zp0

´e a sua representa¸c˜ao no disco de Klein. Sejam p0

i’s pontos no modelo de Minkowski com pesos associados wi’s, i = 1, . . . , n.

O centro de massa do conjunto_{C = {(w}1, p01), . . . , (wn, p0n)} ´e dado por

c00 =

i=1

wip0i.

Para que esse ponto perten¸ca ao modelo de Minkowski, Galperin normaliza o ponto por meio da interse¸c˜ao do vetor Oc00 _{e do hiperboloide z}2 _{= 1 + x}2_{+ y}2_{, ver Figura 3.1. Logo,}

o centroide no modelo de Minkowski ´e dado por

c0 = c 00 −x2 c00 − y_c200+ z_c200 , em que c00= (xc00, y_c00, z_c00).

Portanto, munidos das rela¸c˜oes acima e do centroide definido por Galperin no modelo de Minkowski, temos uma f´ormula fechada de um centroide para um conjunto de

Figura 3.1: Determina¸c˜ao do centroide c entre os pontos (w1, p1) e (w2, p2) (Figura reti-

rada de [52]).

pontos em H2_.

Para calcular o centroide de Galperin c de um conjunto de pontos C = {(wj, θj)},

θj = (µj, σj), no modelo composto por distribui¸c˜oes normais univariadas, MH, basta

utilizar a rela¸c˜ao entre _M_H e H2

F dada em (1.10).

Como temos uma f´ormula fechada para a distˆancia na subvariedade MD, em [57]

propomos um centroide nesse espa¸co. Foi visto na se¸cão 2.1.3 que a distância nessa subvariedade é dada pela métrica produto no espa¸co MH. Dado um conjunto de pontos

C = {(wi, θi)}mi=1, θi = (µ1i, σ1i, . . . , µni, σni) ⊂ MD, i = 1, . . . , m, definimos o centroide

de_{C como}

c= (c1, . . . , cn/2), (3.7)

onde cj, j = 1, . . . , n/2, ´e o centroide do conjunto Cj = {(wji, θji)}mi=1, θji = (µji, σji)∈

MH.

A Figura 3.2 ilustra uma compara¸cão entre os centroides apresentados nesta se¸cão. Consideramos quatro distribui¸cões normais univariadas com desvio padrão σ = √6 e médias dadas, respectivamente, por µ1 = 10, µ2 = 10, µ3 = 30, µ4 = 40. Calculamos os

centroides de Bregman ¯ϑD = (µ = 25, σ =

√

6), ¯ϑE = (µ = 25, σ =

√

131) e ¯ϑS = (µ =

25, σ = √28) e o centroide dado por Galperin cG = (µ = 25, σ = 8.27647). Al´em disso,

calculamos também, através de algoritmos numéricos, o centroide cN = (µ = 25, σ =

7.845) dado por cN = argmin c 4 X i=1 dF(c, (µi, σ))2,

ou seja, o centroide que minimiza o quadrado da distância de Fisher-Rao. Como o desvio padrão foi o mesmo para todas as distribui¸cões, todos os centroides obtiveram o mesmo

3.3. Algoritmos de Simplifica¸c˜ao de Misturas Gaussianas 91

No documento Geometria do modelo estatístico das distribuições normais multivariadas (páginas 87-91)