• Nenhum resultado encontrado

Centroides no Modelos das Distribui¸c˜oes Normais Multivariadas

crit´erios de linkage mais utilizados s˜ao os crit´erios da distˆancia: m´ınima, m´axima e m´edia dados, respectivamente, por

Dmin(A, B) = min{d(a, b); a ∈ A, ∈ B},

Dmax(A, B) = max{d(a, b); a ∈ A, ∈ B},

Dav(A, B) =

1

|A||B|{d(a, b); a ∈ A, ∈ B},

(3.2)

em que d ´e uma distˆancia entre os objetos dos conjuntos.

Diferentes algoritmos de agrupamento hier´arquico podem ser obtidos a depender da distˆancia d escolhida. Al´em disso, ´e preciso tamb´em determinar um ponto que rep- resente cada conjunto (centroide). Na Se¸c˜ao 3.3.2 definimos dois algoritmos hier´arquicos para simplificar misturas Gaussianas com matrizes de covariˆancia diagonais utilizando a distˆancia de Fisher-Rao.

Na pr´oxima se¸c˜ao vamos mostrar dois modos de definir centroide no modelo M das distribui¸c˜oes normais multivariadas.

3.2

Centroides no Modelos das Distribui¸c˜oes Nor-

mais Multivariadas

O c´alculo do centroide na variedadeM ´e um problema ainda em aberto, at´e mesmo porque n˜ao se tem uma f´ormula fechada para a distˆancia no caso geral. Abaixo vamos apresentar alguns centroides definidos na variedadeM: os primeiros utilizam a divergˆencia de Bregman e o ´ultimo utiliza a distˆancia de Fisher-Rao na subvariedade MD.

3.2.1

Centroides de Bregman

Dado um conjunto C com os m parˆametros de uma mistura Gaussiana de dis- tribui¸c˜oes exponencial (parametrizada com seus parˆametros naturais),

C = {{α1, ϑ1}, {α2, ϑ2}, . . . , {αn, ϑn}},

o centroide de Bregman ´e um ponto que minimiza a m´edia da divergˆencia e Bragman. Como a divergˆencia de Bregman n˜ao ´e sim´etrica, consideramos trˆes tipos de centroides: o centroide de Bregman `a direita ¯ϑD, o centroide de Bregman `a esquerda ¯ϑE e o centroide

de Bregman simetrizado ¯ϑS, que satisfazem, respectivamente, as seguintes equa¸c˜oes [45]

¯ ϑD = argmin ϑ 1 P iαi X i αiDF(ϑikϑ), (3.3)

¯ ϑE = argmin ϑ 1 P iαi X i αiDF(ϑkϑi), (3.4) ¯ ϑS = argmin ϑ 1 P iαi X i αiSDF(ϑkϑi),

onde SDF ´e a divergˆencia de Bregman simetrizada dada por

SDF(ϑ, ϑi) =

DF(ϑikϑ) + DF(ϑkϑi)

2 .

Observemos que devido a rela¸c˜ao entre a divergˆencia de Bregman e a divergˆencia de Kullback-Leibler (1.14), podemos considerar DF(ϑikϑ) = DKL(p(x; θ)kp(x; θi))..

A minimiza¸c˜ao das equa¸c˜oes (3.3) e (3.4) fornece uma f´ormula fechada para os centroides direito e esquerdo, respectivamente, dados por

¯ ϑD = P iαiϑi P iαi (3.5) ¯ ϑE =∇F∗  P iαi∇F (ϑi) P iαi  , (3.6)

em que ∇F´e o gradiente do dual de Legendre da fun¸c˜ao de log-normalizer F [45]. N˜ao

existe uma f´ormula fechada para o centroide sim´etrico mas ele pode ser estimado atrav´es do algoritmo geodesic walk dado em [45].

Observemos que, como a divergˆencia de Kullback-Leibler ´e uma aproxima¸c˜ao de segunda ordem da distˆancia do quadrado da distˆancia de Fisher-Rao, ver a Proposi¸c˜ao 1.24 e o Corol´ario 1.25,os centroides de Bregman podem ser utilizados como uma aproxima¸c˜ao para um centroide que minimize o quadrado da distˆancia de Fisher-Rao.

Algoritmos de agrupamento de distribui¸c˜oes normais multivariadas usando a dis- tˆancia de Fisher-Rao s˜ao poucos utilizados dado que n˜ao se tem uma f´ormula fechada para a distˆancia. Entretanto, Schwander e Nielsen [52] propuseram o algoritmo k-m´edias para simplificar misturas gaussianas univariadas usando a distˆancia de Fisher-Rao dada em (1.11). Eles obtiveram bons resultados em compara¸c˜ao com o algoritmo k-m´edia baseado na divergˆencia de Kullback-Leibler. Para fazer as itera¸c˜oes do k-m´edias eles definiram centroides no espa¸co param´etrico das distribui¸c˜oes normais univariadasMH usando o cen-

troide dado por Galperin [27] para espa¸cos de curvatura constante (Euclidiano, hiperb´olico ou esf´erico).

3.2.2

Centroide de Galperin

Seja H2o plano superior de Poincar´e. Galperin [27] definiu um centroide no espa¸co

hiperb´olico utilizando o modelo de Minkowski, o qual ´e dado pela folha superior do hiper- boloide z2 = 1+x2+y2. Para levar um conjunto de pontos de H2 no modelo de Minkowiski

3.2. Centroides no Modelos das Distribui¸c˜oes Normais Multivariadas 89 e calcular o centroide, Schwander e Nielsen [52] utilizaram diversos modelos do espa¸co hiperb´olico (disco de Poincar´e, disco de Klein, modelo de Minkowski ) e suas rela¸c˜oes.

Seja (a, b) um ponto de H2, fazendo z = a + bi, sua representa¸c˜ao no disco de

Poincar´e ´e

z0 = z− 1 z + 1.

Reciprocamente, dado z0 no disco de Poincar´e, sua representa¸c˜ao no plano hiperb´olico ´e

(Re(z), Im(z)), onde

z = (z

0+ 1)i

1− z0 .

Agora, dado um ponto z0 no disco de Poincar´e e um ponto p no disco de Klein, a rela¸c˜ao

entre eles ´e dada por

z0 = 1−p1 − hp, pi hp, pi p e p = 2 1 +hz0, z0iz 0 .

Por fim, dado p = (xp, yp) no disco de Klein, seu mergulho no modelo de Minkowski ´e

dada por p0 com coordenadas:

¯ xp0 = xp 1− x2 p− yp2 , y¯p0 = yp 1− x2 p− yp2 e z¯p0 = zp 1− x2 p− yp2 . E, dado p0 = (¯x p0, ¯yp0, ¯zp0) no modelo de Minkowski, p= ¯xp0 ¯ zp0, ¯ yp0 ¯ zp0 

´e a sua representa¸c˜ao no disco de Klein. Sejam p0

i’s pontos no modelo de Minkowski com pesos associados wi’s, i = 1, . . . , n.

O centro de massa do conjuntoC = {(w1, p01), . . . , (wn, p0n)} ´e dado por

c00 =

n

X

i=1

wip0i.

Para que esse ponto perten¸ca ao modelo de Minkowski, Galperin normaliza o ponto por meio da interse¸c˜ao do vetor Oc00 e do hiperboloide z2 = 1 + x2+ y2, ver Figura 3.1. Logo,

o centroide no modelo de Minkowski ´e dado por

c0 = c 00 −x2 c00 − yc200+ zc200 , em que c00= (xc00, yc00, zc00).

Portanto, munidos das rela¸c˜oes acima e do centroide definido por Galperin no modelo de Minkowski, temos uma f´ormula fechada de um centroide para um conjunto de

Figura 3.1: Determina¸c˜ao do centroide c entre os pontos (w1, p1) e (w2, p2) (Figura reti-

rada de [52]).

pontos em H2.

Para calcular o centroide de Galperin c de um conjunto de pontos C = {(wj, θj)},

θj = (µj, σj), no modelo composto por distribui¸c˜oes normais univariadas, MH, basta

utilizar a rela¸c˜ao entre MH e H2

F dada em (1.10).

Como temos uma f´ormula fechada para a distˆancia na subvariedade MD, em [57]

propomos um centroide nesse espa¸co. Foi visto na se¸c˜ao 2.1.3 que a distˆancia nessa subvariedade ´e dada pela m´etrica produto no espa¸co MH. Dado um conjunto de pontos

C = {(wi, θi)}mi=1, θi = (µ1i, σ1i, . . . , µni, σni) ⊂ MD, i = 1, . . . , m, definimos o centroide

deC como

c= (c1, . . . , cn/2), (3.7)

onde cj, j = 1, . . . , n/2, ´e o centroide do conjunto Cj = {(wji, θji)}mi=1, θji = (µji, σji)∈

MH.

A Figura 3.2 ilustra uma compara¸c˜ao entre os centroides apresentados nesta se¸c˜ao. Consideramos quatro distribui¸c˜oes normais univariadas com desvio padr˜ao σ = √6 e m´edias dadas, respectivamente, por µ1 = 10, µ2 = 10, µ3 = 30, µ4 = 40. Calculamos os

centroides de Bregman ¯ϑD = (µ = 25, σ =

6), ¯ϑE = (µ = 25, σ =

131) e ¯ϑS = (µ =

25, σ = √28) e o centroide dado por Galperin cG = (µ = 25, σ = 8.27647). Al´em disso,

calculamos tamb´em, atrav´es de algoritmos num´ericos, o centroide cN = (µ = 25, σ =

7.845) dado por cN = argmin c 4 X i=1 dF(c, (µi, σ))2,

ou seja, o centroide que minimiza o quadrado da distˆancia de Fisher-Rao. Como o desvio padr˜ao foi o mesmo para todas as distribui¸c˜oes, todos os centroides obtiveram o mesmo

3.3. Algoritmos de Simplifica¸c˜ao de Misturas Gaussianas 91

Documentos relacionados