crit´erios de linkage mais utilizados s˜ao os crit´erios da distˆancia: m´ınima, m´axima e m´edia dados, respectivamente, por
Dmin(A, B) = min{d(a, b); a ∈ A, ∈ B},
Dmax(A, B) = max{d(a, b); a ∈ A, ∈ B},
Dav(A, B) =
1
|A||B|{d(a, b); a ∈ A, ∈ B},
(3.2)
em que d ´e uma distˆancia entre os objetos dos conjuntos.
Diferentes algoritmos de agrupamento hier´arquico podem ser obtidos a depender da distˆancia d escolhida. Al´em disso, ´e preciso tamb´em determinar um ponto que rep- resente cada conjunto (centroide). Na Se¸c˜ao 3.3.2 definimos dois algoritmos hier´arquicos para simplificar misturas Gaussianas com matrizes de covariˆancia diagonais utilizando a distˆancia de Fisher-Rao.
Na pr´oxima se¸c˜ao vamos mostrar dois modos de definir centroide no modelo M das distribui¸c˜oes normais multivariadas.
3.2
Centroides no Modelos das Distribui¸c˜oes Nor-
mais Multivariadas
O c´alculo do centroide na variedadeM ´e um problema ainda em aberto, at´e mesmo porque n˜ao se tem uma f´ormula fechada para a distˆancia no caso geral. Abaixo vamos apresentar alguns centroides definidos na variedadeM: os primeiros utilizam a divergˆencia de Bregman e o ´ultimo utiliza a distˆancia de Fisher-Rao na subvariedade MD.
3.2.1
Centroides de Bregman
Dado um conjunto C com os m parˆametros de uma mistura Gaussiana de dis- tribui¸c˜oes exponencial (parametrizada com seus parˆametros naturais),
C = {{α1, ϑ1}, {α2, ϑ2}, . . . , {αn, ϑn}},
o centroide de Bregman ´e um ponto que minimiza a m´edia da divergˆencia e Bragman. Como a divergˆencia de Bregman n˜ao ´e sim´etrica, consideramos trˆes tipos de centroides: o centroide de Bregman `a direita ¯ϑD, o centroide de Bregman `a esquerda ¯ϑE e o centroide
de Bregman simetrizado ¯ϑS, que satisfazem, respectivamente, as seguintes equa¸c˜oes [45]
¯ ϑD = argmin ϑ 1 P iαi X i αiDF(ϑikϑ), (3.3)
¯ ϑE = argmin ϑ 1 P iαi X i αiDF(ϑkϑi), (3.4) ¯ ϑS = argmin ϑ 1 P iαi X i αiSDF(ϑkϑi),
onde SDF ´e a divergˆencia de Bregman simetrizada dada por
SDF(ϑ, ϑi) =
DF(ϑikϑ) + DF(ϑkϑi)
2 .
Observemos que devido a rela¸c˜ao entre a divergˆencia de Bregman e a divergˆencia de Kullback-Leibler (1.14), podemos considerar DF(ϑikϑ) = DKL(p(x; θ)kp(x; θi))..
A minimiza¸c˜ao das equa¸c˜oes (3.3) e (3.4) fornece uma f´ormula fechada para os centroides direito e esquerdo, respectivamente, dados por
¯ ϑD = P iαiϑi P iαi (3.5) ¯ ϑE =∇F∗ P iαi∇F (ϑi) P iαi , (3.6)
em que ∇F∗ ´e o gradiente do dual de Legendre da fun¸c˜ao de log-normalizer F [45]. N˜ao
existe uma f´ormula fechada para o centroide sim´etrico mas ele pode ser estimado atrav´es do algoritmo geodesic walk dado em [45].
Observemos que, como a divergˆencia de Kullback-Leibler ´e uma aproxima¸c˜ao de segunda ordem da distˆancia do quadrado da distˆancia de Fisher-Rao, ver a Proposi¸c˜ao 1.24 e o Corol´ario 1.25,os centroides de Bregman podem ser utilizados como uma aproxima¸c˜ao para um centroide que minimize o quadrado da distˆancia de Fisher-Rao.
Algoritmos de agrupamento de distribui¸c˜oes normais multivariadas usando a dis- tˆancia de Fisher-Rao s˜ao poucos utilizados dado que n˜ao se tem uma f´ormula fechada para a distˆancia. Entretanto, Schwander e Nielsen [52] propuseram o algoritmo k-m´edias para simplificar misturas gaussianas univariadas usando a distˆancia de Fisher-Rao dada em (1.11). Eles obtiveram bons resultados em compara¸c˜ao com o algoritmo k-m´edia baseado na divergˆencia de Kullback-Leibler. Para fazer as itera¸c˜oes do k-m´edias eles definiram centroides no espa¸co param´etrico das distribui¸c˜oes normais univariadasMH usando o cen-
troide dado por Galperin [27] para espa¸cos de curvatura constante (Euclidiano, hiperb´olico ou esf´erico).
3.2.2
Centroide de Galperin
Seja H2o plano superior de Poincar´e. Galperin [27] definiu um centroide no espa¸co
hiperb´olico utilizando o modelo de Minkowski, o qual ´e dado pela folha superior do hiper- boloide z2 = 1+x2+y2. Para levar um conjunto de pontos de H2 no modelo de Minkowiski
3.2. Centroides no Modelos das Distribui¸c˜oes Normais Multivariadas 89 e calcular o centroide, Schwander e Nielsen [52] utilizaram diversos modelos do espa¸co hiperb´olico (disco de Poincar´e, disco de Klein, modelo de Minkowski ) e suas rela¸c˜oes.
Seja (a, b) um ponto de H2, fazendo z = a + bi, sua representa¸c˜ao no disco de
Poincar´e ´e
z0 = z− 1 z + 1.
Reciprocamente, dado z0 no disco de Poincar´e, sua representa¸c˜ao no plano hiperb´olico ´e
(Re(z), Im(z)), onde
z = (z
0+ 1)i
1− z0 .
Agora, dado um ponto z0 no disco de Poincar´e e um ponto p no disco de Klein, a rela¸c˜ao
entre eles ´e dada por
z0 = 1−p1 − hp, pi hp, pi p e p = 2 1 +hz0, z0iz 0 .
Por fim, dado p = (xp, yp) no disco de Klein, seu mergulho no modelo de Minkowski ´e
dada por p0 com coordenadas:
¯ xp0 = xp 1− x2 p− yp2 , y¯p0 = yp 1− x2 p− yp2 e z¯p0 = zp 1− x2 p− yp2 . E, dado p0 = (¯x p0, ¯yp0, ¯zp0) no modelo de Minkowski, p= ¯xp0 ¯ zp0, ¯ yp0 ¯ zp0
´e a sua representa¸c˜ao no disco de Klein. Sejam p0
i’s pontos no modelo de Minkowski com pesos associados wi’s, i = 1, . . . , n.
O centro de massa do conjuntoC = {(w1, p01), . . . , (wn, p0n)} ´e dado por
c00 =
n
X
i=1
wip0i.
Para que esse ponto perten¸ca ao modelo de Minkowski, Galperin normaliza o ponto por meio da interse¸c˜ao do vetor Oc00 e do hiperboloide z2 = 1 + x2+ y2, ver Figura 3.1. Logo,
o centroide no modelo de Minkowski ´e dado por
c0 = c 00 −x2 c00 − yc200+ zc200 , em que c00= (xc00, yc00, zc00).
Portanto, munidos das rela¸c˜oes acima e do centroide definido por Galperin no modelo de Minkowski, temos uma f´ormula fechada de um centroide para um conjunto de
Figura 3.1: Determina¸c˜ao do centroide c entre os pontos (w1, p1) e (w2, p2) (Figura reti-
rada de [52]).
pontos em H2.
Para calcular o centroide de Galperin c de um conjunto de pontos C = {(wj, θj)},
θj = (µj, σj), no modelo composto por distribui¸c˜oes normais univariadas, MH, basta
utilizar a rela¸c˜ao entre MH e H2
F dada em (1.10).
Como temos uma f´ormula fechada para a distˆancia na subvariedade MD, em [57]
propomos um centroide nesse espa¸co. Foi visto na se¸c˜ao 2.1.3 que a distˆancia nessa subvariedade ´e dada pela m´etrica produto no espa¸co MH. Dado um conjunto de pontos
C = {(wi, θi)}mi=1, θi = (µ1i, σ1i, . . . , µni, σni) ⊂ MD, i = 1, . . . , m, definimos o centroide
deC como
c= (c1, . . . , cn/2), (3.7)
onde cj, j = 1, . . . , n/2, ´e o centroide do conjunto Cj = {(wji, θji)}mi=1, θji = (µji, σji)∈
MH.
A Figura 3.2 ilustra uma compara¸c˜ao entre os centroides apresentados nesta se¸c˜ao. Consideramos quatro distribui¸c˜oes normais univariadas com desvio padr˜ao σ = √6 e m´edias dadas, respectivamente, por µ1 = 10, µ2 = 10, µ3 = 30, µ4 = 40. Calculamos os
centroides de Bregman ¯ϑD = (µ = 25, σ =
√
6), ¯ϑE = (µ = 25, σ =
√
131) e ¯ϑS = (µ =
25, σ = √28) e o centroide dado por Galperin cG = (µ = 25, σ = 8.27647). Al´em disso,
calculamos tamb´em, atrav´es de algoritmos num´ericos, o centroide cN = (µ = 25, σ =
7.845) dado por cN = argmin c 4 X i=1 dF(c, (µi, σ))2,
ou seja, o centroide que minimiza o quadrado da distˆancia de Fisher-Rao. Como o desvio padr˜ao foi o mesmo para todas as distribui¸c˜oes, todos os centroides obtiveram o mesmo
3.3. Algoritmos de Simplifica¸c˜ao de Misturas Gaussianas 91