Algoritmo FANNY - Algoritmos de Agrupamento Utilizados

3.7 Algoritmos de Agrupamento Utilizados

3.7.2 Algoritmo FANNY

O algoritmo FANNY (Fuzzy Analysis) minimiza a fun¸cão objetivo apresentada na Equa¸cão 3.8: C = k X v=1 Pn i,j=1u2viu2vjr (xi, xj) 2Pn j=1u2vj (3.8) onde r(xi, xj) representa a distância (ou dissimilaridade) entre os indiv´ıduos xi e xj, já o

termo uvi ´e o coeficiente de pertinˆencia do indiv´ıduo xi ao cluster v. Os coeficientes de

pertinência são sujeitos às seguintes restri¸cões:

uvi ≥ 0, ∀v, i (3.9)

v=1

uvi = 1, ∀i (3.10)

As restri¸cões apresentadas acima expressam que os coeficientes de pertinência não podem ser negativos e que cada indiv´ıduo tem um coeficiente total constante distribu´ıdo entre os diversos clusters, por conven¸cão o coeficiente total é 1.

Abaixo, ´e apresentado o algoritmo FANNY. Algoritmo FANNY

Entrada

R: matriz de dados relacionais n × n

k: número de grupos presente nos dados (1 < k < n) T : número máximo de itera¸cões

ε: condi¸c˜ao de parada

Sa´ıda U = [uvi]k×n: matriz de pertinˆencia

3.7 Algoritmos de Agrupamento Utilizados 25

3.10. Calcule a fun¸cão objetivo 0C através da equa¸cão 3.8.

2 t = 1 3 fa¸ca

4 para i de 1 para n fa¸ca

5 para v de 1 para k fa¸ca

6 avi = 2Pn j=1u 2 vjrij −Pn j=1 Pn h=1u 2 vju2vhrij Pn j=1u 2 vj 7 Atribua V+ = V−= ∅

8 para v de 1 para k fa¸ca

9 Av = 1/avi Pk w=1(1/awi) 10 se Av ≤ 0 ent˜ao 11 V−= V−∪ {v} 12 se Av > 0 ent˜ao 13 V+_{= V}+_{∪ {v}} 14 para v ∈ V− fa¸ca 15 uvi = 0 16 para v ∈ V+ fa¸ca 17 uvi = 1/avi P w∈V+(1/awi)

18 Calcule o novo valor da fun¸c˜ao objetivo t+1_{C atrav´}_{es da equa¸c˜}_{ao 3.8.}

19 t = t + 1

20 enquanto (t_C/t+1_{C − 1) < ε e (t < T )}

3.7.3 Algoritmo FNM

O algoritmo FNM (do inglês, Fuzzy Nom-metric Model ) (ROUBENS, 1978) assume como entrada uma matriz de dissimilaridades produzida por uma semi-métrica, isto é,

3.7 Algoritmos de Agrupamento Utilizados 26

satisfazendo as seguintes condi¸c˜oes:

∀i, j r(xi, xj) ≥ 0 (3.11)

r(xi, xi) = 0 (3.12)

r(xi, xj) = r(xj, xi) (3.13)

Com o intuito de particionar os dados em k clusters fuzzy, o FNM minimiza a seguinte fun¸c˜ao objetivo: C = k X v=1 n X i=1 u2_viD (v, i) (3.14) onde D(v, i) = n X j=1 u2_vjr(xi, xj) (3.15)

Utilizando a argumenta¸c˜ao apresentada em (DIDAY, 1975), (ROUBENS, 1978) provou que o algoritmo sempre converge para um m´ınimo local da fun¸c˜ao objetivo.

O algoritmo FNM ´e descrito abaixo. Algoritmo FNM

Entrada

R: matriz de dados relacionais n × n

k: número de grupos presente nos dados (1 < k < n) T : número máximo de itera¸cões

ε: condi¸c˜ao de parada

Sa´ıda U = [uvi]k×n: matriz de pertinˆencia

1 Inicialize a matriz de pertinência U , levando em considera¸cão as restri¸cões 3.9 e 3.10. Calcule a fun¸cão objetivo 0_{C atrav´}_{es da equa¸c˜}_{ao 3.14.}

2 t = 1

3 fa¸ca

4 para i de 1 para n fa¸ca

5 para v de 1 para k fa¸ca 6 D(v, i) =Pn

j=1u 2 vjrij

3.7 Algoritmos de Agrupamento Utilizados 27

7 para s de 1 para k fa¸ca

8 usi = Pk j=1 D(s,i) D(s,j) −1 9 t = t + 1

10 Calcule o novo valor da fun¸c˜ao objetivo t_{C atrav´}_{es da equa¸c˜}_{ao 3.14.}

11 enquanto (|t_{C −}t−1_{C| < ε) e (t ≤ T )}

3.7.4 Algoritmo FAP

O algoritmo FAP (do inglˆes, Fuzzy Assignment-Prototype) apresentado por (WINDHAM et al., 1985) assume que a matriz de proximidades satisfaz as mesmas restri¸c˜oes exigidas pelo algoritmo FNM. Suponha que um conjunto E de indiv´ıduos deva ser agrupado em k grupos, o algoritmo AP assume que para cada cluster Pg existe um objeto yg que me-

lhor representa ou é o protótipo desse cluster. Então, a qualidade da parti¸cão pode ser mensurada da seguinte maneira:

τ = k X g=1   X xi∈Pg r(xi, yg)   (3.16)

Nesse caso, quanto menor o valor de τ , mais semelhantes são os indiv´ıduos dos protótipos das respectivas classes. Um valor m´ınimo para τ indica que a parti¸cão obtida é bem representada pelos protótipos. A minimiza¸cão de τ através da Equa¸cão 3.16 produz parti¸cões r´ıgidas. (WINDHAM et al., 1985) modificaram τ , com o intuito de buscar parti¸cões fuzzy através da otimiza¸cão dos pares (U,T), obtendo a seguinte fun¸cão objetivo:

C = k X g=1 n X i=1 n X j=1 u2_git2_gjr(xi, xj) (3.17)

Cada elemento tgj representa o grau em que o indiv´ıduo xj representa (ou ´e t´ıpico de)

o g-ésimo protótipo. A restri¸cão nos elementos da matriz T é que a soma de cada linha deve ser igual a 1.

i=1

tgi = 1 ∀g = 1, . . . , k. (3.18)

O algoritmo FAP é apresentado logo abaixo. Tanto (WINDHAM et al., 1985) quanto (ROU- BENS, 1978) defendem que a execu¸cão dos algoritmos sejam finalizadas quando sucessivos valores da fun¸cão objetivo tornarem-se bastante próximos, ao invés de terminar quando

3.7 Algoritmos de Agrupamento Utilizados 28

a parti¸c˜ao fuzzy n˜ao muda significativamente. Algoritmo Fuzzy FAP

Entrada

R: matriz de dados relacionais n × n

k: número de grupos presente nos dados (1 < k < n) T : número máximo de itera¸cões

ε: condi¸c˜ao de parada

Sa´ıda U = [uvi]k×n: matriz de pertinˆencia

1 Inicialize a matriz de pertinência U , levando em considera¸cão as restri¸cões 3.9 e 3.10. Calcule a fun¸cão objetivo 0_{C atrav´}_{es da equa¸c˜}_{ao 3.17.}

2 t = 1

3 fa¸ca

4 para v de 1 para k fa¸ca

5 para i de 1 para n fa¸ca

6 tvi = (1/ Pn l=1u 2 vlril) / Pn j=1(1/ Pn l=1u 2 vlrjl)

7 para s de 1 para k fa¸ca

8 para i de 1 para n fa¸ca

9 usi = (1/Pn_l=1t2slrjl) /Pk_m=1(1/Pn_l=1t2mlril)

10 t = t + 1

11 enquanto (|t_{C −}t−1_{C| < ε) e (t ≤ T )}

3.7.5 Algoritmo RFCM

O algoritmo Fuzzy c-means (FCM), desenvolvido por (DUNN, 1974) e aprimorado por (BEZDEK, 1981), produz uma parti¸cão fuzzy a partir de uma matriz de dados. (HATHAWAY; DAVENPORT; BEZDEK, 1989) transformaram a fun¸cão objetivo otimizada pelo FCM em uma fun¸cão objetivo para agrupamento de dados relacionais através da computa¸cão impl´ıcita dos protótipos, criando assim, o RFCM (do inglês, Relational Fuzzy C-Means). Esse processo de transforma¸cão, chamado de reformula¸cão, levou à seguinte fun¸cão objetivo:

3.7 Algoritmos de Agrupamento Utilizados 29 C = k X g=1 n X i=1 n X j=1 um_gium_gjr(xi, xj) / 2 n X l=1 um_gl !! (3.19)

O algoritmo RFCM ´e detalhado abaixo. Algoritmo RFCM

Entrada

R: matriz de dados relacionais n × n

k: número de grupos presente nos dados (1 < k < n) T : número máximo de itera¸cões

m: expoente de pondera¸c˜ao (1 < m < ∞) ε: condi¸c˜ao de parada (ε > 0)

Sa´ıda U = [uvi]k×n: matriz de pertinˆencia

1 Inicialize a matriz de pertinência U , levando em considera¸cão as restri¸cões 3.9 e

3.10. Calcule a fun¸cão objetivo 0C através da equa¸cão 3.19.

2 t = 1

3 enquanto (|tC −t−1C| < ε) e (t ≤ T ) fa¸ca

4 para g de 1 para k fa¸ca

5 vg = umg1, . . . , umgn T /Pn i=1u m gi

6 para i de 1 para n fa¸ca

7 para g de 1 para k fa¸ca

8 d2 gi = (Rvg)i− ((vg)tRvg))/2 9 se (dgi> 0 ∀g) ent˜ao 10 ugi = 1/ h Pk c=1(dgi/dci)2/(m−1) i 11 sen˜ao 12 ugi = ( 0 se dgi > 0 αgi; se dgi ≤ 0; αgi∈ [0, 1],Pk_c=1αci= 1 13 t = t + 1

Uma das principais desvantagens apresentada pelo RFCM é o fato do algoritmo assumir que a rela¸cão de dissimilaridade R é Euclidiana. No intuito de superar essa restri¸cão,

3.7 Algoritmos de Agrupamento Utilizados 30

(HATHAWAY; BEZDEK, 1994) proporam uma extens˜ao ao RFCM que ser´a discutida logo adiante.

3.7.6 Algoritmo NERFCM

O algoritmo RFCM pode ser utilizado para agrupar um conjunto de padrões descritos por uma rela¸cão de dissimilaridades R se, e somente se, existem n pontos em algum espa¸co p-dimensional cujas distâncias Euclidianas possuem valores correspondentes em R. Expressando matematicamente, R é uma rela¸cão Euclidiana se existe um conjunto de dados X = {x1, . . . , xn} em <n−1 tal que R = [rij = kxi − xjk2]; caso contrário, R

é dita não-Euclidiana. Qualquer conjunto X correspondente a uma rela¸cão Euclidiana é chamado de realiza¸cão de R. Se existe uma realiza¸cão de R no espa¸co p-dimensional, p < n − 1, pode-se obter uma realiza¸cão no espa¸co de dimensão n − 1 através da adi¸cão de n − p − 1 componentes com valores constantes a cada ponto dos dados p-dimensionais. A teoria da dualidade do fuzzy c-means entre dados relacionais (RFCM) e dados do tipo objeto (OFCM) afirma que RFCM aplicado a uma rela¸cão de dissimilaridades R corresponde ao OFCM aplicado a um conjunto de dados X se, e somente se, existe um conjunto de n pontos no espa¸co <n−1 cujas distâncias Euclidianas correspondem às dissimilaridades apresentadas em R. Dada uma rela¸cão de dissimilaridades arbitrária, não existe motivo para acreditar que a condi¸cão de dualidade irá ser satisfeita e se não for, o algoritmo RFCM irá falhar.

O algoritmo NERFCM (Non-Euclidean Relational Fuzzy C-Means) assume que a rela¸cão de dissimilaridade R é irreflexiva, positiva e simétrica, isto é, satisfaz as restri¸cões 3.11, 3.12 e 3.13. A idéia básica do NERFCM é converter R em uma rela¸cão Euclidiana Rβ utilizando uma transforma¸cão β e em seguida aplicar RFCM a Rβ. A transforma¸cão

´e:

Rβ = R + β(1n×n− In) (3.20)

onde β é um valor real escalar apropriado, In é a matriz identidade n × n e 1n×n é

uma matriz n × n com 1 em todas as posi¸c˜oes.

3.7 Algoritmos de Agrupamento Utilizados 31 C = k X g=1 n X i=1 n X j=1 um_gium_gjr(xi, xj) / 2 n X l=1 um_gl !! (3.21)

O algoritmo ´e apresentado abaixo. Algoritmo NERFCM

Entrada

R: matriz de dados relacionais n × n

k: número de grupos presente nos dados (1 < k < n) T : número máximo de itera¸cões

m: expoente de pondera¸c˜ao (1 < m < ∞) ε: condi¸c˜ao de parada (ε > 0)

Sa´ıda U = [uvi]k×n: matriz de pertinˆencia

1 Inicialize a matriz de pertinência U , levando em considera¸cão as restri¸cões 3.9 e

3.10. Calcule a fun¸cão objetivo 0C através da equa¸cão 3.21.

2 β = 0

3 t = 1

4 enquanto (|t_{C −}t−1_{C| < ε) e (t ≤ T ) fa¸}_ca

5 para g de 1 para k fa¸ca

6 vg = umg1, . . . , umgn T /Pn i=1u m gi

7 Calcule Rβ atrav´es da Equa¸c˜ao 3.20;

8 para i de 1 para n fa¸ca

9 para g de 1 para k fa¸ca

10 dgi = (Rβvg)i− ((vg)tRβvg))/2

11 se (dgi < 0) para qualquer i, g ent˜ao

12 ∆β = max {−2 ∗ dgi/kvg− eik2}

13 para i de 1 para n fa¸ca

14 para g de 1 para k fa¸ca

3.7 Algoritmos de Agrupamento Utilizados 32

16 β = β + ∆β

17 para i de 1 para n fa¸ca 18 se (dgi> 0 ∀g) ent˜ao 19 ugi = 1/ h Pk c=1(dgi/dci) 2/(m−1)i 20 sen˜ao 21 ugi = ( 0 se dgi > 0 αgi; se dgi ≤ 0; αgi∈ [0, 1], Pk c=1uci= 1 22 t = t + 1

Os algoritmos NERFCM e RFCM são idênticos, exceto pelo tratamento dado quando ocorre algum dginegativo. Um valor negativo de dgisinaliza que não existe uma realiza¸cão

de Rβ, indicando que o valor atual de β deve ser incrementado por algum ∆β > 0.

3.7.7 Abordagem CARD

Os algoritmos apresentados anteriormente assumem que as informa¸cões de proximidade entre os pares de indiv´ıduos estão dispon´ıveis em uma matriz global. No entanto, em aplica¸cões reais, que envolvem indiv´ıduos complexos, podem existir diversas matrizes de proximidade, cada uma tendo uma importância diferente na aloca¸cão dos indiv´ıduos aos clusters. Então, para obter clusters a partir de diversas matrizes de proximidades, é preciso um algoritmo que seja capaz de estimar pesos que indiquem a relevância de cada matriz para um determinado cluster. Em (FRIGUI; NASRAOUI, 2000, 2004), foram apresentadas abordagens para lidar com a situa¸cão exposta acima no caso de algoritmos de agrupamento que têm como entrada a matriz de dados.

O trabalho de (FRIGUI; HWANG; RHEE, 2007) apresentou uma abordagem chamada CARD (do inglˆes, clustering and aggregation of relational data) que trata desse problema para o caso dos m´etodos de agrupamento baseados em dados relacionais.

A abordagem CARD sup˜oe que existem S matrizes de proximidade R1_{, . . . , R}S_{. Cada}

Rs _{= [r}s_(x

i, xj)] respeita as restri¸c˜oes apresentadas nas Equa¸c˜oes 3.11, 3.12 e 3.13. Cada

matriz de proximidade pode ter sido gerada a partir de dados de diferentes sensores ou simplesmente a partir de diferentes atributos.

Considere uma matriz W = [wgs], onde wgs ∈ [0, 1] ´e o peso da relevˆancia da matriz

Rs _{para o cluster g. Um valor baixo para w}

3.7 Algoritmos de Agrupamento Utilizados 33

na matris Rs não é relevante para a defini¸cão do cluster g. Equivalentemente, um valor alto para wgs indica que a matriz Rs é o principal fator utilizado para a cria¸cão do cluster

g. A dissimilaridade global entre dos indiv´ıduos xi e xj, R = [r(xi, xj)], ´e computada

através da agrega¸cão entre as dissimilaridades parciais e os pesos de relevância, como mostra a seguinte equa¸cão:

r(xi, xj) = S

s=1

w_gsq rs(xi, xj) (3.22)

onde q ∈ (1, ∞) ´e o expoente discriminante.

A abordagem CARD é genérica e pode ser utilizada para estender diversos algoritmos de agrupamento de dados relacionais (FRIGUI; HWANG; RHEE, 2007). Neste trabalho, serão utilizadas duas versões do método CARD, a primeira, chamada CARDN, baseada no algoritmo NERFCM e a segunda, chamada CARDF é baseada no algoritmo FANNY.

3.7.7.1 CARD NERFCM (CARDN)

O algoritmo CARD NERFCM minimiza a seguinte fun¸c˜ao objetivo:

C = k X g=1 n X i=1 n X j=1 um_gium_gj S X s=1 wq_gsrs(xi, xj) ! / 2 n X l=1 um_gl !! (3.23)

sujeita `as seguintes restri¸c˜oes:

wgs ∈ [0, 1] ∀g, s (3.24) S X s=1 wgs = 1 ∀g (3.25) (3.26) Os pesos que indicam a relevância das matrizes de dissimilaridades são atualizados através da equa¸cão abaixo. wgs = 1 PS p=1(Dgs/Dgp)1/(q−1) (3.27) onde Dgs = n X i=1 n X j=1 um_sium_sjrs(xi, xj) (3.28)

Quando o valor de q (Equa¸c˜ao 3.23) aproxima-se 1, wgs tende a assumir valores bin´arios.

Essa situa¸cão é semelhante a “o vencedor leva tudo”(do inglês, the winner takes all ), uma das matrizes de dissimilaridades irá ter peso 1 e todas as outras matrizes irão ter

3.7 Algoritmos de Agrupamento Utilizados 34

relevância 0 (zero) e não contribuem para a computa¸cão da distância global. Por outro lado, quando q tende ao infinito, os pesos wqs irão receber valor 1/S. Isso significa que

todas as matrizes de dissimilaridades irão ter a mesma relevância, sendo equivalente à situa¸cão em que não há discrimina¸cão. Para os casos em que q toma valores finitos em (1, ∞), os pesos obtidos provêm um n´ıvel moderado de discrimina¸cão. Por esta razão, q foi chamado de “expoente de discrimina¸cão”(FRIGUI; HWANG; RHEE, 2007).

O algoritmo ´e apresentado abaixo. Algoritmo CARDN

Entrada

R1, . . . , RS: matrizes de dados relacionais n × n

k: número de grupos presente nos dados (1 < k < n) T : número máximo de itera¸cões

m: expoente de pondera¸cão (m ∈ [1, ∞)) q: expoente de discrimina¸cão (q ∈ [1, ∞)) ε: condi¸cão de parada (ε > 0)

Sa´ıda U = [uvi]k×n: matriz de pertinˆencia

1 Inicialize a matriz de pertinência U , levando em considera¸cão as restri¸cões 3.9 e 3.10. Calcule a fun¸cão objetivo 0_{C atrav´}_{es da equa¸c˜}_{ao 3.21.}

2 Inicialize todos os pesos wgs = 1/S

3 β = 0

4 t = 1

5 enquanto (|tC −t−1C| < ε) e (t ≤ T ) fa¸ca

6 Calcule a matriz de dissimilaridades R atrav´es da Equa¸c˜ao 3.22.

7 para g de 1 para k fa¸ca

8 vg = umg1, . . . , umgn T /Pn i=1u m gi

9 Calcule Rβ atrav´es da Equa¸c˜ao 3.20;

10 para i de 1 para n fa¸ca

11 para g de 1 para k fa¸ca

3.7 Algoritmos de Agrupamento Utilizados 35

13 se (dgi < 0) para qualquer i, g ent˜ao

14 ∆β = max {−2 ∗ dgi/kvg− eik2}

15 para i de 1 para n fa¸ca

16 para g de 1 para k fa¸ca

17 dgi= dgi+ (∆β/2)kvg − eik2

18 β = β + ∆β

19 para i de 1 para n fa¸ca

20 se (dgi> 0 ∀g) ent˜ao 21 ugi = 1/ h Pk c=1(dgi/dci) 2/(m−1)i 22 sen˜ao 23 ugi = ( 0 se dgi > 0 αgi; se dgi ≤ 0; αgi∈ [0, 1],Pk_c=1uci= 1

24 Atualize todos os pesos wgs utilizando a Equa¸c˜ao 3.27.

25 t = t + 1

O algoritmo CARDN tem passos iterativos assim como o NERFCM que possui complexidade computacional da ordem de O(N2) (KRISHNAPURAM et al., 2001). Ele somente precisa de um passo adicional para computar os pesos que indicam a relevância (FRI- GUI; NASRAOUI, 2004). Então, a complexidade computacional do CARDN é igual a do NERFCM. No entanto, CARDN utiliza uma maior quantidade de memória (O(S × N2_)),

pois precisa manter S matrizes de dissimilaridades parciais ao inv´es de uma ´unica matriz de dissimilaridades global.

3.7.7.2 CARD FANNY (CARDF)

O CARDF ´e uma extens˜ao do algoritmo FANNY que minimiza

C = k X g=1 n X i=1 n X j=1 u2_giu2_gj S X s=1 w_gsq rs(xi, xj) ! / 2 n X l=1 u2_gl !! , (3.29)

sujeito às restri¸cões 3.11, 3.12, 3.13, 3.24 e 3.25. A equa¸cão de atualiza¸cão dos pesos em CARDF é idêntica àquela apresentada em CARDN, com m fixo igual a 2.

3.7 Algoritmos de Agrupamento Utilizados 36

Algoritmo CARDF Entrada

R1, . . . , RS: matrizes de dados relacionais n × n

k: n´umero de grupos presente nos dados (1 < k < n) q: expoente de discrimina¸c˜ao (q ∈ [1, ∞))

T : número máximo de itera¸cões ε: condi¸cão de parada

Sa´ıda U = [uvi]k×n: matriz de pertinˆencia

1 Inicialize a matriz de pertinência U , levando em considera¸cão as restri¸cões 3.9 e

3.10. Calcule a fun¸cão objetivo 0C através da equa¸cão 3.29.

2 Inicialize todos os pesos wgs = 1/S

3 t = 0 4 fa¸ca

5 para i de 1 para n fa¸ca

6 para v de 1 para k fa¸ca

7 avi = 2Pn j=1u 2 vj PS s=1w q gsrijs −Pn j=1 Pn h=1u 2 vju2vh PS s=1w q gsrsij Pn j=1u 2 vj

8 para v de 1 para k fa¸ca

9 Av = 1/avi Pk w=1(1/awi) 10 se Av ≤ 0 ent˜ao 11 V−= V−∪ {v} 12 se Av > 0 ent˜ao 13 V+= V+∪ {v} 14 para v ∈ V− fa¸ca 15 uvi = 0 16 para v ∈ V+ fa¸ca 17 uvi = 1/avi P w∈V+(1/awi) 18 Atribua V+ = V−= ∅

3.8 Valida¸c˜ao de Agrupamento 37

19 Atualize todos os pesos wgs utilizando a Equa¸c˜ao 3.27.

20 Calcule o novo valor da fun¸cão objetivo t+1C através da equa¸cão 3.29. 21 t = t + 1

22 enquanto ((t_C/t+1_{C − 1) < ε) e (t < T )}

3.8 Valida¸c˜ao de Agrupamento

A valida¸cão de um agrupamento, em geral, é feita com base em ´ındices estat´ısticos, que avaliam a qualidade das estruturas encontradas (KAUFMAN; ROUSSEEUW, 1990). A maneira pela qual um ´ındice é aplicado para validar um agrupamento é dada pelo critério de valida¸cão. Assim, um critério de valida¸cão expressa a estratégia utilizada para validar a estrutura de agrupamento, enquanto um ´ındice é uma estat´ıstica para aplicar a estratégia. Atualmente, existem três tipos de critérios para investigar a validade de um agrupamento (JAIN; DUBES, 1988):

Critérios Relativos: comparam diversos agrupamentos para decidir qual deles é o melhor em algum aspecto. Podem ser utilizados para comparar diversos algoritmos de agrupamento ou para determinar o valor mais apropriado para um parâmetro de um algoritmo. Por exemplo, pode-se medir quantitativamente qual das hierarquias melhor se ajusta aos dados ou qual o número de clusters mais apropriado.

Critérios Internos: medem a qualidade de um agrupamento com base apenas nos dados originais (matriz de objetos ou matriz de proximidades). Por exemplo, um critério interno pode medir o grau em que uma parti¸cão obtida por um algoritmo de agrupamento é justificado pela matriz de proximidade.

Critérios Externos: avaliam um agrupamento de acordo com uma estrutura pré-especificada, imposta ao conjunto de dados, e que reflete a intui¸cão do pesquisador sobre a estrutura presente nos dados. Essa estrutura pré-especificada pode ser uma parti¸cão que se sabe previamente existir nos dados, ou um agrupamento constru´ıdo por um especialista da área com base em conhecimento prévio.

Existem vários ´ındices que podem ser empregados com critérios relativos. Esses ´ındices, em geral, podem também ser empregados em critérios internos (JAIN; DUBES, 1988). O que distingue a utiliza¸cão de um ´ındice em um ou outro critério é a maneira

3.8 Valida¸c˜ao de Agrupamento 38

como o ´ındice é aplicado. A forma mais comum de aplica¸cão de um ´ındice como um critério relativo consiste no cálculo do seu valor para vários agrupamentos que estão sendo compa- rados, obtendo-se uma seqüência de valores. O melhor agrupamento é determinado pelo valor que se destaca nessa seqüência, como o valor máximo, m´ınimo ou o de inflexão na curva do gráfico constru´ıdo a partir da seqüência (JAIN; DUBES, 1988).

Os critérios externos e internos têm como objetivo medir o quanto o resultado ob- tido confirma uma hipótese pré-estabelecida. O mesmo ´ındice pode ser utilizado em um critério externo e interno (JAIN; DUBES, 1988). A diferen¸ca entre esses critérios está nas informa¸cões utilizadas para o cálculo do ´ındice. Nos critérios externos, como já menci- onado, o cálculo do ´ındice considera a utiliza¸cão de uma estrutura dos dados conhecida previamente, enquanto nos critérios internos, apenas os dados são considerados.

As subse¸cões abaixo apresentam os ´ındices de valida¸cão utilizados. Uma descri¸cão completa da estratégia de valida¸cão utilizada nesta Disserta¸cão será apresentada no Cap´ıtulo 5.

3.8.1 ´Indice de Rand Corrigido

O ´ındice de Rand corrigido (CR - do inglês, corrected Rand ) (HUBERT; ARABIE, 1985) foi utilizado neste trabalho para comparar uma parti¸cão hard conhecida a priori com uma parti¸cão obtida a partir de um dos algoritmos de agrupamento em estudo. Esse ´ındice é derivado a partir de uma tabela constru´ıda com as informa¸cões das duas parti¸cões (Tabela 3). As duas parti¸cões de n indiv´ıduos são denotadas por U (conhecida a priori ) e V (obtida pelo algoritmo de agrupamento).

v1 v2 . . . vc u1 n11 n12 . . . n1c n1 u2 n21 n22 . . . n2c n2 . . . . uk nk1 nk2 . . . nkc nk n1 n2 . . . nc

Tabela 3: Tabela de Compara¸c˜ao entre duas parti¸c˜oes.

Sejam U = {u1, u2, . . . , uc} e V = {v1, v2, . . . , vk} duas parti¸c˜oes do tipo hard com k

e c grupos, respectivamente. O ´ındice CR ´e definido como segue:

CR = Pc i=1 Pk j=1 nij 2 − n 2 −1Pc i=1 ni 2 Pk j=1 nj 2 1 2[ Pc i=1 ni 2 + P k j=1 nj 2] − n 2 −1Pc i=1 ni 2 Pk j=1 nj 2 (3.30)

3.9 Considera¸c˜oes Finais 39

onde, (1) nij representa o n´umero de objetos nos clusters ui e vj; (2) ni indica o n´umero

de objetos no cluster ui; (3) nj indica o n´umero de objetos no cluster vj; (4) n n´umero

de objetos na base de dados; e (5) a_b ´e o coficiente binomial _b!(a−b)!a! .

Este ´ındice assume valores no intervalo [−1, 1], onde o valor 1 indica a concordância perfeita entre as parti¸cões e valores próximos de 0 (ou negativos) indicam concordâncias encontradas ao acaso (MILLIGAN, 1996).

No documento Metodos de Agrupamento de Dados Simbolicos Baseados em funções de Dissimilaridades (páginas 40-55)