Neste trabalho ser˜ao objeto de estudo apenas os m´etodos hier´arquicos e m´etodos n˜ao hier´arquicos ou de parti¸c˜ao [28, 43].
Os m´etodos n˜ao hier´arquicos determinam uma parti¸c˜ao dos elementos em k classes. O valor de k ´e previamente escolhido. Os m´etodos hier´arquicos, por sua vez, permitem obter uma s´erie de parti¸c˜oes encaixadas. A sua representa¸c˜ao gr´afica ´e uma ´arvore que se designa habitualmente por dendrograma.
4.3.1
M´etodos Hier´arquicos
Uma parti¸c˜ao de um conjunto de S ´e um conjunto de subconjuntos n˜ao vazios {C1, . . . , Cr} tal que:
1. Ci∩ Cj = ∅.
2. S
j=1Cj = S, i = 1 . . . , r.
Um conjunto H = {C1, . . . , Cr} de subconjuntos n˜ao vazios de S, ´e uma hierar-
quia de S se obedece `as seguintes condi¸c˜oes:
1. S ∈ H.
2. ∀wu ∈ S, Cu = {wu} ∈ H.
3. Ci∩ Cj ∈ {Ci, Cj, ∅} ∀i, j.
Os m´etodos hier´arquicos conduzem a uma hierarquia de parti¸c˜oes P1, P2,. . . ,
Pn. Estes podem ser divisivos (em inglˆes top-down) ou aglomerativos (em inglˆes
bottom-up).
No primeiro caso, o processo inicia-se com a totalidade dos indiv´ıduos em uma ´
unica classe. Seguidamente esta ´e subdividida em duas partes, posteriormente cada uma dessas classes ´e dividida em duas classes e assim sucessivamente at´e um n´umero de grupos convenientemente escolhido. No segundo caso, o processo ´e realizado em sentido inverso. Inicialmente cada classe ´e constitu´ıda apenas por um ´unico elemento e em cada n´ıvel v˜ao sendo agregadas classes at´e se obter uma classe com todos os elementos. Neste processo cada classe ´e agregada no m´aximo uma vez.
Quando a dimens˜ao do conjunto de dados ´e grande a visualiza¸c˜ao do dendrograma ´e dif´ıcil. Para contornar esta dificuldade poder-se-´a realizar um corte de acordo com o n´umero de classes pretendidas.
Nos m´etodos de classifica¸c˜ao hier´arquica ´e necess´ario escolher um crit´erio que permita determinar os pares de classes a serem agrupadas (no caso dos aglomerativos) ou a serem divididas (no caso dos divisivos), crit´erios esses que se designam por crit´erios de agrega¸c˜ao.
Um dos aspetos mais importantes ´e definir um corte no dendrograma para estabelecer qual o n´umero de classes ´otimo. Existem diversos crit´erios, neste trabalho fez-se o corte onde os ramos apresentam maior comprimento.
Este tipo de m´etodos possui as seguintes vantagens: Flexibilidade do n´umero de grupos;
Ajustam-se facilmente a qualquer medida de dissemelhan¸ca; Versatilidade relativamente ao tipo de vari´aveis.
Desvantagens:
O crit´erio para terminar o processo ´e vago;
Depois de iniciado o processo a constitui¸c˜ao das classes permanece inalter´avel; Os algoritmos hier´arquicos requerem bastante espa¸co de mem´oria e s˜ao de
processamento demorado.
Existem diversos crit´erios de agrega¸c˜ao [10, 42] dos quais se destacam os seguintes que ser˜ao utilizados nas aplica¸c˜oes descritas nos Cap´ıtulos 5 e 6:
Complete Linkage ou crit´erio do vizinho mais afastado. A dissemelhan¸ca entre duas classes A e B ´e o m´aximo das dissemelhan¸cas entre os elementos de A e de B. De um modo formal pode-se escrever:
δ2(A, B) = M´ax{d(x, y), x ∈ A, y ∈ B}
.
Average linkage entre grupos. A dissemelhan¸ca entre duas classes A e B ´e a m´edia das dissemelhan¸cas entre os elementos de A e de B:
δ3(A, B) = 1 ]A × ]B X x∈A,y∈B d(x, y)
´Indice de Ward. Define a dissemelhan¸ca entre duas classes A e B como o aumento da In´ercia quando se procede `a reuni˜ao dessas classes.
δW = I (A ∪ B) − I A + I B.
O objetivo deste m´etodo ´e maximizar a in´ercia intercalasses que mede a separa¸c˜ao das classes e minimizar a in´ercia intra-classes que mede a sua homo- geneidade.
4.3.2
M´etodos n˜ao Hier´arquicos
Como j´a se referiu, neste grupo de m´etodos s˜ao constru´ıdos k grupos e os elementos de S s˜ao divididos e de acordo com a sua semelhan¸ca. Neste tipo de classifica¸c˜ao cada cluster possui pelo menos um elemento e cada elemento pertence somente a um grupo. O valor de k ´e previamente estipulado: para tal, s˜ao efetuados testes para diferentes valores de k [25].
Estes m´etodos possuem a vantagem das classes poderem ser alteradas no decorrer do processo. A desvantagem ´e o facto de ser necess´ario estabelecer `a priori o n´umero de grupos e a maioria do algoritmos ser altamente sens´ıvel `as condi¸c˜oes iniciais.
Nesta classe de m´etodos existem quatro que se destacam: Forgy/Lloyd [42] que pode ser descrito a partir dos seguintes passos:
1. Selecionar k centros iniciais, elementos de S, denominados por vezes centr´oides. 2. Calcular a distˆancia de cada indiv´ıduo aos centr´oides, afetando esse indiv´ıduo
ao centr´oide “mais semelhante”.
3. Recalculam-se os centr´oides. Volta-se ao passo 2 at´e n˜ao surgirem altera¸c˜oes.
Um outro m´etodo ´e o de MacQueen, [10, 29] em que ap´os cada afeta¸c˜ao recalcula- se imediatamente o centr´oide.
O m´etodo de Hartigan [19] inicia-se, tal como os anteriores, com k centr´oides. As parti¸c˜oes s˜ao formadas de modo a reduzir a soma das distˆancias quadr´aticas em rela¸c˜ao ao centr´oide no interior de cada grupo. Este m´etodo possui caracter´ısticas muito peculiares, na medida em que para cada ponto s˜ao escolhidos dois centros, como se ver´a de seguida [19]:
1. Para cada ponto P (P = 1, . . . , n), sendo n o n´umero de indiv´ıduos e supondo que existem k grupos L1, L2, . . . , Lk encontrar os dois grupos cujos centros
sejam os mais pr´oximos. Designem-se por IC1(P ) e IC2(P ) esse grupos, sendo IC1(P ) o grupo mais pr´oximo.
2. Recalcular os centros.
3. Para cada ponto P se houve altera¸c˜ao no grupo ent˜ao ele pertence ao conjunto vivo , durante este passo (inicialmente todos os grupos pertencem ao conjunto vivo ). Se P pertencer ao grupo L1 e este for conjunto vivo passar para 4, caso contr´ario, saltar para 5.
4. Calcular o valor m´ınimo, R2 = N C(L) × D(P, L)
2
N C(L) + 1 para todos os grupos L (L 6= L1, L = 1, . . . , k) (sendo N C(L) o n´umero de elementos do grupo L e D a distˆancia). Se L2 for o grupo com o menor valor, R2, e se esse valor
for maior ou igual a N C(L) × D(P, L)
2
N C(L) − 1 , n˜ao h´a altera¸c˜ao e L2 passa a ser o novo IC2(P ). Caso contr´ario, o ponto P ´e alocado no grupo L2 e L1 ´e o novo IC2(P ), e recalculam-se os novos centros.
5. Este passo ´e similar ao anterior, a ´unica diferen¸ca consiste no c´alculo do m´ınimo R2 que ´e feito apenas para os grupos pertencentes ao conjunto vivo .
6. Se o conjunto vivo ´e vazio STOP, caso contr´ario ir para o passo seguinte. 7. Para cada ponto P (P = 1, . . . , n), sejam L1 = IC1(P ) e L2 = IC2(P ) (n˜ao ´e
necess´ario selecionar o ponto P se os grupos L1 e L2 n˜ao sofreram qualquer altera¸c˜ao nos ´ultimos n passos,Calcular os valores R1 = N C(L) × D(P, L)
2
N C(L) − 1 e R2 = N C(L) × D(P, L)
2
N C(L) + 1 . Se R1 ´e menor que R2 o ponto P fica em L1. Caso contr´ario trocar IC1(P ) com IC2(P ) e recalcular os centros dos grupos L1 e L2.
8. Se n˜ao houve qualquer transferˆencia nos ´ultimos n passos, ir para o passo 4. Caso contr´ario ir para o passo 6.