M´ etodos de Classifica¸c˜ ao - Análise Classificatória de Dados Distribucionais: Abordagem Sim

Neste trabalho serão objeto de estudo apenas os métodos hierárquicos e métodos não hierárquicos ou de parti¸cão [28, 43].

Os métodos não hierárquicos determinam uma parti¸cão dos elementos em k classes. O valor de k é previamente escolhido. Os métodos hierárquicos, por sua vez, permitem obter uma série de parti¸cões encaixadas. A sua representa¸cão gráfica é uma árvore que se designa habitualmente por dendrograma.

4.3.1 M´etodos Hier´arquicos

Uma parti¸c˜ao de um conjunto de S ´e um conjunto de subconjuntos n˜ao vazios {C1, . . . , Cr} tal que:

1. Ci∩ Cj = ∅.

2. S

j=1Cj = S, i = 1 . . . , r.

Um conjunto H = {C1, . . . , Cr} de subconjuntos n˜ao vazios de S, ´e uma hierar-

quia de S se obedece `as seguintes condi¸c˜oes:

1. S ∈ H.

2. ∀wu ∈ S, Cu = {wu} ∈ H.

3. Ci∩ Cj ∈ {Ci, Cj, ∅} ∀i, j.

Os m´etodos hier´arquicos conduzem a uma hierarquia de parti¸c˜oes P1, P2,. . . ,

Pn. Estes podem ser divisivos (em inglˆes top-down) ou aglomerativos (em inglˆes

bottom-up).

No primeiro caso, o processo inicia-se com a totalidade dos indiv´ıduos em uma ´

unica classe. Seguidamente esta é subdividida em duas partes, posteriormente cada uma dessas classes é dividida em duas classes e assim sucessivamente até um número de grupos convenientemente escolhido. No segundo caso, o processo é realizado em sentido inverso. Inicialmente cada classe é constitu´ıda apenas por um único elemento e em cada n´ıvel vão sendo agregadas classes até se obter uma classe com todos os elementos. Neste processo cada classe é agregada no máximo uma vez.

Quando a dimensão do conjunto de dados é grande a visualiza¸cão do dendrograma é dif´ıcil. Para contornar esta dificuldade poder-se-á realizar um corte de acordo com o número de classes pretendidas.

Nos métodos de classifica¸cão hierárquica é necessário escolher um critério que permita determinar os pares de classes a serem agrupadas (no caso dos aglomerativos) ou a serem divididas (no caso dos divisivos), critérios esses que se designam por critérios de agrega¸cão.

Um dos aspetos mais importantes é definir um corte no dendrograma para estabelecer qual o número de classes ótimo. Existem diversos critérios, neste trabalho fez-se o corte onde os ramos apresentam maior comprimento.

Este tipo de m´etodos possui as seguintes vantagens: Flexibilidade do n´umero de grupos;

Ajustam-se facilmente a qualquer medida de dissemelhan¸ca; Versatilidade relativamente ao tipo de vari´aveis.

Desvantagens:

O crit´erio para terminar o processo ´e vago;

Depois de iniciado o processo a constitui¸cão das classes permanece inalterável; Os algoritmos hierárquicos requerem bastante espa¸co de memória e são de

processamento demorado.

Existem diversos critérios de agrega¸cão [10, 42] dos quais se destacam os seguintes que serão utilizados nas aplica¸cões descritas nos Cap´ıtulos 5 e 6:

Complete Linkage ou critério do vizinho mais afastado. A dissemelhan¸ca entre duas classes A e B é o máximo das dissemelhan¸cas entre os elementos de A e de B. De um modo formal pode-se escrever:

δ2(A, B) = M´ax{d(x, y), x ∈ A, y ∈ B}

Average linkage entre grupos. A dissemelhan¸ca entre duas classes A e B ´e a m´edia das dissemelhan¸cas entre os elementos de A e de B:

δ3(A, B) = 1 ]A × ]B X x∈A,y∈B d(x, y)

Índice de Ward. Define a dissemelhan¸ca entre duas classes A e B como o aumento da Inércia quando se procede à reunião dessas classes.

δW = I (A ∪ B) − I A + I B.

O objetivo deste método é maximizar a inércia intercalasses que mede a separa¸cão das classes e minimizar a inércia intra-classes que mede a sua homo- geneidade.

4.3.2 Métodos não Hierárquicos

Como já se referiu, neste grupo de métodos s˜ao constru´ıdos k grupos e os elementos de S s˜ao divididos e de acordo com a sua semelhan¸ca. Neste tipo de classifica¸cão cada cluster possui pelo menos um elemento e cada elemento pertence somente a um grupo. O valor de k ´e previamente estipulado: para tal, são efetuados testes para diferentes valores de k [25].

Estes métodos possuem a vantagem das classes poderem ser alteradas no decorrer do processo. A desvantagem é o facto de ser necessário estabelecer à priori o número de grupos e a maioria do algoritmos ser altamente sens´ıvel às condi¸cões iniciais.

Nesta classe de m´etodos existem quatro que se destacam: Forgy/Lloyd [42] que pode ser descrito a partir dos seguintes passos:

1. Selecionar k centros iniciais, elementos de S, denominados por vezes centr´oides. 2. Calcular a distˆancia de cada indiv´ıduo aos centr´oides, afetando esse indiv´ıduo

ao centr´oide “mais semelhante”.

3. Recalculam-se os centróides. Volta-se ao passo 2 até não surgirem altera¸cões.

Um outro método é o de MacQueen, [10, 29] em que após cada afeta¸cão recalcula- se imediatamente o centróide.

O m´etodo de Hartigan [19] inicia-se, tal como os anteriores, com k centr´oides. As parti¸cões são formadas de modo a reduzir a soma das distâncias quadráticas em rela¸cão ao centróide no interior de cada grupo. Este método possui caracter´ısticas muito peculiares, na medida em que para cada ponto são escolhidos dois centros, como se verá de seguida [19]:

1. Para cada ponto P (P = 1, . . . , n), sendo n o n´umero de indiv´ıduos e supondo que existem k grupos L1, L2, . . . , Lk encontrar os dois grupos cujos centros

sejam os mais pr´oximos. Designem-se por IC1(P ) e IC2(P ) esse grupos, sendo IC1(P ) o grupo mais pr´oximo.

2. Recalcular os centros.

3. Para cada ponto P se houve altera¸c˜ao no grupo ent˜ao ele pertence ao conjunto vivo , durante este passo (inicialmente todos os grupos pertencem ao conjunto vivo ). Se P pertencer ao grupo L1 e este for conjunto vivo passar para 4, caso contr´ario, saltar para 5.

4. Calcular o valor m´ınimo, R2 = N C(L) × D(P, L)

N C(L) + 1 para todos os grupos L (L 6= L1, L = 1, . . . , k) (sendo N C(L) o n´umero de elementos do grupo L e D a distˆancia). Se L2 for o grupo com o menor valor, R2, e se esse valor

for maior ou igual a N C(L) × D(P, L)

N C(L) − 1 , n˜ao h´a altera¸c˜ao e L2 passa a ser o novo IC2(P ). Caso contr´ario, o ponto P ´e alocado no grupo L2 e L1 ´e o novo IC2(P ), e recalculam-se os novos centros.

5. Este passo é similar ao anterior, a única diferen¸ca consiste no cálculo do m´ınimo R2 que é feito apenas para os grupos pertencentes ao conjunto vivo .

6. Se o conjunto vivo é vazio STOP, caso contrário ir para o passo seguinte. 7. Para cada ponto P (P = 1, . . . , n), sejam L1 = IC1(P ) e L2 = IC2(P ) (n˜ao é

necess´ario selecionar o ponto P se os grupos L1 e L2 n˜ao sofreram qualquer altera¸c˜ao nos ´ultimos n passos,Calcular os valores R1 = N C(L) × D(P, L)

N C(L) − 1 e R2 = N C(L) × D(P, L)

N C(L) + 1 . Se R1 ´e menor que R2 o ponto P fica em L1. Caso contr´ario trocar IC1(P ) com IC2(P ) e recalcular os centros dos grupos L1 e L2.

8. Se não houve qualquer transferência nos últimos n passos, ir para o passo 4. Caso contrário ir para o passo 6.

No documento Análise Classificatória de Dados Distribucionais: Abordagem Simbólica e Composicional (páginas 37-40)