Multiaula14

(1)

12. ANÁLISE DE AGRUPAMENTOS (CLUSTER ANALYSIS) 12.1. INTRODUÇÃO

Muitas vezes, os procedimentos exploratórios são muito úteis para nos ajudar a entender a complexa natureza das relações multivariadas. Nesta aula, discutiremos algumas formas adicionais de apresentar os dados baseadas em certas medidas de

dis-tância e sugeriremos algumas regras (algoritmos) para agrupar objetos (variáveis ou

itens). Buscar uma estrutura de agrupamento natural dos dados é uma importante téc-nica exploratória. Os agrupamentos também podem fornecer um meio informal para identificar outliers e sugerir hipóteses interessantes com respeito às relações entre os indivíduos.

O agrupamento (clustering) é diferente do método de classificação discutido anteriormente (aula 13). A classificação envolve um número conhecido de grupos e o objetivo operacional é designar novas observações a um desses grupos. A análise

de agrupamentos é uma técnica mais primitiva, na qual nenhuma suposição é feita

sobre o número de grupos ou a estrutura dos grupos. O agrupamento é feito com base em medidas de similaridades ou distâncias (dissimilaridades). As entradas (inputs) necessárias são medidas de similaridade ou dados para os quais serão calculadas as similaridades.

Um problema natural das técnicas de análise de agrupamento é a definição de uma boa medida de proximidade entre as unidades amostrais, uma vez que as técni-cas baseadas em diferentes medidas de proximidade nem sempre levam aos mesmos re-sultados.

Dado um conjunto de n unidades amostrais (tratamentos, genótipos, objetos, indivíduos, entidades etc.) sobre as quais são medidas p variáveis, a análise de agru-pamento tem como objetivo obter um esquema que possibilite reunir as unidades em um número de grupos, de tal modo que exista uma grande homogeneidade dentro de cada grupo e uma heterogeneidade entre os grupos.

Esse tipo de análise visa propor uma estrutura classificatória ou reconhecer a existência de grupos homogêneos e sua aplicação tem sido intensa nas ciências bioló-gicas, ciências sociais, medicina, geologia etc.

A análise de agrupamento relaciona-se com outras técnicas multivariadas, já conhecidas. É comum, por exemplo, quando se trabalha um grande número de variá-veis, tentar reduzir a dimensão através da análise fatorial, canônica ou de componen-tes principais. Daí, os escores dos primeiros fatores, variáveis ou componencomponen-tes são usados na análise de agrupamento. Além disso, para verificar a adequação da partição obtida com essa análise, quando já são conhecidos os grupos e os seus componentes, é comum a utilização da análise discriminante.

(2)

Um conjunto básico de dados para análise pode ser representado por uma matriz X (n x p), onde X representa o valor da j-ésima variável referente ao i-ésimo ij

indivíduo, onde i = 1, 2, ..., n e j = 1, 2, ..., p. Assim, cada vetor linha representa uma unidade amostral e cada vetor coluna, uma variável, como no Quadro 1.

Quadro 1. Matriz de dados de n indivíduos e p variáveis Variável Indivíduo 1 X X ₂ _…_…_…_… X j …… …… X p 1 x 11 x 12 ………… x 1j …… …… x 1p 2 x 21 x 22 ………… x 2j …… …… x 2p i x i1 x i2 … ……… x ij …… …… x ip n x n1 x n2 … ……… x nj …… …… x np

DISTÂNCIAS, MEDIDAS DE SIMILARIDADE E DE DISSIMILARIDADE Um problema fundamental na utilização das técnicas de análise de agrupamen-to é a escolha de um critério para medir (avaliar) a distância entre dois itens ou para quantificar o quanto eles são parecidos. Tecnicamente temos as medidas de

• similaridade: quanto maior o valor observado dessas medidas, mais parecidos são

os itens. Por exemplo: o coeficiente de correlação.

• dissimilaridade: quanto menor o valor observado dessas medidas, mais parecidos

são os itens. Por exemplo: distância euclideana.

OBS: Qualquer medida de similaridade pode ser transformada facilmente numa

medida de dissimilaridade e vice-versa.

Geralmente, os algoritmos utilizados na análise de agrupamento estão baseados em medidas de dissimilaridade, como a distância euclideana e a distância de Mahala-nobis. Quando as p variáveis não são avaliadas na mesma escala de medida ou suas variabilidades são muito diferentes, costuma-se trabalhar com os dados padronizados e não com os dados originais, utilizando

ij Z = jj j ij s x x − ou Z = _ij jj ij s x ou j ij x x = ij

(3)

A distância euclideana entre os itens i e k (do Quadro 1) é calculada por

k i

d = (x_i₁−x_k₁)2 +(x_i₂ −x_k₂)2 + +(x_ip −x_kp)2

= (x_i −x_k) '(x_i −x_k) (12-1) e não preserva a ordem das distâncias com a mudança de escala. Por isso é comum proceder-se à padronização das variáveis antes de se calcular o valor da distância.

Essa distância aumenta à medida que aumenta o número de variáveis. É razoá-vel dividir esse valor pela raiz quadrada do número de variáveis, obtendo-se a

distân-cia euclideana média, que é calculada por ik ∆ = p 1 k i d (Distância de Penrose)

A distância de Mahalanobis entre as unidades amostrais i e k é calculada por

2 ik

D = (X_i −X_k) 'S-1(X_i −X_k)

onde S é a matriz de variâncias e covariâncias amostrais, comum a todas as unidades. Vale observar que, embora D seja o quadrado da distância de Mahalanobis, ela será 2_ik chamada simplesmente de distância de Mahalanobis. Essa medida é muito importan-te quando as variáveis são correlacionadas ou quando exisimportan-tem repetições dentro das unidades experimentais.

Uma outra medida de distância é a métrica de Minkowski, que é calculada por

k i d = m 1 p 1 j m kj ij x x − = (12-3)

Para m = 1, d mede a distância "city-block" entre os dois pontos na dimensão p. _i_k Para m = 2, d coincide com a distância euclideana. Em geral, variando o valor de _i_k

m, muda o peso dado às diferenças menores e maiores. Ex: =

4 3 e 2 1 2 1 x x

Duas outras medidas populares de distância, que são definidas para variáveis não negativas, são

Métrica de Canberra: d = _i_k = − − p 1 j ij kj kj ij ) x x ( x x (12-4) Coeficiente de Czekanowsli: d = 1 _i_k − = = + p 1 j ij kj p 1 j ij kj ) x x ( ) x , x min( 2 (12-5)

(4)

Dentre os diversos coeficientes de similaridade entre os indivíduos i e i', um dos mais utilizados é o coeficiente de correlação momento-produto de Pearson, que é calculado por ik r = − − − = = = = = = = 2 p 1 j kj p 1 j 2 kj 2 p 1 j ij p 1 j 2 ij p 1 j kj p 1 j p 1 j ij kj ij x p 1 x x p 1 x x x p 1 x x

com −1 ≤ r _ik ≤ 1. Quanto maior for o valor desse coeficiente, mais parecidos são os

indivíduos i e k. Note que se trata de um coeficiente de correlação entre observações! Ver Exemplo 12.1. (página 729), que ilustra um método rudimentar de agrupamento, que podem ser formados, reorganizando os elementos da matriz de distâncias.

Quando os itens não podem ser representados por medidas p-dimensionais sig-nificativas, os pares de itens são muitas vezes comparados com base na presença ou

ausência de certas características. Itens similares têm mais características comuns que itens dissimilares.

A presença ou ausência de uma característica pode ser descrita matematica-mente introduzindo uma variável binária, que assume valor 1 se a característica está presente e o valor 0 se a característica está ausente. Por exemplo, para p = 5 variáveis binárias, os "escores" para dois itens i e k podem ser arranjados da seguinte maneira:

Variável

1 2 3 4 5

Item i 1 0 0 1 1

Item k 1 1 0 1 0

Neste caso, existem dois empates (1, 1), um empate (0, 0) e dois desempates.

Seja x o escore (1 ou 0) da j-ésima variável binária no i-ésimo item e seja _ij

kj

x o escore (1 ou 0) da j-ésima variável binária no k-ésimo item, j = 1, 2, ..., p. Con-sequentemente 2 kj ij x ) x ( − = _≠= = = = x x se 1, 0 x ou x 1 x x se , 0 kj ij kj ij kj ij (12-6)

e o quadrado da distância euclideana

= − p 1 j 2 kj ij x ) x

( fornece uma contagem do núme-ro de desempates. Uma distância grande corresponde a muitos desempates - isto é, a itens dissimilares (não similares). No exemplo anterior, o quadrado da distância entre os itens i e k é igual a

(5)

= − p 1 j 2 kj ij x ) x ( = (1−1)2 +(0−1)2 +(0−0)2 +(1−1)2 +(1−0)2 = 2

Embora uma distância baseada em (12-6) possa ser usada como uma medida de similaridade, ela é prejudicada por ponderar os empates 1-1 e 0-0 igualmente. Em muitos casos, o empate 1-1 é uma indicação mais forte de similaridade que o empate 0-0. Por exemplo, em grupos de pessoas, a evidência que duas pessoas lêem livros de pensadores gregos é uma evidência mais forte de similaridade que a ausência dessa habilidade.

Para permitir um tratamento diferencial dos empates 1-1 e 0-0, diversos esque-mas para definir coeficientes de similaridade tem sido sugeridos. Para introduzirmos esses esquemas, vamos arranjar as freqüências de empates e de desempates para os itens i e k na forma de uma tabela de contingência (12-7)

Item k 1 0 Totais 1 a b a + b Item i 0 c d c + d Totais a + c b + d p = a + b + c + d

No exemplo anterior, para os 5 pares de variáveis binárias, a = 2, b = c = d = 1.

A Tabela 12.2 apresenta alguns coeficientes de similaridade definidos em ter-mos das freqüências indicadas em (12-7), que são muito utilizadas no melhoramento genético.

Exemplo 12.2. Supondo cinco indivíduos com as seguintes características: Indivíduo

Altura (in) Peso (lb) Cor dos olhos Cor dos cabelos Mão Sexo

1 68 140 verde louro direita F

2 73 185 castanho castanho direita M

3 67 165 azul louro direita M

4 64 120 castanho castanho direita F

5 76 210 castanho castanho esquerda M

in: polegada; lb: libra

Definindo as seis variáveis binárias

1 X = < ≥ in. 72 altura se 0, in. 72 altura se 1, , X = ₂ < ≥ lb 150 peso se 0, lb. 150 peso se 1, ,

(6)

3 X = contrário caso 0, castanhos olhos se 1, 4 X = contrário caso 0, louros cabelos se 1, , 5 X = contrário caso 0, destro se 1, , X = ₆ (M) masculino sexo se 0, (F) feminino sexo se 1,

os escores dos indivíduos 1 e 2 nas p = 6 variáveis são

Indivíduo X 1 X 2 X 3 X 4 X 5 X 6

1 0 0 0 1 1 1

2 1 1 1 0 1 0

e o número de empates e desempates estão indicados na tabela de contingência Indivíduo 2 1 0 Totais 1 1 2 3 Indivíduo 1 0 3 0 3 Totais 4 2 6

Utilizando o coeficiente de similaridade 1, ver tabela 12.2 que dá pesos iguais para os empates, ob-temos p d a+ ₌ 6 0 1+ ₌ 6 1

Utilizando essa fórmula para os demais pares de indivíduos, construímos uma matriz simétrica de dimensão 5 x 5: 1 6 2 6 2 6 5 0 1 6 2 6 3 6 4 1 6 3 6 4 1 6 1 1

e baseado na magnitude dos coeficientes de similaridade, concluímos que os indiví-duos 2 e 5 são os mais similares e que os indivíindiví-duos 1 e 5 são menos similares. Se quisermos dividir os indivíduos em dois subgrupos relativamente homogêneos com base nos números de similaridade, podemos formar os subgrupos (1, 3 e 4) e (2 e 5).

Vale notar ainda que X = 0 implica uma ausência de olhos castanhos, de mo-₃ do que duas pessoas, uma com olhos azuis e um com olhos verdes, produzirão o em-pate 0-0. Consequentemente, pode ser inapropriado usar os coeficientes de similari-dade 1, 2 e 3 (Tabela 12.2) porque esses coeficientes dão o mesmo peso para os empates 1-1 e 0-0, e trataríamos como iguais quando não são.

(7)

Tabela 12.2. Coeficientes de similaridade para agrupamentos de itens Coeficiente Lógica 1) p d a+

Pesos iguais para os empates 1-1 e empates 0-0

2) c b ) d a ( 2 ) d a ( 2 + + + +

Peso duplo para os empates 1-1 e empates 0-0

3) ) c b ( 2 d a d a + + + +

Peso duplo para os desempates

4) p a

Nenhum empate 0-0 no numerador

5) c b a a + +

Nenhum empate 0 no numerador ou denominador. (Os empates 0-0 são tratados como irrelevantes)

6) c b a 2 a 2 + +

Nenhum empate 0-0 no numerador ou denominador. Peso duplo para os empates 1-1 7) ) c b ( 2 a a +

+ Nenhum empate 0-0 no numerador ou denominador. Peso duplo para os desempates. 8)

c b

a

+

Razão do número de empates pelo número de desempates, com os empates 0-0 excluídos.

1.1) 1-(a+d)/p=(b+c)/p Dissimilaridade Simple matching – mede a proporção de discordância. 5.1) (b+c)/(a+b+c) Dissimilaridade de Jaccard – para presença ou ausência de um atributo. MEDIDAS DE SIMILARIDADE E DE ASSOCIAÇÃO PARA PARES DE VARIÁVEIS

Até agora, discutimos medidas de similaridade para itens (ou indivíduos). Em algumas aplicações, são as variáveis, ao invés dos itens, que devem ser agrupadas. Medidas de similaridade para variáveis muitas vezes tomam a forma de coeficientes de correlação amostrais. Além disso, em algumas aplicações da análise de agrupa-mento, correlações negativas são substituídas pelos seus valores absolutos. O grau de associação é o mesmo e, por outro lado, não existe distância negativa.

Quando as variáveis são binárias, os dados podem ser arranjados na forma de uma tabela de contingência, com as variáveis, ao invés dos itens, delineando as cate-gorias. Para cada par de variáveis, existem n itens categorizados em uma tabela. Com a codificação, a tabela (12-10) fica

Variável k 1 0 Totais 1 a b a + b Variável j 0 c d c + d Totais a + c b + d n = a + b + c + d

(8)

A fórmula usual de correlação momento-produto aplicada às variáveis binárias da tabela de contingência (12-10) dar:

r = ) d b )( c a )( d c )( b a ( bc ad + + + + − _(12-11)

e esse número pode ser usado como uma medida de similaridade entre as duas variá-veis. O coeficiente de correlação (12-11) está relacionado com a estatística quiqua-drado (r = 2 χ2 n, inércia) para testar a independência das variáveis categóricas. Para n fixo, uma similaridade grande (ou correlação alta) é consistente com a ausência de inde-pendência.

Exemplo 12.3 (página 736) - Medidas de similaridades de 11 línguas.

Comparar as 11 línguas olhando para a primeira letra da palavra que denota o núme-ro. As palavras para o mesmo número em duas línguas diferentes serão chamadas

concordantes se têm a mesma primeira letra e discordantes, se não têm. Da Tabela 12.3 foram calculadas as concordâncias (freqüências de empates) para os números 1 a 10, que são apresentadas na Tabela 12.4.

(9)

Da Tabela 12.4 podemos perceber que o E (inglês), N (norueguês), Da (dina-marquês), Du (holandês) e G (alemão) formam um grupo. Fr (francês), Sp (espanhol), I (italiano) e P (polonês) podem ser agrupados em outro, enquanto H (húngaro) e Fi (finlandês) aparecem sozinhos.

12.3. MÉTODOS DE AGRUPAMENTO

Como no processo de agrupamento é desejável ter informações relativas a cada par de itens (ou indivíduos), o número de estimativas de medidas de (dis)similaridade é relativamente grande, o que torna impraticável o reconhecimento de grupos homo-gêneos através de um exame visual daquelas estimativas. Para realizar essa tarefa, fa-zemos uso dos métodos de agrupamento.

Esses métodos são numerosos e o pesquisador deverá decidir qual é o mais in-dicado ao seu trabalho, uma vez que as diversas técnicas podem levar a diferentes padrões de agrupamento.

Os métodos de agrupamento podem ser classificados como:

a) Métodos Hierárquicos: quando os indivíduos são reunidos em grupos e o proces-so é repetido em diferentes níveis até formar um diagrama de árvore, também chamado de dendrograma ou fenograma.

b) Métodos de Otimização: quando os grupos são formados pela otimização de um critério de agrupamento. Tais grupos são mutuamente exclusivos, formando uma partição do conjunto de indivíduos.

12.3.1. MÉTODOS HIERÁRQUICOS DE AGRUPAMENTO

Nos métodos hierárquicos os indivíduos são classificados em grupos em dife-rentes etapas, de modo hierárquico (ordenado), produzindo uma árvore de classifica-ção. Esses métodos podem ainda ser divididos em

• métodos aglomerativos: através de fusões sucessivas dos n indivíduos, vão sendo

obtidos n − 1, n − 2 ... etc. grupos, até que sejam reunidos todos os indivíduos em

um único grupo. O processo inicia-se com tantos agrupamentos quanto o número de indivíduos. Os indivíduos mais similares formarão o primeiro grupo e esses gru-pos iniciais serão fundidos de acordo com suas similaridades. Eventualmente, com a diminuição das similaridades, todos os subgrupos são fundidos em um único agrupamento

• métodos divisivos: partem de um único grupo e por divisões sucessivas vão sendo

divididos em 2, 3 ... etc. grupos, de tal modo que os indivíduos em um subgrupo estão longe dos objetos do outro. Esses objetos são novamente divididos em sub-grupos e o processo continua até que cada objeto forme um grupo.

(10)

Os resultados dos dois métodos podem ser mostrados na forma de um

diagra-ma bidimensional conhecido como dendrograma (diagrama de árvore), que ilustra as fusões ou as divisões que são feitas em cada um dos níveis sucessivos do processo.

Nesta seção nos concentraremos em procedimentos hierárquicos

aglomerati-vos e, em particular, nos métodos de ligação (linkage methods), que são adequados para analisar tanto o agrupamento de itens quanto de variáveis (o que não é verdadei-ro para todos os pverdadei-rocedimentos hierárquicos aglomerativos.

Usa a distância entre os centros geométricos dos grupos: 2, 5, 6; Média pond.=4,375 2 6

MÉTODO DO CENTRÓIDE

Neste método cada grupo é substituído por um valor médio dos indivíduos que pertencem ao grupo, que é chamado centróide do grupo. Em cada passo, calculamos a matriz de distâncias entre os centróides, usando a equação 12-1, e juntamos os indi-víduos mais próximos, ou seja, aqueles que têm a menor distância entre seus repecti-vos centróides.

MÉTODO DA LIGAÇÃO ÚNICA (single linkage) OU MÉTODO DO VIZI-NHO MAIS PRÓXIMO

As entradas para um algoritmo de ligação única podem ser distâncias ou simi-laridades entre pares de objetos. Grupos serão formados a partir dos indivíduos fun-dindo os vizinhos mais próximos, ou seja, aqueles que têm a menor distância (ou a maior similaridade).

O algoritmo do método resume-se em:

1) Calcular a matriz (simétrica) de distâncias (ou similaridades), de dimensão n x n, D =

{ }

dik ;

2) Encontrar a menor distância em D.

3) Ligar os objetos correspondentes, digamos, U e V, para formar o agrupamento (UV), atualizar as entradas na matriz D, apagando as linhas e colunas correspon-dentes aos agrupamentos U e V e adicionando uma linha e uma coluna para dar as distâncias entre o grupo (U V) e os agrupamentos restantes. A distância entre (U V) e um outro agrupamento W é calculada como:

W ) UV (

d = min

{

d_UW,d_VW

}

(12-13) onde d_UW e d_VW são as distâncias entre os vizinhos mais próximos dos agrupa-mentos U e W e dos agrupaagrupa-mentos V e W, respectivamente.

(11)

Exemplo 12.4. (página 741)

Para ilustrar o algoritmo de ligação única vamos considerar as distâncias (eu-clidianas) hipotéticas entre os pares de cinco objetos apresentadas a seguir:

D =

{ }

dik = 0 8 2 10 11 0 9 5 6 0 7 3 0 9 0 5 4 3 2 1

Tratando cada objeto como um grupo, vamos fundir os itens 3 e 5, que estão mais próximos, já que min(d_ik)

k

,i = d = 2. Para implementarmos o próximo nível de agru-53

pamento, calculamos as distâncias entre o grupo (35) e os objetos restantes, 1, 2 e 4. As distâncias dos vizinhos mais próximos são:

1 ) 35 ( d = min{d , ₃₁ d } = min{3, 11} = 3 ₅₁ 2 ) 35 ( d = min{d , ₃₂ d } = min{7, 10} = 7 ₅₂ 4 ) 35 ( d = min{d , ₃₄ d } = min{9, 8} = 8 ₅₄

Apagando as linhas e colunas da matriz D correspondentes aos objetos 3 e 5 e adicio-nando uma linha e uma coluna (primeira) para o grupo (35), obtemos uma nova matriz de distâncias: 0 5 6 8 0 9 7 0 3 0 4 2 1 ) 35 (

A menor distância entre os pares de grupos é d₍₃₅₎₁ = 3 e nós fundimos o grupo (1) com o grupo (35), formando o próximo grupo (135). Calculando

2 ) 135 ( d = min{d₍₃₅₎₂, d } = min{7, 9} = 7 ₁₂ 4 ) 135 ( d = min{d₍₃₅₎₄, d } = min{8, 6} = 6 ₁₄

encontramos que a matriz para o próximo nível de agrupamento é

0 5 6 0 7 0 4 2 ) 135 (

A menor distância entre os pares de grupos é d = 5, e nós fundimos os objetos 2 e 4 ₂₄ num grupo (24). Neste ponto, já temos dois grupos (135) e (24). A menor distância entre vizinhos é ) 24 )( 135 ( d = min{d₍₁₃₅₎₂, d₍₁₃₅₎₄} = min{7, 6} = 6

(12)

A matriz de distâncias final é igual a 0 6 0 ) 24 ( ) 135 (

Consequentemente, os grupos (135) e (24) são fundidos para formar um único grupo com todos os objetos, (12345), quando a menor distância entre vizinhos atinge o valor 6.

O dendrograma (Figura 12.4) apresenta os agrupamentos e os níveis das distân-cias entre eles.

MO: 9 3 6 11 7 5 10 9 2 8

MR: 6 3 6 3 6 5 6 6 2 6 Correlação cofenética=0,51 Exemplo 12.5. (página 742)

Considerando que a matriz de concordâncias da Tabela 12.4 representa a proximida-de entre os números 1-10 nas 11 línguas, vamos proximida-desenvolver uma matriz proximida-de distânci-as, subtraindo o número de concordâncias de 10, que é o número máximo de concor-dâncias para cada língua.

A menor distância entre pares de línguas ocorre entre Da e N, I e Fr e I e Sp. Nume-rando as línguas na ordem que aparecem na primeira linha da matriz, temos que

32

(13)

Desde que d = 2, nós podemos fundir somente as língua 8 e 6 ou as línguas 8 e 7. ₇₆ Não podemos fundir as línguas 6, 7 e 8 no primeiro nível, pois somente se pode fundir aos pares. Escolhemos juntar as lín-guas 6 e 8 e então atualizar a matriz de distâncias e juntar as línguas 2 e 3 para obter os grupos (68) e (23). Continuando a análise, obtemos o dendrograma apresentado na Figura 12.5.

Nesse dendrograma, podemos perceber que, por exemplo, o norueguês (N) e o dinamarquês (Da), como também o francês (Fr) e o italiano (I), formaram grupos no nível de menor distância (ou máxima similaridade). Quando a distância é aumentada, o inglês (E) é incluído ao grupo (N-Da) e o espanhol (Sp) é incluído ao grupo (Fr-I).

MÉTODO DA LIGAÇÃO COMPLETA (complete linkage) OU DO VIZINHO MAIS DISTANTE

Esse tipo de agrupamento trabalha de modo muito parecido que o agrupamento de ligação única, com uma exceção: em cada estágio, a distância (similaridade) entre grupos é determinada pela distância entre os dois elementos, um de cada grupo, que estão mais distantes. Assim, a ligação completa assegura que todos os itens em um grupo estão dentro de alguma distância máxima (ou similaridade mínima) de cada outro.

O algoritmo aglomerativo geral novamente inicia procurando a menor distância D =

{ }

dik e juntando os objetos correspondentes, tais como U e V, num grupo (UV).

No passo 3, as distâncias entre (UV) e qualquer outro grupo W são calculadas por

W ) UV (

d = max

{

d_UW,d_VW

}

(12-14) onde d_UW e d_VW são as distâncias entre os membros mais distantes dos grupos U e W e dos grupos V e W, respectivamente.

Ver os Exemplos 12.6 (página 745), 12.7 (página 746) e 12.8 (página 747) X2 Atribuição de um objeto × a um dos grupos A ou B: a

2 b1 Por ligação simples seria ao A.

a1 b2 Por ligação completa seria ao B (o mais próximo dos

× vizinhos mais distantes)

(14)

MÉTODO DA LIGAÇÃO MÉDIA (average linkage)

Esse tipo de agrupamento trata as distâncias entre dois grupos como a média das distâncias de todos os pares de itens onde um membro de um par pertence a cada grupo. Iniciamos o processo procurando na matriz de distâncias D =

{ }

dik os objetos

mais próximos, por exemplo, os objetos U e V. Esses objetos são juntados no grupo (UV). No passo 3, as distâncias entre (UV) e um outro grupo W são calculadas por

W ) UV ( d = W ) UV ( i k ik n n d (12-15) onde d é a distância entre o objeto i no grupo (UV) e o objeto k no grupo W, e _ik

) UV (

n e n correspondem aos números de objetos nos grupos (UV) e W, respectiva-_w mente.

Exemplo 12.10

Vamos aplicar o método de ligação média (ou average linkage) aos dados de 8 variá-veis avaliadas em 22 companhias de utilidade pública dos USA, apresentados na Ta-bela 12.1 (pág. 747). Os comando do SAS são os seguintes:

data Ex12_10;

title 'Método da ligação média - Companhias de utilidade pública'; input cia X1 X2 X3 X4 X5 X6 X7 X8 company $;

cards; 1 1.06 2 0.89 3 1.43 4 1.02 5 1.49 6 1.32 7 1.22 8 1.10 9 1.34 10 1.12 11 0.75 12 1.13 13 1.15 14 1.09 12.0 15 0.96 16 1.16 17 0.76 18 1.05 19 1.16 20 1.20 21 1.04 22 1.07 ; 9.2 151 54.4 1.6 9077 0.0 0.628 Arizona 10.3 202 57.9 2.2 5088 25.3 1.555 Boston 15.4 113 53.0 3.4 9212 0.0 1.058 Central 11.2 168 56.0 0.3 6423 34.3 0.700 Common 8.8 192 51.2 1.0 3300 15.6 2.044 Consolid 13.5 111 60.0 -2.2 11127 22.5 1.241 Florida 12.2 175 67.6 2.2 7642 0.0 1.652 Hawaiian 9.2 245 57.0 3.3 13082 0.0 0.309 Idaho 13.0 168 60.4 7.2 8406 0.0 0.862 Kentucky 12.4 197 53.0 2.7 6455 39.2 0.623 Madison 7.5 173 51.5 6.5 17441 0.0 0.768 Nevada 10.9 178 62.0 3.7 6154 0.0 1.897 NewEngla 12.7 199 53.7 6.4 7179 50.2 0.527 Northern 96 49.8 1.4 9673 0.0 0.588 Oklahoma 7.6 164 62.2 -0.1 6468 0.9 1.400 Pacific 9.9 252 56.0 9.2 15991 0.0 0.620 Puget 6.4 136 61.9 9.0 5714 8.3 1.920 SanDiego 12.6 150 56.7 2.7 10140 0.0 1.108 Southern 11.7 104 54.0 -2.1 13507 0.0 0.636 Texas 11.8 148 59.9 3.5 7287 41.1 0.702 Wisconsi 8.6 204 61.0 3.5 6650 0.0 2.116 United 9.3 174 54.3 5.9 10093 26.6 1.306 Virginia

proc cluster simple noeigen standard method=average outtree=tree; id cia;

var X1 X2 X3 X4 X5 X6 X7 X8; proc tree data=tree;

run;

noeigen: suprime cálculo do autovalor para o critério de agrupamento cúbico (somente para dados de coordenadas).

(15)

Resultando em

Método da ligação média - Companhias de utilidade pública Average Linkage Cluster Analysis

Simple Statistics

Mean Std Dev Skewness Kurtosis Bimodality X1 1.11 0.18 -0.02 0.40 0.26 X2 10.74 2.24 -0.07 -0.45 0.33 X3 168.18 41.19 0.11 -0.08 0.30 X4 56.98 4.46 0.47 -0.17 0.37 X5 3.24 3.12 0.26 -0.26 0.33 X6 8914.05 3549.98 0.94 0.55 0.47 X7 12.00 16.79 1.06 -0.30 0.67 X8 1.10 0.56 0.54 -1.04 0.53 The data have been standardized to mean 0 and variance 1

Root-Mean-Square Total-Sample Standard Deviation = 1

Bimodality: maior que 0,555, ocorre bimodalidade na distribuição marginal de Xj.Se igual

a 1 (Bernoulli) ocorre apenas dois valores na variável.

• apresenta algumas estatísticas descritivas sobre as 8 variáveis que indicam, por

exemplo, a necessidade de padronizá-las, já que as unidades de medida são muito diferentes [vale comparar os desvios padrões das variáveis X6 (3549.98) e X1 (0.18)]

ℵ ℜ

Number Frequency ℘

of ℑ of New RMS ⊗

Clusters ---Clusters Joined--- Cluster Distance Tie 21 12 21 2 1.38412 20 10 13 2 1.40703 19 4 20 2 1.81646 18 14 19 2 1.87605 17 1 18 2 1.87725 16 CL19 CL20 4 2.12386 15 8 16 2 2.20146 14 CL21 15 3 2.21602 13 CL17 CL18 4 2.32868 12 2 CL14 4 2.41858 11 CL16 22 5 2.62503 10 3 9 2 2.75262 9 CL12 7 5 2.75637 8 CL13 6 5 3.15629 7 CL8 CL10 7 3.30748 6 CL15 11 3 3.44631 5 CL7 CL11 12 3.62416 4 CL9 17 6 3.67292 3 CL5 CL4 18 4.16427 2 CL3 5 19 4.39831 1 CL2 CL6 22 4.67796

• Mostra a formação dos agrupamentos, passo a passo. A coluna ℵ fornece o

núme-ro de grupos formados até aquele passo; a coluna ℑ indica os grupos (ou itens) que

foram juntados para formar o grupo; a coluna ℜ indica o número de elementos no

novo grupo; a coluna ℘ indica a raiz quadrada média da distância e a coluna ⊗, os

(16)

• O primeiro grupo foi formado pelas companhias 12 e 21; o segundo, pelas

com-panhias 10 e 13 etc.

Método da ligação média - Companhias de utilidade pública Average Linkage Cluster Analysis

Name of Observation or Cluster

1 1 1 2 1 1 2 1 2 1 1 1 1 1 8 4 9 6 3 9 4 0 0 3 2 2 2 1 5 7 7 5 8 6 1 A 1.2 + v |XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX e |XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXX r |XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXX a |XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX . XXXXXXX g 1 +XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXX . XXXXXXX e |XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXX . XXXXXXX |XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXX . XXXXXXX D |XXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXX XXXXXXXXXXXXX . . XXXXXXX i |XXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXX XXXXXXXXXXXXX . . XXXX . s 0.8 +XXXXXXXXXXXXX XXXX XXXXXXXXXXXXX XXXXXXXXXXXXX . . XXXX . t |XXXXXXXXXX . XXXX XXXXXXXXXXXXX XXXXXXXXXXXXX . . XXXX . a |XXXXXXXXXX . XXXX XXXXXXXXXXXXX XXXXXXXXXXXXX . . XXXX . n |XXXXXXXXXX . XXXX XXXXXXXXXXXXX XXXXXXXXXXXXX . . XXXX . c |XXXXXXXXXX . . . XXXXXXXXXXXXX XXXXXXXXXX . . . XXXX . e 0.6 +XXXXXXXXXX . . . XXXXXXXXXX . XXXXXXXXXX . . . XXXX . |XXXX XXXX . . . XXXXXXXXXX . . XXXXXXX . . . XXXX . B |XXXX XXXX . . . XXXXXXXXXX . . XXXX . . . . e |XXXX XXXX . . . XXXX XXXX . . XXXX . . . . t |. . . XXXX XXXX . . XXXX . . . . w 0.4 +. . . XXXX . . XXXX . . . . e |. . . XXXX . . XXXX . . . . e |. . . . n |. . . . |. . . . C 0.2 +. . . . l |. . . . u |. . . . s |. . . . t |. . . . e 0 +. . . . r

• O dendrograma mostra o resultado final da aplicação do método de agrupamento.

Embora de baixa qualidade gráfica, o diagrama de árvore indica a formação de grupos importantes (ver comentários na página 750)

(17)

MÉTODO HIERÁRQUICO DE AGRUPAMENTO DE WARD (menor aumento da variância intra-grupo)

O método de Ward não calcula distâncias entre grupos. Ao invés disso, ele forma grupos maximizando a homogeneidade dentro dos grupos, ou minimizando o total das somas de quadrados dentro de grupos, também conhecida como soma de quadrados de erros - ESS . Em cada passo do procedimento, são formados grupos de tal modo que a solução resultante tenha a menor soma de quadrados dentro de grupos. Para um certo grupo i, seja ESS a soma de quadrados dos desvios de todos os _i seus itens em relação à média do grupo (centróide). Se existirem k grupos, definimos ESS = ESS + ₁ ESS + ... + ₂ ESS . _K

Em cada passo do algoritmo são consideradas as uniões de todos os possíveis pares de grupos, e os dois grupos cuja combinação resulta em um menor aumento de ESS (mínima perda de informação) são juntados. Inicialmente, cada grupo é formado por um único item e, se existem n itens, ESS , para i = 1, 2, ..., n, ESS = 0. Na outra _i extremidade, quando todos os grupos forem combinados em um único grupo de n itens, o valor de ESS é calculado por

ESS =

= − −

n 1

j (xj x) '(xj x)

onde x é o vetor multivariado de medidas associado com o j-ésimo item e x é a _j média de todos os itens. Os resultados do método de Ward podem ser apresentados em um dendrograma, usando como eixo vertical os valores de ESS.

O método de Ward é baseado na noção que os grupos de observações multiva-riadas devem ser agrupadas, aproximadamente, numa elipse. É um método hierárqui-co precursor de métodos de agrupamentos não hierárquihierárqui-cos que otimizam algum cri-tério para dividir os dados em um certo número de grupos elípticos.

(18)

AVALIANDO A QUALIDADE DOS AGRUPAMENTOS E DETERMINAN-DO O NÚMERO DE GRUPOS

Após obtermos um agrupamento, o próximo passo consiste em avaliar a solu-ção e determinar o número de grupos presentes nos dados. Existem algumas estatísti-cas que podem auxiliar nessa avaliação, como:

1. RMSSTD (root-mean-square standard deviation) de um grupo: é o desvio padrão ponderado de todas as variáveis que formam o grupo. Desde que o objetivo de uma análise de agrupamentos é formar grupos homogêneos, o RMSSTD de um grupo deverá ser tão pequeno quanto possível. Um valor mais alto de RMSSTD sugere que o novo grupo não será homogêneo e vice-versa.

2. RS (R-squared): é calculado dividindo-se a soma de quadrados entre grupos (SQ ) b

pela soma de quadrados dentro do grupo (SQ ). Como _w SQ = _t SQ +_b SQ , a um _w maior valor de SQ corresponde um menor valor de _b SQ . Para um particular con-_w junto de dados, maior diferença entre grupos implica em grupos mais homogêneos e vice-versa. Então, 0 ≤ RS ≤ 1 mede o quanto cada grupo é diferente de cada

outro. Valores próximo de zero indicam pouca diferença entre grupos e valores próximos de um indicam diferenças máximas entre grupos.

3. SPR (semipartial R-squared). Como discutido anteriormente, um novo grupo for-mado em um certo passo, é obtido juntando-se dois grupos forfor-mados em passos anteriores.

A diferença entre a SQ ponderada do novo grupo e a soma ponderada das _w SQ 's _w dos grupos juntados para formar o novo grupo é chamada de perda de

homogenei-dade. Se a perda de homogeneidade é nula, concluímos que o novo grupo foi obti-do juntanobti-do-se obti-dois grupos perfeitamente homogêneos. Por outro laobti-do, se a perda de homogeneidade é grande então o novo grupo foi obtido juntando-se grupos muito heterogêneos. Usualmente, SPR é a razão entre esse valor e a SQ total amos-tral. Assim SPR é a perda de homogeneidade devida à combinação de dois grupos para formar um novo grupo. Um valor pequeno de SPR implica que estamos juntando dois grupos homogêneos e vice-versa. Assim, para uma boa solução de agrupamento, o valor de SPR deve ser pequeno.

4. Distância entre grupos. O cálculo dessa distância depende do método de agrupa-mento utilizado. Por exemplo: no método centróide, a distância corresponde à dis-tância euclidiana entre os centróides dos dois grupos que são juntados. Um valor alto da distância indica que dois grupos dissimilares estão sendo juntados.

Essas estatísticas podem ser usadas para determinar o número de grupos no conjunto de dados. Essencialmente, procuraremos olhar para um grande salto no va-lor de uma certa estatística. Se os vava-lores da estatística forem colocados num gráfico, deveremos procurar por um cotovelo. Como as distribuições amostrais dessas

(19)

estatís-ticas não são conhecidas, elas são basicamente heurísestatís-ticas (conjunto de métodos que auxiliam na solução de um problema).

Além da análise do comportamento dessas estatísticas em função do número de grupos, devemos avaliar também o dendrograma e os itens que compõem cada um dos grupos.

Para os dados do Exemplo 12.10 (companhias), temos os seguintes valores para as estatísticas mencionadas anteriormente:

Number Frequency RMS STD

of of New of New Semipartial RMS Clusters ---Clusters Joined--- Cluster Cluster R-Squared R-Squared Distance Tie 21 12 21 2 0.346031 0.005702 0.994298 1.38412 20 10 13 2 0.351758 0.005892 0.988406 1.40703 19 4 20 2 0.454116 0.009820 0.978586 1.81646 18 14 19 2 0.469013 0.010475 0.968111 1.87605 17 1 18 2 0.469312 0.010488 0.957623 1.87725 16 CL19 CL20 4 0.492891 0.018994 0.938629 2.12386 15 8 16 2 0.550364 0.014424 0.924205 2.20146 14 CL21 15 3 0.494497 0.017587 0.906619 2.21602 13 CL17 CL18 4 0.547101 0.021797 0.884822 2.32868 12 2 CL14 4 0.552324 0.020292 0.864530 2.41858 11 CL16 22 5 0.563945 0.025872 0.838658 2.62503 10 3 9 2 0.688156 0.022550 0.816108 2.75262 9 CL12 7 5 0.610718 0.027463 0.788645 2.75637 8 CL13 6 5 0.654710 0.038887 0.749758 3.15629 7 CL8 CL10 7 0.743132 0.053587 0.696171 3.30748 6 CL15 11 3 0.771910 0.042323 0.653847 3.44631 5 CL7 CL11 12 0.811930 0.126949 0.526898 3.62416 4 CL9 17 6 0.727805 0.055076 0.471823 3.67292 3 CL5 CL4 18 0.919966 0.213700 0.258122 4.16427 2 CL3 5 19 0.940490 0.073030 0.185092 4.39831 1 CL2 CL6 22 1.000000 0.185092 0.000000 4.67796

que foram obtidas utilizando-se os seguintes comandos:

proc data=Ex12_10 cluster noeigen method=average RMSSTD Rsquare nonorm standard; id cia;

var X1 X2 X3 X4 X5 X6 X7 X8; run;

nonorm: impede que as distâncias sejam normalizadas para média unitária ou RMS em alguns métodos.

Uma análise dos gráficos sugeridos anteriormente (Figuras 12.1 e 12.2) não sinaliza para a escolha de um número de grupos "ótimo". Johnson & Wichern, utili-zando um método não hierárquico de agrupamento, sugerem a escolha de 5 grupos.

(20)

Número de grupos 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 RMSSTD Distância

Figura 12.1. Gráfico de RMSSTD e distância entre grupos em função do número de grupos Número de grupos 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 SPR RS

Figura 12.2. Gráfico de SPR e RS em função do número de grupos. 12.4. MÉTODOS NÃO HIERÁRQUICOS DE AGRUPAMENTO

Os métodos não hierárquicos de agrupamento foram desenvolvidos para agru-par itens (indivíduos, objetos etc.) ao invés de variáveis, em uma coleção de k grupos (ou cluster), que pode ser definido antecipadamente ou determinado durante a execu-ção do procedimento. Para esse método não há construexecu-ção de dendrograma.

(21)

1. Selecionar k centróides de grupos ou sementes iniciais, onde k é o número de gru-pos desejados.

2. Designar cada observação ao grupo mais próximo;

3. Realocar cada observação a um dos k grupos de acordo com uma regra de parada pré-determinada;

4. Parar o processo se não existe mais nenhuma realocação de pontos ou se a realoca-ção satisfizer o critério estipulado na regra de parada. Caso contrário, voltar para o passo número 2.

Muitos dos algoritmos não hierárquicos diferem com respeito ao método usado para obter os centróides ou os pontos-sementes ou ainda quanto à regra usada para realocar os itens.

MÉTODO DE K MÉDIAS (K-means method)

MacQueeen (1967) sugeriu o termo K-means para descrever um algoritmo que designa cada item ao grupo que tem o centróide (média) mais próximo. Na sua versão mais simples, o processo é composto de três passos:

1. Dividir os itens em K grupos iniciais;

2. Prosseguir, designando cada item ao grupo cujo centróide está mais próximo. (usualmente, são calculadas as distâncias euclidianas com as observações padroni-zadas ou não). Recalcular o centróide do grupo que recebeu um novo item e do grupo que perdeu um item.

3. Repetir o passo 2 até que não seja mais necessário fazer uma realocação.

Ao invés de iniciar com uma partição de todos os itens em K grupos prelimina-res no passo 1, podemos especificar K centróides iniciais (pontos sementes) e então seguir com o passo 2. A alocação final dos itens nos grupos será, de certa forma, de-pendente da partição inicial ou da seleção inicial dos pontos sementes.

(22)

Exemplo 12.12. (pág. 755)

Suponha que medimos as variáveis X e ₁ X nos itens A, B, C e D. Os dados foram ₂ os seguintes: Observações Item x 1 x 2 A 5 3 B -1 1 C 1 -2 D -3 -2

O objetivo é dividir esses itens em K = 2 grupos tais que os itens dentro de cada gru-po estejam mais próximos um do outro que em relação aos itens de um outro grugru-po.

Para implementar o método K = 2-means, vamos dividir os itens

arbitraria-mente em dois grupos: (AB) e (CD) e calcular as coordenadas (x ,₁ x ) do centróide ₂ de cada grupo. Assim, no passo 1, temos

Coordenadas do centróide Grupo x ₁ x ₂ (AB) 2 ) 1 ( 5+ − _{= 2} 2 1 3+ _{= 2} (CD) 2 ) 3 ( 1+ − ₌₋₁ 2 ) 2 ( 2+ − − ₌₋₂

No passo 2, calculamos a distância euclidiana de cada item aos centróides e re-alocamos cada item ao grupo mais próximo. Se um item for movido da configuração inicial, os centróides dos grupos devem ser atualizados antes de prosseguir.

Por exemplo:

2

d (A, (AB)) = (5−2)2 + (3−2)2 = 10

2

d (A, (CD)) = (5−(−1))2 + (3−(−2))2 = 61

e desde que o item A está mais próximo do grupo AB, ele não será re-alocado. Conti-nuando o passo 2,

2

d (B, (AB)) = (−1−2)2 + (1−2)2 = 10

2

d (B, (CD)) = (−1−(−1))2 + (1−(−2))2 = 9

e, consequentemente, o item B será re-alocado no grupo (CD) formando um novo grupo (BCD). As coordenadas dos novos centróides deverão ser atualizadas:

(23)

Coordenadas do centróide

Grupo x ₁ x ₂

A 5 3

(BCD) −1 −1

Novamente, devemos verificar a necessidade de re-alocar cada um dos itens. Calcu-lando o quadrado das distâncias, temos:

Quadrado das distâncias aos centróides Item

Grupo

A B C D

A 0 40 41 89

(BCD) 52 4 5 5

E podemos perceber que os itens estão bem alocados nos grupos com centróides mais próximos. Os K = 2 grupos finais são (A) e (BCD).

• Para conferir a estabilidade do agrupamento, é desejável reinicializar o algoritmo

com uma nova partição inicial.

• Uma vez que os grupos forem determinados, intuições com respeito a suas

inter-pretações são auxiliadas com o re-arranjo da lista de itens de modo que aquelas no primeiro grupo apareçam primeiro, aquelas no segundo grupo apareçam depois, e assim por diante.

• Uma tabela dos centróides dos grupos e as variâncias dentro dos grupos também

auxiliam a delinear as diferenças entre os grupos.

Exemplo 12.13 (página 757)

A aplicação do método K-means aos dados do Exemplo 12.10 (companhias de utili-dade pública), para K = 4 grupos, pode ser feita (a partir dos dados padronizados) com os comandos:

proc fastclus radius=0 cluster=Grupo replace=full distance maxclusters=4 maxiter=20 out=saida ;

id company;

var X1 X2 X3 X4 X5 X6 X7 X8; proc sort data=saida;

by Grupo;

proc print data=saida;

var cia company grupo distance; run;

radius=: estabelece o critério de distância mínima para selecionar novas sementes. Nenhuma observação é considerada como uma nova semente a menos que sua distãncia mínimaàs sementes anteriores exceda o valor dado em radius=.

(24)

cluster=: especifica um nome para a variável no outseed= e out= dataset que indica os membros do grupo. O nome padrão é cluster.

replace=: especifica como a troca de semente é realizada. FULL: requer a

substituição padrão de semente.

distance: calcula distância entre as médias do cluster.

maxcluster=: especifica o número máximo de cluster.

maxiter=: especifica o número máximo de iterações para recalcular sementes de cluster. Quando o número é maior do que 0, cada observação é associada à semente mais próxima e as sementes são recalculadas como as dos grupos.

Resultando em:

Método da ligação média - Companhias de utilidade pública

FASTCLUS Procedure: Replace=FULL Radius=0 Maxclusters=4 Maxiter=20 Converge=0.02 Initial Seeds Cluster X1 X2 X3 X4 X5 X6 X7 X8 --- 1 0.24881 0.42942 -1.55814 -0.66738 -1.71279 1.29380 -0.71463 -0.83929 2 -1.91908 -1.93238 -0.78128 1.10347 1.84690 -0.90143 -0.22034 1.46966 3 0.19462 0.87504 0.74817 -0.73463 1.01310 -0.48875 2.27490 -1.03530 4 2.03732 -0.86289 0.57823 -1.29502 -0.71864 -1.58143 0.21439 1.69264 Minimum Distance Between Initial Seeds = 4.758055

• apresenta as opções selecionadas, os pontos sementes iniciais e a distância mínima

entre eles.

• vale notar que as sementes correspondem às companhias 16, 17, 13 e 5,

respectiva-mente.

Cluster Listing

Obs COMPANY Cluster Distance from Seed --- 1 Arizona 1 1.52439 2 Boston 2 1.88777 3 Central 1 2.56681 4 Common 3 2.00508 5 Consolid 4 0.00000 6 Florida 1 2.63480 7 Hawaiian 2 2.24180 8 Idaho 3 2.50635 9 Kentucky 3 2.40446 10 Madison 3 1.68512 11 Nevada 1 3.80724 12 NewEngla 2 1.08454 13 Northern 3 1.99931 14 Oklahoma 1 1.47334 15 Pacific 2 1.58288 16 Puget 3 3.13835 17 SanDiego 2 2.77680 18 Southern 1 1.18357 19 Texas 1 1.53095 20 Wisconsi 3 1.90401 21 United 2 1.09833 22 Virginia 3 1.62995 Criterion Based on Final Seeds = 0.74049

(25)

• lista os itens, a composição dos grupos e a distância de cada item ao centróide do

grupo que faz parte.

Cluster Summary Maximum Distance

RMS Std from Seed Nearest Distance Between Cluster Frequency Deviation to Observation Cluster Cluster Centroids --- 1 7 0.8692 3.8072 3 2.4121 2 6 0.7278 2.7768 3 2.9780 3 8 0.8351 3.1383 1 2.4121 4 1 . 0 2 3.8910 • apresenta um resumo dos grupos formados após o uso do método de agrupamento.

Vale observar que os quatro grupos são formados por 7, 6, 8 e 1 itens, respectiva-mente.

Statistics for Variables

Variable Total STD Within STD R-Squared RSQ/(1-RSQ) --- X1 1.000000 0.891782 0.318336 0.466998 X2 1.000000 0.951486 0.224006 0.288669 X3 1.000000 0.772504 0.488489 0.954993 X4 1.000000 0.687475 0.594895 1.468499 X5 1.000001 0.958228 0.212972 0.270603 X6 1.000001 0.799272 0.452427 0.826240 X7 1.000001 0.887316 0.325146 0.481803 X8 1.000002 0.497001 0.788278 3.723165 OVER-ALL 1.000000 0.818639 0.425569 0.740852 • apresenta algumas estatísticas básicas sobre as oito variáveis

Cluster Means Cluster X1 X2 X3 X4 X5 X6 X7 X8 --- 1 0.04751 0.42942 -0.96856 -0.62255 -0.52165 0.71544 -0.52321 -0.43469 2 -0.61834 -0.62522 0.20194 1.14830 0.05636 -0.74030 -0.37220 1.17595 3 0.16752 0.20104 0.62375 -0.15462 0.50400 0.12689 0.71016 -0.71319 4 2.03732 -0.86289 0.57823 -1.29502 -0.71864 -1.58143 0.21439 1.69264

Cluster Standard Deviations

Cluster X1 X2 X3 X4 X5 X6 X7 X8 --- 1 1.17901 1.17507 0.71135 0.75496 0.98522 0.85859 0.50645 0.48269 2 0.90105 0.97128 0.61488 0.70287 0.97891 0.24506 0.60229 0.47870 3 0.52306 0.68600 0.91145 0.61147 0.91904 0.98385 1.24323 0.52132 4 . . . . • apresenta a média e o desvio padrão de cada uma das oito variáveis em cada um

(26)

Distance Between Cluster Centroids Nearest Cluster 1 2 3 4 --- 1 . 3.336432441 2.412071248 4.342600422 2 3.336432441 . 2.978007333 3.890966096 3 2.412071248 2.978007333 . 4.046936185 4 4.342600422 3.890966096 4.046936185 .

• apresenta a distância entre os centróides dos quatro grupos.

COMENTÁRIOS FINAIS SOBRE OS PROCEDIMENTOS NÃO HIERÁR-QUICOS

Existem fortes argumentos para não fixarmos antecipadamente o número de grupos, K, como:

1. Se dois ou mais pontos sementes inadvertidamente situam-se em um único grupo, os grupos resultantes da aplicação do método serão pouco diferenciados.

2. A existência de um outlier pode produzir no mínimo um grupo com itens muito dispersos.

3. Mesmo se soubermos que a população é formada por K grupos, pode ser que os da-dos de um grupo muito raro não apareça na amostra. Neste caso, forçar a existência de K grupos pode gerar grupos absurdos.

Após o uso de um procedimento de agrupamento (hierárquico ou não), pode-mos dar nomes aos grupos ou traçar um perfil de cada grupo usando os centróides. Isso pode auxiliar muito na apresentação dos resultados finais.

A escolha por uma técnica de agrupamento hierárquico ou não hierárquico depende do objetivo do estudo e das propriedades já conhecidas dos vários algorit-mos de agrupamento.

ALGUMAS CARACTERÍSTICAS IMPORTANTES DOS MÉTODOS DE AGRUPAMENTO

MÉTODOS HIERÁRQUICOS:

• Não requerem o conhecimento a priori do número de grupos ou da partição inicial,

mas têm uma desvantagem: uma vez que um item foi designado a um grupo ele não pode ser re-alocado em um outro grupo.

• Muitas vezes são usados de forma exploratória e a solução resultante é submetida a

um método não hierárquico para refinar ainda mais a solução. Os dois métodos po-dem ser vistos como complementares ao invés de competidores.

• Comparado com o método de ligação única (single-linkage), o método de ligação

completa (complete-linkage) é menos afetado pela presença de noise ou de outliers nos dados.

(27)

• A técnica do vizinho mais distante (complete-linkage) tipicamente identifica

gru-pos compactos nos quais os itens são bastante similares.

• O método de Ward tende a encontrar grupos compactos, de tamanhos e forma

se-melhantes.

MÉTODOS NÃO HIERÁRQUICOS:

• Requerem o conhecimento a priori do número de grupos. Consequentemente, os

centróides ou a partição inicial tem que ser identificados antes do uso da técnica de agrupamento.

• São mais sensíveis a partição inicial. Iniciando o processo com partições

diferen-tes, podemos ter soluções diferentes.

• Têm uma baixa performance quando partições iniciais aleatórias são usadas.

• A performance é muito superior quando os resultados de um método hierárquico

são usados para formar a partição inicial.

• Os métodos hierárquicos e não hierárquicos devem ser vistos como

comple-mentares e não como competidores.

A identificação visual dos grupos determinados e seus componentes não é mui-to simples. Uma alternativa consiste em tentar visualizar os grupos num gráfico de dispersão com os escores dos dois primeiros componentes principais, desde que esses componentes expliquem uma grande parte da variabilidade dos dados originais. Caso contrário, podem ser feitos gráficos de dispersão adicionais envolvendo os escores de outros componentes.

Também podemos construir gráficos de dispersão tridimensionais com os esco-res dos três primeiros componentes principais e tentarmos identificar os grupos e seus componentes.