2. METODOLOGIA

2.5.3 Técnicas de Análise de Cluster

Os métodos de Cluster são divididos em quatro grupos distintos, a saber: 1) Técnicas Hierárquicas; 2) Técnicas de Otimização; 3) Técnicas de Densidade; 4) Técnicas de 11 Aldenderfer & Blashfield (1984: 25) listam outras três formas de se calcular distância.

“Clumping”. (EVERITT, 1986: 23)

Trataremos aqui apenas dos métodos hierárquicos aglomerativos, que são mais conhecidos e utilizados. Os agrupamentos por estes métodos são feitos por etapas. Na primeira são criados os primeiros agrupamentos. Estes são muitos e geralmente possuindo poucos componentes, pois só são unidos elementos que possuem altíssima similaridade (ou distância mínima).

Na segunda etapa em diante são formados grupos de agrupamentos feitos em etapas precedentes, tendo como critério para as novas junções, a menor distância. A última etapa se dá quando todos os elementos estão contidos em um único grupo.

Os métodos hierárquicos aglomerativos tem em comum a seguinte formulação:

d

k(ij)

= α

i

d

ki

+ α

j

d

kj

+ βd

ij

+ γ |d

ki

- d

kj

|

Esta formulação mostra a distância considerada entre um grupo k e um outro grupo

formado pelos grupos, ou membros, i e j. Os valores α, β e γ são parâmetros, ou seja,

coeficientes de variação. O que vai diferenciar um método hierárquico aglomerativo de outro são os valores assumidos pelos parâmetros.

Vizinho próximo (“The Nearest Neighbour” ou “Single Link Method”): é o método

em que a fusão entre dois grupos ocorre observando a distância entre os dois componentes mais próximos dos dois grupos.

Supondo os cinco elementos propostos no exemplo de Everitt (1986: 25) numa matriz de distância (semelhante à Tabela 4):

1 2 3 4 5 1 0 2 6 10 9 2 2 0 5 9 8 D1= 3 6 5 0 4 5 4 10 9 4 0 3 5 9 8 5 3 0

Na primeira etapa, apenas os componentes 1 e 2 são fundidos pela menor distância existente entre os elementos (distância 2 entre eles). Forma-se assim uma segunda matriz de distância D2:

(1; 2) 3 4 5

(1; 2) 0 5 9 8

D2= 3 5 0 4 5

4 9 4 0 3

5 8 5 3 0

A próxima fusão nessa nova matriz se dá entre os elementos 4 e 5 por terem menor distância. Cria-se assim uma terceira matriz:

(1; 2) 3 (4;5)

(1; 2) 0 5 8

D3= 3 5 0 4

(4;5) 8 4 0

A formulação para o próximo agrupamento é:

d(12)3 = min {d13, d23} = d23 = 5

d(12) (45) = min {d14, d24, d15, d25} = d25 = 8

d(45)5 = min {d34, d35} = d34 = 4

Os próximos grupos a se fundirem são o do elemento 3 com o grupo (4;5). A melhor forma gráfica para se representar as várias etapas desse método de agrupamento é o dendrograma da Figura 4.

Figura 4

Dendrograma do método Single Linkage12

Obs.: No dendrograma, os números na vertical são as distâncias em que ocorreram as fusões. Na horizontal temos os elementos analisados.

Tomando a fórmula apresentada:

d

k(ij)

= α

i

d

ki

+ α

j

d

kj

+ βd

ij

+ γ |d

ki

- d

kj

|

os coeficientes desse método são:

α

i

= α

j

= 1/2; β = 0; γ = -1/2.

Apesar de ter propriedades matemáticas desejáveis, como o fato de ser invariável em caso de alterações monotônicas na matriz de distância, os agrupamentos formados podem não ser apropriados:

“The major drawback of single linkage, however, is that it has been shown in practice to have a tendency to chain, or form long, elongated clusters.”

(ALDENDERFER & BLASHFIELD, 1984: 39)

Esse aspecto negativo do método é sugerido no experimento feito no Apêndice C. Vizinho distante (“The Furthest Neighbour” ou “Complete Linkage Method”): este método se diferencia do primeiro na medida em que este considera a distância entre os dois componentes mais distantes entre dois grupos para eles se fundirem.

12 Everitt (1986: 27).

A primeira etapa de fusão dos elementos, no exemplo anterior, é igual à apresentada no método “Nearest”. A segunda já se diferencia já que para a fusão do grupo (1; 2) são consideradas as seguintes distâncias:

d(12)3 = max {d13, d23} = d13 = 06

d(12) 4 = max {d14, d24} = d14 = 10

d(12) 5 = max {d15, d25} = d15 = 09

Depois da fusão entre os elementos 1 e 2, há a fusão entre os elementos 5 e 4, por terem menor distância. A terceira fusão se dá entre o cluster (4; 5) e o elemento 3, tendo-se em conta a distância 5, observada entre o elemento 3 e o elemento mais distante dentro do

cluster (4; 5).

A aplicação desse método não resultou numa alteração dos clusters em cada etapa de fusão, como se pode observar, comparando a Figura 4 com a Figura 5. Entretanto, as distâncias em que ocorrem as fusões de clusters nas etapas 3 e 4 são maiores que as apontadas no primeiro método.

Figura 5

Dendrograma do método Complete Linkange13

Tomando a fórmula apresentada:

d

k(ij)

= α

i

d

ki

+ α

j

d

kj

+ βd

ij

+ γ |d

ki

- d

kj

|

os coeficientes desse método são:

α

i

= α

j

= 1/2; β = 0; γ = 1/2.

O método de Centróide (“Centroid Cluster Analysis”) é melhor descrito imaginando os grupos dispostos em um espaço euclidiano. A distância entre grupos a ser considerada é a distância entre os centróides (ou seja, os centros geométricos) dos grupos.

Tomando a fórmula apresentada acima, os valores dos coeficientes assumem os valores:

α

i

= n

i

/(n

i

+ n

j

); α

j

= n

j

/(n

i

+ n

j

); β = -α

i

α

j;

γ = 0.

Análise de Cluster pela Mediana: foi um método feito com o intento de eliminar as

deficiências da aplicação do método de Centróide se os clusters são de diferentes tamanhos. Pela sua fórmula, entende-se ser um meio termo entre o método de vizinhos próximos e distante.

Os coeficientes desse método são:

α

i

= α

j

= 1/2; β = -1/4; γ = 0.

O método Ward de agregar as localidades em agrupamentos foi o escolhido, devido às suas propriedades estatísticas bastante pertinentes para o objeto em estudo. Esse método tem a propriedade de minimizar a variância intra clusters. Tendo a fórmula abaixo da Soma dos Erros Quadrados, ESS, este método procura minimizar este valor ao formar os chamados clusters ou seja, os agrupamentos.

ESS = Σ xi2 - (1/n)(Σxi)2

onde xi é a pontuação do i-ésimo caso:

“At the first step of the clustering process, when each cases is in its on own cluster, the ESS (soma dos erros quadrados) is 0. The method works by joining those groups or cases that result in the minimum increase in the ESS. The method tends to find (or create) clusters of relatively equal sizes and shapes as hyperspheres.”

(ALDENDERFER & BLASHFIELD, 1984: 43)

Tendo a fórmula apresentada para esta família de clusters, os valores dos coeficientes assumem os valores:

α

i

= (n

k

+n

i

)/( n

k

+ n

i

+ n

j

); α

j

= (n

k

+n

j

)/( n

k

+ n

i

+ n

j

);

β = -n

k

/( n

k

+ n

i

+ n

j

);γ = 0.

Os dendrogramas, que explicitam as etapas de aglutinação de alguns métodos de

clusters, estão apresentados no Apêndice C. Na primeira parte do próximo item serão

discutidas as ocupações tidas como centrais, que seriam utilizadas para medir o nível de centralidade dos núcleos a partir da análise de cluster Ward.

No documento O caso das minas que nao se esgotaram: a pertinácia do antigo núcleo central minerador na expansão da malha urbana da Minas Gerais oitocentista (páginas 42-48)