• Nenhum resultado encontrado

Algoritmos de Agrupamento (Algoritmos de Agrupamento (ClusteringClustering): ): Métodos Hierárquicos e Métodos Hierárquicos e kk-médias-médias

N/A
N/A
Protected

Academic year: 2022

Share "Algoritmos de Agrupamento (Algoritmos de Agrupamento (ClusteringClustering): ): Métodos Hierárquicos e Métodos Hierárquicos e kk-médias-médias"

Copied!
34
0
0

Texto

(1)

Algoritmos de Agrupamento (

Algoritmos de Agrupamento ( Clustering Clustering ): ):

Métodos Hierárquicos e

Métodos Hierárquicos e k k -médias -médias

Marcílio C. P. de Souto

DIMAp/UFRN

(2)

Algoritmos de Agrupamento

Agrupamento Hierárquico

k -médias

(3)

Procedimentos Hierárquicos de Agrupamento

Envolvem a construção de uma hierarquia de uma estrutura do tipo árvore

Divisivo

Aglomerativo

Ligação Individual

Ligação Completa

Ligação Média

(4)

Métodos Aglomerativos

Cada objeto começa como seu próprio grupo (cluster)

Em passos seguintes, os dois grupos (ou objetos) mais próximos (similares) são combinados em um novo

agregado

O número de grupos é reduzido em uma unidade em cada passo

Ao final, todos os elementos são reunidos em um grande agregado

(5)

Método Hierárquico: Ligação Individual

Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo

Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado

A distância (similaridade) entre dois grupos quaisquer é a menor distância (maior similaridade) de qualquer ponto de um grupo até qualquer ponto do outro

O procedimento continua até que todos os objetos formem um só agregado

(6)

Ligação Individual: Exemplo (1/6)

X1 X2 X3 X4 X5

C_1 7,000 10,000 9,000 7,000 10,000 C_2 9,000 9,000 8,000 9,000 9,000 C_3 5,000 5,000 6,000 7,000 7,000 C_4 6,000 6,000 3,000 3,000 4,000 C_5 1,000 2,000 2,000 1,000 2,000 C_6 4,000 3,000 2,000 3,000 3,000 C_7 2,000 4,000 5,000 2,000 5,000

Exemplo do uso do Método Hierárquico Aglomerativo de

Ligação Individual, com Correlação de Pearson como medida de proximidade

(7)

Ligação Individual: Exemplo (2/6)

C_1 C_2 C_3 C_4 C_5 C_6 C_7

C_1 1,000 0,963

C_2 -0,147 1,000 -0,408

C_3 0,000 0,000 1,000 0,000 C_4 0,087 0,516 -0,824 1,000 -0,060 C_5 0,963 -0,408 0,000 -0,060 1,000

C_6 -0,466 0,791 -0,354 0,699 -0,645 1,000

C_7 0,891 -0,516 0,165 -0,239 0,963 -0,699 1,000

(C_1,C_5) C_2 C_3 C_4 C_6 C_7

(C_1,C_5) 1,000 0,963

C_2 -0,147 1,000 -0,516

C_3 0,000 0,000 1,000 0,165

C_4 0,087 0,516 -0,824 1,000 -0,239 C_6 -0,466 0,791 -0,354 0,699 1,000 -0,699 C_7 0,963 -0,516 0,165 -0,239 -0,699 1,000

(8)

Ligação Individual: Exemplo (3/6)

(C_1,C_5) C_2 C_3 C_4 C_6 C_7

(C_1,C_5) 1,000 0,963

C_2 -0,147 1,000 -0,516

C_3 0,000 0,000 1,000 0,165

C_4 0,087 0,516 -0,824 1,000 -0,239 C_6 -0,466 0,791 -0,354 0,699 1,000 -0,699 C_7 0,963 -0,516 0,165 -0,239 -0,699 1,000

(C_1,C_5,C_7) C_2 C_3 C_4 C_6 (C_1,C_5,C_7) 1,000 -0,147 0,165 0,087 -0,466

C_2 -0,147 1,000 -0,824 0,516 0,791

C_3 0,165 0,000 1,000 -0,824 -0,354

C_4 0,087 0,516 -0,824 1,000 0,699

C_6 -0,466 0,791 -0,354 0,699 1,000

(9)

Ligação Individual: Exemplo (4/6)

(C_1,C_5,C_7) C_2 C_3 C_4 C_6 (C_1,C_5,C_7) 1,000 -0,147 0,165 0,087 -0,466

C_2 -0,147 1,000 -0,824 0,516 0,791

C_3 0,165 0,000 1,000 -0,824 -0,354

C_4 0,087 0,516 -0,824 1,000 0,699

C_6 -0,466 0,791 -0,354 0,699 1,000

(C_1,C_5,C_7) (C_2,C_6,C_4) C_3

(C_1,C_5,C_7) 1,000 0,087 0,165

(C_2,C_6,C_4) 0,087 1,000 0,699

C_3 0,165 0,699 1,000

(10)

Ligação Individual: Exemplo (5/6)

(C_1,C_5,C_7) (C_2,C_6,C_4) C_3

(C_1,C_5,C_7) 1,000 0,087 0,165

(C_2,C_6,C_4) 0,087 1,000 0,699

C_3 0,165 0,699 1,000

(C_1,C_5,C_7) (C_2,C_6,C_4,C_3)

(C_1,C_5,C_7) 1,000 0,087

(C_2,C_6,C_4,C_3) 0,087 1,000

(11)

Ligação Individual: Exemplo (6/6)

(C_1,C_5,C_7) (C_2,C_6,C_4,C_3)

(C_1,C_5,C_7) 1,000 0,087

(C_2,C_6,C_4,C_3) 0,087 1,000

(C_1,C_5,C_7,C_2,C_6,C_4,C_3)

(12)

Ligação Simples: Características

Gera grupos alongados

Problemas em lidar com grupos mal delineados

Em tais casos, procedimentos de ligação individual longas cadeias e eventualmente todos os objetos são colocados em uma sua cadeia

Os objetos em extremos opostos de uma cadeia podem ser muito diferentes

(13)

Ligação Simples: Características

A B

C

Ficaria mais homogêneo juntar C com A ou C com B do que A com B

(14)

Método Hierárquico: Ligação Completa

Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo

Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado

A distância (similaridade) entre dois grupos quaisquer é a maior distância (menor similaridade) de qualquer ponto de um grupo até qualquer ponto do outro

O procedimento continua até que todos os objetos formem um só agregado

(15)

Método Hierárquico: Ligação Completa

A distância máxima entre indivíduos entre objetos em cada grupo

representa a menor esfera (diâmetro mínimo) que pode inclui todos os objetos em ambos os grupos

Esse método é chamado de ligação completa porque todos os objetos em agrupamento são conectados um com o outro a alguma distancia máxima ou similaridade mínima

Essa técnica elimina o problema de encadeamento identificado na

ligação individual separados pela menor distância (mais similares) e os coloca no primeiro grupo

(16)

Ligação Individual x Ligação Completa

Distancia mais curta Distancia mais longa

Tendência a produzir

grupos alongados Tendência a produzir grupos compactos

(17)

Método Hierárquico: Ligação Média

Esse método começa da mesma forma que a ligação

individual ou completa, mas o critério de agrupamento é a distância (similaridade) média de todos os objetos em um grupo para os demais em outro

São menos dependentes de valores extremos, como ocorre com a ligação individual ou completa

A partição é baseada em todos os valores dos grupos, ao invés de de um único par de membros extremos

Tendem a combinar grupos com pequena variação interna

Tendem a produzir grupos com aproximadamente a mesma variância

(18)

Métodos Hierárquicos

Características

Abordagem aglomerativa

Hierárquia

Determinístico

Produz uma ordem para os objetos – informativo para a exibição de dados

Dificuldades

Não reflete as maneiras distintas em que objetos podem ser similares

A estrutura é sempre uma árvore

Os objetos só podem ser agrupados baseando-se em decisões locais, as quais, uma vez tomadas, não podem ser re-avaliadas

Essas técnicas não são robustas a ruído

(19)

k -Médias

Esta técnica difere do agrupamento hierárquico de várias maneiras. Em particular,

Não há hierarquias, os dados são particionados

Ou seja, a solução de seis grupos não é apenas a combinação de dois grupos a partir de uma solução com sete grupos, como no

hierárquico, mas baseada apenas na descoberta da melhor solução com seis grupos

O resultado é apenas a pertinência final de cada padrão aos aglomerados

O número de aglomerados permitido (k) tem que ser definido a priori

(20)

k -Médias: Algoritmo

Passo 1: Os primeiros k centros dos aglomerados são escolhidos aleatoriamente

Passo2: Cada objeto é atribuído ao grupo associado com o centro mais próximo

Passo3: Compute um novo centro para cada grupo (média dos valores de todos os objetos - centróide)

Passo4: Repita Passo2 (com os novos centros) e Passo3 até que não haja mudança nos centros

(21)

k -Médias: Exemplo (1/7)

X1 X2 X3 X4 X5

Cliente_1 7,000 10,000 9,000 7,000 10,000

Cliente_2 9,000 9,000 8,000 9,000 9,000

Cliente_3 5,000 5,000 6,000 7,000 7,000

Cliente_4 6,000 6,000 3,000 3,000 4,000

Cliente_5 1,000 2,000 2,000 1,000 2,000

Cliente_6 4,000 3,000 2,000 3,000 3,000

Cliente_7 2,000 4,000 5,000 2,000 5,000

Exemplo do uso do k-médias, com Correlação de Pearson como medida de proximidade

(22)

k -Médias: Exemplo (2/7)

Cliente_1 Cliente_2 Cliente_3 Cliente_4 Cliente_5 Cliente_6 Cliente_7 Cliente_1 1,000

Cliente_2 -0,147 1,000 0,000 0,516 -0,408 0,791 -0,516

Cliente_3 0,000 0,000 1,000

Cliente_4 0,087 0,516 -0,824 1,000

Cliente_5 0,963 -0,408 0,000 -0,060 1,000 -0,645 0,963 Cliente_6 -0,466 0,791 -0,354 0,699 -0,645 1,000

Cliente_7 0,891 -0,516 0,165 -0,239 0,963 -0,699 1,000

(23)

k -Médias: Exemplo (3/7)

X1 X2 X3 X4 X5

Cliente_2 9,000 9,000 8,000 9,000 9,000

Cliente_3 5,000 5,000 6,000 7,000 7,000

Cliente_4 6,000 6,000 3,000 3,000 4,000

Cliente_6 4,000 3,000 2,000 3,000 3,000

Centro_1 6,000 5,750 4,750 5,500 5,750

X1 X2 X3 X4 X5

Cliente_1 7,000 10,000 9,000 7,000 10,000

Cliente_5 1,000 2,000 2,000 1,000 2,000

Cliente_7 2,000 4,000 5,000 2,000 5,000

Centro_2 3,333 5,333 5,333 3,333 5,667

(24)

k -Médias: Exemplo (4/7)

Cliente_1 Cliente_2 Cliente_3 Cliente_4 Cliente_5 Cliente_6 Cliente_7 Centro_1 Centro_2 Cliente_1 1 -0,1474 0 0,087 0,9631 -0,4663 0,8913 -0,1371 0,9723

Cliente_2 -0,1474 1 0 0,516 -0,4082 0,7906 -0,516 0,93 -0,3498

Cliente_3 0 0 1 -0,8242 0 -0,3536 0,1648 -0,2599 0,068

Cliente_4 0,087 0,516 -0,8242 1 -0,0602 0,6994 -0,2391 0,737 -0,0698 Cliente_5 0,9631 -0,4082 0 -0,0602 1 -0,6455 0,9631 -0,3797 0,9926 Cliente_6 -0,4663 0,7906 -0,3536 0,6994 -0,6455 1 -0,6994 0,919 -0,6011 Cliente_7 0,8913 -0,516 0,1648 -0,2391 0,9631 -0,6994 1 -0,4799 0,9723 Centro_1 -0,1371 0,93 -0,2599 0,737 -0,3797 0,919 -0,4799 1 -0,322 Centro_2 0,9723 -0,3498 0,068 -0,0698 0,9926 -0,6011 0,9723 -0,322 1

(25)

k -Médias: Exemplo (5/7)

X1 X2 X3 X4 X5

Cliente_2 9,000 9,000 8,000 9,000 9,000

Cliente_4 6,000 6,000 3,000 3,000 4,000

Cliente_6 4,000 3,000 2,000 3,000 3,000

Centro_1 6,333 6,000 4,333 5,000 5,333

X1 X2 X3 X4 X5

Cliente_1 7,000 10,000 9,000 7,000 10,000

Cliente_3 5,000 5,000 6,000 7,000 7,000

Cliente_5 1,000 2,000 2,000 1,000 2,000

Cliente_7 2,000 4,000 5,000 2,000 5,000

Centro_2 3,750 5,250 5,500 4,250 6,000

(26)

k -Médias: Exemplo (6/6)

Cliente_1 Cliente_2 Cliente_3 Cliente_4 Cliente_5 Cliente_6 Cliente_7 Centro_1 Centro_2 Cliente_1 1 -0,1474 0 0,087 0,9631 -0,4663 0,8913 -0,1106 0,9175

Cliente_2 -0,1474 1 0 0,516 -0,4082 0,7906 -0,516 0,75 -0,3323

Cliente_3 0 0 1 -0,8242 0 -0,3536 0,1648-0,6281 0,3377

Cliente_4 0,087 0,516 -0,8242 1 -0,0602 0,6994 -0,2391 0,9389 -0,2939 Cliente_5 0,9631 -0,4082 0 -0,0602 1 -0,6455 0,9631 -0,3062 0,9372 Cliente_6 -0,4663 0,7906 -0,3536 0,6994 -0,6455 1 -0,6994 0,8883 -0,6686 Cliente_7 0,8913 -0,516 0,1648 -0,2391 0,9631 -0,6994 1 -0,4564 0,962 Centro_1 -0,1106 0,75 -0,6281 0,9389 -0,3062 0,8883 -0,4564 1 -0,4473 Centro_2 0,9175 -0,3323 0,3377 -0,2939 0,9372 -0,6686 0,962 -0,4473 1

(27)

k -Médias: Exemplo (7/7)

X1 X2 X3 X4 X5

Cliente_2 9,000 9,000 8,000 9,000 9,000

Cliente_4 6,000 6,000 3,000 3,000 4,000

Cliente_6 4,000 3,000 2,000 3,000 3,000

Centro_1 6,333 6,000 4,333 5,000 5,333

X1 X2 X3 X4 X5

Cliente_1 7,000 10,000 9,000 7,000 10,000

Cliente_3 5,000 5,000 6,000 7,000 7,000

Cliente_5 1,000 2,000 2,000 1,000 2,000

Cliente_7 2,000 4,000 5,000 2,000 5,000

Centro_2 3,750 5,250 5,500 4,250 6,000

(28)

k -médias: sensibilidade à condição inicial

X2

X1

F G

D E

A

C B Grupo 1

Grupo 2 Grupo 3

(29)

k -médias: sensibilidade à condição inicial

X2

X1

F G

D E

A

C B

Inicialização com A, F e E

(30)

k -médias: sensibilidade à condição inicial

X2

X1

F G

D E

A

C B

Inicialização com A, F e E

(31)

k -médias: sensibilidade à condição inicial

X2

X1

F G

D E

A

C B

Inicialização com A, B e C

(32)

k -médias: sensibilidade à condição inicial

X2

X1

F G

D E

A

C B

Inicialização com A, B e C

(33)

k -médias

Características

Partição

O número de grupos deve ser definido a priori

Não-determinístico – inicializações aleatórias dos centros

Grupos (clusters) esféricos

Dificuldades

Como determinar se há realmente apenas k grupos distintos representado nos dados?

(34)

Bibliografia

Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp. 381-419.

Bookman.

Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp. 264-323.

Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp.

645-678.

Referências

Documentos relacionados

Atualmente os currículos em ensino de ciências sinalizam que os conteúdos difundidos em sala de aula devem proporcionar ao educando o desenvolvimento de competências e habilidades

Esta pesquisa objetiva especificar como são estabelecidas as prioridades na Agenda Publica do Município de Goioerê, identificando as etapas deste processo, evidenciando

Entre 20 e 26 de setembro, a passagem de duas frentes frias, associadas a áreas de instabilidade, pela região Sul e Sudeste ocasionaram chuva fraca na bacia do rio Jacuí,

5) Encontre as derivada parciais pedidas para cada função abaixo.. Encontre o volume máximo que se pode encaixotar para ser entregue por essa empresa. 18) Uma caixa de volume

Este trabalho tem como objetivo geral avaliar a quantidade de água pluvial que pode ser aproveitada após infiltrar em um pavimento permeável de concreto

a) deve conter a maior parte de pessoas do sexo feminino na faixa etária de 20 a 30 anos. b) deve somente considerar as pessoas que trabalham com comércio de medicamentos, tendo

6 CONCLUSÃO Pelos resultados obtidos, pode-se concluir que: a densidade básica, teor de extrativos, teor de carbono e relação C/H da madeira aumentaram com a maturidade da árvore,

Incidirei, em particular, sobre a noção de cuidado, estruturando o texto em duas partes: a primeira será uma breve explicitação da noção de cuidado em Martin Heidegger (o cuidado