• Nenhum resultado encontrado

Exercícios de Aglomeração

N/A
N/A
Protected

Academic year: 2021

Share "Exercícios de Aglomeração"

Copied!
6
0
0

Texto

(1)

1. Considere o seguinte conjunto de 6 exemplos de pares de pontos no plano real, Dados os exemplos indicados na tabela abaixo, caracterizados por dois atributos (pontos em R2), aplique o algoritmo k-means para determinar uma partição adequada desses dados em 2 grupos. Realize 3 execuções do algoritmo, partindo de diferentes centros iniciais, a seguir indicados:

Exemplo X Y Ex1 -5 2 Ex2 5 -2 Ex3 0 2 Ex4 0 -2 Ex5 -5 1 Ex6 -5 -2 Ex7 5 2 Ex8 5 -1 a) r1 = (0,-2), r2 = (0,2) b) r1 = (- 5, 2), r2 = ( 5, -2) c) r1 = (0,-2), r2 = ( 5, 2)

Para cada uma dessas execuções apresente a partição de grupos obtida, a sua representação gráfica e a sua avaliação segundo o critério intra-grupos da soma do quadrado dos erros e o critério inter-grupos da distância entre centros. Comente os resultados obtidos.

2. A tendência do k-means para produzir diferentes grupos (“clusters”) conforme a escolha de diferentes centros iniciais é conhecida. Olhando para a disposição dos 10 pontos na figura seguinte, a escolha de 3 agrupamentos parece ser a mais natural. Note que os pontos são comparados através da distância euclidiana. Mostre, escolhendo dois conjuntos diferentes de 3 sementes (centros iniciais), que é possível obter, através do k-means, duas maneiras diferentes de agrupar os 10 pontos em 3 grupos. Não tem necessariamente que recorrer a cálculos numéricos.

(2)

3. Pretende-se que execute o algoritmo k-means para o conjunto de dados seguinte, com k=3.

Cada quadro vai representar uma iteração do k-means; utilize tantos quadros quantas as iterações até se dar a convergência. Em cada quadro desenhe os centros dos grupos e as fronteiras de decisão. Considere que um centro que não tenha pontos associados continua intacto na iteração seguinte. Aplique o algoritmo a partir das duas situações iniciais seguintes:

a) Os três quadrados representam os centros iniciais:

b) Realize uma escolha mais cuidadosa dos centros iniciais, tal como sugerido nos acetatos da cadeira: escolha sucessiva dos vários centros, considerando para i-ésimo centro o exemplo de treino que maximiza a distância ao centro, de índice 1 a i-1, que lhe esteja mais próximo. O primeiro centro já está assinalado na figura. Apresente ainda a fórmula de cálculo do i-ésimo centro inicial.

(3)

4. Pretende-se agrupar os seguintes 8 pontos (onde (x,y) representa a localização espacial) em 2 grupos, usando o algoritmo k-means:

Exemplo X Y A1 2 10 A2 2 5 Ex3 8 4 Ex4 5 8 Ex5 7 5 Ex6 6 4 Ex7 1 2 Ex8 4 9

A medida de distância a utilizar é a distância euclideana.

a) usando como centros iniciais os pontos A2 e B1, aplique o algoritmo e indique os grupos obtidos e a avaliação dessa partição pelo critério intra-grupos da soma do quadrado dos erros e pelo critério inter-grupos da distância entre centros. b) Seria possível obter uma melhor partição? No caso afirmativo, apresente-a. 5. Suponha que tem ao seu dispor uma implementação do algoritmo k-means e

pretende utilizá-la para dividir em grupos um certo conjunto de dados, mas não tem uma noção prévia de qual o número de grupos mais indicado a considerar.

(4)

6. Suponha que quer definir uma variante do algoritmo k-means que recalcula o centro de um grupo assim que afecta mais uma instância a esse grupo, em lugar de fazer esse cálculo após afectar todas as instâncias. Mostre que, se uma instância x estava no grupo i (na iteração anterior) e é agora afectada ao grupo j, os novos valores dos centros j e i podem ser calculados pelas seguintes fórmulas, onde r j a é o valor do atributo a do centro do grupo j e n j é o número de exemplos no grupo j: 1 : 1 : − − − = + − + = i a i a a i a i j a j a a j a j n r x r r n r x r r

e os novos valores da soma do quadrado dos erros, para cada um desses grupos, podem ser calculados pelas fórmulas:

2 2 ( , ) 1 ) ( : ) ( ) , ( 1 ) ( : ) ( i i i i i j j j j j d x r n n C wc C wc r x d n n C wc C wc − − = + + =

7. Desenhe à mão a árvore de aglomeração para a amostra seguinte constituída por 10 pontos numa só dimensão.

(-22, -20, -3, 1, 2, 4, 16, 17, 19, 20)

Utilize o método hierárquico de aglomeração “single link”. Baseando-se na árvore de grupos que obteve, porque é que é mais natural a divisão dos dados em 3 agrupamentos?

8. Aplique o método de clustering hierárquico aglomerativo aos dados da tabela abaixo para obter uma árvore de grupos, tendo em conta as noções de distância a seguir indicadas, e represente a árvore obtida através de um dendrograma. Analise esse dendrograma e indique qual o nível (nº de grupos) da hierarquia que lhe parece constituir uma partição mais natural dos dados. Compare os resultados.

Exemplo X Y P1 -5 2 P2 0,5 2 P3 5 2 P4 5 -1 P5 5 -2 P6 0,5 -3 P7 -5 -2 P8 -5 -1

a) Distância entre dados: distância de Manhattan;

Distância entre grupos: vizinho mais próximo (ou de ligação simples). b) Distância entre dados: distância de Manhattan;

Distância entre grupos: vizinho mais longínquo (ou de ligação completa). 9. Considere as seguintes espécies de hominídeos, cada um descrito por duas

características: massa cerebral e massa corporal (H. = Homo; A. = Australopithecus, E = early e L = late). Agrupe estas espécies, aplicando o algoritmo hierárquico aglomerativo de ligação simples, considerando distâncias de Manhattan e os valores dos atributos normalizados.

(5)

a) Apresente o dendrograma correspondente.

b) Indique, justificando, em quantos grupos optaria por dividir estas espécies?

Massa Corporal Massa Cerebral

H. sapiens 53 1355 H. erectusL 57 1016 H. erectusE 55 804 H. ergaster 58 854 H. habilis 42 597 A. robustus 36 502 A. boisei 44 488 A. africanus 36 457 A. afarensis 37 384 P. troglodytes 45 395 G. gorilla 105 505

10. Aplique o método de agrupamento hierárquico aglomerativo aos dados da tabela abaixo para obter uma árvore de grupos e represente a árvore obtida através de um dendrograma. Tenha em conta a distância euclidiana entre dados e as duas distâncias entre os grupos: ligação simples e de ligação completa.

Carne

Guisada Hambúrguer Grelhada Carne Bife Enlatada Carne Grelhado Frango Enlatado Frango Coração Carne

Energia (calorias) 340 245 420 375 180 115 170 160 Proteínas (gramas) 20 21 15 19 22 20 25 26 Gordura (gramas) 28 17 39 32 10 3 7 5 Cálcio (miligramas) 9 9 7 9 17 8 12 14 Ferro (miligramas) 2,6 2,7 2 2,6 3,7 1,4 1,5 5,9

11. Suponha que uma empresa dispõe de dados sobre os acessos ao seu site na web. Nomeadamente, para cada sessão de acesso de um cliente, tem a indicação do conjunto de páginas que foram consideradas interessantes, de entre as visitadas. A empresa pretende usar esses dados para, com base na sua análise, repensar a organização das páginas de modo a facilitar os acessos, ligando mais directamente páginas que interessam ao mesmo grupo de clientes. Sugira uma forma de começar a atacar este problema recorrendo à aplicação de um algoritmo de clustering hierárquico aglomerativo.

12. Suponha que são dados os 4 exemplos de células seguintes, onde se utilizam 3 atributos para descrever cada célula: nº de caudas (com valores possíveis 1 ou 2), côr (clara ou escura) e nº de nucleidos (1, 2 ou 3):

Exemplo # caudas Côr nucleidos

(6)

a) Obtenha a hierarquia de conceitos que seria produzida pelo algoritmo COBWEB

b) Considere um novo exemplo de treino com 1 cauda, cor clara e 2 nucleidos, e indique a nova hierarquia que seria produzida.

c) Considere um exemplo de teste com 2 caudas, côr escura e 3 nucleidos e determine a classificação deste exemplo.

Referências

Documentos relacionados

parâmetro será o nome da folha, isto para criarmos uma função mais genérica, que não sirva só para este caso, mas para qualquer outro em que tenhamos de procurar numa folha

Vídeo aula 15 - Exercícios com bastão A aula iniciou com um bate papo e breve apresentação sobre a modalidade, iniciamos o alongamento por aproximadamente cinco minutos, em

Parágrafo Quarto – No caso de fechamento dos mercados e em casos excepcionais de iliquidez dos ativos componentes da carteira do FUNDO, inclusive em decorrência de pedidos

nil li um e

Requereram a concessão de medida liminar para que, até o restabelecimento da capacidade de atendimento das redes pública e privada de saúde, seja  determinado ao

IV - proibição de receber incentivos, subsídios, subvenções, doações ou empréstimos de órgãos ou entidades públicas e de instituições financeiras públicas ou controladas pelo poder

– criação dos Níveis Diferenciados de governança N1, N2 e do Novo Mercado pela Bolsa de Valores de São Paulo (BOVESPA); – realização da primeira mesa redonda Latino-Americana

3º Esta portaria entra em vigor na data de sua publicação, revogando-se as disposições em contrário.. Registre-se, publique-se