• Nenhum resultado encontrado

2.4 M´ etodos de Classifica¸ c˜ ao

2.4.3 An´ alise de Conglomerado

A An´alise de conglomerado, tamb´em conhecida como An´alise de agrupamento ou clus- ter, ´e um m´etodo estat´ıstico que consiste em tentar classificar um conjunto de elementos em subconjuntos mutuamente exclusivos (PESSANHA, 2017). De forma que os elemen- tos de cada conjunto sejam semelhantes entre si, mas diferentes dos elementos dos outros grupos com rela¸c˜ao `as vari´aveis observadas (MINGOTI, 2005). ´E importante ressaltar que esse ´e um m´etodo n˜ao supervisionado, ou seja, as classifica¸c˜oes atribu´ıdas a cada unidade amostral n˜ao s˜ao consideradas na cria¸c˜ao do modelo

A An´alise de Conglomerado ´e utilizada em diversos campos de estudo, como cita Mingoti (2005).

• Psicologia – Na classifica¸c˜ao de pessoas com rela¸c˜ao aos seus perfis de personalidade; • Ecologia – na classifica¸c˜ao de esp´ecies;

• Geografia - Atrav´es de vari´aveis demogr´aficas, f´ısicas e econˆomicas, classificar regi˜oes, estados e cidades.

Antes de realizarmos a An´alise de Conglomerado ´e preciso definir as medidas de distˆancia a serem utilizadas, que tipo de algoritmo a ser adotado e que m´etodo escolher para definir o n´umero de cluster. Abordaremos cada uma dessas etapas a seguir.

2.4.3.1 Medidas de Distˆancia

Antes que possamos realizar a an´alise de conglomerados, ´e necess´ario definir, a priori, a medida de similaridade ou dissimilaridade a ser utilizada (MINGOTI, 2005). Importantes

considera¸c˜oes precisam ser realizadas quanto a escolha dessas medidas, ´e preciso observar tanto a natureza das vari´aveis quanto suas escalas de medida (JOHSON; WICHERN, 2014). Vari´aveis quantitativas admitem medidas como a Distˆancia Euclidiana, a Distˆancia Ponderada e a Distˆancia de Minkowski. Enquanto as vari´aveis de natureza qualitativa admitem o Coeficiente de concordˆancia simples, o Coeficiente de concordˆancia positiva e a Distˆancia Euclidiana m´edia (MINGOTI, 2005).

Definiremos primeiro as medidas de distˆancia entre elementos amostrais, e depois, a distˆancia entre elemento e conglomerado.

Seja X matriz dos dados e xi = (xi1, xi2, . . . , xip) e xj = (xj1, xj2, . . . , xjp) elementos

amostrais pertencentes a essa matriz. Denota-se por dij a distˆancia entre os elementos i

e j apresentados acima.

Medidas de distˆancia entre elementos amostrais, supondo vari´aveis quantita- tivas. A distˆancia escolhida para esse caso ´e a distˆancia Euclidiana, definida por Mingoti (2005). Considere neste caso Xi e Xj os elementos comparados e p o n´umero de vari´aveis

(quantitativas). dij = dist(xi, xj) = [(xi− xj)t(xi− xj)]1/2 = " p X k=1 (xki− xkj)2 #1/2 (2.10)

Medidas de distˆancia entre elementos amostrais, supondo vari´aveis qualita- tivas. Nesses casos, em geral, comparam-se os elementos de acordo com a presen¸ca ou ausˆencia de determinadas caracter´ısticas. ´E esperado que elementos “parecidos” tenham mais itens similares que dissimilares. A distˆancia escolhida para esse caso ´e a distˆancia Euclidiana M´edia, definida por Mingoti (2005). Considere neste caso Xie Xj os elementos

comparados e p o n´umero de vari´aveis (qualitativas).

dij = dist(xi, xj) = " n X k=1 1 p(xki− xkj) 2 #1/2

= N´umero de pares discordantes N´umero total de pares

1/2

2.4 M´etodos de Classifica¸c˜ao 31

Medidas de Distˆancia entre Elemento e Conglomerado

Al´em da distˆancia entre elementos, precisamos definir tamb´em a medida de distˆancia entre elemento e conglomerado. Para tal, consideremos um elemento x e um conglomerado C, com n elementos . A distˆancia entre eles ser´a definida pelo m´etodo da m´edia das distˆancias (Average Linkage) (MINGOTI, 2005), proposto a seguir:

d(x, C) =X k∈C  1 m  dist(x, xk), (2.12)

onde n ´e o n´umero de elementos e dist(x, xk) a medida de distˆancia entre cada elemento

xk∈ C e o elemento x .

2.4.3.2 Sele¸c˜ao do Algoritmo

Ap´os selecionada a medida de distˆancia, precisamos escolher o algoritmo a ser utili- zado. Os algoritmos se fazem necess´arios por ser muito dif´ıcil testarmos todas as possi- bilidades de agrupamentos poss´ıveis, mesmo com o uso computadores e softwares muito potentes (JOHSON; WICHERN, 2014).

As t´ecnicas de an´alise de conglomerado s˜ao usualmente dividias em 2 tipos: t´ecnicas hier´arquicas e n˜ao-hier´arquicas (MINGOTI, 2005).A t´ecnica n˜ao-hier´arquica se prop˜oe a separar os itens do estudo em um n´umero g de grupos. Esse n´umero g pode ser especificado previamente ou ainda durante o processo de clusteriza¸c˜ao. Os m´etodos n˜ao hier´arquicos podem ser iniciados a partir de uma parti¸c˜ao pr´evia dos itens em grupos ou a partir de sementes que formar˜ao os centroides dos clusters. Um dos m´etodos n˜ao hier´arquicos mais utilizados ´e o k-means (JOHSON; WICHERN, 2014).

A t´ecnica hier´arquica, por sua vez, consiste em sucessivas divis˜oes ou aglutina¸c˜oes. Temos, portanto, dois tipos de m´etodos hier´arquicos: o divisivo e o aglomerativo. Para nossas an´alises usaremos o m´etodo hier´arquico, o qual ser´a abordado mais aprofundada- mente a seguir.

T´ecnica Hier´arquica Aglomerativa. Nessa t´ecnica partimos do princ´ıpio que cada elemento estudado ´e um grupo. Ou seja, temos o mesmo n´umero n de conglomerados e observa¸c˜oes. A cada passo do algoritmo, os elementos amostrais v˜ao sendo agrupados de acordo com suas similaridades. Ao fim dos passos do algoritmo, todos os subgrupos s˜ao aglutinados em apenas um.

Figura 7: Dendograma ilustrando agrupamento hier´arquico.

com um ´unico grande grupo que, a cada itera¸c˜ao, subdivide-se at´e obtermos n clusters. O m´etodo consiste em achar o item mais afastado dos outros e us´a-lo como semente para um novo grupo. Os outros itens s˜ao ent˜ao testados quanto a entrada nesse novo grupo. Kaufman e Rousseeuw (1990) descrevem esse processo de forma bastante did´atica:

“O mecanismo se assemelha ao processo que pode levar a divis˜ao de um partido pol´ıtico devido a conflitos internos: Primeiro o membro mais desconectado, com ideias mais divergentes, deixa o partido e come¸ca um novo. Depois, outros que concordam com esse indiv´ıduo, juntam-se tamb´em a esse novo partido at´e que ´e obtido um equil´ıbrio. Precisamos inicialmente, portanto, descobrir qual membro discorda mais dos outros.”

Os Dendogramas (Figura 7) s˜ao formas intuitivas de visualizar a t´ecnica hier´arquica, tanto a aglomerativa quanto a divisiva, uma vez que ´e poss´ıvel visualizar os agrupamentos formados e o n´ıvel de distˆancia onde as divis˜oes ocorreram.

O passo-a-passo do algoritmo divisivo est´a descrito abaixo:

1. Inicia-se o processo com 1 conglomerado formado por todos os n elementos amos- trais;

2. Calcula-se a distˆancia de cada elemento para seu pr´oprio conglomerado;

3. O elemento com maior distˆancia para o seu pr´oprio conglomerado torna-se um novo conglomerado, formado por um ´unico elemento;

4. Para todos os elementos que n˜ao est˜ao no novo conglomerado, calcula-se a diferen¸ca entre a sua distˆancia para o seu pr´oprio conglomerado e para o novo;

Documentos relacionados