• Nenhum resultado encontrado

QUANTOS CLUSTERS?

No documento Apontamentos M4 (páginas 32-36)

4 ALGORITMOS DE PARTIÇÃO

4.2 QUANTOS CLUSTERS?

Como já referimos, no algoritmo k-means o utilizador tem, à partida, que definir k, ou seja, o número de clusters que quer construir. A decisão sobre o número de clusters a construir tem sempre que ter em conta o compromisso entre a quantidade de informação que poderemos retirar da classificação e a sua complexidade. Quanto maior o número de clusters mais informação temos disponível, mas também maior é a dificuldade de apreensão e compreensão dessa informação.

Idealmente, a análise de clusters não seria necessária, isto aconteceria se ao olharmos para uma folha de cálculo com 15 000 objectos caracterizados por 50 variáveis conseguíssemos perceber as diferenças que existem entre eles e a forma como se relacionam uns com os outros. Não sendo este o caso, temos que recorrer a metodologias que através da compressão de informação nos permitam compreender as principais características dos dados que temos pela frente. Obviamente, quanto maior esta compressão, maior é a perda de informação.

É sempre difícil resolver a questão do número de clusters a utilizar, não existindo soluções óptimas para o seu tratamento. Se no caso dos métodos hierárquicos, como vimos, existem formas de visualização (dendrograma) que facilitam a compreensão das agregações estabelecidas e permitem informar a escolha do número de clusters, no caso dos métodos de optimização isso não acontece.

Antes de mais talvez valha a pena começar por compreender o que é um “bom cluster”. Em termos genéricos, e seguindo os conceitos apresentados no ponto 4, poderemos dizer que procuramos sempre constituir clusters onde o grau de semelhança entre os objectos que o constituem seja o maior possível, ou seja, que se encontrem o mais próximo possível uns dos outros. Por outro lado, é desejável que os clusters se encontrem o mais separados possível entre si. De que forma é que podemos avaliar esta proximidade? A forma mais simples de o fazer é recorrer à variabilidade total intra-cluster que é dada por:

(

)

∑∑∑

= = =

=

m j n i p v jv ijv j

X

X

W

1 1 1 2

quanto menor for o valor, melhor será a qualidade da classificação obtida. É importante compreender que este indicador só terá interesse para comparar classificações com o mesmo

número de clusters (k). É claro que à medida que k cresce W decresce, quanto maior o número de clusters menor será a variabilidade intra-cluster.

Uma boa estratégia para abordar o problema do número de clusters a utilizar, consiste em produzir várias classificações com diferentes k, e escolher a melhor. A escolha deve ser orientada por três critérios fundamentais:

• a variabilidade intra-cluster; • avaliação dos perfis dos clusters; • considerações de natureza operacional. 4.2.1 Variabilidade Intra-cluster

No caso da variabilidade intra-cluster a análise é simples, na medida em que sabemos que quanto menor for o seu valor, maior será a coesão do cluster, característica altamente desejável neste tipo de análise. Como já vimos, à medida que k aumenta menor será a variabilidade intra-cluster, pelo que o que interessa é encontrar um compromisso adequado. A forma mais comum de avaliar este compromisso consiste na utilização do que se costuma designar como o “critério do cotovelo”. A metodologia é muito simples mas também eficaz. O utilizador procede ao processamento do algoritmo k-means, diversas vezes para o mesmo k e para k diferentes (por exemplo, k=3, k=4,…,k=10). Após esta fase o utilizador calcula a variabilidade intra-cluster para as melhores soluções, somando, para todos os clusters e variáveis, a distância de todos os indivíduos ao centroide do cluster onde se encontram classificados. Finalmente, com estes valores produz um gráfico semelhante ao gráfico apresentado na Figura 13. O círculo sinaliza k=7 como o mais indicado, local onde o declive da curva diminui, ou seja, o ganho em termos de coesão dos clusters deixa de justificar a criação de um cluster adicional.

Figura 13: gráfico da evolução da variabilidade intra-cluster à medida que k aumenta. Através deste gráfico o utilizador pode decidir qual o o número mais indicado, procurando a ponto a partir do qual o declive passa a ser menos

acentuado.

4.2.2 Avaliação dos Perfis dos Clusters

A avaliação dos perfis dos clusters não é tão simples na medida em que envolve apreciações bastante mais subjectivas, e que se relacionam com a interpretação dos clusters obtidos. A forma mais comum de levar a cabo esta avaliação, após a criação de uma solução, é através da comparação dos valores médios para cada variável em cada cluster com os valores médios da população. Assim, o analista procura compreender as diferenças mais significativas entre os diferentes clusters e avaliar se essas diferenças justificam a existência dos clusters. Se clusters diferentes apresentam perfis semelhantes ou se as diferenças registadas não são relevantes para o objectivo da análise, então poderemos provavelmente reduzir k sem que isso prejudique a análise.

Regra geral, mais importante que os resultados específicos obtidos pela análise é a sua exploração. A ideia de que existe uma partição ideal para o conjunto de dados a estudar é, não só pouco interessante, mas também pouco realista. O principal objectivo da análise de clusters consiste em aprofundar o conhecimento sobre o conjunto de dados em estudo. O agrupamento de observações em clusters constitui um desafio difícil em termos de optimização. A existência de inúmeros óptimos locais faz com que o objectivo da obtenção do óptimo global seja, em determinadas circunstâncias, inverosímil. No entanto, em muitas situações os óptimos locais são suficientemente “bons” para permitir um melhor entendimento da realidade representada pelos dados. É neste compromisso entre a quantidade de informação e as nossas capacidades de processamento dessa informação que a maior parte das decisões relativas à utilização da

análise de clusters se jogam, especialmente no que se refere ao número de clusters a construir.

4.2.3 Considerações de Natureza Operacional

Finalmente, o critério mais relevante, em termos empresariais, relaciona-se com as questões operacionais. Se a empresa apenas tem possibilidade de gerir de forma diferenciada 3 grupos de clientes então o número certo de clusters é 3. Não faz sentido procurar mais, porque isso não se traduziria em qualquer ganho. Assim, os aspectos objectivos da gestão da carteira de clientes normalmente acabam por condicionar os objectivos e premissas deste tipo de análise. A verdade é que em muitas circunstâncias as bases de dados que estudamos não têm verdadeiros clusters, convexos e perfeitamente limitados. Mais frequentemente, os registos encontram-se distribuídos por um contínuo, no qual é necessário estabelecer fronteiras e criar grupos. É muito frequente que a base de dados possua um número relativamente pequeno de indivíduos, muito “diferentes” e um grande conjunto de indivíduos com perfis semelhantes. Uma estratégia popular, neste tipo de circunstância, consiste em iniciar a análise com um k elevado e, com base na análise das principais características dos clusters e na matriz de distâncias (Figura 23), ir progressivamente agrupando pares de clusters. Este misto de partição/aglomeração, feito de forma iterativa, permite ao analista uma compreensão mais apurada da bases de dados mas também dos compromissos que faz por forma a reduzir k. Na verdade esta estratégia permite a utilização de diferentes k, conforme as necessidades da análise. Na Figura 14 podemos ver uma situação relativamente comum nas bases de dados empresariais, onde, do lado direito, existem dois clusters bastante bem definidos e facilmente delimitáveis, e do lado esquerdo temos um grande cluster. Caso o utilizador escolha um k superior a 3 o cluster do lado esquerdo será subdividido em vários clusters o que, provavelmente, não produzirá informação adicional muito relevante. A estratégia da partição/aglomeração permite “reconstruir” o cluster do lado esquerdo e ao mesmo tempo, sempre que necessário, recuperar os 8 clusters que o compõem.

Figura 14: uma situação relativamente comum nas bases de dados empresariais é a coexistência de clusters bem definidos (lado direito) com grandes clusters (lado esquerdo) que na prática formam um contínuo e onde as fronteiras

não são perceptíveis.

No documento Apontamentos M4 (páginas 32-36)

Documentos relacionados