T´ ecnicas de clusteriza¸c˜ ao - An´ alise probabil´ıstica

2.2 An´ alise probabil´ıstica

2.2.2 T´ ecnicas de clusteriza¸c˜ ao

Conforme Jain (2010), a análise por intermédio de clusters é o estudo formal de métodos e algoritmos para agrupar ou clusterizar objetos de acordo com medidas ou caracter´ısticas intr´ınsecas percebidas ou através da similaridade. O objetivo da clusteriza¸cão é encontrar estruturas em dados e, portanto, é de natureza exploratória. De maneira semelhante, Zalik (2008) define a clusteriza¸cão como o processo de particionar ou agrupar um determinado conjunto de padrões em clusters disjuntos. Isso é feito de tal forma que os padrões no mesmo cluster são semelhantes e os padrões pertencentes a dois clusters distintos são diferentes. Clusters podem diferir em termos de sua forma, tamanho e densidade. Bradley et al. (1998) afirmam que a abordagem mais usual é ver a clusteriza¸cão como um problema de estimativa de densidade. Um cluster ideal pode ser definido como um conjunto de pontos que é compacto e isolado.

Os algoritmos de clusteriza¸cão podem ser divididos em dois grupos: hierárquicos e particionais. De acordo com Jain (2010), os algoritmos de clusteriza¸cão hierár-

quicos recursivamente encontram clusters aninhados tanto em modo aglomerativo (come¸cando com cada ponto em seu próprio cluster e mesclando o par de clusters mais similar sucessivamente para formar uma hierarquia de clusters) ou no modo divisivo (come¸cando com todos os pontos em um cluster e recursivamente dividindo cada cluster em clusters menores). Em compara¸cão com os algoritmos de clusteriza¸cão hierárquicos, os algoritmos de clusteriza¸cão particionais localizam todos os clusters simultaneamente como uma parti¸cão dos dados e não impõem uma estrutura hierárquica.

A forma mais simples de clusteriza¸cão é a particional, que visa particionar um dado conjunto de dados em subconjuntos disjuntos (clusters) para que os critérios de clusteriza¸cão sejam otimizados. A minimiza¸cão do erro de clusteriza¸cão é o critério mais amplamente utilizado, no qual para cada ponto é calculada sua distância qua- drática do centróide do cluster correspondente e, em seguida, é computada a soma dessas distâncias para todos os pontos no conjunto de dados analisado (LIKAS; VLASSIS; VERBEEK, 2003).

Jain (2010) fez uma importante distin¸cão entre métodos de clusteriza¸cão e algoritmos de clusteriza¸cão. Um método de clusteriza¸cão é uma estratégia geral empre- gada para resolver um problema de clusteriza¸cão. Um algoritmo de clusteriza¸cão, por outro lado, é simplesmente uma instância de um método. Por exemplo, minimizar o erro quadrático é um método de clusteriza¸cão, e há muitos algoritmos de clusteriza¸cão diferentes, incluindo o K-means, que implementam o método de minimiza¸cão do erro quadrático.

Um dos algoritmos de clusteriza¸cão mais simples e populares, o algoritmo particional K-means, tem uma rica e diversificada história, uma vez que foi descoberto independentemente em diferentes campos cient´ıficos. Alguns autores atribuem que o algoritmo foi originalmente proposto por Macqueen (1967). De acordo com Jain (2010), apesar do fato de que o K-means foi proposto há mais de 50 anos e milhares de algoritmos de clusteriza¸cão foram publicados desde então, o K-means ainda é amplamente utilizado. Isso explica a dificuldade em projetar um algoritmo de clusteriza¸cão de propósito geral e o problema de agrupamentos mal-configurados que podem ser enfrentados pela clusteriza¸cão.

estrutura. Considera-se X = {xi, i = 1, ..., n} como o conjunto de n pontos d-

dimensionais a serem clusterizados em um conjunto de K subconjuntos disjuntos (clusters) C = {ck, k = 1, ..., K}. O algoritmo K-means localiza uma parti¸c˜ao de

tal forma que o erro quadrático entre a média emp´ırica de um cluster e os pontos no cluster é minimizado, no qual µk é o centróide geométrico do cluster ck. O erro

quadr´atico entre µk e os pontos no cluster ck ´e definido por:

J (ck) =

xi∈ck

||xi− µk||2. (1)

O objetivo do K-means ´e minimizar a soma dos erros quadr´aticos de todos os K clusters, dado por:

J (C) =

k=1

J (ck). (2)

De acordo com Jain (2010), minimizar essa fun¸cão objetivo é conhecido por ser um problema NP-completo. O K-means inicia com uma parti¸cão inicial com K clusters e busca atribuir padrões a clusters a fim de reduzir o erro quadrático. Como o erro quadrático sempre diminui com um aumento no número de clusters (com J (C) = 0 quando K = n), ele pode ser minimizado apenas para um número fixo de clusters. Os principais passos do algoritmo K-means são os seguintes:

1. Inicializar K centr´oides µ1, µ2, ..., µk por valores iniciais conhecidos como seed

points, geralmente utilizando inicializa¸c˜ao aleat´oria;

2. Gerar uma nova parti¸c˜ao atribuindo cada ponto ao centro do cluster mais pr´oximo;

3. Recalcular o centr´oide µk de cada cluster ;

4. Para todos os pontos xi e todos K clusters, repetir os Passos 2 e 3 at´e todos

os centr´oides convergirem.

A Figura 1 mostra uma ilustra¸cão do algoritmo K-means em um conjunto de dados bidimensional com três clusters. A Figura 1(a) representa os dados de entrada bidimensionais. Na Figura 1(b) foram definidos 3 centróides de forma aleatória e ocorreu a associa¸cão inicial dos pontos aos clusters. Itera¸cões intermediárias são

representadas nas Figura 1(c) e (d), onde é atualizada a posi¸cão dos centróides e a designa¸cão dos pontos ao centróide mais próximo. A Figura 1(e) ilustra a clusteriza¸cão final obtida pelo algoritmo K-means na convergência.

Figura 1: Exemplo de execu¸c˜ao do algoritmo K-means

Fonte: Adaptado de (JAIN, 2010).

O K-means tem se mostrado eficaz na produ¸cão de bons resultados de clusteriza¸cão em muitas aplica¸cões práticas. Geralmente converge em poucas itera¸cões para uma configura¸cão estável, na qual nenhum elemento está designado para um cluster cujo centróide não seja o mais próximo. O número de clusters é considerado fixo no K-means originalmente proposto. A escolha apropriada do número de K clusters depende do problema e geralmente requer que o usuário fa¸ca uma análise de sensibilidade com diferentes valores de K (ZALIK, 2008).

Desde o surgimento do algoritmo, inúmeros aprimoramentos e varia¸cões têm sido propostos. Zalik (2008) propõe uma adapta¸cão ao algoritmo K-means, o qual executa a clusteriza¸cão sem pré-atribuir o número exato de clusters. No trabalho de Likas, Vlassis e Verbeek (2003) são propostos os métodos Global K-means e Fast Global K-means, que não dependem da inicializa¸cão aleatória para os centro dos clusters, por empregar o algoritmo K-means como um procedimento de busca local.

Ao invés de selecionar aleatoriamente os valores iniciais para os centróides, a técnica proposta prossegue de maneira incremental, tentando otimizar o acréscimo de uma nova posi¸cão central de cada cluster a cada estágio.

No documento Alocação ótima de bancos de capacitores em sistemas de distribuição considerando a cronologia da operação e incertezas (páginas 33-37)