2.3 Métodos de Agrupamento para Dados Simbólicos
2.3.3 Algoritmo c-médias Difuso para Intervalos
Nesta seção é descrito o algoritmo c-médias difuso para dados simbólicos intervalares (46).
Seja Ω = 1,...,n um conjunto de n padrões (cada padrão é indexado por k) descrito
por p variáveis simbólicas intervalares y1, . . . , yp(cada variável é indexada por j). Uma
variável simbólica intervalar X (18) é uma correspondência definida porΩ em ℜ tal que para cada k∈ Ω,X(k) = [a,b] ∈ ℑ onde ℑ = {[a,b] : a,b ∈ ℜ,a ≤ b} é um conjunto de
2.3. MÉTODOS DE AGRUPAMENTO PARA DADOS SIMBÓLICOS intervalos xk= (x1k, . . . , xkp) onde xkj= [akj, bkj]∈ ℑ. Aqui uma tabela de dados intervalares {xj
k}nxpé composta de n linhas representando os n padrões a serem agrupados, e p colu-
nas representando p variáveis simbólicas intervalares. Cada célula desta tabela contém um intervalo xkj= [akj, bkj]∈ ℑ. Seja cada protótipo gido grupo Pitambém representado
como um vetor de intervalos gi= (g1i, . . . , gip), onde gij= [αij,βij]∈ ℑ.
Como no algoritmo c-médias padrão (6), o método de agrupamento c-médias difuso para dados simbólicos do tipo intervalo tem como objetivo fornecer uma partição difusa de um conjunto de padrões em c grupos{P1, . . . , Pc} e um correspondente conjunto de
protótipos {g1, . . . , gc} tal que um critério W de medida apropriada entre os grupos e
seus representantes (protótipos) é localmente minimizado. Este critério é baseado em uma distância Euclidiana quadrática não-adaptativa (distância fixa que não muda a cada iteração do algoritmo) entre os vetores de intervalos e é definido como:
W = c
∑
i=1 n∑
k=1 (uik)mϕ(xk, gi) = c∑
i=1 n∑
k=1 (uik)m p∑
1=1 [ (akj−αij)2+ (bkj−βij)2 ] 2.4ondeϕ é uma distância Euclidiana quadrática medindo a dissimilaridade entre um par de vetores de intervalos, xk = (x1k, . . . , xkp) é um vetor de intervalos descrevendo o k-ésimo
padrão, gi={g1i, . . . , gip} é um vetor de intervalos descrevendo os protótipos da classe Pi, uiké o grau de pertinência do padrão k ao grupo Pie m∈]1,+∞[ é um parâmetro que con-
trola a nebulosidade de pertinência para cada padrão k. Uma partição obtida a partir de um algoritmo de agrupamento difuso apresenta uma propriedade chamada nebulosidade. Tal propriedade consiste no grau de pertinência de cada indivíduo aos grupos. Quando cada indivíduo tem igual pertinência em todos os grupos, isto é, quando a pertinência desses indivíduos em cada grupo é igual a 1c, onde c é o número total de grupos, tem-se o que se chama de completa nebulosidade.
Como no algoritmo c-médias padrão (6), este algoritmo define um grau de pertinên- cia inicial para cada padrão k em cada grupo Pie alterna um passo de representação e um passo de alocação até a convergência quando o critério W atinge um valor estacionário
representando um mínimo local.
Passo de representação: definição dos melhores protótipos
Neste passo de representação, o grau de pertinência uikde cada padrão k no grupo Piestá
2.3. MÉTODOS DE AGRUPAMENTO PARA DADOS SIMBÓLICOS O protótipo gi= (g1i, . . . , gip) da classe Pi(i = 1, . . . , c) que minimiza o critério de
agrupamento W tem os limites dos intervalos gij= [αij,βij] ( j = 1, . . . , p) atualizados de acordo com a seguinte expressão:
αj i = ∑n k=1(uik)ma j k ∑n k=1(uik)m e βij= ∑ n k=1(uik)mb j k ∑n k=1(uik)m , para j = 1, . . . , p 2.5
Passo de Alocação: definição da melhor partição difusa
No passo de alocação, cada protótipo gida classe Pi(i = 1, . . . , c) está fixo.
Os graus de pertinência uik(k = 1, . . . , n) de cada padrão k em cada grupo Pi, mini-
mizando o critério de agrupamento W sujeito a uik ≥ 0 e ∑ci=1uik= 1, é atualizado de
acordo com a seguinte expressão:
uik= c
∑
h=1 { ∑p j=1[(a j k−α j i)2+ (b j k−β j i)2] ∑pj=1[(a j k−α j h)2+ (b j k−β j h)2] } 1 (m−1) −1 para i = 1, . . . , c 2.6 AlgoritmoO algoritmo de agrupamento c-médias difuso para dados simbólicos do tipo intervalo é executado nos seguintes passos:
(1) Inicialização
Fixe c, 2≤ c < n; fixe m, 1 < m < ∞; fixe T (limite de iterações); e fixeε > 0;
Inicialize uik(k = 1, . . . , n e i, . . . , c) do padrão k pertencentes ao grupo Pi tal que uik≥ 0 e ∑i= 1cuik= 1
(2) t = 1
(3) Passo de representação:
{o grau de pertinência uik do padrão k pertencentes ao grupo Piestão fixos}
Calcule os protótipos gida classe Pi(i = 1, . . . , c) utilizando a equação2.5
(4) Passo de alocação:
{os protótipos gida classe Pi(i = 1, . . . , c) estão fixos}
Atualize os graus de pertinência difusos uik do padrão k pertencentes ao grupo Pi(i = 1, . . . , c) utilizando a equação2.6
2.3. MÉTODOS DE AGRUPAMENTO PARA DADOS SIMBÓLICOS (3) Critério de parada
Se|Wt+1−Wt| ≤ε ou t > T
pare
3
Métodos de Agrupamento Baseados em
Medoids
3.1
Introdução
Este capítulo abordará os métodos de agrupamento baseados em medoids, seus algorit- mos rígidos e difusos utilizando distâncias adaptativas e não-adaptativas.
O algoritmo K-médias é sensível a observações aberrantes já que um objeto com valor extremamente grande pode substancialmente distorcer a distribuição dos dados. Ao invés de utilizar o valor médio dos objetos no grupo como um ponto de referência, um medoid pode ser usado, que é o objeto mais centralmente localizado no grupo. Deste modo, o método de particionamento pode ainda ser fornecido baseado no princípio da minimização da soma das dissimilaridades entre cada objeto e seu correspondente ponto de referência. Isto forma a base do método K-medoids (16) (8).
O Particionamento em Torno de Medoids (Partitioning Around Medoids - Program
PAM) foi um dos primeiros algoritmos K-medoids introduzidos. O algoritmo usado no
programa PAM é baseado na busca de k objetos representativos entre os objetos do con- junto de dados. Na literatura de análise de agrupamentos tais objetos representativos são frequentemente chamados centróides. No algoritmo PAM os objetos representativos são os chamados medoids dos grupos (9). Após encontrar um conjunto de k objetos repre- sentativos, os k grupos são construídos atribuindo cada objeto do conjunto de dados para o objeto representativo mais próximo. Alternativamente o programa pode ser usado com a entrada por uma matriz de dissimilaridades entre objetos.
No método usado no programa PAM o objeto representativo de um grupo é seu
medoid, qual foi definido como aquele objeto do grupo para qual a dissimilaridade mé-
3.1. INTRODUÇÃO ele é chamado método k-medoid. Na descrição do método k-medoid é minimizada a dissimilaridade média de objetos para seu objeto representativo mais próximo. Contudo, no program PAM preferiu-se minimizar a soma destas dissimilaridades, o qual é matem- aticamente equivalente, mas eleva a acurácia dos cálculos.
O algoritmo usado em PAM consiste de duas fases: BUILD e SWAP (10). Na
primeira fase, chamada BUILD, um agrupamento inicial é obtido pela seleção suces- siva de objetos representativos até k objetos terem sido encontrados. O primeiro objeto é para o qual a soma das dissimilaridades para todos os outros objetos é tão menor quanto possível. Este objeto é o mais centralmente localizado no conjunto de dados. Subsequentemente, cada objeto diferente é selecionado. Este objeto é o que minimiza a função objetivo tanto quanto possível. A segunda fase do algoritmo, chamada de SWAP, é a tentativa de melhorar o conjunto de objetos representativos e, portanto, também mel- horar os agrupamentos gerados por este conjunto. Isto é feito considerando-se todos os pares de objetos para qual um objeto foi selecionado e outro objeto não foi.
Outros algoritmos são baseados em medoids preferivelmente do que médias e deste modo pode ser usado em aplicações do mundo real onde os dados podem não ser repre- sentados por valores numéricos. Estes métodos são mais resistentes à ruído e permitem uma melhor interpretação dos resultados desde o centro de cada grupo é um objeto do conjunto de dados.
Versões modificadas para o programa PAM foram introduzidas, como o CLARA e
o CLARANS (9) (10) usam métodos de amostragem para reduzir o número de cálcu-
los. O método CLARA tira múltiplas amostras do conjunto de dados inicial e aplica o algoritmo PAM em cada uma, enquanto CLARANS melhora CLARA limitando o número de candidatos avaliados durante a fase SWAP. Em Lucasius et al. (55) foi pro- posto uma nova abordagem de agrupamento k-medoid usando algoritmo genético, de quem o desempenho é relatado como melhor do que no algoritmo CLARA, mas o custo computacional aumenta quando o número de grupos aumenta. van der Laan et al. (56) experimentaram maximizar a silhueta proposta por Rousseeuw (9) em vez de minimizar a soma das distâncias para o medoid mais próximo. Zhang e Couloigner (57) sugeriram um algoritmo k-medoid que utiliza conceito de rede de triangulação irregular (triangular irregular network) quando calcula o custo total da substituição na fase SWAP do pro- grama PAM para reduzir o custo computacional. Park e Jun (58) propuseram um novo algoritmo k-medoid que testa diversos métodos para seleção dos medoids iniciais. Este algoritmo proposto calcula a matriz de distâncias uma vez e a usa para encontrar novos
3.1. INTRODUÇÃO simples, mas eficiente.
Em Krishnapuram et al. (59) e Nasraoui (60), os autores descrevem um algoritmo de agrupamento c-medoid difuso com uma complexidade linear que só considera os pontos com alta pertinência no grupo como candidato a se tornar o novo centro do grupo. Em Labroche (61) foram propostos dois novos incrementais algoritmos de agrupamento c-
medoids difusos para conjuntos de dados muito grandes. Estes algoritmos são feitos para
trabalhar com dados de fluxo contínuo, onde todos os dados não estão necessariamente disponíveis ou não podem ser acessados em memória principal.
A vantagem dos algoritmos de agrupamento baseados em medoid está no fato de serem menos sensíveis a observações aberrantes por utilizarem os próprios elementos do conjunto de dados como representantes e por disponibilizarem maior flexibilidade, uma vez que a entrada de dados é uma matriz de dissimilaridade, assim estes algoritmos não dependem do tipo dos dados de entrada utilizados.
A estratégia básica do algoritmo de agrupamento K-medoids é encontrar k grupos em n objetos primeiro arbitrariamente encontrando um objeto representativo para cada grupo. Cada objeto restante é agrupado com o medoid para o qual ele é o mais simi- lar (62) (8). O algoritmo de agrupamento k-medoids foi baseado na proposta mostrada no trabalho A simple and fast algorithm for K-medoids clustering, H. Park and C. Jun, 2009. A performance do algoritmo pode variar de acordo com o método de seleção dos
medoids iniciais. Os representantes iniciais selecionados por Park e Jun (58) tendem a selecionar os k objetos mais centralmente localizados como medoids iniciais. Para os métodos c-medoids difusos, os medoids iniciais foram gerados a partir da proposta ap- resentada em Krishnapuram et al. (59) que faz a seleção inicial randomicamente como descrito na literatura dos algoritmos difusos baseados em medoids.
Os algoritmos baseados em medoids também foram avaliados utilizando a abor- dagem de distâncias adaptativas por atributo ou única e distâncias adaptativas por classe e por atributo. A principal idéia da abordagem de distâncias adaptativas por atributo ou única é que há uma distância para comparar objetos e seus protótipos que muda a cada iteração, mas que é a mesma para todos os grupos. E a principal idéia contida na abordagem de distâncias adaptativas por classe e por atributo é que há uma distância para comparar grupos e os seus respectivos protótipos que muda a cada iteração, como também varia de um atributo de uma classe para o mesmo atributo em outra classe. A vantagem desse tipo de distância adaptativa é que o algoritmo de agrupamento torna-se capaz de achar grupos de diferentes formas e tamanhos (63) (28).