Determina¸c˜ao da Fun¸c˜ao Consenso - Ensembles de Agrupamentos

4.2 Ensembles de Agrupamentos

4.2.2 Determina¸c˜ao da Fun¸c˜ao Consenso

A utiliza¸cão de uma fun¸cão consenso é a forma empregada para encontrar uma parti¸cão consenso (parti¸cão final gerada pela combina¸cão) a partir de parti¸cões iniciais (base). Ela constitui a essência da combina¸cão, pois diz como as parti¸cões são combinadas.

Vários aspectos tornam a defini¸cão de uma fun¸cão consenso dif´ıcil (Topchy et al. 2003). A ausência de rótulos nos objetos a serem agrupados faz com que não haja uma correspondência expl´ıcita entre os clusters das diversas parti¸cões. Isso é agravado quando as parti¸cões possuem diferentes n´umeros de clusters, resultando em um problema com- putacional intratável (problema de correspondência de rótulos1_{) De fato, o problema de} combina¸cão de agrupamentos é equivalente ao problema de encontrar uma parti¸cão me- diana em rela¸cão às parti¸cões dadas, que é um problema comprovadamente NP-completo (Topchy et al. 2003). Assim, como o critério de agrupamento dos algoritmos conven- cionais, as fun¸cões consenso são heur´ısticas propostas para a resolu¸cão do problema formal de obten¸cão de uma parti¸cão consenso. Topchy et al. (2004) resume as fun¸cões consenso em:

Fun¸cões baseadas em co-associa¸cão: a similaridade entre dois objetos pode ser esti- mada pelo n´umero de clusters compartilhados por eles em todas as parti¸cões base. As parti¸cões são representadas por uma matriz em que essa similaridade é utilizada para representar a for¸ca de co-associa¸cão entre os objetos. A parti¸cão consenso é obtida pela aplica¸cão de um algoritmo de agrupamento qualquer, que seja baseado em similaridade, a essa matriz de co-associa¸cão (Kellam et al. 2001; Strehl and Ghosh 2002; Fred and Jain 2002; Fred and Jain 2003; Monti et al. 2003).

Alguns dos problemas dessa abordagem são: falta de uma metodologia para a defini¸cão do algoritmo de agrupamento a ser utilizado para a combina¸cão e a baixa confiabilidade da estimativa dos valores de co-associa¸cão quando um pequeno número de parti¸cões é utilizado.

Fun¸cões baseadas em grafo/hipergrafo: neste caso, as parti¸cões base são representadas por um grafo ou por um hipergrafo, e a parti¸cão consenso é encontrada empre- gando uma técnica de particionamento de grafos ou hipergrafos (Strehl and Ghosh 2002; Fern and Brodley 2004). Esse tipo de fun¸cão consenso é o mais apropriado para este trabalho, conforme será discutido na Se¸cão 4.2.3, em que serão apresen- tadas detalhadamente as duas técnicas de ensemble a serem utilizadas.

Fun¸cões baseadas em informa¸cão mútua: a fun¸cão consenso é formulada em termos da informa¸cão mútua entre os rótulos na parti¸cão consenso e os rótulos nas parti¸cões

iniciais. Strehl and Ghosh (2002) definem a informa¸cão mútua normalizada média entre uma parti¸cão qualquer e um conjunto de parti¸cões iniciais. A parti¸cão consenso é dada pelo máximo dessa fun¸cão, considerando o n´umero de clusters desejado. Porém, a otimiza¸cão dessa fun¸cão é um problema dif´ıcil e esses autores utilizam heur´ısticas baseadas em co-associa¸cão e hipergrafo para resolver o problema. Fred and Jain (2003) também definem formalmente uma fun¸cão consenso baseada em informa¸cão mútua, mas resolvem o problema com uma heur´ıstica baseada em co-associa¸cão.

Topchy et al. (2003) definem uma fun¸cão consenso baseada na informa¸cão mútua generalizada, que é equivalente à variância intra-cluster num espa¸co de rótulos dos

clusters especialmente transformado. A fun¸cão é então otimizada com o algoritmo

k-m´edias.

Fun¸cões baseadas em vota¸cão: um mecanismo de vota¸cão é utilizado para atribuir os objetos aos clusters da parti¸cão consenso, dado que o problema de correspondência dos rótulos seja solucionado para todas as parti¸cões base. Entretanto, esse problema de correspondência dos rótulos é de dif´ıcil solu¸cão, sendo as vezes intratável. Porém, pode-se obter uma aproxima¸cão heur´ıstica de uma rotula¸cão consistente. Todas as parti¸cões podem ser re-rotuladas com base em sua melhor concordância com uma parti¸cão referência, que pode ser uma das parti¸cões base ou um novo agrupamento do conjunto de dados. Esse procedimento é utilizado por Fred (2001) e Weingessel et al. (2003).

Frossyniotis et al. (2002) propõem a constru¸cão das parti¸cões juntamente com um processo de renumera¸cão dos clusters seguido de vota¸cão. A partir disso, são esta- belecidas rela¸cões de vizinhan¸ca entre os clusters. Essas informa¸cões são utilizadas para fundir os clusters mais próximos, resultando na parti¸cão final.

Além desses tipos de fun¸cão consenso, Topchy et al. (2004) definem uma fun¸cão consenso baseada em uma solu¸cão para o problema de probabilidade máxima para um modelo misto finito do conjunto de parti¸cões iniciais. Esse conjunto de parti¸cões é modelado como uma mistura de distribui¸cões multinomiais no espa¸co dos rótulos dos clusters. O problema de probabilidade máxima pode ser resolvido com o algoritmo EM.

A Tabela 4.1 contém um resumo das principais caracter´ısticas das abordagens citadas, utilizadas para ensemble de agrupamentos. Nessa tabela estão resumidos a forma de repre- senta¸cão das parti¸cões base, a fun¸cão consenso, o objetivo da combina¸cão, os algoritmos empregados e a maneira como foram utilizados para gerar diversidade para as parti¸cões base.

4. 2 E n se m b le s d e A gr u p a m en tos

Tabela 4.1: Compara¸c˜ao das formas de combina¸c˜ao de agrupamentos.

Artigo Representa¸cão Fun¸cão consenso Objetivo da combina¸cão Algoritmos Diversidade

das parti¸c˜oes combinados

(Kellam et al. 2001) Matriz de Os clusters finais são Clustersrobustos Hierárquico, k-médias, Vários algoritmos

concordˆancia aqueles que possuem os (clusters em que os SOM e algoritmos gen´eticos,

mesmos objetos em objetos aparecem junto com o coeficiente de

todas as parti¸cões em todas as parti¸cões) correla¸cão de Pearson

(Fred 2001) Matriz de Vota¸cão Consistência k-médias Mesmo algoritmo com

co-associa¸c˜ao diferentes inicializa¸c˜oes

(Fred and Jain 2002) Matriz de liga¸cão simples com um novo Consistência k-médias Mesmo algoritmo com

co-associa¸cão critério para determinar diferentes inicializa¸cões

a parti¸c˜ao final

(Strehl and Ghosh 2002) Hipergrafo Particionamento de Reuso de Conhecimento, Particionamento de V´arios algoritmos e

grafo de similaridade, Computa¸c˜ao distribu´ıda, grafo e k-m´edias, com mesmo algoritmo com

particionamento de corte Robustez v´arias medidas de dados diferentes

m´ınimo e meta clusters similaridade, SOM e

particionamento de hipergrafo

(Frossyniotis et al. 2002) Tabela de vota¸cão e Vota¸cão Robustez e k-médias e greedy-EM Mesmo algoritmo com

tabela de rela¸c˜ao estabilidade diferentes inicializa¸c˜oes

de vizinhan¸ca

(Monti et al. 2003) Matriz consenso LM determinando k com Estabilidade LM e SOM Mesmo algoritmo

base na estabilidade com dados diferentes

dos agrupamentos

(Fred and Jain 2003) Matriz de liga¸cão simples (pode ser Consistência, k-médias Mesmo algoritmo com

co-associa¸cão, qualquer fun¸cão baseada estabilidade e diferentes inicializa¸cões

usando vota¸c˜ao em similaridade) robustez

(Weingessel et al. 2003) Conjunto de matrizes Vota¸cão/fusão Robustez k-médias, hard competitive Vários algoritmos e

de pertinˆencia das learninge aprendizado mesmo algoritmo com

parti¸c˜oes iniciais competitivo fuzzy diferentes inicializa¸c˜oes

n˜ao supervisionado

(Topchy et al. 2003) Novo conjunto de Baseada no k-m´edias Desempenho e custo Algoritmos fracos que Mesmo algoritmo com

caracter´ısticas aplicado no novo espa¸co usam proje¸cões ou divisões diferentes inicializa¸cões

dos padr˜oes de caracter´ısticas aleat´orias dos dados

(Topchy et al. 2004) Novo conjunto de Probabilidade m´axima Robustez, estabilidade, k-m´edias Mesmo algoritmo com

caracter´ısticas encontrada com o escalabilidade e diferentes inicializa¸c˜oes

dos objetos m´etodo EM reuso do conhecimento

(Fern and Brodley 2004) Grafo Particionamento de grafo Robustez k-m´edias Mesmo algoritmo

com dados diferentes

(Law et al. 2004) Conjunto com Clustersmais estáveis Novidade e k-médias, EM, hierárquico Vários algoritmos

todos os clusters robustez com liga¸c˜ao simples

e spectral clustering

No documento Um framework para análise de agrupamento baseado na combinação multi-objetivo de... (páginas 67-70)