4.2 Ensembles de Agrupamentos
4.2.2 Determina¸c˜ao da Fun¸c˜ao Consenso
A utiliza¸c˜ao de uma fun¸c˜ao consenso ´e a forma empregada para encontrar uma parti¸c˜ao consenso (parti¸c˜ao final gerada pela combina¸c˜ao) a partir de parti¸c˜oes iniciais (base). Ela constitui a essˆencia da combina¸c˜ao, pois diz como as parti¸c˜oes s˜ao combinadas.
V´arios aspectos tornam a defini¸c˜ao de uma fun¸c˜ao consenso dif´ıcil (Topchy et al. 2003). A ausˆencia de r´otulos nos objetos a serem agrupados faz com que n˜ao haja uma correspondˆencia expl´ıcita entre os clusters das diversas parti¸c˜oes. Isso ´e agravado quando as parti¸c˜oes possuem diferentes n´umeros de clusters, resultando em um problema com- putacional intrat´avel (problema de correspondˆencia de r´otulos1) De fato, o problema de combina¸c˜ao de agrupamentos ´e equivalente ao problema de encontrar uma parti¸c˜ao me- diana em rela¸c˜ao `as parti¸c˜oes dadas, que ´e um problema comprovadamente NP-completo (Topchy et al. 2003). Assim, como o crit´erio de agrupamento dos algoritmos conven- cionais, as fun¸c˜oes consenso s˜ao heur´ısticas propostas para a resolu¸c˜ao do problema formal de obten¸c˜ao de uma parti¸c˜ao consenso. Topchy et al. (2004) resume as fun¸c˜oes consenso em:
Fun¸c˜oes baseadas em co-associa¸c˜ao: a similaridade entre dois objetos pode ser esti- mada pelo n´umero de clusters compartilhados por eles em todas as parti¸c˜oes base. As parti¸c˜oes s˜ao representadas por uma matriz em que essa similaridade ´e utilizada para representar a for¸ca de co-associa¸c˜ao entre os objetos. A parti¸c˜ao consenso ´e obtida pela aplica¸c˜ao de um algoritmo de agrupamento qualquer, que seja baseado em similaridade, a essa matriz de co-associa¸c˜ao (Kellam et al. 2001; Strehl and Ghosh 2002; Fred and Jain 2002; Fred and Jain 2003; Monti et al. 2003).
Alguns dos problemas dessa abordagem s˜ao: falta de uma metodologia para a defini¸c˜ao do algoritmo de agrupamento a ser utilizado para a combina¸c˜ao e a baixa confiabilidade da estimativa dos valores de co-associa¸c˜ao quando um pequeno n´umero de parti¸c˜oes ´e utilizado.
Fun¸c˜oes baseadas em grafo/hipergrafo: neste caso, as parti¸c˜oes base s˜ao represen- tadas por um grafo ou por um hipergrafo, e a parti¸c˜ao consenso ´e encontrada empre- gando uma t´ecnica de particionamento de grafos ou hipergrafos (Strehl and Ghosh 2002; Fern and Brodley 2004). Esse tipo de fun¸c˜ao consenso ´e o mais apropriado para este trabalho, conforme ser´a discutido na Se¸c˜ao 4.2.3, em que ser˜ao apresen- tadas detalhadamente as duas t´ecnicas de ensemble a serem utilizadas.
Fun¸c˜oes baseadas em informa¸c˜ao m´utua: a fun¸c˜ao consenso ´e formulada em termos da informa¸c˜ao m´utua entre os r´otulos na parti¸c˜ao consenso e os r´otulos nas parti¸c˜oes
1
iniciais. Strehl and Ghosh (2002) definem a informa¸c˜ao m´utua normalizada m´edia entre uma parti¸c˜ao qualquer e um conjunto de parti¸c˜oes iniciais. A parti¸c˜ao consenso ´e dada pelo m´aximo dessa fun¸c˜ao, considerando o n´umero de clusters desejado. Por´em, a otimiza¸c˜ao dessa fun¸c˜ao ´e um problema dif´ıcil e esses autores utilizam heur´ısticas baseadas em co-associa¸c˜ao e hipergrafo para resolver o problema. Fred and Jain (2003) tamb´em definem formalmente uma fun¸c˜ao consenso baseada em informa¸c˜ao m´utua, mas resolvem o problema com uma heur´ıstica baseada em co-associa¸c˜ao.
Topchy et al. (2003) definem uma fun¸c˜ao consenso baseada na informa¸c˜ao m´utua generalizada, que ´e equivalente `a variˆancia intra-cluster num espa¸co de r´otulos dos
clusters especialmente transformado. A fun¸c˜ao ´e ent˜ao otimizada com o algoritmo
k-m´edias.
Fun¸c˜oes baseadas em vota¸c˜ao: um mecanismo de vota¸c˜ao ´e utilizado para atribuir os objetos aos clusters da parti¸c˜ao consenso, dado que o problema de correspondˆencia dos r´otulos seja solucionado para todas as parti¸c˜oes base. Entretanto, esse problema de correspondˆencia dos r´otulos ´e de dif´ıcil solu¸c˜ao, sendo as vezes intrat´avel. Por´em, pode-se obter uma aproxima¸c˜ao heur´ıstica de uma rotula¸c˜ao consistente. Todas as parti¸c˜oes podem ser re-rotuladas com base em sua melhor concordˆancia com uma parti¸c˜ao referˆencia, que pode ser uma das parti¸c˜oes base ou um novo agrupamento do conjunto de dados. Esse procedimento ´e utilizado por Fred (2001) e Weingessel et al. (2003).
Frossyniotis et al. (2002) prop˜oem a constru¸c˜ao das parti¸c˜oes juntamente com um processo de renumera¸c˜ao dos clusters seguido de vota¸c˜ao. A partir disso, s˜ao esta- belecidas rela¸c˜oes de vizinhan¸ca entre os clusters. Essas informa¸c˜oes s˜ao utilizadas para fundir os clusters mais pr´oximos, resultando na parti¸c˜ao final.
Al´em desses tipos de fun¸c˜ao consenso, Topchy et al. (2004) definem uma fun¸c˜ao con- senso baseada em uma solu¸c˜ao para o problema de probabilidade m´axima para um modelo misto finito do conjunto de parti¸c˜oes iniciais. Esse conjunto de parti¸c˜oes ´e modelado como uma mistura de distribui¸c˜oes multinomiais no espa¸co dos r´otulos dos clusters. O problema de probabilidade m´axima pode ser resolvido com o algoritmo EM.
A Tabela 4.1 cont´em um resumo das principais caracter´ısticas das abordagens citadas, utilizadas para ensemble de agrupamentos. Nessa tabela est˜ao resumidos a forma de repre- senta¸c˜ao das parti¸c˜oes base, a fun¸c˜ao consenso, o objetivo da combina¸c˜ao, os algoritmos empregados e a maneira como foram utilizados para gerar diversidade para as parti¸c˜oes base.
4. 2 E n se m b le s d e A gr u p a m en tos
Tabela 4.1: Compara¸c˜ao das formas de combina¸c˜ao de agrupamentos.
Artigo Representa¸c˜ao Fun¸c˜ao consenso Objetivo da combina¸c˜ao Algoritmos Diversidade
das parti¸c˜oes combinados
(Kellam et al. 2001) Matriz de Os clusters finais s˜ao Clustersrobustos Hier´arquico, k-m´edias, V´arios algoritmos
concordˆancia aqueles que possuem os (clusters em que os SOM e algoritmos gen´eticos,
mesmos objetos em objetos aparecem junto com o coeficiente de
todas as parti¸c˜oes em todas as parti¸c˜oes) correla¸c˜ao de Pearson
(Fred 2001) Matriz de Vota¸c˜ao Consistˆencia k-m´edias Mesmo algoritmo com
co-associa¸c˜ao diferentes inicializa¸c˜oes
(Fred and Jain 2002) Matriz de liga¸c˜ao simples com um novo Consistˆencia k-m´edias Mesmo algoritmo com
co-associa¸c˜ao crit´erio para determinar diferentes inicializa¸c˜oes
a parti¸c˜ao final
(Strehl and Ghosh 2002) Hipergrafo Particionamento de Reuso de Conhecimento, Particionamento de V´arios algoritmos e
grafo de similaridade, Computa¸c˜ao distribu´ıda, grafo e k-m´edias, com mesmo algoritmo com
particionamento de corte Robustez v´arias medidas de dados diferentes
m´ınimo e meta clusters similaridade, SOM e
particionamento de hipergrafo
(Frossyniotis et al. 2002) Tabela de vota¸c˜ao e Vota¸c˜ao Robustez e k-m´edias e greedy-EM Mesmo algoritmo com
tabela de rela¸c˜ao estabilidade diferentes inicializa¸c˜oes
de vizinhan¸ca
(Monti et al. 2003) Matriz consenso LM determinando k com Estabilidade LM e SOM Mesmo algoritmo
base na estabilidade com dados diferentes
dos agrupamentos
(Fred and Jain 2003) Matriz de liga¸c˜ao simples (pode ser Consistˆencia, k-m´edias Mesmo algoritmo com
co-associa¸c˜ao, qualquer fun¸c˜ao baseada estabilidade e diferentes inicializa¸c˜oes
usando vota¸c˜ao em similaridade) robustez
(Weingessel et al. 2003) Conjunto de matrizes Vota¸c˜ao/fus˜ao Robustez k-m´edias, hard competitive V´arios algoritmos e
de pertinˆencia das learninge aprendizado mesmo algoritmo com
parti¸c˜oes iniciais competitivo fuzzy diferentes inicializa¸c˜oes
n˜ao supervisionado
(Topchy et al. 2003) Novo conjunto de Baseada no k-m´edias Desempenho e custo Algoritmos fracos que Mesmo algoritmo com
caracter´ısticas aplicado no novo espa¸co usam proje¸c˜oes ou divis˜oes diferentes inicializa¸c˜oes
dos padr˜oes de caracter´ısticas aleat´orias dos dados
(Topchy et al. 2004) Novo conjunto de Probabilidade m´axima Robustez, estabilidade, k-m´edias Mesmo algoritmo com
caracter´ısticas encontrada com o escalabilidade e diferentes inicializa¸c˜oes
dos objetos m´etodo EM reuso do conhecimento
(Fern and Brodley 2004) Grafo Particionamento de grafo Robustez k-m´edias Mesmo algoritmo
com dados diferentes
(Law et al. 2004) Conjunto com Clustersmais est´aveis Novidade e k-m´edias, EM, hier´arquico V´arios algoritmos
todos os clusters robustez com liga¸c˜ao simples
e spectral clustering