Pseudo-c´ odigo do algoritmo minCentropy

5. Conclus˜ ao

3.7 Pseudo-c´ odigo do algoritmo minCentropy

importar dados inicializar vari´aveis

obter parti¸c˜ao inicial com k-m´edias

calcular a matriz com a similaridade entre os pares de objetos

calcular a matriz de similaridade objeto-a-cluster flag = verdadeiro

enquantoflag = verdadeirofazer flag = falso

para cada objeto fazer calcular entropia se entropia >0 ent˜ao

mudar objeto de cluster

parti¸cão). Algumas variáveis são inicializadas e são constru´ıdas duas matrizes espe-ciais para efetuar o cálculo da entropia:

• Matriz de similaridade entre pares de objetos (Pairwaise Similarity Matrix) - consiste numa matriz N ×N onde s˜ao guardados os valores da semelhan¸ca entre pares de objetos.

• Matriz de similaridade objeto-a-cluster (Point-to-Cluster Similarity Matrix) -consiste num vetor N×K onde s˜ao guardados os valores da semelhan¸ca entre um objeto e os objetos contidos num cluster.

Muito semelhante ao algoritmo descrito em [28] , o algoritmominCentropy per-corre através de ciclos todos os objetos dos dados, verificando a entropia do objeto num cluster e a entropia mudando o objeto para um cluster diferente. A condi¸cão para a mudan¸ca implica que a entropia seja maior que 0. Determinados parâmetros têm de ser definidos pelo utilizador:

• k - n´umero de parti¸c˜oes inicial.

• σ - tamanho da janela de Parzen.

• nrun - n´umero de vezes que o algoritmo dever´a ser corrido.

3.5. Spectral Clustering 29

• C - este parâmetro é opcional, consiste na parti¸cão inicial, caso não seja for-necido, o algoritmo elabora uma parti¸cão.

3.5 Spectral Clustering

Os algoritmos de spectral clustering descritos em [34] , [41] e [42] , demonstraram obter bons resultados, razão pela qual também foram escolhidos para serem usados neste trabalho. Três implementa¸cões diferentes de spectral clustering são usadas.

Estes trˆes algoritmos implementados em MATLAB podem ser encontrados em [43].

3.5.1 Shi & Malik - Normalized Cut

O agrupamento dos dados é feito com base na teoria de grafos. O conjunto de dados é interpretado como um aglomerado de pontos todos conectados, onde cada ponto é visto como um vértice (edge) da rede formada pelas liga¸cões. Os autores propõem um critério para fazer a parti¸cão dos dados baseado em grafos, denominado normalized cut. Usando este critério em conjunto com vetores próprios da matriz Laplaciana o algoritmo consegue efetuar parti¸cões nos dados. Enumeram-se abaixo os passos que o algoritmo percorre até encontrar osclusters.

1. Criar um grafo G a partir de um conjunto de dados.

2. Atribuir uma etiqueta (label) aos v´ertices do gr´afico (weighted graph).

3. Sumarizar grafo em duas matrizes W e D.

4. Encontrar os menores valores pr´oprios atrav´es de (D−W)x=λDx.

5. Usando o segundo menor valor próprio na matriz Laplaciana, encontrar o ponto de corte onde Ncut é m´ınimo e fazer parti¸cão.

6. Verificar se a parti¸c˜ao atual deve ser repartida, atrav´es da estabilidade do corte.

W é uma matriz simétrica de dimensõesN×N, onde são guardadas as distâncias entre os vértices. D é uma matriz diagonal de dimensões N ×N, preenchida por 0 exceto na sua linha diagonal, onde são guardados os valores de d, somatório das liga¸cões do vértice a todos os outros vértices do grafo. Ncut é definido pela equa¸cão 3.21. Esta equa¸cão representa o critério normalized cut, onde cut(A, B) representa

30 Cap´ıtulo 3. Algoritmos de Clustering

um corte fazendo duas parti¸cõesA eB, e assoc(A, V) representa o total de liga¸cões dos vértices emAcom todos os vértices do grafo. Por sua vez,assoc(B, V) representa as liga¸cões de B com todos os vértices do grafo. Ao utilizador é apenas pedido o número de clustersque deseja encontrar.

N cut(A, B) = cut(A, B)

assoc(A, V) + cut(A, B)

assoc(B, V) . (3.21)

3.5.2 Ng & Jordan - K-Eigenvectors

O algoritmo proposto em [34] também recorre ao uso de vetores próprios da matriz Laplaciana. Introduz o uso de parti¸cões através do algoritmo k-médias. Abaixo são enumerados os passos do algoritmo para um conjunto de dadosS ={s₁, ...s_n}s₁, ...s_n.

1. Criar matriz de afinidade definida por A_ij =exp(− ks_i−s_jk²/2σ²).

2. Criar D, uma matriz diagonal onde o elemento (i, i) ´e a soma da linha i na matriz A.

3. Criar matriz LaplacianaL definida por D^1/2AD^−1/2. 4. Encontrar osk maiores vetores pr´oprios em L.

5. Criar vetor X colocando osk maiores vetores pr´oprios numa coluna.

6. Criar matrizY atraves deX, aplicandoY_ij =X_ij/(P

jX_ij²)¹² a todas as linhas de X.

7. UsandoY, criar clusters com k-m´edias.

8. Atribuir o ponto original s_i ao cluster j se e s´o se a linha i da matriz Y pertencer ao clusterj.

A matriz de afinidade (affinity matrix) pode ser vista como um grafo, onde as linhas e as colunas estão todas ligadas entre si, representando as liga¸cões entre os vértices de um grafo, e o valor dos campos da matriz representa os próprios vértices.

O parâmetro σ é encontrado de forma automática pelo algoritmo. O utilizador apenas introduz o número de clustersa encontrar.

3.6. K-M´edias 31

3.5.3 Perona & Freeman - Affinity Factorization

Em [42] os autores exploram o trabalho de Shi e Malik para desenvolver um algo-ritmo simples que fa¸ca uso do conceito de cria¸c˜ao de fatores a partir da matriz de afinidade. Seguidamente s˜ao enumerados os passos efetuados pelo algoritmo.

1. Criar matriz de afinidade A_ij entre os pares de elementos.

2. Calcular p, associado ao maior valor pr´oprio de A.

3. Definir o primeiro planoF como o conjunto de objetosicujop_i correspondente n˜ao seja igual a 0.

Aij ´e uma medida de similaridade entre dois objetos do conjunto de dados.

Quando os dois objetos são muito semelhantes, Aij tem um valor alto. Se a se-melhan¸ca entre os dois objetos é reduzida, consequentemente A_ij terá um valor baixo, muito perto de zero. pé uma fun¸cão aplicada a todos os objetos, um por um.

A fun¸cão é definida por: Os clusters são formados calculando p de cada objeto em A_ij. Objetos com p iguais pertencem ao mesmo cluster. Com este algoritmo o utilizador não define nenhum parâmetro, o algoritmo encontra osclustersautomaticamente. No capitulo 4 é feita uma aprecia¸cão desta caracter´ıstica analisando os resultados obtidos.

3.6 K-M´ edias

O algoritmo k-médias faz uma parti¸cão dos dados em quantos clusters o utilizador desejar. O algoritmo é iterativo, o utilizador definek clustersque pretende encontrar e o algoritmo criak centróides no conjunto de dados. Através de várias itera¸cões, os objetos são atribu´ıdos aos cluster dependendo da sua distância a cada centróide. É usada a distância Euclidiana para relacionar os objetos com os centróides. A cada itera¸cão, também os centróides são recalculados. As itera¸cões são feitas até que a soma de todas as distâncias Euclidianas dos objetos aos seus centróides;

J =

32 Cap´ıtulo 3. Algoritmos de Clustering

seja m´ınima. Na tabela 3.8 ´e mostrado o pseudo-codigo do algoritmo k-m´edias.

Foi usada a implementa¸cão do algoritmo de k-médias fornecida com o programa MATLAB. Em [44] pode ser encontrada a fun¸cão que implementa este algoritmo.

No documento Clustering de Dados Biomédicos com Algoritmos baseados em Critérios Entrópicos (páginas 42-46)