Algoritmos de Agrupamento (Clusteriza¸c˜ ao)

Agrupamento, ou clusteriza¸cão (do inglês, clustering) é o processo de deteçcão de simi- laridades entre exemplares, descobrindo assim sua disposi¸cão em um grupo. Dentre os tipos de algoritmos que aplicam agrupamento, destacam-se, dentre outros: hierárquico, por parti¸cão, rede neural artificial, e K-Means.

O algoritmo de clusteriza¸cão K-Means é a base do algoritmo X-Means que foi utilizado neste trabalho para agrupar as métricas CK das classes para, por meio dos clusters gerados, inferir classes ou programas similares. Na próxima se¸cão apresentam-se o funci-

2.5.1 O Algoritmo K-Means

O K-Means é um dos algoritmos mais empregados para implementar o processo de agrupamento de exemplares. Ele é utilizado em trabalhos que envolvem o aprendizado de máquinas (do inglês, machine learning) como um aprendizado não supervisionado. No aprendizado não supervisionado, não se sabe o que será ensinado ao computador. Por- tanto, utiliza agrupamentos lógicos que segmentam os dados das amostras em busca de padrões que o computador poderá utilizar sempre que for solicitado.

Levando em considera¸cão que se pode selecionar manualmente conjuntos diferentes de métricas e que seus valores podem divergir em rela¸cão aos diferentes tipos de programas, além de que o número de classes a serem analisadas na aplica¸cão do framework conceitual definido no contexto deste trabalho é desconhecido, decidiu-se utilizar o K-Means, ou seja, um algoritmo de aprendizado não supervisionado. O K-Means encontra um número fixo K de grupos separados de exemplares em um conjunto de dados. Para isso os K’s (centroides) são dispostos aleatoriamente em rela¸cão ao conjunto de dados, criando “setores” (os clusters) nesses dados. Os clusters são divididos na metade da distância entre os centroides. Então, os centroides são posicionados em rela¸cão ao seu cluster e o processo itera redimensionando os clusters dos centroides e os centralizando novamente. Para reposicionar o centroide em rela¸cão ao cluster, é utilizada a seguinte fórmula, apresentada por Boscarioli et al. (2016), na qual: X →g é um exemplar do conjunto de dados associados

ao centroide c →p, sendo que, p vai de 1 até k (número de clusters) e G é o número de

exemplares associados ao centroide.

c →p= 1 G G X g=1 X →g

Para descobrir o centroide ao qual um dado exemplar pertence, é necessário comparar a distância do valor (numéricos) do exemplar com os dos centroides que podem estar divididos através de sua distância euclidiana (ou distancia métrica, comprovada por usos repetidos do teorema de Pitágoras, no caso uma linha imaginária que liga os dois pontos por uma linha).

Existem alguns problemas com o algoritmo como à aleatoriedade dos pontos iniciais dos centroides, que não garantirem uma distribui¸cão final ideal. Outro problema refere-se ao número fixo e simultaneamente não ideal de clusters que devem ser estabelecidos em rela¸cão às informa¸cões oferecidas.

2.5.2 O Algoritmo X-Means

Criado por Pelleg e Moore (2000), o algoritmo de agrupamento X-Means tenta sanar algumas limita¸cões do K-Means como, por exemplo, a baixa escalabilidade computacional, e a necessidade de inserir manualmente K . A técnica provou-se mais rápida do que o uso repetitivo de K-Means para encontrar o valor mais adequado de K.

O algoritmo come¸ca com o menor valor K, em intervalo dado, e continua a adicionar centroides enquanto eles são necessários até o fim do intervalo. O melhor resultado é, então, utilizado. O algoritmo executa apenas duas opera¸cões:

• Melhorar os parâmetros: Executar K-Means até a convergência (o ponto onde poucas altera¸cões acontecem ao reposicionar os centroides).

• Melhorar a estrutura: A opera¸cão encontra, se e onde, novos centroides devem aparecer. Isso é poss´ıvel permitindo que alguns dos centroides se dividam. Para de- cidir se devem ou não se dividir, é utilizada a seguinte estratégia: Inicia-se dividindo cada centroide em dois que se movem para uma dire¸cão aleatória proporcional ao tamanho da região. Em seguida, em cada região (cluster do centroide pai) é exe- cutado um K-Means local com (K = 2) para cada um dos pares de filhos. Depois disso, uma model selection test1 é realizada em todos os pares de filhos para iden- tificar se exite alguma evidência de que os filhos estão modelando uma estrutura real, ou se o centroide pai modela a distribui¸cão tão bem quanto; dependendo do resultado, ou o pai ou os filhos são apagados. Com isso, centroides pais bem distri- bu´ıdos vão sobreviver, assim como novos centroides que aparecerem em regiões não tão bem representadas. A decisão de divisão é realizada através do cálculo de Baye- sian Information Criterion (BIC). Uma Bayesian inference é relativa à montante da plausibilidade de um valor (ou proposi¸cão) randômico em rela¸cão a outro valor randômico. O BIC tenta evitar o overfitting, que é a produ¸cão de uma análise que corresponda, total ou parcialmente, a um conjunto especifico de dados, dessa forma não conseguindo ajustar dados adicionais ou prever observa¸cões futuras de forma confiável.

1_{E a tarefa de testar a sele¸}_´ _c˜_{ao de um modelo estat´ıstico de um grupo de modelos candidatos de uma}

determinada fonte de dados. Ou tamb´em a sele¸c˜ao de um baixo grupo de modelos representativos de um

grande grupo de modelos computacionais com o propósito de auxiliar em decisões ou otimizar em rela¸cão

No documento Investigação de similaridade entre programas para apoiar o teste de mutação (páginas 36-39)