• Nenhum resultado encontrado

Capítulo 3 – Processo de Extração de Conhecimento

3.3 Funcionalidades de Mineração de Dados

3.3.4 Análise de Agrupamento

Análises de agrupamentos são técnicas que visam identificar subconjuntos de dados com base na similaridade entre eles (Han and Kamber, 2006). Objetos do mesmo subconjunto são mais semelhantes entre si do que entre os objetos de subconjuntos diferentes.

A diferença principal entre classificação e agrupamento está na forma como os dados são fornecidos. Nos problemas de classificação cada elemento do conjunto de treinamento está rotulado com alguma informação que especifica a qual classe ele pertence. Já nos problemas de agrupamento os dados não são rotulados.

Na análise de agrupamentos o grau de semelhança entre cada par de elementos do conjunto de treinamento é determinado através do uso de métricas. Assim, os dados mais semelhantes são agrupados em grupos comuns, de forma que os dados com menor similaridade ficam em grupos diferentes.

Em geral, os rótulos das classes dos objetos não estão presentes nos dados do conjunto de treinamento, simplesmente porque essa informação não é conhecida. Os objetos são agrupados com base no princípio da maximização da similaridade intra- classes e minimização da similaridade inter-classes. Em outras palavras, conjuntos de objetos são formados para que os objetos dentro de um mesmo grupo tenham alta similaridade entre si, mas sejam muito diferentes dos objetos dos outros grupos.

Existem basicamente duas técnicas de agrupamento: agrupamento hierárquico e

agrupamento via particionamento (Jain and Dubes, 1988). As técnicas de agrupamento

hierárquico são bastante simples, intuitivas e úteis para pequenos conjuntos de dados, onde é possível analisar visualmente o processo de agrupamento passo a passo. Nesses algoritmos, um elemento não muda de um grupo para outro, pois uma vez definido o grupo ao qual ele pertence não é mais possível alterá-lo.

A técnica de agrupamento hierárquico é um procedimento que constrói uma “árvore” onde cada nível dessa árvore representa uma alteração na estrutura dos grupos. Existem dois tipos de agrupamento hierárquico. O primeiro é chamado de agrupamento hierárquico aglomerativo que adiciona os dados aos grupos em cada nível da árvore. O

46

segundo é denominado agrupamento hierárquico particionado que realiza sucessivas divisões nos grupos.

Para um melhor entendimento do funcionamento dos algoritmos hierárquicos, considere N como sendo o número de elementos de um problema de agrupamento. Os métodos hierárquicos aglomerativos começam com N grupos, onde cada um dos grupos possui uma única observação, essa etapa está ilustrada no quadro 1 da Figura 12. O número de grupos é então reduzido para N-1 pela junção de dois elementos em um único grupo baseado em algum critério de similaridade entre eles (quadro 2 da Figura 12). O processo continua até que o número desejado de grupos seja atingido ou até que seja obtido um único grupo que contenha todas as observações (quadro 8 da Figura 12).

Nessa técnica de agrupamento aglomerativo a árvore é construída das folhas para a raiz, onde cada folha representa uma observação. Esse processo é ilustrado na Figura 12, começando do primeiro até o oitavo quadro.

47

Já os métodos hierárquicos particionados trabalham no sentido oposto dos métodos aglomerativos. Esses métodos começam com um único grupo de N elementos (quadro 8 da Figura 12) e divide esse grupo em grupos menores usando um critério de dissimilaridade entre os dados. Esse método de agrupamento está ilustrado na Figura 12, sendo que a primeira etapa desse algoritmo está ilustrada no quadro 8 e a última no quadro 1 dessa figura.

Um critério bastante utilizado de dissimilaridade é a distância entre os elementos. Várias funções de distância podem ser utilizadas, sendo a mais tradicional a distância Euclidiana. O processo de particionamento continua até que algum critério seja atingido ou até que sejam obtidos N grupos com um elemento em cada grupo. O processo dos métodos hierárquicos particionados também é ilustrado na Figura 12, pela ordem inversa, começando do oitavo até o primeiro quadro.

Os Algoritmos de Particionamento, que utilizam técnicas de agrupamento não hierárquico, buscam minimizar a distância intra-grupos, ou seja, minimizar a distância entre as observações pertencentes ao mesmo grupo.

Diferentemente dos algoritmos de agrupamento hierárquicos, os algoritmos de agrupamento via particionamento exigem que o número K de grupos seja definido no começo do processo. Após ser definido o número de grupos as observações são separadas em K grupos.

Nessas técnicas de agrupamento é definido um centro ou um elemento que melhor represente cada grupo. Assim, em cada iteração, a distância entre as observações do conjunto de treinamento e os centros dos grupos é calculada. Cada observação será então associada ao grupo do centro mais próximo. No início de cada iteração os centros dos grupos são recalculados e as distâncias são novamente obtidas. Assim, a observação pode permanecer no mesmo grupo ou ser associada a outro grupo que ela esteja mais próxima. As iterações devem continuar até que não haja nenhuma troca de elementos entre os grupos.

Os Algoritmos de Particionamento podem ser aplicados a qualquer conjunto de dados, independentemente do tamanho desse conjunto. Esses métodos geram uma única partição dos dados em uma tentativa de recuperar grupos naturais presentes nos dados. Além disso, todos os grupos têm um elemento central, e todos os elementos de um grupo

48

são mais parecidos com o elemento central do seu próprio grupo do que com os elementos centrais dos outros grupos.

Nos algoritmos hierárquicos, não é necessário definir o número de grupos. Já os algoritmos de particionamento requerem que o número de grupos seja definido no início do processo de agrupamento. Embora a definição do número de grupos não seja trivial, foi utilizado neste trabalho um algoritmo de agrupamento não hierárquico, uma vez que não existem restrições com relação ao tamanho do conjunto de dados e, além disso, também é possível identificar os elementos que melhor representam os grupos (elementos centrais).

Nos algoritmos hierárquicos a definição do número de grupos ideal é feita através da análise dos grupos formados em cada iteração. Assim, quanto maior o conjunto de dados maior será o número de etapas do algoritmo de agrupamento e, conseqüentemente, maior será a dificuldade em definir o número de grupos. Por isso, para grandes conjuntos de dados essa metodologia se torna inviável.

Como dito anteriormente, nessa metodologia a semelhança entre os objetos é extraída de suas estruturas. Geralmente, os métodos de agrupamento usam uma matriz que representa a similaridade entre os objetos. Neste trabalho, será utilizada uma matriz que representa o grau do relacionamento entre os pesquisadores, ou seja, os relacionamentos serão utilizados como uma métrica de similaridade de forma que os pesquisadores mais fortemente relacionados serão mais “semelhantes” entre si que os menos fortemente relacionados. Essa matriz que representam o grau de similaridade será construída no capítulo 4.