• Nenhum resultado encontrado

3.1 Propriedades dos Sistemas RI

3.1.5 Agrupamento (Clustering)

O agrupamento (clustering) é uma tarefa na qual, dada uma coleção C de objetos, consiste em dividir os n objetos desta coleção em m grupos. O valor de m é normalmente desconhecido, o que caracteriza o modo não supervisionado do processo de agrupamento (JAIN, 1999). O agrupamento pode ser usado como um fim em si próprio ou com a finalidade de melhorar o resultado da aplicação de sistema RI (RASMUSSEN, 1992).

O agrupamento pode ser aplicado a diversos tipos de objetos, como: imagens, padrões, palavras, documentos e outros (WANNER, 2005), e é a base para muitas aplicações (JAIN, 1999), como Data mining (GOLDSCHMIDT, 2005), Text mining e lingüística computacional (WANNER, 2005).

Uma das tarefas na qual se pode utilizar o agrupamento seria para agrupar documentos por assuntos (figura 3.7). Neste caso, é necessário extrair características que identifique cada um dos documentos. Assim, o conjunto de documentos que possuir as mesmas características formaria um grupo. Pode-se restringir essas características a uma única característica, a qual utilizaria uma abordagem estatística baseada na freqüência das palavras dos documentos. Está característica seria a similaridade entre os documentos. Desta forma, quanto mais palavras em comum um documento tiver com outro, maior a chance destes dois documentos tratarem do mesmo assunto e, assim, pertencerem ao mesmo grupo.

O resultado do agrupamento são grupos nos quais os documentos de um grupo possuem alta similaridade entre si e alta dissimilaridade com os documentos de outro grupo (JAIN, 1999), (WANNER, 2005) e (RASMUSSEN, 1992).

Considerando os criptogramas (figura 3.8), tem-se que a aplicação de uma chave qualquer a um algoritmo criptográfico determina uma linguagem particular e dá origem a criptogramas escritos nesta linguagem (CARVALHO, 2006). Assim criptogramas produzidos com uma mesma chave serão mais similares, uma vez que compartilharão o mesmo conjunto de elementos léxicos. Logo, o agrupamento aplicado aos criptogramas tem como objetivo separar a coleção de entrada em grupos onde os criptogramas que compõem tal grupo tenham sido cifrados com a mesma chave e o mesmo algoritmo criptográfico, conforme a figura 3.8.

FIG. 3.7: O processo de agrupamento

As técnicas de agrupamento são classificadas de acordo com o tipo de estrutura que geram e podem ser hierárquicos ou particionais (não-hierárquicos) (JAIN, 1999) e (RASMUSSEN, 1992). O agrupamento hierárquico é usado quando o conjunto de objetos de entrada não tem uma expectativa de divisão em grupos bem definidos. Os dois principais tipos de algoritmos para agrupamento hierárquico atualmente em uso são: algoritmos divisivos, os quais a partir de um único grupo contendo todos os objetos da coleção, particionam recursivamente cada cluster até que algum critério de parada seja alcançado (WANNER, 2005); e algoritmos aglomerativos, os quais iniciam com um grupo para cada documento e prosseguem juntando estes grupos par a par até que um critério de parada seja alcançado.

FIG. 3.8: Processo de agrupamento de criptogramas (CARVALHO, 2006)

No agrupamento particional a coleção C se torna uma simples divisão em m grupos. Esta técnica é mais bem usada para aplicações com grandes conjuntos de dados (JAIN, 1999).

3.1.5.1 MÉTODOS HIERÁRQUICOS

Os métodos hierárquicos são os mais utilizados para o agrupamento de documentos (RASMUSSEN, 1992). Um algoritmo hierárquico aglomerativo, pode ser visto em Wanner (2005) e se constitui dos seguintes passos:

a) Iniciar os grupos, assumindo que cada documento pertencerá a um único grupo; b) Calcular a matriz de similaridades entre todos os pares de grupos;

c) Juntar o par de grupos mais similar;

d) Atualizar a matriz de similaridades, de maneira que o novo grupo possa ser comparado com os grupos restantes;

e) Repetir os passos c e d até que um critério de parada seja alcançado.

Como resultado da aplicação desse algoritmo, um gráfico denominado dendograma (figura 3.9) é formado, o qual demonstra a estrutura final do agrupamento, representando a ordem em que as junções dos grupos ocorreram (RASMUSSEN, 1992) e (JAIN, 1999). Observando a figura 3.9, podemos notar que os grupos foram formados a partir de um determinado valor de similaridade.

FIG. 3.9: Dendograma (CARVALHO, 2006)

Existem diferentes métodos para definir a forma de dividir ou juntar os grupos, como: single-link, complete-link, group average-link ou método de Ward (RASMUSSEN, 1992).

3.1.5.1.1 LIGAÇÃO SIMPLES (SINGLE- LINK)

Neste método, a cada passo, o par mais similar de objetos que ainda não está no mesmo grupo é fundido em um grupo.

O método single-link possui a desvantagem de ser influenciado por um efeito em cadeia. Isto quer dizer que padrões ruidosos entre grupos de pontos esféricos, induzem este algoritmo à formação de grupos dispersos ou alongados (JAIN, 1999) (figura 3.10). A dispersão é um item particularmente importante, uma vez que permite que dois objetos quaisquer que estejam em grupo, possuam valor de similaridade mais baixo que a similaridade do próprio grupo, o que é apropriado para o uso com criptogramas (CARVALHO, 2006). Em contrapartida, tem a capacidade de extrair grupos em pontos agrupados de maneira concêntrica (figura 3.11).

FIG. 3.10: Formação de grupos alongados influenciada por ruído (JAIN, 1999)

3.1.5.1.2 LIGAÇÃO COMPLETA (COMPLETE-LINK)

Neste método, a cada passo, o par menos similar de objetos que ainda não está no mesmo grupo é fundido em um grupo.

Este método produz grupos mais compactos, produzindo hierarquias mais úteis do que o single-link para muitas aplicações (JAIN, 1999). Diferente do single-link, produz grupos adequados em pontos agrupados de maneira esférica, isto quer dizer que os ruídos têm pouca ou nenhuma influência neste algoritmo para este caso (figura 3.12). Entretanto, o complete- link não consegue extrair grupos em pontos agrupados de maneira concêntrica (JAIN, 1999).

FIG. 3.12: Formação de grupos adequados sem a influência de ruído (JAIN, 1999) 3.1.5.1.3 LIGAÇÃO POR MÉDIA DOS GRUPOS (GROUP AVERAGE-LINK)

Este método utiliza a média ponderada das similaridades dos grupos para fazer a junção de dois grupos. Neste caso, todos os objetos dos grupos anteriormente unidos contribuem para o cálculo da nova similaridade. A ligação pela média dos grupos se constitui em uma estrutura intermediária entre a ligação simples e a ligação completa (RASMUSSEN, 1992).

A partir da matriz de similaridades, uma nova similaridade é calculada, utilizando-se a formúla 3.11 (XEXÉO, 2006). k j j k i i k ij m m g g Sim m g g Sim m g g de Similarida + × + × = ( , ) ( , ) ) , ( Fórmula 3.11

Onde,

i

g , g são dois grupos quaisquer. j

i

m , m número de itens nos grupos j g , i g , respectivamente. j

ij

g grupo resultante da fusão dos clusters g e i g . j

k

g grupo para o qual pretende-se obter a similaridade com o grupo g . ij

Documentos relacionados