• Nenhum resultado encontrado

na forma de uma tabela relacional, ou uma matriz n × p (n indiv´ıduos e p atributos) (BEZDEK et al., 1999):          x11 . . . x1z . . . x1p . . . . xi1 . . . xiz . . . xip . . . . xn1 . . . xnz . . . xnp          (3.1)

• Matriz de Dissimilaridades (ou estrutura indiv´ıduo por indiv´ıduo): Esta matriz armazena um conjunto de proximidades entre pares de indiv´ıduos. Normalmente, ´e representada por uma matriz n × n:

          0 d21 0 d31 d32 0 .. . ... ... ... ... dn1 dn2 . . . 0           (3.2)

onde dij ´e a medida de dissemelhan¸ca ou dissimilaridade entre i e j. Diversos al-

goritmos de agrupamento tˆem como entrada uma matriz de dissimilaridades, tais dissimilaridades s˜ao conhecidas como dados relacionais. Nesse caso, se os indiv´ıduos forem apresentados na forma de matriz de dados, eles dever˜ao primeiramente ser transformados em uma matriz de dissimilaridades antes da execu¸c˜ao do agrupa- mento. Medidas de dissimilaridade ser˜ao discutidas no Cap´ıtulo 4.

3.6

T´ecnicas de Agrupamento

Os algoritmos de agrupamento de dados podem ser classificados sob diversos crit´erios. Utilizando uma classifica¸c˜ao mais geral, os algoritmos de agrupamento podem ser divi- didos em hier´arquicos e particionais. Os algoritmos hier´arquicos produzem uma s´erie de parti¸c˜oes aninhadas, enquanto os particionais produzem apenas uma parti¸c˜ao (JAIN; DUBES, 1988). A Figura 2 (a) e (b) apresentam, respectivamente, um exemplo de agru- pamento hier´arquico e um exemplo de agrupamento particional.

3.6 T´ecnicas de Agrupamento 19

Figura 2: Exemplos de agrupamento (a) hier´arquico e (b) particional.

3.6.1

M´etodos de Agrupamento Hier´arquico

Os algoritmos hier´arquicos constroem uma hierarquia em forma de ´arvore, como por exemplo, um dendograma. Eles est˜ao divididos em duas categorias: divisivos e aglome- rativos. A diferen¸ca entre as categorias est´a relacionada com a maneira como a ´arvore ´e constru´ıda (WITTEN; FRANK, 2000).

Os algoritmos divisivos iniciam com os padr˜oes em um ´unico grupo e sucessivamente dividem os padr˜oes em grupos menores. Nos algoritmos aglomerativos cada padr˜ao ini- cialmente representa um grupo e esses grupos s˜ao fundidos a cada itera¸c˜ao, de maneira que ao final da execu¸c˜ao do algoritmo, exista um ´unico grupo contendo todos os objetos (BERKHIN, 2002).

Os m´etodos divisivos s˜ao menos comuns entre os algoritmos hier´arquicos devido sua ineficiˆencia e por exigirem capacidade computacional maior que os algoritmos aglomera- tivos (BERKHIN, 2002).

Apesar dos algoritmos hier´arquicos n˜ao retornarem parti¸c˜oes, estas podem ser obtidas, por exemplo, cortando o dendograma gerado em um certo n´ıvel.

As vantagens dos m´etodos hier´arquicos s˜ao (BERKHIN, 2002):

• Flexibilidade do n´umero de grupos;

• Ajusta-se facilmente `a qualquer medida de similaridade ou distˆancia; • Capacidade de lidar com v´arios tipos de vari´aveis.

3.6 T´ecnicas de Agrupamento 20

As desvantagens do agrupamento hier´arquico est˜ao relacionadas a (BERKHIN, 2002):

• Crit´erio de termina¸c˜ao vago;

• O fato dos grupos n˜ao serem corrigidos, ou seja, os padr˜oes associados a determinado grupo permanecer˜ao nesse grupo at´e o final da execu¸c˜ao do algoritmo;

• Custo computacional alto: os algoritmos hier´arquicos requerem bastante espa¸co de mem´oria e um alto custo de processamento.

3.6.2

M´etodos de Agrupamento Particionais

O particionamento de um conjunto de dados em um n´umero pr´e-definido de grupos ´e um importante t´opico da an´alise de dados, reconhecimento de padr˜oes e processamento de imagens (JAIN; MURTY; FLYNN, 1999).

Os m´etodos particionais s˜ao baseados na minimiza¸c˜ao de uma fun¸c˜ao objetivo, em que os objetos s˜ao agrupados em um n´umero k de grupos escolhido previamente. Essa fun¸c˜ao pode ser definida localmente (em um subconjunto de objetos) ou globalmente (sobre todos os objetos), ent˜ao, cada objeto ´e associado a um grupo de maneira que minimize a fun¸c˜ao objetivo (KAUFMAN; ROUSSEEUW, 1990). A busca de um valor ´otimo para a fun¸c˜ao objetivo no conjunto de parti¸c˜oes poss´ıveis ´e computacionalmente proibitiva. Na pr´atica, o algoritmo ´e executado v´arias vezes com diferentes estados iniciais e a melhor configura¸c˜ao obtida ´e usada como sa´ıda do algoritmo (JAIN; DUBES, 1988).

Uma das principais vantagens dos algoritmos particionais em rela¸c˜ao aos algoritmos hier´arquicos ´e o fato dos padr˜oes poderem mudar de grupo durante a execu¸c˜ao do algo- ritmo e a possibilidade de trabalhar com bases de dados maiores. Os m´etodos particionais s˜ao extremamente mais r´apidos que os hier´arquicos.

As principais desvantagens dos algoritmos particionais residem no fato de que o n´umero de grupos deve ser escolhido a priori e no fato de que a maioria dos algorit- mos s˜ao sens´ıveis `as condi¸c˜oes iniciais, gerando resultados diferentes a cada execu¸c˜ao.

Al´em do n´umero de grupos, ´e preciso escolher tamb´em o crit´erio de parada do al- goritmo. Uma op¸c˜ao para o crit´erio de parada pode ser o n´umero de itera¸c˜oes que o algoritmo deve executar. Outro crit´erio de parada bastante utilizado ´e parar quando os padr˜oes n˜ao mais forem realocados a outros grupos.

3.6 T´ecnicas de Agrupamento 21

cutidos a seguir.

Os algoritmos de particionamento exclusivos ou r´ıgidos ( do inglˆes, hard ) associam cada indiv´ıduo do conjunto de dados a um ´unico cluster (grupo). Os algoritmos de par- ticionamento exclusivos mais utilizados s˜ao (KAUFMAN; ROUSSEEUW, 1990) : k -m´edias, PAM (Partitioning Around Medoids) e CLARA (Clustering Large Applications).

As abordagens de agrupamento tradicionais geram parti¸c˜oes; nas parti¸c˜oes, cada in- div´ıduo est´a associado a um e somente um cluster. Assim, os clusters nesses tipos de abordagens s˜ao disjuntos. Os m´etodos de agrupamento n˜ao-exclusivos, tamb´em conhe- cidos como fuzzy, estendem essa no¸c˜ao para permitir associar os indiv´ıduos com todos os clusters utilizando uma fun¸c˜ao de pertinˆencia (ZADEH, 1965). Os indiv´ıduos ter˜ao pertinˆencia definida no intervalo [0, 1] para cada cluster.

O agrupamento fuzzy ´e uma generaliza¸c˜ao do m´etodo de parti¸c˜ao (KAUFMAN; ROUS- SEEUW, 1990). Durante a execu¸c˜ao de um algoritmo de particionamento, muitas vezes ´e

d´ıficil decidir a qual grupo um determinado indiv´ıduo deve ser atribu´ıdo. Uma t´ecnica de agrupamento fuzzy lida melhor com tal situa¸c˜ao.

A principal vantagem do agrupamento fuzzy ´e a produ¸c˜ao de informa¸c˜oes mais de- talhadas acerca dos dados. Al´em disso, a partir do agrupamento fuzzy ´e possivel obter parti¸c˜oes hard ao atribuir cada indiv´ıduo ao grupo ao qual esse indiv´ıduo apresenta maior grau de pertinˆencia (KAUFMAN; ROUSSEEUW, 1990).

Uma desvantagem apresentada pelos m´etodos fuzzy ´e o r´apido crescimento da quan- tidade de sa´ıdas com o aumento do n´umero de indiv´ıduos e grupos, tornando dif´ıcil a interpreta¸c˜ao dos resultados. Al´em disso, os algoritmos de agrupamento fuzzy geralmente utilizam tempo computacional consideravelmente alto (KAUFMAN; ROUSSEEUW, 1990).

A seguir, uma breve exposi¸c˜ao sobre o particionamento fuzzy.

Seja k um n´umero inteiro com 1 < k < n e seja E = {x1, . . . , xn} o conjunto de n

indiv´ıduos n˜ao rotulados no <p. Pode-se dizer que k subconjuntos fuzzy {u

c: E → [0, 1]}

s˜ao uma k parti¸c˜ao fuzzy de E se os k × n valores {uci = uc(xi), 1 ≤ i ≤ n, 1 ≤ c ≤ k}

satisfazem as seguintes condi¸c˜oes:

0 ≤ uci≤ 1, ∀c, i (3.3)

X

uci= 1, ∀i (3.4)

Documentos relacionados