• Nenhum resultado encontrado

3 Agrupamento Superparamagn ´etico

3.4 O M´etodo de Swendsen-Wang

3.5.1 Analogia f´ısica com o problema de spins de Potts

Nesta fase ´e especificado o Hamiltoniano (ver equac¸˜ao (3.5), p ´agina 54) para re- alizar a analogia f´ısica com o problema de spins de Potts.

Uma vez definido q, o n ´umero de estados poss´ıveis que um spin de Potts pode assumir, ´e atribu´ıdo a cada ponto de dado um spin de Potts, atrav´es da escolha de um dentre os q valores poss´ıveis com probabilidade q−1 independentemente das

outras posic¸˜oes.

Uma caracter´ıstica importante a ser definida ´e o conceito de “vizinhanc¸a”, uti- lizada na execuc¸˜ao do algoritmo para auxiliar na gerac¸˜ao dos grupos de dados. Neste projeto, onde o foco principal ´e o agrupamento de “dados”, todos os indiv´ıduos s˜ao vizinhos pontenciais e interagem entre si. J ´a no caso espec´ıfico de segmentac¸˜ao de imagens, como pode ser visto em Horta (2004), s´o s˜ao consideradas as interac¸˜oes entre posic¸˜oes pr ´oximas espacialmente.

Por fim ´e fornecida a dependˆencia funcional da forc¸a da interac¸˜ao Jij na distˆancia

entre os spins vizinhos.

Nesta sec¸˜ao s˜ao discutidas as poss´ıveis escolhas para esses atributos do Hamilto- niano e suas influˆencias na performance do algoritmo. Com base nessas influˆencias, uma observac¸˜ao importante deve ser feita. O algoritmo considerado ´e suficientemente robusto para produzir resutados bons para uma grande classe de especificac¸˜oes, ou seja, n˜ao h ´a uma especificac¸˜ao “ ´otima” em detrimento de outras especificac¸˜oes. O algoritmo ir ´a produzir bons resultados sempre que uma escolha razo ´avel for feita, e a faixa de escolhas razo ´aveis ´e muito ampla.

3.5.1.1 Associac¸˜ao dos Spins de Potts a cada ponto vi

Como comentado em sec¸˜oes anteriores, ´e necess ´aria inicialmente e ao longo das iterac¸˜oes do algoritmo a associac¸˜ao de spins Potts (estados) a cada ponto vi do con-

junto de dados. O n ´umero de estados poss´ıveis, q, determina principalmente a su- tileza das transic¸˜oes e as temperaturas nas quais elas ocorrem. Por outro lado, `a medida que o valor de q aumenta torna-se necess ´ario executar simulac¸˜oes muito lon- gas com a finalidade de manter uma dada precis˜ao estat´ıstica para os resultados. A partir de testes realizados por Domany et al. (1999), e verificados neste trabalho e em Horta (2004), foi poss´ıvel concluir que a influˆencia de q na classificac¸˜ao resultante ´e fraca, e por isso ao longo deste trabalho foi atribu´ıdo o valor q = 20 para todos os exemplos.

Uma vez escolhido o n ´umero de estados a ser utilizado no modelo de Potts, o passo seguinte ´e associar a cada spin um poss´ıvel estado, como pode ser visto na Figura 18.

Figura 18: Associac¸˜ao de estados do modelo de Potts a Spins.

3.5.1.2 Identificac¸˜ao dos vizinhos

A identificac¸˜ao de vizinhos se faz necess ´aria como uma maneira de solucionar ou amenizar o problema de decremento da eficiˆencia computacional do algoritmo sendo utilizado. Ao mesmo tempo que ela surge como um meio solucionador, ela tamb´em cria um novo problema, que ´e a descoberta dos vizinhos. Este ´ultimo problema pode- ria ser solucionado se todos os indiv´ıduos de um conjunto de dados fossem vizinhos potenciais, ou seja, a necessidade para a identificac¸˜ao dos vizinhos do ponto xi pode-

ria ser eliminada se todos os pares i, j de spins de Potts interagissem com cada outro via uma interac¸˜ao de curta distˆancia Jij = f (dij), que decresce exponencialmente com

a distˆancia entre os dois pontos de dados. As fases e as propriedades do modelo n˜ao ser˜ao fortemente afetadas pela escolha da forma precisa de f . Aplicando essa soluc¸˜ao foi verificado que computacionalmente esse decrescimento exponencial exi-

giria um grande gasto, ent˜ao foi verificado que esse problema seria resolvido se fossem mantidas somente as interac¸˜oes de um spin com um n ´umero limitado de vizinhos, e atribu´ıdo a todas as outras Jij igual a zero. Uma interac¸˜ao Jij = 0 ´e equivalente a

afirmar que a similaridade entre as observac¸˜oes i e j ´e nula, ou que a sua dissimila- ridade ´e infinita; neste caso essas observac¸˜oes jamais ser˜ao agrupadas, a n˜ao ser que todas as observac¸˜oes sejam colocadas na mesma classe. Dessa maneira, ´e poss´ıvel concluir que a identificac¸˜ao de vizinhos ´e uma soluc¸˜ao mais vi ´avel do que o problema criado por sua gerac¸˜ao.

Uma vez que os dados n˜ao formam uma grade regular, ´e preciso fornecer alguma definic¸˜ao razo ´avel para “vizinhos”. Sendo assim, para dimens˜oes pequenas, onde

d ≤ 3, foram utilizadas caracter´ısticas da triangularizac¸˜ao sobre estruturas de grafos

em agrupamentos de dados (Ahuja 1982). Os conjuntos de dados usados nos nossos exemplos possuem grandes dimens˜oes, logo, maior atenc¸˜ao ´e dada a dimens˜oes onde

d > 3.

Para grandes dimens˜oes, ´e usado o valor de vizinhanc¸a m ´utua, onde vi e vj tˆem

um valor de vizinhanc¸a m ´utua K, se e somente se vi ´e um dos K vizinhos mais

pr ´oximos de vj e vj ´e um dos K vizinhos mais pr ´oximos de vi. O valor de K foi

escolhido de tal maneira que as interac¸˜oes conectem todos os pontos de dados a um grafo conectado. Claramente K crescre com a dimens˜ao. Por motivos computacionais, tornou-se conveniente, em casos onde a dimens˜ao ´e muito alta (d > 100, por exemplo) fixar K = 10.

3.5.1.3 C´alculo das interac¸˜oes locais

Para ter um modelo com as propriedades f´ısicas de um im˜a granular n˜ao-homo- gˆeneo, ´e preciso obter fortes interac¸˜oes entre spins que correspondam a dados de uma regi˜ao de alta densidade e fracas interac¸˜oes entre spins que estejam em regi˜oes de baixa densidade. Para este fim, e em comum com outros m´etodos locais, ser ´a suposto que existe uma quantidade local a, definida pelas regi˜oes de alta densidade e menor do que a distˆancia t´ıpica entre pontos nas regi˜oes de baixa densidade. Este valor a ´e a quantidade caracter´ıstica sobre a qual nossas interac¸˜oes de curta distˆancia decaem. Uma boa escolha para calcular Jij ´e a seguinte:

Ji,j =    1 ˆ Kexp µ −d2 ij 2a2 ¶ se vi e vj forem vizinhos

0 caso contr ´ario,

onde, segundo Domany et al. (1999), a quantidade a ser ´a a m´edia de todas as dis- tˆancias dij entre a vizinhanc¸a dos pares vi e vj, e ˆK ´e o n ´umero m´edio de vizinhos.

Todos os detalhes vistos at´e agora podem ser facilmente implementados quando ao inv´es do fornecimento de xi para todos os dados, for obtida uma matriz N × N de

Documentos relacionados