Validação de Agrupamentos Intervalares - Uma plataforma intervalar para agrupamentos de dados

Como já mencionado, algoritmos de agrupamento baseado em intervalos tomam como entrada uma matriz de pertinência intervalar e produzem pelo menos uma partição U. Neste caso, Ucrisp e U consistem em matreizes com

intervalos degenerados, para ambos algoritmos ckMeans baseados em intervalos e FCM baseado em intervalos, respectivamente. Assim, qualquer índice de validação que leva que considera apenas U como entrada, como P C e P E, pode ser usado diretamente com algoritmos de agrupamento fuzzy baseados em intervalos.

No entanto, os índices de validação que consideram X ou V como en- tradas, não podem ser aplicados diretamente em agrupamentos intervalares devido à exigência de uma aritmética intervalar.

Por exemplo, C-índice, estimador de coesão, tem seus valores no intervalo [0, 1]e, se a menor soma das distâncias de todos os pares (considerando todos os grupos) for igual à soma das distâncias dos pares considerando apenas objetos do mesmo agrupamento, então obtém-se o ajuste perfeito. Em outras

palavras, C-índice é igual 0.

Na aritmética intervalar de Moore, no entanto, é possível que para Y ∈ I(R), Y − Y 6= [0, 0] , uma vez que a adição padrão de Moore e a multipli- cação não são operações invertíveis. Para contornar esse problema, tivemos que encontrar algumas operações inversas que podem ser utilizadas aqui. A diferença Hukuhara, proposta em [37], tem esse comportamento e será usada. H-diferença é denido da seguinte forma:

A B = C ⇔ A = B + C. (4.17)

H-diferença é única, mas uma condição necessária para A B existir é que A contenha a translação de B , ou B contenha uma translação de A. Em muitas aplicações, isso pode ter muitas restrições. Em [68], o autor generalizou H-diferença e H-divisão, as quais passaram a se chamar gH- diferença e gH-divisão, denidas pelas equações (4.18) e (4.19) a seguir:

A gH B =C ⇐⇒    (i) A = B + C, ou (ii) B = A + (−1)C. (4.18) A ÷gH B =C ⇐⇒    (iii) A = B × C, ou (iv) B = A × C−1_. (4.19)

Ao utilizar gH-diferença, [a, a] g[b, b] = [c, c], onde [c, c] é sempre denida

por c = min{a − b, a − b}, e c = max{a − b, a − b}.

Para gH-divisão é necessário considerar seis casos, descritos na denição a seguir.

Denição 4.1 (gH-divisão) O intervalo A÷gB para A = [a, a] e B = [b, b]

com 0 6= B, é denido por:

Caso 1: Se 0 ≤ a e b < 0, então Se a.b ≥ a.b =⇒ A ÷g B =

h a b, a b i Se a.b ≤ a.b =⇒ A ÷gB = h a b, a bi ;

Caso 2: Se 0 ≤ a e 0 < b, então Se a.b ≤ a.b =⇒ A ÷g B = h a b, a b i Se a.b ≥ a.b =⇒ A ÷gB = h a b, a bi ;

Caso 3: Se a < 0 e b < 0, então Se a.b ≤ a.b =⇒ A ÷g B =

h a b, a b i Se a.b ≥ a.b =⇒ A ÷gB = h a b, a bi;

Caso 4: Se a < 0 e 0 < b, então Se a.b ≤ a.b =⇒ A ÷g B =

h a b, a b i Se a.b ≤ a.b =⇒ A ÷gB = h a b, a bi;

Caso 5: Se a ≤ 0, a ≥ 0 e b < 0, então a solução não depende de b. A ÷g B = h a b, a bi e,

Caso 6: Se a ≤ 0, a ≥ 0 e 0 < b, então a solução não depende de b. A ÷g B = h a b, a bi.

Seguem as versões intervalares dos índices, FS, XB e CI, e a distância usatilizada é uma i-métrica, obtemos então d(X, Y ) ∈ I(R) com X, Y ∈ I(R) e J = Pc

j=1 n

i=1

µm_ijd(xi, vj)2 ∈ I(R). Portanto, esses índices, usando as operações

de Hukuhara, são denidos a seguir: 1. FSh: Seja K = c P j=1 n P i=1 µm_ijd(vj,bv) 2 ∈ I(R) com v =b " _c X i=1 v_i c, c X i=1 vi c # . O índice F Sh utilizando as operações de Hukuhara é denido da seguinte

forma:

FSh =min{J − K, J − K}, max{J − K, J − K} (4.20)

2. XBh Seja S = n · min

i6=j d(vi, vj) 2

∈ I(R) O índice XBh usando as opera-

ções de Hukuhara, é denido por: Caso 0 /∈ J e 0 /∈ S: XBh =          J S , J S se J · S ≤ J · S e (iii) (4.21a) J S , J S se J · S ≥ J · S e (iv) (4.21b)

Caso 0 ∈ J e 0 /∈ S: XBh = J S , J S (4.22) Note que XBh não é denida para todos os valores, principalmente para

a distância baseada em intervalos, é possível que 0 ∈ d(vi, vj). Para os

valores elevados de c é possível haver sobreposições dos centros, assim 0 ∈ d(vi, vj). Esta propriedade contribui para eliminar a tendência da

monotonicidade, que ocorre quando c cresce.

3. (CIh): Considerando S, Smin e Smax valores intervalares denidos na

equação 4.23. Assim sejam A e B como abaixo:

A =min{S − Smin, S − Smin}; max{S − Smin, S − Smin}

B =min{Smax− Smin, Smax− Smin}; max{Smax− Smin, Smax− Smin}

O C-índece usando as operações de Hukuhara são denidos por: Caso 0 /∈ A e 0 /∈ B: CIh =          A B , A B se AB ≤ AB e (iii) (4.23a) A B , A B se AB ≥ AB e (iv) (4.23b) Caso 0 ∈ A and 0 /∈ B: CIh = A B , A B (4.24)

Dessa forma, foram apresentados os métodos de agrupamento fuzzy para dados intervalares, bem como os índices utilizados nas análises que são exi- bidas nessa tese. No próximo capítulo serão introduzidos os algoritmos para dados híbridos que contém dados reais e intervalares.

Capítulo 5

Métodos Propostos para Dados

Híbridos

No mundo real podemos observar que exite uma grande variedade de tipos de dados categóricos, numéricos, fuzzy, intervalares, etc. além de propostas de medidas de similaridade para eles. No entanto, na maioria das vezes, os dados obtidos envolvem mais de um tipo de dados, por exemplo um mesmo dado pode conter CPF, Nome, Faixa de Renda. O que normalmente é feito nesses casos é transformar os dados que possuem uma determinada natureza para uma única natureza, a m de obter uma base de dados homogênea.

Esse tipo de transformação pode acarretar em perda de informação,(por exemplo, imprecisão), ou no aumento do custo computacional. Assim, é ne- cessário obter uma maneira de medir similaridade sem transformar os dados. O que é geralmente encontrado na literatura de algoritmos para agrupamento de dados híbridos são combinações de algoritmos que atuam em cada campo do dado. Chandra [73] propôs um método de agrupamento híbrido, Hierarchical Ordered Partitioning And Collapsing Hybrid (HOPACH), que é uma árvore de clusters. Existem diversos outros trabalhos desse tipo na

literatura [55].

Em 2012, a pesquisa realizada em [56] mostrou que existem poucos mé- todos que são capazes de extrair conhecimento a partir de dados híbridos. O autor em questão lidou com dados híbridos que são compostos por dados convencionais (numéricos e textuais) e dados geográcos (pontos, linhas e polígonos). Além de desenvolver algoritmos capazes de lidar com dados geográcos, o autor relata o problema encontrado ao trabalhar com dados híbridos:

Algoritmos que sejam capazes de manipular diretamente ba- ses de dados híbridas, sem um pré-processamento ou uma estrutura particular de representação destes dados, não foram encon- trados na literatura. Uma base de dados híbrida é composta por atributos convencionais (e.g. numéricos, textuais, lógicos) e não convencionais (e.g. geográcos). Geralmente, os algoritmos que manipulam dados híbridos adotam algum tipo de estrutura particular para representar os atributos não convencionais.[56]

Essa abordagem é alterada neste trabalho. Ao invés de aplicar-se uma coersão nos dados para um único tipo e uma medida de similaridade, esse trabalho propõe que aplique-se cada medida de similaridade ligada aos dados originais a cada campo (o resultado, até aqui, serão números reais ou intervalos) e em seguida transforma-se esses valores para intervalos a m de aplicar i-métricas. Assim, o resultado dessas medições não será mais um único número real, mas uma tupla de intervalos. Essa abordagem é funda- mentada pelo teorema e pelos comentários do nal do capítulo 2. No nal será aplicado o que chamamos de agregação de i-métricas a m de produzir um único intervalo como medida de similaridade.

Na seção a seguir, apresentamos uma variação do algoritmo K-Means, chamado K-Means Intervalar, para dados híbridos que contém dados intervalares e reais. E na seção 5.2, é apresentado um algoritmo intervalar híbrido também baseado no K-Means, ou seja, busca-se trabalhar apenas com um algoritmo e dentro desse algoritmo utilizamos diferentes distâncias. Cada uma ligada a um atributo em questão, por exemplo: se os dados são reais pode-se utilizar a distância Euclidiana, se forem dados intervalares pode-se utilizar a KM-distância, se forem strings pode-se utilizar a distância de Levenshtein.

5.1 Algoritmos Intervalares Baseados no K-Means

- IbKM

O K-Means é um algoritmo iterativo que repete dois passos: no primeiro passo cada ponto é atribuído ao centróide mais próximo baseado em uma métrica especíca escolhida; no segundo passo, uma vez que os grupos são formados, os centróides de cada grupo são atualizados. Assim, o algoritmo repete de forma iterativa esses dois passos até que os seus centróides não mudem.

Sendo F (C), a função objetivo do K-Means Intervalar e seguindo o pa- radigma de representação intervalar [62]. Assim, F (C) pode ser obtido por F = [min SSE(C), max SSE(C)] e pode ser chamado a melhor represen- tação intervalar, pois possui a propriedade de inclusão e a de optimalidade (optimality).

Portanto, a função objetivo baseada no intervalo é dada por:

F (C) = " min K X k=1 X xi∈Ck dIMV(xi, vk)2; max K X k=1 X xi∈Ck dIMV(xi, vk)2 # (5.1)

O Algoritmo K-Means Intervalar inicializa seus centros aleatoriamente, onde K é o número de grupos, então cada objeto é atribuido ao centro mais próximo, para realizar essa decisão uma ordem admissível total é utilizada. Em seguida é feita a atualização dos centroídes, sendo vk o novo centroíde

calculado pela equação (5.2), onde seu centro é um intervalo. Esse processo se repete iterativamente até que uma tolerança, seja satisfeita.

Algoritmo 7: Intervalar k-Means

Entrada: X - Conjunto de dados, K - números de grupos, - tolerança

Saída: C = {C1, . . . , CK}

Inicializa aleatoriamente os K centros: v0 _{= {v}0

1, . . . , vK0}

repita

Classique: Na iteração t, atribui cada objeto (i ∈ {1, . . . , N}) para o agrupamento com o protótipo mais próximo:

Ct_{(i) ← arg min}

k dIMV(xi, vk)

2 _; _{// Usando uma ordem}

admissível total

Atualização do protótipos: vk é o centroide dos novos conjuntos:

vt+1_k = [vt+1_k , vt+1_k ] =      X xi∈C_kt x_i | Ct k | ; X xi∈C_kt xi | Ct k |      (5.2) até kct gHct−1k ≤ ;

Na próxima seção será apresentado o K-Means Intervalar Híbrido, dife- rente do K-Means Intervalar ele não transforma os dados reais para dados intervalares.

No documento Uma plataforma intervalar para agrupamentos de dados (páginas 65-73)