Clusterização de Dados Coletados do Exame de Glicemia Usando o Algoritmo Fuzzy C-Means Intervalar

(1)

Clusterizac¸˜ao de Dados Coletados do Exame de Glicemia

Usando o Algoritmo Fuzzy C-Means Intervalar

Rog´erio R. de Vargas1∗, Benjam´ın R. C. Bedregal1, Macilon A. Costa Neto2

1_{Programa de Pós-Graduação em Sistemas e Computação, DIMAp, UFRN}

Lagoa Nova – 59078-970 – Natal, RN - Brazil

2_{Universidade Federal do Acre, UFAC}

Rio Branco, AC – Brazil

rogerio@ppgsc.ufrn.br, bedregal@dimap.ufrn.br, macilon@ufac.br

Abstract. Clustering algorithms for unsupervised pattern recognition fulfilling a key role for the exploratory data analysis. One of the most used algorithms in the group of data points is the fuzzy c-means. Thus, is proposed an interval extension of the fuzzy c-means algorithm (IFCM) that allows data entry and the membership degree are intervals. Thus enabling, represent data with no conversion of data to spot interval. Shown is the result of a simulation with the algorithm IFCM for a sample interval of 150 data, grouping them into three clusters.

Resumo. Os algoritmos de clusterização consiste de uma abordagem não su-pervisionada de reconhecimento de padrões que cumprem um papel fundamen-tal para a análise exploratória de dados. Um dos algoritmos mais utilizados na clusterização de dados pontuais é o Fuzzy C-Means. Diante disso, é proposta uma extensão intervalar desse algoritmo (IFCM) que permite que a entrada dos dados e o grau de pertinência sejam intervalos. Permitindo assim, representar os dados sem nenhuma conversão dos dados intervalares para pontuais. É mos-trado o resultado de uma simulação com o algoritmo IFCM para uma amostra de 150 dados intervalares, agrupando-os em três clusters.

1. Introduc¸˜ao

Diabetes mellitus é um distúrbio metabólico determinado geneticamente, associado

com deficiência absoluta ou relativa de insulina e que na sua manifestação cl´ınica completa é caracterizado por alterações metabólicas, complicações vasculares e neu-ropáticas [Maia and Campos 2005].

A auto-monitorização da glicemia é uma conquista muito importante, pois per-mite maior flexibilidade no tratamento do diabetes, independentemente se tipo 1 ou 2. No mercado existe diversos equipamentos de monitoração da glicemia que podem ser opera-dos pelo próprio paciente. Entretanto, esses equipamentos possuem um erro associado na medição (calibragem) que pode influir em uma análise mais aprofundada.

Nos métodos de clusterização (ou agrupamento) hard, os clusters são uma partição no sentido matemático dos dados. Assim, cada ponto no conjunto de dados pertence a

(2)

exatamente um cluster. Já clusterização fuzzy, tem a sua “partição” baseada na ideia de funções de pertinência expressa por um grau de pertinência referente a um cluster, isto é, os algoritmos fuzzy associam um dado a todos os clusters através da variação do grau de pertinência do dado em cada cluster.

Em [Carvalho 2007] foi proposto tamb´em uma extens˜ao intervalar do algoritmo

fuzzy c-means, onde cada dado de entrada ´e um intervalo. Para calcular a distˆancia de

cada ponto a um determinado cluster (de intervalo) é usado uma adaptação da distância Euclidiana. Na finalidade de validar o método proposto, foi realizado vários testes em conjuntos de dados intervalares, um consistindo na classificação de carros por determi-nada caracter´ıstica e outro pela variação da temperatura em diversas cidades.

Em diversas pesquisas utilizando dados intervalares, como por exemplo descrito em [Carvalho 2007] e [Zhang et al. 2007], são propostas adaptações no algoritmo fuzzy c-means para lidar com dados intervalares. Porém os algoritmo propostos por estes traba-lhos, usam graus de pertinências pontuais.

Em [Bock 2000] e [Sato and J. 2006] têm também a entrada de dados como in-tervalos, porém estes não consideram o grau de pertinência como intervalos.

Representar o conjunto de dados como intervalos consiste em delimitar os erros ocasionados por estimativas de medições, de simplificações, modelagem, por falha hu-mana ou pelo instrumento de medição. Um dos objetivos deste trabalho é apresentar uma forma de clusterização para os valores amostrais que consideram os erros contidos. Então a entrada dos dados são valores intervalares. Desta forma, julga-se que a classificação de cada elemento a um determinado cluster (o grau de pertença) também seja um intervalo.

2. O algoritmo IFCM

Entre os diversos algoritmos de clusterização existentes, este trabalho deter-se-á a intervalização do algoritmo proposto por [Dunn 1973] e [Bezdek 1981] chamado fuzzy

c-means (FCM).

O algoritmo para clusterizac¸˜ao de dados intervalares, denominado Interval Fuzzy

C-Means (IFCM), aqui proposto, baseia-se na estrutura do FCM em [Cox 2005].

O IFCM tenta de encontrar conjuntos nos dados minimizando uma função objetiva mostrada na equação (1): J = n X i=1 c X j=1 µm_ijdI(Xi; Cj)2 (1) onde:

• n ´e o n´umero de dados intervalares;

• c ´e o n´umero de clusters considerados no algoritmo, o qual deve ser decidido antes

da execuc¸˜ao;

• m ´e um fator de fuzziness (um valor maior do que 1)1_;

1_{Só consideramos valores racionais para não complicar o cálculo das equações (1), (2) e (3). Uma vez}

(3)

• Xi ´e o i-´esimo dado intervalar;

• Cj ´e o centro (intervalo) do j-´esimo cluster;

• dI(Xi; Cj) ´e a distˆancia intervalar entre Xi e Cj;

A entrada do algoritmo s˜ao n dados intervalares, o n´umero de cluster c e o valor

m. Suas etapas s˜ao:

1. Inicialize µ com subintervalos de [0; 1] aleat´orios associados a cada par

(da-dos/clusters) tais que para cada par dados/cluster (Xi; j) e aj ∈ µi,j temos que

existem ak ∈ µi,kpara todo k∈ {1, . . . , j − 1, j + 1, . . . , c} satisfazendo

c

X

k=1

ak = 1

2. calcule o centro do cluster j da seguinte maneira:

Cj = n X i=1 µm_ijXi n X i=1 µm_ij (2)

3. calcule um valor inicial (um intervalo de dado) para J usando a equação (1) 4. calcule a tabela de função de pertinência fuzzy intervalar conforme mostrado na

equac¸˜ao (3) µij = 1 dI(Xi;Cj) _m−11 c X k=1 1 dI(Xi; Ck) _m−11 (3)

5. retornar a etapa 2 até que uma condição de parada seja alcançada. Algumas condições de parada poss´ıveis são:

• Um número de iterações pré-fixado for executado, e pode-se considerar que o

algoritmo conseguiu agrupar os dados;

• o usu´ario informa um valor de parada ǫ > 0, e se dI(JU; JA) ≤ [ǫ; ǫ]

então pára, onde JA é a função objetiva (equação (1)) calculada da iteração

ante-rior e JU é a função objetiva da última iteração.

3. Aplicac¸˜ao e Resultados

Aparelhos medidores de glicemia como o “Accu-Chek Aviva/ Compact Plus”

fabri-cado pela Rocher, possui um erro de calibragem associado ao aparelho em torno de

(4)

Uma aplicação deste algoritmo que tem por objetivo agrupar dados e reconhecer padrões pode ser dado em uma cl´ınica especializada em diabetes, que deseja conhecer o padrão de pacientes

A implementação do algoritmo foi realizada na linguagem de programação C++ (compilador g++ 4.4), no sistema operacional Linux (Ubuntu 9.04) e utilizou-se a

biblio-teca C-XSC (vers˜ao 2.2) [Hofschuster and Kr¨amer 2003], dispon´ıvel emhttp:\\www.

xsc.de.

A entrada de dados foi simulada como se fosse obtida dos aparelhos medidores de glicemia, com um erro de calibragem associado ao equipamento em 10% do valor pontual.. Foram 150 dados intervalares distintos, dividido-os em cinco grupos. Satisfa-zendo a etapa 1 do algoritmo, gerou-se 150 graus de pertinência para cada cluster. As especificações desses dados são mostrados na tabela 1.

Tabela 1. Entrada de dados

GRUPO GLICEMIA ENTRE (mg/dL) AMOSTRA

G1 [40; 64, 9] 15

G2 [65; 74, 9] 20

G3 [75; 94] 60

G4 [94, 1; 104] 25

G5 [104, 1; 300] 30

Os parˆametros de entrada foram150 dados, 3 clusters, m = 1, 25 e ǫ = 0, 01.

Nessa simulação de cento e cinquenta dados intervalares o diâmetro desses

inter-valos é no máximo quinze, variando aleatóriamente esses dados entre o intervalo[40; 300]

mg/dL, ´e mostrado a seguir, os resultados obtidos com o algoritmo IFCM.

Observe que o n´ıvel glicˆemico na figura 1(a) referente o intervalo[200; 300] mg/dL

possuem o grau de pertinência próximo de um. E n´ıvel glicêmico abaixo de 175 mg/dL, tendem a ter um grau de pertinência praticamente zero.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 50 100 150 200 250 300 350 grau de pertinencia GLICEMIA (mg/dL) CLUSTER 1 (a) Cluster 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 50 100 150 200 250 300 350 grau de pertinencia GLICEMIA (mg/dL) CLUSTER 2 (b) Cluster 2

Figura 1. Agrupamento dos Clusters

Analisando o cluster 2 na figura 1(b), tem-se que dados intervalares entre[50; 80]

mg/dL possuem o grau de pertinˆencia quase um. O n´ıvel glicˆemico entre[90; 120] mg/dL,

possui o grau de pertinˆencia entre [0, 8; 1]. E por fim, a figura 2(a) mostra os dados

(5)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 50 100 150 200 250 300 350 grau de pertinencia GLICEMIA (mg/dL) CLUSTER 3 (a) Cluster 3 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 50 100 150 200 250 300 350 grau de pertinencia GLICEMIA (mg/dL) CLUSTER 1 CLUSTER 2 CLUSTER 3 (b) Todos os Clusters

Figura 2. Agrupamento dos Clusters

O intervalo de dados no cluster 3 entre [110; 190] mg/dL, o grau de pertinˆencia

esta entre [0, 75; 1] e valores glicˆemicos n˜ao contidos nesse intervalo tendem a ter um

baixo grau de pertinˆencia.

O resultado final englobando os trˆes clusters ´e mostrado na figura 2(b).

Neste exemplo em que os dados foram simulados, obteve-se uma boa separac¸˜ao do agrupamento. Em nenhum dos casos um elemento pertence tanto a um cluster quanto a outro.

Uma discuss˜ao mais abrangente pode ser dada utilizando o conceito de

α−corte [Yang et al. 2008], no qual este permite cortar os dados expostos dado algum

grau de pertinˆencia, seja com intervalos degenerados ou n˜ao.

Se for utilizado algum α−corte linear acima de 0, 7 algum dado poder´a ser

despre-zado, ocasionando que um elemento n˜ao pertenc¸a a nenhum cluster. Usando um α−corte

abaixo de0, 3 certamente nesta simulação causará diversas intersecções. Neste exemplo

espec´ıfico, caso fosse optado pela utilização do α−corte, um bom parâmetro para esta

aplicação seria em torno de0, 5. Com α−corte em 0, 5 é gerado uma partição na base de

dados, ou seja, cada dado intervalar pertence a exatamente um cluster. Observe que isso pode ser encarado como uma clusterização crisp da base. Porém, isso não significa que o

α−corte particione qualquer base de dados intervalares.

O sistema convergiu após 38 iterações e o tempo de processamento foram de 4 minutos e 25 segundos.

4. Conclus˜oes

A análise de cluster não é um processo realizado em apenas uma execução. Em mui-tas circunstâncias, é necessário uma série de tentativas e repetições. Ainda, não há um critério universal e efetivo para guiar a seleção de atributos e de algoritmos de clusterização. Critérios de validação provêm impressões sobre a qualidade dos

clus-ters, mas como escolher este mesmo crit´erio ´e ainda um problema que requer mais

esforc¸os [Jr Cavalcanti 2006].

O contexto deste trabalho esta inserido na abordagem simbólica da análise de da-dos (SDA - Symbolic Data Analysis) relacionada com métoda-dos para a extração de conheci-mentos em grandes bases de dados. O principal objetivo da SDA é desenvolver métodos

(6)

para o tratamento de dados mais complexos como intervalos. Neste contexto, vários pesquisadores [Carvalho 2007][Zhang et al. 2007] [Bock 2000] e [Sato and J. 2006] vêm trabalhando no sentido de estabelecer e aplicar metodologias na clusterização de da-dos intervalares. Este trabalho também pretende ser um aporte para essa área. Uma das propriedades da abordagem proposta é respeitar o princ´ıpio da corretude, no sen-tido de [Hickey et al. 1999], ou seja, se considerasse qualquer valor pontual entre os seus respectivos valores (intervalares) como dado de entrada e grau de pertinência, usando o algoritmo pontual fuzzy c-means, o agrupamento resultante estaria contido no intervalo apresentado pelo IFCM.

Neste trabalho estudou-se outros algoritmos de clusterização para a entrada de da-dos intervalares. Então a vantagem é que neste algoritmo fuzzy c-means consideram graus de pertinências intervalares propiciando conhecer ainda mais a imprecisão nos dados de entrada. O grande trunfo deste algoritmo é sempre manter os dados de entrada e operações com intervalos e quando necessário calcular a distância de cada ponto ao centro de cada

cluster, usar uma métrica intervalar em vez de usar uma métrica pontual como a distância

Euclidiana.

O algoritmo Interval Fuzzy C-Means proposto neste artigo, houve a aplicação de duas técnicas: a matemática intervalar e a teoria dos conjuntos fuzzy. Desta forma, é poss´ıvel tratar os dados de entrada imprecisos em resultados com funções de pertinências intervalares.

Referˆencias

Bezdek, J. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms.

Kluwer Academic Publishers, Norwell, MA, USA.

Bock, H. (2000). Analysis of Symbolic Data: Exploratory Methods for Extracting

Statis-tical Information from Complex Data. Springer-Verlag New York, Inc., Secaucus, NJ,

USA.

Carvalho, F. (2007). Fuzzy C-Means Clustering Methods for Symbolic Interval Data.

Pattern Recogn. Lett., 28(4):423–437.

Cox, E. (2005). Fuzzy Modeling and Genetic Algorithms For Data Mining and

Explora-tion. Morgan Kaufmann, San Francisco.

Dunn, J. (1973). A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters. Journal of Cybernetics, 3:32–57.

Hickey, T., Ju, Q., and Emden, M. (1999). Interval Arithmetic: from Principles to Imple-mentation. Journal of the ACM, 48:1038–1068.

Hofschuster, W. and Kr¨amer, W. (2003). C-XSC 2.0 - A C++ Library for eXtended Scientific Computing. In Numerical Software with Result Verification: International

Dagstuhl Seminar, Dagstuhl, pages 15–35. Springer.

Jr Cavalcanti, N. (2006). Clusterizac¸˜ao baseada em algoritmos fuzzy. Master’s thesis, Universidade Federal de Pernambuco, Recife, Brasil.

Maia, C. and Campos, C. (2005). Diabetes Mellitus as Etiological Factor of Hearing Loss.

(7)

Roche (2009). Diabetes faq - roche portugal. Acesso em 10 marc¸o de 2009.

Sato, M. and J., L. (2006). Innovations in Fuzzy Clustering: Theory and Applications

(Studies in Fuzziness and Soft Computing). Springer-Verlag, Berlin, Heidelberg.

Yang, M.-S., Wu, K.-L., Hsieh, J.-N., and Yu, J. (2008). Alpha-cut implemented fuzzy clustering algorithms and switching regressions. Systems, Man, and Cybernetics, Part

B: Cybernetics, IEEE Transactions on, 38(3):588–603.

Zhang, W., Hu, H., and Liu, W. (2007). Rules Extraction of Interval Type-2 Fuzzy Logic System Based on Fuzzy c-Means Clustering. Fuzzy Systems and Knowledge Discovery,