Dados Sintéticos - Experimentos e Resultados

Experimentos e Resultados

5.2 Dados Sintéticos

Neste estudo, dois conjuntos de dados intervalares sintéticos contendo valores atípicos são adotados. Eles são gerados a partir de sementes de dados contendo valores aberrantes baseadas em dados clássicos (não intervalares), onde cada semente é um ponto (y1, y2) ∈ ℜ2. O conjunto

de sementes 1 tem três classes de tamanhos diferentes 100, 50 e 50, respectivamente, e as variáveis não são correlacionadas (ρ = 0). O conjunto de sementes 2 tem também três classes de tamanhos diferentes 100, 100 e 50, respectivamente, e as variáveis são correlacionadas (ρ6= 0). O objetivo de usar correlação na segunda configuração é avaliar o desempenho do método possibilístico com grau de pertinência por classe e variável (IPCM-V e IPCM-VE) e comparar com os métodos IPCM e IPCM-E. Cada classe é desenhada de acordo com uma distribuição normal bi-variada. A Tabela5.2 mostra os parâmetros e tamanhos das classes para ambos as configurações:

Parâmetros Configuração 1 Configuração 2

Classe 1 Classe 2 Classe 3 Classe 1 Classe 2 Classe 3

µ1 10 10 30 0 5 35

µ2 0 -10 -5 0 -5 -10

σ1 8 10 3 8 8 6

σ2 2 2 3 8 8 6

ρ12 0 0 0 0.95 0.95 -0.95

Tabela 5.1 Parâmetros para o conjunto de sementes 1 e 2

A figura5.1mostra a dispersão das sementes segundo os parâmetros da distribuição normal bi-variada quando não existe pontos aberrantes:

Figura 5.1 Conjunto de sementes 1 e 2

Os dados aberrantes (ou outliers) podem ser entendidos como objetos que são diferentes do restante dos dados devido ao seu comportamento ou modelo [91,92]. Quando os objetos são do tipo intervalo, o conceito de objetos diferentes pode involver a posição (localização) e/ou a largura (tamanho) do intervalo [86]. Portanto, neste trabalho, os outliers serão diferenciados por ter uma posição e tamanho dos intervalos diferentes do restante dos outros elementos. Além disso, serão usados para avaliar o desempenho dos métodos probabilísticos e possibilísticos.

Com o objetivo de construir os conjuntos de sementes contendo dados aberrantes, um percentual t do tamanho de uma dada classe é definida a priori e outliers são gerados para esta classe. Aqui, os valores considerados para t são: 5%, 10%, 15%, 20%, 25% e 30%. As sementes dos outliers para a Configuração 1 e 2 são distribuídas de acordo com os seguintes parâmetros:

Parâmetro Configuração 1 Configuração 2 Classe 1 Classe 3 Classe 1 Classe 3

µ1 - 10 20 40 10

µ2 -30 10 0 -25

σ1 2 2 2 2

σ2 2 2 2 2

ρ12 0 0 0 0

Tabela 5.2 Parâmetros para outliers na configuração de sementes 1 e 2

Em ambas as configurações, os pontos atípicos estão presentes nos grupos 1 e 3. A dis- posição das sementes diferenciadas por classe e com um percentual de 30% é representada na seguinte figura:

Figura 5.2 Conjunto de sementes 1 e 2 com 30% de outliers

Após gerar as sementes, os dados intervalares são construídos baseando-se na idéia de centro e largura. Cada centro será a posição de cada semente, enquanto o tamanho do intervalo é determinado aleatoriamente seguindo uma distribuição uniforme. Assumindo que um objeto simbólico é dado por um par de intervalos (x1, x2), a construção deste objeto é feito como:

onde, neste trabalho, γ1 ∼ U[1, 5] e γ2∼ U[1, 5]. Por outro lado, para os dados aberrantes, γ1 ∼ U[1, 10] e γ2 ∼ U[1, 10]. A figura a seguir mostra as duas configurações após usar a

Equação5.3:

Figura 5.3 Conjunto de dados intervalares 1 e 2 com 30% de outliers

Para obter os índices CR e OERC, foram realizados experimentos Monte Carlo e 100 re- plicações de cada uma das configurações 1 e 2 foram geradas usando o processo descrito ante- riormente. Para cada replicação e método, foram executadas 100 repetições variando aleatoriamente os valores da matriz difusa na etapa de inicialização do método. Em cada repetição o método é executado até sua convergência e o valor da função objetivo é armazenado. Após as 100 repetições a melhor partição é selecionada a partir do menor valor da função objetivo e os índices CR e OERC são calculados usando esta partição. Ao fim das 100 replicações, existirá 100 valores de CR e OERC, então a média e o desvio-padrão são calculados através desses valores. Além disso, este processo é realizado para cada percentual de outlier: 5%, 10%, 15%, 20%, 25% e 30%.

As tabelas5.3 e5.4mostram os valores da média e do desvio-padrão (em parênteses) dos índices CR e OERC obtidos pelos métodos baseados na abordagem Fuzzy (IFCM-C, IFCM- S e IFCM-R) e na abordagem Possibilística (IPCM, IPCM-V, IPCM-E, IPCM-VE) para os diferentes percentuais de outliers:

Méthodo Percentual de outlier 5% 10% 15% 20% 25% 30% CR IFCM-C 0.7938 0.6679 0.5664 0.4697 0.3497 0.0816 (0.0169) (0.0196) (0.0234) (0.0281) (0.0492) (0.1114) IFCM-S 0.7840 0.6626 0.5766 0.4973 0.4348 0.3077 (0.0184) (0.0210) (0.0229) (0.0197) (0.0340) (0.0706) IFCM-R 0.7722 0.6716 0.5958 0.5070 0.4415 0.3741 (0.0212) (0.0204) (0.0236) (0.0202) (0.0212) (0.0241) IPCM 0.7128 0.6399 0.5831 0.5311 0.4990 0.5143 (0.0232) (0.0243) (0.0210) (0.0291) (0.0541) (0.0673) IPCM-V 0.8394 0.7954 0.7774 0.7541 0.7477 0.7294 (0.0235) (0.0283) (0.0275) (0.0305) (0.0298) (0.0314) IPCM-E 0.71610 0.64742 0.58529 0.52694 0.48284 0.44751 (0.02364) (0.02453) (0.02162) (0.02459) (0.03708) (0.05943) IPCM-VE 0.88323 0.85177 0.82405 0.79488 0.77548 0.75953 (0.01673) (0.02540) (0.02156) (0.02483) (0.02423) (0.02673) OERC IFCM-C 0.0738 0.1181 0.1543 0.1894 0.2380 0.3518 (0.0072) (0.0090) (0.0097) (0.0120) (0.0228) (0.0453) IFCM-S 0.0767 0.1181 0.1488 0.1768 0.1994 0.2532 (0.0071) (0.0093) (0.0098) (0.0082) (0.0148) (0.0334) IFCM-R 0.0803 0.1145 0.1401 0.1729 0.1960 0.2212 (0.0083) (0.0090) (0.0092) (0.0086) (0.0097) (0.0095) IPCM 0.1009 0.1263 0.1456 0.1645 0.1784 0.1772 (0.0085) (0.0091) (0.0085) (0.0109) (0.0183) (0.0240) IPCM-V 0.0582 0.0737 0.0802 0.0887 0.0895 0.0952 (0.0078) (0.0097) (0.0104) (0.0114) (0.0099) (0.0109) IPCM-E 0.10015 0.12365 0.14530 0.16545 0.18120 0.19505 (0.00867) (0.00959) (0.00956) (0.00993) (0.01149) (0.01933) IPCM-VE 0.04320 0.05470 0.06470 0.07455 0.08145 0.08650 (0.00662) (0.00979) (0.00897) (0.00949) (0.00925) (0.00955) Tabela 5.3 Comparação dos métodos de agrupamento para dados intervalares para a Configuração 1

A Tabela5.3mostra, tanto para o índice CR quanto para o OERC, que os métodos baseados na abordagem possibilítica (IPCM, IPCM-V, IPCM-E e IPCM-VE) mostraram uma melhor qualidade da partição resultante do que os métodos baseados na abordagem difusa (IFCM-C, IFCM-S e IFCM-R) para dados simbólicos do tipo intervalos quando o percentual de dados aberrantes é superior a 10%. A mesma conclusão pode ser dada com os resultados presentes na Tabela5.4mostrada a seguir:

Método Percentual de outlier 5% 10% 15% 20% 25% 30% CR IFCM-C 0.2857 0.2204 0.1700 0.1143 0.0730 0.0326 (0.0303) (0.0219) (0.0305) (0.0262) (0.0263) (0.0250) IFCM-S 0.2799 0.2144 0.1581 0.1069 0.0656 0.0378 (0.0326) (0.0235) (0.0279) (0.0241) (0.0261) (0.0615) IFCM-R 0.8556 0.7638 0.6792 0.5842 0.5182 0.4401 (0.0241) (0.0192) (0.0192) (0.0202) (0.0246) (0.0231) IPCM 0.8395 0.7672 0.7070 0.6412 0.5724 0.5124 (0.0224) (0.0218) (0.0186) (0.0258) (0.0277) (0.0276) IPCM-V 0.4567 0.3886 0.3400 0.2818 0.2298 0.2135 (0.0349) (0.0303) (0.0309) (0.0294) (0.0344) (0.0460) IPCM-E 0.78917 0.77238 0.73434 0.70269 0.65641 0.62270 (0.02794) (0.02753) (0.02165 (0.02513) (0.02328) (0.02467) IPCM-VE 0.38462 0.36062 0.33354 0.30216 0.27566 0.26806 (0.04341) (0.03804) (0.03843) (0.03321) (0.03195) (0.04103) OERC IFCM-C 0.2640 0.2950 0.3180 0.3443 0.3656 0.3881 (0.0145) (0.0114) (0.0149) (0.0138) (0.0160) (0.0140) IFCM-S 0.2675 0.2969 0.3238 0.3476 0.3681 0.3818 (0.0147) (0.0113) (0.0134) (0.0142) (0.0152) (0.0287) IFCM-R 0.0510 0.0845 0.1149 0.1518 0.1771 0.2073 (0.0085) (0.0073) (0.0065) (0.0077) (0.0101) (0.0096) IPCM 0.0542 0.0781 0.0969 0.1190 0.1437 0.1623 (0.0083) (0.0079) (0.0081) (0.0111) (0.0115) (0.0137) IPCM-V 0.1969 0.2232 0.2440 0.2660 0.2861 0.2889 (0.0144) (0.0128) (0.0146) (0.0133) (0.0189) (0.0243) IPCM-E 0.07432 0.08156 0.09656 0.10960 0.12780 0.14236 (0.00955) (0.00922) (0.00744) (0.00907) (0.00866) (0.00982) IPCM-VE 0.21996 0.23392 0.24820 0.26488 0.27812 0.28188 (0.01754) (0.01496) (0.01611) (0.01387) (0.01387) (0.01993) Tabela 5.4 Comparação dos métodos de agrupamento para dados intervalares para a Configuração 2

Em ambas as configurações, os métodos baseados na abordagem possibilistica mostraram ter um melhor desempenho quando existe dados aberrantes, mas a principal diferença entre elas está na presença ou não de correlação entre as variáveis. Pode-se observar que os métodos com o grau de pertinência por variável IPCM-V e IPCM-VE mostraram-se melhores que IPCM e IPCM-E, respectivamente, na Configuração 1 quando as variáveis não estão correlacionadas. Por outro lado, IPCM e IPCM-E tiveram um melhor desempenho do que os métodos IPCM-V e IPCM-VE, respectivamente, para a Configuração 2 quando as variáveis estão correlacionadas. A figura a seguir ilustra o decaimento do índice CR para todos os métodos em função do acréscimo de dados aberrantes:

Figura 5.4 Índice CR versus percentual de outlier dos métodos para a Configuração 1

A Figura5.4confirma a superioridade dos métodos baseados na abordagem possibilística. Quanto aos métodos difusos, o melhor resultado foi obtido pelo IFCM-R (FCM robusto para dados intervalares) mostrando ser menos sensível aos outliers como esperado e o pior resultado foi obtido pelo IFCM-C. Os métodos IPCM-V e IPCM-VE apresentaram comportamento semelhante mostrando serem os memos sensível ao acréscimo de dados aberrantes nesta pri- meira configuração. Desta forma, os métodos baseado na abordagem possibilística cujo grau de pertinência é por variável são a melhor opção para a configuração com variáveis não correlacionadas.

Na Figura 5.5, o método IFCM-R também mostra ser melhor que os IFCM-C e IFCM-S os quais apresentaram um compartamento bastante similar para esta configuração. Entre os métodos possibilísticos, os métodos com grau de pertinência por variável (IPCM-V e IPCM- VE) tiveram um desempenho inferior aos métodos IPCM e IPCM-E, respectivamente, uma vez que a Configuração 2 apresenta variáveis correlaciondas. Os métodos IPCM-V e IPCM-

VE também tiveram um resultado pior que o FCM robusto para dados intervalares (IFCM-R). Além disso os métodos que atualizam o grau de pertinência usando uma função exponencial (IPCM-E e IPCM-VE) obtiveram um melhor resultado do que os métodos IPCM e IPCM-V, respectivamente, quando o percentual de dados aberrantes é alto (20%, 25% e 30%) mostrando que os grupos estão próximos entre si (em especial as classes 1 e 2).

Figura 5.5 Índice CR versus percentual de outlier dos métodos para a Configuração 2

No documento Agrupamento de dados simbólicos usando abordagem Possibilistic (páginas 82-89)