• Nenhum resultado encontrado

Conjuntos de Dados Sintéticos

6.2 Resultados Obtidos com Dados Intervalares

6.2.1 Conjuntos de Dados Sintéticos

Nesta subseção, são apresentados os resultados dos algoritmos fuzzy de agrupamento quando aplicados aos conjuntos de dados articiais: 2Dim, 3Dim, 5Dim e Sun. A Tabela 6.5 apresenta os resultados dos valores de média dos CR e desvio padrão obtidos pelos dois algoritmos agrupamento propostos (IbckM e IbFcM), utilizando a distância proposta dkm e a distân-

cia proposta em [27]. Todos os valores estão relacionados com os conjuntos de dados sintéticos, 2Dim, 3Dim, 5Dim e Sun. Nesta tabela, os números em negrito representam os melhores valores do CR que são estatisticamente signicativos em relação aos outros valores do CR.

Tabela 6.5: Resultado dos algoritmos de agrupamento intervalares para os conjuntos de dados sintéticos- Média(Std)

Algoritmos 2Dim 3Dim 5Dim Sun

IbckMdkm 1 0.820184 0.762843 0.897907 (0) (0.188877) (0.195350) (0.130803) IbFcMdkm 1 1 0.908170 0.911790 (0) (0) (0.127516) (0.091005) IbckMdI 1 0.816693 0.771111 0.897520 (0) (0.195730) (0.200871) (0.153709) IbFcMdI 1 1 0.843905 0.924147 (0) (0) (0.1661116) (0.098020)

Da Tabela 6.5, pode-se observar que todas as quatro versões dos algorit- mos propostos são capazes de produzir boas partições de dados intervalares, já que os valores de CR correspondentes estão perto de 1 (as partições ob- tidas estão perto da partição ideal). Para o conjunto de dados 2Dim, por exemplo, foram obtidos valores do CR iguais a 1, para todas a versões pro-

postas dos algoritmos. Esse conjunto de dados pode ser considerado como simples e a partição ideal pode ser facilmente obtida (classes são facilmente separáveis). Para os outros três conjuntos de dados, apesar de não obterem os valores dos CR iguais à 1 em todas as versões, são 1 ou muito próximo de 1. É importante notar que, no caso em que a nossa distância proposta, dkm ,

não alcançou o maior valor do CR (conjunto de dados Sun), forneceu valores elevados do CR.

A análise estatística é feita utilizando o Teste t de Student, onde os resul- tados são considerandos signicativos quando os valores de p são inferiores a 0,05. O teste foi realizado comparando o desempenho dos algoritmos, IbckM e IbFcM, as duas primeiras linhas da Tabela 6.6, e das distâncias dkm e di,

as duas últimas linhas da Tabela 6.6. Nesta tabela, os números em negrito representam os valores estatisticamente signicativos.

Tabela 6.6: p-valores para Teste t de Student's para os conjuntos de dados sintéticos

2Dim 3Dim 5Dim Sun

IbckMdkm × IbF cMdkm 1 6,240E-018 2,754E-009 0,384

IbckMdI × IbF cMdI 1 1,73E-017 0,0057 0,145

IbckMdkm × IbckMdI 1 0,898 0,768 0,984

IbF cMdkm × IbF cMdI 1 1 0,002 0,356

Tabela 6.7: p-valores para Teste t de Student's para os conjuntos de dados sintéticos

A partir da tabela 6.6, podemos observar que a hipótese nula foi rejeitada, na maioria dos casos. Em outras palavras, não há evidência estatística al- guma para armar em que o desempenho dos dois algoritmos são diferentes, para a maioria dos casos analisados. Nas duas primeiras linhas da Tabela 6.6, quando se comparam os algoritmos propostos, foi comparado o primeiro

algoritmo, IbckM, contra o segundo, IbFcM. Portanto, se o valor p é menor que 0,05, isso signica que o primeiro algoritmo é estatisticamente diferente do segundo. Podemos observar que o desempenho dos algoritmos de agrupa- mento são diferentes em 4 casos analisados (de 8), a partir de um ponto de vista estatístico. Neste caso, foram comparados os resultados do IbFcM com IbckM em casos de dois-a-dois, usando as duas distâncias. Como resultado, pode-se observar que o desempenho de IbFcM foi estatisticamente maior do que IbckM em quatro casos, para os conjuntos de dados 3Dim e 5Dim. Nos quatro casos restantes,ambos os algoritmos tiveram desempenho semelhante, a partir de um ponto de vista estatístico.

Na comparação entre as duas distância intervalares, dkm e di, as duas

últimas linhas da Tabela 6.6, podemos observar um cenário diferente, em que ambos os algoritmos proporcionam um desempenho semelhante, na mai- oria dos casos analisados, a partir de um ponto de vista estatístico. A única exceção é o conjunto de dados 5Dim, em que a distância proposta dkm pro-

porciona desempenho superior a distância di, usando o algoritmo IbFcM, a

partir de um ponto de vista estatístico.

Agora, a tabela 6.8 apresenta os resultados dos índices internos para os conjuntos de dados sintéticos. Nesta tabela, representamos o número ideal de grupos para cada índice interno. Os números entre parênteses representam o número de vezes que o número ideal de grupos foi selecionado. Por exemplo, 5 (22), para o conjunto de dados Sun com o índice de CR, arma que o número ideal de grupos é 5, e este número foi selecionado 22 vezes, das 31 corridas. A última linha desta tabela mostra o número total de vezes em que o número ideal de grupos representa o número correto de classes. E na última linha desta tabela, os números em negrito representam os índices que obtiveram os valores corretos em todos os conjuntos de dados.

Tabela 6.8: Número de grupos preferidos para vários índices de validação dos dados sintéticos. Dados Classes CR CIh FSh MPC PC PE XBh 2Dim 2 2(31) 2(31) 4(9) 2(31) 2(31) 2(31) 2(31) 3Dim 4 4(31) 4(31) 4(29) 4(31) 4(31) 4(31) 4(31) 5Dim 4 4(21) 4(21) 6(12) 4(21) 2(31) 2(31) 4(13) Sun 5 5(22) 5(22) 4(26) 4(28) 4(31) 2(31) 5(22) Total 4 4 1 3 2 2 4

A partir desta tabela, podemos ver que os melhores índices de desempenho global para os quatro conjuntos de dados sintéticos foram CR, CIh e XBh. É

importante notar que os índices CR, CIh e XBhobtiveram 100% de acurácia,

selecionando o número correto de classes em todos os 4 conjuntos de dados articiais.

Por outro lado, o índice MPC selecionado corretamente o número ideal de grupos em 3 conjuntos de dados (2Dim, 3Dim 5Dim e conjuntos de dados), atingindo 75% de acurácia, o que é um resultado signicativo. Contudo, os índices de PC e PE alcançam apenas 50% de acurácia e o índice FS obteve um baixo desempenho obtendo apenas 25% dos casos. É importante salien- tar que dois dos índices interno propostos, forneceram as maiores acurácias. Mostrando que a adaptação intervalar proposta é positivo para os índices CIh e XBh.

6.2.2

Conjuntos de Dados Reais

Nesta subseção, são mostrados os resultados dos algoritmos de agrupa- mento, quando aplicados a três conjuntos de dados com valores reais inter-

valares. São eles: temperatura, peixes e carro. A Tabela 6.9 mostra os resultados dos valores do CR, média e o desvio padrão, obtidos com a dis- tância dkm, e a distância proposta em Vargas [27], quando aplicados aos dois

algoritmos de agrupamento propostos (IbckM e IbFcM).

Tabela 6.9: Resultado dos algoritmos de agrupamentos intervalares para os dados reais.

Temperatura Peixe Carro

Algoritmos Melhor Melhor Melhor

Média (std) Média (std) Média (std)

IbckMdkm 0.915846 0.767278 0.724621 0.561(0.161277) 0.299(0.190870) 0.584(0.080535) IbFcMdkm 0.657397 0.767278 0.680207 0.477(0.109553) 0.299(0.157102) 0.622(0.042386) IbckMdI 0.883152 0.621656 0.680207 0.502(0.091141) 0.224(0.124540) 0.575(0.100857) IbFcMdI 0.517390 0.558931 0.680207 0.455(0.066153) 0.266(0.110088) 0.566(0.020559)

Na Tabela 6.9, podemos observar que a distância proposta, dkm, obteve

excelentes resultados, proporcionando o maior CR em todos os casos estu- dados, quando comparada com a distância di. Em particular, o algoritmo

IbckM usando a distância dkm, pode ser visto como a melhor opção, neste

trabalho, uma vez que forneceu o maior valor do CR em todos os conjuntos de dados reais utilizados nesta análise empírica.

A tabela 6.10 apresenta os p-valores obtidos quando aplicado o teste es- tatístico. Consideram-se os resultados signicativos quando os valores de p são inferiores a 0,05. Nesta tabela, os números em negrito representam os valores estatisticamente signicativos. Similar ao conjunto de dados artici-

Tabela 6.10: p-valores para o Teste t de Student's para os conjuntos de dados reais

Peixe Carro Temperatura IbckMdkm × IbF cMdkm 0,969 3,545E-005 0,000002

IbckMdI × IbF cMdI 0,0129 0,424 4,63E-005

IbckMdkm× IbckMdI 0,00126 0,486 0,0016

IbF cMdkm× IbF cMdI 0,0798 8,609E-025 0,0915

ais, o teste foi realizado comparado o desempenho dos algoritmos, IbckM e IbFcM, e das distâncias utilizadas dkm e di. No geral, a partir da Tabela 6.10,

podemos notar que a hipótese nula foi rejeitada em 8 dos 12 casos analisados. Ao comparar os algoritmos propostos com as duas distâncias, as duas primeiras linhas da Tabela 6.10, podemos observar que o desempenho dos algoritmos foram estatisticamente diferentes em 4 casos (de 6 casos). Especi- almente, podemos observar que o desempenho de IbckM foi estatisticamente superior ao IbFcM em todas as duas distâncias para conjunto de dados tem- peratura. Para os outros dois conjuntos de dados, IbckM foi estatisticamente superior ao IbFcM em um caso, dkm para o conjunto de dados carro e di para

o conjunto de dados peixe. Portanto, com base nos resultados obtidos, pode- se armar que o IbckM forneceu melhor desempenho, quando se analisa o índice CR, do que o outro algoritmo proposto, IbFcM, para os conjuntos de dados analisados.

Na comparação entre as duas distâncias intervalares, dkm e di, as duas

últimas linhas da Tabela 6.10, podemos observar que há diferença de desem- penho em três casos (um caso para cada conjunto de dados), de 6, em que o algoritmo de agrupamento usando dkm proporcionou maior desempenho do

tem um maior impacto no desempenho do IbckM, uma vez que proporcio- nou resultados estatisticamente signicativos em dois casos (terceira linha da Tabela 6.10).

A tabela 6.11 contém os resultados dos índices internos sobre os dados reais. A mesma metodologia da subseção anterior é adotada aqui. A última linha desta tabela apresenta o número de vezes que cada índice seleciona o número de classes como o número ideal de grupos.

Tabela 6.11: Números preferidos de grupos para vários índices de validação nos conjuntos de dados reais

Dados Classes CR CIh FSh MPC PC PE XBh

Peixe 4 5(8) 8(11) 10(27) 10(24) 10(24) 10(22) 10(21) Carro 8 4(29) 6(15) 6(9) 3(31) 2(31) 2(31) 10(26) Temperatura 4 2(30) 4(25) 10(9) 2(21) 2(31) 2(31) 3(15)

Total 0 1 0 0 0 0 0

Ao contrário dos conjuntos de dados articiais, o número ideal de grupos denidos pelos índices internos não corresponde ao número correto de gru- pos para as bases de dados reais, na maioria dos casos. Esse é um resultado esperado uma vez que o procedimento de agrupamento é geralmente feito por um especialista e usando algumas instâncias. Esses fatos podem fazer deste procedimento uma tarefa difícil. Para o conjunto de dados de tempe- ratura, por exemplo, temos dois grupos solitários (grupos com apenas uma instância) e esta partição é muito difícil de conseguir. Além disso, o CIh é

o único índice interno que escolhe com sucesso 4 grupos para o conjunto de dados temperatura, que é o único resultado correto na Tabela 6.11. Existem estudos na literatura, [23] por exemplo, que utilizam o conjunto de dados de temperatura, com apenas duas classes, o que pode parecer ser um resultado mais plausível. Isso é justicado pelo fato de que o número ideal de grupos

igual a 2 foi selecionado por quatro índices internos em Tabela 6.11.

6.3 Análise Comparativa Para Dados Interva-

Documentos relacionados