• Nenhum resultado encontrado

No caso de bases de dados reais, n˜ao foram realizadas replica¸c˜oes no conjunto de dados, por se tratar de bases com reduzido n´umero de objetos. Ent˜ao, cada algoritmo ´e executado 100 vezes (at´e sua convergˆencia para um valor do crit´erio de agrupamento considerado). A m´edia e desvio-padr˜ao do ´ındice CR dessas 100 execu¸c˜oes ´e utilizada para a avalia¸c˜ao. O procedimento ´e repetido para as diversas medidas de dissimilaridade. Tendo as m´edias e desvios-padr˜ao do ´ındice CR para as diferentes configura¸c˜oes, o desempenho relativo das medidas de dissimilaridade ´e avaliado atrav´es do intervalo de confian¸ca, conforme descrito na Se¸c˜ao 3.8.2.

5.5

Ajuste dos Parˆametros

Primeiramente, foram definidos os parˆametros para as medidas de dissimilaridade. O parˆametro γ das medidas DIST1, DIST3 e DIST4 foi mantido fixo em 0, 5. Esse valor foi definido pelo m´etodo de tentativa e erro, tendo sido testados os seguintes valores: 0; 0,25; 0,5; 0,75 e 1.

Para as medidas propostas nesta Disserta¸c˜ao (DIST21, DIST22, DIST23, DIST24 e DIST25), foi definida a mesma importˆancia para as componentes de conte´udo e volume, isto ´e, wc= wv = 0, 5.

Em seguida, foram definidos os parˆametros para os algoritmos de agrupamento. To- dos os algoritmos utilizados tˆem como parˆametro o n´umero de clusters. Para todos os experimentos realizados, o n´umero de clusters conhecidos a priori foi utilizado como valor do parˆametro k do algoritmo.

Outro parˆametro utilizado por todos os algoritmos ´e o parˆametro T , que representa o n´umero m´aximo de itera¸c˜oes que o algoritmo executar´a. O valor de T foi fixado em 50 para todos os experimentos realizados. Esse valor ´e suficientemente alto para que os algoritmos n˜ao o utilizem como crit´erio de parada, ficando assim a parada do algoritmo condicionada ao valor do parˆametro ε, ou seja, `a convergˆencia do crit´erio de agrupamento adotado. Os demais parˆametros dos algoritmos de agrupamento foram ajustados pelo m´etodo de tentativa e erro.

Os experimentos com bases de dados artificiais foram realizados com os seguintes parˆametros:

• DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os pa-

5.5 Ajuste dos Parˆametros 67

• FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros

finais utilizados foram: k = 3; T = 50 e ε = 0, 01.

• FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros

finais utilizados foram: k = 3; T = 50 e ε = 0, 01.

• RFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50; ε = 0, 1 e m = 2. • NERFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon-

dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50; ε = 0, 1 e m = 2. • FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . ,

10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50 e ε = 0, 1.

• CARDN: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸c˜ao (q) em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50; ε = 0, 01; m = 2 e q = 2. • CARDF: Foram testadas todas as combina¸c˜oes com valor do expoente do discri-

mina¸c˜ao (q) variando em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50; ε = 0, 01 e q = 2.

Para os experimentos com bases reais, os parˆametros assumem valores diferentes para cada base. O valor do parˆametro k foi fixado em 4, n´umero de clusters conhecidos a priori das bases de dados reais utilizadas. O n´umero de itera¸c˜oes (T ) foi mantido em 50 pelo mesmo motivo do caso de dados artificiais. Os demais parˆametros foram configurados da seguinte forma:

• Base de Carros

– DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 10−8.

– FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram:k = 4; T = 50 e ε = 0, 01.

5.5 Ajuste dos Parˆametros 68

– FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.

– RFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 1 e m = 2.

– NERFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2.

– FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50 e ε = 0, 1.

– CARDN: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸c˜ao (q) em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2. – CARDF: Foram testadas todas as combina¸c˜oes com valor do expoente do

discrimina¸c˜ao (q) variando em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e q = 2.

• Base de Peixes

– DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 1.

– FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram:k = 4; T = 50 e ε = 0, 1.

– FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.

– RFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 10−6 e m = 2.

5.5 Ajuste dos Parˆametros 69

– NERFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 1 e m = 2.

– FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50 e ε = 0, 1.

– CARDN: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸c˜ao (q) em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01; m = 2 e q = 2.

– CARDF: Foram testadas todas as combina¸c˜oes com valor do expoente do discrimina¸c˜ao (q) variando em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e q = 2.

• Base de Temperaturas

– DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.

– FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram:k = 4; T = 50 e ε = 0, 01.

– FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.

– RFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 1 e m = 2.

– NERFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2.

– FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50 e

5.6 Considera¸c˜oes Finais 70

ε = 0, 1.

– CARDN: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸c˜ao (q) em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2. – CARDF: Foram testadas todas as combina¸c˜oes com valor do expoente do

discrimina¸c˜ao (q) variando em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e q = 2.

5.6

Considera¸c˜oes Finais

O framework apresentado neste Cap´ıtulo possui implementa¸c˜ao das medidas de dis- similaridade apresentadas no Cap´ıtulo 4 e dos algoritmos de agrupamento de dados rela- cionais discutidos no Cap´ıtulo 3.

Este Cap´ıtulo tamb´em apresentou o tratamento das vari´aveis do tipo intervalo. Al´em disso, foram apresentadas as bases de dados utilizadas, a metodologia de valida¸c˜ao dos ex- perimentos e o processo de configura¸c˜ao dos parˆametros. Os resultados dos experimentos ser˜ao apresentados e discutidos no pr´oximo Cap´ıtulo.

71

6

Resultados

6.1

Considera¸c˜oes Iniciais

No Cap´ıtulo 5, foram apresentadas as bases de dados, as configura¸c˜oes de parˆametros e o framework implementado para a realiza¸c˜ao e avalia¸c˜ao dos experimentos. Neste cap´ıtulo, ser˜ao apresentados e discutidos os resultados desses experimentos. Mais especificamente, a Se¸c˜ao 6.2 apresenta os resultados dos experimentos Monte Carlo para as bases de dados artificiais e a Se¸c˜ao 6.3, os resultados para bases reais. Finalmente, a Se¸c˜ao 6.4 apresenta as considera¸c˜oes gerais sobre a abordagem utilizada e os resultados obtidos.

6.2

An´alise dos resultados dos Experimentos Monte

Documentos relacionados