No caso de bases de dados reais, n˜ao foram realizadas replica¸c˜oes no conjunto de dados, por se tratar de bases com reduzido n´umero de objetos. Ent˜ao, cada algoritmo ´e executado 100 vezes (at´e sua convergˆencia para um valor do crit´erio de agrupamento considerado). A m´edia e desvio-padr˜ao do ´ındice CR dessas 100 execu¸c˜oes ´e utilizada para a avalia¸c˜ao. O procedimento ´e repetido para as diversas medidas de dissimilaridade. Tendo as m´edias e desvios-padr˜ao do ´ındice CR para as diferentes configura¸c˜oes, o desempenho relativo das medidas de dissimilaridade ´e avaliado atrav´es do intervalo de confian¸ca, conforme descrito na Se¸c˜ao 3.8.2.
5.5
Ajuste dos Parˆametros
Primeiramente, foram definidos os parˆametros para as medidas de dissimilaridade. O parˆametro γ das medidas DIST1, DIST3 e DIST4 foi mantido fixo em 0, 5. Esse valor foi definido pelo m´etodo de tentativa e erro, tendo sido testados os seguintes valores: 0; 0,25; 0,5; 0,75 e 1.
Para as medidas propostas nesta Disserta¸c˜ao (DIST21, DIST22, DIST23, DIST24 e DIST25), foi definida a mesma importˆancia para as componentes de conte´udo e volume, isto ´e, wc= wv = 0, 5.
Em seguida, foram definidos os parˆametros para os algoritmos de agrupamento. To- dos os algoritmos utilizados tˆem como parˆametro o n´umero de clusters. Para todos os experimentos realizados, o n´umero de clusters conhecidos a priori foi utilizado como valor do parˆametro k do algoritmo.
Outro parˆametro utilizado por todos os algoritmos ´e o parˆametro T , que representa o n´umero m´aximo de itera¸c˜oes que o algoritmo executar´a. O valor de T foi fixado em 50 para todos os experimentos realizados. Esse valor ´e suficientemente alto para que os algoritmos n˜ao o utilizem como crit´erio de parada, ficando assim a parada do algoritmo condicionada ao valor do parˆametro ε, ou seja, `a convergˆencia do crit´erio de agrupamento adotado. Os demais parˆametros dos algoritmos de agrupamento foram ajustados pelo m´etodo de tentativa e erro.
Os experimentos com bases de dados artificiais foram realizados com os seguintes parˆametros:
• DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os pa-
5.5 Ajuste dos Parˆametros 67
• FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros
finais utilizados foram: k = 3; T = 50 e ε = 0, 01.
• FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros
finais utilizados foram: k = 3; T = 50 e ε = 0, 01.
• RFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50; ε = 0, 1 e m = 2. • NERFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon-
dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50; ε = 0, 1 e m = 2. • FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . ,
10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50 e ε = 0, 1.
• CARDN: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸c˜ao (q) em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50; ε = 0, 01; m = 2 e q = 2. • CARDF: Foram testadas todas as combina¸c˜oes com valor do expoente do discri-
mina¸c˜ao (q) variando em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50; ε = 0, 01 e q = 2.
Para os experimentos com bases reais, os parˆametros assumem valores diferentes para cada base. O valor do parˆametro k foi fixado em 4, n´umero de clusters conhecidos a priori das bases de dados reais utilizadas. O n´umero de itera¸c˜oes (T ) foi mantido em 50 pelo mesmo motivo do caso de dados artificiais. Os demais parˆametros foram configurados da seguinte forma:
• Base de Carros
– DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 10−8.
– FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram:k = 4; T = 50 e ε = 0, 01.
5.5 Ajuste dos Parˆametros 68
– FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.
– RFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 1 e m = 2.
– NERFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2.
– FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50 e ε = 0, 1.
– CARDN: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸c˜ao (q) em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2. – CARDF: Foram testadas todas as combina¸c˜oes com valor do expoente do
discrimina¸c˜ao (q) variando em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e q = 2.
• Base de Peixes
– DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 1.
– FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram:k = 4; T = 50 e ε = 0, 1.
– FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.
– RFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 10−6 e m = 2.
5.5 Ajuste dos Parˆametros 69
– NERFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 1 e m = 2.
– FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50 e ε = 0, 1.
– CARDN: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸c˜ao (q) em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01; m = 2 e q = 2.
– CARDF: Foram testadas todas as combina¸c˜oes com valor do expoente do discrimina¸c˜ao (q) variando em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e q = 2.
• Base de Temperaturas
– DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.
– FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram:k = 4; T = 50 e ε = 0, 01.
– FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.
– RFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pon- dera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 1 e m = 2.
– NERFCM: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) em [2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2.
– FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50 e
5.6 Considera¸c˜oes Finais 70
ε = 0, 1.
– CARDN: Foram testadas todas as combina¸c˜oes com o valor do expoente de pondera¸c˜ao (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸c˜ao (q) em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2. – CARDF: Foram testadas todas as combina¸c˜oes com valor do expoente do
discrimina¸c˜ao (q) variando em [1, 2, 3, 4, 5, 10, 100] e o crit´erio de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e q = 2.
5.6
Considera¸c˜oes Finais
O framework apresentado neste Cap´ıtulo possui implementa¸c˜ao das medidas de dis- similaridade apresentadas no Cap´ıtulo 4 e dos algoritmos de agrupamento de dados rela- cionais discutidos no Cap´ıtulo 3.
Este Cap´ıtulo tamb´em apresentou o tratamento das vari´aveis do tipo intervalo. Al´em disso, foram apresentadas as bases de dados utilizadas, a metodologia de valida¸c˜ao dos ex- perimentos e o processo de configura¸c˜ao dos parˆametros. Os resultados dos experimentos ser˜ao apresentados e discutidos no pr´oximo Cap´ıtulo.
71
6
Resultados
6.1
Considera¸c˜oes Iniciais
No Cap´ıtulo 5, foram apresentadas as bases de dados, as configura¸c˜oes de parˆametros e o framework implementado para a realiza¸c˜ao e avalia¸c˜ao dos experimentos. Neste cap´ıtulo, ser˜ao apresentados e discutidos os resultados desses experimentos. Mais especificamente, a Se¸c˜ao 6.2 apresenta os resultados dos experimentos Monte Carlo para as bases de dados artificiais e a Se¸c˜ao 6.3, os resultados para bases reais. Finalmente, a Se¸c˜ao 6.4 apresenta as considera¸c˜oes gerais sobre a abordagem utilizada e os resultados obtidos.