Ajuste dos Parˆ ametros - Metodos de Agrupamento de Dados Simbolicos Baseados em funções de D

No caso de bases de dados reais, não foram realizadas replica¸cões no conjunto de dados, por se tratar de bases com reduzido número de objetos. Então, cada algoritmo é executado 100 vezes (até sua convergência para um valor do critério de agrupamento considerado). A média e desvio-padrão do ´ındice CR dessas 100 execu¸cões é utilizada para a avalia¸cão. O procedimento é repetido para as diversas medidas de dissimilaridade. Tendo as médias e desvios-padrão do ´ındice CR para as diferentes configura¸cões, o desempenho relativo das medidas de dissimilaridade é avaliado através do intervalo de confian¸ca, conforme descrito na Se¸cão 3.8.2.

5.5 Ajuste dos Parˆametros

Primeiramente, foram definidos os parâmetros para as medidas de dissimilaridade. O parâmetro γ das medidas DIST1, DIST3 e DIST4 foi mantido fixo em 0, 5. Esse valor foi definido pelo método de tentativa e erro, tendo sido testados os seguintes valores: 0; 0,25; 0,5; 0,75 e 1.

Para as medidas propostas nesta Disserta¸cão (DIST21, DIST22, DIST23, DIST24 e DIST25), foi definida a mesma importância para as componentes de conteúdo e volume, isto é, wc= wv = 0, 5.

Em seguida, foram definidos os parâmetros para os algoritmos de agrupamento. To- dos os algoritmos utilizados têm como parâmetro o número de clusters. Para todos os experimentos realizados, o número de clusters conhecidos a priori foi utilizado como valor do parâmetro k do algoritmo.

Outro parâmetro utilizado por todos os algoritmos é o parâmetro T , que representa o número máximo de itera¸cões que o algoritmo executará. O valor de T foi fixado em 50 para todos os experimentos realizados. Esse valor é suficientemente alto para que os algoritmos não o utilizem como critério de parada, ficando assim a parada do algoritmo condicionada ao valor do parâmetro ε, ou seja, à convergência do critério de agrupamento adotado. Os demais parâmetros dos algoritmos de agrupamento foram ajustados pelo método de tentativa e erro.

Os experimentos com bases de dados artificiais foram realizados com os seguintes parˆametros:

• DCLUST: O crit´erio de parada (ε) variou em [10−9_{, 10}−8_{, 10}−7_{, . . . , 10}−1_{]. Os pa-}

5.5 Ajuste dos Parˆametros 67

• FNM: O crit´erio de parada (ε) variou em [10−9_{, 10}−8_{, 10}−7_{, . . . , 10}−1_{]. Os parˆ}_ametros

finais utilizados foram: k = 3; T = 50 e ε = 0, 01.

• FAP: O crit´erio de parada (ε) variou em [10−9_{, 10}−8_{, 10}−7_{, . . . , 10}−1_{]. Os parˆ}_ametros

finais utilizados foram: k = 3; T = 50 e ε = 0, 01.

• RFCM: Foram testadas todas as combina¸cões com o valor do expoente de pondera¸cão (m) em [2, 3, 4, 5, 10, 100] e o critério de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parâmetros finais utililizados foram: k = 3; T = 50; ε = 0, 1 e m = 2. • NERFCM: Foram testadas todas as combina¸cões com o valor do expoente de pon-

dera¸cão (m) em [2, 3, 4, 5, 10, 100] e o critério de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parâmetros finais utililizados foram: k = 3; T = 50; ε = 0, 1 e m = 2. • FANNY: O critério de parada variou da seguinte maneira: ε = [10−9_{, 10}−8_{, 10}−7_{, . . . ,}

10−1]. Os parˆametros finais utililizados foram: k = 3; T = 50 e ε = 0, 1.

• CARDN: Foram testadas todas as combina¸cões com o valor do expoente de pondera¸cão (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸cão (q) em [1, 2, 3, 4, 5, 10, 100] e o critério de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parâmetros finais utililizados foram: k = 3; T = 50; ε = 0, 01; m = 2 e q = 2. • CARDF: Foram testadas todas as combina¸cões com valor do expoente do discri-

mina¸cão (q) variando em [1, 2, 3, 4, 5, 10, 100] e o critério de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parâmetros finais utililizados foram: k = 3; T = 50; ε = 0, 01 e q = 2.

Para os experimentos com bases reais, os parâmetros assumem valores diferentes para cada base. O valor do parâmetro k foi fixado em 4, número de clusters conhecidos a priori das bases de dados reais utilizadas. O número de itera¸cões (T ) foi mantido em 50 pelo mesmo motivo do caso de dados artificiais. Os demais parâmetros foram configurados da seguinte forma:

• Base de Carros

– DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 10−8.

– FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram:k = 4; T = 50 e ε = 0, 01.

5.5 Ajuste dos Parˆametros 68

– FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.

– RFCM: Foram testadas todas as combina¸cões com o valor do expoente de pondera¸cão (m) em [2, 3, 4, 5, 10, 100] e o critério de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parâmetros finais utililizados foram: k = 4; T = 50; ε = 0, 1 e m = 2.

– NERFCM: Foram testadas todas as combina¸cões com o valor do expoente de pondera¸cão (m) em [2, 3, 4, 5, 10, 100] e o critério de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parâmetros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2.

– FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50 e ε = 0, 1.

– CARDN: Foram testadas todas as combina¸cões com o valor do expoente de pondera¸cão (m) variando em [2, 3, 4, 5, 10, 100], o expoente de discrimina¸cão (q) em [1, 2, 3, 4, 5, 10, 100] e o critério de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parâmetros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e m = 2. – CARDF: Foram testadas todas as combina¸cões com valor do expoente do

discrimina¸cão (q) variando em [1, 2, 3, 4, 5, 10, 100] e o critério de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parâmetros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e q = 2.

• Base de Peixes

– DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 1.

– FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram:k = 4; T = 50 e ε = 0, 1.

– FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.

5.5 Ajuste dos Parˆametros 69

– FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50 e ε = 0, 1.

– CARDF: Foram testadas todas as combina¸cões com valor do expoente do discrimina¸cão (q) variando em [1, 2, 3, 4, 5, 10, 100] e o critério de parada (ε) em [10−9, 10−8, 10−7, . . . , 10−1]. Os parâmetros finais utililizados foram: k = 4; T = 50; ε = 0, 01 e q = 2.

• Base de Temperaturas

– DCLUST: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.

– FNM: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram:k = 4; T = 50 e ε = 0, 01.

– FAP: O crit´erio de parada (ε) variou em [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utilizados foram: k = 4; T = 50 e ε = 0, 01.

– FANNY: O crit´erio de parada variou da seguinte maneira: ε = [10−9, 10−8, 10−7, . . . , 10−1]. Os parˆametros finais utililizados foram: k = 4; T = 50 e

5.6 Considera¸c˜oes Finais 70

ε = 0, 1.

5.6 Considera¸c˜oes Finais

O framework apresentado neste Cap´ıtulo possui implementa¸c˜ao das medidas de dissimilaridade apresentadas no Cap´ıtulo 4 e dos algoritmos de agrupamento de dados rela- cionais discutidos no Cap´ıtulo 3.

Este Cap´ıtulo também apresentou o tratamento das variáveis do tipo intervalo. Além disso, foram apresentadas as bases de dados utilizadas, a metodologia de valida¸cão dos experimentos e o processo de configura¸cão dos parâmetros. Os resultados dos experimentos serão apresentados e discutidos no próximo Cap´ıtulo.

6 Resultados

6.1 Considera¸c˜oes Iniciais

No Cap´ıtulo 5, foram apresentadas as bases de dados, as configura¸cões de parâmetros e o framework implementado para a realiza¸cão e avalia¸cão dos experimentos. Neste cap´ıtulo, serão apresentados e discutidos os resultados desses experimentos. Mais especificamente, a Se¸cão 6.2 apresenta os resultados dos experimentos Monte Carlo para as bases de dados artificiais e a Se¸cão 6.3, os resultados para bases reais. Finalmente, a Se¸cão 6.4 apresenta as considera¸cões gerais sobre a abordagem utilizada e os resultados obtidos.

6.2 An´alise dos resultados dos Experimentos Monte

No documento Metodos de Agrupamento de Dados Simbolicos Baseados em funções de Dissimilaridades (páginas 82-87)