Conjuntos de Dados de Benchmark - Combinando regressão linear clusterwise e k-means com pondera

Os conjuntos de dados de benchmark, repositório UCI (LICHMAN,2013), utilizados nesta análise experimental estão descritos, de forma resumida, a seguir:

Abalone No conjunto de dados Abalone o objetivo é prever a idade do abalone (número de rings) a partir de suas medidas físicas como comprimento, diâmetro, peso, etc. Em uma fase de pré-processamento apenas a variável sex foi removida do conjunto de variáveis explicativas não sendo utilizada nesta análise experimental.

Airfoil No conjunto de dados Airfoil o objetivo é prever o nível de pressão sonora a partir de variáveis como frequência, ângulo de ataque, etc. Todas as variáveis disponíveis foram utilizadas nesta análise experimental.

CLR KPLANE MLR Wclr−PG 1.5 2.0 2.5 3.0 3.5 method rmse (a) Sintético1 CLR KPLANE MLR Wclr−PG 1.5 2.0 2.5 3.0 3.5 4.0 4.5 method rmse (b) Sintético2 CLR KPLANE MLR Wclr−PG 1.5 2.0 2.5 3.0 3.5 method rmse (c) Sintético3 CLR KPLANE MLR Wclr−PG 1.5 2.0 2.5 3.0 3.5 4.0 method rmse (d) Sintético4 CLR KPLANE MLR Wclr−PG 2 4 6 8 10 method rmse (e) Sintético5 CLR KPLANE MLR Wclr−PG 0 20 40 60 80 100 method rmse (f) Sintético6 CLR KPLANE MLR Wclr−PG 0 200 400 600 800 1000 method rmse (g) Sintético7

Figura 7 –Boxplots para os conjuntos de dados sintéticos

Autompg No conjunto de dados Autompg o objetivo é prever o consumo de combustível de um veículo a partir de suas medidas como número de cilindros, peso, potência, etc. Em uma fase de pré-processamento as variáveis origin e model year foram removidas do conjunto de variáveis explicativas não sendo utilizadas nesta análise experimental. Concrete No conjunto de dados Concrete o objetivo é prever a resistência à compressão

do concreto a partir das medidas de alguns componente utilizados em sua fórmula assim como o tempo decorrido desde que foi feito. Todas as variáveis disponíveis foram utilizadas nesta análise experimental.

Forest Fires No conjunto de dados Forest Fires o objetivo é prever a área queimada por incêndios florestais a partir de variáveis como temperatura, velocidade do vento, quantidade de chuva, etc. Em uma fase de pré-processamento as variáveis month e day foram removidas do conjunto de variáveis explicativas não sendo utilizadas nesta análise experimental.

Glass No conjunto de dados Glass o objetivo é prever o tipo do vidro definido em termos de seu teor de óxido como Na, Fe, K, etc. Em uma fase de pré-processamento a variável id foi removida do conjunto de variáveis explicativas não sendo utilizada nesta análise experimental.

Housing No conunto de dados Housing o objetivo é prever o valor de casas do subúrbio de Boston a partir de variáveis como distância até centros comerciais, números de quartos, etc. Em uma fase de pré-processamento as variáveis chas e rad foram removidas do conjunto de variáveis explicativas não sendo utilizadas nesta análise experimental.

Power Plant No conjunto de dados Power Plant o objetivo é prever a produção de energia elétrica por hora da instalação a partir de variáveis como temperatura, pressão ambiente, umidade relativa, etc. Todas as variáveis disponíveis foram utilizadas nesta análise experimental.

Wine No conjunto de dados Wine o objetivo é prever o nível de álcool do vinho a partir de algumas medidas químicas como alcalinidade, ácido málico, magnésio, etc. Em uma fase de pré-processamento a variável class foi removida do conjunto de variáveis explicativas não sendo utilizada nesta análise experimental.

Wine Quality (red) No conjunto de dados Whine Quality (red) o objetivo é prever a qualidade do vinho verde (vermelho) de Portugal baseado em algumas características físico químicas como densidade, PH, ácido cítrico, etc. Todas as variáveis disponíveis foram utilizadas nesta análise experimental.

Wine Quality (white) No conjunto de dados Whine Quality (red) o objetivo é prever a qualidade do vinho verde (branco) de Portugal baseado em algumas características físico químicas como densidade, PH, ácido cítrico, etc. Todas as variáveis disponíveis foram utilizadas nesta análise experimental.

Yacht Hydrodynamics No conjunto de dados Yacht Hydrodynamics o objetivo é prever a resistência residual de iates à vela a partir de variáveis como coeficiente prismá- tico, relação comprimento-boca, relação comprimento-deslocamento, etc. Todas as variáveis disponíveis foram utilizadas nesta análise experimental.

Ambroise e McLachlan (AMBROISE; MCLACHLAN, 2002) demonstraram empi- ricamente como os resultados de um modelo podem ser enviesados quando uma seleção de variáveis é feita a priori, ou seja, antes do processo de validação cruzada, sendo um erro no método experimental selecionar variáveis antes do processo de validação cruzada(KRSTAJIC et al., 2014). No entanto, alguns conjuntos de dados possuem variáveis (atributos) que não podem ser tratados pelos métodos utilizados nesta avaliação experi-

mental. Por exemplo, o atributo classe do conjunto de dados Wine ou os atributos origem e ano do modelo no conjunto de dados Autompg. Dessa forma, procedemos com esta seleção prévia de variáveis apenas neste tipo de situação, retirando-as do conjunto de dados apenas quando necessário, utilizando todas as variáveis explicativas restantes para esta análise experimental.

Pré-processamento dos Conjuntos de Dados

Todos os conjuntos de dados passaram por uma fase de pré-processamento. Além das já citadas, todas as observações com valores ausentes foram removidas dos conjuntos de dados selecionados.

Uma vez que o intervalo de valores dos dados brutos podem variar amplamente, os termos contidos nas funções de custo JKP LAN E e JW CLR podem ter valores em escalas

bem diferentes, por exemplo, com várias ordens de grandeza de diferença, dessa forma, a minimização da função de custo será regida pelo termo de maior valor em particular. Portanto, o intervalo de todos as variáveis deve ser dimensionado para que cada termo contribua de forma aproximadamente proporcional à distância final.

O redimensionamento de atributos é um método utilizado para padronizar o intervalo das variáveis de um conjunto de dados. Geralmente ele é realizado durante o passo de pré-processamento dos dados.

Para cada conjunto de dados de benchmark, todas as suas variáveis foram redimen- sionadas para um intervalo [0, 1]. Tomando o maior (max) e o menor (min) valor entre todas as variáveis de um mesmo conjunto de dados, o seu novo valor foi recalculado como

x0 = x − min

(max − min) (5.10)

onde x é o valor original e x0 o valor redimensionado.

Dessa forma, os valores escolhidos para os hiper-parâmetros γ e α podem ter um papel mais de diferenciação na contribuição relativa dos dois termos das funções objetivo

JKP LAN E e JW CLR que da sua equiparação.

A Tabela5 apresenta o número de variáveis explicativas e observações, após a fase de pré-processamento, para os conjuntos de dados de benchmark. Todos os conjuntos de dados de benchmark possuem apenas uma única variável resposta.

5.4.1 Seleção de Modelos

A seleção de modelos para os conjuntos de dados de benchmark seguiu o protocolo definido na seção 5.2.2. Foram feitas 5 repetições do processo de validação cruzada 10-fold. A busca pelo conjunto ótimo de hiper-parâmetros foi feita a partir dos valores contidos na Tabela2.

A Tabela6 mostra o conjunto ótimo de parâmetros obtidos para os métodos CLR, KPLANE, RANDOM, KMEANS e WCLR. No Apêndice Aestão os pesos calculados para cada variável explicativa pelo método WCRL durante a seleção de modelos.

Tabela 5 – Conjuntos de dados de benchmark

conjunto de dados número de variáveis explicativas número de observações

Abalone 7 4177 Airfoil 5 1503 Autompg 5 392 Concrete 8 1030 Forest Fires 10 517 Glass 9 214 Housing 11 506 Power Plant 4 9568 Wine 12 178

Whine Quality (Red) 11 1597

Whine Quality (White) 11 4898

Yacht Hydrodynamics 6 252

É possível observar que os modelos CLR foram gerados com apenas um cluster para todos os conjuntos de dados. Isto demonstra a dificuldade de utilizá-lo em uma tarefa de previsão onde o centros dos clusters gerados são utilizados como referência para a escolha do melhor modelo para se obter o valor previsto.

Também é possível notar que os modelos KPLANE foram gerados com a mesma quantidade de modelos que o método KMEANS (como exceção apenas o conjunto de dados Abalone). Isto indica pouca ou nenhuma contribuição da parcela de regressão no particionamento dos dados.

Apesar dos valores de α para os modelos WCLR terem sido todos pequenos, indi- cando que a parcela de regressão na sua função de custo possui uma pequena contribuição para a formação dos clusters, a utilização de uma métrica adaptativa foi capaz de criar clusters com menores valores de SSEY em relação ao método KPLANE em um terço dos conjuntos de dados (Autompg, Concrete, PowerPlant e Yacht). Em dois casos (Glass e Wine Quality (red)) obteve valores bem próximos de SSEY.

Em suma, é possível observar uma predominância por valores pequenos de α, isto se deve a forma como o modelo WCLR foi ajustado durante o processo seleção de modelos. A utilização de uma regra de afetação para novas observações que utiliza apenas os protótipos dos grupos como critério de decisão tende a formar modelos onde o termo K-means de suas funções de custo são os principais responsáveis pela formação da partição dos dados. Apesar disto, a inclusão de uma métrica adaptativa se mostrou eficaz na maioria dos casos testados, obtendo melhores valor de SSEY em comparação ao método KPLANE.

Tabela 6 – Seleção de modelos para os conjuntos de dados de benchmark

método hiper-parâmetros SSEY SSEX método hiper-parâmetros SSEY SSEX

Abalone Airfoil

CLR K = 1 24,38274 1,723839 CLR K = 1 8,654555e-05 37,32093

KMEANS K = 4 22,14813 0,206061 KMEANS K = 4 5,600802e-05 4,576916

KPLANE K = 1 γ = 0, 01 24,38274 1,723839 KPLANE K = 4 γ = 1, 0 5,600802e-05 4,576916

MLR 24,38274 1,723839 MLR 8,654555e-05 37,32093

RANDOM K = 1 24,38274 1,723839 RANDOM K = 1 8,654555e-05 37,32093

WCLR K = 1 α = 0, 01 24,38274 1,723839 WCLR K = 4 α = 0, 01 7,244057e-05 35,28638 Autompg Concrete CLR K = 1 0,000263 10,87453 CLR K = 1 0,084218 30,93794 KMEANS K = 3 0,000209 1,28218 KMEANS K = 4 0,062932 16,58076 KPLANE K = 3 γ = 1, 0 0,000209 1,28218 KPLANE K = 4 γ = 0, 01 0,055787 16,60232 MLR 0,000263 10,87453 MLR 0,084218 30,93794 RANDOM K = 1 0,000263 10,87453 RANDOM K = 1 0,084218 30,93794 WCLR K = 4 α = 0, 1 0,000190 1,906095 WCLR K = 4 α = 0, 01 0,045712 22,24315

Forest Fires Glass

CLR K = 1 1,719106 28,62021 CLR K = 1 0,042020 0,236123 KMEANS K = 1 1,719106 28,62021 KMEANS K = 2 0,031599 0,144201 KPLANE K = 1 γ = 0, 01 1,719106 28,62021 KPLANE K = 2 γ = 10, 0 0,031452 0,144131 MLR 1,719106 28,62021 MLR 0,042020 0,236123 RANDOM K = 1 1,719106 28,62021 RANDOM K = 1 0,042020 0,236123 WCLR K = 1 α = 0, 01 1,719106 28,62021 WCLR K = 2 α = 0, 01 0,032201 0,145132

Housing Power Plant

CLR K = 1 0,02345226 38,21805 CLR K = 1 0,1867554 4,185377 KMEANS K = 3 0,01195905 5,993784 KMEANS K = 4 0,1644754 1,214512 KPLANE K = 3 γ = 0, 01 0,01195905 5,993784 KPLANE K = 4 γ = 100, 0 0,164456 1,214512 MLR 0,02345226 38,21805 MLR 0,1867554 4,185377 RANDOM K = 1 0,02345226 38,21805 RANDOM K = 1 0,1867554 4,185377 WCLR K = 4 α = 0, 01 0,01259268 10,08972 WCLR K = 4 α = 0, 01 0,1583003 2,009267

Wine Wine Quality (red)

CLR K = 1 1,680149e-05 6,234022 CLR K = 1 0,007977 22,86451

KMEANS K = 1 1,680149e-05 6,234022 KMEANS K = 4 0,007317 3,372721

KPLANE K = 1 γ = 0, 01 1,680149e-05 6,234022 KPLANE K = 4 γ = 10, 0 0,007336 3,372474

MLR 1,680149e-05 6,234022 MLR 0,007977 22,86451

RANDOM K = 1 1,680149e-05 6,234022 RANDOM K = 1 0,007977 22,86451

WCLR K = 1 α = 0, 01 1,680149e-05 6,234022 WCLR K = 3 α = 0, 01 0,007531 10,43317

Wine Quality (white) Yacht Hydrodynamics

CLR K = 1 0,01424757 53,7087 CLR K = 1 4,268607 0,097566 KMEANS K = 4 0,01320558 10,74952 KMEANS K = 1 4,268607 0,097566 KPLANE K = 4 γ = 1, 0 0,01318682 10,74953 KPLANE K = 1 γ = 0, 01 4,268607 0,097566 MLR 0,01424757 53,7087 MLR 4,268607 0,097566 RANDOM K = 1 0,01424757 53,7087 RANDOM K = 1 4,268607 0,097566 WCLR K = 3 α = 0, 01 0,01322573 36,33533 WCLR K = 3 α = 0, 01 0,070931 0,097064

5.4.2 Avaliação de Modelos

O uso de modelos preditivos depende de uma avaliação confiável dos modelos gerados. Seguindo (KRSTAJIC et al.,2014), foi utilizado um procedimento de validação cruzada V- fold aninhado com repetição para avaliar o erro de previsão esperado (RMSE) dos modelos testados. A validação cruzada foi feita para cada conjunto de dados individualmente, com 5 repetições de uma validação cruzada com 10-folds resultando em uma amostra com 50 valores RMSE para cada método testado.

Em geral as amostras obtidas através do procedimento de avaliação de modelos definido na seção 5.2.3 não atendem às premissas para a execução de um teste paramétrico ANOVA, tais como: variâncias iguais em cada amostra (homoscedasticidade), onde as amostras devem possuir variâncias praticamente iguais; e normalidade dos resíduos (erros) em cada amostra, ou seja, a distância entre cada valor observado e a média da amostra ao qual pertence deve seguir uma distribuição Normal com média zero. Isto pode ser visualizado na Figura 8através dos seus boxplots. Dessa forma, para avaliar a significância estatística das medidas RMSE amostradas a partir do protocolo de avaliação de validação cruzada procedemos com testes não paramétricos. Seguindo (ALPAYDIN,2014), fizemos o teste de Kruskall-Wallis (versão não paramétrica do teste ANOVA) para comparar as amostras RMSE de cada método testado e uma comparação par a par post hoc usando o teste de Tukey e Kramer (Nemenyi) com um nível de confiança de 0, 95.

A Tabela 7 mostra a média, desvio padrão e valores RMSE mínimo e máximo obtidos a partir do procedimento de avaliação do modelo.

Os métodos com os valores menores valores RMSE médio estão destacados em negrito. A diferença de desempenho entre um determinado método e o WCLR está marcada com uma estrela (*) se for estatisticamente significativa.

Os testes estatísticos foram feitos para cada conjunto de dados testado de forma individual.

A Tabela7apresenta de forma resumida o valor médio, o desvio padrão e os valores mínimos e máximos do erro calculado pelo procedimento de avaliação de modelos descrito na seção 5.2.3. Os métodos com os menores valores de erro médio estão destacados em negrito e os métodos que apresentaram alguma variação estatística em relação ao método de menor erro médio (em negrito) estão marcados com uma estrela (*).

A Figura 8apresenta os boxplots da amostra de erros obtida com o procedimento de avaliação de modelo descrito na seção 5.2.3.

O método WCLR obteve um melhor resultado (menor valor de RMSE médio) em 5 (Autompg, Concrete, Power Plant, Wine Quality (white) e Yacht Hydrodynamics) dos 12 conjuntos de dados testados. Nos casos onde ele não obteve o menor valor RMSE médio (Abalone, Airfoil, Forest Fires, Glass, Housing, Wine e Wine Quality (red)) apenas

Tabela 7 – Avaliação de modelos para os conjuntos de dados de benchmark

RMSE RMSE

método sig média desv min max método sig média desv min max

Abalone Airfoil

CLR 0,077784 0,001185 0,076224 0,080447 CLR * 0,000241 5,4806e-06 0,000234 0,000250

KMEANS 0,074973 0,001569 0,072923 0,077214 KMEANS 0,000203 4,8316e-06 0,000196 0,000209 KPLANE * 0,078126 0,001542 0,074992 0,079823 KPLANE 0,000200 5,2526e-06 0,000193 0,000209 MLR 0,077329 0,002520 0,072814 0,081919 MLR * 0,000242 5,4963e-06 0,000234 0,000249 RANDOM * 0,077702 0,001315 0,075450 0,079778 RANDOM * 0,000241 1,4275e-06 0,000239 0,000243 WCLR * 0,078269 0,002041 0,075933 0,081793 WCLR 0,000226 7,2667e-06 0,000213 0,000237 Autompg Concrete CLR 0,000826 0,000118 0,000564 0,001079 CLR * 0,009191 0,000693 0,007839 0,010826 KMEANS 0,000779 0,000128 0,000520 0,001062 KMEANS * 0,008274 0,001078 0,006215 0,010471 KPLANE 0,000773 0,000129 0,000579 0,001086 KPLANE * 0,008012 0,000978 0,006416 0,010342 MLR * 0,000825 0,000103 0,000551 0,000997 MLR * 0,009137 0,000652 0,008252 0,010557 RANDOM * 0,000824 0,000117 0,000586 0,001043 RANDOM * 0,009129 0,000613 0,007719 0,010538 WCLR 0,000728 0,000117 0,000469 0,000942 WCLR 0,006998 0,000578 0,006187 0,008269

Forest Fires Glass

CLR 0,043044 0,040988 0,013968 0,142240 CLR 0,015786 0,003299 0,010186 0,024429 KMEANS 0,042559 0,041830 0,014873 0,169505 KMEANS 0,014898 0,003636 0,009267 0,025819 KPLANE 0,044707 0,038772 0,013971 0,138594 KPLANE 0,015136 0,004162 0,009178 0,025631 MLR 0,042766 0,041144 0,012876 0,144922 MLR 0,015035 0,003604 0,008606 0,022245 RANDOM 0,043841 0,040147 0,014927 0,143090 RANDOM 0,014904 0,003697 0,007715 0,024037 WCLR 0,043094 0,040846 0,0138138 0,167957 WCLR 0,015702 0,003684 0,009632 0,023956

Housing Power Plant

CLR * 0,006885 0,001278 0,005040 0,009451 CLR * 0,004421 4,5527e-05 0,004355 0,004486 KMEANS 0,005361 0,000766 0,004132 0,007506 KMEANS 0,004158 5,7426e-05 0,004065 0,004237

KPLANE 0,005332 0,000537 0,004344 0,006289 KPLANE 0,004156 5,4841e-05 0,004057 0,004257 MLR * 0,006960 0,001170 0,004908 0,009457 MLR * 0,004420 4,4470e-05 0,004356 0,004482 RANDOM * 0,006961 0,001364 0,004867 0,010027 RANDOM * 0,004419 5,2460e-05 0,004333 0,004508 WCLR 0,005614 0,000545 0,004787 0,006604 WCLR 0,004088 5,7982e-05 0,004000 0,004173

Wine Wine Quality (red)

CLR 0,000332 5,0865e-05 0,000237 0,000452 CLR 0,002257 8,9800e-05 0,002103 0,002398 KMEANS 0,000344 6,0959e-05 0,000184 0,000483 KMEANS 0,002240 6,3089e-05 0,002184 0,002364 KPLANE 0,000350 4,9867e-05 0,000276 0,000489 KPLANE 0,002225 8,4624e-05 0,002121 0,002379

MLR 0,000331 6,5662e-05 0,000210 0,000478 MLR 0,002258 0,000114 0,002134 0,002462 RANDOM 0,000332 5,7216e-05 0,000206 0,000464 RANDOM 0,002261 6,7919e-05 0,002143 0,002364 WCLR 0,000329 5,8137e-05 0,000238 0,000453 WCLR 0,002257 0,000111 0,002072 0,002438

Wine Quality (white) Yacht Hydrodynamics

CLR * 0,001716 1,1928e-05 0,001701 0,001733 CLR * 0,133331 0,017468 0,100482 0,167015 KMEANS 0,001676 2,7424e-05 0,001635 0,001725 KMEANS * 0,133150 0,025241 0,099336 0,203164 KPLANE 0,001671 1,2145e-05 0,001651 0,001688 KPLANE * 0,133084 0,022727 0,098592 0,207097 MLR * 0,001714 2,1620e-05 0,001675 0,001745 MLR * 0,133104 0,023105 0,106879 0,189538 RANDOM * 0,001714 2,1377e-05 0,001686 0,001747 RANDOM * 0,133345 0,020719 0,093047 0,177263

CLR KMEANS KPLANE MLR RANDOM WCLR−PG 0.074 0.076 0.078 0.080 0.082 method rmse (a) Abalone

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.00020 0.00021 0.00022 0.00023 0.00024 0.00025 method rmse (b) Airfoil

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.0005 0.0006 0.0007 0.0008 0.0009 0.0010 0.0011 method rmse (c) Autompg

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.007 0.008 0.009 0.010 0.011 method rmse (d) Concrete

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.05

0.10

0.15

method

rmse

(e) Forest Fires

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.010 0.015 0.020 0.025 method rmse (f) Glass

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.004 0.005 0.006 0.007 0.008 0.009 0.010 method rmse (g) Housing

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.0040 0.0041 0.0042 0.0043 0.0044 0.0045 method rmse (h) Power Plant

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.00020 0.00025 0.00030 0.00035 0.00040 0.00045 0.00050 method rmse (i) Wine

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.0021 0.0022 0.0023 0.0024 method rmse (j) Wine Quality (Red)

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.00164 0.00166 0.00168 0.00170 0.00172 0.00174 method rmse (k) Wine Quality (White)

CLR KMEANS KPLANE MLR RANDOM WCLR−PG

0.05 0.10 0.15 0.20 method rmse (l) Yacht Hydrodyna- mics

para o conjunto de dados Abalone houve uma diferença estatística significativa entre o desempenho do método WCLR e do método KMEANS. Além disso, em dois conjuntos de dados (Concrete e Yacht Hydrodynamics) o método WCLR obteve um menor valor de RMSE médio e uma diferença significativa em relação a todos os outros métodos utilizados nesta análise experimental.

Em suma, os resultados obtidos a partir dos conjuntos de benchmark demostraram que a inclusão de um passo adicional de ponderação das variáveis explicativas no método WCLR não decrementa a sua performance de previsão em relação aos método testados, podendo resultar em clusters mais significativos baseados nas variáveis explicativas e também modelos de regressão linear de melhor qualidade para uma tarefa de previsão.

No documento Combinando regressão linear clusterwise e k-means com ponderação automática das variáveis explicativas (páginas 75-84)