Modelos de Regressão - Base de Dados GTR - Kernel com Base Radial: As funções de kernel com bas

Capítulo 4. Data Mining aplicado ao “Guide Terrassements

B. Kernel com Base Radial: As funções de kernel com base radial (FBRs) tomam a

4.3 Base de Dados GTR

4.5.2 Modelos de Regressão

Para a tarefa de regressão destacam-se, em termos da fiabilidade e da validade física, os modelos de DM ajustados para a obtenção do parâmetro Q/S e do produto e*V, particularmente no caso das camadas em aterro:

Q/S ~ Material + Compactador + Energia (4.22)

e*V ~ Material + Compactador + Energia + Q/S. (4.23) Para o caso das camadas de leito do pavimento, os modelos ajustados para previsão do parâmetro Q/S e do produto e*V mostram um menor desempenho relativamente aos obtidos para as camadas em aterro. Isto dever-se-á sobretudo, ao limitado número de registos existentes na base de dados GTR, no que se refere ao leito do pavimento. Os resultados obtidos para estes modelos são mostrados no Anexo II, em virtude de seguirem uma metodologia em tudo idêntica à aqui apresentada.

Apresentam-se no Quadro 4.3, para as técnicas RT, MR, NN, SVM e KNN, as medidas da qualidade do ajuste para o modelo (4.22), assim como o tempo computacional requerido no processo de avaliação, T. Da comparação das métricas conclui-se que a técnica não linear baseada em redes neuronais (NN) supera claramente as restantes, seguindo-se a técnica também não linear baseada em máquinas de vectores de suporte (SVM), surgindo apenas em terceira posição a técnica linear de regressão múltipla (MR). A representação das curvas REC (Figura 4.15a) reforça esta última constatação. Observam-se ainda na Figura 4.15b-f os gráficos de dispersão de pontos (Q/Sestimado versus Q/Stabelado), os quais confirmam definitivamente a supremacia da técnica baseado em redes neuronais. As técnicas de k-vizinhos próximos (KNN) e árvore de regressão (RT) mostram um desempenho inferior, como se constata facilmente pela elevada dispersão de pontos nos gráficos da Figura 4.15b-c. Note-se ainda, da observação dos gráficos de dispersão, que para qualquer uma das técnicas de DM avaliadas obtêm-se um melhor ajuste para os valores mais baixos de Q/S, o que se pensa dever à sua maior ocorrência nos registos da base de dados.

Quadro 4.3 Medidas de desempenho de distintas técnicas de DM no ajuste de (4.22)

RT MR NN SVM KNN MAD 0.021085 ± 0.000269 0.015450 ± 0.000055 0.003915 ± 0.000107 0.009016 ± 0.000115 0.015728 ± 0.000534 RAE (%) 53.35 ± 0.68 39.10 ± 0.14 9.91 ± 0.27 22.81 ± 0.29 39.80 ± 1.35 RMSE 0.028400 ± 0.000397 0.021182 ± 0.000056 0.006812 ± 0.000291 0.013689 ± 0.000348 0.026185 ± 0.000675 RRMSE (%) 53.75 ± 0.75 40.09 ± 0.11 12.89 ± 0.55 25.91 ± 0.66 49.56 ± 1.28 COR 0.844130 ± 0.004643 0.916243 ± 0.000466 0.991732 ± 0.000693 0.968329 ± 0.001551 0.869807 ± 0.007679 T (s) 6.00 26.00 10909.77 7000.12 287.00

KNN

(a) (b)

RT

MR

NN

SVM

(e) (f)

Figura 4.15 Comparação gráfica de desempenhos entre diferentes técnicas de DM no ajuste de (4.22): (a) Curvas REC; (b-f) Pontos de dispersão (Q/Sestimado versus Q/Stabelado)

Feita a análise de sensibilidade relativamente à previsão de Q/S, cujo resultado se ilustra no Quadro 4.4, pode concluir-se que, para qualquer uma das técnicas de DM a variável Energia tem, como seria de esperar, uma importância predominante na previsão de Q/S. Para o método linear de regressão múltipla a maior importância do nível de Energia é apenas evidente, surgindo os atributos Compactador e Material, por esta ordem, com considerável relevância. Para o caso das técnicas não lineares (NN e SVM) a distribuição de importâncias é mais contrastante, possuindo a Energia um peso da ordem dos 60 %, pouco menos de metade deste valor a variável Material, e passando a importância do atributo Compactador apenas acima dos 10 %. A qualidade dos ajustamentos mostra a importância da consideração da não linearidade para Q/S.

Quadro 4.4 Importância das variáveis de entrada no ajuste de (4.22) com distintas técnicas de DM

Material Compactador Energia 6.98% 6.30% 86.72% 0.000523 0.000472 0.006500 22.89% 33.80% 43.31% 0.001160 0.001713 0.002194 27.39% 11.37% 61.23% 0.002366 0.000982 0.005288 26.65% 11.67% 61.67% 0.001967 0.000861 0.004550 28.51% 8.92% 62.58% 0.002418 0.000757 0.005308 NN SVM KNN Importância da variável Variância na saída RT MR

O Quadro 4.5 apresenta, para as técnicas RT, MR, NN, SVM e KNN, as métricas de avaliação do ajuste para o modelo (4.23), para além do tempo computacional requerido pelo esquema de avaliação. Conclui-se, desta feita, que a técnica não linear baseada em máquinas de vectores de suporte (SVM) supera qualquer das testadas, inclusive a baseada em redes neuronais (NN), sendo esta última agora aproximada, muito de perto, pela técnica linear de regressão múltipla (MR). A representação das curvas REC (Figura 4.16a) reforça a avaliação efectuada. Na Figura 4.16b-f representam-se os gráficos de dispersão de pontos (e*Vestimado versus e*Vtabelado), os quais retiram dúvidas sobre a preponderância da técnica SVM. Observa-se igualmente que a técnica MR apresenta menor dispersão do que NN. As técnicas RT e KNN apresentam, também neste caso, um fraco desempenho.

Quadro 4.5 Medidas de desempenho de distintas técnicas de DM no ajuste de (4.23)

RT MR NN SVM KNN MAD 0.235063 ± 0.002200 0.104239 ± 0.000499 0.096280 ± 0.003166 0.085931 ± 0.001039 0.249343 ± 0.004374 RAE (%) 44.63 ± 0.42 19.79 ± 0.09 18.28 ± 0.60 16.32 ± 0.20 47.34 ± 0.83 RMSE 0.326229 ± 0.003410 0.186767 ± 0.001194 0.207825 ± 0.007840 0.177394 ± 0.001879 0.380232 ± 0.005450 RRMSE (%) 49.33 ± 0.52 28.24 ± 0.18 31.43 ± 1.19 26.83 ± 0.28 57.50 ± 0.82 COR 0.870552 ± 0.002836 0.959304 ± 0.000529 0.950700 ± 0.003904 0.964058 ± 0.000756 0.846576 ± 0.008420 T (s) 6.71 27.05 11336.03 7336.00 307.19

Mostra-se no Quadro 4.6 o resultado da análise de sensibilidade correspondente ao ajuste de e*V, do qual conclui-se que, o parâmetro Q/S tem uma importância preponderante na previsão de e*V qualquer que seja a técnica de DM utilizada, verificando-se valores para esta importância entre 56 % (SVM) e 76 % (KNN). As variáveis Material e Energia assumem em geral, baixas relevâncias, tomando a variável Compactador a restante importância. Se a influência da Energia está certamente associada ao parâmetro Q/S, a dependência da variável Material estará associada a um determinado tipo de Compactador que é conveniente para a sua compactação.

KNN

(a) (b)

RT

MR

NN

SVM

(e) (f)

Figura 4.16 Comparação gráfica de desempenhos entre diferentes técnicas de DM no ajuste de (4.23): (a) Curvas REC; (b-f) Pontos de dispersão (e*Vestimado versus

Quadro 4.6 Importância das variáveis de entrada no ajuste de (4.23) com distintas técnicas de DM

Material Compactador Energia Q/S 0.00% 28.71% 0.00% 71.29% 0.000000 0.263973 0.000000 0.655372 2.59% 27.31% 0.01% 70.09% 0.031381 0.331380 0.000171 0.850668 7.51% 30.84% 1.30% 60.35% 0.095371 0.391519 0.016512 0.766217 5.01% 38.64% 0.25% 56.10% 0.043439 0.334907 0.002203 0.486221 3.21% 15.43% 5.54% 75.82% 0.019010 0.091432 0.032818 0.449256 Importância da variável Variância na saída RT MR NN SVM KNN

Para esclarecer a dependência do valor de e*V determinou-se, como mostrado no Quadro 4.7, a importância das variáveis de entrada segundo os vários métodos para cada classe de Compactador. No caso da regressão múltipla, observa-se que a variável com peso predominante é Q/S, atingindo em alguns casos importâncias superiores a 95 % (compactadores vibradores V e VP mais pesados). Ainda no caso da regressão múltipla, para os compactadores estáticos de pés-de-carneiro (SP) o parâmetro Q/S possui já um peso desprezável assumindo o relevo a Energia, seguida de perto pelo Material. O último dever-se-á ao facto dos registos de dados envolvendo estes compactadores serem relativamente escassos, dadas as incompatibilidades com certos materiais. Para os compactadores SP, a gama de Q/S não será desta forma relevante para a técnica de regressão múltipla, e por outro lado o parâmetro Q/S estará relacionado com a Energia.

Quadro 4.7 Importância das variáveis de entrada em (4.23) segundo os vários métodos para cada classe de Compactador