Capítulo 4. Data Mining aplicado ao “Guide Terrassements
B. Kernel com Base Radial: As funções de kernel com base radial (FBRs) tomam a
4.3 Base de Dados GTR
4.5.2 Modelos de Regressão
Para a tarefa de regressão destacam-se, em termos da fiabilidade e da validade física, os modelos de DM ajustados para a obtenção do parâmetro Q/S e do produto e*V, particularmente no caso das camadas em aterro:
Q/S ~ Material + Compactador + Energia (4.22)
e
e*V ~ Material + Compactador + Energia + Q/S. (4.23) Para o caso das camadas de leito do pavimento, os modelos ajustados para previsão do parâmetro Q/S e do produto e*V mostram um menor desempenho relativamente aos obtidos para as camadas em aterro. Isto dever-se-á sobretudo, ao limitado número de registos existentes na base de dados GTR, no que se refere ao leito do pavimento. Os resultados obtidos para estes modelos são mostrados no Anexo II, em virtude de seguirem uma metodologia em tudo idêntica à aqui apresentada.
Apresentam-se no Quadro 4.3, para as técnicas RT, MR, NN, SVM e KNN, as medidas da qualidade do ajuste para o modelo (4.22), assim como o tempo computacional requerido no processo de avaliação, T. Da comparação das métricas conclui-se que a técnica não linear baseada em redes neuronais (NN) supera claramente as restantes, seguindo-se a técnica também não linear baseada em máquinas de vectores de suporte (SVM), surgindo apenas em terceira posição a técnica linear de regressão múltipla (MR). A representação das curvas REC (Figura 4.15a) reforça esta última constatação. Observam-se ainda na Figura 4.15b-f os gráficos de dispersão de pontos (Q/Sestimado versus Q/Stabelado), os quais confirmam definitivamente a supremacia da técnica baseado em redes neuronais. As técnicas de k-vizinhos próximos (KNN) e árvore de regressão (RT) mostram um desempenho inferior, como se constata facilmente pela elevada dispersão de pontos nos gráficos da Figura 4.15b-c. Note-se ainda, da observação dos gráficos de dispersão, que para qualquer uma das técnicas de DM avaliadas obtêm-se um melhor ajuste para os valores mais baixos de Q/S, o que se pensa dever à sua maior ocorrência nos registos da base de dados.
Quadro 4.3 Medidas de desempenho de distintas técnicas de DM no ajuste de (4.22)
RT MR NN SVM KNN MAD 0.021085 ± 0.000269 0.015450 ± 0.000055 0.003915 ± 0.000107 0.009016 ± 0.000115 0.015728 ± 0.000534 RAE (%) 53.35 ± 0.68 39.10 ± 0.14 9.91 ± 0.27 22.81 ± 0.29 39.80 ± 1.35 RMSE 0.028400 ± 0.000397 0.021182 ± 0.000056 0.006812 ± 0.000291 0.013689 ± 0.000348 0.026185 ± 0.000675 RRMSE (%) 53.75 ± 0.75 40.09 ± 0.11 12.89 ± 0.55 25.91 ± 0.66 49.56 ± 1.28 COR 0.844130 ± 0.004643 0.916243 ± 0.000466 0.991732 ± 0.000693 0.968329 ± 0.001551 0.869807 ± 0.007679 T (s) 6.00 26.00 10909.77 7000.12 287.00
KNN
(a) (b)RT
MR
(c) (d)NN
SVM
(e) (f)Figura 4.15 Comparação gráfica de desempenhos entre diferentes técnicas de DM no ajuste de (4.22): (a) Curvas REC; (b-f) Pontos de dispersão (Q/Sestimado versus Q/Stabelado)
Feita a análise de sensibilidade relativamente à previsão de Q/S, cujo resultado se ilustra no Quadro 4.4, pode concluir-se que, para qualquer uma das técnicas de DM a variável Energia tem, como seria de esperar, uma importância predominante na previsão de Q/S. Para o método linear de regressão múltipla a maior importância do nível de Energia é apenas evidente, surgindo os atributos Compactador e Material, por esta ordem, com considerável relevância. Para o caso das técnicas não lineares (NN e SVM) a distribuição de importâncias é mais contrastante, possuindo a Energia um peso da ordem dos 60 %, pouco menos de metade deste valor a variável Material, e passando a importância do atributo Compactador apenas acima dos 10 %. A qualidade dos ajustamentos mostra a importância da consideração da não linearidade para Q/S.
Quadro 4.4 Importância das variáveis de entrada no ajuste de (4.22) com distintas técnicas de DM
Material Compactador Energia 6.98% 6.30% 86.72% 0.000523 0.000472 0.006500 22.89% 33.80% 43.31% 0.001160 0.001713 0.002194 27.39% 11.37% 61.23% 0.002366 0.000982 0.005288 26.65% 11.67% 61.67% 0.001967 0.000861 0.004550 28.51% 8.92% 62.58% 0.002418 0.000757 0.005308 NN SVM KNN Importância da variável Variância na saída RT MR
O Quadro 4.5 apresenta, para as técnicas RT, MR, NN, SVM e KNN, as métricas de avaliação do ajuste para o modelo (4.23), para além do tempo computacional requerido pelo esquema de avaliação. Conclui-se, desta feita, que a técnica não linear baseada em máquinas de vectores de suporte (SVM) supera qualquer das testadas, inclusive a baseada em redes neuronais (NN), sendo esta última agora aproximada, muito de perto, pela técnica linear de regressão múltipla (MR). A representação das curvas REC (Figura 4.16a) reforça a avaliação efectuada. Na Figura 4.16b-f representam-se os gráficos de dispersão de pontos (e*Vestimado versus e*Vtabelado), os quais retiram dúvidas sobre a preponderância da técnica SVM. Observa-se igualmente que a técnica MR apresenta menor dispersão do que NN. As técnicas RT e KNN apresentam, também neste caso, um fraco desempenho.
Quadro 4.5 Medidas de desempenho de distintas técnicas de DM no ajuste de (4.23)
RT MR NN SVM KNN MAD 0.235063 ± 0.002200 0.104239 ± 0.000499 0.096280 ± 0.003166 0.085931 ± 0.001039 0.249343 ± 0.004374 RAE (%) 44.63 ± 0.42 19.79 ± 0.09 18.28 ± 0.60 16.32 ± 0.20 47.34 ± 0.83 RMSE 0.326229 ± 0.003410 0.186767 ± 0.001194 0.207825 ± 0.007840 0.177394 ± 0.001879 0.380232 ± 0.005450 RRMSE (%) 49.33 ± 0.52 28.24 ± 0.18 31.43 ± 1.19 26.83 ± 0.28 57.50 ± 0.82 COR 0.870552 ± 0.002836 0.959304 ± 0.000529 0.950700 ± 0.003904 0.964058 ± 0.000756 0.846576 ± 0.008420 T (s) 6.71 27.05 11336.03 7336.00 307.19
Mostra-se no Quadro 4.6 o resultado da análise de sensibilidade correspondente ao ajuste de e*V, do qual conclui-se que, o parâmetro Q/S tem uma importância preponderante na previsão de e*V qualquer que seja a técnica de DM utilizada, verificando-se valores para esta importância entre 56 % (SVM) e 76 % (KNN). As variáveis Material e Energia assumem em geral, baixas relevâncias, tomando a variável Compactador a restante importância. Se a influência da Energia está certamente associada ao parâmetro Q/S, a dependência da variável Material estará associada a um determinado tipo de Compactador que é conveniente para a sua compactação.
KNN
(a) (b)RT
MR
(c) (d)NN
SVM
(e) (f)Figura 4.16 Comparação gráfica de desempenhos entre diferentes técnicas de DM no ajuste de (4.23): (a) Curvas REC; (b-f) Pontos de dispersão (e*Vestimado versus
Quadro 4.6 Importância das variáveis de entrada no ajuste de (4.23) com distintas técnicas de DM
Material Compactador Energia Q/S 0.00% 28.71% 0.00% 71.29% 0.000000 0.263973 0.000000 0.655372 2.59% 27.31% 0.01% 70.09% 0.031381 0.331380 0.000171 0.850668 7.51% 30.84% 1.30% 60.35% 0.095371 0.391519 0.016512 0.766217 5.01% 38.64% 0.25% 56.10% 0.043439 0.334907 0.002203 0.486221 3.21% 15.43% 5.54% 75.82% 0.019010 0.091432 0.032818 0.449256 Importância da variável Variância na saída RT MR NN SVM KNN
Para esclarecer a dependência do valor de e*V determinou-se, como mostrado no Quadro 4.7, a importância das variáveis de entrada segundo os vários métodos para cada classe de Compactador. No caso da regressão múltipla, observa-se que a variável com peso predominante é Q/S, atingindo em alguns casos importâncias superiores a 95 % (compactadores vibradores V e VP mais pesados). Ainda no caso da regressão múltipla, para os compactadores estáticos de pés-de-carneiro (SP) o parâmetro Q/S possui já um peso desprezável assumindo o relevo a Energia, seguida de perto pelo Material. O último dever-se-á ao facto dos registos de dados envolvendo estes compactadores serem relativamente escassos, dadas as incompatibilidades com certos materiais. Para os compactadores SP, a gama de Q/S não será desta forma relevante para a técnica de regressão múltipla, e por outro lado o parâmetro Q/S estará relacionado com a Energia.
Quadro 4.7 Importância das variáveis de entrada em (4.23) segundo os vários métodos para cada classe de Compactador
Material Compactador Energia Q/S Material Compactador Energia Q/S Material Compactador Energia Q/S
RT 0.00% 0.00% 0.00% 100.00% 0.00% 0.00% 0.00% 100.00% 0.00% 0.00% 0.00% 100.00%
MR 22.92% 0.00% 2.68% 74.40% 11.88% 0.00% 3.57% 84.56% 39.03% 0.00% 14.41% 46.56%
NN 17.11% 10.86% 0.93% 71.10% 10.67% 4.53% 19.54% 65.25% 14.57% 5.28% 0.78% 79.37%
SVM 10.56% 0.00% 5.75% 83.69% 13.34% 0.09% 30.30% 56.27% 8.53% 0.00% 13.73% 77.74%
KNN 43.19% 0.00% 16.60% 40.21% 32.06% 0.00% 44.91% 23.02% 47.39% 0.00% 21.59% 31.02%
Material Compactador Energia Q/S Material Compactador Energia Q/S Material Compactador Energia Q/S
RT 25.00% 25.00% 25.00% 25.00% 0.00% 0.00% 0.00% 100.00% 0.00% 0.00% 0.00% 100.00%
MR 6.42% 0.00% 32.76% 60.82% 1.43% 0.00% 3.11% 95.47% 5.18% 0.00% 0.41% 94.41%
NN 5.72% 3.80% 2.11% 88.36% 3.60% 2.48% 0.55% 93.37% 10.23% 3.17% 0.72% 85.88%
SVM 12.17% 0.39% 28.29% 59.14% 10.00% 0.94% 1.78% 87.28% 5.71% 0.00% 0.04% 94.25%
KNN 3.88% 0.00% 27.19% 68.93% 19.43% 0.00% 11.19% 69.38% 29.11% 0.00% 18.26% 52.62%
Material Compactador Energia Q/S Material Compactador Energia Q/S Material Compactador Energia Q/S
RT 4.58% 0.00% 0.00% 95.42% 6.05% 0.00% 0.00% 93.95% 25.00% 25.00% 25.00% 25.00%
MR 3.70% 0.00% 0.53% 95.77% 3.81% 0.00% 0.29% 95.90% 100.00% 0.00% 0.00% 0.00%
NN 14.75% 22.74% 8.75% 53.77% 9.30% 4.73% 0.83% 85.13% 32.10% 18.20% 1.07% 48.63%
SVM 4.58% 0.03% 0.00% 95.39% 5.41% 0.04% 0.17% 94.38% 48.49% 1.10% 5.52% 44.88%
KNN 26.67% 0.00% 19.82% 53.51% 18.17% 0.00% 20.18% 61.64% 21.12% 0.00% 0.00% 78.88%
Material Compactador Energia Q/S Material Compactador Energia Q/S Material Compactador Energia Q/S
RT 25.00% 25.00% 25.00% 25.00% 0.00% 0.00% 0.00% 100.00% 0.00% 0.00% 0.00% 100.00%
MR 0.24% 0.00% 12.58% 87.18% 0.69% 0.00% 2.88% 96.43% 1.02% 0.00% 1.13% 97.84%
NN 7.27% 6.05% 13.73% 72.95% 6.33% 5.44% 3.47% 84.76% 10.59% 12.78% 5.34% 71.30%
SVM 6.57% 0.96% 55.66% 36.82% 13.62% 0.02% 26.81% 59.55% 8.31% 0.02% 17.56% 74.11%
KNN 9.00% 0.00% 12.14% 78.85% 22.31% 0.00% 15.32% 62.37% 2.96% 0.00% 10.28% 86.77%
Material Compactador Energia Q/S Material Compactador Energia Q/S Material Compactador Energia Q/S
RT 0.00% 0.00% 0.00% 100.00% 25.00% 25.00% 25.00% 25.00% 0.00% 0.00% 0.00% 100.00%
MR 1.94% 0.00% 0.96% 97.10% 36.36% 0.00% 63.64% 0.00% 42.62% 0.00% 56.30% 1.08%
NN 3.60% 4.84% 20.75% 70.81% 32.17% 19.78% 36.12% 11.92% 5.87% 13.61% 7.83% 72.69%
SVM 7.31% 0.03% 19.27% 73.39% 33.86% 1.92% 42.04% 22.18% 8.79% 0.00% 43.27% 47.94%
KNN 4.14% 0.00% 8.30% 87.55% 12.65% 0.00% 27.86% 59.49% 25.61% 0.00% 28.64% 45.76%
Importância da variável para o caso do Compactador
P1 P2 P3
V1 V2 V3
V4 V5 VP1
VP2 VP3 VP4
Para os casos da técnica não linear baseada em redes neuronais e do método linear MR as importâncias são, em geral, idênticas, dando relevância ao parâmetro Q/S. Anote-se que as redes neuronais apresentam uma certa incongruência no peso atribuído à variável compactador, a qual deveria ser constante e portanto de percentagem nula. Para esta incoerência certamente contribui a fraca amostragem da estratégia dos sub- conjuntos.
O método de máquinas de vectores de suporte, igualmente não linear como NN, atesta mais uma vez a preponderância do parâmetro Q/S na determinação do produto e*V. Relativamente a NN, esta técnica atribui maior importância à Energia e menor influência ao tipo de Compactador.
De sucinta maneira, diga-se que o parâmetro mais relacionável com e*V é Q/S. A Energia e Q/S acabam por ter um carácter complementar, o que se observa claramente através dos resultados obtidos para KNN. Em certos casos a variável Material revela-se de pouca importância, o que poderá dever-se ao facto da mesma estar associada a um determinado tipo de compactador que é conveniente para a sua compactação.
Para o caso das árvores de regressão, é inerente à própria técnica fazer uma selecção das variáveis mais preponderantes. O que acontece no nosso caso, para a maior parte dos compactadores, é que a importância é dada na sua totalidade à variável presente na raiz. Noutros casos, em que o modelo não consegue, por escassez de registos, determinar a importância relativa de cada variável, é feita uma distribuição uniforme desta importância. Será preferível, para esta técnica, observar a importância das variáveis na estrutura da própria árvore.
4.6 Conclusões
De um modo geral, a técnica de Data Mining que se ajusta melhor ao problema em estudo é a baseada em redes neuronais (NN), particularmente quando o objectivo é a reprodução dos dados, e o tipo de validação all. As NN exigem no entanto um maior esforço computacional, sobretudo na fase de avaliação.
A técnica baseada em árvores de regressão (RT), método que automaticamente selecciona as variáveis mais importantes, revela-se algo limitada relativamente à qualidade do ajuste. O método não linear baseado em máquinas de vectores de suporte (SVM) mostra-se com bastante potencial sob o ponto de vista predictivo, mesmo superando a técnica baseada em redes neuronais no caso do modelo para previsão do produto e*V. Contrariamente, o método de k-vizinhos próximos (KNN) revela-se menos capacitado do que os métodos não lineares SVM e NN e do que a regressão múltipla.
Admitiu-se numa primeira instância que a variável Q/S dependeria, para o caso das camadas em aterro, essencialmente de três atributos: Material, Compactador e Energia. A análise de sensibilidade mostrou, como seria de esperar, para este cenário, uma maior dependência de Q/S relativamente à variável Energia, revelando os outros atributos menores importâncias.
A variável resultante do produto do valor da espessura da camada pela velocidade de operação do compactador sobre esta (e*V) mostrou-se mais adequada para o processo de regressão do que a variável simples espessura (e), quando assumindo o papel de variável dependente. O ajuste de e*V, tomando como variáveis de entrada: Material, Compactador, Energia e Q/S, reforça o seu elevado relacionamento com Q/S.
Para o caso das camadas de leito do pavimento, a escassez de dados provocou uma menor qualidade dos modelos ajustados. Neste caso, o ajuste de Q/S depende em
maior medida da variável Material, enquanto que e*V depende fundamentalmente do atributo Compactador e do parâmetro Q/S.
Em suma, os elevados desempenhos obtidos com as técnicas baseadas em redes neuronais e máquinas de vectores de suporte demonstram a não linearidade do problema. Os modelos obtidos com estas técnicas revelam potencial predictivo, e sobretudo possibilitam uma reprodução fiel dos dados contidos nas Tabelas de Compactação, da qual se tirará partido no desenvolvimento do protótipo apresentado no Capítulo 6.
Capítulo 5. Optimização da Compactação
5.1 Fundamento
A tarefa de compactação tem um papel determinante na resposta do sistema estrutura-fundação das obras em geral, e dos pavimentos e vias férreas em particular. A procura de uma qualidade para a compactação será essencial para um bom desempenho da estrutura no que respeita, fundamentalmente, ao seu comportamento em serviço.
Visando a obtenção de uma qualidade satisfatória para as infraestruturas das obras lineares, têm vindo a ser adoptadas as recomendações francesas apresentadas no Capítulo 2, as quais prescrevem determinadas condições para a tarefa de compactação.
As condições referidas no parágrafo anterior são no entanto, estabelecidas na perspectiva individual de uma dupla material-compactador. A verdade é que a generalidade das obras envolve volumes de aterro requerendo a actuação de um conjunto determinado e optimizado de compactadores. Para o efeito é necessário garantir a mobilização de um suficiente número de compactadores, um rendimento de compactação adequado para executar o trabalho num determinado prazo. Além disso, é igualmente necessário garantir a compatibilidade desses equipamentos com os materiais. Desta feita, constata-se que o problema de optimização da compactação obrigará na realidade à consideração da dupla “conjunto de materiais-parque de compactadores”. Do ponto de vista prático, o objectivo passará por garantir um rendimento do parque de compactadores, cumulativo dos rendimentos individuais dos vários compactadores estendidos aos vários materiais, compatível com um determinado tempo de execução.
O problema tal como exposto, poderá ser resolvido através de um cálculo mais ou menos complexo, apoiado com as Tabelas de Compactação e utilizando as regras de cálculo iterativo da filosofia GTR, na procura de uma solução conveniente. Além disso, a dimensão do parque de compactadores, a variedade de materiais e sequência de trabalho sobre eles, tornarão este problema de natureza combinatória de uma cardinalidade deveras elevada.
Numa primeira abordagem, depreende-se como objectivo para o processo de optimização, a determinação do conjunto de compactadores a colocar em obra, que possibilite um rendimento máximo em correspondência com um tempo de trabalho mínimo. Porém, do ponto de vista económico interessará não simplesmente a minimização do tempo de trabalho mas a minimização do custo de trabalho, uma vez que um tempo de trabalho mínimo não corresponderá necessariamente ao custo mínimo. Trata-se portanto de um problema de optimização bi-objectivo, no qual existem dois objectivos conflituosos, que fazem com que exista uma solução compromisso. Se por um lado existirá interesse em terminar uma obra o mais rapidamente possível, poderá igualmente ser conveniente encontrar uma alternativa económica, podendo a solução compromisso definir-se como aquela que minimiza o produto do Tempo (em horas, por exemplo) pelo Custo (€/h), respeitando o prazo de execução estabelecido. Na Figura 5.1 apresenta-se uma visão simplista do critério de minimização de Tempo x Custo, onde se admite que os objectivos Tempo e Custo são funções contínuas. Na realidade, constata-se que o espaço de procura consiste num universo de pontos discretos, formando uma região mais ou menos estreita, em função do gradiente de custos associados aos compactadores.
Rendimento Tempo x Custo Prazo T*C Custo Tempo Tempo f T*C R 1 mín OPT R 1 OPT
Figura 5.1 Critério de minimização de Tempo x Custo (€)
Na Figura 5.1 o Rendimento e qualquer das funções representadas no eixo das ordenadas (Tempo, Custo e Tempo x Custo) são dependentes do conjunto de compactadores seleccionado, o qual se obtém do espaço de soluções (as combinações de máquinas).
Se a dimensão do parque a colocar em obra não for demasiado grande (até 10 compactadores, por constatação prática), poderá ser estabelecido um método de procura baseado numa pesquisa exaustiva a todas as soluções possíveis, obtendo-se garantidamente a solução óptima. Por outro lado, o dimensionamento de grandes estaleiros de compactação, implicando a busca de uma solução entre milhões tornará inviável um método de pesquisa “cega”, pois o esforço computacional e o tempo de resposta seriam impraticáveis.
Neste contexto, encontrou-se alternativa para a procura de uma solução relativa ao problema combinatório de elevada cardinalidade, na Computação Evolutiva, particularmente através dos Algoritmos Genéticos.
Os Algoritmos Genéticos (AGs) são algoritmos de optimização global, baseados nos mecanismos de selecção natural e da genética. Estes empregam uma estratégia de busca paralela e estruturada, embora aleatória, direccionada à busca de pontos de “alta aptidão”, ou seja, pontos nos quais a função a ser minimizada ou maximizada tem valores relativamente baixos ou altos, respectivamente. Apesar de aleatórios, os AGs não promovem buscas aleatórias não-direccionadas, pois exploram informações históricas para encontrar novos pontos de busca onde são esperados melhores desempenhos [Rezende 2003].
O dito processo de pesquisa é implementado iterativamente, entre gerações, nas quais se aplicam os princípios de selecção e reprodução a uma população de candidatos. Por meio da selecção, determinam-se os indivíduos que conseguirão reproduzir-se, gerando um número determinado de descendentes para a próxima geração, com uma probabilidade determinada pelo seu índice de aptidão. Para que seja possível gerar populações sucessivas que (espera-se) melhorem a sua aptidão com o tempo, são aplicados operadores de cruzamento e mutação, pelo que cada geração possuirá, de alguma forma, características dos seus progenitores e também propriedades inovadoras. Em suma, o princípio básico do funcionamento dos AGs é o de que um determinado critério de selecção vai fazer com que, depois de muitas gerações, o conjunto inicial de indivíduos gere indivíduos mais aptos.
Se o critério de minimização de Tempo x Custo parece totalmente justificável na perspectiva do administrador, outro problema a contemplar será a determinação de um
conjunto de compactadores que permitirá ao construtor executar determinada obra de acordo com um Prazo de execução estabelecido. Este último caso terá particular interesse numa perspectiva de gestão temporal dos recursos, pois o empreiteiro tem geralmente em mão um conjunto de obras, as quais terá que gerir ao nível dos recursos. Sumariamente, as duas abordagens de optimização passarão por:
- compactar minimizando Tempo x Custo;
- compactar em encontro a um Prazo estabelecido.
Para cada uma destas duas abordagens, existirá depois um conjunto de cenários a considerar para o trabalho de compactação, dos quais se referem os principais, constituindo quaisquer outros derivações destes:
- optimização da compactação de infraestrutura viária em camadas com constituição e requisitos distintos (Figura 5.2a);
- optimização de obra linear realizada por frentes de trabalho alternadas (Figura 5.2b);
- optimização de obra de aterro executada por frentes de trabalho simultâneas (Figura 5.2c).
Material 1; Espessura 1; Energia 1 Material 2; Espessura 2; Energia 2 Material n; Espessura n, Energia n
...
... C1 C2 Cn (a) Frente 1 Frente 2 ... Frente n Frente 1 Tempo Diagrama Temporal Frente 1 Frente n Frente 2 ... Tempo Frente 1 Frente 2 ... Frente n Frente 1 Tempo Diagrama Temporal Frente n Frente 2 ... (b) (c)Figura 5.2 Cenários de optimização:
(a) Por camadas; (b) Por frentes de trabalho alternadas; (c) Por frentes de trabalho simultâneas