Comparações de tempos - Uma comparação de modelos substitutos de aprendizado de máquina para a

Além de fornecer saídas próximas ao simulador, um modelo substituto precisa fornecer um tempo de resposta muito mais rápido que o simulador. Portanto, nesta seção é apresentada uma comparação de tempo computacional entre os modelos substitutos e o simulador e entre os próprios modelos substitutos.

Como os modelos substitutos são baseados no aprendizado de máquina, eles precisam ser construídos a partir de dados, ou seja, treinados a partir de dados. Na aplicação prática, o treinamento é realizado uma vez e o modelo pode ser usado para sempre, desde que a distribuição de dados permaneça estacionária. Portanto, o tempo gasto para treinar um modelo é de menor importância quando comparado ao tempo para avaliar uma estratégia, ou seja, o tempo de teste. Nesta dissertação, consideramos o tempo de treinamento como o tempo necessário para construir um modelo, incluindo o tempo para ajustar seus parâmetros. Portanto, o tempo de treinamento compreende o loop interno de validação cruzada também é responsável por alguns testes. Isso se justifica pelo fato de que, em aplicação real, um procedimento semelhante teria realizado, uma vez para cada dado o conjunto dos hiperparâmetros que melhor se ajustam ao modelo é diferente.

Para fins de experiência, avaliamos o tempo na mesma configuração usada para avaliar o desempenho, que foram feitas através de um processo de amostragem de validação cruzada aninhada 5 vezes. Portanto, os resultados do tempo de treinamento referem-se a um conjunto de dados com 64% do tamanho do todo, que é 1280 para o UNISIM-I-D e 640 para o UNISIM- II-D. Além disso, o tempo relatado considerou a seleção do modelo.

Inicialmente, foi considerado o tempo necessário para o simulador avaliar uma única estratégia para o UNISIM-I-D ou UNISIM-II-D, conforme mostrado na Tabela 5.1. Para o UNISIM-I-D, cada estratégia possui 23 poços e, para o UNISIM-II-D, uma estratégia tem 20

Capítulo 5. Resultados Experimentais 59

poços. Ambos os conjuntos de dados têm 200 estratégias. O tempo relatado na tabela é o tempo médio seguido pelo desvio padrão calculado sobre cada conjunto de dados.

Tabela 5.1: Tempo médio do simulador para avaliar uma única estratégia Data Tempo de avaliação (min)

UNISIM-I-D 4,22 ±2, 39 UNISIM-II-D 20,60 ±5, 55

A Tabela 5.2 apresenta os modelos de regressão abordados neste artigo, treinados com os dados brutos.

Tabela 5.2: Comparação de tempo para os modelos de regressão ao considerar o conjunto de dados brutos

Algoritmo de Regressão _{Tempo de treino (s) Tempo de teste (s) Tempo de treino (s) Tempo de teste (s)}UNISIM-I-D UNISIM-II-D

GTB 27,928 ±0, 299 0,003 ±0, 000 14,606 ±0, 247 0,002 ±0, 000 KRR 33,407 ±0, 195 0,035 ±0, 012 1,675 ±0, 046 0,013 ±0, 003 MLP 34,452 ±0, 620 0,004 ±0, 001 25,854 ±0, 815 0,003 ±0, 001 SVR 2,087 ±0, 042 0,011 ±0, 001 0,977 ±0, 027 0,010 ±0, 000 ENET 141,408 ±3, 015 0,003 ±0, 000 74,043 ±1, 051 0,003 ±0, 000 KNN 1,747 ±0, 042 0,111 ±0, 001 0,810 ±0, 015 0,115 ±0, 226

O tempo relatado para os modelos substitutos é o tempo necessário para testar um conjunto de estratégias, correspondentes ao tamanho da dobra, que é 400 para UNISIM-I-D e 200 para UNISIM-II-D. Portanto, o tempo para avaliar uma única estratégia é 5× 107_{vezes mais rápido}

que o simulador (considerando o menor tempo relatado dividido pelo tamanho da dobra), para UNISIM-I-D e 1, 2× 108_{para UNISIM-II-D, respectivamente.}

As Tabelas 5.3 e 5.4 mostram o tempo de treinamento e teste para todos os pares de algoritmos em análise e considerando o tamanho de ambos os componentes, 𝑝 = 5 e 𝑝 = 10. O tempo de treinamento é o tempo necessário para a construção de um modelo, considerando o algoritmo de redução de dimensionalidade para reduzir a conjunto de treinamento mais o tempo gasto pelo regressor para treinar um modelo com esses dados. Analogamente, o tempo de teste compreende o algoritmo de redução de dimensionalidade e a estimativa do modelo de regressão para o conjunto deixado de fora, que é 20% do tamanho do conjunto de dados.

Capítulo 5. Resultados Experimentais 60

Tabela 5.3: Comparação de tempo para as combinações de modelos auxiliares e algoritmos de redução de dimensionalidade para o conjunto de dados UNISIM-I

Modelo Redução de Tempo treino (s) Tempo teste (s) Tempo treino (s) Tempo teste (s)

auxiliar dimensionalidade p = 5 p = 5 p = 10 p = 10 GTB PCA 14, 822 ± 0, 204 0, 003 ± 0, 000 23, 476 ± 0, 269 0, 003 ± 0, 000 Isomap 17, 378 ± 0, 268 0, 140 ± 0, 003 26, 281 ± 0, 261 0, 141 ± 0, 003 LLE 15, 252 ± 0, 446 0, 149 ± 0, 002 21, 757 ± 0, 433 0, 150 ± 0, 016 KPCA 15, 017 ± 0, 212 0, 114 ± 0, 001 24, 032 ± 0, 234 0, 118 ± 0, 015 TSVD 14, 898 ± 0, 215 0, 002 ± 0, 000 23, 445 ± 0, 259 0, 003 ± 0, 000 NMF 13, 414 ± 0, 271 0, 005 ± 0, 000 20, 171 ± 0, 291 0, 005 ± 0, 000 KRR PCA 5, 158 ± 0, 080 0, 026 ± 0, 007 5, 216 ± 0, 116 0, 030 ± 0, 015 Isomap 7, 774 ± 0, 087 0, 175 ± 0, 022 8, 054 ± 0, 141 0, 182 ± 0, 024 LLE 6, 730 ± 0, 207 0, 198 ± 0, 031 6, 108 ± 0, 101 0, 190 ± 0, 026 KPCA 5, 361 ± 0, 125 0, 155 ± 0, 029 5, 750 ± 0, 160 0, 164 ± 0, 036 TSVD 5, 153 ± 0, 064 0, 024 ± 0, 005 5, 189 ± 0, 080 0, 026 ± 0, 008 NMF 5, 312 ± 0, 100 0, 026 ± 0, 000 5, 598 ± 0, 096 0, 048 ± 0, 008 MLP PCA 15, 748 ± 0, 412 0, 004 ± 0, 000 17, 545 ± 0, 433 0, 004 ± 0, 001 Isomap 17, 863 ± 0, 754 0, 148 ± 0, 024 19, 738 ± 0, 805 0, 174 ± 0, 031 LLE 14, 306 ± 0, 374 0, 179 ± 0, 037 17, 226 ± 1, 199 0, 173 ± 0, 029 KPCA 15, 958 ± 0, 398 0, 163 ± 0, 035 18, 095 ± 0, 433 0, 159 ± 0, 033 TSVD 15, 753 ± 0, 410 0, 003 ± 0, 001 17, 263 ± 0, 426 0, 004 ± 0, 005 NMF 16, 068 ± 0, 553 0, 006 ± 0, 001 16, 196 ± 0, 301 0, 007 ± 0, 001 SVR PCA 19, 592 ± 1, 996 0, 005 ± 0, 000 7, 264 ± 0, 574 0, 005 ± 0, 000 Isomap 32, 077 ± 3, 970 0, 145 ± 0, 003 21, 259 ± 1, 297 0, 145 ± 0, 003 LLE 22, 264 ± 9, 636 0, 155 ± 0, 002 19, 586 ± 5, 587 0, 155 ± 0, 002 KPCA 19, 842 ± 1, 970 0, 118 ± 0, 001 7, 323 ± 0, 789 0, 118 ± 0, 002 TSVD 25, 127 ± 2, 527 0, 006 ± 0, 000 6, 394 ± 0, 789 0, 005 ± 0, 000 NMF 28, 010 ± 2, 417 0, 009 ± 0, 001 6, 037 ± 0, 386 0, 008 ± 0, 000 ENET PCA 6, 379 ± 0, 620 0, 002 ± 0, 000 12, 777 ± 0, 288 0, 003 ± 0, 001 Isomap 9, 063 ± 0, 639 0, 139 ± 0, 003 15, 638 ± 0, 209 0, 143 ± 0, 004 LLE 8, 365 ± 0, 422 0, 148 ± 0, 002 13, 750 ± 0, 230 0, 151 ± 0, 005 KPCA 6, 182 ± 0, 727 0, 114 ± 0, 001 13, 316 ± 0, 257 0, 116 ± 0, 004 TSVD 6, 202 ± 0, 761 0, 002 ± 0, 000 12, 812 ± 0, 195 0, 002 ± 0, 000 NMF 6, 383 ± 0, 579 0, 004 ± 0, 000 13, 083 ± 0, 210 0, 005 ± 0, 001 KNN PCA 0, 693 ± 0, 028 0, 112 ± 0, 000 0, 744 ± 0, 021 0, 112 ± 0, 001 Isomap 3, 313 ± 0, 040 0, 257 ± 0, 007 3, 635 ± 0, 088 0, 261 ± 0, 008 LLE 2, 355 ± 0, 193 0, 257 ± 0, 002 1, 750 ± 0, 052 0, 257 ± 0, 002 KPCA 0, 917 ± 0, 027 0, 225 ± 0, 003 1, 281 ± 0, 046 0, 226 ± 0, 003 TSVD 0, 686 ± 0, 025 0, 112 ± 0, 000 0, 732 ± 0, 019 0, 112 ± 0, 001 NMF 0, 845 ± 0, 024 0, 115 ± 0, 001 1, 013 ± 0, 039 0, 115 ± 0, 001

Capítulo 5. Resultados Experimentais 61

Tabela 5.4: Comparação de tempo para as combinações de modelos auxiliares e algoritmos de redução de dimensionalidade para o conjunto de dados UNISIM-II

Modelo Redução de Tempo treino (s) Tempo teste (s) Tempo treino (s) Tempo teste (s)

auxiliar dimensionalidade p = 5 p = 5 p = 10 p = 10 GTB PCA 9, 554 ± 0, 118 0, 002 ± 0, 000 13, 376 ± 0, 137 0, 002 ± 0, 000 Isomap 9, 950 ± 0, 097 0, 123 ± 0, 001 13, 965 ± 0, 162 0, 123 ± 0, 002 LLE 9, 850 ± 0, 147 0, 132 ± 0, 001 13, 629 ± 0, 198 0, 132 ± 0, 002 KPCA 9, 720 ± 0, 143 0, 112 ± 0, 001 13, 533 ± 0, 134 0, 112 ± 0, 001 TSVD 9, 515 ± 0, 133 0, 002 ± 0, 001 13, 305 ± 0, 114 0, 002 ± 0, 000 NMF 9, 386 ± 0, 145 0, 003 ± 0, 001 12, 087 ± 0, 167 0, 003 ± 0, 000 KRR PCA 1, 185 ± 0, 059 0, 009 ± 0, 005 1, 158 ± 0, 033 0, 005 ± 0, 003 Isomap 1, 909 ± 0, 051 0, 154 ± 0, 028 2, 026 ± 0, 047 0, 153 ± 0, 030 LLE 1, 742 ± 0, 044 0, 162 ± 0, 0026 1, 628 ± 0, 045 0, 160 ± 0, 029 KPCA 1, 342 ± 0, 069 0, 143 ± 0, 0031 1, 393 ± 0, 048 0, 133 ± 0, 024 TSVD 1, 162 ± 0, 031 0, 008 ± 0, 002 1, 163 ± 0, 036 0, 005 ± 0, 003 NMF 1, 242 ± 0, 036 0, 007 ± 0, 002 1, 345 ± 0, 030 0, 010 ± 0, 001 MLP PCA 9, 042 ± 0, 310 0, 003 ± 0, 001 10, 354 ± 0, 455 0, 003 ± 0, 000 Isomap 9, 706 ± 0, 319 0, 150 ± 0, 027 10, 316 ± 0, 307 0, 157 ± 0, 037 LLE 9, 418 ± 0, 369 0, 147 ± 0, 032 10, 172 ± 0, 272 0, 165 ± 0, 032 KPCA 9, 254 ± 0, 333 0, 143 ± 0, 034 10, 642 ± 0, 484 0, 145 ± 0, 031 TSVD 9, 387 ± 0, 250 0, 002 ± 0, 001 10, 363 ± 0, 242 0, 003 ± 0, 001 NMF 9, 481 ± 0, 241 0, 005 ± 0, 001 10, 819 ± 0, 406 0, 005 ± 0, 001 SVR PCA 24, 287 ± 2, 256 0, 004 ± 0, 000 14, 216 ± 1, 026 0, 005 ± 0, 001 Isomap 11, 851 ± 1, 681 0, 126 ± 0, 002 10, 623 ± 0, 928 0, 126 ± 0, 002 LLE 26, 914 ± 2, 347 0, 135 ± 0, 001 13, 814 ± 1, 130 0, 135 ± 0, 001 KPCA 24, 635 ± 2, 719 0, 114 ± 0, 001 14, 559 ± 0, 924 0, 114 ± 0, 001 TSVD 22, 656 ± 2, 241 0, 004 ± 0, 000 13, 906 ± 0, 926 0, 004 ± 0, 000 NMF 14, 819 ± 2, 736 0, 005 ± 0, 000 10, 817 ± 1, 195 0, 006 ± 0, 000 ENET PCA 3, 381 ± 0, 327 0, 002 ± 0, 000 6, 147 ± 0, 064 0, 002 ± 0, 000 Isomap 3, 802 ± 0, 474 0, 122 ± 0, 001 6, 162 ± 0, 897 0, 123 ± 0, 002 LLE 3, 780 ± 0, 428 0, 132 ± 0, 001 6, 417 ± 0, 437 0, 131 ± 0, 001 KPCA 3, 580 ± 0, 238 0, 111 ± 0, 001 6, 400 ± 0, 103 0, 112 ± 0, 001 TSVD 3, 442 ± 0, 243 0, 002 ± 0, 000 6, 145 ± 0, 077 0, 002 ± 0, 000 NMF 3, 215 ± 0, 371 0, 003 ± 0, 000 6, 388 ± 0, 102 0, 003 ± 0, 000 KNN PCA 0, 676 ± 0, 031 0, 112 ± 0, 001 0, 692 ± 0, 027 0, 112 ± 0, 001 Isomap 1, 357 ± 0, 034 0, 237 ± 0, 004 1, 469 ± 0, 027 0, 238 ± 0, 005 LLE 1, 229 ± 0, 040 0, 241 ± 0, 002 1, 072 ± 0, 031 0, 242 ± 0, 002 KPCA 0, 847 ± 0, 019 0, 221 ± 0, 003 0, 937 ± 0, 034 0, 221 ± 0, 003 TSVD 0, 681 ± 0, 025 0, 112 ± 0, 000 0, 682 ± 0, 024 0, 112 ± 0, 001 NMF 0, 765 ± 0, 029 0, 114 ± 0, 000 0, 851 ± 0, 023 0, 114 ± 0, 001

Capítulo 5. Resultados Experimentais 62

Antes de analisar o tempo, observe que o KNN é um método preguiçoso (lazy learner), i.e., não requer treinamento. Portanto, o tempo de treinamento relatado para o KNN abrange apenas o algoritmo de redução de dimensionalidade. Dessa forma, ao analisar o desempenho no treinamento, o KNN é deixado de fora. Além disso, é importante reafirmar que os tamanhos dos conjuntos de dados brutos e pré-processados são os mesmos, apenas suas dimensões são alteradas.

Ao considerar o tempo de treinamento, todos os algoritmos, exceto o SVR, têm seu tempo reduzido quando um conjunto de dados reduzido é considerado. O SVR leva mais tempo para aprender quando um algoritmo de redução de dimensionalidade é empregado. Por outro lado, o ENET foi o algoritmo mais beneficiado pela redução da dimensionalidade. Seu tempo de treinamento reduziu cerca de 20 vezes ao treinar com os dados reduzidos (𝑝 = 5) do UNISIM- I-D e UNISIM-II-D. O KRR mostrou a maior discrepância no tempo de processamento entre o UNISIM-I e o UNISIM-II. O que ocorreu devido ao número de instâncias de dados, pois o KRR usa todos os dados de treino na predição da resposta. O KRR também mostrou uma grande queda no tempo de processamento, de dados brutos para dados pré-processados. Os algoritmos MLP e GTB mostraram comportamento semelhante no tempo de treinamento, exceto que o GTB apresentou tempo de processamento menor ao treinar com dados brutos.

Ao considerar o tempo de teste, os valores relatados nas Tabelas 5.3 e 5.4 referem-se à avaliação média de um quinto dos dados, sendo 400 para UNISIM-I-D e 200 para UNISIM-II-D. Os métodos mais rápidos foram GTB e ENET para ambos os domínios. Seguido no desempenho do teste por SVR e MLP. O KRR levou mais tempo ao avaliar o UNISIM-I quando comparado ao UNISIM-II, porque o KRR considera todos os dados de treinamento na avaliação de uma nova instância. Analogamente, o KNN, que teve o pior desempenho no tempo de teste, precisa calcular a distância entre os dados da consulta e todas as instâncias de treinamento.

A média de todos os resultados do tempo de treinamento para ambos os domínios em cada algoritmo de dimensionalidade mostra que a redução de dimensionalidade mais rápida para 𝑝 = 5é NMF, seguida por PCA e KPCA. Enquanto para 𝑝 = 10, o mais rápido, em média, foi NMF, TSVD e PCA. Para o tempo de teste, a mesma análise resultou em TSVD, PCA e NMF.

A partir dos resultados obtidos, algumas conclusões podem ser obtidas. Como esperado, os modelos orientados a dados se beneficiam de um número suficientemente grande de dados de treinamento. Esse fato foi corroborado pelas experiências, mostrando melhores resultados para o UNISIM-I-D do que o UNISIM-II-D. Nesse sentido, observe que os resultados fornecidos

Capítulo 5. Resultados Experimentais 63

poderiam ser melhores se tivéssemos mais dados ou se os parâmetros para a validação cruzada fossem maiores, ou seja, 10 × 10 em vez de 5 × 5. No entanto, a adição de dados aumentaria o desempenho do modelo até um limite, que pode ser encontrado ao considerá-lo uma prática.

O objetivo do trabalho foi verificar se é possível inferir o VPL a partir de dados de arranjo de poços e, no que diz respeito aos dados binários, os algoritmos do kernel apresentaram os melhores resultados. KRR sendo o algoritmo com o melhor desempenho de precisão e SVR mostrou o menor tempo de processamento em dados brutos para os algoritmos comparados. Ao considerar os resultados usando uma redução de dimensionalidade como pré-processamento, boas alternativas foram KRR com NMF ou TSVD; com um conjunto de dados maior, KRR e KPCA também é uma boa alternativa. O PCA e o KPCA mostraram bons resultados quando considerados como pré-processamento para MLP, GTB e SVR, para UNISIM-I-D, provavelmente devido ao grande número de dados. Embora NMF e TSVD tenham sido boas alternativas para esses algoritmos para UNISIM-II, com menos dados disponíveis. Em relação ao número de componentes, os resultados do RMSE com p = 10 foram, em média, 0,0134 inferiores a p = 5 para o UNISIM-I e 0,0053 para o UNISIM-II-D.

A partir desses resultados, é possível verificar que as dimensões consideradas foram bem tratadas pelos algoritmos considerados. De modo que os resultados tenham sido melhores do que quando se reduz a dimensão. No entanto, ao manter o aumento no número de dimensões, em algum momento, a situação reverterá, ou seja, dados reduzidos produzirão melhores resultados do que dados brutos de alta dimensão. Embora não tenha sido o caso neste estudo, os resultados ainda são válidos para quando a dimensão dos dados aumenta, desde que o mesmo tipo de dados seja considerado.

Capítulo 6

Conclusões

O valor presente líquido (VPL) é o principal indicador no planejamento da produção de petróleo. Os tomadores de decisão usam simulações numéricas complexas e demoradas para prever o VPL de uma estratégia de produção, o que dificulta a busca de uma estratégia de produção ideal. Este trabalho apresenta evidências de que é possível inferir o VPL com eficiência usando apenas dados de arranjo de poço através de métodos de aprendizado de máquina orientados a dados. Especificamente, consideramos o caso de muitos poços possíveis em um campo, resultando em dados de alta dimensão. Para lidar com a alta dimensionalidade, comparamos seis algoritmos de regressão de aprendizado de máquina e seis algoritmos de redução de dimensionalidade. O estudo considerou dados de simulação de dois modelos de reservatório, baseados em dados reais, fornecidos pelo UNISIM-CEPETRO. Resultados experimentais, considerando os 36 pares de algoritmos, mostraram que KRR, MLP, SVR e GTB (nesta ordem) com NMF, TSVD, geralmente compõem os melhores pares. Quando dados suficientes são fornecidos, KPCA e PCA também são alternativas adequadas como métodos de redução de dimensionalidade. Trabalhos futuros incluem o teste de mais algoritmos de redução de dimensionalidade e de regressão em bases de dados de maior dimensão.

Referências bibliográficas

AFFONSO, M. A.; ANDRADE, L.; REVOREDO, K. Predição do Valor Econômico de uma Oportunidade Exploratória de Petróleo. In: VII Simpósio Brasileiro de Sistemas de Informação, 2011. Brasil: IEEE, 2011. p. 459–463. Disponível em: <http :

//www.lbd.dcc.ufmg.br/colecoes/wtdsi/2011/predicaodovalor.pdf>.

ALENEZI, F.; MOHAGHEGH, S. A Data-Driven Smart Proxy Model for A Comprehensive Reservoir Simulation. IEEE - 4th Saudi International Conference on Information Technology (Big Data Analysis) (KACSTIT), p. 1–6, nov. 2016.

ASHLEY, W. J.; PANJA, P.; DEO, M. Surrogate models for production performance from heterogeneous shales. Edição: Elsevier. n. 159, p. 244–256, 2017.

AVANSI, G. D.; SCHIOZER, D. J. UNISIM-I: Synthetic Model for Reservoir Development and Management Applications. International Journal of Modeling and Simulation for the Petroleum Industry, v. 9, n. 1, p. 21–30, 2015. Disponível em: <https://www.unisim.

cepetro.unicamp.br/publicacoes/2015_04_IJMSPI_AVANSI_SCHIOZER.pdf>.

BARTZ-BELELSTEIN, T.; NAUJOKS, B.; STORK, J.; ZAEFFERER, M. Tutorial on surrogate- assisted modelling. [S.l.], 2016.

BERTINI JR., J. R.; FUNCIA, M. A.; SANTOS, A. A.; SCHIOZER, D. J. A comparison of machine learning algorithms as surrogate model for net present value prediction from wells arrangement data. Proceedings of the IEEE International Joint Conference on Neural Networks, p. 1–8, 2019. 10.1109/IJCNN.2019.8851708.

BHOSEKAR, A.; IERAPETRITOU, M. Advances in surrogate based modeling, feasibility analysis, and optimization: A review. Computers and Chemical Engineering, v. 108, p. 250–267, 2018.

BISHOP, C. M. Pattern Recognition and Machine Learning. [S.l.]: Springer, 2006.

BJØRLYKKE, K. Petroleum Geoscience: From Sedimentary Environments to Rock Physics. 3. ed. Norway: Spriger, 2010. p. 518. ISBN 978-3-642-02331-6.

BOUTSIDIS, C.; GALLOPOULOS, E. SVD based initialization: A head start for nonnegative matrix factorization. Pattern Recognition, v. 41, p. 1350–1362, 2008.

CICHOCKI, A.; PHAN, A.-H. Fast Local Algorithms for Large Scale Nonnegative Matrix and Tensor Factorizations. IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, E92.A, p. 708–721, 2009.

Referências bibliográficas 66

CORREIA, M.; HOHENDORFF, J.; GASPAR, A. T. F. S.; SCHOIOZER, D. UNISIM-II-D: Benchmark Case Proposal Based on a Carbonate Reservoir. Society of Petroleum Engineers, 2015. Disponível em: <https : / / www . unisim . cepetro . unicamp . br /

publicacoes/2015_LACPEC_CORREIA_HOHENDORFF_GASPAR_SCHIOZER.pdf>.

DA SILVA, J. P. Q. G. Uso de Poços Inteligente em Desenvolvimento de Campos de Petróleo sob Incertezas. 2008. Diss. (Mestrado) – Universidade Estadual de Campinas, Faculdade de Engenharia Mecânica, Curso de Mestrado em Ciências e Engenharia de Petróleo, Campinas - SP.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. AI Magazine, v. 17, n. 3, p. 37–54, 1996.

GOLZARI, A.; SEFAT, M. H.; JAMSHIDI, S. Development of an adaptive surrogate model for production optimization. Edição: Elsevier. Journal of Petroleum Science and Engineering, v. 133, p. 677–688, 2015.

GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. [S.l.]: MIT Press, 2016.ht

tp://www.deeplearningbook.org.

GORBAN, A. N.; TYUKIN, I. Y. Blessing of dimensionality: mathematical foundations of the statistical physics of data. Philosophical Transactions of the Royal Society A, v. 376, p. 250–267, 2018.

HAN, J.; KAMBER, M.; PEI, J. Data Mining: Concepts and Techniques. 3. ed. United States of America: Elsevier, 2012. p. 703. ISBN 978-0123814791.

HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning. 2nd. [S.l.]: Springer, 2008.

JOLLIFFE, I. T.; CADIMA, J. Principal component analysis: a review and recent developments. Royal Society, abr. 2016.

KIMURA, R. M. Indústria Brasileira de Petróleo: Uma análise da cadeia de valor agregado. Rio de Janeiro, RJ: [s.n.], abr. 2005.

LEE, D. D.; SEUNG, H. S. Learning the parts of objects by non-negative matrix factorization. Nature, v. 401, p. 788–791, 1999.

MAATEN, L.; POSTMA, E.; HERIK, J. Dimensionality Reduction: A Comparative Review. [S.l.], 2009.

MEMBER, T. Y.; WILKINSON, D. Coevolution of Simulator Proxies and Sampling Strategies for Petroleum Reservoir Modeling. IEEE - Congress on Evolutionary Computation, p. 2677–2684, mai. 2009.

MIYASHIRO, D. U.; BARIONI, M. C. N. Estudo de Técnicas de Redução de Dimensionalidade. Centro de Matemática, Computação e Cognição – CMCC/UFABC, 2009.

MURPHY, K. Machine Learning: A Probabilistic Perspective. [S.l.]: MIT Press, 2012. NOGUEIRA, P.; SCHIOZER, D. J. An Efficient Methodology of Production Strategy Optimization Based on Genetic Algorithms. In: PROCEEDINGS of the Latin American and

Referências bibliográficas 67

Caribbean Petroleum Engineering Conference. [S.l.]: Society of Petroleum Engineers, 2009. p. 1–14.

PEDREGOSA, F. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, v. 12, p. 2825–2830, 2011.

ROCHA, M. A. Estudo do processo de drenagem gravitacional assistido por vapor utilizando poços injetores verticais e horizontais na recuperação de óleos pesados. 2006. Diss. (Mestrado) – Universidade Federal do Rio Grande do Norte, Centro de tecnologia – CT, Centro de ciências Exatas e da Terra – CCET, Programa de Pós-graduação em Ciência e

Engenharia de Petróleo – PPGCEP, Natal, RN. Disponível em:

<https : / / repositorio . ufrn . br / jspui / bitstream / 123456789 / 21723 / 1 /

MarcelAraujoRocha_DISSERT.pdf>.

ROWEIS, S.; SAUL, L. Nonlinear dimensionality reduction by locally linear embedding. Science, v. 290, p. 2323–2326, 2000.

SCHÖLKOPF, B.; SMOLA, A.; MÜLLER, K. Kernel principal component analysis. In: INTERNATIONAL Conference on Artificial Neural Networks. [S.l.]: Springer, 1997. v. 1327. (Lecture Notes in Computer Science), p. 583–588.

SMITH, L. I. A tutorial on Principal Components Analysis. New Zealand, 2002. (Technical Report OUCS-2002-12).

SMOLA, A. J.; SCHÖLKOPF, B. A tutorial on support vector regression. Statistics and Computing, v. 14, p. 199–222, 2004.

TENENBAUM, J.; DE SILVA, V.; LANGFORD, J. C. A global geometric framework for nonlinear dimensionality reduction. Science, v. 290, p. 2319–2323, 2000.

ZANBOURI, H.; SALAHSHOOR, K. Development of robust surrogate model for economic performance prediction of oil reservoir production under waterflooding process. Journal of Petroleum Science and Engineering, v. 165, p. 496–504, 2018.

ZOU, H.; HASTIE, T. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society B, v. 67, n. 2, p. 301–320, 2005.

No documento Uma comparação de modelos substitutos de aprendizado de máquina para a previsão do valor presente líquido a partir de dados de alta dimensão de arranjo de poços (páginas 58-67)