Análise comparativa de correlações e redes neurais para predição de propriedades de fluidos de petróleo

(1)

UNIVERSIDADE FEDERAL FLUMINENSE ESCOLA DE ENGENHARIA

DEPARTAMENTO DE ENGENHARIA QUÍMICA E DE PETRÓLEO CURSO DE GRADUAÇÃO EM ENGENHARIA DE PETRÓLEO

ANDRÉS RAFAEL ZÚÑIGA PAVÓN

ANÁLISE COMPARATIVA DE CORRELAÇÕES E REDES NEURAIS PARA PREDIÇÃO DE PROPRIEDADES DE FLUIDOS DE PETRÓLEO

NITERÓI, RJ 2019

(2)

Trabalho de Conclusão de Curso apresentado ao Curso de Engenharia de Petróleo da Escola de Engenharia da Universidade Federal Fluminense, como parte dos requisitos necessários à obtenção do grau de Bacharel em Engenharia de Petróleo.

Orientador:

Prof. Dr. Víctor Rolando Ruiz Ahón Coorientador:

Prof. Dr.André Ferreira Young

NITERÓI, RJ 2019

(3)

AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE TRABALHO, POR QUALQUER MEIO CONVENCIONAL OU ELETRÔNICO,

PARA FINS DE ESTUDO E PESQUISA, DESDE QUE CITADA A FONTE.

FICHA CATALOGRÁFICA GERADA EM: http://www.bibliotecas.uff.br/bee/ficha-catalografica

Ficha catalográfica automática – SDC/BEE Gerada com informações fornecidas pelo autor S586 Zúñiga Pavón, Andrés Rafael

Análise comparativa de correlações e redes neurais para predição de propriedades de fluidos de petróleo / Andrés Rafael Zúñiga Pavón, 2019.

79 f.

Trabalho de Conclusão de Curso (Graduação em Engenharia de Petróleo) – Universidade Federal Fluminense, Escola de Engenharia, Departamento de

Engenharia de Petróleo, Universidade Federal Fluminense, Niterói, 2019. Orientadores: Víctor Rolando Ruiz Ahón, André Ferreira Young.

1. Propriedades de Fluidos. 2. Estimação de Parâmetros. 3. Redes Neurais. I. Análise Comparativa De Correlações E Redes Neurais Para Predição De

Propriedades De Fluidos De Petróleo.

(4)

Trabalho de Conclusão de Curso apresentado ao Corpo Docente do Departamento de Engenharia Química e de Petróleo da Escola de Engenharia da Universidade Federal Fluminense, como parte dos requisitos necessários à obtenção do título de Engenheiro de Petróleo.

Aprovado em 05 de dezembro de 2019.

BANCA EXAMINADORA

Niterói, RJ 2019

(5)

AGRADECIMENTOS

A Deus pela vasta luz e conhecimento que me deu, me dá e me dará ao longo desta passagem terrena.

À minha esposa Lorene pelo amor, paciência e atenção exercida desde que a vi pela primeira vez.

A meus pais, Victor e Marcia, pela sua sabedoria, conselhos e zelo durante minha infância, adolescência e vida adulta.

Aos meus irmãos, Ricardo e Victor, pela irmandade, carinho e os momentos de união.

Ao meu orientador Victor, coorientador André e mentor João, por terem sido meus guias, professores e companheiros para cumprir esta agradável missão.

Ao meu supervisor de estágio Victor, que me instruiu ao longo do estágio profissional para desenvolver aptidões pessoais e técnicas.

Sem sombra de dúvidas, nada disto teria sido concretizado se eu não tivesse todas as pessoas citadas me dando o suporte necessário.

(6)

“Só não existe aquilo que não pode ser imaginado” Murilo Mendes

(7)

RESUMO

A estimação de propriedades PVT (Pressão, Volume, Temperatura) é essencial para realizar qualquer cálculo na indústria do petróleo. Essas propriedades são derivadas de medições laboratoriais e/ou correlações. Erros na inferência de propriedades PVT podem levar a estimativas de reservas erradas, predição imprecisa de vazões de produção, desenhos de sistemas de elevação artificial com desempenho inferior, e estimativas incorretas de parâmetros para testes de poços. Na ausência de medição laboratorial das propriedades PVT, é primordial o uso de técnicas apropriadas para calculá-las com a maior acurácia possível. A obtenção das propriedades é tão importante que são vastas as pesquisas realizadas na literatura sobre esse assunto. Numerosas correlações PVT têm sido desenvolvidas ao longo dos anos, o que mostra a relevância deste tópico. Diversos autores avançaram em criar as suas próprias correlações e, dada a complexidade de caracterização dos fluidos de petróleo, seja pelo grau API, composição química ou localização geográfica, essas correlações podem sofrer alterações nos seus parâmetros e estrutura funcional. No atual cenário em que a aplicação de técnicas de inteligência artificial vem crescendo na indústria de petróleo para enfrentar os muitos desafios de atividades operacionais diárias, as redes neurais cumprem um papel vistoso e simultaneamente poderoso na predição de muitas das variáveis usadas, e, por conseguinte, na predição de propriedades PVT. Este trabalho visa analisar comparativamente a previsibilidade de cinco propriedades de fluidos de petróleo: pressão de bolha, viscosidade de óleo insaturado, viscosidade de óleo morto, razão gás-óleo e compressibilidade isotérmica, mediante: 1) correlações de Ghetto et al. (1994) baseadas em 195 amostras de petróleo da literatura versus reestimação dos parâmetros dessas correlações usando grupo de amostras para treinamento e validação via minimização do relative absolute error e 2) uso de redes neurais artificiais aplicadas sobre o mesmo grupo usado no item 1 versus a reestimação dos parâmetros das correlações via minimização da soma dos desvios quadrados. Dentre as duas abordagens, as redes neurais apresentaram erro absoluto relativo médio abaixo de 15% para algumas propriedades e, para outras, imitaram o desempenho das correlações.

Palavras-Chave: Propriedades de fluidos de petróleo; correlações; estimação de

(8)

ABSTRACT

Estimation of PVT (Pressure, Volume, Temperature) properties is essential to perform any calculation in the petroleum industry. These properties are derived from laboratory measurements and/or PVT mathematical correlations. Errors in PVT data inference can lead to erroneous reserve estimates, inaccurate prediction of production flows, poorly performing artificial lift system designs, and incorrect parameter estimates for well testing. In the absence of laboratory measurement of PVT properties, the use of appropriate techniques to calculate them as accurately as possible is paramount. Obtaining properties is so important that there is a vast amount of research in the literature in this sense. Numerous PVT correlations have been developed over the years, what shows the relevance of this topic. Several authors have advanced in creating their own correlations and given the complexity of the characterization of petroleum fluids, either by API grade, chemical composition or geographical location, these correlations may change in their parameters and functional structure. In the current scenario where the application of artificial intelligence techniques is growing in the oil industry to meet the many challenges of our daily operating activities, neural networks play a flashy yet powerful role in predicting many of the variables used in the oil industry, and therefore the prediction of PVT properties. This work aims to comparatively analyse the predictability of five petroleum fluid properties: bubble pressure, unsaturated oil viscosity, dead oil viscosity, gas-oil ratio and isothermal compressibility by: 1) Ghetto et al. (1994) correlations based on 195 samples of oil from literature versus parameters reestimation of those correlations using sample groups for training and validation through minimization of relative absolute average error and 2) use of neural networks applied to the same used group in item 1 versus the parameters reestimation of those correlations through minimization of sum of least squares. Among the two approaches, neural networks showed absolute average error below 15% for some properties, while for the rest of them, they imitated approximately the performance of the correlations.

Keywords: Petroleum fluid properties; PVT property; parameter estimation; artificial

(9)

LISTA DE FIGURAS

Figura 2.1 - Esquema de uma rede neural simples de duas camadas: uma de entrada com

dois neurônios e uma de saída com um neurônio...19

Figura 2.2 - Esquema simplificado de modelos paramétricos e não paramétricos (black box)...22

Figura 2.3 - Esquema de uma rede neural de perceptron de multicamadas...23

Figura 2.4 - Esquema de funcionamento do treinamento com os subconjuntos de dados para treinamento e para teste...32

Figura 3.1 – Definição da Estrutura Funcional: Correlação e Função Objetivo...39

Figura 3.2 – Valores Iniciais, Tamanho Passos e Critérios de Convergência...40

Figura 3.3 – Seleção da variável target e das variáveis input...43

Figura 3.4 – Separação das amostras por grupo de treinamento, teste e validação...43

Figura 3.5 – Escolha das redes a treinar, o número de neurônios da camada oculta, o tipo de rede e a função objetivo...44

Figura 3.6 – Escolha dos ciclos, taxa de aprendizagem, aleatoriedade dos pesos, critério da parada precoce... 45

Figura E.1 – Parity plot dos valores observados vs valores preditos para a melhor correlação reajustada para a pressão de bolha... 77

Figura E.2 – Parity plot dos valores observados vs valores preditos para a melhor correlação reajustada para a viscosidade de óleo morto... 78

Figura E.3 – Parity plot dos valores observados vs valores preditos para a melhor correlação reajustada para a razão de solubilidade... 79

Figura E.4 – Parity plot dos valores observados vs valores preditos da melhor correlação reajustada para a compressibilidade isotérmica... 80

Figura E.5 – Parity plot dos valores observados vs valores preditos da melhor correlação reajustada para a viscosidade de óleo insaturado... 81

Figura F.1 – Parity plot dos valores preditos vs valores observados da melhor rede neural para a pressão de bolha... 82

Figura F.2 – Parity plot dos valores preditos vs valores observados da melhor rede neural para a viscosidade de óleo morto... 83

Figura F.3 – Parity plot dos valores preditos vs valores observados da melhor rede neural para a razão de solubilidade... 84

(10)

Figura F.4 – Parity plot dos valores preditos vs valores observados da melhor rede neural para a compressibilidade isotérmica... 85 Figura F.5 – Parity plot dos valores preditos vs valores observados da melhor rede neural para a viscosidade de óleo insaturado... 86

(11)

LISTA DE QUADROS E TABELAS

Quadro 2.1 - Função Sigmóide...25 Quadro 3.1 - Relação da quantidade parâmetros não lineares para reestimação...37 Quadro 3.2 – Matriz para seleção do grupo de treinamento e validação...37 Quadro 3.3 - Composição das amostras por grau API e destinação de grupo de

treinamento ou validação...38 Quadro 3.4 – Valores iniciais (Start Values) dos parâmetros de Ghetto et al. (1994)....41 Quadro 3.5 – Tamanho do passo (Step Size) dos parâmetros por algoritmo: pressão de bolha...41 Quadro 3.6 – Tamanho do passo (Step Size) dos parâmetros por algoritmo: viscosidade de óleo morto...41 Quadro 3.7 – Tamanho do passo (Step Size) dos parâmetros por algoritmo: razão

solubilidade...41 Quadro 3.8 – Tamanho do passo (Step Size) dos parâmetros por algoritmo:

compressibilidade isotérmica...41 Quadro 3.9 – Tamanho do passo (Step Size) dos parâmetros por algoritmo: viscosidade de óleo insaturado...41 Quadro 4.1 – Comparativo correlação Ghetto et al. versus correlações reajustadas pelo erro absoluto relativo: pressão de bolha... 47 Quadro 4.2 – Comparativo correlação Ghetto et al. versus correlações reajustadas pelo relative absolute error: viscosidade de óleo morto...47 Quadro 4.3 – Comparativo correlação Ghetto et al. versus correlações reajustadas pelo relative absolute error: razão de solubilidade...48 Quadro 4.4 – Comparativo correlação Ghetto et al. versus correlações reajustadas pelo relative absolute error: compressibilidade isotérmica...48 Quadro 4.5 – Comparativo correlação Ghetto et al. versus correlações reajustadas pelo relative absolute error: viscosidade de óleo insaturado...49 Quadro 4.6 – Parâmetros reestimados pelo relative absolute error para cada correlação de propriedade PVT com o RAAE melhor colocado...49 Quadro 4.7 – Comparativo redes neurais versus correlações reajustadas pela soma dos desvios quadrados: pressão de bolha...50 Quadro 4.8 – Comparativo redes neurais versus correlações reajustadas pela soma dos desvios quadrados: viscosidade de óleo morto...51

(12)

Quadro 4.9 – Comparativo redes neurais versus correlações reajustadas pela soma dos desvios quadrados: razão de solubilidade...51 Quadro 4.10 – Comparativo redes neurais versus correlações reajustadas pela soma dos desvios quadrados: compressibilidade isotérmica...52 Quadro 4.11 – Comparativo redes neurais versus correlações reajustadas pela soma dos desvios quadrados: viscosidade de óleo insaturado...53 Tabela A.1 – Base de dados com as amostras usadas no artigo de Ghetto et al. (1994).58 Tabela B.1 – Relatórios PVT do artigo de Ghetto et al. (1994) usados para a construção dos grupos de treinamento, teste e validação...64 Tabela C.1 – Resultados para obtenção do melhor algoritmo de treinamento para a pressão de bolha...67 Tabela C.2 – Resultados para a obtenção do melhor algoritmo de treinamento para a viscosidade de óleo morto...68 Tabela C.3 – Resultados para a obtenção do melhor algoritmo de treinamento para a razão de solubilidade...69 Tabela C.4 – Resultados para a obtenção do melhor algoritmo de treinamento para a compressibilidade isotérmica...70 Tabela C.5 – Resultados para a obtenção do melhor algoritmo de treinamento para a viscosidade de óleo insaturado...71 Tabela D.1 – Resultados para a obtenção da melhor quantidade de neurônios na camada oculta para a pressão de bolha...72 Tabela D.2 – Resultados para a obtenção da melhor quantidade de neurônios na camada oculta para a viscosidade de óleo morto...73 Tabela D.3 – Resultados para a obtenção da melhor quantidade de neurônios na camada oculta para a razão de solubilidade...74 Tabela D.4 – Resultados para a obtenção da melhor quantidade de neurônios na camada oculta para a compressibilidade isotérmica...75 Tabela D.5 – Resultados para a obtenção da melhor quantidade de neurônios na camada oculta para a viscosidade de óleo insaturado...76

(13)

LISTA DE ABREVIATURAS E SIGLAS

AGIP Azienda Generale Italiana Petroli API American Petroleum Institute

BFGS Broyden – Fletcher – Goldfarb – Shanno CNN Custom Neural Network

Co Compressibilidade Isotérmica

 (psp) Densidade Relativa Média dos Gases de Pressão do Separador  (av.) Densidade Relativa Média dos Gases de Superfície Totais MLP Multi-Layer Perceptron

Pb Pressão de Bolha

Pr Pressão do Reservatório Psp Pressão no Separador

PVT Pressão-Volume-Temperatura RAAE Relative Average Absolute Error Rs Razão de Solubilidade do Teste Flash Rsp Razão de Solubilidade no Separador SAS Statistical Analysis System

Tr Temperatura do Reservatório Tsp Temperatura no Separador Vod Viscosidade de Óleo Morto Vo Viscoside de Óleo Insaturado

(14)

SUMÁRIO 1 INTRODUÇÃO ...7 1.1 CONTEXTUALIZAÇÃO ...7 1.2 OBJETIVOS...10 1.3 ORGANIZAÇÃO DO TEXTO...10 2 REVISÃO BIBLIOGRÁFICA ...11

2.1 ESTIMAÇÃO NÃO LINEAR DE PARÂMETROS...11

2.1.1 A FUNÇÃO OBJETIVO...12

2.1.2 ALGORITMOS PARA MINIMIZAÇÃO DE FUNÇÃO OBJETIVO...12

2.1.2.1 MÉTODO QUASE-NEWTON ...13

2.1.2.2 ALGORITMO DE LEVENBERG-MARQUARDT...14

2.1.2.3 PROCEDIMENTO SIMPLEX...14

2.1.2.4 MOVIMENTO DE PADRÕES DE HOOKE-JEEVES...14

2.1.2.5 BUSCA DE PADRÕES ROSENBROCK...15

2.1.3 VALORES INICIAIS, TAMANHO DOS PASSOS E CRITÉRIOS DE CONVERGÊNCIA 15 2.1.4 MÍNIMOS LOCAIS...16

2.2 REDES NEURAIS...16

2.2.1 USANDO AS REDES NEURAIS...17

2.2.2 INSPIRAÇÃO BIOLÓGICA...18

2.2.3 O MODELO MATEMÁTICO BÁSICO...19

2.2.4 REGRESSÃO E FAMÍLIA DE FERRAMENTAS NÃO PARAMÉTRICAS.21 2.2.5 REDES NEURAIS DE PERCEPTRON DE MULTICAMADAS...23

2.2.6 FUNÇÃO DE ATIVAÇÃO...24

2.2.7 SELECIONANDO AS VARIÁVEIS DE ENTRADA...25

2.2.8 COMPLEXIDADE DE REDE NEURAL...25

2.2.9 TREINAMENTO DE REDES NEURAIS...26

2.2.10 INICIALIZAÇÃO DE PESOS...26

2.2.11 APRENDENDO POR EXEMPLOS...27

(15)

2.2.13 O ALGORITMO DE TREINAMENTO...29

2.2.13.1 GRADIENTE DESCENDENTE ...29

2.2.13.2 BFGS (BROYDEN-FLETCHER-GOLDFARB-SHANNO) ...29

2.2.13.3 GRADIENTE CONJUGADO...30

2.2.14 GENERALIZAÇÃO E PERFORMANCE...30

2.2.15 DADOS DE TESTE E PARADA PRECOCE...31

2.2.16 REGULARIZAÇÃO...32

2.2.17 DADOS FUTUROS...33

3 METODOLOGIA ...34

3.1 COLETA, LIMPEZA E ANÁLISE DAS AMOSTRAS...34

3.2 GRUPOS DE TREINAMENTO, TESTE E VALIDAÇÃO...35

3.3 ESTIMAÇÃO NÃO LINEAR DE PARÂMETROS...38

3.4 REDES NEURAIS...42

4 RESULTADOS E DISCUSSÃO...46

4.1 RESULTADO DO AJUSTE DAS CORRELAÇÕES...46

4.2 RESULTADOS DAS REDES NEURAIS...49

5 CONCLUSÕES...53

REFERÊNCIAS...54

APÊNDICE A – TABELAS DAS 195 AMOSTRAS DA AGIP...57

APÊNDICE B – RELAÇÃO DE RELATÓRIOS PVT USADOS...62

APÊNDICE C – BUSCA DO MELHOR ALGORITMO DE TREINAMENTO: DAS REDES NEURAIS: 4 NEURÔNIOS FIXADOS... 66

APÊNDICE D – RESULTADOS DAS REDES NEURAIS USANDO O MELHOR ALGORITMO DE TREINAMENTO ALTERANDO OS NEURÔNIOS OCULTOS...71

APÊNDICE E – PARITY PLOTS: MELHORES CORRELAÇÕES REAJUSTADAS..76

APÊNDICE F - PARITY PLOTS: MELHORES REDES NEURAIS ...81

APÊNDICE G - PESOS DOS NEURÔNIOS DAS CAMADAS OCULTAS, DE SAÍDA E BIAS PARA AS MELHORES REDES ...86

(16)

1 INTRODUÇÃO

Este trabalho tratará da análise comparativa entre correlação não linear e a construção de um artifício de inteligência artificial: machine learning. Em outras palavras, aprendizado de máquinas seja este virtual ou físico, mediante um tipo de forma de aprendizagem baseado na criação de redes neurais artificias. Este tipo de aprendizagem é do tipo de aprendizagem supervisionada, em outras palavras, aprender a correlacionar variáveis independentes que poderiam ter ou não alguma relação com outra variável dependente com a guia de respostas ou resultados laboratoriais. Nas próximas seções serão abordadas considerações iniciais dentro da esfera acadêmica sobre as correlações não lineares e também sobre as redes neurais.

1.1 CONTEXTUALIZAÇÃO

A acurácia de muitos cálculos na engenharia de petróleo depende grandemente da acurácia dos dados de pressão, volume e temperatura (PVT). Numa situação ideal, esses dados PVT são determinados por intermédio de experimentos laboratoriais realizados em amostras de fluidos coletadas na cabeça do poço, separadores na superfície, ou no fundo do poço. Os relatórios PVT dão os resultados desses experimentos e são normalmente realizados na temperatura do reservatório (AHMED, 2016). Tais serviços laboratoriais podem ser muito onerosos. Portanto, na ausência de medições daquelas propriedades, se torna necessário o uso de correlações derivadas empiricamente para predizer os dados PVT.

Já existem diversas correlações de cunho matemático globalmente e historicamente usadas na indústria petrolífera (GLASO., 1980; STANDING, M. B., 1962; BEGGS. e ROBINSON, 1975 e VASQUEZ, 1977). Muitas dessas correlações foram desenvolvidas usando técnicas gráficas ou por meio de regressão múltipla linear ou não linear o que é um trabalho normalmente complexo. Embora uma enorme quantidade de dados PVT tenha sido coletada e correlacionada ao longo de muitos anos para diferentes sistemas petrolíferos, às vezes, dados experimentais confiáveis não estão prontamente disponíveis e a vantagem da correlação é que ela pode ser usada para prever propriedades onde há pouca informação experimental disponível (HUTCHINSON, 1951). Vale salientar que cada correlação foi desenvolvida para certo intervalo de características de fluidos de reservatórios e áreas geográficas com composição química similar e dentro de uma mesma classe de grau API.

(17)

De Ghetto et al. (1994) realizaram uma análise de confiabilidade em 5 correlações de propriedades PVT da literatura clássica de propriedades de fluidos de petróleo. Essas propriedades foram: pressão de bolha, razão óleo-gás em solução, compressibilidade isotérmica, viscosidade de óleo morto e viscosidade de óleo insaturado. Para todas elas foram avaliadas a previsibilidade das correlações. Os autores definem como critério de desempenho na capacidade preditiva o erro absoluto médio ou (RAAE, Relative Average Absolute Error), que é usado para avaliar a proximidade relativa entre o valor calculado em relação ao valor previsto na totalidade da população de amostras do grupo de validação usada na reestimação de parâmetros não lineares e a as redes neurais construídas (WANG e LU, 2018). A Equação 1.1 a seguir mostra o formato do RAAE de do grupo de validação.

𝐸_𝑚= ∑ 𝐸𝑖

𝑁 𝑁

𝑖=1 (1.1)

onde 𝐸_𝑖, também chamado relative absolute error por cada amostra, pode ser obtido pela Equação 1.2 a seguir:

𝐸𝑖 = | 𝐶𝑖−𝑀𝑖

𝑀𝑖 | (1.2)

onde 𝐶_𝑖 , 𝑀_𝑖 𝑒 𝑁 são o valor calculado/predito (por regressão múltipla não linear ou redes neurais), valor medido/observado e a quantidade de amostras usadas, respectivamente.

Foram usadas no estudo, 195 amostras de óleo cru coletado pela empresa petroleira Azienda Generale Italiana Petroli (AGIP) da bacia do Mediterrâneo, África, Golfo Pérsico e Mar do Norte. Em torno de 3.700 pontos de dados foram coletados e investigados na sua pesquisa.

Os autores escolheram, dentre as diversas correlações já existentes na literatura, as melhores em termos daquela grandeza estatística, para as 195 amostras da AGIP. Mantendo o mesmo padrão funcional do modelo inicial, os coeficientes das diferentes equações foram recalculados aplicando regressão múltipla linear e não linear, por meio do programa Statistical Analysis System (SAS) que executa nessas equações análises de regressão usando o método dos mínimos quadrados. As correlações modificadas foram obtidas para cada uma das quatro classes de API (óleo leve, médio, pesado e extrapesado) e uma foi obtida para as todas elas juntas.

(18)

Uma questão foi levantada sobre a metodologia usada sobre a reestimação dos parâmetros para as correlações: nesse estudo não há descrição na metodologia se as amostras não foram divididas em conjuntos de treinamento e validação. O primeiro grupo é composto pelos dados que a metodologia de regressão não linear vai se basear para ajustar o modelo matemático. O segundo serve para verificar a previsibilidade do modelo treinado. Diferentemente, os autores aplicaram toda a população das 195 amostras no ajuste de suas correlações, o que compromete a análise de sua capacidade preditiva.

Redes neurais artificiais têm sido cada vez mais usadas em problemas de regressão linear/não linear e de classificação devido à sua utilidade em praticamente qualquer análise de dados e métodos de predição (HAYKIN, 1999). Esse aumento de uso nos últimos anos se deve a diversos fatores: elas permitem ajustar modelos de alta complexidade que a regressão não poderia modelar, elas podem ser replicadas em escalas com maior volume de dados, e para algumas tarefas comuns elas podem ser impressionantemente precisas inclusive mais do que qualquer modelo de aprendizagem estatístico. Neste sentido, a oportunidade de se aplicar as redes neurais em substituição de correlações é muito promissora já que como todo modelo de inteligência artificial, enquanto mais dados se tem mais preditivo ele se torna, e na indústria de petróleo cada dia que passa, se obtém novos dados de propriedades PVT (LANDI et al., 2007). Num âmbito em que a transformação digital está em alta, e muitos dos processos e metodologias tal como as conhecemos hoje estão sendo substituídos devido à necessidade de agilidade na sua entrega, o aprendizado de máquina (ou machine learning), importante ferramenta da inteligência artificial, hoje se torna protagonista de uma mudança radical e imparável num mundo exigente de redução de custo, minimização de tempo e poderio tecnológico (OSMAN, 2001). As redes neurais cumprem e auxiliam essa meta mundial ao serem capazes de se ajustar e interagir qualquer fenômeno natural ou artificial, seja em problemas de regressão linear, classificação, clusterização e séries temporais.

(19)

1.2 OBJETIVOS

Uma vez notada a necessidade de adequação da metodologia de estimação de parâmetros em correlações não lineares, o objetivo deste trabalho é recalcular os parâmetros estimados por de Ghetto et al. (1994) mediante a seleção de um grupo de treinamento (regressão) e validação. Posteriormente, foi avaliada a capacidade preditiva das correlações com os parâmetros reestimados usando o RAAE.

Posteriormente, foram criadas redes neurais artificiais com o objetivo de cumprir a mesma função das correlações reestimadas. O desempenho de cada abordagem será baseado na grandeza estatística anteriormente citada: RAAE. O veículo de modelagem tanto para regressão múltipla não linear quanto para elaboração das redes neurais é o programa Statistica versão 13.5.0.17, marca registrada da empresa TIBCO.

1.3 ORGANIZAÇÃO DO TEXTO

Além da inclusão deste capítulo introdutório, o trabalho será construído em capítulos sequenciais. Eles seguirão uma divisão pelo cunho de conhecimento abordado. Iniciando com o Capítulo 2, é apresentada a revisão de literatura, vinculada ao escopo deste projeto, para compreensão mais profunda das metodologias descritas. Definições básicas cruciais para a construção de redes neurais e também de estimação não linear de parâmetros também são esclarecidas, tais como os algoritmos de treinamento e de minimização de função objetivo, assim como hiperparâmetros de uma rede neural e as limitações e vantagens de se usar relações não lineares entre as propriedades PVT a serem estudadas. No Capítulo 3 é abordada a metodologia, que consiste basicamente da coleta, análise e limpeza das 195 amostras do artigo de Ghetto et al. (1994), a formação dos grupos de treinamento e validação para a reestimação dos parâmetros, adicionando o grupo de teste para a criação das redes neurais. A obtenção dos parâmetros reestimados via estimação não linear usando o programa Statistica. Depois são descritas as modelagens de redes neurais customizadas (ou custom neural networks, CNN) também usando o programa Statistica. Análise e escolha das melhores metodologias para cada uma das cinco propriedades PVT estudadas. No Capítulo 4 são discutidos os resultados que foram obtidos ao longo dos processos de modelagem. Finalmente, no Capítulo 5, são apresentadas as conclusões.

(20)

2 REVISÃO BIBLIOGRÁFICA

Para compreender as metodologias de estimação não linear de parâmetros numa correlação e a estruturação de redes neurais usadas para prever propriedades PVT, é necessária a revisão, compreensão e estudo do conteúdo bibliográfico existente tanto em livros acadêmicos e sites de internet. Ao compreender os princípios, características e conceitos de ambas metodologias é possível entender o porquê de uma abordagem ser melhor, similar ou pior do que a outra em termos de capacidade preditiva.

2.1 ESTIMAÇÃO NÃO LINEAR DE PARÂMETROS

Em termos gerais, a estimação não linear visa determinar a relação entre um conjunto de variáveis independentes e uma ou mais variáveis dependentes. Por exemplo, pode-se calcular a relação entre razão de solubilidade, densidade relativa média do gás, temperatura de reservatório e o grau API, mesmo que à primeira vista não se observe uma relação entre elas. A estimativa não linear permite estabelecer a natureza da relação entre essas variáveis. Por exemplo, pode-se especificar a variável dependente como uma função logarítmica da variável independente, uma função exponencial, uma função de uma razão complexa de medidas independentes, etc. (EL-BANBI et al., 2018).

Ao permitir qualquer tipo de relação entre as variáveis independentes e dependente, duas questões surgem. Primeiro, que tipos de relações "fazem sentido", isto é, são interpretáveis de maneira significativa? A relação linear simples é muito conveniente, pois permite interpretações diretas como "quanto mais x (por exemplo, quanto maior o preço de uma casa), maior o número de y (mais tempo leva para vender) e, dado um aumento específico em x, pode-se esperar um aumento proporcional em y". As relações não lineares geralmente não podem pode-ser interpretadas e verbalizadas de maneira tão simples. A segunda questão que se leva em consideração é como calcular exatamente a relação, ou seja, como chegar a resultados que nos permitam dizer se existe ou não um relacionamento não linear, como previsto?

(21)

2.1.1 A FUNÇÃO OBJETIVO

Em geral, todos os modelos de regressão podem ser declarados mediante o modelo da Equação 2.1 a seguir:

𝑦 = 𝑓(𝑥₁, 𝑥₂, … , 𝑥_𝑛) (2.1)

Na regressão múltipla padrão, estimam-se os coeficientes de regressão "localizando" o conjunto de coeficientes que minimizam a variação residual (pela soma dos desvios quadrados) ao redor de uma reta de regressão. Qualquer desvio entre um ponto observado e um ponto previsto significa alguma perda na precisão de previsão. Portanto, pode-se dizer que a meta da estimativa de mínimos quadrados é minimizar uma função objetivo. Tradicionalmente, essa função objetivo é definida como a soma do desvio quadrático sobre os valores previstos, o que caracteriza a estimação como um problema de Mínimos Quadrados (WALD, 1939).

A estimação não linear contém vários métodos de minimização que podem ser aplicados em qualquer tipo de função objetivo. Quando a função objetivo de mínimos quadrados é usada, a estimativa dos parâmetros para modelos não lineares geralmente é mais eficiente, em particular com grandes conjuntos de dados. (SCHWAAB e PINTO, 2007).

A função objetivo a ser minimizada, durante o processo da reestimação dos parâmetros não lineares pelos diversos métodos de minimização, é a Equação 1.2 ou também chamada relative absolute error. Já para fins de comparação com as redes neurais, a função objetivo a ser minimizada será a soma dos erros quadráticos conforme será explicado na subseção 2.2.12.

2.1.2 ALGORITMOS PARA MINIMIZAÇÃO DE FUNÇÃO OBJETIVO

A indagação costumeira é como minimizar as funções objetivo (para encontrar o melhor conjunto de parâmetros) e como estimar os erros das estimativas de parâmetros. Os diferentes métodos disponíveis na literatura podem ser divididos em três grandes classes: Métodos de Busca Direta; Métodos de Busca Indireta; e Métodos Heurísticos/Estocásticos. Cada uma dessas classes possui vantagens e desvantagens. Entre os métodos de busca indireta, destacam-se os algoritmos do tipo Quadestacam-se-Newton, que fazem uso da derivada de primeira e destacam-segunda

(22)

ordem da função objetivo para orientar a busca pelo mínimo (ou seja, pelas melhores estimativas de parâmetros) (SCHWAAB e PINTO, 2007).

Um exemplo de algoritmo Quase-Newton bastante conhecido é o método de Levenberg-Marquardt (LEVENBERG, 1944).

Diferente dos Métodos de Busca Indireta, os Métodos de Busca Direta não dependem da avaliação de derivadas de primeira e segunda ordem e o deslocamento no espaço de soluções é baseado unicamente na avaliação do valor da função ponto a ponto. Essas estratégias tendem a ser mais velozes, porém menos precisas que os algoritmos indiretos e por isso são particularmente úteis para encontrar valores iniciais para um método Quase-Newton. Entretanto, é importante destacar que ambas as estratégias são dependentes de boas estimativas iniciais e não garantem a obtenção de ótimos globais e é isto o que os diferencia dos algoritmos estocásticos.

Em todos os casos, o programa Statistica pode calcular (por solicitação) os erros padrão das estimativas de parâmetros. Esses erros padrão são baseados nas derivadas parciais de segunda ordem para os parâmetros, que são calculados por aproximação de diferenças finitas (STATISTICA, 2019).

2.1.2.1 MÉTODO QUASE-NEWTON

A inclinação de uma função em um ponto específico pode ser calculada como a derivada de primeira ordem da função (nesse ponto). A "inclinação da inclinação" é a derivada de segunda ordem, que nos diz com que velocidade a inclinação está mudando no respectivo ponto e em que direção. Método de Newton avalia, em cada etapa, a função em diferentes pontos para estimar as derivadas de primeira ordem e as derivadas de segunda ordem. Ele utiliza essas informações para seguir um caminho em direção ao mínimo da função objetivo (HAELTERMAN, 2009). Os algoritmos do tipo Quase-Newton funcionam de forma semelhante, porém no lugar das matrizes de derivadas primeira e segunda, são usadas aproximações que garantam robustez e preservem a eficiência.

(23)

2.1.2.2 ALGORITMO DE LEVENBERG-MARQUARDT

Levenberg (1944) e Marquardt (1963) propuseram um método eficiente para estimar os parâmetros de modelos em regressão não linear. Usando a função objetivo de mínimos quadrados, as derivadas parciais de segunda ordem não precisam ser computadas (ou aproximadas) para encontrar as estimativas dos parâmetros. Em vez disso, em cada iteração, o algoritmo resolverá um conjunto de equações lineares para calcular o gradiente, que computacionalmente é relativamente rápido e menos problemático. De modo geral, ao se analisar grandes conjuntos de dados, esse procedimento de estimativa é fortemente recomendado (GAVIN, 2019).

2.1.2.3 PROCEDIMENTO SIMPLEX

O Método Simplex é um método de busca direta. Este algoritmo não se baseia na computação ou estimativa das derivadas da função objetivo. Em vez disso, a cada iteração, a função será avaliada em “m + 1” pontos no espaço dimensional m. Por exemplo, em duas dimensões (ou seja, quando existem dois parâmetros a serem estimados), o programa avaliará a função em três pontos em torno do valor atual ótimo. Esses três pontos definiriam um triângulo. Em mais de duas dimensões, a "figura" produzida por esses pontos é chamada de Simplex. O Simplex é atualizado e desloca-se no espaço de soluções em busca da melhor combinação de valores dos parâmetros. Quando a atualização do Simplex deixa de encontrar resultados superiores, ele é contraído e inicia-se uma nova busca, até que uma determina tolerância seja atendida (RICHARD, 1991).

Um recurso adicional desse método é que, quando um mínimo parece ter sido encontrado, o Simplex pode ser novamente expandido para se avaliar esse mínimo da função é um mínimo local. Assim, de certa forma, o Simplex se move como um organismo unicelular suave pela função objetivo, contraindo-se e expandindo-se à medida em que são encontrados mínimos locais ou vales significativos (RICHARD, 1991).

(24)

2.1.2.4 MOVIMENTO DE PADRÕES DE HOOKE-JEEVES

Em certo sentido, este é o mais simples de todos os algoritmos de busca direta. A cada iteração, este método primeiro define um padrão de pontos movendo cada parâmetro individualmente, na direção dos eixos de dimensões. Todo o padrão de pontos é então deslocado ou movido para um novo local. Esse novo local é determinado extrapolando a linha do antigo ponto de base no espaço do parâmetro dimensional “m” para o novo ponto base. Os tamanhos de passo neste processo são constantemente ajustados até a obtenção de um mínimo local com uma certa precisão (HOOKE e JEEVES, 1961).

2.1.2.5 BUSCA DE PADRÕES DE ROSENBROCK

O Método de Rosenbrock é semelhante ao Método de Hooke-Jeeves, entretanto os eixos de dimensões do espaço de soluções dos parâmetros são constantemente reorientados, de modo a alinhar o passo à direção de maior probabilidade de obtenção do mínimo. Por essa razão, este método também é chamado de método de rotação de coordenadas. Se a função objetivo for unimodal e tiver um vale detectável apontando para o mínimo da função, esse método continuará com precisão firme em relação ao mínimo da função. No entanto, como todo método de busca direta, esse algoritmo de pesquisa pode terminar mais cedo quando houver vários limites de restrição que se cruzem, levando a uma descontinuidade nas cordilheiras (ROSENBROCK, 1960).

2.1.3 VALORES INICIAIS, TAMANHO DOS PASSOS E CRITÉRIOS DE CONVERGÊNCIA

Um aspecto comum de todos os procedimentos de estimativa de parâmetros citados anteriormente é a especificação de alguns valores iniciais, tamanhos dos passos iniciais e um critério para convergência. Todos os métodos começarão com um conjunto específico de estimativas iniciais (valores iniciais), que serão alterados de alguma maneira sistemática de iteração em iteração. O tamanho do passo determina por quanto os parâmetros serão movidos. Finalmente, o critério de convergência determina quando o processo de iteração para cada conjunto novo de parâmetros reestimados será interrompido. Por exemplo, o processo de busca

(25)

do melhor conjunto de parâmetros pode ser interrompido quando as melhorias na função objetivo se tornam menores que uma quantidade/tolerância específica.

2.1.4 MÍNIMOS LOCAIS

A ameaça mais "traiçoeira" no ajuste de funções são os chamados mínimos locais. Por exemplo, uma função objetivo específica pode se tornar um pouco maior, independentemente de como um parâmetro específico é movido. No entanto, se o parâmetro for movido para um local indesejado, a função objetivo poderá novamente se tornar menor. Pode-se pensar em mínimos locais como "vales" locais ou "cavidades" menores na função objetivo.

No entanto, na maioria das aplicações práticas, os mínimos locais produzirão estimativas de parâmetros "inverossímeis" e extremamente grandes ou pequenas com erro padrão muito grande. (STEWART, 2008). Nesses casos, é aconselhado testar valores iniciais diferentes e tentar novamente. Observa-se também que o método Simplex é particularmente "inteligente" para evitar esses mínimos. Portanto, esse método pode ser particularmente adequado para encontrar valores iniciais apropriados para funções complexas.

2.2 REDES NEURAIS

Nas últimas duas décadas, houve uma explosão de interesse em redes neurais. Tudo começou com a aplicação bem-sucedida desta poderosa técnica em uma ampla gama de domínios problemáticos, em áreas tão diversas e distintas como finanças, medicina, engenharia, geologia e até na física (LIU, 2016).

O grande sucesso das redes neurais sobre quase todas as outras técnicas estatísticas pode ser atribuído ao seu poder, versatilidade e facilidade de uso. As redes neurais são técnicas sofisticadas de modelagem e previsão, capazes de modelar funções extremamente complexas e relacionamentos de dados (KELLER et al., 2016).

A capacidade de aprender com exemplos é um dos muitos recursos das redes neurais que permitem modelar dados e estabelecer regras precisas que governam a relação intrínseca entre vários atributos. A rede neural reúne dados representativos e, em seguida, invoca

(26)

algoritmos de treinamento, que podem aprender automaticamente a estrutura dos dados tal como ela é.

Embora se precise ter algum conhecimento heurístico de como selecionar e preparar dados, como selecionar a rede neural apropriada e como interpretar os resultados, o nível de conhecimento necessário para aplicar com êxito redes neurais é muito menor do que o necessário nas ferramentas e técnicas estatísticas mais tradicionais, como as regressões múltiplas, especificamente quando os algoritmos de rede neural estão ocultos atrás de programas de computador inteligentes e bem projetados, que levam o usuário do início ao fim com apenas alguns cliques (HURWITZ e KIRSCH, 2016).

2.2.1 USANDO AS REDES NEURAIS

As redes neurais têm uma capacidade notável de derivar e extrair significado, regras e tendências de dados complexos, ruidosos e imprecisos. Elas podem ser usadas para extrair padrões e detectar tendências que são governadas por funções matemáticas complicadas, que às vezes podem ser muito difíceis, senão impossíveis, de modelar usando técnicas analíticas ou paramétricas, como as correlações aqui apresentadas.

Uma das habilidades das redes neurais é prever com precisão dados que não faziam parte do conjunto de dados de treinamento, um processo conhecido como generalização. Dadas essas características e sua ampla aplicabilidade, as redes neurais são adequadas para aplicações de problemas do mundo real em pesquisa e na ciência, negócios e na indústria. A seguir são apresentados alguns exemplos de áreas nas quais as redes neurais têm sido aplicadas com sucesso (PATTERSON, 1998): • Processamento de sinal • Controle do processo • Robótica • Classificação • Pré-processamento de dados • Reconhecimento de padrões • Análise de imagem e fala

(27)

• Mercado de ações e previsão

• Solicitações de empréstimo ou crédito

2.2.2 INSPIRAÇÃO BIOLÓGICA

As redes neurais também são intuitivamente atraentes, uma vez que muitos de seus princípios são baseados em modelos brutos e de baixo nível de sistemas biológicos de processamento de informações neurais, que levaram ao desenvolvimento de sistemas de computadores mais inteligentes que podem ser usados em tarefas estatísticas e de análise de dados. As redes neurais surgiram de pesquisas em inteligência artificial, inspiradas principalmente por tentativas de imitar a tolerância a falhas e a "capacidade de aprender" dos sistemas neurais biológicos, modelando a estrutura de baixo nível do cérebro (PATTERSON, 1996).

O cérebro é composto principalmente por um número muito grande (aproximadamente dez bilhões) de neurônios, massivamente interconectados com vários milhares de interconexões. Cada neurônio é uma célula especializada que pode criar, propagar e receber sinais eletroquímicos. Como qualquer célula biológica, o neurônio possui um corpo, uma estrutura de entrada ramificada chamada dendritos e uma estrutura de saída ramificada conhecida como axônio. Os axônios de uma célula se conectam aos dendritos de outra via uma sinapse. Quando um neurônio é ativado, ele dispara um sinal eletroquímico ao longo do axônio. Esse sinal cruza as sinapses para milhares de outros neurônios, que por sua vez podem disparar, propaga o sinal por todo o sistema neural (isto é, o cérebro biológico). Um neurônio dispara apenas se o sinal total recebido no corpo da célula a partir dos dendritos exceder certo nível (CHUDLER, 2009).

Embora um único neurônio não realize nenhuma tarefa significativa por si só, quando os esforços de um grande número deles são combinados, os resultados se tornam bastante dramáticos, pois eles podem criar ou realizar várias tarefas cognitivas extremamente complexas, como aprendizado e até consciência (HURWITZ e KIRSCH, 2016). Assim, a partir de um número muito grande de unidades de processamento extremamente simples, o cérebro consegue executar tarefas extremamente complexas. Embora exista uma grande complexidade no cérebro que não tenha sido discutida aqui, é interessante que as redes neurais artificiais possam obter alguns resultados notáveis usando um modelo básico como este descrito a seguir.

(28)

2.2.3 O MODELO MATEMÁTICO BÁSICO

O esquema de um único sistema neuronal da Figura 2.1 a seguir mostra o seguinte: as entradas “x” enviam sinais para o neurônio no ponto em que uma soma ponderada dos sinais é obtida e posteriormente transformada usando uma função matemática “f”.

Figura 2.1 – Esquema de uma rede neural simples de duas camadas: uma de entrada com dois neurônios e uma de saída com um neurônio

Fonte: BISHOP, 1995

Foi considerada aqui a forma mais simples de redes neurais artificiais, com um único neurônio, um certo número de entradas e uma saída. Embora uma rede artificial mais realista tipicamente consista em muito mais neurônios, esse modelo permite esclarecer o princípio básico dessa tecnologia.

O neurônio recebe sinais de muitas fontes. Essas fontes geralmente são os dados experimentais e são chamadas de variáveis de entrada “x”, ou apenas entradas. As entradas são recebidas de uma conexão que possui certa força, conhecida como os pesos. A força de um peso é representada por um número. Quanto maior o valor de um peso w, mais forte é o sinal recebido e, portanto, mais influente é a entrada correspondente.

Ao receber os sinais, uma soma ponderada das entradas é formada para compor a função de ativação “f” (ou apenas ativação) do neurônio. A ativação do neurônio é uma função matemática que converte a soma ponderada dos sinais para formar a saída do neurônio. Portanto, conforme a Equação 2.2:

(29)

A saída do neurônio é, na verdade, a previsão do modelo de neurônio único para uma variável no conjunto de dados, que é referida como o alvo (ou target) “t”. Acredita-se que exista uma relação entre as entradas “x” e os alvos “t”, e é tarefa da rede neural modelar essa relação conectando as entradas aos alvos através de uma função matemática adequada que pode ser aprendida com exemplos do conjunto de dados.

O modelo discutido é a versão de rede neural mais simples que se pode construir. Esse modelo foi usado para explicar algumas das funcionalidades básicas e princípios das redes neurais e também para descrever o neurônio individualmente. No entanto, como mencionado anteriormente, um único neurônio não pode executar uma tarefa significativa por si só. Em vez disso, muitos neurônios interconectados são necessários para atingir qualquer objetivo específico. Isso exige que se considerem mais arquiteturas de rede neural em aplicações práticas.

Para que uma rede seja útil, deve haver entradas (que carregam os valores de variáveis de interesse no mundo externo) e saídas (que formam previsões ou sinais de controle). Entradas e saídas correspondem a nervos sensoriais e motores, como os que vêm dos olhos e levam às mãos. No entanto, também pode haver neurônios ocultos que desempenham um papel interno na rede. Os neurônios de entrada, ocultos e de saída precisam estar conectados (BISHOP, 1995). Uma rede simples possui uma estrutura de avanço: os sinais fluem das entradas, avançam por quaisquer unidades ocultas, chegando finalmente às unidades de saída. Essa estrutura possui comportamento estável e tolerância a falhas. As redes neurais assim chamadas feedforward são de longe as mais úteis na solução de problemas reais e, portanto, são as mais utilizadas (BISHOP, 1995).

Uma rede feedforward típica possui neurônios dispostos em camadas distintas. Geralmente, a camada de entrada serve apenas para introduzir os valores das variáveis de entrada. Os neurônios da camada oculta e de saída estão conectados a todas as unidades na camada anterior. Também é possível definir redes que estão parcialmente conectadas a apenas algumas unidades na camada anterior (TAHMASEBI e HEZARKHANI, 2011).

Quando a rede é executada, os valores das variáveis de entrada são colocados nas unidades de entrada e, em seguida, as unidades da camada oculta e de saída são executadas progressivamente em sua ordem sequencial. Cada um dos neurônios calcula seu valor de ativação, obtendo a soma ponderada das saídas das unidades na camada anterior. O valor de

(30)

ativação é passado através da função de ativação para produzir a saída do neurônio. Quando toda a rede é executada, os neurônios da camada de saída agem como a saída de toda a rede.

2.2.4 REGRESSÃO LINEAR E A FAMÍLIA DE FERRAMENTAS NÃO PARAMÉTRICAS

Como a maioria dos modelos estatísticos, as redes neurais são capazes de executar várias tarefas importantes, incluindo regressão e classificação de dados. As tarefas de regressão preocupam-se em relacionar várias variáveis de entrada “x” com um conjunto de resultados contínuos “t” (variáveis de destino). Por outro lado, as tarefas de classificação atribuem associações de classe a uma variável de destino categórica, devidas a um conjunto de valores de entrada.

A abordagem mais direta e talvez mais simples da inferência estatística seja assumir que os dados podem ser modelados usando uma forma funcional fechada que pode conter um número de parâmetros ajustáveis (pesos), que por sua vez podem ser estimados para que o modelo possa fornecer a melhor explicação dos dados disponíveis (BISHOP, 1995). Como exemplo, um problema de regressão no qual se pretende modelar ou aproximar uma única variável de destino “t” como uma função linear de uma variável de entrada “x”. A função matemática usada para modelar esse tipo de relação é simplesmente dada por uma transformação linear “f” com dois parâmetros, a saber, a interceptação “a” e a inclinação “b”, conforme mostrado Equação 2.3:

𝑡 = 𝑓(𝑥) = (𝑎 + 𝑏𝑥) (2.3)

A tarefa é encontrar valores adequados para “a” e “b” que relacionem uma entrada “x” à variável “t”. Esse problema é conhecido como regressão linear. Outro exemplo de regressão paramétrica é o problema quadrático em que a relação entrada-saída é descrita por uma expressão quadrática:

𝑡 = 𝑓(𝑥) = (𝑎 + 𝑏𝑥²) (2.4)

A Figura 2.2 mostra a diferença entre os modelos paramétricos e não paramétricos. Nos modelos paramétricos, a relação entrada-alvo é descrita por uma função matemática de forma

(31)

fechada. Por outro lado, em modelos não paramétricos, a relação entrada-alvo é governada por um aproximador (como uma rede neural) que não pode ser representado por uma função matemática padrão (BENITEZ, 1997). Por essa razão, estes modelos também costumam ser informalmente chamados de “caixa preta” (ou black box).

Figura 2.2 – Esquema simplificado de modelos paramétricos e não paramétricos (black box)

Fonte: STATISTICA, 2019 (Modificado)

Os exemplos supracitados pertencem à categoria dos chamados métodos paramétricos. Eles estritamente se baseiam na suposição de que “t” está relacionado a “x” de uma maneira conhecida a priori, ou que pode ser suficientemente aproximado por uma forma matemática fechada, por exemplo, por uma função linear ou quadrática. Uma vez que a função matemática é escolhida, tudo o que se precisa fazer é ajustar os parâmetros do modelo assumido para que ele melhor se aproxime (preveja) “t”, dada uma instância de “x”.

Por outro lado, os modelos não paramétricos geralmente não fazem suposições a respeito da relação de “x” e “t”. Em outras palavras, eles assumem que a verdadeira função que governa a relação entre “x” e “t” não é conhecida a priori, e por isso se usa o termo “caixa preta”. Em vez disso, eles tentam descobrir uma função matemática (que geralmente não possui uma forma fechada) que pode aproximar suficientemente a relação de “x” e “t”. Os exemplos mais populares de modelos não paramétricos são funções polinomiais com parâmetros ajustáveis e as redes neurais artificiais.

Como nenhuma forma fechada para a relação entre “x” e “t” é assumida, um método não paramétrico deve ser suficientemente flexível para poder modelar um amplo espectro de relações funcionais. Quanto maior a ordem de um polinômio, por exemplo, mais flexível o

(32)

modelo. Da mesma forma, quanto mais neurônios tiver uma rede neural, mais poderosa ela se tornará.

Os modelos paramétricos têm a vantagem de serem fáceis de usar e produzirem saídas fáceis de interpretar. Porém, eles sofrem da desvantagem de flexibilidade limitada. Consequentemente, sua utilidade depende estritamente de quão bem a relação entrada-alvo sobrevive ao teste da realidade. Infelizmente, muitos problemas do mundo real não se prestam simplesmente a uma forma fechada, e a representação paramétrica pode frequentemente ser muito restritiva. Não é de se admirar, então, que estatísticos e engenheiros geralmente considerem o uso de modelos não paramétricos, especialmente redes neurais, como alternativas aos métodos paramétricos (TIBCO, 2019).

Em contrapartida, os métodos não paramétricos possuem a desvantagem de depender de um número muito grande de dados e parâmetros para o seu correto funcionamento. Eventualmente, estes números são tão grandes que inviabilizam a sua aplicação prática.

2.2.5 REDES NEURAIS DE PERCEPTRON DE MULTICAMADAS

O diagrama esquemático da Figura 2.3 mostra uma rede neural totalmente conectada com três entradas, quatro unidades ocultas (neurônios) e três saídas. Observa-se que as camadas ocultas e de saída têm um termo de viés (bias). O bias é um neurônio que emite um sinal com força igual a um.

(33)

Fonte: STATISTICA, 2019 (Modificado)

O perceptron de multicamadas (Multilayer Perceptron, MLP) é talvez a arquitetura de rede mais popular em uso atualmente, devido originalmente ao trabalho de Rumelhart e McClelland (1986) e discutida detalhadamente na maioria dos livros didáticos de redes neurais (BISHOP, 1995). Cada neurônio executa uma soma ponderada de suas entradas e passa por uma função de transferência “f” para produzir sua saída. Para cada camada neural em uma rede MLP também existe um termo tendencioso. Um bias é um neurônio no qual sua função de ativação é permanentemente definida como um. Assim como outros neurônios, um bias se conecta aos neurônios na camada acima por meio de um peso, que geralmente é chamado de limiar (threshold).

Os neurônios e os bias são organizados em uma topologia feedforward em camadas. A rede, portanto, tem uma interpretação simples como uma forma de modelo de entrada e saída, com pesos e limites como parâmetros livres (ajustáveis) do modelo. Essas redes podem modelar funções de complexidade quase arbitrária com o número de camadas e o número de unidades em cada camada, dependendo da complexidade da função. Questões importantes no desenho de perceptrons de várias camadas incluem a especificação do número de camadas ocultas e o número de unidades nessas camadas (BISHOP, 1995), além da escolha de funções de ativação e métodos de treinamento.

2.2.6 FUNÇÃO DE ATIVAÇÃO

Como mencionado anteriormente, um perceptron de múltiplas camadas (MLP) é uma arquitetura de rede neural avançada com conexões completas unidirecionais entre camadas sucessivas. No entanto, isso não determina exclusivamente a propriedade de uma rede. Além das arquiteturas de rede, os neurônios de uma rede possuem funções de ativação que transformam os sinais recebidos dos neurônios da camada anterior usando uma função matemática. O tipo dessa função pode influenciar profundamente o desempenho da rede. Assim, é importante escolher um tipo de função de ativação para os neurônios de uma rede neural.

Os neurônios de entrada geralmente não têm função de ativação. Em outras palavras, eles usam a função de identidade, o que significa que os sinais de entrada não são transformados. Em vez disso, eles são combinados em uma soma ponderada (pelos pesos da

(34)

camada de entrada) e transmitidos aos neurônios na camada acima (geralmente chamada de camada oculta).

A função de ativação comumente usada durante a modelagem de redes neurais, tanto para a camada oculta como para a camada de saída, é a função sigmóide (logistic sigmoid), cujas características são mostradas nO Quadro 2.1.

Quadro 2.1 – Função Sigmóide

Fonte: Elaborado pelo autor

2.2.7 SELECIONANDO AS VARIÁVEIS DE ENTRADA

O número de unidades de entrada e saída é definido pelo problema. Acredita-se que a variável alvo depende das entradas e, portanto, sua escolha é clara. Não é assim quando se trata de selecionar as entradas. Pode haver alguma incerteza sobre precisamente quais entradas usar. Deve-se notar que o uso de um número suficiente de entradas corretas é uma questão de grande importância na modelagem preditiva (isto é, relacionar uma variável de destino a um conjunto de entradas) e, de fato, todas as formas de análise estatística. Ao incluir entradas irrelevantes, por exemplo, pode-se danificar inadvertidamente o desempenho da rede neural. Pelo contrário, um conjunto de dados com um número insuficiente de entradas nunca pode ser modelado com precisão por uma rede neural.

2.2.8 COMPLEXIDADE DE UMA REDE NEURAL

A complexidade de uma rede neural é medida pelo número de neurônios nas camadas ocultas. Quanto mais neurônios em uma rede neural, maior a flexibilidade e a complexidade do sistema. Redes neurais flexíveis podem ser usadas para aproximar qualquer função que relacione as variáveis de entrada e alvo. Assim, para modelar um conjunto de dados é importante ter redes neurais suficientemente flexíveis com neurônios suficientes nas camadas ocultas. A escolha ideal do número de neurônios depende do domínio do problema, mas, geralmente, pode estar relacionada ao número de entradas (BISHOP, 1995).

(35)

2.2.9 TREINAMENTO DE REDES NEURAIS

Uma vez que uma arquitetura de rede neural é selecionada, isto é, o tipo de rede neural, as funções de ativação, etc., os parâmetros ajustáveis restantes do modelo são os pesos que conectam as entradas aos neurônios ocultos e os neurônios ocultos aos neurônios de saída. O processo de ajuste desses parâmetros para que a rede possa aproximar o relacionamento funcional subjacente entre as entradas “x” e os alvos “t” são conhecidos como treinamento. Nesse processo é que a rede neural aprende a modelar os dados por exemplos.

Embora existam vários métodos para treinar redes neurais, a implementação da maioria deles envolve algoritmos numéricos que podem concluir a tarefa em um número finito de iterações. A necessidade desses algoritmos iterativos se deve principalmente à natureza altamente não linear dos modelos de redes neurais para os quais uma solução de forma fechada não está disponível na maioria das vezes. Um algoritmo de treinamento iterativo ajusta gradualmente os pesos da rede neural para que, para qualquer dado de entrada “x”, a rede neural possa produzir uma saída o mais próximo possível de “t”.

2.2.10 INICIALIZAÇÃO DE PESOS

Como o treinamento de redes neurais requer um algoritmo iterativo no qual os pesos são ajustados, é preciso primeiro inicializar os pesos com valores iniciais razoáveis. Às vezes, isso pode afetar não apenas a qualidade da solução, mas também o tempo necessário para preparar a rede (treinamento). É importante que se inicialize os pesos usando pequenos valores, para que, no início do treinamento, a rede opere em modo linear. Em seguida, aumenta-se o valor de seus pesos para ajustar os dados com precisão suficiente.

Normalmente, os valores iniciais dos pesos são gerados de forma aleatória, por meio da aplicação de distribuição normal ou uniforme. O método normal inicializa os pesos usando valores normalmente distribuídos, dentro de um intervalo cuja média é zero e o desvio padrão é igual a 1. Como alternativa, o método uniforme atribui valores de peso uniformemente distribuídos no intervalo 0 e 1.

(36)

2.2.11 APRENDENDO POR EXEMPLOS

Uma rede neural por si só não pode ser usada para fazer previsões, a menos que seja treinada com exemplos conhecidos como dados de treinamento. Os dados de treinamento geralmente consistem em pares de entrada-alvo que são apresentados um a um à rede durante o treinamento, para que esta possa aprender com eles. Pode-se visualizar as instâncias de entrada como "perguntas" e os valores de destino como "respostas". Assim, cada vez que uma rede neural é apresentada a um par de entrada-alvo, é efetivamente informado qual é a resposta, dada uma pergunta. No entanto, em cada instância desta apresentação, é necessário que a rede neural faça uma suposição usando o estado atual (ou seja, valor) dos pesos, e seu desempenho é então avaliado usando um critério, como por exemplo uma função de erro nos moldes da função de mínimos quadrados descrita nas seções anteriores. Se o desempenho não for adequado, os pesos da rede são ajustados para produzir uma resposta mais correta.

Em geral, esse processo de aprendizado é ruidoso até certo ponto (ou seja, as respostas da rede às vezes podem ser mais precisas no ciclo anterior de treinamento em comparação com o atual), mas, em média, os erros diminuem de tamanho à medida que o aprendizado da rede progride. O ajuste dos pesos geralmente é realizado usando um algoritmo de treinamento, que, como um professor, ensina à rede neural como adotar seus pesos para fazer melhores previsões para cada conjunto de exemplos de pares de entrada e destino no conjunto de dados.

As etapas anteriores constituem o que chamamos de “treinamento”. Algoritmicamente, o treinamento pode ser descrito como a sequência de etapas:

1. Apresenta-se à rede um par de entrada-saída. 2. Calcular as previsões da rede para as saídas.

3. Usar a função de erro para calcular a diferença entre as previsões (saída) da rede e os

valores de destino. Continuar com as etapas 1 e 2 até que todos os pares de entrada/saída sejam apresentados à rede.

4. Usar o algoritmo de treinamento para ajustar os pesos das redes, a fim de fornecerem

melhores previsões para cada destino de entrada. Observa-se que as etapas de 1 a 5 formam um ciclo de treinamento ou iteração. O número de ciclos necessários para treinar um modelo de rede neural não é conhecido a priori, mas pode ser determinado como parte do processo de treinamento.

(37)

5. Repetir as etapas de 1 a 5 novamente para vários ciclos de treinamento ou iterações até

que a rede comece a produzir saídas suficientemente precisas (ou seja, saídas próximas o suficiente dos objetivos, dados seus valores de entrada).

2.2.12 A FUNÇÃO OBJETIVO

A função objetivo que o Statistica tem como padrão é soma dos desvios quadrados (ou sum of squared deviations), como mostrada na Equação 2.5 a seguir:

𝐸_𝑠𝑜𝑠 = ∑ (𝑦𝑖 − 𝑡𝑖)²

𝑁 𝑁

𝑖=1 (2.5)

onde “N” é o número de dados de treinamento e “yi” é o valor previsto pelas redes neurais e

“ti” é o valor medido experimentalmente. Ela mede o afastamento ou aproximação dos pares

ordenados “yi” e “ti” na curva da função identidade yi=ti. Quando esses pares ordenados recaem perfeitamente sobre aquela curva, isso representa o valor previsto se igualou ao valor observado, e isso é alcançado quando o Equação 2.5 é minimizada, levando toda a nuvem dos pares ordenados é estreitada em torno da curva identidade.

É essa a função que a rede neural terá como missão inimizar. É como um examinador que avalia o desempenho de um aluno. A função objetivo mede o quão perto as previsões da rede estão dos alvos e, portanto, quanto ajuste de peso deve ser aplicado pelo algoritmo de treinamento em cada iteração. Assim, a função objetivo pode ser comparada aos olhos e os ouvidos do algoritmo de treinamento sobre quão bem a rede está desempenhando dado o seu estado atual de treinamento. Essa Equação 2.5 é um tipo de medida de distância entre os alvos e as previsões no local das entradas. Por isso ela é comumente usada em modelagens de machine learning. Ela é simplesmente dada pela soma das diferenças quadráticas entre as saídas de destino e de previsão definidas em todo o conjunto de treinamento, divididas pelo número de dados de treinamento.

É notável que quanto maior a diferença entre a previsão da rede e os alvos, maior o valor do erro, o que significa que é necessário mais ajuste de peso pelo algoritmo de treinamento. A função de soma dos desvios quadrados também é usada principalmente para análise de regressão, pelos motivos já mencionados (SCHWAAB e PINTO, 2007).

(38)

2.2.13 O ALGORITMO DE TREINAMENTO

As redes neurais são ferramentas altamente não lineares que geralmente são treinadas usando técnicas iterativas. As técnicas mais recomendadas para o treinamento de redes neurais são os algoritmos BFGS (Broyden-Fletcher-Goldfarb-Shanno) e Gradiente Conjugado em Escala (BISHOP, 1995). Esses métodos costumam apresentar desempenho significativamente melhor que os algoritmos mais tradicionais, como o Gradient Descent, mas geralmente são mais intensivos em memória e exigem maior esforço computacional. No entanto, essas técnicas podem exigir um número menor de iterações devido ao uso de mais informação no processo de busca (derivadas de segunda ordem aproximadas). Todos estes são Métodos de Busca Indireta, como explicado anteriormente.

Neste estudo, foram testados todos os 3 algoritmos supracitados para cada propriedade, e assim verificou-se qual deles se saiu melhor para cada propriedade PVT.

2.2.13.1 GRADIENTE DESCENDENTE

O Método do Gradiente Descendente é um algoritmo de otimização iterativa de primeira ordem. Para encontrar um mínimo de uma função usando o método, é necessário executar etapas proporcionais ao negativo do gradiente (ou gradiente aproximado) da função no ponto atual. Se, em vez disso, fossem dados passos proporcionais ao positivo do gradiente, encontrar-se-ia um máximo local dessa função (o procedimento é então conhecido como subida de gradiente).

2.2.13.2 BFGS (BROYDEN-FLETCHER-GOLDFARB-SHANNO)

Na otimização numérica, o algoritmo Broyden – Fletcher – Goldfarb – Shanno (BFGS) é um método iterativo para resolver problemas irrestritos de otimização não linear. O método BFGS pertence à classe de métodos Quase-Newton. Para tais problemas, uma condição necessária para um ponto ótimo é que o gradiente seja zero. Não é garantido que o método de Newton e os métodos BFGS convirjam, a menos que uma função exiba um comportamento descrito por uma expansão quadrática de Taylor nas proximidades de um ótimo. No entanto, o BFGS pode ter desempenho aceitável, mesmo para problemas de otimização não lineares.

(39)

2.2.13.3 GRADIENTE CONJUGADO

Na matemática, o Método do Gradiente Conjugado consiste em uma ponderação entre o Método de Newton (ou quase-Newton) e o Método do Gradiente Descendente, unindo a eficiência do primeiro e a robustez do segundo. O Método do Gradiente Conjugado é frequentemente implementado como um algoritmo iterativo, aplicável a sistemas esparsos que são grandes demais para serem manipulados por uma implementação direta ou por outros métodos diretos. Grandes sistemas esparsos geralmente surgem ao resolver numericamente equações diferenciais parciais ou problemas de otimização, como o ajuste de redes neurais.

2.2.14 GENERALIZAÇÃO E PERFORMANCE

O desempenho das redes neurais é medido pela capacidade de prever dados nunca antes vistos (um conjunto de dados como esse é aquele que não foi usado durante o treinamento). Isso é conhecido como generalização. A questão da generalização é realmente uma das principais preocupações ao treinar redes neurais pois é conhecida a sua tendência de “sobreajuste” (overfitting) dos dados de treinamento o que dificulta a previsão de novos dados (SARLE, 1997). Embora sempre se possa ajustar uma rede neural suficientemente grande e flexível para obter um ajuste perfeito (ou seja, erro de treinamento igual a zero), a verdadeira questão é como construir uma rede capaz de prever também novos dados. Nota-se que existe uma relação entre sobreajuste dos dados de treinamento e pouca generalização. Assim, ao treinar redes neurais, é preciso levar em consideração a questão do desempenho e da generalização.

2.2.15 DADOS DE TESTE E PARADA PRECOCE

Existem várias técnicas para combater o problema de sobreajuste e enfrentar a questão da generalização. Os mais populares envolvem o uso de dados de teste. Os dados de teste são uma amostra de suporte que nunca será usada em treinamento. Em vez disso, será usada como um meio de validar o quão bem uma rede progride na modelagem do relacionamento de entrada-saída à medida que o treinamento continua. A maioria dos trabalhos sobre avaliação de desempenho na modelagem neural concentra-se em abordagens para testar dados. Uma rede