GRUPOS DE TREINAMENTO, TESTE E VALIDAÇÃO - Análise comparativa de correlações e redes neurais p

3 METODOLOGIA

3.2 GRUPOS DE TREINAMENTO, TESTE E VALIDAÇÃO

Muitos autores recomendam que durante a modelagem (ou treinamento) de regressão múltipla para obtenção de parâmetros (neste caso parâmetros de regressão múltipla não linear) se deva ter pelo menos de 10 a 20 vezes a quantidade de parâmetros contidos na correlação como sendo o total de amostras a constituir o grupo de treinamento. Por exemplo, a propriedade PVT da pressão de bolha, cuja correlação não linear é composta por 4 parâmetros, necessitará de 10 vezes esse valor, portanto 40 amostras (num total de 180) no mínimo para construir o grupo treinamento. Similarmente, se terá no máximo 20 vezes o número 4, ou seja, 80 amostras para criar o grupo de treinamento. Portanto, foi determinante usar a mesma estrutura funcional das correlações modificadas de Ghetto et al. (1994) para todo o domínio de grau API e em seguida identificar a quantidade de parâmetros que estariam relacionados a cada correlação. As Equações 3.1 – 3.6 a seguir mostram as correlações de Ghetto et al. (1994) e seus respectivos parâmetros que foram reajustados neste trabalho.

Para a pressão de bolha, Ghetto et al. (1994) usaram a estrutura funcional de Standing. Total de 4 parâmetros:

𝑃_𝑏 = 𝑎₁∙ [𝑅𝑠 𝛾𝑔

𝑎2

∙ 10𝑎3∙𝑇

10𝑎4∙𝐴𝑃𝐼] (3.1)

Para razão de solubilidade, Ghetto et al. (1994) usaram a estrutura funcional de Vasquez-Beggs. Total de 4 parâmetros: 𝑅_𝑠 = 𝛾𝑔𝑐𝑜𝑟𝑟∙𝑃𝑏𝑎3 𝑎2 ∙ 10 𝑎4 ∙𝐴𝑃𝐼 / (𝑇+460) _(3.2) onde 𝛾_{𝑔𝑐𝑜𝑟𝑟} = 𝛾_{𝑔𝑃𝑠𝑝}∙ [1 + 𝑎₁ ∙ 𝐴𝑃𝐼 ∙ 𝑇_𝑠𝑝 ∙ 𝐿𝑜𝑔 ( 𝑃𝑠𝑝 114.7) ∙ 10 −4_] _(3.3)

Para a compressibilidade isotérmica, Ghetto et al. (1994) usaram a estrutura funcional de Vasquez-Beggs. Total de 5 parâmetros:

𝐶_𝑜 = −𝑎1+𝑎2 ∙ 𝑅𝑠+𝑎3 ∙ 𝑇𝑅−𝑎4∙𝛾𝑔+𝑎5 ∙𝐴𝑃𝐼

𝑃𝑅∙ 105 (3.4)

Para a viscosidade de óleo morto, Ghetto et al. (1994) usaram a estrutura funcional de Egbogah- Jack. Total de 3 parâmetros:

log log(𝜇_𝑜𝑑+ 1) = 𝑎₁− 𝑎₂ ∙ 𝐴𝑃𝐼 − 𝑎₃ ∙ log (𝑇_𝑅) (3.5)

Para a viscosidade de óleo insaturado, Ghetto et al. (1994) usaram a estrutura funcional de Labedi. Total de 4 parâmetros:

𝜇_𝑜=𝜇_𝑜𝑙− [(1 − 𝑃 𝑃𝑏) ∙ (

10−𝑎1∙𝜇𝑜𝑑𝑎2∙ 𝑃𝑏𝑎3

10𝑎4∙𝐴𝑃𝐼 )] (3.6)

Quadro 3.1 – Relação da quantidade parâmetros não lineares para reestimação Propriedade PVT a1 a2 a3 a4 a5 Total de Parâmetros Pb 1 1 1 1 4 GOR 1 1 1 1 4 Co 1 1 1 1 1 5 Vod 1 1 1 3 Vo 1 1 1 1 4

Fonte: Elaborador pelo autor

A propriedade PVT que possui a maior quantidade de parâmetros é a compressibilidade isotérmica, com um total de 5 parâmetros, o que significa que é baseado nesse valor que a quantidade de amostras para constituir o grupo de treinamento será baseada. Foram usadas, portanto, 2 alternativas para esse cálculo: a quantidade de amostras no grupo de treinamento seria possível de 10 a 20 vezes aquele valor de 5 parâmetros. O Quadro 3.2 a seguir mostra a composição dos possíveis agrupamentos.

Quadro 3.2 – Matriz para seleção do grupo de treinamento e validação Multiplicador Treinamento Validação % Treinamento % Validação

10 50 130 28% 72%

20 100 80 56% 44%

Fonte: Elaborador pelo autor

O valor encontrado para a quantidade de amostras para o grupo de treinamento para essas 2 alternativas foi subtraído do total das 180 amostras válidas para assim gerar a quantidade de amostras para o grupo de validação (BROWNLEE, 2017). Depois, foi calculada a representação percentual do grupo de treinamento e validação em relação ao total das amostras válidas.

Seguindo o esse raciocínio, o número de amostras a ser selecionadas para o conjunto de treinamento deveria estar entre 50 e 100 amostras. No entanto, algumas ressalvas devem ser feitas. Em primeiro lugar, deseja-se usar o mesmo conjunto de amostras para o ajuste das redes neurais na segunda etapa do presente trabalho e, para isso, deve-se levar em consideração que as redes neurais requerem uma quantidade maior de dados para que seu ajuste possa ser devidamente realizado. Em segundo lugar, quando do ajuste das redes neurais será necessário eleger, dentro desse conjunto, um certo número de dados para compor um conjunto de teste, a ser explicado posteriormente. Por estes motivos, é preferível que o conjunto de treinamento seja

um pouco maior que o usual, e com isso foi decidido pelo número de 120 amostras para treinamento e o restante para validação.

A população das 180 amostras se caracteriza pela sua heterogeneidade quando se analisa o grau API, ou seja, ela é fracionada por cada uma das 4 faixas de grau API (extrapesado, pesado, médio e leve). Então julgou-se intuitivamente importante manter a proporção de quanto cada classe de grau API é representada em cada grupo (de treinamento e de validação). O Quadro 3.3 a seguir mostra a participação de cada amostra na sua classe API e grupo de modelagem:

Quadro 3.3 – Composição das amostras por grau API e destinação de grupo de treinamento ou validação Treinamento Validação

Classe API Quantidade 67% 33%

Extra Pesados 13 7% 9 4

Pesados 38 21% 25 13

Médios 32 18% 21 11

Leves 97 54% 65 32

Total 180 120 60

Fonte: Elaborado pelo autor

Posteriormente, com a quantidade de amostras categorizadas foi possível escolher aleatoriamente, no total da população, o relatório PVT da cada amostra. Este relatório é apresentado no Apêndice B.

3.3 ESTIMAÇÃO NÃO LINEAR DE PARÂMETROS

A preparação do banco de dados foi estruturada para obedecer às proporções de escolha feitas no item anterior, para cada uma das 5 propriedades PVT modeladas, incluindo a formatação exigida pelo Statistica. Na opção do menu principal do Statistica, o caminho para acessar a estimação não linear de parâmetros é este: Statistics > Advanced Models > Nonlinear Estimation. Depois se escolhe a mesma forma funcional (Estimated function) da correlação de Ghetto et al. (1994), com as variáveis sendo chamadas por um caractere alfabético e outro numérico. Neste caso, foi usada a letra “v” (primeira letra da palavra “variável”) mais um número sequencial para contabilizar a quantidade de variáveis, onde a variável dependente é 1 e o restante segue a sequência numérica de números naturais. Já para os parâmetros a serem reajustados, foram usados a letra “a” e depois um sequencial.

No caso da função objetivo (Loss function) escolhemos o relative absolute error para efeito de comparação com as correlações de Ghetto et al. (1994), conforme Equação 3.7 a seguir de acordo com o formato Statistica:

𝐿 = 𝐴𝐵𝑆(𝑂𝐵𝑆 − 𝑃𝑅𝐸𝐷)/𝑂𝐵𝑆 (3.7)

onde L é a Loss function ou função objetivo a ser minimizada. ABS é a função absoluto

OBS é o valor da variável dependente observada ou medida experimentalmente PRED é o valor da variável dependente predita pela correção

No caso da função objetivo (Loss function) escolhemos a soma dos desvios quadrados para efeito de comparação com as redes neurais, conforme Equação 3.8 a seguir de acordo com o formato Statistica:

𝐿 = (𝑂𝐵𝑆 − 𝑃𝑅𝐸𝐷) ∗∗ 2 (3.8)

onde L é a Loss function ou função objetivo a ser minimizada. ABS é a função absoluto

OBS é o valor da variável dependente observada ou medida experimentalmente PRED é o valor da variável dependente predita pela correção

Esse procedimento é mostrado na Figura 3.1 a seguir.

Fonte: STATISTICA, 2019

Na seguinte tela, mostrada na Figura 3.2, é escolhida uma série de parâmetros para definir como será a modelagem, dentre eles, o método de estimação, o número de iterações, o critério de convergência, os valores iniciais dos parâmetros a estimar, e o tamanho dos passos iniciais:

Figura 3.2 – Valores Iniciais, Tamanho dos Passos e Critérios de Convergência

Como mencionado na seção 3.2, o objetivo da criação do grupo de treinamento é para reestimar os parâmetros das correlações não lineares de cada propriedade PVT para posteriormente avaliar a capacidade preditiva (mediante o RAAE) com o grupo de validação mediante. Já que a ideia foi de comparar as correlações de Ghetto et al. (1994) com a reestimação de seus parâmetros usando grupo de treinamento, foi nada mais justo do que começar com valores iniciais como sendo aqueles parâmetros usados pelo Ghetto et al. Por isso, O Quadro 3.4 a seguir mostra os valores iniciais dos parâmetros contidos nas correlações não lineares por propriedade PVT que serão reestimados e as Tabelas 3.5 - 3.9 mostram o tamanho dos passos por algoritmo de minimização da função objetivo:

Quadro 3.4 – Valores iniciais (Start Values) dos parâmetros de Ghetto et al. (1994).

Propriedade PVT a1 a2 a3 a4 a5

Pressão de bolha 21,4729 0,7646 0,00119 0,0101 Viscosidade de óleo morto 1,8513 0,025548 0,56238 Razão de Solubilidade 0,5912 37,966 1,1535 9,441 Compressibilidade Isotérmica 1682,8 4,133 22,12 1323,8 10,5 Viscosidade de óleo insaturado 1,9 0,7423 0,5026 0,0243

Fonte: Elaborado pelo autor

Quadro 3.5 – Tamanho do passo (Step Size) dos parâmetros por algoritmo: pressão de bolha

Pressão de bolha a1 a2 a3 a4 Quase-netwon 0,5 0,5 0,5 0,5 Simplex 0,5 0,1 0,001 0,01 Hooke-Jeeves 0,0001 0,0001 0,00001 0,0001 Rosenbrock 0,001 0,001 0,001 0,001 Levenberg-Marquardt 0,5 0,5 0,5 0,5

Fonte: Elaborado pelo autor

Quadro 3.6 – Tamanho do passo (Step Size) dos parâmetros por algoritmo: viscosidade de óleo morto

Viscosidade de óleo morto a1 a2 a3

Quase-netwon 0,5 0,5 0,5

Simplex 0,001 0,00001 0,0001 Hooke-Jeeves 0,0001 0,000001 0,0001 Rosenbrock 0,0001 0,000001 0,0001 Levenberg-Marquardt 0,5 0,5 0,5

Quadro 3.7 – Tamanho do passo (Step Size) dos parâmetros por algoritmo: razão solubilidade Razão de solubilidade a1 a2 a3 a4 Quase-netwon 0,5 0,5 0,5 0,5 Simplex 1 1 1 1 Hooke-Jeeves 2 2 2 2 Rosenbrock 1 1 1 1 Levenberg-Marquardt 0,5 0,5 0,5 0,5

Fonte: Elaborado pelo autor

Quadro 3.8 – Tamanho do passo (Step Size) dos parâmetros por algoritmo: compressibilidade isotérmica Compressibilidade Isotérmica a1 a2 a3 a4 a5 Quase-netwon 0,5 0,5 0,5 0,5 0,5 Simplex 10 1 5 10 5 Hooke-Jeeves 2 2 2 2 2 Rosenbrock 1 1 1 1 1 Levenberg-Marquardt 0,5 0,5 0,5 0,5 0,5

Fonte: Elaborado pelo autor

Quadro 3.9 – Tamanho do passo (Step Size) dos parâmetros por algoritmo: viscosidade de óleo insaturado

Viscosidade de óleo insaturado a1 a2 a3 a4

Quase-netwon 0,5 0,5 0,5 0,5

Simplex 0,1 0,1 0,1 0,01

Hooke-Jeeves 0,01 0,0001 0,0001 0,0001 Rosenbrock 0,01 0,0001 0,0001 0,0001

Levenberg-Marquardt 0,5 0,5 0,5 0,5

Fonte: Elaborado pelo autor

Esse processo de seleção de inputs, foi repetido para cada variável, alternando os 5 métodos de treinamento, medindo o tempo de treinamento seja para a função objetivo do relative absolute error ou soma dos desvios quadrados. Uma vez obtidos os 120 valores preditos para grupo de treinamento com os parâmetros reajustados, posteriormente foi calculado o RAAE entre os valores preditos e observados para as 60 amostras e assim verificar qual dos algoritmos geraria o menor RAAE.

3.4 REDES NEURAIS

Para a construção das redes neurais, as variáveis de entrada e a variável alvo são as mesmas apresentadas nO Quadro 3.1 para as correlações, para cada uma das cinco propriedades PVT abordadas.

Devido à limitação por parte da versão trial do Statistica em não permitir a implementação de mais de uma camada oculta, o nosso MLP para todas as correlações será de 3 camadas: uma de entrada, outra para oculta e de saída (nesta última, onde será gerada a propriedade PVT predita).

Durante o processo de treinamento/teste das redes neurais a quantidade de neurônios na camada oculta foi modificada para verificar qual seria o menor número de neurônios necessário para se obter o mesmo desempenho das correlações.

Neste trabalho foi o usado o método normal citado na Seção 2.2.1 para a geração dos valores iniciais dos pesos, pois este permite a atribuição de pesos positivos e negativos, dessa forma abrangendo uma maior gama no domínio de busca.

No capítulo anterior foi enfatizada a importância da definição de o grupo de teste além do grupo de treinamento. Entretanto, para que a comparação entre redes neurais e as correlações ajustadas pela soma dos desvios quadrados seja justa, é importante que se mantenha a mesma proporção dos dados de treinamento. Por isso, foram reutilizados os mesmos 120 dados do grupo de treinamento, dos quais 30 foram para o grupo de teste, sobrando, portanto, exatamente os mesmos 60 dados para o grupo de validação. O caminho para chegar na modelagem das redes neurais é: Statistics > Neural Nets > Regression. Se escolhe a variável alvo ou dependente (continuous target) e as variáveis preditoras ou independentes (continuous inputs). Esta estapa é mostrada na Figura 3.3.

Figura 3.3 – Seleção da variável target e das variáveis input

Depois são escolhidos os grupos de treinamento, teste e validação, baseados numa coluna auxiliar, como mostrado na Figura 3.4 a seguir.

Figura 3.4 – Separação das amostras por grupo de treinamento, teste e validação

Fonte: STATISTICA, 2019

Posteriormente são escolhidos o tipo de rede, que no caso desta pesquisa é a MLP, e a função de erro ou função objetivo, que é a soma dos desvios quadrados, conforme Figura 3.5. Finalmente, a função de ativação é a logistic (sigmóide).

Figura 3.5 – Escolha das redes a treinar, o número de neuronios da camada ocula, o tipo de rede e a função objetivo

Fonte: STATISTICA, 2019

Na seguinte etapa, escolhem-se fatores preponderantes como o algoritmo de aprendizagem ou treinamento, o número de ciclos de treinamento (iterações), a taxa de aprendizado e a forma de inicialização dos pesos, como mostrado na Figura 3.6 a seguir.

Figura 3.6 – Escolha dos ciclos, taxa de aprendizagem, aleatoriedade dos pesos, critério da parada precoce

A estratégia para encontrar a rede neural ideal para cada propriedade PVT foi baseada na fixação de 4 neurônios e na alternância da quantidade de ciclos em 100, 200, 400, 500, 800, 1000, 2000, 3000, 4000, 5000, 8000 e 10000. Assim, seria detectado qual dentre os 3 algoritmos de aprendizado ou treinamento seria o que forneceria o menor RAAE baseado em apenas 4 neurônios. Depois de escolhido o melhor algoritmo, outra rodada seria estipulada em alterar a quantidade de neurônios na camada oculta em 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28 e 30, separando em grupos de 100 ciclos e 10000 ciclos. Dentre o total de redes treinadas, deve- se escolher a melhor de acordo com o valor de RAAE calculado. Para a análise da escolha do melhor algoritmo de aprendizagem, vide Apêndice C. Para a visualização da escolha da melhor quantidade de neurônios na camada oculta, vide Apêndice D.

No documento Análise comparativa de correlações e redes neurais para predição de propriedades de fluidos de petróleo (páginas 44-56)