ALGORITMO Q-LEARNING - APRENDIZAGEM POR REFORÇO

2. ASPECTOS TEÓRICOS

2.6 APRENDIZAGEM POR REFORÇO

2.6.3 ALGORITMO Q-LEARNING

O algoritmo Q-Learning desenvolvido por Watkins (1989), é considerado uma das mais importantes contribuições em aprendizagem por reforço. Nesse método a convergência para valores ótimos de Q não depende da política que está sendo utilizada, ou seja, a função ação- valor Q se aproxima diretamente da função ação valor ótima Q*, por meio de atualizações dos pares estado-ação que são realizadas ao passo que estes pares são visitados. A expressão de atualização da matriz dos Q-valores no algoritmo Q-Learning, baseia-se na função ação-valor a partir da Equação (16):

𝑄_𝑡+1(𝑠_𝑡, 𝑎_𝑡) = 𝑄_𝑡(𝑠_𝑡, 𝑎_𝑡) + 𝛼[𝑟(𝑠_𝑡, 𝑎_𝑡) + 𝛾 max

𝑎 𝑄𝑡(𝑠𝑡+1, 𝑎) − 𝑄𝑡(𝑠𝑡, 𝑎𝑡)] Equação (16)

Onde:

• st é o estado atual;

• at é a ação realizada no estado st ;

• 𝑄_𝑡(𝑠𝑡, 𝑎𝑡) é o valor atribuído a ação at no estado st e representa o valor associado

dessa ação na maximização da função retorno acumulado;

• 𝑟(𝑠_𝑡, 𝑎_𝑡) é o reforço imediato recebido no estado st por ter tomado a ação at ;

• st+1 é o estado futuro;

• max

𝑎 𝑄𝑡(𝑠𝑡+1, 𝑎) é o valor Q correspondente a ação com maior valor de reforço no

estado futuro;

• α é a taxa de aprendizado tendo como função controlar a velocidade das atualizações (pode assumir qualquer valor entre 0 e 1);

Kaline Souza dos Santos • γ é o fator de desconto tendo como função controlar o grau de influência de

recompensas futuras no instante t sobre a recompensa imediata (rt+1).

- γ = 1: as recompensas futuras são fortemente consideradas;

- γ < 1: a influência do somatório das recompensas futuras é limitada;

- γ = 0: maximiza as recompensas imediata, ou seja, o objetivo é simplesmente aprender uma ação (at) em um estado (st) para maximizar somente rt+1 ;

Uma característica relevante deste algoritmo é que a seleção das ações a serem efetuadas durante o processo de aproximação interativa da função Q pode ser realizada por meio de qualquer estratégia de exploração/explotação, inclusive de forma aleatória. Uma técnica muito utilizada para tal seleção é a chamada exploração ε-gulosa, que consiste na escolha da ação associada ao maior valor Q com probabilidade 1 – ε e na escolha aleatória de qualquer outra ação com probabilidade ε. O parâmetro ε é responsável pelo controle entre gula e aleatoriedade na seleção das ações.

A regra de seleção de ações da política ε-gulosa é dada na Equação (17):

𝜋(𝑠) = { 𝑎

∗_{𝑐𝑜𝑚 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 1 − 𝜀}

𝑎_𝑎 𝑐𝑜𝑚 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 𝜀 Equação (17)

Em que:

• 𝜋(𝑠) é a política de decisão para o estado corrente s;

• 𝑎∗_{é a ação mais bem estimada para o estado s no instante atual;}

Dissertação de Mestrado PPGCEP / UFRN Capítulo III: Estado da Arte

Kaline Souza dos Santos

3. ESTADO DA ARTE

Na literatura há vários estudos que abordam a utilização de algoritmos inteligentes para a otimização da produção de petróleo. A seguir descrevem-se alguns trabalhos relacionados ao estudo:

3.1 Estado da Arte

Lima Júnior (2005) propõe o uso da técnica de aprendizagem por reforço, com o algoritmo Q-Learning, para a otimização do problema do gerenciamento de sondas de produção terrestre. O estado do ambiente foi caracterizado como uma configuração possível das sondas disponíveis. O objetivo foi encontrar uma alternativa ótima que indicasse os movimentos das sondas de produção terrestre de modo que o custo total nestes deslocamentos fosse o menor possível. Como resultados, observou-se que o desempenho do algoritmo proposto foi melhor do que o de algoritmos consagrados para a solução do PKS e cujas taxas de competitividade já foram provadas. Com isso, a aprendizagem por reforço mostrou-se uma ferramenta eficaz no desenvolvimento de algoritmos para a otimização do problema do gerenciamento de sondas de produção terrestre.

Oliveira (2010) propõe o estudo preliminar de um sistema inteligente de auxílio às tomadas de decisões, submetido ao processo de injeção de vapor cíclica e contínua, no que diz respeito à otimização do desenvolvimento da produção de petróleo fornecendo a maximização do VPL ao longo do tempo. O sistema foi implementado com o algoritmo Q-Learning do método de aprendizado por reforço. Cada alternativa referiu-se a injetar ou não injetar vapor de forma cíclica ou contínua no campo de produção. O resultado alcançado foi que a injeção de vapor cíclica obteve os melhores resultados do VPL e em menos tempo em comparação a injeção de vapor contínua.

Oliveira et al. (2016) foi realizada a modelagem e desenvolvimento de um sistema de otimização de localização, quantidade e controle de válvulas de poços inteligentes sob incertezas de falha. Empregou-se algoritmo genético coevolucionário para modelar o processo de otimização junto com simulação Monte Carlo para o tratamento das incertezas. O sistema foi capaz de otimizar uma estratégia proativa de controle de válvulas, existentes em poços inteligentes, de uma certa alternativa. Os resultados indicaram que os valores obtidos nos testes tiveram ganhos significativos do uso da completação inteligente através do aumento no Fator de Recuperação do campo, da redução dos volumes de água produzida e do prolongamento da vida dos poços e do reservatório sem apresentar um risco significativo.

Dissertação de Mestrado PPGCEP / UFRN Capítulo III: Estado da Arte

Silva (2017) apresenta a implementação de um sistema otimizador multiobjetivo baseado no algoritmo genético NSGA-II (Non-Dominated Sorting Genetic Algorithm), que oferece uma ferramenta de suporte à decisão e automatiza a busca de alternativas para o desenvolvimento de campos petrolíferos submetidos ao processo de injeção de água. Cada alternativa referiu-se à forma como um campo petrolífero, conhecido e delimitado, é colocado em produção, isto é, diz respeito à determinação do número e a disposição dos poços produtores e injetores no campo. A aplicação do algoritmo consistiu em encontrar as configurações de produção que, em longo prazo, forneçam o maior valor presente líquido. Com os resultados apresentados foi possível observar que em vários casos as aplicações das linhas de ação possibilitaram aumentos significativos no VPL e no Fator de Recuperação (FR) ao final do projeto.

Guevara et al. (2018) propõe o estudo preliminar de um sistema inteligente de auxílio às tomadas de decisões, submetido ao processo de injeção de vapor, no que diz respeito à otimização do desenvolvimento da produção de petróleo fornecendo como recompensa a maximização do VPL ao longo do tempo. O sistema foi implementado com o algoritmo Sarsa do método de aprendizado por reforço. Cada linha de ação referiu-se a aumentar, diminuir ou não alterar a taxa de injeção de vapor no campo de produção de óleo pesado. Os resultados mostram que a política ótima de vapor obtida usando a implementação da aprendizagem por reforço melhora o VPL pelo menos 30% com um custo operacional menor que 60%.

Os estudos mencionados apresentaram diversas aplicações de métodos (ou algoritmos) inteligentes de otimização da produção e gerenciamento de campos de petrolíferos. No entanto, no presente trabalho sugere o desenvolvimento de um sistema inteligente, baseado no algoritmo Q-Learning da aprendizagem por reforço para encontrar a melhor configuração operacional para um reservatório submetido a injeção de água.

Kaline Souza dos Santos

Dissertação de Mestrado PPGCEP / UFRN Capítulo IV: Metodologia Experimental

4. METODOLOGIA EXPERIMENTAL

Neste capítulo são mostradas as ferramentas computacionais usadas para as simulações, os dados de entrada requeridos para a simulação do reservatório estudado e para a modelagem, as características dos fluidos, a descrição das condições operacionais e da rocha-reservatório. Além disso, é descrita a formulação do problema estudado e a metodologia de análise.

4.1 Ferramentas Computacionais

Para efetuar o estudo proposto, algumas ferramentas computacionais são necessárias. Tanto aquelas relacionadas à simulação de reservatórios quanto à inteligência computacional e análises estatísticas.

• Simulador STARS

Para a execução deste trabalho, utilizou-se o programa desenvolvido pela empresa CMG (Computer Modelling Group) versão 2016.1. Dentre as várias ferramentas oferecidas por esse programa, foi essencial a utilização dos módulos STARS, RESULTS (3D e Graphs).

Para a simulação do processo de injeção de água, utilizou-se o módulo STARS, um simulador numérico trifásico de múltiplos componentes da CMG.

As simulações nesse programa têm como dados de entrada a configuração da malha e o modelo físico, que consistem nas características do meio (propriedades físicas da rocha- reservatório); propriedades dos fluidos e condições de contorno (descrição das fronteiras do reservatório); condições operacionais (método, quantidade, orientação, distribuição e atribuições dos poços) e condições iniciais. Como resultado, obtém-se a partir da iteração desses fatores, por exemplo, a produção e vazão de óleo e água em cada poço produtor, além de outros dados.

Kaline Souza dos Santos • MATLAB

O MATLAB (MATrix LABoratory) versão R2012a é um sistema completo para cálculos e outras manipulações matemáticas, e seu elemento bifásico de informação é sempre uma matriz, de uma ou mais dimensões. Essa ferramenta computacional contribuiu para a elaboração do sistema inteligente e utilização às implementações do algoritmo.

• STATISTICA

O tratamento estatístico foi realizado através software STATISTICA (Versão 7.0), utilizado na análise dos efeitos principais e as interações entre os parâmetros analisados no planejamento e otimização de experimentos.

4.2 Modelo do Reservatório

O modelo físico do reservatório engloba as propriedades da rocha-reservatório. Para efetuação deste trabalho, o modelo base usado foi o reservatório homogêneo, semissintético com características similares aos encontrados no Nordeste brasileiro e com dimensões: 400 m de comprimento, 400 m de largura e 26 m de espessura, cujo contato entre as zonas de óleo a água acontece em 20 m a partir do topo. O sistema de injeção para os modelos bases estudados consiste das malhas: (a) Nine Spot invertido, (b) Five Spot invertido e (c) Five Spot invertido cruz, ou seja, malhas com um poço de injeção central cercado por poços de produção, como mostra a Figura 4.1.

Os modelos de reservatórios analisados (Fig. 4.1) levaram em consideração o estudo realizado por Silva (2017). Foi considerado que não existe fluxo de fluidos através dos limites do reservatório e são feitas as seguintes considerações:

• Existem duas fases: óleo, água; • Não existem reações químicas; • Não há sólidos nos fluido.

Dissertação de Mestrado PPGCEP / UFRN Capítulo IV: Metodologia Experimental 400 m 400 m 26 m i j k

Figura 4.1. Modelos bases em 3 dimensões (a) Nine-Spot invertido; (b) Five Spot invertido; (c) Five Spot invertido Cruz.

a)

b)

c)

Inj = poço injetor Prod = poço produtor

Direções i e j = 21 blocos (19,05 m/bloco) Direção k = 20 blocos*1 m ; 2 blocos*3 m

Kaline Souza dos Santos

As propriedades físicas dos fluidos e das rochas são mostradas na Tabela 4.1 e foram baseadas em características similares aos dos reservatórios encontrados no Nordeste Brasileiro.

Tabela 4.1: Propriedades da rocha-reservatório

Fonte: (Modificado de Silva, 2017)

A seguir, as curvas de permeabilidade relativa versus saturação de água-óleo, bem como para o sistema gás-líquido, estão representadas nas Figuras 4.2 e 4.3, respectivamente. Ressalta-se que, para o reservatório saturado com óleo e água as três fases coexistem no meio poroso. Temperatura inicial (ºC) 64 Permeabilidade Horizontal, Kh (mD) 400 Permeabilidade Vertical, Kv (mD) Porosidade (%) 40 23

Profundidade do reservatório – Topo (m) 687

Pressão de referência (psi) 1.462,16

Espessura da zona de óleo (m) 20

Espessura da zona de água (m) 6

Volume original do óleo (m³ std) 247.145

Volume original da água (m³ std) 180.840

Contato água-óleo – DWOC (m) 707

Condutividade térmica da rocha-reservatório (J/m-s-K) 1,7

Dissertação de Mestrado PPGCEP / UFRN Capítulo IV: Metodologia Experimental

Figura 4.2: Curvas de permeabilidade relativa ao sistema água-óleo.

Kaline Souza dos Santos

4.3 Modelagem do Fluido

O modelo do fluido utilizado no reservatório foi o composicional realizado por Silva (2014 Apud Silva, 2017). Esse tratamento composicional leva em consideração não somente a pressão e a temperatura do reservatório, mas também os componentes das várias fases presentes no meio poroso. Normalmente, quando a quantidade de hidrocarbonetos é muito grande, costuma-se agrupá-los em pseudocomponentes, pois assim reduz o tempo computacional.

Nas condições de reservatório, o óleo considerado possui viscosidade equivalente a 17 cP, temperatura de 50 ºC, pressão de saturação de 387,36 kPa (56,18 psi) e seu grau API de 28,66.

Elaborou-se um modelo de fluidos composicional onde o componente mais pesado o C12+ possui uma fração molar de 40,07%, massa específica é de 0,921 g/cm³ e massa

molecular de 687.

Na Tabela 4.2, mostra o agrupamento e suas respectivas frações molares.

Tabela 4.2: Composição do óleo (Black-Oil)

Fonte: Silva, 2014 Apud Silva, 2017

Pseudocomponentes Frações molares (%)

N2 0,073 CH4 - C3H 0,45 IC4 - NC5 8,86 'C6 - C9 34,03 C10 - C11 16,51 C12+ 40,07

Dissertação de Mestrado PPGCEP / UFRN Capítulo IV: Metodologia Experimental

No documento Sistema de apoio à decisão no desenvolvimento de um campo de petróleo com injeção de água usando aprendizagem por reforço (páginas 38-50)