Desconvolução preditiva de múltiplas baseada em redes neurais artificiais

(1)

Faculdade de Engenharia Elétrica e de Computação

Farzin Shams

Desconvolução preditiva de múltiplas baseada

em redes neurais artificiais

Campinas

2019

(2)

Faculdade de Engenharia Elétrica e de Computação

Farzin Shams

Desconvolução preditiva de múltiplas baseada em redes

neurais artificiais

Dissertação apresentada à Faculdade de En-genharia Elétrica e de Computação da Uni-versidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Mestre em Engenharia Elétrica, na Área de Engenharia de Computação.

Orientador: Prof. Dr. Rafael Ferrari Co-orientador: Prof. Dr. Levy Boccato

Este exemplar corresponde à versão final da dissertação defendida pelo aluno Farzin Shams, e orientada pelo Prof. Dr. Rafael Ferrari

Campinas

2019

(3)

Biblioteca da Área de Engenharia e Arquitetura Rose Meire da Silva - CRB 8/5974

Shams, Farzin,

Sh17d ShaDesconvolução preditiva de múltiplas baseada em redes neurais artificiais / Farzin Shams. – Campinas, SP : [s.n.], 2019.

ShaOrientador: Rafael Ferrari.

ShaDissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação.

Sha1. Desconvolução. 2. Método sísmico de reflexão - Processamento de dados. 3. Redes neurais (Computação). I. Ferrari, Rafael, 1977-. II.

Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Predictive deconvolution of multiples based on artificial neural

networks

Palavras-chave em inglês:

Seismic reflection method - Deconvolution Digital Signal Processing

Neural Networks (Computer science)

Área de concentração: Engenharia de Computação Titulação: Mestre em Engenharia Elétrica

Banca examinadora:

Rafael Ferrari [Orientador] Romis Ribeiro de Faissol Attux Rafael Krummenauer

Data de defesa: 28-05-2019

Programa de Pós-Graduação: Engenharia Elétrica

Identificação e informações acadêmicas do(a) aluno(a)

- ORCID do autor: https://orcid.org/0000-0002-6469-1539 - Currículo Lattes do autor: http://lattes.cnpq.br/6145699840773461

(4)

Candidato: Farzin Shams RA: 139424

Data da defesa:_{28 de maio de 2019}

Título da Dissertação:_{"Desconvolução preditiva de múltiplas baseada em redes}

neurais artificiais".

Prof. Dr. Rafael Ferrari (Presidente, FEEC/UNICAMP) Prof. Dr. Rafael Krummenauer (UEM)

Prof. Dr. Romis Ribeiro de Faissol Attux (FEEC/UNICAMP)

A ata de defesa, com as respectivas assinaturas dos membros da Comissão Julgadora, encontra-se no SIGA (Sistema de Fluxo de Dissertação/Tese) e na Secretaria de

(5)

Agradeço aos meus pais, Kiamarz e Nilse, por todo carinho, apoio e compre-ensão em todas as fases da minha vida.

Ao meu orientador e co-orientador, Rafael e Levy, pela atenciosa orientação, sem a qual este trabalho não teria sido realizado.

A todos os amigos do Laboratório de Processamento de Sinais para Comuni-cações (DSPCom), pela companhia.

Aos funcionários e professores da Unicamp.

(6)

(7)

Em imageamento sísmico, os sinais coletados não contêm somente as reflexões primárias das estruturas abaixo da superfície, mas também apresentam reflexões múltiplas dessas estruturas. Tais múltiplas são indesejadas e podem dificultar a interpretação e análise da imagem sísmica obtida a partir destes sinais. Para atenuar os efeitos destas reflexões in-desejadas, pode-se utilizar a técnica de desconvolução preditiva. Nesta técnica, um filtro é usado para prever as múltiplas e removê-las dos sinais originais. Neste trabalho, apresenta-se o uso de três estruturas não-lineares como preditores: as redes neurais Extreme Learning

Machine (ELM), Echo State Network (ESN) e Multilayer Perceptron (MLP), que foram

aplicadas em diferentes traços sísmicos sintéticos e comparados com o resultado obtido por um preditor linear. Os resultados obtidos em dados sintéticos mostram benefícios no uso de tais estruturas ao custo de um processamento maior em relação ao preditor linear.

Palavras-chaves: Remoção de múltiplas; Desconvolução preditiva; Extreme learning

(8)

In seismic imaging, the collected signals not only contain the primary reflections of the subsurface structures, but also multiple reflections. These multiples are unwanted and may impede proper and reliable analysis of the seismic image obtained from these signals. In order to mitigate the effect of the multiple events, a predictive deconvolution approach can be employed. In this approach, a filter is used to predict multiples and remove them from the original signal. In this work, we use three different nonlinear neural networks as predictors: an Extreme Learning Machine (ELM), an Echo State Network (ESN) and a Multilayer Perceptron (MLP), which were applied to different synthetic seismic traces and compared to a linear predictor. The results obtained in synthetic data show clear advantages over the linear predictor, with only a minor drawback of being computationally more expensive.

Keywords: Multiple removal; Predictive deconvolution; Extreme learning machines; Echo

(9)

Figura 1.1 – A seção geológica e a impedância acústica em relação à profundidade em a) e, em b), a função de refletividade correspondente que, ao ser convoluída com a wavelet característica da fonte, gera o traço sísmico. Figura adaptada de Keary et al. (2002). . . . 15 Figura 1.2 – A figura a) mostra o arranjo da aquisição (CSG); enquanto a figura b)

mostra arranjo usado no processamento (CMP). . . 15 Figura 1.3 – Par fonte-receptor e a relação hiperbólica entre o tempo de trânsito e

o afastamento. Supõe-se que as interfaces são paralelas e horizontais, e que o meio de propagação é homogêneo. Repare que os termos 𝑣𝑡 e

𝑣𝑡0 correspondem à dimensão de espaço, e estão divididos por dois pois

correspondem a somente metade do percurso. . . 16 Figura 1.4 – Conjunto CMP sobre o qual é feito a correção NMO e, em seguida,

em-pilhado. O traço resultante é denominado traço de zero offset simulado. Repare que o ruído deste traço é significativamente reduzido. Imagem adaptada de Filho (2015). . . 17 Figura 2.1 – Diferentes tipos de múltiplas. A parte em azul representa a camada

d’água, e a em bege representa a primeira camada abaixo do fundo do mar. a) Múltiplas que reverberam somente na camada d’água. b) Múltiplas que reverberam na camada d’água, mas que tem uma única reflexão em outra camada abaixo do fundo do mar. c) Múltiplas que tem pelo menos uma reflexão na superfície, mas nenhuma no fundo do mar. d) Múltiplas que não têm reflexão na superfície do mar. Imagem adaptada de (VERSCHUUR, 2006). . . 20 Figura 2.2 – Ilustração das funções de refletividade, dos sistemas geradores de

múl-tiplas e do resultado da interação entre eles. . . 24 Figura 2.3 – Família CMP no domínio x-t e 𝜏 −𝑝. Imagem adaptada de Yilmaz (2001). 26 Figura 2.4 – Comparação entre traços no domínio 𝜏 − 𝑝 em 𝑝 = 0 s/m pertencentes

a conjuntos CMP com e sem os offsets iniciais. . . . 27 Figura 2.5 – Fluxograma resumindo o procedimento a ser seguido. . . 28 Figura 3.1 – Estrutura do filtro de erro de predição. . . 31 Figura 3.2 – Diagrama da desconvolução do traço definido pela Equação (3.9) por

um FEP. . . 33 Figura 3.3 – Exemplo da filtragem de um único traço sísmico no domínio

(10)

Figura 3.5 – Estrutura geral de uma FNN. A informação percorre pelos neurônios

da esquerda (entrada) à direita (saída). . . 37

Figura 3.6 – Função tangente hiperbólica. . . 38

Figura 3.7 – Exemplo de uma MLP. . . 40

Figura 3.8 – Estrutura das ELMs de uma camada intermediária e uma saída. . . 43

Figura 3.9 – Estrutura das ESNs de uma camada intermediária e uma saída. . . 44

Figura 4.1 – Família CMP do cenário 1 nos domínios 𝑥 − 𝑡 e 𝜏 − 𝑝. Há somente uma primária em 0,1. Os traços com offsets iniciais estão presentes. . . . 50

Figura 4.3 – Família CMP do cenário 2 nos domínios 𝑥 − 𝑡 e 𝜏 − 𝑝. Há somente uma primária em 0,1 s. Os traços com offsets iniciais não estão presentes. . 51

Figura 4.2 – Traço em 𝑝 = 0 s/m no domínio 𝜏 − 𝑝 com somente uma primária e com a presença dos offsets iniciais. . . . 52

Figura 4.4 – Traço em 𝑝 = 0 no domínio 𝜏 − 𝑝 com somente uma primária sem a presença dos offsets iniciais. . . . 54

Figura 4.5 – Família CMP do cenário 3 nos domínios 𝑥−𝑡 e 𝜏 −𝑝. Há duas primárias: a primeira em 0,1 s e a segunda em 0,35 s. Os traços com offsets iniciais não estão presentes. . . 55

Figura 4.6 – Traço em 𝑝 = 0 s/m no domínio 𝜏 − 𝑝 com duas primárias e sem a presença dos offsets iniciais. . . . 56

Figura 4.7 – Desvio padrão em função de 𝜏 (𝑠) considerando 100 experimentos inde-pendentes da ELM, ESN e MLP. . . 57

Figura 4.8 – Resultado da filtragem da família CMP do cenário 3. . . 59

Figura 4.9 – Traço empilhado e replicado do cenário com três primárias. As am-plitudes dos traços foram normalizadas e limitadas para melhorar a visualização. Os tempos indicados no eixo vertical correspondem aos instantes em que as primárias ocorrem. . . 60

Figura 4.10–Autocorrelação do traço filtrado na Fig. 4.6, onde 𝑇𝑤 é o tempo de trânsito da primeira primária, 𝐿 é o passo de predição, e 𝐾 é o número de amostras de entrada do preditor. O ponto vermelho indica o pico (𝜏 = 0.088 s) da autocorrelação associado às múltiplas. . . . 62

Figura 4.11–Restrições sob 𝐿 e 𝐾. A região em cinza indica os valores que estas variáveis podem assumir. . . 63

Figura 4.12–Extensão do diagrama de blocos do FEP. . . 64

Figura 4.13–𝑙𝑜𝑔10(𝑀 𝑆𝐸𝑝𝑟𝑒𝑑) e 𝑙𝑜𝑔10(𝑀 𝑆𝐸𝑟𝑒𝑓) em função de 𝑁 para os três filtros não-lineares. Os erros para cada valor de 𝑁 foram determinados a partir de 100 execuções independentes de cada filtro. . . 65

(11)

Figura 4.16–𝑀 𝑆𝐸𝑟𝑒𝑓 em função de 𝐾 e 𝐿 para a ESN. . . . 67

Figura 4.17–𝑀 𝑆𝐸𝑟𝑒𝑓 em função de 𝐾 e 𝐿 para a MLP. . . . 67

Figura 4.18–Erro médio de predição em função do número de neurônios da camada interna de ELM. . . 69 Figura 4.19–Erro médio de predição em função do número de neurônios da camada

interna de ESN. . . 69 Figura 4.20–Erro médio de predição em função do número de neurônios da camada

interna de MLP. . . 70 Figura 4.21–Família CMP do cenário 4 nos domínios 𝑥−𝑡 e 𝜏 −𝑝. Há três primárias:

a primeira em 0,1 s, a segunda em 0,45 s e a terceira em 0,85 s. Os traços com offsets iniciais não estão presentes. . . . 71 Figura 4.22–Traço no domínio 𝜏 − 𝑝 com três primárias, sem a presença dos

off-sets iniciais e com sobreposição da terceira primária com múltiplas. O

parâmetro de raio 𝑝 é igual a 0 s/m, como nos outros casos. . . . 72 Figura 4.23–Resultado da filtragem de um conjunto CMP. . . 73 Figura 4.24–Traços empilhados do cenário com três primárias. As amplitudes dos

traços foram normalizadas e truncadas para melhorar a visualização. Os tempos indicados no eixo vertical correspondem aos instantes em que as primárias ocorrem. . . 74 Figura 4.25–Família CMP do cenário 3 com 𝑆𝑁 𝑅𝑑𝐵 = −15 dB. . . 77

Figura 4.26–Três traços diferentes, com e sem ruído, do domínio transformado do cenário 3 com 𝑆𝑁 𝑅𝑑𝐵 = −10𝑑𝐵. É pertinente ressaltar que, devido

à normalização dos traços, as amplitudes entre os cenários com e sem ruído não estão na mesma escala. . . 78 Figura 4.27–Resultado da filtragem da família CMP do cenário 3 (duas primárias)

com 𝑆𝑁 𝑅𝑑𝐵 = −15 dB. . . 79

Figura 4.28–Traço empilhado e replicado do cenário 3 com ruído de 𝑆𝑁 𝑅𝑑𝐵 = −15

dB. As amplitudes dos traços foram normalizadas e limitadas para melhorar a visualização. Os tempos indicados no eixo vertical corres-pondem aos instantes em que as primárias ocorrem. . . 80

(12)

Tabela 4.1 – Resumo quantitativo do desempenho dos filtros no ponto de menor

(13)

1 Introdução . . . 14

1.1 Organização da dissertação . . . 18

1.2 Trabalhos publicados durante o mestrado . . . 19

2 Apresentação do Problema . . . 20

2.1 Reflexões múltiplas e suas características . . . 20

2.2 Técnicas de remoção de múltiplas . . . 21

2.3 Cenário marítimo . . . 22

2.4 Desconvolução preditiva e motivação . . . 23

2.4.1 Transformada 𝜏 − 𝑝 . . . . 25

2.4.2 O problema, a solução proposta e o procedimento . . . 27

2.5 Sumário . . . 28

3 Filtro de Erro de Predição . . . 30

3.1 Filtro linear . . . 33

3.2 Filtros não-lineares . . . 36

3.2.1 Introdução às redes neurais artificiais . . . 36

3.2.2 Perceptron de múltiplas camadas (MLP) . . . 39

3.2.3 Máquinas de aprendizado extremo (ELM) . . . 42

3.2.4 Redes neurais com estados de eco (ESN) . . . 43

3.3 Conclusão . . . 45

4 Resultados Experimentais . . . 47

4.1 Geração dos dados sintéticos . . . 47

4.2 Determinação dos parâmetros . . . 49

4.3 Primeiro cenário: uma primária com offsets iniciais . . . 50

4.4 Segundo cenário: uma primária sem offsets iniciais . . . . 51

4.5 Terceiro cenário: duas primárias sem offsets iniciais . . . . 53

4.5.1 Análise de Sensibilidade e Determinação dos Parâmetros . . . 61

4.6 Quarto cenário: três primárias, sem offsets iniciais e com coincidência . . . 70

4.7 Análise de Sensibilidade ao Ruído . . . 75

Conclusão . . . 81

(14)

1 Introdução

A sísmica de reflexão é uma técnica importante em geofísica para auxiliar o mapeamento das estruturas geológicas do subsolo. Ela é usada na exploração de petróleo, na medição da profundidade de estruturas terrestres e marítimas, na determinação da estabilidade de terrenos sujeitos a construções industriais, na exploração de minério, na detecção da presença de outros hidrocarbonetos, como o gás natural, etc. (TELFORD et

al., 2014).

Nesta técnica, usa-se uma fonte de energia (geralmente, dinamite e canhão de ar para a aquisição terrestre e marítima, respectivamente) para gerar ondas mecânicas que, ao se propagarem no interior da subsuperfície, vão de encontro a diferentes camadas geológicas. Devido à diferença de impedância acústica entre as camadas, parte da energia é refletida nas interfaces e volta à superfície. Ali, essa energia é captada por transdutores eletromecânicos (geofones ou hidrofones) posicionados de forma alinhada e distante da fonte (para que não sejam danificados pela frente de onda), onde é convertida em sinais elétricos que são, em seguida, amplificados, filtrados e digitalizados (EVANS, 1997). O tempo e intensidade das reflexões medidas nos receptores dependem da distância do re-ceptor à fonte (definida como afastamento ou, em inglês, offset), da velocidade da onda, da profundidade e do material que constitui as camadas geológicas (YILMAZ, 2001). O sinal coletado por um receptor ao longo do tempo é denominado sismograma ou traço sís-mico. Destes traços, tem-se como objetivo estimar a chamada função de refletividade da subsuperfície, a qual indica onde ocorrem gradientes de impedância acústica ou, analoga-mente, onde estão situadas as interfaces entre as variadas estruturas geológicas existentes (VERSCHUUR, 2006). A Fig. 1.1 mostra a relação da seção geológica com a função de refletividade e o traço sísmico.

Este procedimento - acionamento da fonte e coleta dos sinais pelos receptores - é repetido até que se tenha uma boa cobertura da região sendo investigada. A cada iteração, forma-se um conjunto de traços conhecido como tiro comum (Common Shot

Gather, CSG). Porém, na prática, os dados são tipicamente reorganizados de forma a se

ter vários pares fonte-receptor com um ponto médio comum, como ilustra a Fig. 1.2b. Esta organização é conhecida como família CMP (Common Midpoint Gather ) (MAYNE, 1962), e ela facilita o processo de correção NMO e o empilhamento, que serão explicados em seguida.

(15)

Figura 1.1 – A seção geológica e a impedância acústica em relação à profundidade em a) e, em b), a função de refletividade correspondente que, ao ser convoluída com a wavelet característica da fonte, gera o traço sísmico. Figura adaptada de Keary et al. (2002).

(a) Arranjo tiro comum (CSG).

(b) Arranjo ponto médio comum (CMP).

Figura 1.2 – A figura a) mostra o arranjo da aquisição (CSG); enquanto a figura b) mostra arranjo usado no processamento (CMP).

(16)

Em sísmica de reflexão, é comum se fazer a hipótese de que as camadas geológi-cas são homogêneas e que as interfaces são planas e horizontais. Isso permite simplificações que viabilizam uma série de métodos de processamento. Apesar de esta hipótese ser vio-lada em alguns lugares com estruturas complexas e irregulares, dados sísmicos coletados em muitas partes do mundo aparentam respeitá-la razoavelmente bem (YILMAZ, 2001).

Figura 1.3 – Par fonte-receptor e a relação hiperbólica entre o tempo de trânsito e o afas-tamento. Supõe-se que as interfaces são paralelas e horizontais, e que o meio de propagação é homogêneo. Repare que os termos 𝑣𝑡 e 𝑣𝑡0 correspondem à

dimensão de espaço, e estão divididos por dois pois correspondem a somente metade do percurso.

Considere a Fig. 1.3, onde 𝑥 é o offset; 𝑡0 é o tempo de trânsito de uma onda

que sai do ponto médio verticalmente em direção à interface, ou seja, é o tempo de trânsito para offset nulo; 𝑡 é o tempo para a onda chegar ao receptor após sair da fonte; e 𝑣 é a velocidade de propagação da onda no meio. Pode-se mostrar (YILMAZ, 2001) que a relação entre o tempo de trânsito e o ponto médio é dada por

𝑡2(𝑥) = 𝑡2₀+𝑥

2

𝑣2. (1.1)

A Equação (1.1) descreve uma relação hiperbólica do tempo em função do espaço. O registro de uma reflexão nos traços sísmicos é conhecido como evento. O aumento do tempo de trânsito da onda devido à distância entre a fonte e o receptor neste cenário é denominado sobretempo normal (normal moveout, NMO) e é dado por

Δ𝑡𝑁 𝑀 𝑂 = 𝑡 − 𝑡0. (1.2)

Tendo-se os valores de Δ𝑡𝑁 𝑀 𝑂, podemos subtraí-los do 𝑡 correspondente para

(17)

determinar o valor de 𝑣 na Equação (1.1) usando uma técnica denominada análise de velocidade. De um modo geral, esta técnica visa obter, para cada valor de 𝑡0, as velocidades

que maximizam uma determinada medida de coerência do sinal ao longo da trajetória hiperbólica (YILMAZ, 2001). Neidell e Taner (1971) propuseram várias métricas para tal coerência.

Tendo estas velocidades em mãos, podemos usá-las na correção NMO. Após a correção, o instante de ocorrência de cada evento no traço será, idealmente, o mesmo caso tivéssemos um sensor posicionado no mesmo local da fonte, ou seja, um traço com

offset zero. Este procedimento permite explorar a redundância de informação existente

em todos os traços do CMP a respeito de um determinado evento de modo que, ao somá-los (etapa denominada de empilhamento), pode-se atenuar de forma significativa ruídos descorrelacionados, já que os eventos relacionados às interfaces serão combinados de forma coerente (YILMAZ, 2001). A Fig. 1.4 mostra traços de um conjunto CMP que são corrigidos e, em seguida, empilhados. A partir desse procedimento, é obtida uma imagem da subsuperfície no domínio do tempo na qual cada traço possui afastamento nulo.

Figura 1.4 – Conjunto CMP sobre o qual é feito a correção NMO e, em seguida, empi-lhado. O traço resultante é denominado traço de zero offset simulado. Repare que o ruído deste traço é significativamente reduzido. Imagem adaptada de Filho (2015).

Após o empilhamento, tem-se uma imagem sísmica com o eixo vertical no domínio do tempo, que corresponde a uma estimativa da seção de afastamento nulo. O processo de reposicionamento das interfaces de acordo com a profundidade, utilizando um modelo de velocidades estimado, é conhecido como migração (YILMAZ, 2001). Na prática, porém, existem outras etapas e outros caminhos que podem ser seguidos no pro-cessamento de dados sísmicos (ZHOU, 2014). Tendo-se feito uma breve introdução às etapas tipicamente seguidas, iremos agora apresentar o principal problema a ser investi-gado neste trabalho: a atenuação de múltiplas.

(18)

expe-rimentam mais do que uma reflexão na subsuperfície antes de atingir os sensores (TEL-FORD et al., 2014). Em contrapartida, as primárias estão relacionadas aos eventos que têm uma única reflexão na subsuperfície, sendo, portanto, indicadores das estruturas ge-ológicas presentes. Usualmente, as múltiplas são consideradas como uma espécie de ruído indesejado no traço sísmico e que, por isso, devem ser removidas a fim de não compromete-rem a interpretação da imagem sísmica. O desafio, portanto, no problema conhecido como atenuação (ou remoção) de múltiplas (SMR, do inglês seismic multiple removal), consiste em tentar eliminar ao máximo as reflexões múltiplas presentes nos traços sísmicos, pre-servando ao mesmo tempo as primárias (ROBINSON; TREITEL, 2000; VERSCHUUR, 2006).

Como será visto na Seção 2.2, existem diversas técnicas de remoção de múl-tiplas publicadas na literatura (WEGLEIN; DRAGOSET, 2005). Uma destas técnicas, denominada desconvolução preditiva, proposta por Robinson (1954), visa explorar a na-tureza periódica das múltiplas através da predição delas no traço sísmico usando um filtro linear de resposta ao impulso finita (FIR, do inglês finite impulse response). Porém, como será visto, a baixa flexibilidade da estrutura linear dificulta a adequada modelagem das múltiplas. Neste trabalho, iremos investigar o uso de estruturas não-lineares para contornar este problema. Estas estruturas são as seguintes redes neurais: máquinas de aprendizado extremo (ELM, do inglês extreme learning machines) (HUANG et al., 2006), redes neurais com estados de eco (ESN, do inglês echo state networks) (JAEGER, 2001) e perceptron multicamadas (MLP, do inglês multilayer perceptrons) (BISHOP, 1995). Espera-se que as redes neurais sejam capazes de modelar as múltiplas de forma mais eficaz que o filtro FIR e removê-las do traço adequadamente.

1.1 Organização da dissertação

O conteúdo da presente dissertação está organizado da seguinte maneira:

∙ Capítulo 2. É feita uma descrição e análise das múltiplas e os principais métodos usadas para removê-las. Em particular, será apresentada a técnica de desconvolução preditiva no domínio 𝜏 − 𝑝, que é a técnica de remoção de múltipla a ser estudada neste trabalho.

∙ Capítulo 3. É feita uma introdução ao filtro de erro de predição (FEP) e sua aplicação no problema de desconvolução preditiva de múltiplas. Além disso, será in-troduzido a estrutura dos preditores linear e não-lineares, sendo o uso destes últimos a proposta (inédita) deste trabalho.

(19)

∙ Capítulo 4. Será discutido como os dados sintéticos foram gerados; como os pa-râmetros dos FEPs foram determinados; e será feita uma análise dos resultados obtidos pela desconvolução dos traços sísmicos em diferentes cenários, comparando o resultado do filtro linear com o dos não-lineares.

∙ Conclusão. Será feita uma breve recapitulação dos principais assuntos discutidos na dissertação e dos resultados experimentais obtidos. Serão discutidas, também, as implicações destes resultados, suas limitações e as perspectivas para trabalhos futuros.

1.2 Trabalhos publicados durante o mestrado

Listamos abaixo os trabalhos publicados e aceitos para publicação durante o período do mestrado.

∙ Heitor S. Carvalho, Farzin Shams, Rafael Ferrari, Levy Boccato. Application of

Extreme Learning Machines and Echo State Networks to Seismic Multiple Removal.

International Joint Conference on Neural Networks (IJCNN), pp. 1-8. IEEE, 2018. ∙ Farzin Shams, Heitor S. Carvalho, Rafael Ferrari, Levy Boccato. Desconvolução

Preditiva de Múltiplas Utilizando Redes Neurais. Décimo Encontro dos Alunos e

Docentes do Departamento de Engenharia de Computação e Automação Industrial (X EADCA), 2017.

(20)

2 Apresentação do Problema

2.1 Reflexões múltiplas e suas características

Múltipla é o nome dado a um evento sísmico resultante de ondas que sofrem múltiplas reflexões na subsuperfície antes de atingir os sensores. Pode-se classificá-las com base em diferentes atributos, tais como tempo de trânsito, ordem e interfaces de reflexão (VERSCHUUR, 2006). A primeira característica, como o nome sugere, diz respeito ao tempo de trânsito da múltipla em comparação à primária a ela associada. As múltiplas de longo período podem ser reconhecidas nos traços sísmicos como eventos separados; já as de curto período, não, pois, como elas têm tempo de trânsito próximo ao das primárias, elas acabam se juntando à primária e aparecem como um só evento no traço sísmico. A ordem, por sua vez, está associada ao número de reflexões que a múltipla teve em uma determinada interface. Por fim, também podemos categorizar as múltiplas com base em qual interface elas tiveram a primeira reflexão para baixo, i.e., de volta à subsuperfície.

A Fig. 2.1 mostra quatro categorias diferentes de múltiplas numa região marí-tima. As múltiplas da Fig 2.1a), b) e c) são aquelas relacionadas à camada da água, isto é, aquelas em que a primeira reflexão para baixo ocorre na superfície marítima.

(a) Múltiplas da camada d’água (b) Reverberações da camada d’água/peg-legs

(c) Múltiplas relacionadas à camada d’água (d) Múltiplas internas

Figura 2.1 – Diferentes tipos de múltiplas. A parte em azul representa a camada d’água, e a em bege representa a primeira camada abaixo do fundo do mar. a) Múlti-plas que reverberam somente na camada d’água. b) MúltiMúlti-plas que reverberam na camada d’água, mas que tem uma única reflexão em outra camada abaixo do fundo do mar. c) Múltiplas que tem pelo menos uma reflexão na super-fície, mas nenhuma no fundo do mar. d) Múltiplas que não têm reflexão na superfície do mar. Imagem adaptada de (VERSCHUUR, 2006).

(21)

2.2 Técnicas de remoção de múltiplas

Existem diversas técnicas de remoção de múltiplas publicadas na literatura (WEGLEIN; DRAGOSET, 2005), cada uma adequada a diferentes cenários que dependem das características dos dados coletados e das propriedades conhecidas da região sendo investigada. Verschuur (2006) separou os métodos de eliminação de múltiplas em duas categorias gerais. A seguir, listaremos estes métodos junto com algumas das principais técnicas que os empregam.

∙ Métodos baseados na diferença do comportamento espacial das primárias e múlti-plas.

– Discriminação de moveout.

– Filtragem baseada na transformada 𝑓 − 𝑘 ou Radon.

∙ Métodos baseados na periodicidade e, consequentemente, na previsibilidade das múl-tiplas.

– Eliminação de múltiplas relacionadas à superfície (SRME). – Desconvolução preditiva.

Métodos do primeiro tipo exploram o fato de que, como múltiplas e primá-rias percorrem trajetos diferentes, elas exibem velocidades médias diferentes (e, portanto, tempos de trânsito diferentes) devido à diferença na velocidade de propagação da onda acústica em cada camada. As técnicas usadas tentam, então, separá-las. A técnica de discriminação de moveout mais comumente usada é o empilhamento CMP, discutido an-teriormente. Além de remover ruídos descorrelacionados ao combinar a informação redun-dante, ele é também aplicado na atenuação de múltiplas: como estas possuem velocidades diferentes das primárias, elas serão subcorrigidas na correção NMO, enquanto as primá-rias serão alinhadas. Ao somar-se os traços na etapa de empilhamento, elas sofrerão um cancelamento parcial da energia (MAYNE, 1962).

A ideia por trás das filtragens baseadas nas transformadas 𝑓 − 𝑘 e Radon pa-rabólica e hiperbólica é transformar os dados, originalmente no domínio espaço-temporal, para outro domínio em que as primárias e múltiplas são mapeadas em regiões diferentes, onde elas podem ser mais facilmente removidas. Após removê-las, os dados são convertidos de volta ao domínio original (VERSCHUUR, 2006).

A eliminação de múltiplas relacionadas à superfície (Surface-related multiple

elimination, SRME) foi inicialmente desenvolvida por Anstey e Newman (1966) ao

(22)

em múltiplas. A partir daí, a estimativa das múltiplas pode ser usada para removê-las do traço original por uma subtração adaptativa (WATSON, 1965). Por fim, a técnica deno-minada desconvolução preditiva será abordada em detalhes na Seção 2.4, pois se trata da abordagem explorada neste trabalho.

2.3 Cenário marítimo

Neste trabalho, vamos concentrar o estudo sobre o problema de atenuação de múltiplas, explorando a proposta de uso de estruturas não lineares de filtragem, no âmbito de cenários de aquisição marítima. Neste contexto, a problemática trazida pela presença de reflexões múltiplas é agravada na camada d’água devido à elevada diferença de impedância acústica entre o ar e a água na superfície e entre a água e o solo no fundo do mar (VERSCHUUR, 2006). Isto faz com que grande parte da energia das reflexões múltiplas permaneça na lâmina d’água devido à dificuldade de a frente de onda se propagar às outras camadas.

No modelo que iremos adotar, então, consideraremos, por simplicidade, so-mente os dois tipos de múltiplas que têm a maior energia (e, portanto, maior influência): as múltiplas que ficam inteiramente confinadas à camada d’água (Fig. 2.1a), e aquelas que reverberam nesta camada, mas que têm uma única reflexão numa outra interface (peg-legs, Fig. 2.1b).

Um modelo pode ser adotado considerando o pulso sísmico como uma onda esférica, as camadas como meios homogêneos e suas interfaces como superfícies planas e horizontais. Deste modo, o traço sísmico de offset zero, que corresponde ao traço que seria observado por um sensor posicionado no mesmo local da fonte, pode ser modelado conforme a Equação (2.1) (ROBINSON; TREITEL, 2000):

𝑡(𝑘) = (𝑟𝑤(𝑘) * 𝑚(𝑘) + 𝑟𝑙(𝑘) * 𝑚(𝑘) * 𝑚(𝑘)) * 𝑤(𝑘) + 𝜂(𝑘), (2.1)

onde os termos 𝑟𝑤(𝑘) e 𝑟𝑙(𝑘) são a função de refletividade do fundo do mar e a função de

refletividade das camadas subsequentes, respectivamente; 𝑤(𝑘) é a assinatura da fonte,

𝑚(𝑘) é a resposta ao impulso do sistema gerador de múltiplas e 𝜂(𝑘) é um ruído. Para

múltiplas de ordem 𝑛, há somente um possível trajeto para múltiplas da camada da água, mas há 𝑛 + 1 possíveis trajetórias para as peg-legs que apresentam o mesmo tempo de trânsito (que resulta em interferência construtiva). Por conta disso, as relações de amplitude entre as primárias e as múltiplas são diferentes para cada uma destas categorias de múltiplas (YILMAZ, 2001; ROBINSON; TREITEL, 2000). Assim, há dois sistemas geradores de múltiplas distintos: 𝑚(𝑘) para as múltiplas da camada da água, e 𝑚(𝑘)*𝑚(𝑘)

(23)

para as peg-legs. No domínio 𝑍, o sistema gerador de múltiplas do fundo do mar é dado por (ROBINSON; TREITEL, 2000)

𝑀𝑓 𝑚(𝑧) = 1/(1 + 𝛼𝑧−𝑇𝑤), (2.2)

e o sistema gerador de múltiplas das peg-legs é

𝑀𝑝𝑙(𝑧) = 1/(1 + 𝛼𝑧−𝑇𝑤)2, (2.3)

onde 𝛼 ∈ (0, 1) é o coeficiente de reflexão do fundo do mar, e 𝑇𝑤 é o tempo de trânsito da

primária do fundo do mar (equivalente a 𝑡0na Equação (1.1)). A Fig. 2.2 ilustra as funções

de refletividade, os sistemas geradores de múltiplas e o resultado da interação entre eles. Repare na diferença de amplitude entre os impulsos referentes às múltiplas do fundo do mar (Fig. 2.2b) e às peg-legs (Fig. 2.2d). Na segunda, o decaimento de amplitude não é exponencial como na primeira. Isto se deve ao fato de que, como há mais de um trajeto para cada peg-leg com mesmo tempo de trânsito, há sobreposição de diferentes reflexões que resultam em múltiplas com amplitudes mais elevadas em relação à primária.

2.4 Desconvolução preditiva e motivação

No modelo convolucional do traço de offset zero, definido pela Equação (2.1), as múltiplas - por estarem relacionadas a repetidas reflexões na camada d’água -, exibem uma periodicidade igual ao tempo de trânsito da primeira primária (fundo do mar). Neste cenário, Robinson (1954) propôs a técnica de desconvolução preditiva usando um filtro FIR. Como discutido anteriormente, ela visa explorar a natureza periódica das múltiplas através da predição delas no traço sísmico a partir da informação das primárias. O sistema gerador de múltiplas é, então, cancelado ao se subtrair do traço original a saída do preditor. No Capítulo 3, faremos uma exposição mais detalhada da estrutura do filtro de erro de predição (FEP) que será usado na desconvolução.

Pode-se perceber que a periodicidade das reflexões múltiplas é, portanto, um fator essencial para a aplicação da abordagem de desconvolução preditiva. Na prática, porém, a aquisição de dados sísmicos, conforme descrito no Capítulo 1, é feita colocando-se os receptores (colocando-sensores) distantes da fonte, de modo que cada múltipla acaba, então, percorrendo uma trajetória de comprimento desproporcional àquela percorrida pela pri-mária e, assim, perde-se a periodicidade (YILMAZ, 2001), o que compromete a aplicação da desconvolução preditiva. Uma forma de recuperar a periodicidade e tornar possível o uso da abordagem preditiva é empregando-se métodos de decomposição em ondas

(24)

pla-(a) 𝑟𝑤(𝑘) (b) 𝑟𝑤(𝑘) * 𝑚(𝑘)

(c) 𝑟𝑙(𝑘) (d) 𝑟𝑙(𝑘) * 𝑚(𝑘) * 𝑚(𝑘)

(c) 𝑚(𝑘) (d) 𝑡(𝑘)

Figura 2.2 – Ilustração das funções de refletividade, dos sistemas geradores de múltiplas e do resultado da interação entre eles.

(25)

nas, como a transformada Radon linear (𝜏 − 𝑝) (YILMAZ, 2001), que será apresentada a seguir.

2.4.1 Transformada 𝜏 − 𝑝

Sejam 𝑑(𝑥, 𝑡) e 𝑚(𝜏, 𝑝) as funções da amplitude do sinal no domínio espaço-temporal e transformado, respectivamente. Define-se a transformada 𝜏 − 𝑝 como

𝑚(𝑝, 𝜏 ) =

∫︁ +∞

−∞ 𝑑(𝑥, 𝑡 = 𝜏 + 𝑝𝑥)𝑑𝑥. (2.4)

A Equação (2.4) mapeia uma reta com coeficiente angular 𝑝 e coeficiente linear

𝜏 no espaço x-t para um ponto no espaço 𝜏 −𝑝. 𝜏 é conhecido como tempo de interceptação,

e 𝑝 é conhecido como vagarosidade (ou, em inglês, slowness) pois sua unidade é o inverso da velocidade. Duas propriedades importantes desta transformada no contexto deste trabalho são: (𝑖) hipérboles no domínio 𝑥−𝑡 são mapeadas em elipses no domínio 𝜏 −𝑝 (STOFFA et

al., 1981; TATHAM et al., 1983); e (𝑖𝑖) a periodicidade das reflexões múltiplas é recuperada

(VERSCHUUR, 2006). A Fig. 2.3 mostra uma família CMP em ambos os domínios. 𝑃 ,

𝑀1 e 𝑀2 são os instantes de tempo em que ocorrem a primária e a primeira e segunda

múltiplas, respectivamente. As retas pontilhadas de coeficiente angular 𝑝0 no domínio

𝑥 − 𝑡 indicam os pontos que, ao serem somados, mapeiam um único ponto no domínio

transformado. Além disso, note que, para cada 𝑝0 fixo, há uma periodicidade 𝑇 entre as

primárias e múltiplas, o que permite a aplicação da abordagem preditiva. Este período diminui à medida que 𝑝 aumenta. É importante deixar claro que, ao longo deste trabalho, usaremos a expressão traço tanto no domínio 𝑥 − 𝑡 quanto no domínio 𝜏 − 𝑝. No primeiro,

traço se refere ao sinal coletado ao longo do tempo para um offset fixo; no segundo, se

(26)

(a) Família CMP no domínio 𝑥−𝑡. (b) Família CMP no domínio 𝜏 −

𝑝.

Figura 2.3 – Família CMP no domínio x-t e 𝜏 − 𝑝. Imagem adaptada de Yilmaz (2001).

Considere novamente a equação de tempo de trânsito hiperbólico dos eventos em (2.5). Para valores altos de 𝑥, o termo 𝑡2₀ pode ser desconsiderado e a equação é reduzida a 𝑡2(𝑥) = 𝑡2₀ +𝑥 2 𝑣2 ≈ 𝑥2 𝑣2, (2.5) ou, equivalentemente, 𝑡(𝑥) ≈ 𝑥 𝑣. (2.6)

Pela Equação (2.6), fica evidente que, à medida que o offset aumenta, as hipér-boles tendem a aproximar retas com coeficiente angular 1/𝑣. Esta propriedade é impor-tante pois esta é a região que provê a maior contribuição na soma da transformada 𝜏 − 𝑝 (YILMAZ, 2001). Devido a isso, a maior inclinação necessária para calcular a transfor-mada pode ser obtida a partir da inclinação da assíntota da hipérbole, ou seja, 𝑝 = 1/𝑣. Usando, então, valores de 𝑝 ∈ [0, 1/𝑣𝑚𝑖𝑛], onde 𝑣𝑚𝑖𝑛 é a menor velocidade de empilhamento

presente no dado (tipicamente 1500 m/s em dados marítimos, que é aproximadamente a velocidade de propagação do som na água), as hipérboles são adequadamente mapeadas em elipses (YILMAZ, 2001). Estes conceitos serão usados na geração dos dados sintéticos no domínio 𝜏 − 𝑝, como será explicado na Seção 4.1.

(27)

2.4.2 O problema, a solução proposta e o procedimento

Em um experimento sísmico, o registro do campo de onda é incompleto, uma vez que ele está restrito a traços pertencentes a uma certa faixa de offsets. Os offsets iniciais, próximos à fonte, não são registrados, pois é necessário posicionar os sensores a uma distância mínima da fonte para que não sejam danificados. O offset máximo também é limitado pois há restrições quanto ao tamanho máximo do cabo (streamer ) que pode ser rebocado pelo barco em aquisições marítimas. A ausência de parte do campo de onda, principalmente referente à informação presente nos offsets iniciais, introduz distorções nas amplitudes da transformada 𝜏 − 𝑝 que prejudicam o processo de filtragem. As distorções são mais severas em eventos rasos e de menor velocidade (KAPPUS et al., 1990), ou seja, em cenários de água rasa que são cenários particularmente interessantes pra desconvolu-ção preditiva (VERSCHUUR, 2006; ROBINSON; TREITEL, 2000). Os traços ilustrados nas Fig. 2.4a e 2.4b são referentes ao parâmetro de raio 𝑝 = 0 s/m de conjuntos CMP transformados com e sem os traços com offsets iniciais, respectivamente. Repare que as relações de amplitude e as wavelets foram alteradas.

(a) Com offsets iniciais.

(b) Sem offsets iniciais.

Figura 2.4 – Comparação entre traços no domínio 𝜏 − 𝑝 em 𝑝 = 0 s/m pertencentes a conjuntos CMP com e sem os offsets iniciais.

Neste trabalho, iremos investigar a capacidade de filtros não-lineares em lidar com estas distorções de amplitude, e iremos comparar o resultado com o do linear, que é o comumente usado nesta tarefa. Os filtros não-lineares usados serão as redes neurais ELM, ESN e MLP. Elas serão apresentadas com mais detalhes no Capítulo 3. Espera-se

(28)

que elas sejam capazes de modelar tais distorções de amplitude e remover as múltiplas de forma mais eficaz que o filtro FIR. Além disso, iremos analisar a capacidade destes filtros não-lineares de desconvoluir os dois sistemas geradores de múltiplas (Equação (2.1)) con-comitantemente. É importante salientar, porém, que a abordagem proposta não possui qualquer mecanismo para diretamente lidar com a presença dos dois sistemas geradores de múltiplas. Em certo sentido, portanto, vamos analisar se a maior flexibilidade das estru-turas não-lineares usadas na desconvolução preditiva também traz um benefício adicional no tratamento simultâneo dos diferentes tipos de múltiplas.

A Fig. 2.5 mostra o procedimento a ser seguido neste trabalho: primeiro, ire-mos gerar os dados sintéticos no domínio espaço-temporal (𝑥 − 𝑡). Em seguida, ireire-mos transformá-los ao domínio 𝜏 − 𝑝, onde iremos projetar um filtro específico para filtrar cada traço. Feito isso, iremos retornar ao domínio 𝑥 − 𝑡 onde será feito o restante do procedimento padrão: correção NMO e empilhamento.

Figura 2.5 – Fluxograma resumindo o procedimento a ser seguido.

2.5 Sumário

Neste trabalho, iremos investigar o problema da atenuação de múltiplas asso-ciadas às duas reverberações de maior energia da lâmina d’água; isto é, às múltiplas do fundo do mar e às peg-legs. Para isso, iremos usar a abordagem de desconvolução pre-ditiva proposta por Robinson (1954). Para que esta abordagem funcione corretamente, porém, é necessário que as múltiplas sejam repetições periódicas das primárias. Para re-cuperar esta periodicidade, aplica-se a transformada 𝜏 − 𝑝. Entretanto, como vimos, esta transformada introduz distorções nas relações de amplitude quando os traços de offsets iniciais não estão presentes. Como forma de compensar tais distorções e melhor modelar as múltiplas, propomos o uso de FEPs com preditores não-lineares. Além disso, iremos avaliar se estes preditores são capazes de modelar mais de um sistema gerador de múl-tiplas concomitantemente. Vale lembrar que não temos um mecanismo para diretamente

(29)

lidar com esta mistura; espera-se que somente a maior flexibilidade destas estruturas seja capaz de fazer isso. Resta-nos, portanto, definir a estrutura que fará a filtragem: o filtro de erro de predição. No próximo capítulo, faremos uma introdução à estrutura do FEP e aos preditores linear e não-lineares.

(30)

3 Filtro de Erro de Predição

A estimação de valores futuros de uma série temporal usando valores do pre-sente e passado é um dos principais problemas de processamento de sinais (ROMANO

et al., 2011). Seja 𝑡(𝑘) uma série temporal. De um modo geral, o problema consiste em

achar um mapeamento 𝐹 (·) que, a partir de um subconjunto de 𝐾 ≥ 1 amostras, estime a amostra 𝑡(𝑘) a 𝐿 ≥ 1 (definido como passo de predição) passos à frente. Isto é, sendo

t(𝑘 − 𝐿) =[︁𝑡(𝑘 − 𝐿), 𝑡(𝑘 − 𝐿 − 1), ..., 𝑡(𝑘 − 𝐾 − 𝐿 + 1)]︁𝑇 ∈ R𝐾×1 _(3.1)

o subconjunto de amostras, devemos encontrar a função

𝐹 [t(𝑘 − 𝐿)] = ^𝑡(𝑘) (3.2) onde ^𝑡(𝑘) é a estimativa de 𝑡(𝑘). Esta função é denominada de preditor e é composta por

um conjunto de parâmetros livres. Define-se

𝑒(𝑘) = 𝑡(𝑘) − ^𝑡(𝑘) (3.3) como o erro de predição. O projeto do preditor consiste em otimizar os valores destes parâmetros a fim de minimizar algum critério definido por uma função custo que incorpora o erro. A função que iremos usar é o erro quadrático médio (mean squared error, MSE), definida como

𝐽𝑀 𝑆𝐸(w) = 𝐸[𝑒2(𝑘)], (3.4)

onde 𝐸[·] é o operador de esperança estatística e w é o conjunto de parâmetros livres do preditor. A ideia por trás deste critério é fazer com que a saída do preditor fique cada vez mais parecida com a referência. Na prática, porém, os sinais de entrada e referência são conjuntos de dados finitos cujas propriedades estatísticas não são conhecidas. Por isso, usa-se a média amostral no lugar do operador esperança como forma de aproximação.

Sejam

(31)

e

^_{t = [^}_{𝑡(0), ^}_{𝑡(1), ..., ^}_{𝑡(𝑆 − 1)]}𝑇 _(3.6)

os vetores dos dados de entrada e de predição, respectivamente, de tamanho 𝑆. O vetor de erro será

e = t − ^t = [𝑒(0), 𝑒(1), ..., 𝑒(𝑆 − 1)]𝑇. (3.7)

O critério MSE pode, nesse caso, ser aproximado por

𝐽𝑀 𝑆𝐸(w) =

||e||2

𝑆 . (3.8)

A estrutura que realiza o mapeamento da entrada t(𝑘 − 𝐿) diretamente ao erro de predição 𝑒(𝑘) é definida como filtro de erro de predição (FEP) (ROBINSON, 1954; ROMANO et al., 2011). A Fig. 3.1 ilustra a relação do preditor com o FEP, onde o sinal ^𝑡(𝑘) é a saída do preditor, 𝑡(𝑘) é a amostra futura (a referência), e 𝑒(𝑘) é o erro de

predição, que constitui a saída do FEP.

Figura 3.1 – Estrutura do filtro de erro de predição.

O FEP acaba atuando como um filtro de eliminação de redundância entre as amostras de uma série temporal. A ideia é usar amostras passadas para estimar amostras futuras, de forma que, idealmente, o erro desta estimação seja uma série descorrelacionada com a original. No contexto de desconvolução sísmica, as múltiplas podem ser vistas como informações redundantes relacionadas às respectivas primárias, pois representam repetições periódicas destas.

(32)

Um processo de aprendizado ou de adaptação de um modelo é dito

supervisi-onado quando dispõe de um conjunto de dados rotulados (também chamado de conjunto

de referência) para o ajuste dos parâmetros do mapeamento entrada-saída na tentativa de otimizar a função custo (HAYKIN, 2009). No caso da predição de séries temporais discutido até agora, pode-se dizer que o aprendizado é supervisionado, já que a função custo em (3.8) explora o sinal de erro entre a resposta do preditor ^𝑡(𝑘) e a referência 𝑡(𝑘).

Interessantemente, embora o treinamento do FEP seja supervisionado, a fil-tragem de múltiplas feita por ele pode ser vista como não-supervisionada, uma vez que em nenhum momento utilizamos explicitamente informações de quais eventos no traço correspondem a primárias ou múltiplas. Neste sentido, o FEP implementa, de fato, uma desconvolução cega (VERSCHUUR, 2006), apesar de o treinamento do preditor ser feito de forma supervisionada.

Esta perspectiva trazida pelos FEPs tem sido explorada na literatura em ou-tros problemas de desconvolução e processamento de sinais, como equalização de canais de comunicação digital e separação cega de fontes (ROMANO et al, 2011). Com efeito, a abordagem preditiva abre um caminho bastante natural e matematicamente sólido para que se possa incorporar não-linearidades à estrutura de desconvolução, o que não é possí-vel nas abordagens tradicionais baseadas em estatísticas de ordem superior (FERRARI, 2005).

Considere o modelo convolucional do traço sísmico de offset zero com somente uma primária e um sistema gerador de múltiplas

𝑡(𝑘) = 𝑟𝑤(𝑘) * 𝑚(𝑘) * 𝑤(𝑘) + 𝜂(𝑘). (3.9)

Com o FEP, tem-se como objetivo desconvoluir o sistema gerador de múltiplas, de forma que a saída do filtro, 𝑒(𝑘), seja o sinal composto somente pela convolução da wavelet com a função de refletividade, isto é,

𝑒(𝑘) ≈ 𝑟𝑤(𝑘) * 𝑤(𝑘) + 𝜂(𝑘). (3.10)

A Fig. 3.2 ilustra um diagrama de blocos do processo de filtragem do traço definido pela Equação (3.9) por um FEP.

(33)

Figura 3.2 – Diagrama da desconvolução do traço definido pela Equação (3.9) por um FEP.

Como discutido anteriormente, na prática, deve-se aplicar a transformada 𝜏 −𝑝 para recuperar a periodicidade entre as primárias e suas múltiplas, e é neste domínio que a filtragem será feita. A Fig. 3.3 ilustra a filtragem feita em um traço no domínio transformado. Idealmente, a saída do preditor contém as múltiplas e, ao subtrair esta saída do sinal original, que contém tanto as múltiplas quanto as primárias, o sinal de saída conterá somente as primárias.

Nas seções 3.1 e 3.2, mostraremos as diferentes estruturas que serão usadas como preditores nos FEPs. Primeiro, iremos mostrar a estrutura do filtro linear e como obter o filtro ótimo. Em seguida, iremos introduzir as redes neurais artificiais e os três tipos de rede que iremos usar neste trabalho.

3.1 Filtro linear

No problema de predição linear, deve-se determinar os parâmetros w = [𝑤0, 𝑤1, ..., 𝑤𝐾−1]𝑇 de um filtro tal que o erro quadrático médio do sinal de erro

𝑒(𝑘) = 𝑑(𝑘) − ^𝑡(𝑘) (3.11) seja minimizado, onde 𝑑(𝑘) é o sinal referência que se deseja obter, e ^𝑡(𝑘) é a saída do

preditor dada por

^ 𝑡(𝑘) = 𝑖=𝐾−1 ∑︁ 𝑖=0 𝑤𝑖𝑡(𝑘 − 𝐿 − 𝑖) = w𝑇t(𝑘 − 𝐿), (3.12)

(34)

(a) 𝑡(𝑘)

(b) ^𝑡(𝑘)

(c) 𝑒(𝑘) = 𝑡(𝑘) − ^𝑡(𝑘)

Figura 3.3 – Exemplo da filtragem de um único traço sísmico no domínio transformado usando um FEP.

onde 𝑡(𝑘) é o sinal de entrada do filtro. Usando as definições em (3.11) e (3.12), podemos escrever a expressão para a função de erro quadrático médio como:

𝐽𝑀 𝑆𝐸(w) = 𝐸[𝑒2(𝑘)] = 𝐸[𝑒(𝑘)𝑒𝑇(𝑘)] = 𝐸[(𝑑(𝑘) − w𝑇t(𝑘 − 𝐿))(𝑑𝑇(𝑘) − t𝑇(𝑘 − 𝐿)w)] = 𝜎2_𝑑− p𝑇_{w − w}𝑇_{p + w}𝑇_Rw, (3.13) onde 𝜎_𝑑2 = 𝐸[𝑑2(𝑘)] (3.14)

(35)

é a variância do sinal 𝑑(𝑘),

p = 𝐸[t(𝑘 − 𝐿)𝑑(𝑘)] (3.15)

é o vetor de correlação cruzada entre o sinal de entrada e a referência, e

R = 𝐸[t(𝑘 − 𝐿)t𝑇(𝑘 − 𝐿)] (3.16)

é a matriz de autocorrelação do sinal de entrada. Para obter os valores ótimos do filtro, deve-se derivar a Equação (3.13) em relação a w e igualar o resultado a zero, resultando em

∇𝐽𝑀 𝑆𝐸(w) = 2Rw − 2p = 0 → Rw = p. (3.17)

O sistema linear de equações em (3.17) dá origem às equações de Wiener-Hopf (ROMANO et al., 2011), cuja solução é a famosa solução de Wiener, dada por:

w𝑜𝑝𝑡 = R−1p. (3.18)

Os conceitos desenvolvidos na determinação do preditor linear ótimo a partir da solução de Wiener podem ser naturalmente estendidos na determinação dos coefici-entes do FEP. Para isso, substitui-se o sinal de referência, 𝑑(𝑘), pela amostra futura do próprio sinal de entrada, 𝑡(𝑘). Além disso, como discutimos anteriormente, as medidas es-tatísticas presentes na matriz de autocorrelação e no vetor de correlação cruzada podem ser aproximadas por médias temporais, de modo que

R ≈ T𝑇T, (3.19)

em que

T = [t(0), t(1), ..., t(𝑆 − 1)]𝑇 _{∈ R}𝑆×𝐾 (3.20)

é a matriz com os dados de entrada, e

(36)

onde t é o vetor dos sinais desejados na saída do preditor. Assim, a estimativa do filtro ótimo é dada por

w𝑜𝑝𝑡 = (T𝑇T)−1T𝑇t, (3.22)

ou, equivalentemente,

w𝑜𝑝𝑡 = T†t, (3.23)

onde

T† = (T𝑇T)−1T𝑇 (3.24)

é a pseudo-inversa da matriz T (LJUNG, 1998). A saída final do preditor será

^_{t = Tw}_𝑜𝑝𝑡_, _(3.25)

e a saída do FEP será, então,

e = t − Tw𝑜𝑝𝑡. (3.26)

3.2 Filtros não-lineares

3.2.1 Introdução às redes neurais artificiais

Uma rede neural artificial (RNA) é uma estrutura capaz de processar quanti-dades massivas de informação de forma paralela e não-linear (HAYKIN, 2009). Ela é um modelo matemático de processamento de informação inspirado no cérebro, que é capaz de gerar mapeamentos de um conjunto de estímulos de entrada nas respectivas saídas, de modo a realizar tarefas como reconhecer padrões, generalizar e tomar decisões. Este processamento é feito por unidades elementares denominadas neurônios, que são estru-turas interconectadas que reagem a estímulos provenientes de outros neurônios e/ou do ambiente externo. Cada neurônio possui uma plasticidade intrínseca, de modo que ele pode modificar sua ação a fim de que a rede como um todo atinja um comportamento entrada-saída desejado. Matematicamente, o neurônio pode ser modelado por uma função

𝑔(x) = 𝑓 (︃ _𝑙 ∑︁ 𝑖=1 𝑤𝑖𝑥𝑖+ 𝑤0 )︃ , (3.27)

(37)

onde 𝑤0 e 𝑤𝑖 são os parâmetros livres que podem são otimizados, denominados pesos

sinápticos; 𝑓 (·) é uma função não-linear denominada função de ativação, e x é o vetor dos dados de entrada. O coeficiente 𝑤0 é um peso de polarização (em inglês, 𝑏𝑖𝑎𝑠), cuja

função é fornecer um sinal constante ao neurônio. Resumidamente, o neurônio combina as entradas linearmente e passa o resultado por uma função de ativação, como mostra a Fig. 3.4.

Figura 3.4 – Modelo de um neurônio artificial.

Os neurônios são tipicamente organizados em camadas, cada uma das quais recebe a saída de outra camada. Usualmente, há três tipos de camada: a de entrada, as intermediárias, e a de saída. Quando a informação percorre as camadas, uma em seguida da outra, da entrada à saída, sempre na mesma direção, a rede é do tipo feedforward (FNN, do inglês feedforward neural networks). A Fig. 3.5 ilustra a estrutura geral de uma rede FNN, na qual cada círculo denota um neurônio, e as setas representam as conexões sinápticas.

Figura 3.5 – Estrutura geral de uma FNN. A informação percorre pelos neurônios da esquerda (entrada) à direita (saída).

(38)

O uso de funções de ativação não-lineares é o que permite que a RNA gere mapeamentos mais flexíveis que os filtros lineares (HAYKIN, 1998). Existem diversas funções de ativação diferentes que podem ser usadas (NWANKPA et al., 2018), cada uma das quais possui vantagens e desvantagens em diferentes cenários. Uma opção clássica, que será utilizada neste trabalho, refere-se à função tangente hiperbólica, ilustrada na Fig. 3.6:

tanh(𝑥) = 𝑒

2𝑥_{− 1}

𝑒2𝑥_{+ 1}, (3.28)

que tem como principais características: 𝑖) continuidade e diferenciabilidade em todos os pontos, o que permite o uso de algoritmos de otimização baseados em gradiente; 𝑖𝑖) saturação para valores altos e baixos de entrada, o que impede divergências excessivas entre os neurônios; 𝑖𝑖𝑖) baixo custo computacional no cálculo da derivada; 𝑖𝑣) atende aos requisitos necessários para a aproximação universal (que é uma característica importante das FNNs, como será detalhado na Seção 3.2.2).

Figura 3.6 – Função tangente hiperbólica.

Na Seção 3, mencionamos brevemente o paradigma de aprendizado supervisio-nado, no qual se tem acesso às respostas desejadas para um conjunto de dados de entrada, de modo que é possível computar o erro entre a saída gerada pela rede e a referência e usar esta informação para guiar o processo de adaptação dos parâmetros. Porém, há ou-tros dois paradigmas de aprendizado nos quais não se tem este conjunto de referência: aprendizado não supervisionado e por reforço (HAYKIN, 2009).

No primeiro, a única informação que a rede tem à disposição é a de entrada. Devido a isso, uma medida independente da tarefa em questão é adotada para determinar a direção para a qual o aprendizado deve ocorrer. O aprendizado se dá, então, de uma forma auto-organizada. O aprendizado por reforço pode ser visto como um meio termo entre o supervisionado e o não-supervisionado pois, no lugar do supervisor, ele conta com

(39)

um crítico (HAYKIN, 2009). Ao receber informações do ambiente e tomar decisões, este crítico indica a qualidade da ação tomada. A rede tenta, então, tomar decisões que sejam aprovadas por ele.

A arquitetura de uma rede neural é definida pela quantidade de camadas, pelo tipo e número de neurônios artificiais, e pelo padrão de conexão entre eles. De um modo geral, quanto maior o número de neurônios, maior será o grau de flexibilidade do mapeamento gerado pela rede. Definimos, também, a classe de arquiteturas feedforward, a qual inclui as redes MLP, ELM e as redes neurais com função de ativação de base radial (BROOMHEAD; LOWE, 1988).

Porém, uma das limitações das FNNs é que o mapeamento gerado por elas é estático, isto é, elas geram um mapeamento específico do espaço de entrada ao de saída sem levar em consideração a relação temporal entre os dados sequencialmente apresentados a ela. As redes neurais recorrentes (RNN, do inglês recurrent neural networks) visam resolver esta limitação. Elas possuem laços de realimentação entre os neurônios, que servem como uma espécie de memória, fazendo com que estados passados tenham influência no estado atual, permitindo a exploração da natureza temporal dos problemas. Tal como as FNNs, uma variedade de RNNs foram propostas ao longo dos anos, como as redes ESN, redes de Elman (ELMAN, 1990) e redes LSTM (HOCHREITER; SCHMIDHUBER, 1997).

Neste trabalho, nos restringiremos a RNAs com uma camada intermediária e função de ativação tangente hiperbólica, pois, no caso da MLP e ELM, elas têm capacidade de aproximação universal (HORNIK et al., 1988; HUANG et al., 2006). Teremos, também, um único neurônio na camada de saída, pois iremos filtrar traços sísmicos, que são sinais unidimensionais. Este neurônio terá a função de ativação linear

f(𝑥) = 𝑥, (3.29)

de forma que seja possível determinar os pesos ótimos de camada de saída da ELM e ESN por uma simples regressão linear, como será visto.

3.2.2 Perceptron de múltiplas camadas (MLP)

A estrutura típica de uma MLP é uma FNN totalmente conectada (isto é, todos os neurônios de uma camada possuem conexões com os neurônios das camadas adjacentes) com uma ou mais camadas intermediárias. Pode-se mostrar que uma RNA feedforward com uma única camada intermediária contendo um número finito de neurônios é capaz de aproximar funções contínuas num subespaço compacto de R𝑛 _{com precisão arbitrária,}

desde que as funções de ativação respeitem algumas premissas (HORNIK et al., 1988). Porém, este teorema não diz nada a respeito de quantos neurônios devem ser usados,

(40)

o que é um dos principais desafios presentes no projeto de redes neurais. A MLP tem, portanto, capacidade de aproximação universal.

A Fig. 3.7 mostra um exemplo de uma rede MLP com uma camada interme-diária e um neurônio na camada de saída. A matriz W𝑖 _{∈ R}𝑁 ×𝐾 _{contém os pesos da}

camada intermediária que multiplicam a saída da camada de entrada (onde 𝑁 é o número de neurônios na camada intermediária e 𝐾 é o tamanho da entrada); w ∈ R𝑁 ×1_{contém os}

pesos da camada de saída que, por sua vez, multiplicam a saída da camada intermediária,

x(𝑘), dada por

x(𝑘) = 𝑓 (W𝑖t(𝑘 − 𝐿)), (3.30)

onde 𝑓 (·) é a função de ativação, e

^

𝑡(𝑘) = w𝑇x(𝑘) (3.31) é a saída da rede.

O processo de treinamento da MLP consiste no ajuste dos parâmetros livres - a saber, os pesos sinápticos em todas as camadas -, por meio da minimização de uma função custo baseada no erro entre a saída gerada e a desejada. Para isto, é possível em-pregar técnicas clássicas de otimização não-linear irrestrita para efetuar o treinamento, como métodos iterativos de primeira e segunda ordens (CASTRO, 1998; BOCCATO, 2013; HAYKIN, 1998). Podemos citar como exemplo o conhecido algoritmo error

back-propagation (RUMELHART et al., 1986), que computa os gradientes de cada camada de

forma iterativa usando a regra da cadeia, os quais são necessários para ajustar os pesos da rede de forma a minimizar a função custo.

(41)

Após experimentar o uso da MLP com métodos de otimização de primeiro grau, notamos que a rede apresentava uma certa dificuldade na minimização do erro de predição. Devido a isso, optamos pelo algoritmo de segunda ordem

Broyden-Fletcher-Goldfarb-Shanno (BFGS) (FLETCHER, 2000). Por ser de segunda ordem, este algoritmo melhora

o passo de otimização em direção ao mínimo local por utilizar informação de segunda ordem da superfície de erro (BISHOP, 1995). Considere, inicialmente, o clássico método de Newton. Seja 𝐸(W) uma aproximação local quadrática da função custo 𝐽𝑀 𝑆𝐸(W) no

ponto W dada por̂︁

𝐸(W) ≈ 𝐽𝑀 𝑆𝐸(W) + [(W −̂︁ W)̂︁ 𝑇 · ∇𝐽_{𝑀 𝑆𝐸}(W)]̂︁ + [1 2(W −W)̂︁ 𝑇 _{· ((𝐻} 𝐽𝑀 𝑆𝐸(W) · (W −W))],̂︁ (3.32)

onde W é o vetor com todos os pesos a serem otimizados; 𝐻𝐽𝑀 𝑆𝐸(W) é a matriz Hessiana

da função 𝐽𝑀 𝑆𝐸(W) e H é a matriz Hessiana de 𝐸(W) definida como

(H)𝑖𝑗 ≡ 𝜕𝐸 𝜕𝑤𝑖𝜕𝑤𝑗 | ̂︁ W. (3.33)

O mínimo local da aproximação, W*, pode ser obtido pela equação (BISHOP, 1995)

W* = W − H−1g, (3.34)

onde g = ∇𝐸. O vetor −H−1g é conhecido como direção de Newton.

Este método apresenta, porém, três principais desvantagens: (𝑖) como a apro-ximação 𝐸(W) não é exata, é necessário aplicar iterativamente o ajuste segundo (3.34), o que implica no recálculo da inversa da matriz Hessiana a cada passo, cujo custo com-putacional é da ordem de 𝑂(𝑊3_{), onde 𝑊 é o número de pesos a serem otimizados; (𝑖𝑖)}

se a matriz H não for definida positiva, o passo de otimização pode levar a um máximo; (𝑖𝑖𝑖) o passo de adaptação pode ser suficientemente grande a ponto de levar o vetor de parâmetros para fora da região de aproximação quadrática, fazendo com que o restante da otimização fique instável (BISHOP, 1995).

O algoritmo BFGS visa contornar estas dificuldades. Nele, gera-se uma sequên-cia de matrizes G𝑘 que representam aproximações cada vez mais precisas de H−1 usando apenas informação das derivadas de primeira ordem da função de erro (BISHOP, 1995). Além de não ser mais necessário calcular H−1 diretamente, esta sequência é composta por matrizes definidas positivas, resolvendo, assim, os problemas (𝑖) e (𝑖𝑖) mencionados

(42)

anteriormente. Esta sequência de matrizes é obtida a partir da expressão (BISHOP, 1995): G(𝑘+1) = G(𝑘)+hh 𝑇 h𝑇_v− (G(𝑘)v)v𝑇G(𝑘) v𝑇_G(𝑘)_v + (v 𝑇_G(𝑘)_v)uu𝑇_, _(3.35) onde h = w(𝑘+1)− w(𝑘)_, _(3.36) v = g(𝑘+1)− g(𝑘), (3.37) e u = h h𝑇_v− G(𝑘)v v𝑇_G(𝑘)_v. (3.38)

A derivação das expressões para a geração das matrizes G𝑘_{pode ser encontrada}

em Polak (1971) e Luenberger (1984). Agora, a atualização dos pesos é dada por

W𝑘+1 = W𝑘+ 𝛼𝑘G𝑘g𝑘, (3.39)

onde 𝛼𝑘 é um coeficiente de aprendizado determinado por uma busca linear, que resolve o problema (𝑖𝑖𝑖) por evitar passos não-minimizantes.

3.2.3 Máquinas de aprendizado extremo (ELM)

A ELM é uma FNN com uma única camada intermediária, que apresenta um compromisso entre alto poder de predição e baixo custo computacional. Isto é feito fixando-se os pesos da camada intermediária e otimizando apenas os pesos da camada de saída. A ideia por trás disso é deixar a camada intermediária fazer uma transformação não-linear dos dados de entrada, e transferir toda a responsabilidade de treinamento para a camada de saída (HUANG et al., 2004; HUANG et al., 2006).

A Fig. 3.8 mostra um exemplo de uma ELM. Repare que a estrutura dela é parecida com a da MLP de uma camada intermediária, sendo a principal diferença o fato de os pesos da camada intermediária, W𝑖

∈ R𝑁 ×𝐾_{, não serem adaptados tendo em}

vista informações do erro cometido pela rede, permanecendo fixos após a inicialização. Interessantemente, conforme demonstrado em Huang et al. (2006), os parâmetros da ca-mada intermediária podem ser definidos de forma arbitrária e aleatória, o que simplifica bastante o processo de treinamento da rede. A ELM com função de ativação tangente

(43)

hiperbólica, tal como a MLP, também apresenta capacidade de aproximação universal (HUANG et al., 2006).

Figura 3.8 – Estrutura das ELMs de uma camada intermediária e uma saída.

Assim, uma vez definidos os pesos da camada intermediária, pode-se determi-nar os coeficientes ótimos da camada de saída de forma fechada através da solução de um problema de otimização linear nos parâmetros. A expressão geral da saída da camada intermediária no instante 𝑘 será igual àquela associada à rede MLP e dada em (3.30). Seja a matriz dos dados de saída desta camada

X = [x(0) x(1) . . . x(𝑆 − 1)]𝑇 _{∈ R}𝑆×𝑁, (3.40)

que pode ser vista como uma nova matriz de dados resultante da transformação não-linear dos dados originais de entrada T definida em (3.20). A partir daqui, o procedimento de otimização é igual ao do filtro linear: o vetor ótimo da camada de saída, w𝑜𝑝𝑡, é obtido

pela minimização do MSE (3.8):

w_𝑜𝑝𝑡 = X†t. (3.41)

Finalmente, o vetor com as saídas da ELM para o conjunto de dados X é obtido conforme a expressão:

^_{t = Xw}_𝑜𝑝𝑡_. _(3.42)

3.2.4 Redes neurais com estados de eco (ESN)

A ESN é uma rede neural recorrente de uma camada intermediária proposta por Jaeger (2001), que também apresenta um compromisso entre alto poder de predi-ção e baixo custo computacional. Ela alia a capacidade de processamento dinâmico de

(44)

estruturas recorrentes com a simplicidade de treinamento das redes feedforward. Isto é feito introduzindo laços de realimentação entre os neurônios da camada intermediária, formando o que é conhecido como reservatório. Porém, tal como ocorre com a ELM, os pesos deste reservatório não são ajustados; isto é, são mantidos fixos após a inicialização da rede, e somente os pesos da camada de saída é que são ajustados tendo em vista a minimização da função de erro. A Fig. 3.9 ilustra a estrutura da ESN, onde as linhas pontilhadas indicam possíveis conexões recorrentes entre os neurônios da camada inter-mediária. Além da facilidade de treinamento, o uso da ESN é interessante pelo fato de permitir a exploração da natureza temporal dos dados. No caso dos traços sísmicos, a na-tureza temporal que desejamos explorar está atrelada ao fato de haver uma periodicidade entre a primária e suas múltiplas.

Figura 3.9 – Estrutura das ESNs de uma camada intermediária e uma saída.

O reservatório da ESN é projetado de forma que os estados da rede tornem-se assintoticamente independentes da condição inicial. Em outras palavras, tornem-se a rede é inicializada a partir de dois estados iniciais distintos x(0) e ^x(0), e a mesma sequência de

entrada é recebida, os estados x(𝑛) e ^x(𝑛) convergem para valores próximos. Quando esta

propriedade é satisfeita, diz-se que a ESN possui estados de eco (Echo State Property, ESP) (JAEGER, 2001; BOCCATO, 2013). A ESP é obtida assumindo, primeiramente, que as seguintes condições, denominadas condições de compactação padrão (em inglês,

standard compactness conditions), são satisfeitas:

(i) t(𝑘 − 𝐿) ∈ 𝑈 , onde t(𝑘 − 𝐿) são amostras do espaço de entrada e 𝑈 é um espaço compacto 1;

(ii) e os estados x(𝑘) ∈ 𝐴 ⊂ R𝑁_{, onde 𝐴 é um conjunto compacto de estados admissíveis.}

1 _{Em topologia geral, um espaço compacto é um subespaço euclidiano que é finito e limitado. Para uma}