• Nenhum resultado encontrado

Análise Bayesiana de Processos de Difusão Multivariados com Observações Discretas

N/A
N/A
Protected

Academic year: 2021

Share "Análise Bayesiana de Processos de Difusão Multivariados com Observações Discretas"

Copied!
210
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

INSTITUTO DE MATEMÁTICA

DEPARTAMENTO DE MÉTODOS ESTATÍSTICOS

Análise Bayesiana de Processos de Difusão

Multivariados com Observações Discretas

Vinicius Pinheiro Israel

Orientador: Prof. Dr. Hélio S. Migon

Rio de Janeiro - RJ 2011

(2)

ANÁLISE BAYESIANA DE PROCESSOS DE DIFUSÃO

MULTIVARIADOS COM OBSERVAÇÕES DISCRETAS

Vinicius Pinheiro Israel

Tese de Doutorado submetida ao Programa de Pós-graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Doutor em Ciências Estatísticas.

Orientador: Hélio dos Santos Migon

(3)

ANÁLISE BAYESIANA DE PROCESSOS DE

DIFUSÃO MULTIVARIADOS COM OBSERVAÇÕES

DISCRETAS

Vinicius Pinheiro Israel

Orientador: Hélio dos Santos Migon

Tese de Doutorado submetida ao Programa de Pós-graduação em Estatística do Insti-tuto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Doutor em Ciências Estatísticas.

Aprovada por:

Prof. Hélio dos Santos Migon IM-UFRJ - Orientador

Prof. Leandro P. R. Pimentel IM-UFRJ

Profa. Chang Chung Yu Dorea

UnB

Prof. Dani Gamerman IM-UFRJ

Prof. Bernardo Nunes Borges de Lima UFMG

(4)

FICHA CATALOGRÁFICA

Israel, Vinicius Pinheiro.

Análise Bayesiana de Processos de Difusão Multivariados com Observações Discretas / Vinicius Pinheiro Israel. - Rio de Janeiro: UFRJ, IM, Programa de Pós-graduação em Estatística, 2011.

xi, 189 f.: il..; 31 cm.

Orientador: Hélio dos Santos Migon

Tese (Doutorado) - UFRJ, IM, Programa de Pós-graduação em Estatística, 2011.

Referências bibliográfica: f.182-189.

1. Processos estocásticos. 2. Inferência bayesiana. 3. Estatística Espacial. - Tese. I. Migon, Hélio dos Santos. II. UFRJ / IM / Programa de Pós-graduação em Estatística. III. Título.

(5)

À minha família e em memória de meus avós Daniel e América Israel e da amiga Jacinay de Ávila.

(6)

“Sonha e serás livre de espírito... luta e serás livre na vida.”

(7)

Agradecimentos

Esta é uma das partes mais importantes da tese. Os nomes que aparecem a seguir foram fundamentais para o início, desenvolvimento e conclusão deste trabalho.

Agradeço ao meu orientador Hélio Migon por me dar a oportunidade de entrar no doutorado e por aceitar o desafio de percorrer comigo essa jornada.

Agradeço ao meu orientador de mestrado, Mauro Rincon, que além de convidar o Migon como avaliador da minha dissertação de mestrado me deu apoio incondicional em minha mudança de área.

O suporte da minha família foi decisivo para enfrentar as barreiras que apareceram no caminho. Então agradeço a meu pai José Paulo, minha mãe Angela, minha avó Isaura, minhas irmãs Karina e Isabela e a Maria de Lourdes, que acompanha a minha família há mais de 50 anos.

Algumas pessoas me ensinaram o significado de fazer uma pós-graduação mostrando o que isto implica como transformação e aprofundamento profissional/intelectual. Muito obrigado à Jacinay de Ávila e à Gisely Pereira. Na verdade se fosse agradecer a Gisely por tudo que ela me ajudou essa seção viraria um capítulo, talvez um volume. Estendo esse muito obrigado a minha irmã emprestada Jocasta.

Muitas pessoas entraram e saíram da pós-graduação no período que estive no douto-rado. Gostaria de agradecer a todos os amigos que fiz neste período. Como são muitos e corro o risco de ser indelicado esquecendo alguém, cito aqueles que entraram junto comigo. Obrigado, Josi Baldo, Luzia Tonon, Joaquim Neto, Flavio Bambirra, Vinicius Mayrink, Fidel Castro, Valmária Rocha, Leonardo da Costa, Alexandre Silva e Fernando Nascimento. Em especial agradeço a Priscilla Silva que me ensinou que existem coisas na vida de que não se deve abrir mão. E agradeço à Nathania Altman por sempre ter um sorriso incentivador e um olhar doce para as horas mais assustadoras e por me mostrar um caminho.

(8)

Agradeço ao amigo Carlos Abanto Valle pela ajuda sempre pronta em exercícios de probabilidade e inferência. Exercícios que para mim pareciam impossíveis ele os tratava como triviais. Obrigado pelas boas conversar na hora do cafezinho e pelos conselhos e ensinamentos que guardo com cuidado. Estendo esse agradecimento à Magda e ao Andrès, esposa e filho do Abanto, amigos que ganhei por tabela.

Ao término do doutorado, me dei conta como um único centro de ensino pode formar pesquisadores desde o inicio da vida profissional, até o doutorado. Por isso sou pro-fundamente grato à UNIVERSIDADE FEDERAL DO RIO DE JANEIRO, minha casa desde 1998 quando entrei para estudar matemática, no auge dos meus 17 anos. Primeiro agradeço a todos os funcionários, em especial, Tia Deise, Davi, Cristiano e Eduardo (se-cretários) e Samantha e Leila (bibliotecárias). Nas minhas estimativas, durante todo meu período de formação tive aula com mais de 40 professores do Instituto de Matemática, fazendo mais de 53 cursos (sem contar os seminários e cursos como ouvinte). Agradeço a todos os professores em especial aos do programa de Pós-Graduação em Estatística.

Agradeço ao Departamento da Ciência da Computação (DCC-UFRJ). Foi lá que aprendi a lecionar quando fui professor substituto o que me permitiu arcar financeira-mente com o primeiro ano de doutorado.

(9)

Resumo

Processos de difusão vêm ganhando cada vez mais espaço na literatura estatística recente. Impulsionados por problemas em finanças e em virtude de seu vasto campo de aplicação (como Engenharia, Física, Meio Ambiente, entre outros) esses processos configuram campo interessante de estudo teórico e de aplicação estatística. Inicialmente este trabalho faz uma revisão na literatura sobre estimação de parâmetros de processos de difusão e aumento de dados. Em seguida, propõe-se uma extensão multivariada do processo de Cox et al. (1985) e desenvolve-se formas de inferência de seus parâmetros.

Uma aplicação é feita para o problema de estimar a taxa de emissão de um gás poluente proveniente de áreas alagadas por reservatórios de hidrelétricas. Modelos são apresentados em duas direções: partindo da solução de uma equação diferencial ordinária (EDO) e baseados em uma equação diferencial estocástica (EDE) fazendo uso de algum esquema de discretização. Coloca-se uma estrutura hierárquica para representar a relação entre as posições espaciais das observações com a dinâmica do gás no tempo. Modelos hierárquicos aplicados à emissão de gases de efeito estufa, fazendo uso de inferência bayesiana, são novos na literatura e contribuem para estimar a quantidade de poluição deste tipo que é lançada na atmosfera pelo Brasil. Os modelos propostos são aplicados a dados reais e os resultados são apresentados.

Ao final, formula-se um processo de difusão multivariado espaço-temporal. A esti-mação dos parâmetros, na prática, parte de observações em períodos de tempo discreto enquanto o modelo é contínuo. A contribuição original está em desenvolver processos de difusão espaciais e fornecer técnicas de estimação para seus parâmetros. A estrutura espacial será colocada na função de volatilidade. Aplicações com dados simulados são apresentadas. A inferência segue o enfoque bayesiano partindo de técnicas de MCMC tanto para estimação dos parâmetros quanto para o aumento de dados.

Palavras-chaves: equações diferenciais estocásticas, modelos espaço-temporais

contí-nuos e discretos, modelos hierárquicos, processos estocásticos, estimação bayesiana, au-mento de dados.

(10)

Abstract

Diffusion processes have become a standard tool in recent statistical literature. Motivated by problems in finance and by virtue of its broad scope (such as Engineering, Physics, Environment, among others), these processes make up an interesting field of theoretical study and statistical application. First this thesis reviews the literature on parameter estimation of diffusion processes and data augmentation. Then, we propose a multivariate extension of the Cox et al. (1985) process and we develop ways to infer its parameters.

An application is made for the problem of estimating the emission rate of a polluting gas from areas flooded by an hydroelectric reservoir. Models are presented in two directi-ons: from the solution of an ordinary differential equation (ODE) and from a discretization scheme applied on a stochastic differential equation (SDE). We place a hierarchical struc-ture to represent the relationship between the spatial positions of the observations with the gas dynamics in time. Hierarchical models applied to emission of greenhouse gases, using Bayesian inference, are new in the literature and contribute to estimate the amount of pollution of this type that is released into the atmosphere by Brazil. The proposed models are applied to real data and results are presented.

At the end, we make up a multivariate space-time diffusion process. The estimation of parameters in practice, comes from observations in discrete time periods while the model is continuous. The contribution is to develop spatial diffusion processes and techniques for estimating its parameters overcoming discretization bias. Spatial structure will be placed on the volatility function. Applications using simulated examples are presented. The inference follows the Bayesian approach using MCMC techniques for both parameters and data augmented estimations.

Keywords: stochastic differential equations, continuous and discrete space-time

(11)

Sumário

1 Introdução 1

1.1 Breve histórico sobre processos de difusão . . . 1

1.2 Contribuições e organização do trabalho . . . 4

1.3 Notação empregada . . . 6

2 Preliminares 8 2.1 Definições básicas . . . 8

2.2 Equações diferenciais estocásticas - EDEs . . . 11

2.3 Esquemas de discretização . . . 14

2.3.1 Esquema de Euler-Maruyama . . . 15

2.3.2 Esquemas de Milstein e ordem superior . . . 15

2.4 Verossimilhança do processo de difusão . . . 16

2.4.1 Pela Fórmula de Girsanov . . . 17

2.4.2 Por densidades de transição . . . 19

2.5 Aumento de dados . . . 20

2.6 Principais processos de difusão . . . 21

3 Processo CIR 23 3.1 CIR univariado . . . 24

3.1.1 Esquema de Euler-Maruyama . . . 24

(12)

3.1.3 Exemplo simulado . . . 27

3.2 CIR multivariado . . . 31

3.2.1 Notas sobre a existência e unicidade de soluções . . . 33

3.2.2 Esquema de Euler-Maruyama . . . 34

3.2.3 Transformação dos dados . . . 34

3.2.4 Inferência bayesiana . . . 35

3.2.5 Exemplo simulado . . . 37

4 Aumento de Dados 46 4.1 Movimentos simples . . . 48

4.1.1 Exemplo simulado - CIR univariado . . . 49

4.1.2 Exemplo simulado - CIR multivariado . . . 58

4.2 Fórmula de Girsanov . . . 64

4.2.1 Fatoração da medida dominante . . . 64

4.2.2 Inferência dos parâmetros e dos dados aumentados . . . 67

4.2.3 Exemplo simulado - CIR univariado . . . 68

4.3 Discussões e trabalhos futuros . . . 74

5 Modelos para Difusão de Gases em Reservatórios de Hidrelétricas 75 5.1 Definição do problema e descrição dos dados . . . 76

5.2 Modelos hierárquicos . . . 80

5.2.1 Modelo sem estrutura espacial (M1) . . . 80

5.2.2 Modelo com estrutura espacial (M2) . . . 86

5.3 Modelos de difusões multivariadas para expansão de gases . . . 92

5.3.1 Modelo CIR multivariado . . . 92

5.3.2 CIR hierárquico . . . 94

5.4 Comparação entre modelos . . . 99

5.5 Regressão total . . . 105

(13)

5.6.1 Cálculo da emissão total pela taxa conjunta . . . 110

5.6.2 Cálculo da emissão total por sub-regiões . . . 113

5.6.3 Cálculo da emissão total pelo acréscimo de um nível de hierarquia relacionado a regiões de influência . . . 114

6 Processo de Difusão com Estrutura Espacial 116 6.1 Modelos com estrutura espacial . . . 118

6.1.1 Estrutura espacial sobre a função de volatilidade - PDEEv . . . 119

6.1.2 Estrutura espacial hierárquica - PDEEh . . . 120

6.2 Função de covariância e de correlação . . . 120

6.2.1 Família exponencial de potência . . . 121

6.2.2 Família Matérn . . . 122

6.2.3 Família esférica . . . 122

6.3 CIR multivariado com estrutura espacial . . . 122

6.3.1 Estrutura espacial na volatilidade . . . 123

6.3.2 Estrutura espacial hierárquica . . . 123

6.4 Inferência . . . 124

6.4.1 Inferência dos parâmetros espaciais e do vetor direção . . . 126

6.5 Exemplo simulado 1 . . . 129

6.6 Exemplo simulado 2 . . . 135

7 Conclusões e Trabalhos Futuros 143 A Análise dos dados de Corumbá 146 A.1 Modelo hierárquico sem estrutura espacial - M1 . . . 146

A.2 Modelo hierárquico com estrutura espacial - M2 . . . 154

A.3 Modelo CIR hierárquico . . . 162

(14)
(15)

Lista de Tabelas

2.1 Processos de difusão. . . 22 4.1 Estatísticas do procedimento de inferência: médias a posteriori e

desvios-padrão (em parênteses). A primeira linha exibe os parâmetros e a segunda linha seus valores verdadeiros. A terceira linha refere-se ao exemplo com todos os dados observados como feito na Seção 3.1, a quarta linha considera somente observados os dados de 10 em 10 unidades de tempo e a última linha corresponde ao exemplo em questão. . . 56

4.2 Sumário das amostras a posteriori de α, β e σ2. . . 72

5.1 Estatísticas (média, desvio padrão e quartis) sobre a amostra a posteriori dos principais parâmetros do modelo M1 para as campanhas 1, 2 e 3 do

reservatório de Corumbá. . . 86

5.2 Estatísticas (média, desvio padrão e quartis) sobre a amostra a posteriori dos principais parâmetros do modelo CIR hierárquico para as campanhas 1, 2 e 3 do reservatório de Corumbá. . . 99 5.3 Comparação entre os modelos por DIC e funções escore. . . 104 5.4 Modelos para regressão total. . . 106 5.5 Sumário das estatísticas (média, desvio padrão e quartis) das amostras a

posteriori dos fluxos pelos modelos M1T e M2T para as campanhas 1, 2 e

3 do reservatório de Corumbá. . . 106

(16)

5.7 Estatísticas da emissão total do reservatório de Corumbá considerando as três campanhas e os métodos M1 e CIR hierárquico (MH) em tonelada CH4/dia. . . 113

6.1 Raiz do erro quadrado médio √EQM . . . 141

1.1 Estatísticas das taxas de emissão no instante inicial para as campanhas 1,

2 e 3 do reservatório de Corumbá - M1. . . 147

1.2 Estatísticas das taxas de emissão no instante inicial para as campanhas 1,

2 e 3 do reservatório de Corumbá - M2. . . 155

1.3 Estatísticas das taxas de emissão no instante inicial para as campanhas 1,

(17)

Lista de Figuras

2.1 Aumento de dados. . . 21

3.1 Dados simulados e dados transformados. . . 28

3.2 Resultado do Amostrador de Gibbs. Traço (coluna 1), função de auto-correlação (coluna 2) e histograma (coluna 3), para os parâmetros α, β e σ2. As retas horizontais e verticais que aparecem nos traços e histogramas, respectivamente, representam os valores verdadeiros. . . 29

3.3 Comparação entre as amostras a posteriori dos parâmetros do processo CIR univariado para ∆ = 1 (linha contínua) e ∆ = 10 (linha tracejada). As linhas pontilhadas indicam os valores verdadeiros dos parâmetros. . . 31

3.4 Dados simulados e dados transformados. . . 38

3.5 Saída do MCMC para o parâmetro ϕ. . . 39

3.6 Histogramas da amostra a posteriori de ϕ. . . 40

3.7 Saída do MCMC para Σ. . . 41

3.8 Histogramas da amostra a posteriori de Σ. . . 42

3.9 Comparação dos ϕs a posteriori para ∆ = 1 (linha contínua) e ∆ = 10 (linha tracejada). As retas verticais pontilhadas representam os valores verdadeiros. . . 44

3.10 Comparação dos Σs a posteriori para ∆ = 1 (linha contínua) e ∆ = 10 (linha tracejada). As retas verticais pontilhadas representam os valores verdadeiros. . . 45

(18)

4.1 Dados simulados e pontes lineares (gráfico da esquerda) e média a posteriori das pontes com IC95% (gráfico da direita). . . 50 4.2 Saída do MCMC. Traços (coluna 1), funções de autocorrelação (coluna 2)

e histogramas (coluna 3) para os parâmetros α, β e σ2. As retas horizontais

(nos traços) e verticais (nos histogramas) assinalam os valores verdadeiros dos parâmetros. . . 52 4.3 Média a posteriori das pontes (linhas), IC95% (arcos), dados verdadeiros

(pontos em círculos) e raiz do EQM para cada uma das variáveis latentes

(retas verticais). . . 54

4.4 Saída do MCMC para o procedimento em Eraker (2001). Traços (coluna 1), funções de autocorrelação (coluna 2) e histogramas (coluna 3) para os

parâmetros α, β e σ2. As retas horizontais (nos traços) e verticais (nos

histogramas) assinalam os valores verdadeiros dos parâmetros. . . 55 4.5 Comparação entre as densidades a posteriori. Observados 201 dados (linha

contínua), 21 observados, sem dados aumentados (linha tracejada) e 21 observados com dados aumentados e MCMC como em Eraker (2001) (linha pontilhada). As retas tracejadas verticais indicam os valores verdadeiros. . 57 4.6 Densidade a posteriori para ϕ. Considerando todos os dados N = 201 (linha

contínua), N = 21 sem aumento (linha tracejada) e N = 21 com aumento (linha pontilhada). . . 62 4.7 Densidade a posteriori para Σ. Considerando todos os dados N = 201

(linha contínua), N = 21 sem aumento (linha tracejada) e N = 21 com aumento (linha pontilhada). . . 63 4.8 Média a posteriori dos dados não observados (linhas), IC 95%, pontes

ver-dadeiras (pontos) e raiz do EQM (barras verticais). . . 71 4.9 Taxa de aceitação para cada ponte. . . 71

(19)

4.10 Saída do MCMC. Traços (coluna 1), funções de autocorrelação (coluna 2)

e histogramas (coluna 3) para os parâmetros α, β e σ2. As retas horizontais

(nos traços) e verticais (nos histogramas) assinalam os valores verdadeiros dos parâmetros. . . 73 5.1 Coleta dos dados em um reservatório e câmaras de difusão utilizadas

(fo-tos superiores). Procedimento de cromatografia gasosa para obtenção das concentrações dos gases nas câmaras (foto inferior). . . 77

5.2 Saída do MCMC dos parâmetros µη, σ2

η, µκ e σ2η referente a segunda

cam-panha de Corumbá. . . 82 5.3 Histogramas das amostras a posteriori. . . 83 5.4 Taxas de emissão inicial dos sítios 1 ao 20 e a taxa de emissão inicial coletiva. 84 5.5 Taxa de emissão inicial coletiva para segunda campanha de Corumbá. . . . 85

5.6 Concentrações do metano (CH4) nos tempos 0, 3, 6 e 12 minutos. As letras

representam as localizações. . . 89

5.7 Taxas locais ri e coletiva rc para segunda campanha de Corumbá. . . 90

5.8 Saída do MCMC (esquerda) e histograma (direita) dos parâmetros ψ e σ2

W (superior e inferior, respectivamente). . . 91

5.9 Traços das amostras a posteriori dos parâmetros µα, σ2

α, µβ e σβ2 pelo modelo

CIR hierárquico. . . 95

5.10 Histogramas das amostras a posteriori dos parâmetros µα, σ2

α, µβ e σβ2 pelo modelo CIR hierárquico. . . 96 5.11 Taxas de emissão inicial para a segunda campanha de Corumbá.

Localiza-ções 1 a 20 e taxa coletiva. . . 97 5.12 Taxa de emissão inicial coletiva para segunda campanha de Corumbá. . . . 98 5.13 Comparação entre taxas de emissão inicial coletivas por dois métodos. . . . 100 5.14 Amostras a posteriori das taxas de emissão inicial por: CIR hierárquico

(histogramas), modelo M1 (linhas contínuas) e mínimos quadrados (linhas

(20)

5.15 Amostras a posteriori das taxas de emissão inicial por: CIR hierárquico (histogramas), modelo M1 (linhas contínuas) e mínimos quadrados (linhas tracejadas verticais) para segunda campanha de Corumbá, locais 13 ao 20. 103 5.16 Ajustes dos modelos (primeira linha), traços dos fluxos (segunda linha) e

histogramas dos fluxos (terceira linha) para os modelos M1T e M2T para segunda campanha de Corumbá. . . 107 5.17 Reservatório de Corumbá com os locais de amostragem da segunda campanha.111 5.18 Emissão do reservatório de Corumbá para cada uma das campanhas pelos

métodos: M1 e CIR hieráquico - MH. . . 112 6.1 Processo de difusão multivariado espacial. . . 118 6.2 Localização das observações (esquerda) e séries simuladas (direita). . . 131 6.3 Traços e histogramas do parâmetro α do vetor direção do CIR

multidimen-sional com estrutura espacial. As retas indicam os valores verdadeiros da simulação. . . 132 6.4 Traços e histogramas do parâmetro β do vetor direção do CIR

multidimen-sional com estrutura espacial. As retas indicam os valores verdadeiros da simulação. . . 133 6.5 Traços e histogramas dos parâmetros da estrutura espacial. As retas

indi-cam os valores verdadeiros da simulação. . . 134 6.6 Locais da geração (superior esquerdo), valores iniciais das séries (superior

direito), séries no tempo (inferior esquerdo) e fluxos verdadeiros (inferior direito). . . 137 6.7 Locais observados (superior esquerdo), valores iniciais das séries (superior

direito), séries no tempo (inferior esquerdo) e fluxos verdadeiro (inferior direito). . . 139 1.1 Convergência das taxas para a campanha 1 de Corumbá. . . 148 1.2 Convergência das taxas para a campanha 2 de Corumbá. . . 149

(21)

1.3 Convergência das taxas para a campanha 3 de Corumbá. . . 150

1.4 Histogramas das taxas de emissão inicial - Corumbá - campanha 1. . . 151

1.5 Histogramas das taxas de emissão inicial - Corumbá - campanha 2. . . 152

1.6 Histogramas das taxas de emissão inicial - Corumbá - campanha 3. . . 153

1.7 Traços das taxas para a campanha 1 de Corumbá. . . 156

1.8 Traços das taxas para a campanha 2 de Corumbá. . . 157

1.9 Traços das taxas para a campanha 3 de Corumbá. . . 158

1.10 Histogramas das taxas de emissão inicial - Corumbá - campanha 1. . . 159

1.11 Histogramas das taxas de emissão inicial - Corumbá - campanha 2. . . 160

1.12 Histogramas das taxas de emissão inicial - Corumbá - campanha 3. . . 161

1.13 Convergência das taxas para a campanha 1 de Corumbá. . . 164

1.14 Convergência das taxas para a campanha 2 de Corumbá. . . 165

1.15 Convergência das taxas para a campanha 3 de Corumbá. . . 166

1.16 Histogramas das taxas para a campanha 1 de Corumbá. . . 167

1.17 Histograma das taxas para a campanha 2 de Corumbá. . . 168

(22)

Capítulo 1

Introdução

Processos de difusão são ferramentas úteis para modelar uma grande variedade de fenômenos que evoluem continuamente no tempo. As aplicações aparecem em diferentes campos do conhecimento podendo-se citar: finanças, biologia, física, engenharia, dentre outros. Esta introdução tem por objetivo apresentar ao leitor a importância destes pro-cessos na ciência, fornecer uma visão geral da organização deste trabalho e delinear os caminhos da tese.

1.1 Breve histórico sobre processos de difusão

Um dos tópicos centrais que envolve processos de difusão e equações diferenciais esto-cásticas (EDEs) é o movimento browniano. Em 1828, o botânico escocês Robert Brown observou que grãos de polén submersos em líquido comportam-se realizando movimentos irregulares, aparentemente aleatórios. Intrigado, observou que o mesmo fenômeno ocorria em partículas de pó, o que lhe permitiu concluir que os movimentos não eram devidos a mecanismos biológicos associados ao pólen. Apesar de não ter conseguido encontrar uma explicação concisa para o fenômeno observado, ele passou a designar-se por movimento browniano, em honra do seu descobridor.

(23)

Thi-ele em um artigo de 1880 baseado no método de mínimos quadrados. Independentemente, Luis Bachelier foi o pioneiro no uso de movimento browniano em finanças. Foi no dia 29 de março de 1900 na “Faculté des Sciences” de Paris que Bachelier, sob orientação do célebre matemático Henri Poincaré, defendeu tese de doutorado intitulada “Théorie de la

Spéculation”. Para muitos pesquisadores este evento marca o início do estudo moderno de

finanças, pois, em sua tese, Bachelier assumiu que o preço de um ativo financeiro segue um movimento browniano com direção zero; iniciando assim o casamento entre modelagem de preços de ativos e cálculo estocástico. Somente em 1905, Albert Einstein, em um de seus artigos daquele ano, forneceu uma explicação física concisa do fenômeno do movimento das partículas imersas em líquido.

Mais de uma década depois, Nobert Wiener combinou teoria da medida e séries de Fourier para, em 1923, construir sua versão do movimento browniano. Neste período, Wiener e outros pesquisadores mostraram que os caminhos do movimento browniano têm variação quadrática não nula igual a (t−s) no intervalo (s, t) e, além disso, os caminhos do movimento browniano têm variação infinita num intervalo compacto, quase certamente. Em reconhecimento ao trabalho de Wiener, essa construção do movimento browniano ficou conhecida por processo de Wiener.

Nas décadas seguintes o desenvolvimento da teoria de probabilidade, em especial a teoria sobre processos de Markov, e o início dos trabalhos sobre integração estocástica somaram-se ao conhecimento sobre processos de Wiener para formar a estrutura base do cálculo estocástico e, posteriormente, de sua utilização em finanças. Em 1931, A. N. Kolmogorov escreve sobre a construção de Bachelier acerca do movimento browni-ano. Kolmogorov mostra que processos de Markov contínuos dependem essencialmente de um parâmetro de velocidade na função de direção e um parâmetro para o tamanho da componente puramente aleatória (componente difusiva).

Na década de 1950, Kiyosi Itô construiu uma equação diferencial estocástica da forma

dXt = µ(Xt)dt + σ(Xt)dWt, sendo que Wt representa o processo de Wiener padrão. Em

(24)

ao trabalho de Kolmogorov sobre processos de Markov, Itô fornece a base da integração estocástica. Em seu trabalho de 1951, ele cria uma das principais ferramentas do cálculo estocástico que ficou conhecida por Fórmula de Itô.

Itô ficou conhecido como o criador da teoria moderna de análise estocástica por conta da contribuição científica de seus trabalhos. Por exemplo, sua fórmula básica é ampla-mente conhecida e vastaampla-mente utilizada em campos da ciência dos mais diversos como Física e Economia.

A segunda metade do século XX foi frutífera no desenvolvimento da teoria sobre processos de difusão e cálculo estocástico. Dentre os autores que contribuíram para a evolução deste campo de pesquisa pode-se citar: J. L. Doob, P. A. Meyer e os trabalhos relacionados a transformações de difusões derivados dos trabalhos de Girsanov.

O desenvolvimento de técnicas de estimação de parâmetros de processos de difusão foi intenso nas últimas duas décadas. Uma das principais razões desse desenvolvimento deve-se à diversidade de áreas de aplicação de processos de difusão e principalmente deve-seu vasto uso em finanças para modelar séries de preços. Como a observação da ocorrência completa de um processo de difusão é impossível, as formas paramétricas de estimação partem da aproximação da função de verossimilhança. O trabalho de Kloeden e Platen (1992) trata com rigor matemático soluções numéricas para equações diferenciais estocásticas, tornando-se um livro de referência sobre o assunto.

O ponto central da inferência sobre difusões é modelar fenômenos contínuos contando com observações discretas. Os trabalhos de Bibby e Sørensen (1995) e Pedersen (1995) são boas referências sobre o assunto. Eles fornecem estratégias de aproximação da função de verossimilhança por funções de transição e discutem ainda aumento de dados para refinar essa tarefa.

A estatística bayesiana vem ocupando posição central para estimar parâmetros e sele-cionar modelos partindo de difusões. A partir da década de 1990, com o desenvolvimento de Métodos de Monte Carlo via Cadeia de Markov (MCMC) e acesso a computadores mais rápidos, a inferência bayesiana teve um crescimento acelerado. Polson e Roberts (1994)

(25)

desenvolveram métodos de seleção de modelos partindo de processos cuja solução exata da equação diferencial estocástica era avaliada, Roberts e Stramer (2001) escreveram um importante trabalho para aproximar a função de verossimilhança pela discretização da fórmula de Girsanov. O presente texto está repleto de referências sobre inferência baye-siana e vão aparecendo conforme os tópicos forem apresentados. Vale no entanto ainda citar os trabalhos de Jones (1998), Johannes e Polson (2003), Kalogeropoulos (2006), Ka-logeropoulos (2007), Eraker (2001), Elerian et al. (2001), referências importantes sobre o assunto.

A história dos processos de difusão e do cálculo estocástico podem ser obtidas em diversas fontes. Os livros de cálculo estocástico que têm o cuidado de fazer uma conexão entre teoria e embasamento histórico são boas referências (por exemplo ver Øksendal (1995) e Steele (2001)). Páginas da internet também trazem informações valiosa desde biografias dos principais nomes aqui citados até trabalhos na íntegra. O texto de Jarrow e Protter (2003) faz um belo relato sobre a história da integração estocástica e finanças matemática e traz ainda uma farta lista de referências bibliográficas (mais de 80 trabalhos) que fizeram esta história.

1.2 Contribuições e organização do trabalho

O presente trabalho apresenta contribuições em algumas direções. A primeira delas refere-se a uma caracterização multivariada do processo de Cox et al. (1985) no qual, através de um esquema de discretização, torna-se possível a estimação dos parâmetros com auxílio da teoria de modelos de regressão multivariado. A inferência é feita sob o enfoque bayesiano através de Métodos de Monte Carlo via Cadeia de Markov (MCMC).

Uma aplicação é realizada para o problema de estimação da taxa de emissão de gases poluentes provenientes de reservatórios de hidrelétricas. A contribuição está em desenvol-ver modelos para o problema da emissão de gases e realizar inferência sobre o conjunto de dados. São aplicadas técnicas de estimação sobre modelos hierárquicos, modelos

(26)

hierár-quicos com estrutura espacial e modelos partindo de difusões. Essa aplicação configura uma contribuição original na análise de dados desse tipo no Brasil.

Uma das novidades centrais deste trabalho está na formulação de processos de difusão multivariados com estrutura espacial e hierárquico. Isto é, assume-se que vários processos de difusão univariados estão dispostos geograficamente no plano e sua estrutura de cor-relação é função da sua posição. Esta formulação é apresentada juntamente com técnicas de estimação dos parâmetros.

Por fim, no decorrer de todo o texto apresenta-se o que há de mais recente na literatura estatística sobre: técnicas de discretização, aumento de dados e inferência sobre processos de difusão com dados discretamente observados.

A estrutura do trabalho está organizada da seguinte forma:

• O Capítulo 2 apresenta os principais conceitos e resultados que são base para tese. Nele definem-se movimento browniano, equação diferencial estocástica, Fórmula de Itô, dentre outros. Apresentam-se, ainda, formas para a verossimilhança de um processo de difusão e uma breve introdução sobre inferência e aumento de dados. Ao final do capítulo, os principais processos de difusão recorrentes na literatura são listados;

• No Capítulo 3, caracteriza-se o processo CIR multivariado e se faz a inferência ba-seada na aproximação da função de verossimilhança pelo produtório das densidades de transição, que são obtidas do esquema de discretização de Euler-Maruyama. Os dados são transformados para trabalhar com modelos de regressão multivariado sob o enfoque bayesiano;

• Uma das principais questões em utilizar modelos contínuos com dados discretamente observados está na presença do erro ou viés de discretização. Técnicas de aumento de dados são utilizadas para reduzir este efeito sendo que dados não observados podem ser adicionados ao procedimento de inferência sob a forma de parâmetros. Técnicas de aumento de dados são apresentadas e discutidas no Capítulo 4;

(27)

• Partindo do que foi visto nos capítulos anteriores, no Capítulo 5 são apresentados alguns modelos correntes na literatura e alguns modelos partindo de difusões com o objetivo de estimar taxa de emissão de gases poluentes. Apesar das técnicas já serem conhecidas, a aplicação delas na estimação da taxa de emissão de gases poluentes provenientes de reservatórios de hidrelétricas constitui uma novidade na literatura; • No Capítulo 6, define-se o processo de difusão com estrutura espacial. A função de covariância é apresentada e desenvolvida no contexto de processos de difusão multivariados. Desenvolve-se o processo CIR multivariado com estrutura espacial e por fim, desenvolve-se técnicas de estimação;

• O Capítulo 7 apresenta as conclusões e as direções para trabalhos futuros.

1.3 Notação empregada

O texto do presente trabalho segue as novas regras estabelecidas no acordo ortográfico que devem ser implantadas nos países de língua portuguesa a partir de 2009. Este pode ser visto no manual de Bechara (2008). As regras para numeração seguem o padrão americano com ponto separando a parte decimal da parte fracionária. Esta abordagem facilita usar os resultados em publicações e torna a programação compatível com a maioria dos softwares e pacotes existentes.

O processo de difusão é denotado por Xt ou X(t) na versão univariada e em negrito,

Xt ou X(t), no caso multivariado. O mesmo vale para o movimento browniano Bt e Bt,

casos uni e multivariado, respectivamente.

Tratando de equações diferenciais estocásticas, a função de direção será denotada por

bt, e no caso vetorial por bt. A função de volatilidade será denotado por σt e no caso

matricial por σt. Está é uma forma abreviada, pois essas funções podem depender ainda dos parâmetros e do próprio processo. Em geral o vetor de parâmetros é denotado por θ e o espaço paramétrico por Θ.

(28)

Quando se tratar de observações discretas de um processo de difusão univariado refere-se ao conjunto

Y ={Yk= Xtk, k = 0, 1, . . . , N},

sendo t0 < t1 < . . . < tN os tempos de observações. O negrito, em Y , será utilizado para

denotar observações discretas de um processo de difusão multivariado sendo que é uma matriz n (dimensão do caso multivariado) por N + 1 observações.

O símbolo ′

(linha) será utilizado para representar o transposto de uma matriz ou vetor.

As notações aqui apresentadas são as mais importantes, outras aparecerão no decorrer do texto, em especial no próximo capítulo.

(29)

Capítulo 2

Preliminares

Neste capítulo são apresentados os principais resultados teóricos, as definições funda-mentais e as notações que serão utilizados no decorrer do trabalho. O capítulo não tem a pretensão de esgotar matematicamente os tópicos aqui descritos. Para uma abordagem extra dos principais conceitos e resultados que tangem Teoria da Probabilidade sugere-se a leitura de Karatzas e Shreve (1991), Øksendal (1995), Steele (2001) e Klebaner (2005). E para uma abordagem detalhada do tratamento numérico de equações diferenciais esto-cásticas ver Kloeden e Platen (1992).

2.1 Definições básicas

Definição 2.1.1. Um processo estocástico é uma coleção de variáveis aleatórias {X(t)}

no qual para cada t fixo, com t = 0, . . . , T, (caso discreto) ou t∈ IR+, (caso contínuo) X(t)

é uma variável aleatória em (Ω,F), onde Ω é um espaço amostral e F uma σ−álgebra de eventos.

Definição 2.1.2. Uma filtração IF é uma coleção de σ−álgebras tal que

IF ={Ft, t ∈ I},

(30)

contínuo).

A filtração IF é usada para modelar um fluxo de informação em t, isto é, conforme o tempo passa obtém-se mais informação tornando mais refinadas as partições de um espaço amostral Ω.

Definição 2.1.3. Um processo estocástico é dito adaptado à filtração IF se para todo

t∈ I, X(t) é uma variável aleatória em Ft, isto é, se X(t) é Ft-mensurável.

Observação: comumente na literatura o processo estocástico X(t) é denotado por Xt. Definição 2.1.4. Um movimento browniano {B(t)} é um processo estocástico com as

seguintes propriedades:

(i) Incrementos independentes: B(t)− B(s), para t > s, é independente do passado, isto é, independe de Bu, 0≤ u ≤ s ou de Fs= σ(Bu, u≤ s).

(ii) Incrementos normais: B(t)− B(s) ∼ N(0, |t − s|).

(iii) Continuidade dos caminhos: B(t), t≥ 0 é uma função contínua de t, quase certa-mente.

Definição 2.1.5. Um movimento browniano d−dimensional é um vetor aleatório

B(t) = (B(1)(t), . . . , B(d)(t)) no qual as coordenadas B(i)(t), com i = 1, . . . , d, são

movi-mentos brownianos unidimensionais independentes.

O movimento browniano B(t) é conhecido também por processo de Wiener e B(t) por processo de Wiener d−dimensional.

As definições a seguir são fundamentais no tratamento de equações diferenciais es-tocásticas (EDE) caracterizadas por movimentos brownianos. Primeiro será definida a Integral de Itô com respeito ao movimento browniano. Esta integral determina o tipo de cálculo estocástico que será considerado nesta tese. A Integral de Itô é definida para processos simples adaptados. Esta definição pode ser estendida para processos adaptados

(31)

vistos como limites em probabilidade de sequências de processos simples (ver Øksendal (1995, cap. 3) ou Steele (2001, cap. 6)). Em seguida enuncia-se um dos resultados mais importantes do cálculo estocástico conhecido como Fórmula de Itô. Ele estabelece que certas funções aplicadas a processos estocásticos especiais (processos de Itô) ainda são processos de Itô com forma conhecida.

Definição 2.1.6. Um processo de Itô é da forma X(t) = X(0) + Z t 0 b(u)du + Z t 0 σ(u)dB(u), 0≤ t ≤ T, (2.1)

sendo que X(0) é F0-mensurável e os processos b(t) e σ(t) são Ft-adaptados com

Z T 0 |b(t)|dt < ∞ e Z T 0 σ2(t)dt <∞.

A forma integral do processo de Itô, presente na equação (2.1), pode ser substituída pela forma diferencial como aparece enunciado no teorema a seguir. Vale ressaltar que a forma diferencial dB(t) só faz sentido em termos de notação uma vez que a derivada de um movimento browniano não existe em nenhum ponto quase certamente.

Teorema 2.1. (Fórmula de Itô) Seja X como em (2.1) e f(x, t) ∈ C2,1(IR × [0, T ])

(i.e. duas vezes diferenciável em relação a x e uma vez em relação a t) então a equação diferencial estocástica do processo Y (s) = f (Xs, s) existe e é um processo de Itô dado por

df (Xt, t) = ∂f (Xt, t) ∂s dt + ∂f (Xt, t) ∂x dXt+ 1 2 ∂2f (Xt, t) ∂x2 d[X, X](t),

sendo d[X, X](t) = (dXt)2 e pelas regras do cálculo estocástico: dBtdt = 0, (dt)2 = 0 e

(dBt)2 = d[B, B](t) = dt; resulta que df (Xt, t) = ∂f (Xt, t) ∂s + ∂f (Xt, t) ∂x b(t) + 1 2 ∂2f (Xt, t) ∂x2 σ 2(t)  dt + ∂f (Xt, t) ∂x σ(t)dBt.

Um processo de Itô n-dimensional pode ser definido como extensão do caso

univari-ado substituindo: b(u) por uma função vetorial em IRn, σ2(u) por uma função matricial

IRn×d e Bu por um movimento browniano d−dimensional. Isto sob a condição de que as

coordenadas bi(u) e σ2

ij(u) satisfaçam os critérios da definição 2.1.6.

(32)

Teorema 2.2. (Fórmula de Itô multidimensional) Sejam X um processo de Itô n −

dimensional e f (x, t) = (f1(x, t), . . . , fn(x, t)) ∈ C2,1(IRn × [0, T ]) (i.e. duas vezes

diferenciável em relação a x e uma vez em relação a t) uma aplicação em IRp. Então a

equação diferencial estocástica do processo Y (s) = f (Xs, s) existe e é um processo de Itô

cujas componentes são dadas por

dY(k)t = ∂fk(Xt, t) ∂s dt + X i ∂fk(Xt, t) ∂xk dX (i) t + 1 2 X i,j ∂2fk(Xt, t) ∂xixj dX(i)t dX (j) t ,

sendo dB(i)t dB(j)t = 0, se i 6= j, dB(i)t dB(j)t = dt, se i = j e dB(i)t dt = dt dB(j)t = dt dt = 0.

Na seção a seguir será apresentada a definição de equações diferenciais estocásticas (EDE’s) e os seus principais resultados.

2.2 Equações diferenciais estocásticas - EDEs

Sejam B(t), t ≥ 0, um movimento browniano d-dimensional e θ um vetor de parâme-tros, que pode apresentar dinâmica no tempo, pertencente ao espaço dos parâmetros Θ. Chama-se aqui de equação diferencial estocástica (EDE) governada pelo movimento browniano B(t) a equação da forma

dX(t) = b(X(t), t; θ)dt + σ(X(t), t; θ)dB(t), (2.2)

sendo que

(a) b : IRn

× IR+× Θ → IRn é uma função vetorial conhecida como função direção;

(b) σ : IRn

× IR+ × Θ → IRn×d é uma função matricial denominada por função de

volatilidade e cuja forma a := σ′

σ é chamada de matriz de difusão e

(33)

A equação (2.2) pode ser escrita sob a forma de coordenadas por dX(i)(t) = bi(X(t), t; θ)dt + d X j=1 σij(X(t), t; θ)dB(j)(t), i = 1, . . . , n.

E também pode ser escrita na notação completa por integrais para todo t > 0 e i = 1, . . . , n por X(i)(t) = X(i)(0) + Z t 0 bi(X(u), u; θ)du + d X j=1 Z t 0

σij(X(u), u; θ)dB(j)(u), (2.3)

sendo a última integral a integral de Itô.

A seguir são descritas algumas propriedades importantes sobre os termos das EDEs que permitem avaliar a existência e unicidade de soluções. Em seguida definem-se soluções forte e fraca de uma EDE e enunciam-se os principais resultados sobre o tema.

(C1) Condição de Lipschitz - Os coeficientes b e σ são localmente lipschitzianos em x com uma constante K independente de t se para todo N > 0, existe K = K(T, N)

constante tal que para todo |x1|, |x2| ≤ N e para todo t ∈ [0, T ] tem-se

|b(x1, t)− b(x2, t)| + |σ(x1, t)− σ(x2, t)| < K|x1− x2|,

sendo |b| e |x| a norma euclidiana do IRn

e |σ| = traço(σσ′).

(C2) Condição de crescimento - A condição de crescimento linear para os coeficientes

b e σ é satisfeita se para todo N > 0 existir constante K = K(T, N) tal que para

todo |x| ≤ N e para todo t ∈ [0, T ] tem-se

|b(x, t)| + |σ(x, t)| ≤ K(1 + |x|).

Definição 2.2.1. Um processo X(t) é chamado de solução forte de uma EDE se para

todo t > 0 as integrais Z t 0 bi(X(u), u; θ)du e d X j=1 Z t 0 σij(X(u), u; θ)dB(j)(u)

(34)

A solução forte de uma EDE deve ser interpretada como um funcional F (t, (Bs, s≤ t)) do

movimento browniano B(t) dado. Além disto, quando σt = 0 (no caso unidimensional)

a EDE torna-se uma equação diferencial ordinária (EDO) em que a solução perde seu caráter estocástico.

Teorema 2.3. Se as condições (C1) e (C2) são atendidas, X(0) é independente de

(B(t), 0 ≤ t ≤ T ) e E[|X(0)|2] < ∞ então existe uma única solução forte X(t) da

EDE (2.2) e além disto, no caso de X unidimensional,

E  sup 0≤t≤T X2(t)  < C[1 + E(X2(0))],

sendo C constante em relação a X.

Prova: ver Øksendal (1995, p. 66) ou Steele (2001, p. 142).

Uma propriedade importante da solução forte X(t) é que ela possui a propriedade

markoviana, i.e., dada Ft a σ−álgebra gerada pelo processo até o tempo t, para qualquer

0≤ s ≤ t, tem-se

P (X(t)∈ A|Fs) = P (X(t) ∈ A|X(s)) quase certamente.

Isto significa que dado o processo X no estado presente o futuro é independente do passado.

Teorema 2.4. Se para cada t > 0 as funções b(x, t) e σ(x, t) forem contínuas e limitadas

com relação as variáveis x e t, então a EDE em (2.2) tem ao menos uma solução fraca, começando em x1 e terminando em x2, para todo x1 e x2 pertencentes a IRd.

O conceito de solução fraca é importante, pois permite dar sentido a uma EDE quando a solução forte não existe. Soluções fracas são soluções em distribuição, podem ser defi-nidas em outros espaços de probabilidade e existem sob condições menos exigentes com relação aos coeficientes da EDE.

A construção de soluções fracas, assim como extensões e variações deste teorema, podem ser vistas em Klebaner (2005, p. 138).

(35)

A ponte browniana é uma transformação do movimento browniano sob a condição de possuir valores fixos nas fronteiras do intervalo [0, T ], i.e., X(0) = a e X(T ) = b. A notação B(0, a; T, b) representa a ponte browniana cujo valor no tempo zero é a e no tempo T é b. Esse conceito será importante mais a frente como opção para técnicas de aumento de dados sendo definido a seguir.

Definição 2.2.2. Chama-se de ponte browniana a solução da EDE

dXt= b− Xt

T − t dt + dBt, para 0≤ t < T, X0 = a,

sendo Bt um movimento browniano.

A ponte browniana pode ser caracterizada, ainda, como um processo da forma

Xt= a  1 t T  + bt T + (T − t) Z t 0 dBt T − s,

com 0 ≤ t < T e sendo a última integral a integral de Itô.

2.3 Esquemas de discretização

Uma das principais questões colocadas ao utilizar processos de difusão para modelar fenômenos da natureza está no fato das observações da difusão serem finitas enquanto a EDE que modela a difusão é contínua. Alguns resultados de convergência para esque-mas de discretização justificam o uso de processos discretizados. Para uma leitura mais profunda sobre métodos numéricos em EDEs sugere-se Kloeden e Platen (1992).

A ideia central dos esquemas apresentados a seguir é assumir que é conhecida uma

quantidade de pontos da difusão Xt, para 0 ≤ t ≤ T . E dada a discretização em [0, T ]

da forma 0 = t0 ≤ t1 ≤ . . . ≤ tN = T é possível escrever uma equação de evolução para

Ytk (pontos discretamente observados) com k = 0, . . . , N, que substitua o incremento

infinitesimal do movimento browniano dBt. Esta aproximação só faz sentido se lim

δ→0Ytk =

Xt, sendo δ = max

(36)

2.3.1

Esquema de Euler-Maruyama

Este é certamente o método numérico mais utilizado para fazer uma discretização de

uma EDE. Define-se a versão discretizada Y = {Yk := Ytk = Xtk, 0 = t0 < . . . < tN =

T} de Xt, 0≤ t ≤ T e, então, a EDE em (2.2) é escrita sob o esquema de Euler-Maruyama

da forma

Yk+1 = Yk+ b(Yk, tk; θ)∆+k + σ(Yk, tk; θ)∆Bk, com k = 0, . . . , N − 1, (2.4)

sendo ∆+

k = tk+1− tk e ∆Bk = Btk+1− Btk ∼ Nn(0n, ∆

+

kIn), com 0n o vetor de zeros de

dimensão n e In a matriz identidade de ordem n. Por simplicidade de notação toma-se

∆k= ∆+k para representar a diferença adiantada.

Convergência:

Para o caso de difusões unidimensionais (i.e. n = 1) pode-se mostrar que Y converge

fortemente para X em ordem 1/2 pois existem constantes C > 0 e δ0 > 0 tais que

E(|XT − YtN|) ≤ Cδ

1/2, com δ = min

k=0,...,N −1|tk+1− tk| ∈ (0, δ0).

Diz-se ainda que Y converge fracamente para X em ordem 1 se existem constante C > 0

e δ0 > 0 tais que para toda função polinomial g tem-se

|E[g(XT)]− E[g(YtN)]| ≤ Cδ, com δ = min

k=0,...,N −1|tk+1− tk| ∈ (0, δ0).

2.3.2

Esquemas de Milstein e ordem superior

A forma de discretização de Milstein é resultado da aplicação da expansão de Taylor e fórmula de Itô em EDE. Uma abordagem detalhada encontra-se nos Capítulos 5 e 10 de Kloeden e Platen (1992). O esquema para difusões unidimensionais é dado por

Yk+1 = Yk+ b(Yk, tk; θ)∆k+ σ(Yk, tk; θ)∆Bk+

+1 2σ(Yk, tk; θ) ∂σ(Yk, tk; θ) ∂Yk {(∆Bk) 2 − ∆k}, com k = 0, . . . , N − 1, (2.5)

no qual ∂σ(Yk, tk; θ)/∂Yké a derivada parcial de σ( . , t; θ) com relação à Yk, ∆k= tk+1−tk

e ∆Bk= Btk+1− Btk ∼ N(0, ∆

+ k).

(37)

Kloeden e Platen (1992) mostram que Y converge fortemente para X em ordem 1 o que indica que o esquema de Milstein é superior ao esquema de Euler-Maruyama. Ou seja, para discretizações idênticas em ambos os esquemas o processo estocástico Y obtido por Milstein tem valor esperado mais próximo de X em T do que o de Euler-Maruyama.

Observe que caso σ(Xt, t; θ) não dependa de Xt então ∂σ(Xk, tk; θ)/∂Xk = 0 e, portanto,

os dois esquemas coincidem.

A ordem de convergência dos processos discretizados pode ser aumentada considerando esquemas de discretização que envolvam expansões de Itô-Taylor conforme sugerido por Kloeden e Platen (1992, seção 5.5). Apesar destes esquemas não serem comuns na li-teratura pode-se citar os esquemas de Taylor de ordem de convergência 1.5 e de ordem 2.0.

2.4 Verossimilhança do processo de difusão

Jones (1998) coloca que “uma dificuldade inicial em estimar os parâmetros de um

pro-cesso de difusão está na intratabilidade das densidades de transição e, consequentemente, da função de verossimilhança”. Uma forma de obter a função de verossimilhança de modo

analítico, sem usar densidades de transição, é pelo Teorema de Girsanov. Esta aborda-gem aparece em Roberts e Stramer (2001) e, num contexto de seleção de modelos, em Polson e Roberts (1994) e Dellaportas et al. (2006). Apesar de ser possível obter uma forma analítica para verossimilhança, esta em geral é escrita por integrais estocásticas que não podem ser calculadas. Isto implica na necessidade de alguma aproximação para resolvê-las. Esta abordagem será discutida a seguir. Outra maneira é obter a função de verossimilhança aproximadamente a partir do produtório das densidades de transição que são obtidas através de esquemas de discretização. Esta abordagem aparece em uma série de trabalhos dentre os quais vale mencionar os manuais de Johannes e Polson (2003) e Jones (1998) e os artigos de Jones (2003), Elerian et al. (2001) e Eraker (2001).

(38)

estocásticas, seja para obter as densidades de transição do processo de difusão discretizado. Técnicas de aumento de dados são discutidas com o propósito de melhorar as aproximações e consequentemente refinar a inferência sobre os parâmetros.

2.4.1

Pela Fórmula de Girsanov

Uma maneira intuitiva de explicar a obtenção da função de verossimilhança de um processo de difusão pelo Teorema de Girsanov encontra-se em Kalogeropoulos (2006). Nele, considera-se uma ocorrência completa, até o tempo T, de um processo de difusão Xt,

como em (2.2). Denotando este caminho por Xω ={Xt(ω) : t ∈ [0, T ]}, a probabilidade

do caminho estar em A é dada por

Pθ(Xω ∈ A) =

Z

A

L(x; θ)dx,

no qual L(x; θ) representa a verossimilhança para o parâmetro θ e a integração é feita com respeito a medida de Lebesgue que neste caso é chamada medida de referência ou medida dominante.

Como a medida de Lebesgue não é a única opção para a medida de referência pode-se supor que para uma função positiva h(x) defina-se a medida

H(A) = Z A h(x)dx e, portanto, usa-se Pθ(Xω ∈ A) = Z A L(x; θ) h(x) h(x)dx = Z A L∗(x; θ)dH(x), sendo L∗(x; θ) = L(x; θ)

h(x) a nova função de verossimilhança.

Observe que ambas as verossimilhanças L(x; θ) e L∗(x; θ) são equivalentes para

esti-mação, uma fez que são proporcionais em relação a θ.

Outra forma de ver as verossimilhanças L∗ e L é pela derivada de Radon-Nikodym

entre as medidas IPθ e H escrevendo

dIPθ

dH = L

(x, θ) e dIPθ

(39)

Uma questão crucial é que a medida H precisa ser independente de θ. É esta restrição

que permite usar L∗no lugar de L para realizar a inferência. Contudo, esta restrição sobre

H significa que a função de volatilidade σ(Xt, t; θ) não pode depender de θ. Só assim é

possível escrever a verossimilhança a partir da Fórmula de Girsanov. Esta restrição pode ser contornada através de transformações do processos.

Steele (2001, cap. 13) faz uma explanação detalhada acerca do que ele chama de “Teo-ria de Girsanov”. Ele ressalta que “a coleção de teoremas que nos diz como fazer a função

de direção desaparecer é comumente chamada de Teoria de Girsanov, contudo a contri-buição de I.V. Girsanov não foi a primeira nem tão pouco a última nesta nobre linha”.

O teorema que será enunciado a seguir é um dos resultados desta Teoria. O resultado a seguir aparece em Roberts e Stramer (2001) no caso univariado e em Kalogeropoulos (2007) e Kalogeropoulos et al. (2007) no caso multivariado. O conjunto de resultados da Teoria de Girsanov é bem mais extenso do que está aqui descrito e envolve: mudança de medida, retirada da função de direção do processo e obtenção de martingais.

Teorema 2.5. Sejam o processo de difusão X definido pela EDE (2.2) e a ocorrência

Xω = {Xt(ω) : 0 ≤ t ≤ T }. Denota-se a lei de X por IP e a lei do martingal local

dXt = σ(Xt, t; θ)d ˜Bt por W. Como as medidas são absolutamente contínuas uma com

respeito a outra, a derivada de Radon-Nikodym da lei de X com respeito a lei do martingal local é dIP dW = G(Xω, b, σ; θ) = = exp Z T 0 (Σ−1b(Xt, t; θ))′dXt− 1 2 Z T 0 b(Xt, t; θ)′Σ−1b(Xt, t; θ)dt,  (2.6)

sendo [σ(Xt, t; θ)σ(Xt, t; θ)′]−1 = Σ−1. A função G(Xω, b, σ; θ) é a verossimilhança do

processo XT e a equação (2.6) será chamada no presente texto de Fórmula de Girsanov. Prova: Para a forma da função G ver Steele (2001, cap. 13) e para interpretação de G como verossimilhança do processo ver Roberts e Stramer (2001).

Como foi visto no início desta seção, a Fórmula de Girsanov só representa a

(40)

sugerem-se duas formas para contornar este problema. A primeira é obter um estimador para a função de volatilidade e utilizá-lo, sendo o mais comum trabalhar com o processo de variação quadrática. Malliavin e Mancino (2002) sugerem alternativas aos esquemas de estimação por variação quadrática através de métodos de estimação da função de volatili-dade utilizando séries de Fourier. Uma vantagem, segundo eles, é aproximar o integrando da variação quadrática (que é o quadrado da função de volatilidade) sem utilizar derivadas aproximadas.

A outra maneira é realizar uma mudança de variável no processo de difusão transformando-o em um prtransformando-ocesstransformando-o ctransformando-om funçãtransformando-o de vtransformando-olatilidade ctransformando-onstante igual a 1, ntransformando-o castransformando-o unidimensitransformando-onal, ou função de volatilidade matricial igual a identidade, no caso multidimensional (ver Ka-logeropoulos et al. (2007)). Estas duas abordagens (estimação da variação quadrática e transformação do processo) serão discutidas mais adiante.

Note que a primeira integral da equação (2.6) é uma integral estocástica, que na maio-ria dos casos não tem forma analítica conhecida. O procedimento mais usado é aproximar numericamente a integral, sendo as fórmulas de quadratura as que mais aparecem na literatura. Além disto, estas aproximações são naturais, dado que raramente se observa uma ocorrência completa do processo Xω; o que se observa é um conjunto de pontos em tempos de observação tk, com k = 0, . . . , N.

2.4.2

Por densidades de transição

Aqui será ilustrada a obtenção da verossimilhança através do produto de densidades

de transição. Dado o processo observado no conjunto Y = {Yk= Xtk : k = 0, . . . , N} a

partir dos procedimentos de discretização de difusões, tratados na Seção 2.3, obtém-se as

densidades de transição p(Yk+1|Yk, θ). Assim a verossimilhança do processo de difusão é

aproximada por L(Y ; θ) = p(Y0) N −1 Y i=0 p(Yk+1|Yk, θ).

(41)

Pode-se mostrar que quando a distância máxima da partição vai para zero a verossi-milhança aproximada converge para a verossiverossi-milhança verdadeira (ver Pedersen (1995, teorema 3)). Aplicando-se o esquema de Euler-Maruyama a densidade de transição

p(Yk+1|Yk, θ) tem a forma de uma distribuição normal, com isso o produtório fica fácil

de ser obtido.

2.5 Aumento de dados

Claro que aproximar modelos contínuos por modelos discretos gera um viés de discre-tização relacionado à amplitude da discrediscre-tização. No entanto, foi dito acima que quando os intervalos de discretização vão a zero o processo discretizado converge para o processo de difusão. Neste contexto, uma alternativa para obter uma função de verossimilhança aproximada com viés de discretização reduzido é realizar um procedimento de aumento de dados. Este procedimento consiste em acrescentar entre cada par de dados observados uma quantidade de variáveis latentes ou não observadas. Este procedimento é discutido sob o ponto de vista bayesiano em Jones (1998), Eraker (2001) e Elerian et al. (2001), entre outros. Estes artigos discutem modos de proceder o aumento de dados enfatizando prós e contras. Técnicas de aumento de dados e inferência neste contexto são discutidas no Capítulo 4 dando ênfase ao processo CIR.

Dada a EDE em (2.2) considera-se o conjunto de observações do processo Xtdado por

Y. Chama-se de Yo = (Y0, Y1, . . . , YN)

o vetor dos dados observados. Assume-se que

entre cada par de pontos observados (tk−1, Yk−1) e (tk, Yk) sejam gerados mk−1 dados

não observados, isto é, simula-se (tk−1,j, Yk−1,j), com k = 1, . . . , N e j = 1, . . . , mk−1 de

forma que

tk−1 < tk−1,1 < tk−1,2 < . . . < tk−1,mk−1 ≤ tk.

(42)

t0 . y0 t01 . y01 . . . . . . t0 m0 . y0m1 t1 . y1 t11 . y11 . . . . . . t1 m1 . y1m1 t2 . y2 . . . . . . tN . yt N

Figura 2.1: Aumento de dados. O conjunto de dados não observados é denotado por

Yno ={Ykj, k = 0, . . . , N − 1, j = 1, . . . , mk}.

Vale ressaltar que a quantidade de elementos não observados mk, entre cada k−ésimo

par de observados, não precisa ser a mesma, tampouco o espaçamento entre os dados observados ou não observados precisa ser igual.

O procedimento de inferência é feito via MCMC e consiste em amostrar alternadamente de

p(θ|Yo, Yno) e p(Yno|θ, Yo)

de modo que p(θ, Yno

|Yo) convirja a uma distribuição invariante cujo objeto de interesse

é a distribuição marginal p(θ|Yo

). Para uma visão ampla e detalhada dos métodos MCMC sugere-se a leitura de Gamerman e Lopes (2006).

No Capítulo 4 o procedimento de inferência com aumento de dados é detalhado e,

nele, são discutidas maneiras eficientes de gerar o vetor Yno.

2.6 Principais processos de difusão

Processos de difusão foram apresentados na Seção 2.2 como soluções de EDE’s (2.2). Pelos resultados de existência e unicidade de soluções de EDE’s, no caso de existência de solução forte, a difusão X(t) é unicamente determinada pela função de direção b e

(43)

pela função de volatilidade σ. Na tabela 2.1 são apresentados os principais processos de difusão unidimensionais. Modelos b(X(t), t; θ) σ(X(t), t; θ) (1) Merton µ γ (2) Dothan µXt γ (3) Ornstein-Uhlenbeck κ(µ− Xt) γ

(4) Mov. brown. geométrico µXt γXt

(5) Vasicek α + βXt γ

(6) Cox-Ingerson-Ross (CIR) α + βXt γXt1/2

(7) Hull-White α + βXt γXtψ

(8) CIR afim α0+ α1Xt 0+ β1Xt}1/2

(9) Paramétrico geral α0+ α1Xt+ α2Xt2+ α3/Xt β0+ β1Xt+ β2Xtβ3.

Tabela 2.1: Processos de difusão.

Nos exemplos γ deve ser positivo. O modelo (9) foi estudado em Aït-Sahalia (1996b), onde são encontradas as condições sobre os parâmetros e as propriedades do processo. Muitos outros processos de difusão aparecem na literatura. Outras listas encontram-se na tese de doutorado de Elerian (1999) e, num contexto de processos de taxa de juros, em Klebaner (2005, p. 327) e Aït-Sahalia (1996a).

Modelos multivariados também são comuns na literatura. O caráter multivariado pode aparecer relacionado a modelos de volatilidade estocástica como em Golightly e Wilkinson (2006) e Eraker (2001), nos quais uma dimensão do processo modela a evolução do ativo e outra dimensão representa a evolução da volatilidade. Abordagens mais gerais de proces-sos multivariados encontram-se em Sanford e Martin (2006a), com difusões centradas em modelos para taxa de juros, e em Kalogeropoulos (2007) e Kalogeropoulos et al. (2007), para processo cuja verossimilhança é obtida pela Fórmula de Girsanov multivariada.

No Capítulo 3 será proposta uma extensão multivariada do processo CIR. Nele, a modelagem e a parte inferencial são tratadas e apresenta-se um exemplo simulado.

(44)

Capítulo 3

Processo CIR

Este capítulo versa sobre um dos principais processos de difusão recorrentes na litera-tura. O nome CIR deve-se ao cuidadoso trabalho de Cox, Ingersoll e Ross (1985) acerca deste processo, mas ele também aparece na literatura de finanças com o nome de processo de taxa de juros. Neste capítulo são, primeiramente, discutidas técnicas bayesianas para estimação dos parâmetros do processo CIR univariado. Apesar do tratamento estatístico do processo CIR para o caso univariado ser recorrente na literatura (ver Elerian et al. (2001), Eraker (2001), Jones (1998), Johannes e Polson (2003), entre outros) o trata-mento dado aqui tem por objetivo motivar e orientar a generalização multivariada. Este será o tópico da primeira seção. Na seção seguinte, é apresentada uma extensão multiva-riada para o processo CIR. Para o caso multivariado são desenvolvidas alternativas para estimação Bayesiana dos parâmetros. O enfoque principal está na estimação a partir da discretização da difusão do processo usando o esquema de Euler sem considerar aumento de dados. Isto é, assume-se que a discretização é refinada o suficiente para que a estima-ção dos parâmetros do processo discretizado não seja significativamente influenciada pelo esquema de Euler. No capítulo seguinte considera-se aumentar o conjunto de dados, cri-ando variáveis latentes, com o objetivo de melhorar a aproximação do processo observado (discreto) para o processo de difusão (contínuo).

(45)

3.1 CIR univariado

Seja a equação diferencial estocástica (EDE) apresentada no Capítulo 2 com n = 1

e d = 1 e determinada pelo vetor de parâmetros θ = (α, β, σ2)

, pela função de média

b(Xt, t; θ) = α + βXt e função de volatilidade σ(Xt, t; θ) =

σ2X

t. Então a difusão X

evolui no tempo de acordo com o processo CIR univariado da forma

dXt= (α + βXt)dt +

p

σ2X

tdBt. (3.1)

No artigo de 1985 de Cox, Ingersoll e Ross mostra-se que a EDE descrita por (3.1) tem solução analítica forte determinada por uma qui-quadrada não central se o vetor paramétrico θ for conhecido. Em problemas reais, no entanto, toma-se uma amostra, finita, dos dados (i.e. a difusão é discretamente observada) e deseja-se obter informações acerca dos parâmetros à luz dos dados coletados. Isto motiva o uso de esquema de discretização de dados como descrito na próxima subseção.

3.1.1

Esquema de Euler-Maruyama

Suponha que são observados N + 1 ocorrências da difusão X nos tempos 0 = t0 ≤

t1 ≤ . . . ≤ tN = T. Assume-se a aproximação {Yk ≈ Xtk, k = 0, . . . , N} de maneira que

a observação no instante tk é dada por Yk = yk . Pelo Esquema de Euler a EDE (3.1) é

discretizada por

Yk+1 = Yk+ (α + βYk)∆k+p∆kσ2Ykεk, com k = 0, . . . , N − 1, (3.2)

sendo ∆k = tk+1−tk e εk∼ N(0, 1) independentes para todo k. Lembre-se, pelo Esquema

de Euler descrito na Subseção 2.3.1, o termo εk aparece, pois √∆kεk = Btk+1 − Btk ∼

N(0, ∆k), onde B é um movimento browniano padrão.

3.1.2

Inferência bayesiana

O objetivo é obter a distribuição a posteriori do vetor de parâmetros θ′

= (α, β, σ2).

(46)

para o vetor θ resulta da Fórmula de Bayes que

p(θ|y) = p(y|θ)p(θ)

p(y) .

A função p(y|θ) é a função de verossimilhança obtida por

p(y|θ) = p(y0)

N −1 Y

k=0

p(yk+1|θ, yk),

sendo que p(yk+1|θ, yk) é a densidade de transição do processo discretizado.

Uma vez que calcular a preditiva p(y) é muito complicado isto faz com que, em geral, não seja possível obter analiticamente uma expressão para p(θ|y). Para resolver este problema utiliza-se Métodos de Monte Carlo via Cadeia de Markov (MCMC) para

gerar uma amostra aleatória {θ(g)}G

g=1 da distribuição a posteriori de θ.

Há na literatura uma variedade de métodos para realizar a inferência bayesiana no contexto de processos CIR. Alguns artigos não partem de esquemas de discretização ob-tendo a função de verossimilhança a partir do Teorema de Girsanov (ver, por exemplo, Johannes e Polson (2003) ou Roberts e Stramer (2001)).

Quando se utiliza a discretização de Euler, uma abordagem bastante seguida é realizar uma mudança de variáveis para obter uma equação sob a forma de um modelo de regressão linear. Esta abordagem é desenvolvida a seguir e pode ser seguida também em Jones (1998). Seja a transformação da equação (3.2) da forma

Zk := Yk+1√ − Yk ∆kYk = (αY −1/2 k + βY 1/2 k )p∆k+ σεk, (3.3) com k = 0, . . . , N − 1 e εk ∼ N(0, 1).

Assumindo o vetor das observações transformadas z = (z0, . . . , zN −1)′

a equação (3.3) é escrita por

(47)

sendo ϕ := (α, β)′

, ε ∼ NN(0, IN) e M é a matriz em IRN ×2 de regressores definida por

M =               s ∆0 y0 p∆0y0 s ∆1 y1 p∆1y1 ... ... s ∆N −1 yN −1 p∆N −1yN −1               N ×2 .

A literatura estatística sobre modelos de regressão linear é extensa. Uma visão geral dela, seguindo uma abordagem não bayesiana, pode ser encontrada no trabalho clássico de McCullagh e Nelder (1999). Seguindo uma abordagem bayesiana mais ampla sugere-se Zellner (1971) e para uma discussão mais detalhada sobre a elicitação de prioris e técnicas MCMC ver Marin e Robert (2007).

A função de verossimilhança para z é dada por

p(z|θ) = p(z|ϕ, σ2) = (2πσ2)−N/2exp  − 1 2σ2 k z − Mϕ k 2  , tal que k . k é a norma euclidiana.

Considera-se uma distribuição a priori não informativa para θ dada por p(θ) ∝ 1/σ2.

Em seguida, calcula-se as condicionais completas para ϕ′

= (α, β) e σ2 como segue.

1.) Obtenha a forma da posteriori para θ:

p(θ|z) ∝ p(z|θ)p(θ) = (2πσ2)−N/2exp  − 1 2σ2 k z − Mϕ k 2  1 σ2 ∝ (σ2)−N2−1exp  − 1 2σ2 k z − Mϕ k 2  .

2.) Calcule as condicionais completas para ϕ e σ2 colocando os termos que não dependem

dos parâmetros em questão na relação de proporcionalidade. (a) Condicional completa para ϕ:

p(ϕ|z, σ2)∝ exp  − 1 2σ2 k z − Mϕ k 2  ,

(48)

somando e subtraindo M ˆϕ dentro da norma, com ˆϕ = (M′M)−1M

z, expandindo-a e

observando que (z − M ˆϕ)′(Mϕ− M ˆϕ) = 0 tem-se

p(ϕ|z, σ2)∝ exp  − 1 2σ2(ϕ− ˆϕ) ′ (M′M)(ϕ− ˆϕ)  . (3.5)

(b) Condicional completa para σ2:

p(σ2|z, ϕ) ∝ (σ2)−N 2−1exp  − 1 2σ2 k z − Mϕ k 2  . (3.6)

As distribuições condicionais completas têm forma conhecida. Na equação (3.5)

observa-se o núcleo de uma normal multivariada com vetor de média ˆϕ e matriz de covariância

σ2(M

M)−1. Na equação (3.6) a condicional completa tem a forma de uma distribuição

Gama para 1/σ2 com parâmetros N/2 + 2 e k z − Mϕ k2 /2.

Portanto, gera-se uma amostra a posteriori {θ(g)}G

g=1 de tamanho G usando o

algo-ritmo amostrador de Gibbs. Isto é feito amostrando-se alternadamente das seguintes distribuições:        ϕ|z, σ2 ∼ N 2( ˆϕ, σ2(M ′ M)−1) e 1/σ2|z, ϕ ∼ Gama N 2 + 2, k z − Mϕ k2 2  .

O procedimento de inferência descrito nessa seção usa técnicas de MCMC para motivar o procedimento do caso multivariado. Contudo, para escolhas adequadas das prioris não

é necessário fazer aproximações por Monte Carlo, pois a distribuição a posteriori (ϕ, σ2)

tem forma analítica na família normal-gama.

3.1.3

Exemplo simulado

Neste exemplo pretende-se mostrar o procedimento de estimação dos parâmetros do processo CIR univariado e destacar o efeito da discretização sobre a estimação. Para isto

é gerada uma amostra do processo discretizado para parâmetros α, β e σ2 conhecidos.

Resultados para diferentes tamanhos de malha são comparados.

Gera-se 201 observações do processo discretizado (3.2) do tempo inicial zero com

Referências

Documentos relacionados

O segundo Beneficiário será designado pelo Segurado na Proposta de Adesão, podendo ser substituído a qualquer tempo, mediante solicitação formal assinada pelo próprio Segurado, para

◦ Os filtros FIR implementados através de estruturas não recursivas têm menor propagação de erros. ◦ Ruído de quantificação inerente a

Traduzindo os resultados encontrados para um cenário real, com a ocorrência do Problema do Próximo Release em uma empresa de desenvolvimento de software, podemos

As inscrições deverão ser realizadas mediante entrega de envelope lacrado, contendo o formulário próprio de inscrição, devidamente preenchido e assinado pelo candidato,

provável que um alto percentual dos funcionários escolha operar um dispositivo diferente para uso pessoal – e se este dispositivo ainda for trazido ao ambiente de trabalho, isto

7.1.6 A capacidade de condução de corrente dos acessórios, conexões e demais componentes que conduzem corrente deve ser superior à máxima corrente que pode

7.2.1 Nas condições climáticas estabelecidas no item 7.1.1 deste submódulo, os cabos pára-raios – conectados ou não à malha de aterramento das subestações terminais e

7.6.1.1 A LT, com seus cabos e acessórios, bem como as ferragens das cadeias de isoladores, quando submetida à tensão máxima operativa, não deve apresentar corona visual