• Nenhum resultado encontrado

Abordagem Bayesiana para distribuição das r-maiores estatísticas de ordem (GEVr) com estrutura de modelos dinâmicos

N/A
N/A
Protected

Academic year: 2021

Share "Abordagem Bayesiana para distribuição das r-maiores estatísticas de ordem (GEVr) com estrutura de modelos dinâmicos"

Copied!
123
0
0

Texto

(1)Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Programa de Pós-Graduação em Matemática Aplicada e Estatística Mestrado em Matemática Aplicada e Estatística. Abordagem Bayesiana para distribuição das r-maiores estatísticas de ordem (GEVr ) com estrutura de modelos dinâmicos. Renato Santos da Silva. Natal-RN Fevereiro - 2018.

(2) Renato Santos da Silva. Abordagem Bayesiana para distribuição das r-maiores estatísticas de ordem (GEVr ) com estrutura de modelos dinâmicos. Trabalho apresentado ao Programa de PósGraduação em Matemática Aplicada e Estatística da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigências legais para obtenção do título de Mestre. Área de Concentração: Probabilidade e Estatística. Linha de Pesquisa: Teoria de Valores Extremos e Inferência Bayesiana.. Orientador(a):. Fernando Ferraz do Nascimento. Co-Orientador(a):. Marcelo Bourguignon Pereira. Universidade Federal do Rio Grande do Norte  UFRN Programa de Pós-Graduação em Matemática Aplicada e Estatística  PPGMAE. Natal-RN Fevereiro - 2018.

(3) Dissertação (Mestrado) Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Programa de Pós-Graduação em Matemática Aplicada e Estatística.. Silva, Renato Santos da. Abordagem Bayesiana para distribuição das r-maiores estatísticas de ordem (GEVr ) com estrutura de modelos dinâmicos/Renato Santos da Silva-Natal,RN,2018. 100 f.: il. Orientador: Prof. Dr. Fernando Ferraz do Nascimento. Co-Orientador: Prof. Dr. Marcelo Bourguignon Pereira.. Dissertação (Mestrado) Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Programa de Pós-Graduação em Matemática Aplicada e Estatística. 1. Inferência Bayesiana-Dissertação. 2. Teoria de Valores Extremos-Dissertação 3. Métodos MCMC-Dissertação. 4. modelos dinâmicos-Dissertação. I. Nascimento, Fernando Ferraz do. II. Bourguignon, Marcelo Pereira. III. Título. RN/UF/BSE-CCET. CDU 519.246.8.

(4) Abordagem Bayesiana para distribuição das rmaiores estatísticas de ordem (GEVr ) com estrutura de modelos dinâmicos apresentada Dissertação de Mestrado sob o título. por Renato Santos da Silva e aceita pelo Programa de Pós-Graduação em Matemática Aplicada e Estatística da Universidade Federal do Rio Grande do Norte, sendo aprovada por todos os membros da banca examinadora abaixo especicada:. Presidente Prof. Dr. Fernando Ferraz do Nascimento UFPI. Interno Prof. Dr. Fidel Ernesto Castro Morales UFRN. Externo Prof. P.H.D Hélio dos Santos Migon UFRJ. Natal-RN, 23 de Fevereiro de 2018..

(5) Agradecimentos À Deus, por ter me dado saúde e força para superar os obstáculos. Aos meus pais, pelo amor, incentivo e apoio incondicional. Ao meu orientador, professor Fernando, pela paciência, conança, incentivo, e pela oportunidade de poder realizar pesquisas com ele. A todos os professores do curso, e principalmente aos (Marcelo, Luz, e Roberto), por sempre resolver com calma e otimismo, meus problemas acadêmicos. E a todos os colegas que z ao longo da pós-graduação, principalmente (Fidel, Josenilto, Daniel e Wyara), por me ajudarem em algumas diculdades no decorrer do curso, e aos que contribuiram direta ou indiretamente..

(6) Abordagem Bayesiana para distribuição das r-maiores estatísticas de ordem GEVr com estrutura de modelos dinâmicos. Autor: Renato Santos da Silva Orientador(a): Dr. - Fernando Ferraz do Nascimento Co-Orientador(a): Dr. - Marcelo Bourguignon Pereira. Resumo Em séries temporais é estudado uma coleção de observações feitas sequencialmente ao longo do tempo. Este tipo de alteração é comum para dados aplicados na teoria dos valores extremos (TVE) . Em dados ambientais, por exemplo, em chuva, vento e temperatura, seus níveis podem estar correlacionados com a sazonalidade, além de apresentar uma tendência de aumento ao longo dos anos, devido a mudanças climáticas no planeta. Geralmente, este tipo de evento foi trabalhado usando distribuições paramétricas padrão como a Normal ou Gama, veja em Camargo et al. (1994). Entretanto, os dados ambientais, na maioria dos casos, têm uma cauda pesada, ao contrário dessas distribuições. Em algumas situações analisar apenas a distribuição de valores extremos generalizada (GEV) de um conjunto de dados pode fornecer poucas observações, nestes casos é mais interessante usar a distribuição das r-maiores estatísticas de ordem (GEVr ) . Este trabalho consiste no desenvolvimento de um algoritmo no Software R, para distribuições posterioris, para. GEVr com base na estimativa bayesiana usando cadeias de Markov MCMC e o uso da técnica do algoritmo de Metropolis-Hastings. Também foi introduzido um Modelo Linear Dinâmico (DLM) , que é uma classe geral de modelos de séries temporais, para modelar os parâmetros da GEVr ao longo do tempo. O modelo proposto foi aplicado na série temporal da temperatura em ◦ C de Teresina-PI e no retorno da BOVESPA, com a nalidade de modelar a sazonalidade da temperatura na capital piauiense e dos níveis de retorno, também foi incorporado um Modelo Linear Dinâmico Sazonal (DLMS), que é uma classe de modelos de séries temporais para modelar os parâmetros da GEVr ao longo do tempo. O modelo proposto foi aplicado na série temporal da temperatura em ◦ C de Teresina-PI, Curitiba-PR e Brasília-DF..

(7) Palavras-chave : Inferência Bayesiana, Teoria de Valores Extremos, Métodos MCMC, Modelos Dinâmicos..

(8) Bayesian approach for distribution of the largest order statistics (GEVr ) with structure of dynamic models. Author: Renato Santos da Silva Advisor: Dr. - Fernando Ferraz do Nascimento Co-Advisor: Dr. - Marcelo Bourguignon Pereira. Abstract In series a collection of observations made sequentially over time. This type of change is Common for data applied in the theory of extreme values (EVT). In environmental data, for example, in rain, wind and temperature, Their levels may be correlated with seasonality, in addition to showing a tendency to increase over the Due to climate change on the planet. Generally, this type of event has been worked on Using standard parametric distributions such as Normal or Gamma, look at Camargo et al. (1994). However, environmental data, in most cases Cases have a heavy tail, unlike these distributions. In some situations (EVT) Analyzing only the generalized extreme value distribution (GEV) of a set of data can provide few Observations, in these cases it is more interesting to use the distribution of r-largest order statistics (GEVr ). This work consists of the development of an algorithm in Software R for posterior distributions for GEVr based on the Bayesian estimation using Markov chains (MCMC) and the use of the Metropolis-Hastings algorithm technique. A Dynamic Linear Model (DLM), which is a general class of time series models, has also been introduced to model the GEVr parameters over time. The proposed model was applied in the time series of the temperature in ◦ C Teresina-PI and return BOVESPA , in order to follow the seasonality of the temperature in the capital of Piauí and level return BOVESPA, also incorporated was a Linear Dynamic Seasonal Model (DLMS), which is a class of time series models, for the GEVr parameter model over time. The proposed model was applied in the time series of temperature of ◦ C Teresina-PI, Curitiba-PR and Brasília-DF.. Keywords : Bayesian inference, extreme value theory, MCMC methods, dynamic models..

(9) Lista de guras 1. Densidade de 1000 pontos gerados da GEV com µ = 0, σ ∈ {1, 2} e. ξ ∈ {−0.25, 0.25}, linha cheia (ξ = −0.25, σ = 1), linha pontilhada (ξ = 0.25, σ = 1), linha tracejada (ξ = −0.25, σ = 2), linha tracejada e pontilhada (ξ = 0.25, σ = 2). . . . . . . . . . . . . . . . . . . . . . . . .. p. 6. 2. Exemplo de organização de Banco de dados. . . . . . . . . . . . . . . .. p. 20. 3. Histograma de 10000 pontos da cadeia MCMC para os pârametros (µ, σ, ξ) da GEVr , com os valores verdadeiros sendo µ = 0, σ = 1, ξ = −0.25 ,. r = 10, e o intervalo credibilidade (linha tracejada) e o intervalo de conança (linha preta), ambos de 95%. . . . . . . . . . . . . . . . . . . 4. MCMC para µ, σ, ξ , com os valores verdadeiros sendo µ = 0, σ = 1,. ξ = −0.25 e r = 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. p. 28. p. 29. Gráco de Retorno de 95%, para o método frequentista (linha tracejada), método bayesiano (linha pontilhada) e linha de retorno médio do verdadeiro parâmetro (linha preta), com µ = 0, σ = 1, ξ ∈ {−0.25, 0.25} e. r = 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. p. 30. P-valores usando os métdos ForwardStop, StrongStop e não ajustado, para o teste ED, aplicados em dados simulados, com µ = 0, σ = 1,. ξ = −0.25 e r = 10. A linha azul representa o ponto de corte para 0.05. 7. p. 31. P-valores usando os métdos ForwardStop, StrongStop e não ajustado, para o teste PB Score, aplicados em dados simulados, com µ = 0, σ = 1,. ξ = −0.25 e r = 10. A linha azul representa o ponto de corte para 0.05.. p. 32. 8. Histograma para θ0,µ , θ0,ξ e θ0,σ para n = 1000. . . . . . . . . . . . . . .. p. 36. 9. Histograma de Vµ , Vξ , Vσ , Wµ , Wξ e Wσ na Conguração 1 para n = 1000. p. 37. 10. Histograma de Vµ , Vξ , Vσ , Wµ , Wξ e Wσ na Conguração 2 para n = 1000. p. 38. 11. Estimação de µt , ξt , σt , θµ,t , θξ,t e θσ,t na Conguração 1 para n = 1000.. p. 39.

(10) 12. Estimação de µt , ξt , σt , θµ,t , θξ,t e θσ,t na Conguração 2 para n = 1000.. p. 40. 13. Histograma para θ0,µ , θ0,ξ e θ0,σ para n = 2500. . . . . . . . . . . . . . .. p. 41. 14. Histograma de Vµ , Vξ , Vσ , Wµ , Wξ e Wσ na Conguração 1 para n = 2500. p. 42. 15. Histograma de Vµ , Vξ , Vσ , Wµ , Wξ e Wσ na Conguração 2 para n = 2500. p. 43. 16. Estimação de µt , ξt , σt , θµ,t , θξ,t e θσ,t na Conguração 1 para n = 2500.. p. 44. 17. Estimação de µt , ξt , σt , θµ,t , θξ,t e θσ,t na Conguração 2 para n = 2500.. p. 45. 18. Histograma para θ0,µ , θ0,ξ e θ0,σ para n = 10000. . . . . . . . . . . . . .. p. 46. 19. Histograma de Vµ , Vξ , Vσ , Wµ , Wξ e Wσ na Conguração 1 para n = 10000. p. 47. 20. Histograma de Vµ ,Vξ , Vσ , Wµ , Wξ e Wσ na Conguração 2 para n = 10000. p. 48. 21. Estimação de µt , ξt , σt , θµ,t , θξ,t e θσ,t na Conguração 1 para n = 10000.. 22. Estimação de µt , ξt , σt , θµ,t , θξ,t e θσ,t na Conguração 2 para n = 10000. p. 50. 23. Série das observações com quantis extremos nas simulações. linha cheia. p. 49. acima: quantil verdadeiro. Linha tracejada: média a posteriori do quantil. p. 51 24. Série das observações com máximos nas simulações com n = 1000. . . .. p. 51. 25. Série temporal das temperaturas máximas diárias de Teresina. . . . . .. p. 52. 26. Série temporal das três maiores temperaturas máximas mensais de Teresina. p. 53. 27. P-valores usando os métdos ForwardStop, StrongStop e não ajustado, para o teste PB Score, aplicados na temperatura em ◦ C de Teresina, no periodo de 1994-2015. A linha horizontal representa o ponto de corte para 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. p. 54. Intervalos de credibilidade de 95% dos parâmetros da temperatura de Teresina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 55. 29. Série dos dados da Temperatura de Teresina com quantis. . . . . . . . .. p. 56. 30. Média posteriori do gráco do nível de retorno para Temperatura de Teresina, em diferentes momentos: Jan 2005, Jan 2014, Set 2005 e Set. 31. 2014. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 57. Série com a escolha do r-ótimo para cada t = 1, ..., 250. . . . . . . . . .. p. 57.

(11) 32. Intervalos de credibilidade de 95% dos parâmetros da temperatura de Teresina, com r-ótimo dinâmico. . . . . . . . . . . . . . . . . . . . . . .. 33. Série dos dados da Temperatura de Teresina (r ótimo dinâmico) com quantis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. p. 58. p. 58. Média posteriori do gráco do nível de retorno para Temperatura de Teresina, em diferentes momentos: Jan. 2005, Jan. 2014, Set. 2005 e Set. 2014. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 59. 35. Série temporal dos retornos máximos diários da Bovespa. . . . . . . . .. p. 60. 36. Série temporal das temperaturas máximas mensais da Bovespa. . . . .. p. 61. 37. P-valores usando os métdos ForwardStop, StrongStop e não ajustado, para o PB Score, aplicados nos retornos da Bovespa, no periodo de 20002014. A linha horizontal representa o ponto de corte para 0.05. . . . . .. p. 62. 38. Intervalos de credibilidade de 95% dos retornos da Bovespa. . . . . . .. p. 63. 39. Série dos dados do retorno da Bovespa com quantis. . . . . . . . . . . .. p. 63. 40. Média posteriori do gráco do nível de retorno para o retorno diário da Bovespa, em diferentes momentos: Jan. 2003, Jan. 2008, Out. 2003 e Out. 2008. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 64. 41. Série com a escolha do r-ótimo para cada t = 1, ..., 180. . . . . . . . . .. p. 65. 42. Intervalos de credibilidade de 95% dos retornos da Bovespa, com r-ótimo dinâmico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 65. 43. Série dos dados de retornos da Bovespa (r ótimo dinâmico) com quantis.. p. 66. 44. Média posteriori do gráco do nível de retorno para o retorno diário da Bovespa, em diferentes momentos: Jan. 2003, Jan. 2008, Out. 2003 e Out. 2008. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. Parâmetros dinâmicos da temperatura de Teresina, decomposto em têndencia e sazonalidade. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. p. 67. p. 79. Série dos dados da Temperatura de Teresina com quantis, com modelo sazonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 80.

(12) 47. Média posteriori do gráco do nível de retorno para Temperatura de Teresina, em diferentes momentos: Jan. 2005, Jan. 2014, Set. 2005 e Set. 2014. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 80. 48. Série temporal das temperaturas máximas diárias de Curitiba. . . . . .. p. 81. 49. Série temporal das três maiores temperaturas máximas mensais de Curitiba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 50. p. 81. P-valores usando os métdos ForwardStop, StrongStop e não ajustado, para o teste PB Score, aplicados na temperatura em ◦ C de Curitiba, no periodo de 1961-2016. A linha horizontal representa o ponto de corte para 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 51. Parâmetros dinâmicos da temperatura de Curitiba, decomposto em têndencia e sazonalidade. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 52. p. 83. Série dos dados da Temperatura de Curitiba com quantis, com modelo sazonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. p. 82. p. 84. Média posteriori do gráco do nível de retorno para Temperatura de Curitiba, em diferentes momentos: Jul. 2003, Jul. 2013, Nov. 2003 e Nov. 2013. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 84. 54. Série temporal das temperaturas máximas diárias de Brasília.. p. 85. 55. Série temporal das três maiores temperaturas máximas mensais de Brasília. p. 85. 56. P-valores usando os métdos ForwardStop, StrongStop e não ajustado,. . . . . .. para o teste PB Score, aplicados na temperatura em ◦ C de Brasília, no periodo de 1961-2016. A linha horizontal representa o ponto de corte para 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57. Parâmetros dinâmicos da temperatura de Brasília, decomposto em têndencia e sazonalidade. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 58. p. 87. Série dos dados da Temperatura de Brasília com quantis, com modelo sazonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59. p. 86. p. 88. Média posteriori do gráco do nível de retorno para Temperatura de Brasília, em diferentes momentos: Jul. 1990, Jul. 2015, Out. 1990 e Out. 2015. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 88.

(13) Lista de tabelas 1. Estimação dos parâmetros da GEVr , víes, variância (Var) e erro quadrático médio (EQM) pelo método bayesiano (θ¨) e máxima verossimilhança (θˆ), para µ = 0, σ = 1 e ξ = −0.25. . . . . . . . . . . . . . . . . . . . .. 2. Estimação dos parâmetros da GEVr , víes, variância (Var) e erro quadrático médio (EQM) pelo método bayesiano (θ¨) e máxima verossimilhança (θˆ), para µ = 0, σ = 1 e ξ = 0.25. . . . . . . . . . . . . . . . . . . . . .. 3. p. 55. Média e intervalos de credibilidade para a aplicação da Temperatura de Teresina, com r-ótimo dinâmico. . . . . . . . . . . . . . . . . . . . . . .. 6. p. 53. Média e intervalos de credibilidade para a aplicação da Temperatura de Teresina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. p. 27. Análise descritiva da temperatura máxima diária de Teresina-PI, 19942015. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. p. 26. p. 58. critério de informação de desvio para a Temperatura de Teresina, em negrito indica o melhor modelo segundo o DIC. . . . . . . . . . . . . .. p. 59. 7. Análise descritiva do Retorno máximo diária da BOVESPA, 2000-2014.. p. 60. 8. Média e intervalos de credibilidade para a aplicação de Retornos da Bovespa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. Média e intervalos de credibilidade para a aplicação de Retornos da Bovespa, com r-ótimo dinâmico. . . . . . . . . . . . . . . . . . . . . . . .. 10. p. 66. Média e intervalos de credibilidade para a aplicação da Temperatura de Teresina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12. p. 65. critério de informação de desvio para o Retorno diário da Bovespa, em negrito indica o melhor modelo segundo o DIC. . . . . . . . . . . . . .. 11. p. 63. p. 73. critério de informação de desvio para a Temperatura de Teresina, em negrito indica o melhor modelo segundo o DIC. . . . . . . . . . . . . .. p. 74.

(14) 13. Análise descritiva da temperatura máxima diária de Curitiba-PR, 19612015. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. Média e intervalos de credibilidade para a aplicação da Temperatura de Curitiba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. p. 76. Média e intervalos de credibilidade para a aplicação da Temperatura de Brasília. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18. p. 76. Análise descritiva da temperatura máxima diária de Brasília-DF, 19612016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. p. 75. critério de informação de desvio para a Temperatura de Curitiba, em negrito indica o melhor modelo segundo o DIC. . . . . . . . . . . . . .. 16. p. 74. p. 77. critério de informação de desvio para a Temperatura de Brasília, em negrito indica o melhor modelo segundo o DIC. . . . . . . . . . . . . .. p. 78.

(15) Lista de abreviaturas e siglas TVE  Teoria dos valores extremos GEV  Distribuição de valores extremos generalizada. GEVr  r-maiores estatísticas de ordem MCMC  Monte Carlos via Cadeia de Markov DLM  Modelo linear dinâmico PB Score  Bootstrap Paramétrico ED  Teste de diferença de entropia DLMS Modelo linear dinâmico sazonal. GEVSr  r-maiores estatísticas de ordem usando o modelo dinâmico sazonal GEVSdin  r-maiores estatísticas de ordem, com escolha dinâmica do r usando o DLMS Bovespa  Bolsa de valores de São Paulo. GEVdin  r-maiores estatísticas de ordem, com escolha dinâmica do r i.i.d  Independentes e Identicamente Distribuídas PB Score  Bootstrap Paramétrico ED  Teste de diferença de entropia FDR  Desenvolvimento de controle do erro FWER  Taxa de erro BIC  Critério de informação bayesiano DIC  Critério de desvio de informação DLMS Modelo linear dinâmico sazonal.

(16) Sumário 1 Introdução. p. 1. 1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 2. 1.2. Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 3. 2 Teoria de valores extremos 2.1. 2.2. p. 4. Distribuição de valores extremos generalizada (GEV) . . . . . . . . . .. p. 4. 2.1.1. p. 7. Inferência para a distribuição GEV . . . . . . . . . . . . . . . .. Distribuição da GEVr. . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 9. 2.2.1. Inferência para a GEVr . . . . . . . . . . . . . . . . . . . . . . .. p. 11. 2.2.2. Selecionando o r-ótimo da distribuição GEVr. . . . . . . . . . .. p. 12. . . . . . . . . . . .. p. 12. 2.2.2.1. Método de aproximação PB Score. 2.2.2.2. Método de aproximação ED. . . . . . . . . . . . . . .. p. 13. 2.2.2.3. Procedimento de teste da hipótese . . . . . . . . . . .. p. 13. 3 Estimação usando abordagem bayesiana para GEVr. p. 15. 3.1. Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 15. 3.2. Métodos de Monte Carlo via Cadeias de Markov . . . . . . . . . . . . .. p. 16. 3.2.1. Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . .. p. 17. 3.2.2. Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . .. p. 18. Estimando os parâmetros da GEVr . . . . . . . . . . . . . . . . . . . .. p. 19. 3.3.1. Função rmaiores_mes . . . . . . . . . . . . . . . . . . . . . . .. p. 20. 3.3.2. Função posterior.r_maiores . . . . . . . . . . . . . . . . . . . .. p. 22. 3.3.

(17) 3.3.3 3.4. 3.5. Função posterior.r_maiores_gum . . . . . . . . . . . . . . . .. p. 22. Comparação de modelos . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 23. 3.4.1. Critério de Informação Bayesiano (BIC) . . . . . . . . . . . . .. p. 23. 3.4.2. Critério de Informação dos Desvios (DIC) . . . . . . . . . . . .. p. 23. Simulações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 24. 4 Modelo Dinâmico para a GEVr. p. 33. 4.1. Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 33. 4.2. Dinâmica para a GEVr . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 33. 4.3. Simulações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 35. 4.3.1. Simulações com amostras de tamanho 1000 . . . . . . . . . . . .. p. 36. 4.3.2. Simulações com amostras de tamanho 2500 . . . . . . . . . . . .. p. 39. 4.3.3. Simulações com amostras de tamanho 10000 . . . . . . . . . . .. p. 41. 4.3.4. Cálculo de máximos e quantis altos . . . . . . . . . . . . . . . .. p. 43. 5 Aplicação em valores extremos e análise estatística 5.1. 5.2. p. 52. Aplicação 1 - Temperatura em Teresina-PI . . . . . . . . . . . . . . . .. p. 52. 5.1.1. GEVr com escolha do r xo . . . . . . . . . . . . . . . . . . . .. p. 53. 5.1.2. GEVr com escolha do r variando no tempo . . . . . . . . . . . .. p. 56. 5.1.3. Comparação - GEV3 contra GEVdin . . . . . . . . . . . . . . . .. p. 59. Aplicação 2 - BOVESPA . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 60. 5.2.1. GEVr com escolha do r xo . . . . . . . . . . . . . . . . . . . .. p. 61. 5.2.2. GEVr com escolha do r variando no tempo . . . . . . . . . . . .. p. 64. 5.2.3. Comparação - GEV3 contra GEVdin . . . . . . . . . . . . . . . .. p. 66. 6 Modelo Dinâmico Sazonal para a GEVr. p. 68. 6.1. Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 68. 6.2. Dinâmica para a GEVr . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 68.

(18) 6.3. Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 72. 6.3.1. Aplicação 1 - Temperatura em Teresina-PI . . . . . . . . . . . .. p. 72. 6.3.2. Aplicação 2 - Temperatura em Curitiba-PR . . . . . . . . . . .. p. 74. 6.3.3. Aplicação 3 - Temperatura em Brasília-DF . . . . . . . . . . . .. p. 76. 7 Considerações nais. p. 89. Apêndice A -- Condicionais completas e algoritmo. p. 91. Apêndice B - Condicionais completas e algoritmo para DLMS. p. 96. Referências. p. 102.

(19) 1. 1. Introdução. É notório que, hodiernamente, catástrofes naturais são cada vez mais noticiadas, tais como secas prolongadas, enchentes e terremotos. Esses eventos climáticos aumentam o sinal de alerta sobre o futuro da nossa sociedade. No intuito de tentar prever essas catástrofes, estudos relacionados a dados extremos foram surgindo, cujo é uma área relativamente nova para a ciência, em que a aplicação ocorre principalmente em dados ambientais e nanceiros. A área de análise de valores extremos é um ramo da estatística e probabilidade que teve início na década de 1920 com trabalhos de Fischer, Fréchet, Tippet, entre outros. As origens assintóticas de máximo amostral se deve a Fisher e Tippet (1928). Entretanto, os trabalhos obtiveram um maior desenvolvimento a partir da segunda metade do século XX. Recentemente, com o avanço da tecnologia, é possível analisar um volume maior de informação. Com isso, os trabalhos de valores extremos que apresentavam poucas informações em relação ao máximo, começaram a explorar as r-maiores estatísticas de ordem, com a nalidade de obter uma melhor análise estatística, provendo um ganho maior de informação. Existem inúmeras aplicações referentes ao modelo GEV, como pode ser visto em Huerta e Sansó (2007) e Gumbel (1958). O intuito deste estudo não é trabalhar com a GEV e sim com a GEVr . Exemplos baseados na GEVr são menos comuns. Esta técnica foi primeiramente desenvolvida para o caso Gumbel por Smith (1986) a partir dos desenvolvimentos teóricos de Weissman (1978). O caso geral, foi desenvolvido por Tawn (1988). Umas das motivações citadas na literatura se deve a Smith (1986) que dedicou-se ao seguinte questionamento: suponha que tenhamos não apenas os máximos anuais, mas digamos os dez maiores valores. Como podemos utilizar estes dados para obter estimativas melhores que as obtidas usando somente o máximo anual? Essa mesma questão foi anteriormente levantada por Pirazzoli (1982) e Pirazzoli (1983) em estudos sobre o nível do mar em Veneza..

(20) 2 Pirazzoli (1982) coletou os dez maiores níveis (com algumas exceções) em cada ano no período de 1887-1981 e utilizou essas informações para estudar a distribuição de valores extremos do nível do mar em Veneza. Entretanto, em dados ambientais, por exemplo, em chuva, vento e temperatura, seus níveis podem estar correlacionados com a sazonalidade, além de apresentar uma tendência de aumento ao longo dos anos, devido as mudanças climáticas no planeta. Com a nalidade de detectar movimentos sazonais na série temporal, é proposto neste trabalho um modelo com uma distribuição GEVr , levando em consideração o fato dos dados serem provenientes de uma série temporal, em que os parâmetros da distribuição variam no tempo. O modelo com distribuição GEVr é feito por equações de atualização de um DLM. Huerta e Sansó (2007) usaram uma ideia similar quando modelaram níveis diários de ozônio por uma distribuição GEV variando no tempo e espaço.. 1.1. Objetivos. Este trabalho tem como objetivo utilizar a GEVr , empregando uma abordagem bayesiana na construção de cálculos e grácos de retorno para a GEVr e escolha do r-ótimo. Os resultados serão comparados com a biblioteca eva, desenvolvido por Bader e Yan (2016) e disponível no Software R, esta biblioteca que contém funções para geração de pontos das. r-maiores estatísticas de ordem e estimação dos seus parâmetros (µ, σ, ξ) pelo método de máxima verossimilhança. Também será proposto o modelo linear dinâmico, com a nalidade de evitar a correlação dos dados, permitindo que cada instante seja independente do outro. O DLM é uma classe geral de modelos de séries temporais que visa modelar os parâmetros da GEVr ao longo do tempo. Além disso, foi utilizado um modelo especíco que se adeque à dados sazonais, conhecido por DLMS. Neste trabalho tem um propósito de adaptar novas distribuições a GEVr , com a nalidade de exibilizar a seleção do melhor modelo, como por exemplo, criou-se o modelo. GEVdin , que é baseado na escolha dinâmica do r, ou seja, a cada instante seleciona as r-maiores estatísticas que serão utilizadas. Outros modelos criados são GEVSr e GEVSdin , baseado no DLMS com escolha do r-xo e escolha dinâmica do r, respectivamente, para averiguar o melhor modelo foi utlizado o critério DIC, além dos grácos dos quantis, nível.

(21) 3 de retorno e evolução dinâmica dos parâmetros no tempo.. 1.2. Organização do trabalho. Este trabalho está organizado da seguinte forma: no Capítulo 2; apresentam-se a GEV e GEVr , expondo sua função de densidade, além de esclarecer um pouco sobre a estimação de seus parâmetros, quantis e escolha do r-ótimo. O Capitulo 3 apresenta o conceito de estimação bayesiana, técnicas MCMC e a estimação dos parâmetros da distribuição GEVr , também consta neste capítulo o critério de comparação de modelo, e simulações com pontos gerados através da biblioteca eva para a GEVr . O Capítulo 4 trata a variação dos parâmetros da distribuição GEVr ao longo do tempo, considerando os parâmetros de forma, escala e locação. Foi considerada uma estrutura de modelos dinâmicos de primeira ordem (DLM), baseado em Nascimento, Lopes e Gamerman (2011), este modelo foi aplicado com dados simulados e no capítulo seguinte com dados reais. No Capítulo 5 foram analisados dois conjuntos de dados. O primeiro consiste em dados de temperaturas máximas de Teresina-PI. O segundo conjunto de dados consiste em níveis de retornos da Bovespa . Os resultados são obtidos através do algoritmo para a GEVr . Além disso, comparou-se os resultados da aplicação do modelo GEVr com a escolha do. r xo contra o GEVdin , usou-se o critério DIC para escolha do melhor modelo, pois o BIC retornou valores altos devido a grade quantidade de parâmetros variando no tempo, depois foi obtido grácos para os quantis e níveis médios de retorno. No Capítulo 6 foi proposto um modelo dinâmico sazonal para a GEVr e foram analisadas as temperaturas máximas de 3 capitais brasileiras: Teresina, Curitiba e Brasília. No Capítulo 7 são apresentadas as considerações nais e, por m, nos apêndices A e B é fornecido o algoritmo MCMC para a GEVr e GEVSr , ambos os modelos com parâmetros variando no tempo..

(22) 4. 2. Teoria de valores extremos. A TVE é um ramo da probabilidade que estuda o comportamento estocástico associado a um conjunto de variáveis aleatórias (ou vetores aleatórios) com distribuição comum. F . Sua aplicação ocorre principalmente nas áreas de nanças e ambientais, objetivando prever grandes perdas e ganhos. Os primeiros trabalhos de Roberts (1979) e Horowitz (1980) surgiram da necessidade de modelar dados de fenômenos metereológicos nos Estados Unidos, tais como inundações, vazão de rios, temperaturas máximas, assim como em áreas de nanças, atuárias e engenharia. Na denominação geral de extremos é comum utilizar o máximo, mínimo, estatísticas de ordem extremas e excessos acima (ou abaixo) de limiares altos (ou baixos). As distribuições de extremos aleatórios têm como característica uma cauda pesada (inferior e superior, no caso univariado) da distribuição subjacente F . As origens da caracterização assintótica de máximo amostral remontam a Fisher e Tippet (1928). Até a década de 50 não houve um abundante avanço, quando trabalhos como o de Mises (1954) e Jenkinson (1955) mostraram uma distribuição que englobava as distribuições limites de máximos, chamada de distribuição de valores extremos generalizada, ou GEV (generalized extreme value), nessa mesma década, Gumbel (1958) publicou um livro referente a TVE, sendo este livro ainda relevante nos dias atuais. Prescott e Walden (1980) propuseram o cálculo da matriz de informação esperada, que contribuiu no aspecto da inferência de verossimilhança para o modelo GEV. Um algoritmo para estimar os parâmetros por máxima verossimilhança foi proposto por Hosking Wallis (1985).. 2.1. Distribuição de valores extremos generalizada (GEV). A motivação para se trabalhar com a distribuição GEV surgiu através da distribuição de máximos e mínimos, em que é preciso conhecer a distribuição F . Entretanto, em.

(23) 5 algumas situações, essa distribuição é desconhecida, devido a pequena quantidade de observações (n), com isso houve a necessidade de obter resultados assintóticos, e vericouse que a medida que n aumenta, a distribuição converge para uma distribuição comum. O Teorema de Fisher e Tippet (1928) apresenta um resultado para as distribuições de máximos e mininos.. Teorema 1 Seja (Xn ) uma sequência de variáveis aleatórias i.i.d. Se existem sequências de constantes an > 0 e bn ∈ <, e alguma função distribuição H não-degenerada tal que. P {(Mn − bn )/an ≤ x} → H(x), em que Mn = max{X1 , ..., Xn }, então H é do tipo de uma entre 3 distribuições:. Gumbel :HI (x) = exp{exp(−x)}, x ∈ <. ( Fréchet : HII (x) =. 0,. x≤ 0, ξ > 0. exp(−x−ξ ), (. Weibull : HIII (x) =. x > 0, ξ > 0.. exp{−(−x−ξ )}, 1,. x ≤ 0, ξ > 0. x > 0, ξ < 0.. Uma vez que as distribuições F e F ∗ são do mesmo tipo, se existem constantes a e b tal que F ∗ (a + bx) = F (x), para todo x. No entanto, Mises (1954) e Jenkinson (1955) propuseram a distribuição GEV que inclui as três distribuições descritas acima. A função abaixo é denotada por H e tem a seguinte função de distribuição.. H(y|ξ, σ, µ) =.    − 1ξ    (y−µ)   exp − 1 + ξ , se ξ 6= 0;  σ . (2.1).  n n  oo     exp −exp − (y−µ) , se ξ = 0, σ em que 1 + ξ. y−µ σ. . > 0.. O modelo tem três parâmetros: um parâmetro de locação, µ, um de variabilidade, σ e um de forma, ξ . No caso em que ξ = 0, ou caso limite ξ → 0 , HI corresponde distribuição Gumbel. Os casos ξ < 0 e ξ > 0 correspondem, respectivamente, às distribuições Weibull.

(24) 6 e Fréchet. A distribuição GEV citada por Mendes (2004), também é conhecida como a distribuição de von MisesJenkinson. A sua função de densidade (µ 6= 0) é dada por.. hµ,ξ,σ (y)=.               . exp.   −1 − 1 −1 (y−µ) (y−µ) −(1+ξ ( σ )) ξ σ1 (1+ξ ( σ )) ξ ,. exp{−exp{−( (y−µ) )}} σ1 exp{( (y−µ) σ σ )},. se. ξ<0. e. −∞<y<(µ−σ/ξ);. ou. ξ>0. e. y≥(µ−σ/ξ);. se. ξ=0. e. y∈R.. A Figura 1, apresenta as densidades de 1000 pontos gerados da GEV com µ = 0,. σ ∈ {1, 2} e ξ ∈ {−0.25, 0.25}, conforme mostra a Figura 1 a medida em que ξ aumenta, 0. a densidade passa a ter um comportamento de cauda mais pesada, ou seja, os ξ s escolhidos têm a nalidade de mostrar duas situações possíveis no comportamento dos dados.. Figura 1: Densidade de 1000 pontos gerados da GEV com µ = 0, σ ∈ {1, 2} e ξ ∈ {−0.25, 0.25}, linha cheia (ξ = −0.25, σ = 1), linha pontilhada (ξ = 0.25, σ = 1), linha tracejada (ξ = −0.25, σ = 2), linha tracejada e pontilhada (ξ = 0.25, σ = 2).. Considere x1 , x2 , ..., xm o vetor de dados originais. Os dados são agrupados em sequências de observações de tamanho n, para n sucientemente grande, e de cada sequência é extraído o máximo, encontrando assim uma amostra de k máximos Mn,1 , ..., Mn,k . Esta distribuição resultante é modelada de acordo com a GEV. Invertendo a Equação (2.1) obtemos as estimativas de quantis extremos dos máximos, fazendo zp = H −1 (1 − p), obtendo assim:. ( zp =. µ − σξ [1 − (−log(1 − p))−ξ ], se ξ 6= 0; µ − σ log[−log(1 − p)],. se ξ = 0,.

(25) 7 sendo H(zp ) = 1 − p. O termo zp é conhecido como o nível de retorno associado ao período. 1/p, ou seja, é o valor esperado que os dados ultrapassem o valor zp pelo menos uma vez a cada 1/p períodos de tempo. Por exemplo, se p = 0, 1 e analisarmos os máximos mensais, encontramos z0,1 = 25, é esperado que os dados ultrapassem o valor 25 pelo menos uma vez a cada 1/0, 1 = 10 meses.. 2.1.1 Inferência para a distribuição GEV A distribuição GEV propicia um modelo para a distribuição de máximos de bloco n. Com base nos dados da amostra, é necessário encontrar os máximos em blocos, com a nalidade de estimar os parâmetros da distribuição GEV, veja em Prescott P.; Walden (1980) e Coles (1999). Entretanto, ao implementar este modelo para um conjunto de dados, a escolha equivale a um. trade-o entre vício e variância: blocos pequenos signicam que. a aproximação pelo modelo limite do Teorema 1 é provavelmente ruim. Por outro lado, se o bloco for muito grande, pode acarretar em poucos máximos, conduzindo a uma maior variabilidade das estimativas dos parâmetros. Seja as variáveis Z1 , ..., Zm em que m máximos em blocos de tamanho n são obtidos através de uma amostra de tamanho m×n. A condição necessária é que os máximos sejam i.i.d. com distribuição GEV. A suposição de independência é mais adequada quando o tamanho n do bloco não é muito pequeno. Entretanto, embora os dados originais não sejam independentes, para n grande, a dependência do vetor Z1 , ..., Zm torna-se muito fraca ou quase nula, com isso a distribuição GEV ainda apresenta uma boa modelagem dos dados. Muitas técnicas têm sido propostas para a estimação dos parâmetros da GEV, dentre as quais estão técnicas baseadas em momentos, no qual os momentos são comparados com o seu equivalente empírico (REISS;. THOMAS. , 1997), método dos L-momentos (HOSKING. , 1985); usando funções especicas de estatística de ordem (JANSEN; VRIES, 1991);. WALLIS. métodos de verossimilhança visto em Embrechts, Küppelberg e Mikosch (1997). O método de verossimilhança apresenta algumas diculdades de estimação, devido as condições de regularidade não serem validas em algumas congurações de parâmetros. Smith (1984) estudou este problema detalhadamente e obteve os seguintes resultados:. • quando ξ > −0.5, os estimadores de máxima verossimilhança são regulares, tendo satisfeitas as propriedades assintóticas;. • quando −1 < ξ < −0.5, os estimadores de máxima verossimilhança podem ser.

(26) 8 obtidos, porém não satisfazem as condições de regularidades;. • quando ξ < −1, os estimadores de máxima verossimilhança não existem. Situações em que ξ ≤ −0.5, a distribuição tem uma cauda muito leve, sendo raras de ocorrerem em aplicações. Todavia, essa diculdade de estimação não se torna um grande obstáculo na prática. Considerando as variáveis Z1 , ..., Zm i.i.d. com distribuição GEV, a função de logverossimilhança dos parâmetros, quando ξ 6= 0 é dado por. l(µ, σ, ξ) = −nlog(σ) − (1 + 1/ξ). n X.  log 1 + ξ. zi −µ σ. . i=1. válida se 1+ ξ. zi −µ σ. . −. n  X.  1+ξ. i=1. zi − µ σ. −1/ξ. , (2.2). > 0, para todo i = 1, ..., n.. Para ξ = 0, a verossimilhança é estimada usando a segunda parte da Equação (2.1), encontrando assim a seguinte verossimilhança.. l(µ, σ) = −nlog(σ) −.  n  X zi − µ i=1. σ. −. n X i=1.    zi − µ exp − . σ. (2.3). Maximizar as Equações (2.2) e (2.3) em relação aos seus respectivos parâmetros levam aos estimadores de máxima verossimilhança da GEV. Contudo, não existe solução análitica para estas equações, sendo necessários algoritmos numéricos para maximização Coles (2001) cita diculdades da função de verossimilhança em (2.2) quando ξ ≈ 0. Devido a tais situações, recomenda-se utilizar a Equação (2.3), que é o caso particular da distribuição Gumbel, para estimar os parâmetros (µ, σ ). Satisfeitas as condições de regularidade, a distribuição aproximada para os estimadores de máxima verossimilhança (µ ˆ, σ ˆ , ξˆ) é uma distribuição normal multivariada com média (µ, σ, ξ ) e matriz de covariância igual ao inverso da informação observada da matriz avaliada na estimativa de máxima verossimilhança. Além disso, é possivel construir um intervalo de conança aproximado para estes parâmetros. A estimação dos parâmetros da distribuição GEV nos permite obter a estimação dos níveis de retorno esperado em t períodos de tempo, baseado na estimação dos p quantis extremos da GEV, dado por.

(27) 9.  ˆ  µ ˆ − σˆξˆ [1 − (−log(1 − p))−ξ ], se ξˆ 6= 0; zˆp =  µ ˆ−σ ˆ log(−log(1 − p)), se ξˆ = 0, em que o nível de retorno esperado t períodos a frente é o quantil p = 1−1/t da distribuição GEV. Considere yp = −log(1 − p). Além disso, pelo método delta,. V ar(ˆ zp ) ≈ ∇zpT V ∇zp , em que V é a matriz de covariância de (µ ˆ, σ ˆ , ξˆ) e h i p ∂zp ∂zp ∇zpT = ∂z , , ∂µ ∂σ ∂ξ. = [1, −ξ −1 (1 − yp−ξ ), σξ −2 (1 − yp−ξ ) − σξ −1 yp−ξ logyp ], avaliado em (µ ˆ, σ ˆ , ξˆ). A distribuição é limitada superiormente, quando a estimativa do parâmetro ξˆ < 0, e assim pode-se encontrar a estimativa do valor máximo que os dados podem assumir, dado por. zˆ0 = µ ˆ−. 2.2. σ ˆ . ξˆ. Distribuição da GEVr. Uma diculdade para a modelagem de valores extremos é a quantidade limitada de dados para estimação dos parâmetros do modelo, pois os extremos são escassos. Por denição, isso pode acarretar em níveis de retorno com variância muito grande. Um procedimento alternativo de analisar ocorrências extremas, que apresentam uma estimação imprecisa, e com uma grande variabilidade, é utilizando a GEVr , veja em Weissman (1978), ou seja, não se limitando somente aos máximos. Seja. Mn(k) = k-ésima maior valor de(Z1 , ..., Zn ). Baseado no Teorema 2 de Coles (2001) a seguir, pode-se obter uma distribuição limite para as maiores estatísticas de ordem..

(28) 10. Teorema 2 Se existem sequências constantes an > 0 e bn ∈ < tal que P ((Mn − bn )/an ≤ z) → G(z), quando n → ∞. Para {z : 1 + ξ(z − µ)/σ > 0}, em que. Gk (z) = exp[−τ (z)]. k−1 X τ (z)s s=0. com.  τ (z) = − 1 + ξ. . z−µ σ. s!. ,. −1/ξ .. Em algumas aplicações, podemos encontrar o vetor da GEVr , dadas por. Mn(r) = (Mn(1) , ..., Mn(r) ). (r). Coles (2001) fornece a distribuição marginal para cada componente Mn , pois não são independentes, por exemplo, a segunda maior observação de um bloco depende da maior, (1). (r). tendo a relação Mn > ... > Mn . Coles (2001) mostra que é possivel encontrar a distribuição da GEVr , quando ξ 6= 0 e a função de densidade é dada por (   (r)   (k) −1/ξ ) Y −1/ξ−1 r (z − µ) (z − µ) −1 (1) (r) σ f (z , ..., z ) = exp − 1 + ξ × 1+ξ (. 2.4) σ σ k=1. em que z (r) ≤, ..., ≤ z (1) . Na Equação (2.4) ca reduzida à familia GEV de funções de densidade. O caso ξ = 0 em (2.4) é interpretado como a forma limite quando ξ → 0, conduzindo à familia das funções densidade..  Y     (r)   (k) r z −µ z −µ −1 × . f (z , ..., z ) = exp −exp − σ exp − σ σ k=1 (1). r. (2.5). Na Equação (2.5) ca reduzida à familia da densidade Gumbel. Além disso, estas densidades correspondem a r observações dentro de um único bloco, ou seja, em um conjunto de dados com m blocos de tamanho r, teremos um total de m × r observações. Note que esta função não tem uma forma analítica fechada, logo não foi possível obter a função de distribuição acumulada, quantílica e matriz de covariância. Na prática substituimos as funções e a matriz para o caso r = 1, ou seja, GEV..

(29) 11. 2.2.1 Inferência para a GEVr Iniciando com uma sequência de variáveis aleatórias independentes e identicamente distribuídas, os dados são agrupados em m blocos. Em cada bloco i as ri maiores ob(ri ). servações são registradas, levando a série Mi. (1). (ri ). = (Zi , ..., Zi. ), em que i = 1, ..., m,. geralmente é xado um valor especico para r, conforme em Coles (2001). Assim, como no modelo GEV, a questão do tamanho do bloco equivale a um trade-o entre vício e variância, veja em Coles e Powell (1996). O número de estatísticas de ordem em cada bloco também forma um trade-o entre vício e variância: pequenos valores de r proporciona poucos dados, acarretando uma variância alta; no entanto, para altos valores de r, pode ocasionar vícios pois, provavelmente, violarão a convergência assintótica. Na aplicação, é usual selecionar o r tão grande quanto possível, que não conduza a vícios no modelo, conforme em Smith (1984). Tomando a verossimilhança como o produtório das densidades de (2.4) em (z1 , ..., zn ), temos a seguinte função, quando ξ 6= 0. L(µ, σ, ξ) =. m Y i=1.  "  exp − 1 + ξ  . (r ) zi i. !#−1/ξ   −µ. σ. . ×. ri Y. ". (k) zi. −µ σ. σ −1 1 + ξ. k=1. !#−1/ξ−1   (, 2.6). em que 1+ ξ(z k − µ)/σ > 0, para k = 1, ..., ri , i = 1, ..., m. Quando ξ = 0, usamos a Equação (2.5) e tem-se. L(µ, σ, ξ) =. m Y i=1. (. ". exp −exp −. (ri ). zi. −µ σ. !#) ×. ri Y k=1. " σ −1 exp −. (k). zi. −µ σ. !#! . (2.7). As verossimilhanças (2.6) e (2.7) , ou as log-verossimilhanças podem ser maximizadas numericamente para se obter estimativas de máxima verossimilhança. No software R, contém a biblioteca eva, que foi criada por Bader e Yan (2016). O seu comando para realizar aproximações numéricas dos três parâmetros das r maiores (µ, σ, ξ) é o rlarg.t, esta biblioteca utilizou a estimativa por máxima verossimilhança combinado com um método numérico de Coles (2001), pois a densidade conjunta apresenta uma forma complexa..

(30) 12. 2.2.2 Selecionando o r-ótimo da distribuição GEVr A escolha do r-ótimo foi baseada no trabalho de Bader e Yan (2017), em que a hipótese nula das r-maiores estatísticas de ordem é dada por: (r). H0 : A distribuição das r-maiores estatísticas de ordem se adequa ao r escolhido. (r). Uma estatística para testar a hipótese nula H0 é construindo uma função de pontuação e a matriz de informação de Fisher visto em Rao Balakrishnan (2005).. S(θ) =. n X i=1. Si (θ) =. n X. ∂li (θ)/∂θ.. i=1. A matriz de informação de Fisher I(θ), foi baseada em Tawn (1988) que, devido a instabilidade nos estimadores de máxima verossimilhanca, é necessário ξ > −0.5. Assim, a estatística de pontuação é dada por:. Vn =. 1 T ˆ −1 ˆ S (θn )I (θn )S(θˆn ). n. Sob condições de regularidade, ou seja, quando os estimadores de Vn não dependem do suporte, Vn ∼ χ2 , todavia, a GEVr viola as condições de regularidade, pois seu suporte depende dos parâmetros. Logo, duas propostas para aproximação de Vn são utilizadas.. 2.2.2.1 Método de aproximação PB Score (r). A primeira solução é o bootstrap paramétrico (PB), o procedimento para testar H0 está em Bader e Yan (2017). 1. Calcule θˆn em H0 com os dados observados. 2. Calcule a estatística de teste Vn . 3. Para cada k ∈ {1, ..., L}, com L sendo um número grande, repita:. a) Gerar uma amostra bootstrap de tamanho n para a GEVr , com o vetor de parâmetro θˆn . (k) b) Calcule θˆn sob H0 com a amostra de bootstrap. (k). c) Calcule a estatística de teste de pontuação Vn ..

(31) 13 4. Retorne um p-valor aproximado de Vn como. L−1. L X. 1(Vn(k) > Vn ).. k=1. É relevante ressaltar que esse método é computacionalmente muito robusto, pois envolve uma amostragem da distribuição nula e para cada amostra dos parâmetros estimados é feito um bootstrap.. 2.2.2.2 Método de aproximação ED O outro teste é baseado na diferença na entropia (ED) para a GEVr e GEVr−1 . A entropia é uma variável aletória continua, cuja função de densidade pode ser encontrada em Singh (2013).. Z. ∞. E[− ln(f (y))] = −. f (y) log(f (y))dy. −∞. Note que se trata da esperança da log-verossimilhança negativa, que pode ser aproximada pela média amostral da log-verossimilhança dos dados observados. A diferença na log-verossimilhança entre a GEVr e a GEVr−1 , é que esta fornece uma medida de des(r). vio para H0 , um grande desvio na diferença esperada sugere uma possível especicação (r). errada de H0 .. 2.2.2.3 Procedimento de teste da hipótese (r). Como existem R hipóteses H0 , r = 1, ..., R, a serem testadas em sequência para os métodos propostos, temos uma condição imposta que as hipóteses devem ser rejeitadas em (k). uma ordem: se H0r é rejeitada, r < R então H0. será rejeitada para todos os r < k ≤ R.. Apesar da extensa literatura sobre testes sequências múltiplos Benjamini (2010a), Shaer (1995) e Benjamini (2010b) e os desenvolvimentos de controle de erros FDR Benjamini Y. Hochberg (1995) e Benjamini Y. (2001), nenhum procedimento denitivo de controle de erros em testes ordenados foi obtido até o trabalho de GSell Wager (2013). Considere uma sequência de hipóteses nulas H1 , ..., Hm . O teste ordenado deve rejeitar. H1 , ..., Hm para algum k ∈ {0, 1, ..., M }, seja p1 , ..., pm ∈ [0,1] os p-valores correspondentes as m hipóteses. Os métodos de GSell Wager (2013) transforma os p-valores em uma sequência monótona, eles propuseram duas regras de rejeição, cada um retornando um.

(32) 14 corte kˆ tal que H1 , ..., Hk são rejeitadas, o primeiro se chama ForwardStop,. (. ) k X 1 kˆF = max k ∈ {1, ..., m}; − log(1 − pi ) ≤ α , k i=1 e o segundo se chama StrongStop. (. m X log (pj ) kˆS = max k ∈ {1, ..., m}; exp j j=k. !. αk ≤ m. ) ,. em que α é um nível pré-denido. Ambas as regras são para o Controle do FDR ao nível α sob a suposição dos p-valores. O ForwardStop dene o limiar de rejeição no Maior. k na qual a média dos primeiros k p-valores transformados é pequeno o suciente. Já o StrongStop oferece uma garantia a mais para o ForwardStop. Se os p-valores não nulos realmente precedem os p-valores, então esse método controla o FWER (SHAFFER, 1995) no nível α além do FDR . Assim, para ForwardStop, este α refere-se ao FDR e para StrongStop, α refere-se ao FWER ..

(33) 15. 3. Estimação usando abordagem bayesiana para GEVr. 3.1. Introdução. Uma outra abordagem utilizada para inferência é a bayesiana, como visto em Box e Tiao (1973), no qual é assumido que os parâmetros de interesse possuem uma distribuição de probabilidade, que pode ser denido também pela verossimilhança dos valores observados. Gamerman e Migon (1993) comenta que a teoria bayesiana é desenvolvida na presença de observações, cujos valores, inicialmente, vem de distribuições incertas e são descritos como uma função de densidade. Considere θ um vetor de parâmetros a ser estimado. Nascimento (2012) arma que o enfoque bayesiano incorpora o conhecimento sobre θ à análise por meio de uma função de probabilidade P (θ) ou função densidade de probabilidade f (θ), denominada distribuição a priori, devido ao fato de se tratar da distribuição de probabilidade de θ antes que se observem os dados representados pelo vetor. y e geralmente a distribuição a priori é uma. informação subjetiva do pesquisador sobre determinado estudo. Nesse texto, tratamos θ como um vetor de variáveis contínuas, por isso sua distribuição a priori é denotada por. f (θ). Neste contexto, a inferência Bayesiana trabalha na presença de observações. y. cujos. valores inicialmente incertos são descritos através de uma distribuição de probabilidade com densidade ou função de probabilidade f (y|θ), da qual deriva `(θ|y), denominada função de verossimilhança, sendo função de θ dada a amostra. y efetivamente observada. De. acordo com Nascimento (2012) temos então dois ingredientes para estimar o comportamento dos parâmetros, a função de verossimilhança e a distribuição a priori. Com isso surge uma pergunta: qual seria distribuição do vetor de parâmetros, após a inserção da informação contida nos dados observados, e a informação a priori do pesquisador? A resposta da pergunta anterior é que a inferência sobre θ é baseada na sua função.

(34) 16 densidade de probabilidade depois que os dados são observados. Esta função é denominada função densidade de probabilidade a posteriori, representada por f (θ|y) e obtida por meio do Teorema de Bayes, dado por. f (θ|y) = sendo f (y) a densidade marginal de. l(θ|y)f (θ) , f (y). Y, que pode ser obtida por f (y) = l(θ|y)f (θ)d(θ). R. Pode-se reescrever o teorema de Bayes como,. `(θ|y)f (θ) dθ. f (θ|y) = R `(θ|y)f (θ) Uma vez que. R. `(θ|y)f (θ)d(θ) não é função de θ, pode-se escrever. f (θ|y) ∝ `(θ|y)f (θ), em que o símbolo ∝ indica proporcionalidade, essa é uma maneira mais compacta de escrever a função a posteriori.. 3.2. Métodos de Monte Carlo via Cadeias de Markov. Um problema comum na inferência Bayesiana é que a forma da distribuição a posteriori não resulta numa distribuição de probabilidade conhecida. Isto ocorre em algumas situações nas quais temos apenas um único parâmetro, entretanto, é mais comum quando. θ é um vetor de k parâmetros. Com isso, para obter a distribuição posteriori conjunta de θ , são utilizadas técnicas computacionais para alcançar aproximações da distribuição a posteriori. Na inferência bayesiana, a técnica mais utilizada é chamada de Monte Carlo via Cadeias de Markov (MCMC,. Markov Chain Monte Carlos), que pode ser vista em. referências como Gamerman e Lopes (2006). Uma cadeia de Markov é um processo estocástico {X0 , X1 , ...}, tal que a distribuição de Xt depende apenas do estado anterior Xt−1 . Os métodos MCMC requerem que a cadeia seja. • homogênea, isto é, as probabilidades de transição de um estado para o outro são invariantes;.

(35) 17 • irredutível, isto é, cada estado pode ser atingido a partir de qualquer outro em um número nito de iterações;. • aperiódica, isto é, não haja estados absorventes. A simulação estocástica é um procedimento rotineiramente utilizado para a estimação de parâmetros que não podem ou apresentam extrema complexidade para ser analiticamente estimados, ou seja, é utilizado para estimação de momentos de funções de variáveis aleatórias (produto, soma, etc.). O procedimento consiste em simular as distribuições dos parâmetros de interesse e remodelar o resultado da simulação, forçando a amostra nal a se adequar a uma amostra oriunda da distribuição da função da variável aleatória em questão. Para os casos em que não se conhece a distribuição de onde se precisa simular (como é o caso de diversas posterioris da inferência bayesiana aplicada) a simulação estocástica surge via MCMC, permitindo assim o processo inferencial. Resumidamente, nos casos onde a função densidade de probabilidade desconhecida ou demasiadamente complicada, os métodos MCMC possibilitam a geração de amostras de distribuição à posteriori. Os dois principais métodos MCMC são, o amostrador de Gibbs (Gibbs Sampling) proposto por Diebolt e Robert (1994) e o algoritmo de Metropolis-Hastings, proposto por Metropolis et al. (1953) e extendido por Hastings (1970).. 3.2.1 Amostrador de Gibbs O algoritmo de Gibbs também simula pontos da distribuição de interesse. Considere θ = (θ1 , θ2 , ..., θd ) um vetor paramétrico com d dimensões. Este algoritmo consiste em amostrar um parâmetro por vez, baseado na sua distribuição condicional completa. π(θ|θ−i ), em que θ−i = (θ1 , θ2 , ..., θi−1 , θi+1 , ..., θd ). Para obter a distribuição condicional completa de θi , basta pegar os termos da distribuição conjunta a posteriori apenas os termos que dependem de θi e vericar se a proporcional a esta distribuição possui uma densidade conhecida que pode ser gerada facilmente. O algoritmo do amostrador de Gibbs é dado da seguinte maneira. 1. Inicializar o contador de iterações em t = 0; (0). (0). 2. Especique valores iniciais θ0 = (θ1 , ..., θd );.

(36) 18 3. Obtenha um novo valor θ(t+1) a partir de θ(t) , através da geração das distribuições condicionais completas (t+1). ∼ π(.|θ2 , θ3 , ..., θd );. (t+1). ∼ π(.|θ1 .. .. (t+1). ∼ π(.|θ1. θ1 θ2. θd. (t). (t). (t). (t+1). , θ3 , ..., θd );. (t+1). , θ2. (t). (t). (t+1). (t+1). , ..., θd−1 ).. 4. Incremente o contador de t para t + 1 e retorne ao passo 2 até obter convergência. (t). (t). (t). Assim, no instante t, o vetor gerado θ(t) = (θ1 , θ2 , ..., θd ) é um vetor de pontos da distribuição a posteriori dos parâmetros.. 3.2.2 Algoritmo de Metropolis-Hastings Neste algoritmo, um valor é gerado de uma distribuição conhecida, sendo este valor aceito também como um ponto da distribuição a posteriori π(θ) com uma probabilidade. α, com isso obtemos um mecanismo de correção que garante a convergência para a cadeia de equilíbrio. Suponha que o objetivo é simular pontos de uma distribuição (multivariada) π(θ). Seja. q(θ, δ) uma probabilidade de transição arbitrária. O algoritmo de Metropolis-Hastings é formalizado pelos seguintes passos: 1. Dada a posição correta de θn = θ gerar um novo candidato δ ∗ de q(θ, δ); n o π(δ)q(θ|δ) 2. Calcular α(θ, δ) = min π(θ)q(θ|δ) , 1 , com δ = δ ∗ ; 3. Com probabilidade α(θ, δ ∗ ) aceitar θn+1 = δ ∗ caso contrário manter θn+1 = θ; 4. Voltar ao passo 1. A vantagem do algoritmo de Metropolis-Hastings é que não é necessário conhecer todas as distribuições condicionais completas. A variável pode ser um vetor de parâmetros (θ1 , ..., θd )..

(37) 19. 3.3. Estimando os parâmetros da GEVr. Com relação a distribuição da GEVr , vimos que a densidade da distribuição é dada pela Equação (2.4). Tomando a log-verossimilhança como o somatório das densidades em. (z1 , ..., zn ), temos a seguinte função, quando ξ 6= 0. l(µ, σ, ξ) =. m X. . . −r log(σ) −. i=1. 1 +1 ξ. X r. log 1 +. (k) ξ(zi. − µ). !. − 1+ξ. σ. k=1. ". (r ) zi i. −µ σ. !#− 1ξ . em que 1 + ξ(z k − µ)/σ > 0, para k = 1, ..., ri , i = 1, ..., m; caso contrário a logverossimilhança é zero. Quando ξ = 0, usamos a Equação (2.5) e tem-se. l(µ, σ, ξ) =. m X. " − exp −. i=1. (ri ). zi. −µ σ. !# − r log(σ) +. ri X k=1. ". (k). −. zi. −µ σ. !#! .. Exemplicando uma distribuição a priori para o vetor paramétrico (µ, σ, ξ), podese encontrar a distribuição a posteriori para os parâmetros. Observe que σ > 0, então um candidato a priori é uma distribuição gama(a, b). Para µ e ξ , como os seus valores podem ser também negativos, pode-se atribuir distribuições a priori normais N (µ0 , σµ2 ) e. N (ξ0 , σξ2 ). Assim, a distribuição a priori conjunta dos parâmetros é dada por p(µ, σ, ξ) ∝ σ a−1 exp(−bσ)exp(−(µ − µ0 )2 /2σµ2 )exp(−(ξ − ξ0 )2 /2σξ2 ). As prioris utilizadas no algoritmo, para a GEVr , são: p(σ) ∼ Gama(0.001, 0.001),. p(ξ) ∼ N ormal(0, 1) e p(µ) ∼ N ormal(0, 1000), a escolha dessas prioris, foi as mesmas das prioris da GEV do pacote MCMC4Extremes, desenvolvido para o Software R Team (2008) e criado por Nascimento e Silva (2016). Finalmente, obtém-se a função proporcional da distribuição a posteriori, tomando. π(µ, σ, ξ) ∝ p(µ, σ, ξ)l(µ, σ, ξ). Ao realizar algumas manipulações algébricas, pode-se vericar que a distribuição a posteriori não possui uma forma conhecida. Assim, uma maneira de amostrar pontos da distribuição a posteriori é através do algoritmo de MetropolisHasting, o algoritmo é dado da seguinte maneira 1. Inicialize o contador de iterações t = 0 e especique o valor inicial θ0 = (µ0 , σ 0 , ξ 0 ). 0. 2. 0. 2. Gere um novo valor σ da distribuição Gama(σ (t) /Vσ , σ (t) /Vσ ), µ da distribuição. ,.

(38) 20 0. Normal(µ(t) , Vµ ) e ξ da distribuição Normal(ξ (t) , Vξ ); 0. 3. Calcule a probabilidade de aceitação α(θ(t) , θ ) como em ( ) 0 0 0 0 (t) 02 π(µ , σ , ξ )f (σ |σ /V , σ /V ) 0 G σ σ α(θ(t) , θ ) = min 1, 0 2 (t) (t) (t) (t) (t) π(µ , σ , ξ )fG (σ |σ /Vσ , σ /Vσ ) e gere u ∼ U(0,1), observação: fG segue uma distribuição Gama. 0. 0. 0. 0. 4. Se u ≤ α(θ(t) , θ ) então aceite o novo valor e faça µ(t+1) = µ , σ (t+1) = σ e ξ (t+1) = ξ . Caso contrário rejeite e faça µ(t+1) = µ(t) , σ (t+1) = σ (t) e ξ (t+1) = ξ (t) ; 5. Incremente o contador t para t + 1 e volte ao passo 2.. 3.3.1 Função rmaiores_mes No pacote MCMC4Extremes (NASCIMENTO;. SILVA. , 2016), contém a função poste-. rior.gev(data, block, int), em que data será o vetor de dados, block o tamanho do bloco e int o número de iterações geradas por MCMC, entretanto, o bloco apresenta tamanho xo. No algoritmo proposto, a extração por blocos é substituída pela extração mensal dos dados. Com isso algumas diculdades foram encontradas, pois nem todos os meses tem a mesma quantidade de dias e também pode acontecer de ter dados faltantes, ou seja, a quantidade de dados diários ser inferior ao número de dias do mês. Os dados devem ser organizados conforme a Figura 2, em que a primeira coluna se refere a data (dd/mm/aaaa) e a outra coluna contém os máximos diarios.. Figura 2: Exemplo de organização de Banco de dados. A função rmaiores_mes(dados, r), em que dados será o vetor contendo m linhas e 2 colunas (uma coluna para data e outra para os dados diários), r é a quantidade de dados diários escolhidos em cada mês. O algoritmo rmaiores_mes é composto dos seguintes passos:.

(39) 21 1. Organiza o banco de dados originais em ordem crescente de data (m linhas e 2 colunas); 2. considere a1 , a2 , ..., am os valores de cada dia; 3. cria-se um vetor (n) que guarda a posição do último dia do mês e um contador para a quantidade de meses (c = 0); 4. se os meses entre ai+1 e ai , com i ≤ m forem diferentes ou a diferença entre as datas for maior ou igual que 31 dias então; 5. Incrementa o contador de meses (c = c + 1), e coloca-se a posição do último dia do mês do vetor n; 6. Repita esse processo até chegar em am ; 7. Depois é utilizado um procedimento para ordenar os blocos (c linhas x r colunas), onde em cada linha os dados são organizados em ordem decrescente e naliza-se o algoritmo. No exemplo abaixo tem-se um exemplo de extração de dados usando a função rmaiores_mes.. #temperatura de Natal-RN no ano de 2015. #retornar as 4 maiores temperaturas de cada mês temp_natal=rmaiores_mes(temp_nat,4) temp_natal [1,] 31.0 31.0 30.8 30.8 [2,] 31.8 31.6 31.4 31.4 [3,] 31.6 31.4 31.2 31.2 [4,] 31.4 31.2 31.2 31.2 [5,] 31.0 31.0 31.0 31.0 [6,] 30.6 30.4 30.2 30.0 [7,] 29.6 29.4 29.4 29.4 [8,] 29.4 29.4 29.2 29.2 [9,] 30.0 29.8 29.8 29.8 [10,] 30.2 30.0 30.0 30.0 [11,] 31.6 31.0 30.9 30.8 [12,] 31.0 31.0 31.0 31.0.

Referências

Documentos relacionados

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

FIGURA 1: Valores médios da porcentagem de germinação de sementes de Hymenaea stigonocarpa submetidas a diferentes tratamentos pré-germinativos.. contrapartida, Souza et

Assim sendo, o espaço da estrada é determinante como facilitador de um exercício de uma sexualidade mais plena, aberta e satisfatória, pelo menos para Thelma, e ao

Em relação aos conhecimentos de saúde oral constatou-se que pais/encarregados de educação e crianças estão informados sobre a presença, ou não, de dentes cariados, bem como,

Primeiramente, uma contextualização: Walter Feldman, ex-deputado, como dito no texto, foi coordenador da campanha de Marina Silva em 2014. Um mês após o fim das

Além da multiplicidade genotípica de Campylobacter spp., outro fator que pode desencadear resistência à desinfecção é a ineficiência dos processos de limpeza em si,

Dentre as principais conclusões tiradas deste trabalho, destacam-se: a seqüência de mobilidade obtida para os metais pesados estudados: Mn2+>Zn2+>Cd2+>Cu2+>Pb2+>Cr3+; apesar dos

• The definition of the concept of the project’s area of indirect influence should consider the area affected by changes in economic, social and environmental dynamics induced