“Peaks-over-Threshold” na estimac ¸ ˜ ao de risco; uma exposic ¸˜ ao abragente,

(1)

Emprego do m´ etodo

“Peaks-over-Threshold” na estimac ¸ ˜ ao de risco; uma exposic ¸˜ ao abragente,

detalhada mas simples

A thorough yet simple exposition of the Peaks-over-threshold method and its

employment for risk estimation.

Vladimir Belitsky Francisco Martins Moreira

Instituto de Matem´atica e Estat´ıstica Universidade de S˜ao Paulo

ABSTRACT

We introduce the statistical procedure calledPeaks-over-threshold method at an intermediate level of comprehensiveness that provides the understanding of principal method’s features and warns about the principal possible fallacies and misinterpretations in the method implementation.

(2)

Conte´ udo

1 Introdu¸c˜ao . . . 1

2 O problema para o qual o m´etodo POT foi desenvolvido . . . 2

2.1 O formato genérico: problema de estima¸cão de cauda de uma distribui¸cão probabil´ıstica com base na sua amostra . 2 2.2 Um caso particular mas muito freqüênte: o problema da estima¸cão de risco . . . 3

2.3 Sobre as particularidades do problema que exigem elabora¸cão de métodos espec´ıficos para sua solu¸cão . . . 7

3 O que ´e m´etodo POT, o que pretendemos expor sobre ele e porque . . . 14

4 O primeiro pilar do embasamento teórico do método POT: a fam´ılia de distribui¸cões de Pareto generalizadas . . . 17

4.1 Distribui¸c˜oes padr˜ao de Pareto generalizadas . . . 17

4.2 Distribui¸c˜oes de Pareto generalizadas (GPD’s) . . . 23

4.3 Caudas finitas e infinitas e sua rela¸c˜ao com a exposi¸c˜ao . . . 26

4.4 Influência dos parâmteros de uma GPD no seu formato e suas consequências na estima¸cão de risco por GPD’s . . . 33

5 O segundo pilar do embasamento te´orico do m´etodo POT: a Teoria de Valores Extremos . . . 40

5.1 Um exemplo motivador: o problema de reserva renov´avel . . . . 40

5.2 O problema da distribui¸c˜ao assint´otica de extremos . . . 43

5.3 Mais exemplos . . . 49

5.4 A solu¸cão do problema de distribui¸cão assintótica de extremos. . . 56

5.5 Uso da Teoria de Valores Extremos para solu¸cão do problema de reserva renovável formulado na Sub-se¸cão 5.1 . . . 65

(3)

6 A id´eia do m´etodo POT . . . 68

6.1 Preliminares . . . 68

6.2 Resultado de Pickands . . . 69

6.3 Como o Resultado de Pickands implica a id´eia do m´etodo POT . . . 70

6.4 Coment´arios . . . 75

6.5 Sobre a rela¸c˜ao entre GPD’s e as Distribui¸c˜oes de Valores Extremos (EVD’s) . . . 80

7 Procedimentos estat´ısticos empregados para execu¸cão da idéia do método POT. . . 85

7.1 Uma estrat´egia de execu¸c˜ao . . . 85

7.2 O primeiro passo da estrat´egia: como encontrar o valor ´otimo do limiar . . . 87

7.3 A segunda parte da estrat´egia: como construir a GPD a qual se aderem os excessos acima do limiar ´otimo . . . 96

7.4 A última parte da estratégia: da GPD que aproxima os excessos à fun¸cão que aproxima a cauda . . . 99

7.5 Coment´arios . . . 100

7.6 Justificativas at´e agora n˜ao fornecidas . . . 103

8 Exemplo de aplica¸c˜ao do m´etodo POT . . . 109

8.1 Aplica¸cão do método POT para amostras geradas das fun¸cões cujas caudas são do tipo de Pareto . . . 109

8.2 Aplica¸cão do método POT para amostra gerada da fun¸cão cuja cauda é mais fina que a exponencial . . . 129

8.3 Aplica¸cão do método POT a uma amostra de dados reais . 142 9 Comentários finais gerais . . . 155

10 Exerc´ıcios . . . 160

11 Apˆendice . . . 172

12 Bibliografia. . . 176

(4)

1 Introdu¸ c˜ ao

O método denominado Peaks Over Threshold (abreviado por POT em todo o texto) é um método estat´ıstico que surgiu na área de hidrologia nos anos

’80, e que hoje se constitui em uma das principais ferramentas estat´ısticas em- pregadas na estimativa da probabilidade de eventos raros e, em particular, na estimativa de risco de mercado, risco de crédito e risco operacional. No futuro sua importância promete ser ainda maior, dado seu potencial de servir, juntamente com o método de cópulas, para a realiza¸cão de análises de integra¸cão de riscos.

O presente trabalho procura apresentar o método POT em um n´ıvel que seja compreens´ıvel aos leitores graduados em ciências exatas. Devido a isso o trabalho é repleto de exemplos destinados à ilustra¸cão de fenômenos relacionados com o método. Há também uma aten¸cão especial em desvendar erros e equ´ıvocos comuns na aplica¸cão e nos comentários a respeito do método POT, que apareceram desde o choque de populariza¸cão do método ocorrido em meados dos anos 90 (Ebrechts, Klúppelberg, Mikosch (1997), Thomas e Reiss (1998), Coles (2001), sem falar nos inúmeros congressos sobre o tema e da avalanche de artigos de divulga¸cão).

O conteúdo, o teor e a forma do nosso trabalho fazem dele uma ponte entre os textos rigorosamente matemáticos e os usuários que pretendem aplicar o método POT mas que não necessitam, pelo menos de in´ıcio, de uma justifi- cariva rigorosa de suas bases matemáticas.

A apresenta¸cão é acompanhada por uma série de programas computa- cionais (nas linguagens scilab e R) que criamos para gerar alguns exemplos. Tais programas podem ser usados para resolver problemas práticos, como também podem ser úteis aqueles leitores que gostam de “sentir” a prática da teoria que estudam.

Poss´ıveis futuros melhoramentos deste texto estar˜ao dispon´ıveis noweb-site do primeiro autor. Entre emhttp://www.ime.usp.br/˜belitsky/, prossiga

à “Publication List” e encontre o t´ıtulo do presente texto. Neste ´ıtem estarão o texto e suas versões posteriores.

(5)

2 O problema para o qual o m´ etodo POT foi desen- volvido

Repetindo o que já foi dito na Introdu¸cão, o presente trabalho descreve e analisa um método espec´ıfico – denominado peaks over threshold, abreviado por POT – que foi desenvolvido para a solu¸cão de um problema espec´ıfico.

A presente se¸cão deste trabalho destina-se à formula¸cão deste problema. Na Sub-se¸cão 2.1 essa formula¸cão é feita no formato mais genérico poss´ıvel, formato em que o problema é chamado de problema de estima¸cão da cauda de uma ditribui¸cão probabil´ıstica com base na sua amostra, ou, abreviadamente, problema de estima¸cão da cauda. Acontece porém, que a generalidade deste formato dificulta a exposi¸cão da motiva¸cão da constru¸cão de certas partes do método POT. Por isto nossa exposi¸cão será freqüentemente focada em um caso particular do problema de estima¸cão da cauda chamadoproblema de estima¸cão de risco. Ele está formulado na Sub-se¸cão 2.2, e nossa escolha por este caso particular foi incentivada, em grande parte, pela sua abundante referência na

área de economia e finan¸cas. Por fim, na última sub-se¸cão da presente se¸cão, destacaremos as propriedades do problema de estima¸cão da cauda que exigem métodos espec´ıficos para sua solu¸cão. Isto servirá de ponte para a próxima se¸cão, onde come¸caremos a apresentar o método POT.

2.1 O formato genérico: o problema de estima¸cão da cauda de uma ditribui¸cão probabil´ıstica com base na sua amostra Abaixo em(P1)formularemos o que se chamaproblema de estima¸cão da cauda de uma ditribui¸cão probabil´ıstica com base na sua amostra, ou, sucintamente, problema de estima¸cão da cauda. É este o problema para o qual foi constru´ıdo o método POT. Concordamos que a formula¸cão em(P1)pode parecer abstrata demais, contudo explicaremos melhor estes aspectos abstratos na próxima sub- se¸cão, onde eles serão concretizados.

(P1) A partir de uma amostra aleatória x1, . . . , xn de uma desconhecida fun¸cão de distribui¸cãoF(·), reconstruir aproximadamente a cauda desta distribui¸cão à direita da abcissau, sendo que a escolha do valor deuestá delegada a quem resolve o problema. As exigências genéricas na escolha deste valor são: que ele permita boa precisão na aproxima¸cão e que seja adequado para a aplica¸cão desta aproxima¸cão.

(6)

u F¯¹(p) F(u)

p

Figura 1: Esta figura ilustra o termo “cauda de fun¸cão de distribui¸cãoF(·) à direita deu”, que é a parte do gráfico deF(·) à direita do ponto (u, F(u)). A figura também ajuda a entender porque a questão colocada no ´ıtem (D) da situa¸cão (A)-(D) descrita na Sub-se¸cão 2.2, é um caso paricular do probelam de estima¸cão de cauda. Por último, a figura ajuda interpretar o valor F⁻¹(p) como uma medida de risco no âmbito da situa¸cão (A)-(D): quando F⁻¹(p) é positivo, então a região hachurada à direita de F⁻¹(p) corresponde aos valores negativos do retorno maiores por módulo queF⁻¹(p).

Lembramos que o termocauda de F(·) à direita deu corresponde a parte do gráfico da fun¸cãoF(·) onde as abcissas são maiores que u (veja Figura 1).

Notamos que o intuito da exigência “ser adequado para aplica¸cão” será esclarecido no exemplo da Sub-se¸cão 2.2.

2.2 Um caso particular mas muito freq¨uente: o problema da estimat¸c˜ao de risco

Em (A)-(D) abaixo formularemos a situa¸cão a qual nos referiremos no decorrer do nosso trabalho pelo nomeproblema da estima¸cão de risco. Logo em seguida justificaremos o nome dado a esta situa¸cão, explicaremos porque ela é um

(7)

caso particular do problema de estima¸cão da cauda, e também as razões de focarmos freqüentemente neste caso particular ao apresentar o funcionamento do método POT.

(A) Há um investimento (como, por exemplo, uma a¸cão de uma empresa) cujos retornos diários podem ser vistos como variáveis aleatórias independentes e identicamente distribuidas. Para facilitar a exposi¸cão, designaremos simbolicamente por F(·) a fun¸cão da distribui¸cão do retorno diário com sinal menos em qualquer dia; em outras palavras,F(·) designa a fun¸cão de distribui¸cão da variável aleatória

retorno di´ario com sinal menos =

=−log o valor do investimento num dia o valor do investimento no dia anterior, o que significa que

F(x) =IP(retorno diário com sinal menos≤x), ∀x∈R. Dois comentários são imediatamente necessários para que o presente ´ıtem seja corretamente compreendido.

Comentário 1. Em primeiro lugar esclarecemos que o pressuposto de independência dos retornos diários não se verifica na prática, mas é comumente admitido em estudos – e, em particular, no nosso, – pois sempre permite facilitar as contas e muito freqüentemente fornece resultados próximos aos que seriam derivados caso a verdadeira dependência fosse conhecida e levada em conta.

Comentário 2. O segundo esclarecimento é sobre a razão de consid- erarmos retornos com sinal negativo. Acontece que no problema de estima¸cão do risco de um investimento nos interessaremos pela estima¸cão de grandes perdas do investimento, isto é, pela distribui¸cão dos valores negativos, grandes em módulo, do retorno deste investimento. Portanto, se F(·) é a fun¸cão de distribui¸cão do retorno, então estudaremos a forma da sua cauda esquerda. Contudo o método POT, cuja abordagem para solu¸cão do problema queremos exibir, foi formalizado para estudar caudas direitas de distribui¸cões.

Para conciliar o problema em questão com o formalismo matemático do método que fornece sua solu¸cão, consideraremos a fun¸cão de distribui¸cão do retorno diário com sinal negativo: desta maneira a

(8)

cauda direita deF(·) coresponde aos retornos negativos grandes em m´odulo.

(B) Um investidor conhece os fatos descritos em (A) (isto é, conhece que os retornos diários são independentes e identicamente distribu´ıdos) mas desconhece a forma da fun¸cão de distribui¸cão F(·).

(C) O investidor possui os valores de retornos diários observados dias ante- riores. Para facilitar nossa exposi¸cão designaremos simbolicamente por n o número de dias monitorados e por x₁, . . . , x_n as observa¸cões dos retornos com sinal negativo observados nestes dias.

(D) O investidor deseja estimar os valores deF⁻¹(p) para valores depperten- centes a um intervalo pr´oximo a 1. Digamos, para um exemplo concreto, que este intervalo seja [0,9; 0,995].

A primeira coisa que gostar´ıamos que o leitor fixasse em sua mente sobre a situa¸cão (A)-(D), é que o problema formulado nela é um caso particular do problema de estima¸cão da cauda. Este fato segue diretamente da observa¸cão de que o ponto (F⁻¹(p), p),p∈[0,9; 0,995], cujas posi¸cões é preciso encontrar para responder a pergunta colocada no ´ıtem (D), faz parte da cauda deF(·) à direita de 0,9 (veja Figura 1). Apesar da situa¸cão (A)-(D) apresentar um caso particular do problema de estima¸cão da cauda, certos argumentos relacionados ao método POT serão exibidos como se o método fosse aplicado para resolver o problema desta situa¸cão. As desvantagens deste desvio de aten¸cão do caso genérico – que é o problema da estima¸cão da cauda – para caso particular – que

é o problema formulado na situa¸cão (A)-(D) – são m´ınimas, e compensadas, de sobra, por vantagens. As três principais vantagens estão descritas abaixo.

A primeira vantagem é que na situa¸cão (A)-(D) o problema está formulado em termos palpáveis como “investimento”, “retorno”, etc., o que facilita a compreensãop.

A segunda vantagem vem do fato de que a estima¸cão da cauda têm objetivo bem especificado no âmbito da situa¸cão (A)-(D). Recordamos que este objetivo é o de encontrar as abcissas x tais que F(x) = p para valores espec´ıficos de p.¹ Isto permite analisar a eficiência do método POT e exibir

1O leitor pode perguntar:“ que outro objetivo poderia ser”? Tais existem. Por exemplo, o objetivo poderia ser a estima¸c˜ao da esperan¸ca matem´atica de excessos acima do limiaru.

Esta esperan¸ca é conhecida como “conditional value at risk”. Ela é usada para estimar riscos, porém, não será discutida no nosso trabalho. Se o objetivo fosse este, então a importância

(9)

suas vantagens perante outros métodos que venham a ser usados para resolver o problema. Esta vantagem foi aproveitada na Sub-se¸cão 2.3, que mostra os aspectos nos quais o método POT funcionaria melhor que dois outros métodos de abordagem do problema de estima¸cão da cauda. Podemos agora mesmo aproveitar esta vantagem para esclarecer o intuito da exigência: “adequa¸cão da escolha do limiaruà aplica¸cão”, formulado em(P1). No âmbito da situa¸cão (A)-(D) esta “adequa¸cão” significa que deve ser tomado cuidado para que u seja menor queF⁻¹(0,9), uma vez que a questão (D) inquire sobre valores de F⁻¹(p) parap maiores que 0,9.

Por último, a terceira vantagem está no fato de que a situa¸cão (A)-(D) surge freqüentemente na prática e possui aplica¸cões importantes. Isto ocorre porque quandoF(·) é a fun¸cão de distribui¸cão do retorno com sinal “−” de um investimento, como discutido em (A)-(D), os valores de F⁻¹(p) para p próximos ao 1 servem para medir o risco do investimento. Na verdade estes valores são perfeitos para comparar dois investmentos do ponto de vista de o quanto um é mais arriscado que outro. Ou, em outras palavras, há um argumento rigoroso que justifica que F⁻¹(·) é uma boa medida relativa do risco. Nos últimos anos, ela está sendo usada também como uma medida absoluta de risco. Por exemplo, os recentes acordos da Basiléia obrigam os bancos a usar F⁻¹(p), para p entre 0,9 e 0,995, no cálculo de suas reservas financeiras, o que evitaria a falência no decorrer de eventos de perdas raras mas muito severas. Neste caso aliás, F(·) corresponderia à distribui¸cão de perdas, e não à de retornos, como no caso da situa¸cão (A)-(D), mas isto não altera essencialmente a aplica¸cão do método POT para a situa¸cão do cálculo de reservas financeiras comparada com a aplica¸cão deste método para a situa¸cão (A)-(D).

Falta então só explicarmos como e porquê na situa¸cão (A)-(D) o risco do investimento pode ser expresso porF⁻¹(p). Para tal, observe primeiramente que devido ao postulado (A) da situa¸cão (A)-(D),F⁻¹(p) é o limiar acima do qual o valor do retorno diário com sinal “−” não ultrapassará com confian¸ca p(a palavra “confian¸ca” é sinônimo de “probabilidade” e é muito popular na lingua coloquial, motivo de ser usada aqui). A Figura 1 ilustra esta afirma¸cão com uma clareza que dispensa maiores explica¸cões. Observe também, que devido a defini¸cão de retorno, temos que um investimento de, digamos R$100,

deveria ser dada à precisão da estimativa da esperan¸ca como um todo, e não à precisão da estimativa de cada ponto espec´ıfico da cauda deF(·).

(10)

será igual a R$100e^−x no dia seguinte² caso o valor do retorno com sinal “−” neste dia seja x. Quando x está próximo de 0 – o que occore quase sempre para investimentos financeiros de horizonte de um dia – podemos aproximar e^−x por 1−x. Com isto a expressão do valor do investimento no dia seguinte torna-se R$100(1−x). Finalmente, observe que no caso deF⁻¹(p) ser positivo, os valores acima deF⁻¹(p) correspondem aos valores negativos do retorno, ou seja, às perdas. Juntando então as três observa¸cões do presente parágrafo com o pressuposto de que F⁻¹(p) é positivo para p ≥ 0.9, chegamos à seguinte interpreta¸cão para F⁻¹(p) no âmbito da situa¸cão (A)-(D): “com confian¸ca p o investimento não perderá num dia mais que 100·F⁻¹(p)% do seu valor”. É

´obvio que a mesma frase pode ser formulada da seguinte forma: “o risco do investimento perder mais que 100·F⁻¹(p)% do seu valordurante um dia ´e de 1−p”. E isto, por fim, revela o significado de F⁻¹(p) em termos de risco de investimento, como descrito em (A)-(D).

Fecharemos esta sub-se¸cão com o lembrete de que a situa¸cão (A)-(D) será oproblema da estima¸cão do riscono decorrer do nosso trabalho.

2.3 Sobre as particularidades do problema que exigem elabora¸cão de métodos espec´ıficos para sua solu¸cão

Como tinhamos afirmando diversas vezes até agora, o método POT é uma abordagem espec´ıfica elaborada para resolver o problema de estima¸cão da cauda. Na presente sub-se¸cão indicaremos ao leitor quais são as particularidades do problema que demandam por uma abordagem abordagem espec´ıfica.

Para isto, faremos o seguinte: tomaremos um caso particular da fun¸cão F(·), geraremos dela uma amostrax₁, . . . , x_n, e estimaremos a cauda deF(·) a partir desta amostra. A estimativa será realizada por dois métodos. Estes são simples e funcionam bem em muitas situa¸cões reais. Provavelmente por isso seriam os primeiros candidados naturais empregados na abordagem do problema de estima¸cão da cauda. Mostraremos as deficiências das solu¸cões obtidas por estes métodos e revelaremos as razões. Isto indicará aos leitores as particularidades intr´ınsicas do problema de estima¸cão da cauda que dificultam sua solu¸cão.

Designaremos por K(·) a fun¸c˜ao de distribui¸c˜ao constru´ıda da seguinte maneira:

2Assumimos aqui que taxa de juros livre de risco ´e 0.

(11)

1.28 0.91

(a)

0 1

(b)

0 1

(c)

1.28 0.91

(d)

Figura 2: A fun¸cão de distribui¸cãoK(·) e a ilustra¸cão de sua constru¸cão. O procedimento que gera esta fun¸cão está apresentado no come¸co da Sub-se¸cão 2.3.

(1) Tomamos a fun¸cão da distribui¸cão Normal Padrão e descartamos a parte do seu gráfico que fica à direita do ponto (1.28,0.9) (veja Figura 2(a)).

(2) Tomamos a fun¸c˜ao da forma (veja Figura 2(b))

G(x) = 1−(1 +x)⁻¹, definida para x≥0, (1) multiplicamos esta por 0.1 (Figura 2(c)), e substitu´ımos a parte descar- tada da distribui¸c˜ao normal (Figura 2(d)).

Tomemos agora esta fun¸cão de distribui¸cãoK(·) para a constru¸cão de uma amostra aleatória de tamanho n = 200. Denotaremos os valores da amostra

(12)

simbolicamente por x₁, . . . , x_n; os verdadeiros valores são apresentados pela fun¸cão de distribui¸cão amostral, constru´ıda com base neles, que está na Figu- ra 3(a).

Vamos agora resolver o problema da estima¸cão do risco (isto é, o problema descrito em (A)-(D) da sub-se¸cão anterior) para a amostra gerada. Claro que durante a solu¸cão não levaremos em conta a verdadeira K(·). Mas depois de ter obtido a solu¸cão voltaremos à expressão deK(·) e analisaremos a precisão da solu¸cão obtida.

Recorde que o problema da estima¸cão do risco é o de estimar K⁻¹(p) para valores depno intervalo [0,9; 0,995]. Nossa primeira solu¸cão tenta então estimar os valores desconhecidos deK⁻¹(p) por ˆK⁻¹(p), onde ˆK(·) é a fun¸cão de distribui¸cão amostral constru´ıda com base na amostrax₁, . . . , x₂₀₀(a fun¸cão K(ˆ ·) está nos dois desenhos em cima da Figura 3). Vejamos a qualidade da nossa resposta para, por exemplo, p = 0.95. Para tal, é precisa lembrar o fato³ de que, já que o tamanho de nossa amostra é 200, então ˆK(·) faz um salto de altura ₂₀₀¹ em cada ponto da amostra. Portanto, ˆK(·) alcan¸ca a altura 0.95 no 190-ésimo ponto da amostra, contando do menor para o maior.

Tamb´em, ˆK(·) possui “patamar” de altura 0,95 entre este ponto e o pr´oximo.

No caso da nossa amostra, o 190-ésimo valor é 3.87 enquanto que o 191-o valor é 7.8. Isto significa que ˆK⁻¹(0.95) pode ser entendido como qualquer valor entre 3.87 e 7.8, ou, em outras palavras, se formos nos basear na ˆK⁻¹(·) para estimar K⁻¹(·), então só poderemos alegar que este valor pertence ao intervalo [3.87,7.8]. Esta precisão é ruim para aplica¸cões práticas (sobre as quais não versaremos aqui). Note também que o comprimento do intervalo de estima¸cão de ˆK⁻¹(p) cresce com o aumento de p, pois quanto mais próximos os pontos da amostra estiverem do valor máximo da amostra, mas afastados entre si estes valores serão. Em outras palavras, a precisão de estimativa de K⁻¹(p) por ˆK⁻¹(p) piora conformep se aproxima ao 1.

A discussão apresentada no parágrafo acima exemplifica as limita¸cões da fun¸cão de distribui¸cão amostral na estimativa da cauda de uma desconhecida fun¸cão de distribui¸cão a partir de sua amostra. A inadequa¸cão vem, como mostrado, da perda de precisão. Esta por sua vez, é conseqüência da seguinte propriedade, t´ıpica para o problema de estima¸cão da cauda:

3Todos os fatos, usados nos argumentos deste parágrafo, decorrem das propriedades de fun¸cões de distribui¸cão amostral.

(13)

0 0

0 a b 10

0.95

?

3.3 0.95

Figura 3: Os dois desenhos acima exibem ˆK(·), a fun¸cão de distribui¸cão amostral constru´ıda com base nos 200 pontos retirados da fun¸cão de distribui¸cão K(·). A fun¸cão ˆK(·) é exibida até o 192-o ponto da amostra. Os dois desenhos abaixo expõem o 0.95-quantil deK(·) (o desenho à direita), e a estima¸cão deste quantil com uso de K(ˆ ·). O desenho à esquerda mostra que o 0.95-quantil pode ser qualquer abcissa do patamar de ˆK(·) na altura 0.95. Este patamar encontra-se entre o 190-ésimo e o 191-o ponto da amostra, cujos valores, no caso amostra gerada, sãoa= 3.87 eb= 7.8.

(14)

Propriedade 1: Se F(·) for uma fun¸cão de distribui¸cão, cuja cauda direita nunca toca o n´ıvel 1, e se x₁, . . . , x_n for uma amostra retirada desta fun¸cão onde x₍₁₎, . . . , x_(n) designa essa mesma amostra ordenada – do menor para maior – , então tipicamente a distância entre x_(k) e x_(k−1) aumenta conforme k aproxima-se an.

A segunda solu¸cão do problema formulado acima (isto é, do problema da estima¸cão do risco com a amostra x₁, . . . , x₂₀₀ gerada da fun¸cão K(·)), que pretendemos apresentar e analisar, é conseqüência da seguinte abordagem:

entre todas as fun¸cões de distribui¸cão normal, encontre aquela que melhor adere à amostrax₁, . . . , x₂₀₀, e use sua cauda como aproxima¸cão da cauda de K(·). Os critérios de aderência são vários. Usaremos um dos mais simples.

Segundo este, entre as fun¸cões de distribui¸cão normal a que melhor se adere a uma dada amostra é aquela cuja média e desvio padrão coincidem com a média e o desvio padrão da amostra. Os valores destas para a amostra do problema aboradado sãoµ= 0.7 e σ = 5.69. Designaremos por Φ_0.7,_5.69(·) a correspondente fun¸cão da distribui¸cão normal. Ela está desenhada na Figura 4.

Conforme nossa programa¸cão, devemos tomar Φ⁻¹_0.7,_5.69(p) como a estimativa deK⁻¹(p) para os valores depdo problema da estima¸cão do risco. A Figura 4 mostra uma grande discrepância entre os valores verdadeiros e suas estimativas quando p está no intervalo [0,9; 0,995]. É fácil entender o quê nos enganou.

Acontece que a maioria dos pontos da amostra veio da parte ”normal” de K(·) e nos fez acreditar que toda a fun¸cão K(·) fosse muito parecida com a distribui¸cão normal.⁴ Porém, os poucos pontos da amostra que originaram da cauda direita de K(·) são t´ıpicos para cauda de uma distribui¸cão que é diferente da cauda da distribui¸cão normal. Estes pontos contribuiram para a variância amostral ter um valor relativamente grande comparado com a contribui¸cão que haveria caso os pontos viessem da cauda normal. Tudo isso resultou na constru¸cão de uma fun¸cão-aproximador que não se ajustou bem ao miolo da distribui¸cãoK(·) (a parte de K(·) à esquerda do ponto de solda 0.9), nem a sua cauda (a parte de K(·) à direita de 0.9). Apresentaremos a razão deste “fracasso” de forma genérica, para que possamos nos referir a esta no futuro:

4O teste estat´ıstico, que poderia ser utilizado aqui para a identifica¸c˜ao da “normalidade”

deK(·) a partir da sua amostra, n˜ao ser´a discutido.

(15)

0 10 1

0 10

1

Figura 4: O desenho à esquerda apresenta a fun¸cão de distribui¸cão amostral ˆk(·) constru´ıda com base em amsotra de 200 valores retirada da fun¸cão de distribui¸cão K(·). Recorde que K(·) coincide com uma distribui¸cão normal até o ponto 1.28.

Esta fun¸c˜ao de distribui¸c˜ao normal esta apresentada junto com ˆK(·). No desenho

`

a direita, desenhamos ˆK(·) e a fun¸cão da distribui¸cão normal cuja média e devio padrão coincidem com a média e o desvio padrão de ˆK(·). O desenho mostra que esta distribui¸cão normal e a fun¸cão ˆK(·) são bastante distintas. Em particular, a discrepância é grande também na cauda direita, o que ilustra o fato que a constru¸cão de aproximador de cauda não pode contar com todos os pontos de amostra.

(16)

Propriedade 2: A cauda de uma fun¸cão de distribui¸cão F(·) à direita de uma absissaupode ser parecida com parte de uma fun¸cão, que nada tem a ver com as outras partes de F(·). Porém, o valor de u pode ser tão grande que haverá pouqu´ıssimos pontos da amostra de F(·) que “vieram” de sua cauda à direita de u. Conclui-se então que outros pontos da amostra não poderiam ter uma forte influência na inferência sobre a forma desta cauda.

(17)

3 O que ´ e m´ etodo POT, o que pretendemos expor sobre ele e porque

Foi ressaltado em outras passagens que o m´etodo chamado POT – recorde:

“POT” é a abrevia¸cão de ”Peaks Over Threshold--, o objeto de nossa exposi¸cão, é uma abordagem espec´ıfica ao problema da estima¸cão de cauda. Este problema foi formulado em(P1)na se¸cão anterior, que também encarregou-se de explicar as dificudades intr´ınsecas ao problema que exigem a aplica¸cão de métodos espec´ıficos para sua solu¸cão. O método POT é um deles.

As próximas se¸cões apresentam e analisam o método. Infelizmente não foi poss´ıvel encontrarmos uma maneira sucinta e eficaz de constru¸cão e justifica¸cão do método POT. (Talvez a inexistência de tal caminho seja a razão principal da imensidade de equ´ıvocos nas suas aplicaco¸cões). Em particular no nosso trabalho há constru¸cões matemáticas complicadas, que fomos obrigados a apresentar para falarmos do método em si. Para que o leitor não se perca nos argumentos descritos nas próximas se¸cões, decidimos antecipá-los por uma apresenta¸cão sucinta do método POT e da estrutura dos nossos futuros argumentos que justificam-o detalhadamente. Esta apresenta¸cão é o conteúdo da presente se¸cão.

Com o termo “método POT” estaremos nos referindo ao procedimento que executa as duas tarefas descritas abaixo, onde a única informa¸cão dispon´ıvel na execu¸cão das tarefas é a amostrax₁, . . . , x_n, que proveio de uma fun¸cão de distribui¸cão F(·) desconhecida.

(a) Escolher um valoruôpt, denominado limiar ótimo, à direita do qual será es- timada a cauda da desconhecida fun¸cãoF(·). A escolha deuôpté guiada por algumas propriedades deF(·) “extra´ıdas” com base em sua amostra, e também por considera¸cões a respeito da eficiência dos métodos estat´ısticos empregados no passo (b).

(b) Construir uma aproxima¸cão para a cauda deF(·) à direita deuôpt, usando uma das seguintes fun¸cões:

para todos α >0, 1− 1

(1 +x)^α, definida no semi-eixo x≥0, (2) 1−e^−x, definida no semi-eixo x≥0, (3) para todos γ >0, 1−(1−x)^γ, definida no intervalo x∈[0,1].(4) Na constru¸cão do aproximador é permitido esticar/esprimir a fun¸cão

(18)

escolhida nas dire¸c˜oes vertical e horizontal, e desloc´a-la por qualquer vetor no plano euclidiano R².

Note que o procedimento (a)-(b) foi modelado para lidar com as dificul- dades intr´ınsicas ao problema da estima¸cão de cauda. De fato, no passo (a), o método preocupa-se com a identifica¸cão do come¸co da cauda, e no passo (b), ele leva o problema de estima¸cão ao campo de estat´ıstica paramétrica, uma vez que para executá-lo é preciso estimar os valores numéricos dos parâmetros:

α ou γ, que indica qual das fun¸cões da fam´ılia (2-3-4) será usada (concordamos que α= 0 ou γ= 0 aponta para a fun¸cão (3));

as constantes de reescala ao longo dos eixos vertical e horizontal;

as coordenadas do vetor de deslocamento.

Aquele leitor que não se preocupar com a justificativa do porquê o procedimento resulta em uma fun¸cão-estimador de cauda, pode acompanhar a Se¸cão 7, que apresenta uma das poss´ıveis estratégias de execu¸cão de (a)-(b), e a Se¸cão 8, que apresenta exemplos da aplica¸cão desta estratégia.

Por´em, nosso texto se preocupa tamb´em com aqueles leitores que gostariam de entender

(i) porque o procedimento (a)-(b) ´e capaz de construir bom aproximador para cauda de uma fun¸c˜ao F(·) a partir de sua amostra;

(ii) se o procedimento pode ser aplicado a qualquerF(·).

Estas questões têm sua razão de existir – da´ı nossa preocupa¸cão –, pois os aproximadores têm como base um conjunto de fun¸cões muito simples: são ramos horizontais de hipérboles (as fun¸cões (2)), a fun¸cão de distribui¸cão exponencial (a fun¸cão (3)), e os ramos de parábolas (as fun¸cões (4)).

A justificativa do porquê as fun¸cões (2-3-4) são capazes de gerar aproximadores de caudas é o que denominaremos por idéia do método POT, e que será apresentada na Se¸cão 6. A idéia decorre de um resultado provado por Pickands ([6]), que revela a rela¸cão entre duas fam´ılias de fun¸cões de distribui¸cão: a chamadaDistribui¸cões de Valores Extremos e a chamada deDis- tribui¸cões de Pareto generalizadas. O Teorema de Pickands esclarece que aque- las fun¸cões de distribui¸cão, cujas caudas podem ser satisfatoriamente aproximadas pelas distribui¸cões de Pareto generalizadas, são precisamente as fun¸cões

(19)

que se encontram nos dom´ınios de atra¸cão das Distribui¸cões de Valores Ex- tremos. Este teorema soluciona então as duas dúvidas principais que surgiram acima:

(i) o teorema justifica o procedimento (a)-(b), pois as fun¸cões (2-3-4), que figuram nele, são as fun¸cões-geradoras das distribui¸cões de Pareto generalizadas;⁵

(2) o teorema carateriza as fun¸c˜oes cujas caudas podem ser aproximadas pelo m´etodo POT.

Dada a importância do Teorems de Pickands, optamos por apresentá-lo, porém, sem a demostra¸cão. Para tal, precisávamos introduzir as distribui¸cões de Pareto generalizadas a apresentar o conceito de dom´ınio de atra¸cão de uma distribui¸cão de valores extremos. A primeira destas tarefas será realizada na Se¸cão 4, e a segunda na Se¸cão 5. Notamos que a Se¸cão 5 é uma sus- cinta exposi¸cão da Teoria de Valores extremos, pois a explica¸cão do conceito de dom´ınio de atra¸cão de uma distribui¸cão de valores extremos requer a introdu¸cão de muitos outros conceitos e resultados básicos desta teoria. Depois das Se¸cões “introdutórias” 4 e 5 virá a Se¸cão 6 que explicará a idéia do método POT. Depois desta, voltaremos a nossa aten¸cão para a execu¸cão da idéia do método, isto é, do procedimento (a)-(b). Esta idéia pode ser feita de diversas maneiras. Uma delas, e a mais usada na atualidade, será detalhadamente apresentada e discutida na Se¸cão 7. O funcionamento desta abordagem em casos reais está exibida na Se¸cão 8. A discussão sobre o método POT será conclu´ıda na Se¸cão 9, que é formada de avisos sobre “os equ´ıvocos que você poderia cometer ao explicar e/ou usar o método POT”, que não foram mencionados e desvendados nas se¸cões ateriores a esta. Depois desta se¸cão, há se¸cão de exerc´ıcios – útil no caso em que o texto for usado como material didático –, depois temos então o Apêndice, que contém os programas de com- putacionais usados no tratamento de dados reais (apresentados na Se¸cão 8).

Finalmente apresenta-se a se¸cão com as referências – onde só nos preocupamos com as principais, uma vez que as demais podem ser encontradas nas se¸cões bibliográficas das referências mencionadas.

5Isso significa que cada distribui¸cão de Pareto generalizada é igual af(^x−b_a ) para algum a >0,b∈Ref do conjunto (2-3-4); esta igualdade vale somente naqueles pontos onde os valores da distribui¸cão são diferentes de 0 e 1.

(20)

4 O primeiro pilar do embasamento te´ orico do m´ etodo POT: a fam´ılia de distribui¸ c˜ oes de Pareto gener- alizadas

Conforme afirmamos acima, a idéia do método POT surge da rela¸cão entre a fam´ılia de fun¸cões, chamadas distribui¸cões de Pareto generalizadas, e as fun¸cões que se encontram no dom´ınio de atra¸cão das distribui¸cões de valores extremos. A presente se¸cão destina-se à defini¸cão das distribui¸cões de Pareto generalizadas.

Chama-sedistribui¸cão de Pareto generalizada(GPD⁶ devido a seu equiva- lente em Inglês “Generalized Pareto Distribution”) a fun¸cão que tem uma das formas (10), (11), (12) apresentadas em seguida. As fun¸cões das formas (10) e (11) foram estudadas por Pareto – da´ı o termo “distribui¸cões de Pareto” no nome dado a elas. Já a forma (12) pode ser vista como uma generaliza¸cão das formas (10) e (11) – da´ı o acréscimo do termo “generalizadas”.

Antecipando a defini¸cão de uma GPD, notamos que a expressão desta fun¸cão possui três parâmetros, que serão denotados por ξ, β e s. No nosso ponto de vista a influência desses parâmetros no formato da GPD é mais simples de ser entendida quando a constru¸cão das GPDs é realizada em duas etapas: uma na qual contrói-se GPDs com β = 1 e s = 0 – tais GPDs são chamadasGPDs padrão; outra onde mostra-se como as GPDs padrão podem ser transformadas para se obter todas as outras poss´ıveis GPDs. Este caminho foi adotado na nossa apresenta¸cão. A primeira etapa será realizada na Sub- se¸cão 4.1 e a segunda etapa na Sub-se¸cão 4.2.

4.1 Distribui¸c˜oes Padr˜ao de Pareto generalizadas

As fun¸cões chamadas distribui¸cões padrão de Pareto generalizadas⁷ (abreviadas porGPDs padrãono texto) distinguem-se uma da outra pelos diferentes valores de um único parâmetro, que será designado porξ, e que pode assumir qualquer valor real. A GPD padrão com valor ξ > 0 tem a seguinte forma (veja Figura 5):

G_ξ(x) =

0, parax <0,

1−(1 +ξx)^−1/ξ, parax≥0.

esta f´ormula vale quandoξ >0

(5)

6Observe que abreviaremos “distribui¸cão de Pareto generalizada” por GPD, enquanto que “distribui¸cões de Pareto generalizadas” serão abreviadas por GPD’s.

7Standard generalized Pareto distributionsem Inglˆes.

(21)

A GPD padr˜ao com valor ξ= 0 tem a seguinte forma⁸ (veja Figura 5):

G0(x) =

0, parax <0, 1−e^−x, parax≥0.

esta fun¸c˜ao

corresponde a ξ = 0

(6) A GPD padr˜ao com valor ξ <0 tem a seguinte forma (veja Figura 5):

G_ξ(x) =





0, parax <0,

1−(1 +ξx)^−1/ξ, parax∈[0,−¹_ξ], 1, parax >−¹_ξ.



 esta f´ormula vale quando ξ <0



 (7)

Quanto às fun¸cões de densidade das GPD’s padrão, destacamos que elas ocuparão papel secundário em nossas futuras exposi¸cões. Apesar disso, decidimos destinar uma pequena parte do trabalho às fun¸cões de densidade. Na fórmula (8) temos suas expressões anal´ıticas e nas Figuras 6 e 7 suas formas geométricas:

f_ξ(x) = (a fun¸c˜ao de densidade de G_ξ(·)) = dG_ξ(x)

dx =

=





(1 +ξx)^−1−1/ξ parax≥0, e 0 para outros x, quando ξ >0 e^−x parax≥0, e 0 para outros x, quando ξ= 0

(1 +ξx)^−1−1/ξ parax∈[0,−1/ξ], e 0 para outrosx, quando ξ <0 (8)

Comentário 3. Cada GPD padrão é “parente” de uma hipérbole, uma parábola, ou uma fun¸cão exponencial.

Casoξ >0, o gráfico da GPD padrãoG_ξ(·) no semi-eixo [0; +∞) é apenas o ramo direito da hipérbole 1/(x^1/ξ) que foi refletido, deslocado e re-escalado para que a hipérbole passasse pelo ponto (0,0) e se aproximasse do n´ıvel 1 quando x → ∞. Para aqueles interessados em entender como a reflexão, o deslocamento e a re-escala são “codificados” na expressão deG_ξ(·), recomen- damos a leitura do Fato 1 da próxima sub-se¸cão (notamos que Exerc´ıcio 2 aborda este assunto).

8Nos comentários 3 e 4 há uma discussão detalhada a respeito desse caso especial, uma vez que aqui a expressão da distribui¸cão,G0, não contém explicitamente o parâmetroξ.

(22)

0 0.5 1 2 4 1

xi=−4 xi=−2

xi=−1 xi=−1/2 xi=−1/4

xi=0 xi=1 xi=2 xi=3

Figura 5: O formato da GPD padrão com diversos valores do parâmetro ξ (veja o Comentário 3).

(23)

0 1 2 3 4 5 0

1

xi=0

xi=1

xi=3

Figura 6: Fun¸c˜oes de densidade de GPD’s padr˜ao comξ≥0.

(24)

0 0.5 1 1.5 2 4 5 0

xi=−4 xi=−2

xi=−1

xi=−2/3 xi=−1/2 xi=−1/4

Figura 7: Fun¸c˜oes de densidade de GPDs padr˜ao comξ <0.

(25)

No caso ξ = 0, a correspondente GPD padrão é exatamente a fun¸cão de distribui¸cão exponencial de parâmetro 1. Lembramos ao leitor a nomenclatura comumente usada para distribui¸cões exponenciais: A fun¸cão que vale 0 para x < 0, e vale 1−e^−λx para x ≥ 0, denomina-se “distribui¸cão exponencial de parâmetro λ”. Quando λ = 1, esta fun¸cão chama-se simplesmente “distribui¸cão exponencial” – termo que usaremos. Apesar disso alguns autores preferem usar o nome “distribui¸cão exponencial padrão” quandoλ= 1.

O caso ξ <0 é mais “complexo” que os casos ξ >0 e ξ = 0, uma vez que a forma de G_ξ(·) é radicalmente transformada em conseqüência da passagem do valor deξde 0 a−∞. A Figura 5 ilustra o caso−1< ξ <0, onde a fun¸cão G_ξ(·) comporta-se no intervalo [0,−1/ξ] como fun¸cão-potência de x, isto é, comoxâparaa >0. Ainda neste caso,G_ξ(·) aproxima-se suavemente do n´ıvel 1, o que significa que sua derivada vale 0 no ponto onde ela toca o n´ıvel 1.

Esta propriedade da derivada está ilustrada na Figura 7. No casoξ =−1, a correspondente GPD padrão cresce linearmente entre as abcissas 0 e 1, ali a GPD padrão apresenta “quebra” no ponto onde toca o n´ıvel 1 (veja Figura 5).

Finalmente, no casoξ <−1, a GPD padrão se comporta como uma hipérbole no intervalo [0;−1/ξ] (ou seja, como xâ paraa < 0). Neste caso também há

“quebra” do gráfico da fun¸cão no ponto em que o gráfico toca o n´ıvel 1 (veja Figura 5).

Observemos ainda que no casoξ <0 a fun¸c˜ao de densidade pode apresentar cinco padr˜oes diferentes, apresentados na Figura 7.

Comentário 4. Depois do Comentário 3 esclarecer que a GPD padrão correpon- dente ao valor 0 para o parâmetroξé simplesmente a distribui¸cão exponencial, qualquer leitor faria a seguinte pergunta: “Por que à distribui¸cão exponencial foi atribuido valor 0 para o parâmetroξ? Ora, não há “0” ou “ξ” na fórmula desta fun¸cão de distribui¸cão!” O presente comentário responde esta pergunta.

Acontece que foi necessário colocar a fun¸cão de distribui¸cão exponencial no mesmo “saco” onde ficam as fun¸cões do tipo (5) e (7). A razão desta necessidade é o fato de tanto estas fun¸cões quando a da distribui¸cão exponencial servirem – do ponto de vista do método POT – para a aproxima¸cão de caudas (este fato será formalizado e discutido em detalhes na Se¸cão 6).

Pela mesma razão, era desejável indexar todas as fun¸cões deste “saco”. A indexa¸cão das fun¸cões do tipo (5) e (7) é natural: o ´ındice de qualquer uma destas fun¸cões é seu próprio valor do parâmetro ξ. Com isto o valor 0 para o parâmetroξ torna-se livre (simplesmente porque não podemos terξ= 0 na expressão 1−(1 +ξx)^−1/ξ das fórmulas (5) e (7)). Este valor livre foi então

(26)

atribu´ıdo ao novo membro do “saco”, isto é, à distribui¸cão exponencial. Note que esta atribui¸cão é puramente semântica, pois, de fato, não háξna fórmula da distribui¸cão exponencial. Em palavras simples, a “atribui¸cão semântica”

se traduz no seguinte acordo: se eu lhe pedir a GPD padrão correspondente, por exemplo, a ξ= 2, sua resposta será: “1−(1 + 2x)^−1/2”, enquanto que se eu lhe pedir a GPD padrão correspondente a ξ = 0, sua resposta será: “é a fun¸cão de distribui¸cão exponencial, ou seja, 1−e^−x”.

O leitor, que concordou com a lógica dos argumentos do parágrafo anterior, pode agora argumentar: “São, na verdade, três valores deξ que não são

“aproveitados” para a indexa¸cão das fun¸cões do tipo (5) e (7); estes são 0,∞e

−∞. Então há razão para que seja 0 e não∞ou−∞o ´ındice atribu´ıdo à distribui¸cão exponencial?”Sim, existe. Esta razão é o fato da fun¸cão exponencial ser o limite das fun¸cões 1−(1 +ξx)^−1/ξ conforme ξ→0 (veja Exerc´ıcio 6).

4.2 Distribui¸c˜oes de Pareto generalizadas

Como foi dito, o método POT constrói aproxima¸cões para a cauda de certas distribui¸cões. Até aqui a impressão é de que essas aproxima¸cões são realizadas pelas GPDs padrão, mas isso é incorreto. É da fam´ılia das distribui¸cões de Pareto generalizadas (GPDs), e não da fam´ılia de GPDs padrão, que o método POT realmente precisa. As GPDs serão constru´ıdas nesta sub-se¸cão a partir das GPDs padrão e, para que a essência desta constru¸cão fique bem clara, come¸caremos com dois fatos bem conhecidos.

Fato 1. Sejaf(x), x∈R, uma fun¸cão arbitrária qualquer,decduas constantes quaisquer, sendo quec >0. Construiremos uma nova fun¸cão g(·) via g(x) = f ^x−d_c

, x∈R.

O objetivo do presente comentário é apresentar o seguinte fato: o gráfico da fun¸cãog(·) pode ser obtido do gráfico da fun¸cãof(·) via as duas transforma¸cões (veja na Figura 8 estas transforma¸cões para o caso particular quandof(x) = e^x):

(1) esticarcvezes o gr´afico de f(·) ao longo do eixo x;

(2) deslocar pord unidades `a direita o gr´afico obtido no ´ıtem anterior.

Que (1)-(2) de fato transformamf(·) emg(·) pode ser justificado da seguinte maneira: Escolha um ponto (x, y) no gráfico de f(·) e pergunte: qual deve ser x^novo para que g(x^novo) =y? Suponha, para facilitar a conta, que f(·) é uma fun¸cão um-a-um. Então vale que: g(x^novo) =y ⇔ f ^x^novo_c^−d

= y ⇔

(27)

x xnovo 3

3

~ ~

3

f(x)

f(x/2)

f((x−3)/2)

Figura 8: Esta figura ilustra o conteúdo do Fato 1 para o caso particular em que f(x) =e^xe as constantesc edvalem 2 e 3, respectivamente. O gráfico def(x/2) é obtido do gráfico def(x) esticando este 2 (duas) vezes na dire¸cão horizontal. Por sua vez o gráfico def ^x−₂³

é obtido do gráfico de f(x/2) pelo deslocamento horizontal de 3 (três) unidades.

f ^x^novo_c^−d

= f(x) ⇔ x^novo = c·x+d. A última igualdade diz então que x^novo é obtido quando x é multiplicado por c e acrescenta-se d ao resultado da multiplica¸cão. Isto justifica que (1)-(2) transformam f(·) em g(·) (veja Figura 8).

Fato 2. Seja X uma variável aleatória arbitrária. Para duas constantes ar- bitráriosd e c > 0, defina uma nova variável aleatória Y =cX +d. Designe porF_X(·) eF_Y(·) as fun¸cões de distribui¸cão de X e deY, respectivamente.

(28)

Segue das constru¸cões e defini¸cões do parágrafo acima que F_Y(x) =IP[Y ≤x] =IP[cX +d≤x] =IP

X ≤ ^x−d_c

=

=F_X ^x−d_c

, ∀x∈R. (9)

A rela¸cão (9) juntamente com o Fato 1 sustenta que se a fun¸cão de distribui¸cão de uma variável aleatória X for transformada via os passos (1)-(2) do Fato 1, o resultado será uma nova fun¸cão de distribui¸cão. Ainda mais, se designarmos porY a variável aleatória distribuida conforme esta nova fun¸cão de distribui¸cão,Y e X se relacionam via Y =cX +d. Fim do Fato 2 Agora passaremos a decrever a fam´ılia dedistribui¸cões de Pareto generalizadas, (abreviadas porGPD’s). Neste caso a distin¸cão entre as GPD’s é feita por três parâmetros, ξ, β e s, sendo que ξ e s podem assumir qualquer valor real eβ apenas valores reais positivos. A GPD comξ >0 tem a forma:

G_ξ,β,s(x) = (

1−

1 +ξ^x−s_β −1/ξ

, parax≥s,

0, parax < s,

esta vale quando ξ >0

(10) enquanto que a GPD comξ= 0 ´e dada por:

G_0,β,s(x) = (

1−e⁻^x−s^β , parax≥s, 0, parax < s,

esta

corresponde a ξ= 0

(11) finalmente a GPD que corresponde aξ <0:

G_ξ,β,s(x) =







0, parax < s,

1−(1 +ξ^x−s_β )^−1/ξ, parax∈[s, s−^β_ξ],

1, parax > s−^β_ξ,



 esta f´ormula vale quando ξ <0



 (12) A transforma¸cão descrita nos passos (1)-(2) do Fato 1 deixa claro que qualquer GPD com parâmetros ξ, β e s é obtida da GPD padrão de mesmo valor ξ, com c = β e d = s, ou, especificamente falando, o gráfico da GPD com parâmetros ξ, β e s é o gráfico da GPD padrão com parâmetro ξ após este ser esticadoβ vezes ao longo do eixo xe deslocado na dire¸cão horizontal por s unidades. Este fato justifica os nomes atribu´ıdos aos parâmetros β e s: o parâmetro β chama-se parâmetro de escala, enquanto o parâmetro s

é o parâmetro de deslocamento ou de loca¸cão. O parâmetro ξ leva o nome

(29)

´ındice de caudaou parâmetro de forma.⁹ Este último talvez não seja o nome mais adequado, pois pode insinuar que a forma da distribui¸cãoG_ξ,β,s depende somente deξ. De fato este nome tem origem na rela¸cão entre as GPD’s e as distribui¸cões de valores extremos, rela¸cão que será discutida na Sub-se¸cão 6.5, onde o nomeparâmetro de formaserá justificado.

A rela¸cão entre a GPD com parâmetrosξ, β ese a GPD padrão de mesmo parâmetro ξ pode ser vista, com a ajuda do conteúdo do Fato 2, em termos da rela¸cão entre as variáveis aleatórias correspondentes a estas distribui¸cões:

considerando Y uma variável aleatória com distribui¸cão G_ξ,β,s(·) e X uma variável aleatória com distribui¸cãoG_ξ(·), entãoX eY são tais queY =βX+s.

Esta rela¸cão pode ser útil a quem costuma pensar na fun¸cão de distribui¸cão em termos da variável aleatória que possui tal distribui¸cão. A rela¸cão obtida diz que se tomarmos X distribu´ıda conforme uma GPD padrão com parâmetro ξ, multiplicarmos esta por β e acrescentarmos s, então a variável aleatória resultante terá distribui¸cão GPD com parâmetrosξ, β es.

4.3 Caudas finitas e infinitas e sua rela¸cão com a exposi¸cão Na maior parte da exposi¸cão a seguir, sobre o funcionamento do método POT para solu¸cão do problema de estima¸cão de cauda de uma distribui¸cão F(·), assumiremos que a cauda da distribui¸cão desconhecida, F(·), seja infinita.

Este pressuposto e suas conseqüências serão cuidadosamente analisados na presente sub-se¸cão.

O supreendente surgimento da discussão de finitude/infinitude de caudas se¸cão destinada à constru¸cão de GPD’s tem duas justificativas: em primeiro lugar as GPD’s servirão como exemplos ilustrativos para a explica¸cão dos conceitos “cauda finita” e “cauda infinita”; em segundo lugar, esta discussão justificará porque as GPD’s com cauda infinita terão maior aten¸cão que as de cauda finita em nossa apresenta¸cão.

Come¸caremos nossos exposi¸c˜ao com o esclarecimento dos conceitos “cauda finita” e “cauda infinita” de uma distribui¸c˜ao.

A palavra “cauda” possui duas interpreta¸cões. A primeira é aquela expli- cada na Se¸cão 2: a cauda de F(·) à direita de u é a parte do seu gráfico á direita da abcissau. Se aceitarmos esta interpreta¸cão, então a cauda de qualquer fun¸cão de distribui¸cão só pode ser infinita, visto que o gráfico de uma fun¸cão de distribui¸cão nunca “termina”. A outra interpreta¸cão considera que

9Shape parameter em Inglˆes.

(30)

a cauda deF(·) à direita de ué formada pelos pontos do seu gráfico á direita da abcissau que não pertencem à reta horizontal y= 1. É esta interpreta¸cão que deve ter-se em mente quando dissermos “cauda finita” ou “cauda infinita”.

Vejamos dois exemplos.

Observe a fun¸c˜aoG_ξ(·) comξ =−1/4 apresentada na Figura 5. Ela “toca”

o n´ıvel 1 no ponto x = 4 e, após isso, é sempre igual a 1. Neste caso diz-se que a fun¸cão de distribui¸cão tem cauda direita finita. Usaremos o termo mais curto cauda finita, pois em todo o trabalho analisaremos somente caudas à direita. Para facilitar expressões formais, introduziremos o s´ımbolo xF, que designa ofim da cauda da distribui¸cão F(·), ou seja, a abscissa do ponto em que F(·) toca o n´ıvel 1. Por exemplo, na Figura 5, temos que x_G_ξ = −1/ξ paraξ <0.

Considere agora a fun¸c˜ao da distribui¸c˜ao exponencial apresentada na Figura 5.

Ela nunca toca o n´ıvel 1 (simplesmente porque não existe x ≥ 0 tal que 1−e^−x= 1). Neste caso a fun¸cão de distribui¸cão possui cauda direita infinita.

Usaremos o termo simplificado cauda infinita devido as razões já explicadas acima. A fim de aproveitar as mesmas fórmulas tanto para fun¸cões de cauda finita quanto para as de cauda infinita, assumiremos quex_F é igual∞quando

F(·) possui cauda infinita. Fim do coment´ario.

Comentário 5. A cauda direita de uma fun¸cão de distribui¸cão tem rela¸cão com o fato dos valores da variável aleatória, que possui esta distribui¸cão, serem limitados ou não: seF(·) possuir cauda direita finita, então a variável aleatória X, distribu´ıda conforme F(·), será limitada por cima e o limite superior será igual ax_F, ou seja, IP [X ≤x_F] = 1; já se F(·) possuir cauda direita infinita, então a variável aleatóriaX, distribu´ıda conformeF(·), não será limitada por cima, o que significa que não existe um número finitoM tal queIP [X ≤M] = 1.

Como dissemos no come¸co desta subse¸c˜ao, assumiremos o seguinte pressuposto

Pressuposto 1: A cauda de F(·) ´e infinita.

Na presente sub-se¸cão explicaremos as razões da aceita¸cão deste pressuposto, além de revelaremos e discutirmos os aspectos relacionadas a esta aceita¸cão, importantes para quem deseja usar o método POT na prática.

Da aceita¸cão do Pressuposto 1surgem diversas dúvidas, das quais as três seguintes são, ao nosso ver, as principais – elas serão cuidadosamente respon- didas no restante da presente sub-se¸cão. As três dúvidas são:

(31)

(a) Na prática é preciso aceitar cegamente o tipo de cauda de F(·) antes de aproximar esta cauda pelo POT, ou existem procedimentos que indicam se a cauda é finita ou infinita?

(b) Quais são as vantagens obtidas quando se assume o Pressuposto 1? Há também desvantagens? Se sim, no que isto prejudica o leitor?

(c) Porque escolhemos trabalhar com a caso de cauda infinita e n˜ao com o caso cauda finita?

A resposta à pergunta (a) é a mais fácil. Se temos uma amostra de uma fun¸cão de distribui¸cão F(·) desconhecida, então podemos inferir, a partir de uma amostra sua, se a cauda de F(·) é finita ou infinita. Esta tarefa é delegada à atual Teoria de Valores Extremos, que fornece diversos procedimentos estat´ısticos que fazem esta inferência. Observamos que alguns destes procedimentos fazem parte do próprio método POT, isto é, há execu¸cões do método que fornecem a aproxima¸cão da cauda deF(·) juntamente com “sua” opinião sobre finitude/infinitude; há também outros procedimentos não relacionados ao POT. Esta observa¸cão pode ser útil para quem for buscar na literatura procedimentos de inferência para o tipo de cauda. Os livros [3], [7] e [1] são fontes ricas para quem deseja conhecer e aplicar estes procedimentos. O Exerc´ıcio 5 fornece algumas idéias que servem de base para a constru¸cão de procedimentos que inferem sobre o tipo de cauda de uma fun¸cão de distribui¸cão desconhecida, a partir de sua amostra.

Quanto à questão levantada em (b), uma de suas respostas diz respeito ao parágrafo acima. Quando o Pressuposto 1 é assumido, várias páginas relativas aos procedimentos estat´ısticos mencionados naquele parágrafo são evitadas. Um outro motivo para nossa aceita¸cão vêm da existência de pequenas diferen¸cas na execu¸cão do método POT dependendo de F(·) possuir cauda finita ou infinita. As diferen¸cas são pequenas, mas a inclusão de am- bos os casos seria desgastante e repetitiva. Por isto optamos por um só caso, preferindo nos concentrar naquele ondeF(·) possui cauda infinita, o que não traz grandes preju´ızos aos que precisarem do método POT para aproximar cauda de distribui¸cões com caudas finitas. As principais idéias do método POT são as mesmas tanto no caso deF(·) possuir cauda finita quanto no caso deF(·) possuir cauda infinita. As diferen¸cas, como já hav´ıamos avisado, estão somente nos procedimentos estat´ısticos empregados na execu¸cão do método.

A última razão a ser considerada em (b), decorre do fato do método POT não usar GPD’s com o parâmetroξ negativo para aproximar a cauda deF(·) quando esta possui cauda infinita. Isto ficará claro na formula¸cão do Resul-

(32)

tado de Pickands e na dedu¸cão da idéia do método a partir deste resultado (veja o Comentário 19 da Sub-se¸cão 6.5). Este fato nos permite concentrar a aten¸cão da futura exposi¸cão nas GPDs de parâmetroξ não-negativo, ou, em outras palavras, nas GPD’s definidas por (5) e (6), ou, ainda, nas GPD’s com caudas infinitas. Dessa forma, o volume da nossa apresenta¸cão é reduzido. As três razões apresentadas acima respondem a questão (b), mas não podemos encerrar tranqüilamente a discussão, pois a última das razões leva geralmente

`a seguinte

falsa impressão: a cauda da fun¸cão-aproximadora é sempre infinita quando a cauda de fun¸cão F(·), a ser aproximada, é infinita, e é sempre finita quando a cauda de F(·) é finita.

Vejamos o porquˆe dessa falsa impress˜ao.

A primeira falácia está na palavra “sempre”, que insinua que a afirma¸cão vale para qualquer método de solu¸cão do problema de aproxima¸cão de cauda.

Gostar´ıamos de advertir que não pode-se fazer esta generaliza¸cão. Estamos discutindo um método espec´ıfico, o método POT. Este tem suas particularidades. Outros métodos têm as suas.

Contudo o erro mais grave está na afirma¸cão que relaciona o tipo da cauda da GPD usada para estimar a cauda de uma F(·) desconhecida e o tipo da cauda da própria F(·). Ao falar desta rela¸cão é necessário distinguir duas situa¸cões. A primeira é aquela onde não se sabe nadaa priorisobre a cauda de F(·) e não se faz nenhum pressuposto a seu respeito. Neste caso é a amostra de F(·) que vai indicar – via algum procedimento estat´ıstico – que tipo de cauda F(·) possui. É claro que a amostra pode ser “at´ıpica” e/ou o procedimento pode falhar. Caso em que podem ocorrer inconsistências: a cauda infinita de F(·) pode ser aproximada por uma fun¸cão de cauda finita e vice-versa.

Entretanto, a “falsa impressão” agora discutida refere-se não a esta situa¸cão;

mas sim àquela onde sabemos o tipo de cauda deF(·) e“informamos” esta ao método POT¹⁰. Qual seria então o tipo da cauda da fun¸cão-aproximadora da cauda deF(·) escolhida pelo método, dado que ele possui a informa¸cão sobre o tipo da cauda deF(·)? A “falsa impressão” responde equivocadamente esta pergunta. A resposta correta seria:¹¹

Quem determina o tipo da cauda da fun¸cão-aproximadora fornecida pelo método POT é a teoria que justifica o método. De acordo com

10Insistiremos neste caso motivados pela aceitac˜ao doPressuposto 1

11O Comentário 19 dará o embasamento teórico a esta resposta.

(33)

esta teoria, se a cauda de F(·) for infinita então a cauda da fun¸cão- aproximador será sempre infinita. Já se a cauda de F(·) for finita, então a fun¸cão-aproximador será uma GPD com cauda finita, ou a fun¸cão exponencial, isto é , a GPD do formato (11); no segundo caso, a cauda da fun¸cão-aproximador é infinita (pois a cauda da fun¸cão de distribu¸cão exponencial é infinita).

Comentário 6. Nosso leitor pode estranhar o fato de uma fun¸cão de cauda infinita ser uma boa aproxima¸cão para a cauda finita de uma outra fun¸cão. Aqui temos então um exemplo que mostra esta possibilidade. Volte sua aten¸cão à Figura 5. Observe como são próximas as GPDsG_−1/4(·) e G₀(·) no intervalo [0,4]. Isto deve convencer-lhe de que as GPDs G_−1/100(·) e G₀(·) serão ainda mais próximas no intervalo [0,100]. No ponto x = 100 a fun¸cão G_−1/100(·) toca o n´ıvel 1, enquanto que o valor de G₀(·) neste ponto é e⁻¹⁰⁰. Isto significa que em qualquer ponto à direita de x = 100 as duas fun¸cões não se distanciam por mais dee⁻¹⁰⁰. Portanto,G₀(·) pode ser um bom aproximador paraG_−1/100(·), apesar da cauda da fun¸cão-aproximador ser infinita enquanto que a da fun¸cão aproximada é finita. Fim do comentário.

Finalmente responderemos a pergunta (c). Observe a importância desta pergunta: os argumentos acima indicam que para tornar a exposi¸cão mais con- cisa poder´ıamos concentrar nossa aten¸cão nas fun¸cões de cauda finita ou nas fun¸cões de cauda infinita. Por que optamos pelas segundas? A “preferência”

pelas caudas infinitas deve-se à combina¸cão de dois fatores: o primeiro é que a maioria dos nossos leitores potenciais usarão o método POT na estima¸cão de caudas de distribui¸cões de perdas de retornos de investimentos financeiros, ou de perdas decorrentes de sinistros de seguradora, ou de perdas causadas por falhas operacionais de um banco ou uma indústria; o segundo fato reside na cren¸ca comum de que tais distribui¸cões possuem cauda infinita. Isto então responde à pergunta (c), mas com um teor de insatisfa¸cão: porque o segundo fato foi colocado como “cren¸ca”? Discutiremos agora.

Considere a variável aleatória “retorno (digamos, diário, para t´ıtulo de exposi¸cão) com sinal negativo de um investimento”. Observe que para que

retorno di´ario com sinal negativo = −log pre¸co de hoje

pre¸co de ontem (13) seja ilimitado por cima, o “ pre¸co de hoje”deve assumir um valor arbitrari- amente pequeno em rela¸c˜ao ao “pre¸co de ontem”. Se isto ocorre, de acordo