Emprego do m´ etodo
“Peaks-over-Threshold” na estimac ¸ ˜ ao de risco; uma exposic ¸˜ ao abragente,
detalhada mas simples
A thorough yet simple exposition of the Peaks-over-threshold method and its
employment for risk estimation.
Vladimir Belitsky Francisco Martins Moreira
Instituto de Matem´atica e Estat´ıstica Universidade de S˜ao Paulo
ABSTRACT
We introduce the statistical procedure calledPeaks-over-threshold method at an intermediate level of comprehensiveness that provides the understanding of principal method’s features and warns about the principal possible fallacies and misinterpretations in the method implementation.
Conte´ udo
1 Introdu¸c˜ao . . . 1
2 O problema para o qual o m´etodo POT foi desenvolvido . . . 2
2.1 O formato gen´erico: problema de estima¸c˜ao de cauda de uma distribui¸c˜ao probabil´ıstica com base na sua amostra . 2 2.2 Um caso particular mas muito freq¨uˆente: o problema da estima¸c˜ao de risco . . . 3
2.3 Sobre as particularidades do problema que exigem elabora¸c˜ao de m´etodos espec´ıficos para sua solu¸c˜ao . . . 7
3 O que ´e m´etodo POT, o que pretendemos expor sobre ele e porque . . . 14
4 O primeiro pilar do embasamento te´orico do m´etodo POT: a fam´ılia de distribui¸c˜oes de Pareto generalizadas . . . 17
4.1 Distribui¸c˜oes padr˜ao de Pareto generalizadas . . . 17
4.2 Distribui¸c˜oes de Pareto generalizadas (GPD’s) . . . 23
4.3 Caudas finitas e infinitas e sua rela¸c˜ao com a exposi¸c˜ao . . . 26
4.4 Influˆencia dos parˆamteros de uma GPD no seu formato e suas consequˆencias na estima¸c˜ao de risco por GPD’s . . . 33
5 O segundo pilar do embasamento te´orico do m´etodo POT: a Teoria de Valores Extremos . . . 40
5.1 Um exemplo motivador: o problema de reserva renov´avel . . . . 40
5.2 O problema da distribui¸c˜ao assint´otica de extremos . . . 43
5.3 Mais exemplos . . . 49
5.4 A solu¸c˜ao do problema de distribui¸c˜ao assint´otica de extremos. . . 56
5.5 Uso da Teoria de Valores Extremos para solu¸c˜ao do prob- lema de reserva renov´avel formulado na Sub-se¸c˜ao 5.1 . . . 65
6 A id´eia do m´etodo POT . . . 68
6.1 Preliminares . . . 68
6.2 Resultado de Pickands . . . 69
6.3 Como o Resultado de Pickands implica a id´eia do m´etodo POT . . . 70
6.4 Coment´arios . . . 75
6.5 Sobre a rela¸c˜ao entre GPD’s e as Distribui¸c˜oes de Valores Extremos (EVD’s) . . . 80
7 Procedimentos estat´ısticos empregados para execu¸c˜ao da id´eia do m´etodo POT. . . 85
7.1 Uma estrat´egia de execu¸c˜ao . . . 85
7.2 O primeiro passo da estrat´egia: como encontrar o valor ´otimo do limiar . . . 87
7.3 A segunda parte da estrat´egia: como construir a GPD a qual se aderem os excessos acima do limiar ´otimo . . . 96
7.4 A ´ultima parte da estrat´egia: da GPD que aproxima os excessos `a fun¸c˜ao que aproxima a cauda . . . 99
7.5 Coment´arios . . . 100
7.6 Justificativas at´e agora n˜ao fornecidas . . . 103
8 Exemplo de aplica¸c˜ao do m´etodo POT . . . 109
8.1 Aplica¸c˜ao do m´etodo POT para amostras geradas das fun¸c˜oes cujas caudas s˜ao do tipo de Pareto . . . 109
8.2 Aplica¸c˜ao do m´etodo POT para amostra gerada da fun¸c˜ao cuja cauda ´e mais fina que a exponencial . . . 129
8.3 Aplica¸c˜ao do m´etodo POT a uma amostra de dados reais . 142 9 Coment´arios finais gerais . . . 155
10 Exerc´ıcios . . . 160
11 Apˆendice . . . 172
12 Bibliografia. . . 176
1 Introdu¸ c˜ ao
O m´etodo denominado Peaks Over Threshold (abreviado por POT em todo o texto) ´e um m´etodo estat´ıstico que surgiu na ´area de hidrologia nos anos
’80, e que hoje se constitui em uma das principais ferramentas estat´ısticas em- pregadas na estimativa da probabilidade de eventos raros e, em particular, na estimativa de risco de mercado, risco de cr´edito e risco operacional. No futuro sua importˆancia promete ser ainda maior, dado seu potencial de servir, junta- mente com o m´etodo de c´opulas, para a realiza¸c˜ao de an´alises de integra¸c˜ao de riscos.
O presente trabalho procura apresentar o m´etodo POT em um n´ıvel que seja compreens´ıvel aos leitores graduados em ciˆencias exatas. Devido a isso o trabalho ´e repleto de exemplos destinados `a ilustra¸c˜ao de fenˆomenos rela- cionados com o m´etodo. H´a tamb´em uma aten¸c˜ao especial em desvendar erros e equ´ıvocos comuns na aplica¸c˜ao e nos coment´arios a respeito do m´etodo POT, que apareceram desde o choque de populariza¸c˜ao do m´etodo ocorrido em meados dos anos 90 (Ebrechts, Kl´uppelberg, Mikosch (1997), Thomas e Reiss (1998), Coles (2001), sem falar nos in´umeros congressos sobre o tema e da avalanche de artigos de divulga¸c˜ao).
O conte´udo, o teor e a forma do nosso trabalho fazem dele uma ponte entre os textos rigorosamente matem´aticos e os usu´arios que pretendem aplicar o m´etodo POT mas que n˜ao necessitam, pelo menos de in´ıcio, de uma justifi- cariva rigorosa de suas bases matem´aticas.
A apresenta¸c˜ao ´e acompanhada por uma s´erie de programas computa- cionais (nas linguagens scilab e R) que criamos para gerar alguns exemp- los. Tais programas podem ser usados para resolver problemas pr´aticos, como tamb´em podem ser ´uteis aqueles leitores que gostam de “sentir” a pr´atica da teoria que estudam.
Poss´ıveis futuros melhoramentos deste texto estar˜ao dispon´ıveis noweb-site do primeiro autor. Entre emhttp://www.ime.usp.br/˜belitsky/, prossiga
`a “Publication List” e encontre o t´ıtulo do presente texto. Neste ´ıtem estar˜ao o texto e suas vers˜oes posteriores.
2 O problema para o qual o m´ etodo POT foi desen- volvido
Repetindo o que j´a foi dito na Introdu¸c˜ao, o presente trabalho descreve e analisa um m´etodo espec´ıfico – denominado peaks over threshold, abreviado por POT – que foi desenvolvido para a solu¸c˜ao de um problema espec´ıfico.
A presente se¸c˜ao deste trabalho destina-se `a formula¸c˜ao deste problema. Na Sub-se¸c˜ao 2.1 essa formula¸c˜ao ´e feita no formato mais gen´erico poss´ıvel, for- mato em que o problema ´e chamado de problema de estima¸c˜ao da cauda de uma ditribui¸c˜ao probabil´ıstica com base na sua amostra, ou, abreviadamente, problema de estima¸c˜ao da cauda. Acontece por´em, que a generalidade deste formato dificulta a exposi¸c˜ao da motiva¸c˜ao da constru¸c˜ao de certas partes do m´etodo POT. Por isto nossa exposi¸c˜ao ser´a freq¨uentemente focada em um caso particular do problema de estima¸c˜ao da cauda chamadoproblema de estima¸c˜ao de risco. Ele est´a formulado na Sub-se¸c˜ao 2.2, e nossa escolha por este caso particular foi incentivada, em grande parte, pela sua abundante referˆencia na
´area de economia e finan¸cas. Por fim, na ´ultima sub-se¸c˜ao da presente se¸c˜ao, destacaremos as propriedades do problema de estima¸c˜ao da cauda que exigem m´etodos espec´ıficos para sua solu¸c˜ao. Isto servir´a de ponte para a pr´oxima se¸c˜ao, onde come¸caremos a apresentar o m´etodo POT.
2.1 O formato gen´erico: o problema de estima¸c˜ao da cauda de uma ditribui¸c˜ao probabil´ıstica com base na sua amostra Abaixo em(P1)formularemos o que se chamaproblema de estima¸c˜ao da cauda de uma ditribui¸c˜ao probabil´ıstica com base na sua amostra, ou, sucintamente, problema de estima¸c˜ao da cauda. ´E este o problema para o qual foi constru´ıdo o m´etodo POT. Concordamos que a formula¸c˜ao em(P1)pode parecer abstrata demais, contudo explicaremos melhor estes aspectos abstratos na pr´oxima sub- se¸c˜ao, onde eles ser˜ao concretizados.
(P1) A partir de uma amostra aleat´oria x1, . . . , xn de uma desconhecida fun¸c˜ao de distribui¸c˜aoF(·), reconstruir aproximadamente a cauda desta distribui¸c˜ao `a direita da abcissau, sendo que a escolha do valor deuest´a delegada a quem resolve o problema. As exigˆencias gen´ericas na escolha deste valor s˜ao: que ele permita boa precis˜ao na aproxima¸c˜ao e que seja adequado para a aplica¸c˜ao desta aproxima¸c˜ao.
u F¯¹(p) F(u)
p
Figura 1: Esta figura ilustra o termo “cauda de fun¸c˜ao de distribui¸c˜aoF(·) `a direita deu”, que ´e a parte do gr´afico deF(·) `a direita do ponto (u, F(u)). A figura tamb´em ajuda a entender porque a quest˜ao colocada no ´ıtem (D) da situa¸c˜ao (A)-(D) descrita na Sub-se¸c˜ao 2.2, ´e um caso paricular do probelam de estima¸c˜ao de cauda. Por ´ultimo, a figura ajuda interpretar o valor F−1(p) como uma medida de risco no ˆambito da situa¸c˜ao (A)-(D): quando F−1(p) ´e positivo, ent˜ao a regi˜ao hachurada `a direita de F−1(p) corresponde aos valores negativos do retorno maiores por m´odulo queF−1(p).
Lembramos que o termocauda de F(·) `a direita deu corresponde a parte do gr´afico da fun¸c˜aoF(·) onde as abcissas s˜ao maiores que u (veja Figura 1).
Notamos que o intuito da exigˆencia “ser adequado para aplica¸c˜ao” ser´a esclarecido no exemplo da Sub-se¸c˜ao 2.2.
2.2 Um caso particular mas muito freq¨uente: o problema da estimat¸c˜ao de risco
Em (A)-(D) abaixo formularemos a situa¸c˜ao a qual nos referiremos no decorrer do nosso trabalho pelo nomeproblema da estima¸c˜ao de risco. Logo em seguida justificaremos o nome dado a esta situa¸c˜ao, explicaremos porque ela ´e um
caso particular do problema de estima¸c˜ao da cauda, e tamb´em as raz˜oes de focarmos freq¨uentemente neste caso particular ao apresentar o funcionamento do m´etodo POT.
(A) H´a um investimento (como, por exemplo, uma a¸c˜ao de uma empresa) cujos retornos di´arios podem ser vistos como vari´aveis aleat´orias inde- pendentes e identicamente distribuidas. Para facilitar a exposi¸c˜ao, des- ignaremos simbolicamente por F(·) a fun¸c˜ao da distribui¸c˜ao do retorno di´ario com sinal menos em qualquer dia; em outras palavras,F(·) designa a fun¸c˜ao de distribui¸c˜ao da vari´avel aleat´oria
retorno di´ario com sinal menos =
=−log o valor do investimento num dia o valor do investimento no dia anterior, o que significa que
F(x) =IP(retorno di´ario com sinal menos≤x), ∀x∈R. Dois coment´arios s˜ao imediatamente necess´arios para que o presente ´ıtem seja corretamente compreendido.
Coment´ario 1. Em primeiro lugar esclarecemos que o pressuposto de independˆencia dos retornos di´arios n˜ao se verifica na pr´atica, mas ´e comumente admitido em estudos – e, em particular, no nosso, – pois sempre permite facilitar as contas e muito freq¨uentemente fornece resultados pr´oximos aos que seriam derivados caso a verdadeira dependˆencia fosse conhecida e levada em conta.
Coment´ario 2. O segundo esclarecimento ´e sobre a raz˜ao de consid- erarmos retornos com sinal negativo. Acontece que no problema de estima¸c˜ao do risco de um investimento nos interessaremos pela es- tima¸c˜ao de grandes perdas do investimento, isto ´e, pela distribui¸c˜ao dos valores negativos, grandes em m´odulo, do retorno deste inves- timento. Portanto, se F(·) ´e a fun¸c˜ao de distribui¸c˜ao do retorno, ent˜ao estudaremos a forma da sua cauda esquerda. Contudo o m´etodo POT, cuja abordagem para solu¸c˜ao do problema queremos exibir, foi formalizado para estudar caudas direitas de distribui¸c˜oes.
Para conciliar o problema em quest˜ao com o formalismo matem´atico do m´etodo que fornece sua solu¸c˜ao, consideraremos a fun¸c˜ao de distribui¸c˜ao do retorno di´ario com sinal negativo: desta maneira a
cauda direita deF(·) coresponde aos retornos negativos grandes em m´odulo.
(B) Um investidor conhece os fatos descritos em (A) (isto ´e, conhece que os retornos di´arios s˜ao independentes e identicamente distribu´ıdos) mas desconhece a forma da fun¸c˜ao de distribui¸c˜ao F(·).
(C) O investidor possui os valores de retornos di´arios observados dias ante- riores. Para facilitar nossa exposi¸c˜ao designaremos simbolicamente por n o n´umero de dias monitorados e por x1, . . . , xn as observa¸c˜oes dos retornos com sinal negativo observados nestes dias.
(D) O investidor deseja estimar os valores deF−1(p) para valores depperten- centes a um intervalo pr´oximo a 1. Digamos, para um exemplo concreto, que este intervalo seja [0,9; 0,995].
A primeira coisa que gostar´ıamos que o leitor fixasse em sua mente sobre a situa¸c˜ao (A)-(D), ´e que o problema formulado nela ´e um caso particular do problema de estima¸c˜ao da cauda. Este fato segue diretamente da observa¸c˜ao de que o ponto (F−1(p), p),p∈[0,9; 0,995], cujas posi¸c˜oes ´e preciso encontrar para responder a pergunta colocada no ´ıtem (D), faz parte da cauda deF(·) `a direita de 0,9 (veja Figura 1). Apesar da situa¸c˜ao (A)-(D) apresentar um caso particular do problema de estima¸c˜ao da cauda, certos argumentos relacionados ao m´etodo POT ser˜ao exibidos como se o m´etodo fosse aplicado para resolver o problema desta situa¸c˜ao. As desvantagens deste desvio de aten¸c˜ao do caso gen´erico – que ´e o problema da estima¸c˜ao da cauda – para caso particular – que
´e o problema formulado na situa¸c˜ao (A)-(D) – s˜ao m´ınimas, e compensadas, de sobra, por vantagens. As trˆes principais vantagens est˜ao descritas abaixo.
A primeira vantagem ´e que na situa¸c˜ao (A)-(D) o problema est´a formulado em termos palp´aveis como “investimento”, “retorno”, etc., o que facilita a compreens˜aop.
A segunda vantagem vem do fato de que a estima¸c˜ao da cauda tˆem ob- jetivo bem especificado no ˆambito da situa¸c˜ao (A)-(D). Recordamos que este objetivo ´e o de encontrar as abcissas x tais que F(x) = p para valores es- pec´ıficos de p.1 Isto permite analisar a eficiˆencia do m´etodo POT e exibir
1O leitor pode perguntar:“ que outro objetivo poderia ser”? Tais existem. Por exemplo, o objetivo poderia ser a estima¸c˜ao da esperan¸ca matem´atica de excessos acima do limiaru.
Esta esperan¸ca ´e conhecida como “conditional value at risk”. Ela ´e usada para estimar riscos, por´em, n˜ao ser´a discutida no nosso trabalho. Se o objetivo fosse este, ent˜ao a importˆancia
suas vantagens perante outros m´etodos que venham a ser usados para resolver o problema. Esta vantagem foi aproveitada na Sub-se¸c˜ao 2.3, que mostra os aspectos nos quais o m´etodo POT funcionaria melhor que dois outros m´etodos de abordagem do problema de estima¸c˜ao da cauda. Podemos agora mesmo aproveitar esta vantagem para esclarecer o intuito da exigˆencia: “adequa¸c˜ao da escolha do limiaru`a aplica¸c˜ao”, formulado em(P1). No ˆambito da situa¸c˜ao (A)-(D) esta “adequa¸c˜ao” significa que deve ser tomado cuidado para que u seja menor queF−1(0,9), uma vez que a quest˜ao (D) inquire sobre valores de F−1(p) parap maiores que 0,9.
Por ´ultimo, a terceira vantagem est´a no fato de que a situa¸c˜ao (A)-(D) surge freq¨uentemente na pr´atica e possui aplica¸c˜oes importantes. Isto ocorre porque quandoF(·) ´e a fun¸c˜ao de distribui¸c˜ao do retorno com sinal “−” de um investimento, como discutido em (A)-(D), os valores de F−1(p) para p pr´oximos ao 1 servem para medir o risco do investimento. Na verdade estes valores s˜ao perfeitos para comparar dois investmentos do ponto de vista de o quanto um ´e mais arriscado que outro. Ou, em outras palavras, h´a um argumento rigoroso que justifica que F−1(·) ´e uma boa medida relativa do risco. Nos ´ultimos anos, ela est´a sendo usada tamb´em como uma medida absoluta de risco. Por exemplo, os recentes acordos da Basil´eia obrigam os bancos a usar F−1(p), para p entre 0,9 e 0,995, no c´alculo de suas reservas financeiras, o que evitaria a falˆencia no decorrer de eventos de perdas raras mas muito severas. Neste caso ali´as, F(·) corresponderia `a distribui¸c˜ao de perdas, e n˜ao `a de retornos, como no caso da situa¸c˜ao (A)-(D), mas isto n˜ao altera essencialmente a aplica¸c˜ao do m´etodo POT para a situa¸c˜ao do c´alculo de reservas financeiras comparada com a aplica¸c˜ao deste m´etodo para a situa¸c˜ao (A)-(D).
Falta ent˜ao s´o explicarmos como e porquˆe na situa¸c˜ao (A)-(D) o risco do investimento pode ser expresso porF−1(p). Para tal, observe primeiramente que devido ao postulado (A) da situa¸c˜ao (A)-(D),F−1(p) ´e o limiar acima do qual o valor do retorno di´ario com sinal “−” n˜ao ultrapassar´a com confian¸ca p(a palavra “confian¸ca” ´e sinˆonimo de “probabilidade” e ´e muito popular na lingua coloquial, motivo de ser usada aqui). A Figura 1 ilustra esta afirma¸c˜ao com uma clareza que dispensa maiores explica¸c˜oes. Observe tamb´em, que devido a defini¸c˜ao de retorno, temos que um investimento de, digamos R$100,
deveria ser dada `a precis˜ao da estimativa da esperan¸ca como um todo, e n˜ao `a precis˜ao da estimativa de cada ponto espec´ıfico da cauda deF(·).
ser´a igual a R$100e−x no dia seguinte2 caso o valor do retorno com sinal “−” neste dia seja x. Quando x est´a pr´oximo de 0 – o que occore quase sempre para investimentos financeiros de horizonte de um dia – podemos aproximar e−x por 1−x. Com isto a express˜ao do valor do investimento no dia seguinte torna-se R$100(1−x). Finalmente, observe que no caso deF−1(p) ser positivo, os valores acima deF−1(p) correspondem aos valores negativos do retorno, ou seja, `as perdas. Juntando ent˜ao as trˆes observa¸c˜oes do presente par´agrafo com o pressuposto de que F−1(p) ´e positivo para p ≥ 0.9, chegamos `a seguinte interpreta¸c˜ao para F−1(p) no ˆambito da situa¸c˜ao (A)-(D): “com confian¸ca p o investimento n˜ao perder´a num dia mais que 100·F−1(p)% do seu valor”. ´E
´obvio que a mesma frase pode ser formulada da seguinte forma: “o risco do investimento perder mais que 100·F−1(p)% do seu valordurante um dia ´e de 1−p”. E isto, por fim, revela o significado de F−1(p) em termos de risco de investimento, como descrito em (A)-(D).
Fecharemos esta sub-se¸c˜ao com o lembrete de que a situa¸c˜ao (A)-(D) ser´a oproblema da estima¸c˜ao do riscono decorrer do nosso trabalho.
2.3 Sobre as particularidades do problema que exigem elab- ora¸c˜ao de m´etodos espec´ıficos para sua solu¸c˜ao
Como tinhamos afirmando diversas vezes at´e agora, o m´etodo POT ´e uma abordagem espec´ıfica elaborada para resolver o problema de estima¸c˜ao da cauda. Na presente sub-se¸c˜ao indicaremos ao leitor quais s˜ao as particulari- dades do problema que demandam por uma abordagem abordagem espec´ıfica.
Para isto, faremos o seguinte: tomaremos um caso particular da fun¸c˜ao F(·), geraremos dela uma amostrax1, . . . , xn, e estimaremos a cauda deF(·) a par- tir desta amostra. A estimativa ser´a realizada por dois m´etodos. Estes s˜ao simples e funcionam bem em muitas situa¸c˜oes reais. Provavelmente por isso seriam os primeiros candidados naturais empregados na abordagem do prob- lema de estima¸c˜ao da cauda. Mostraremos as deficiˆencias das solu¸c˜oes obtidas por estes m´etodos e revelaremos as raz˜oes. Isto indicar´a aos leitores as partic- ularidades intr´ınsicas do problema de estima¸c˜ao da cauda que dificultam sua solu¸c˜ao.
Designaremos por K(·) a fun¸c˜ao de distribui¸c˜ao constru´ıda da seguinte maneira:
2Assumimos aqui que taxa de juros livre de risco ´e 0.
1.28 0.91
(a)
0 1
(b)
0 1
(c)
1.28 0.91
(d)
Figura 2: A fun¸c˜ao de distribui¸c˜aoK(·) e a ilustra¸c˜ao de sua constru¸c˜ao. O proced- imento que gera esta fun¸c˜ao est´a apresentado no come¸co da Sub-se¸c˜ao 2.3.
(1) Tomamos a fun¸c˜ao da distribui¸c˜ao Normal Padr˜ao e descartamos a parte do seu gr´afico que fica `a direita do ponto (1.28,0.9) (veja Figura 2(a)).
(2) Tomamos a fun¸c˜ao da forma (veja Figura 2(b))
G(x) = 1−(1 +x)−1, definida para x≥0, (1) multiplicamos esta por 0.1 (Figura 2(c)), e substitu´ımos a parte descar- tada da distribui¸c˜ao normal (Figura 2(d)).
Tomemos agora esta fun¸c˜ao de distribui¸c˜aoK(·) para a constru¸c˜ao de uma amostra aleat´oria de tamanho n = 200. Denotaremos os valores da amostra
simbolicamente por x1, . . . , xn; os verdadeiros valores s˜ao apresentados pela fun¸c˜ao de distribui¸c˜ao amostral, constru´ıda com base neles, que est´a na Figu- ra 3(a).
Vamos agora resolver o problema da estima¸c˜ao do risco (isto ´e, o problema descrito em (A)-(D) da sub-se¸c˜ao anterior) para a amostra gerada. Claro que durante a solu¸c˜ao n˜ao levaremos em conta a verdadeira K(·). Mas depois de ter obtido a solu¸c˜ao voltaremos `a express˜ao deK(·) e analisaremos a precis˜ao da solu¸c˜ao obtida.
Recorde que o problema da estima¸c˜ao do risco ´e o de estimar K−1(p) para valores depno intervalo [0,9; 0,995]. Nossa primeira solu¸c˜ao tenta ent˜ao estimar os valores desconhecidos deK−1(p) por ˆK−1(p), onde ˆK(·) ´e a fun¸c˜ao de distribui¸c˜ao amostral constru´ıda com base na amostrax1, . . . , x200(a fun¸c˜ao K(ˆ ·) est´a nos dois desenhos em cima da Figura 3). Vejamos a qualidade da nossa resposta para, por exemplo, p = 0.95. Para tal, ´e precisa lembrar o fato3 de que, j´a que o tamanho de nossa amostra ´e 200, ent˜ao ˆK(·) faz um salto de altura 2001 em cada ponto da amostra. Portanto, ˆK(·) alcan¸ca a altura 0.95 no 190-´esimo ponto da amostra, contando do menor para o maior.
Tamb´em, ˆK(·) possui “patamar” de altura 0,95 entre este ponto e o pr´oximo.
No caso da nossa amostra, o 190-´esimo valor ´e 3.87 enquanto que o 191-o valor ´e 7.8. Isto significa que ˆK−1(0.95) pode ser entendido como qualquer valor entre 3.87 e 7.8, ou, em outras palavras, se formos nos basear na ˆK−1(·) para estimar K−1(·), ent˜ao s´o poderemos alegar que este valor pertence ao intervalo [3.87,7.8]. Esta precis˜ao ´e ruim para aplica¸c˜oes pr´aticas (sobre as quais n˜ao versaremos aqui). Note tamb´em que o comprimento do intervalo de estima¸c˜ao de ˆK−1(p) cresce com o aumento de p, pois quanto mais pr´oximos os pontos da amostra estiverem do valor m´aximo da amostra, mas afastados entre si estes valores ser˜ao. Em outras palavras, a precis˜ao de estimativa de K−1(p) por ˆK−1(p) piora conformep se aproxima ao 1.
A discuss˜ao apresentada no par´agrafo acima exemplifica as limita¸c˜oes da fun¸c˜ao de distribui¸c˜ao amostral na estimativa da cauda de uma desconhecida fun¸c˜ao de distribui¸c˜ao a partir de sua amostra. A inadequa¸c˜ao vem, como mostrado, da perda de precis˜ao. Esta por sua vez, ´e conseq¨uˆencia da seguinte propriedade, t´ıpica para o problema de estima¸c˜ao da cauda:
3Todos os fatos, usados nos argumentos deste par´agrafo, decorrem das propriedades de fun¸c˜oes de distribui¸c˜ao amostral.
0 0
0 a b 10
0.95
?
3.3 0.95
Figura 3: Os dois desenhos acima exibem ˆK(·), a fun¸c˜ao de distribui¸c˜ao amostral constru´ıda com base nos 200 pontos retirados da fun¸c˜ao de distribui¸c˜ao K(·). A fun¸c˜ao ˆK(·) ´e exibida at´e o 192-o ponto da amostra. Os dois desenhos abaixo exp˜oem o 0.95-quantil deK(·) (o desenho `a direita), e a estima¸c˜ao deste quantil com uso de K(ˆ ·). O desenho `a esquerda mostra que o 0.95-quantil pode ser qualquer abcissa do patamar de ˆK(·) na altura 0.95. Este patamar encontra-se entre o 190-´esimo e o 191-o ponto da amostra, cujos valores, no caso amostra gerada, s˜aoa= 3.87 eb= 7.8.
Propriedade 1: Se F(·) for uma fun¸c˜ao de distribui¸c˜ao, cuja cauda direita nunca toca o n´ıvel 1, e se x1, . . . , xn for uma amostra retirada desta fun¸c˜ao onde x(1), . . . , x(n) designa essa mesma amostra ordenada – do menor para maior – , ent˜ao tipicamente a distˆancia entre x(k) e x(k−1) aumenta conforme k aproxima-se an.
A segunda solu¸c˜ao do problema formulado acima (isto ´e, do problema da estima¸c˜ao do risco com a amostra x1, . . . , x200 gerada da fun¸c˜ao K(·)), que pretendemos apresentar e analisar, ´e conseq¨uˆencia da seguinte abordagem:
entre todas as fun¸c˜oes de distribui¸c˜ao normal, encontre aquela que melhor adere `a amostrax1, . . . , x200, e use sua cauda como aproxima¸c˜ao da cauda de K(·). Os crit´erios de aderˆencia s˜ao v´arios. Usaremos um dos mais simples.
Segundo este, entre as fun¸c˜oes de distribui¸c˜ao normal a que melhor se adere a uma dada amostra ´e aquela cuja m´edia e desvio padr˜ao coincidem com a m´edia e o desvio padr˜ao da amostra. Os valores destas para a amostra do problema aboradado s˜aoµ= 0.7 e σ = 5.69. Designaremos por Φ0.7,5.69(·) a correspondente fun¸c˜ao da distribui¸c˜ao normal. Ela est´a desenhada na Figura 4.
Conforme nossa programa¸c˜ao, devemos tomar Φ−10.7,5.69(p) como a estimativa deK−1(p) para os valores depdo problema da estima¸c˜ao do risco. A Figura 4 mostra uma grande discrepˆancia entre os valores verdadeiros e suas estimativas quando p est´a no intervalo [0,9; 0,995]. ´E f´acil entender o quˆe nos enganou.
Acontece que a maioria dos pontos da amostra veio da parte ”normal” de K(·) e nos fez acreditar que toda a fun¸c˜ao K(·) fosse muito parecida com a distribui¸c˜ao normal.4 Por´em, os poucos pontos da amostra que originaram da cauda direita de K(·) s˜ao t´ıpicos para cauda de uma distribui¸c˜ao que ´e diferente da cauda da distribui¸c˜ao normal. Estes pontos contribuiram para a variˆancia amostral ter um valor relativamente grande comparado com a contribui¸c˜ao que haveria caso os pontos viessem da cauda normal. Tudo isso resultou na constru¸c˜ao de uma fun¸c˜ao-aproximador que n˜ao se ajustou bem ao miolo da distribui¸c˜aoK(·) (a parte de K(·) `a esquerda do ponto de solda 0.9), nem a sua cauda (a parte de K(·) `a direita de 0.9). Apresentaremos a raz˜ao deste “fracasso” de forma gen´erica, para que possamos nos referir a esta no futuro:
4O teste estat´ıstico, que poderia ser utilizado aqui para a identifica¸c˜ao da “normalidade”
deK(·) a partir da sua amostra, n˜ao ser´a discutido.
0 10 1
0 10
1
Figura 4: O desenho `a esquerda apresenta a fun¸c˜ao de distribui¸c˜ao amostral ˆk(·) constru´ıda com base em amsotra de 200 valores retirada da fun¸c˜ao de distribui¸c˜ao K(·). Recorde que K(·) coincide com uma distribui¸c˜ao normal at´e o ponto 1.28.
Esta fun¸c˜ao de distribui¸c˜ao normal esta apresentada junto com ˆK(·). No desenho
`
a direita, desenhamos ˆK(·) e a fun¸c˜ao da distribui¸c˜ao normal cuja m´edia e devio padr˜ao coincidem com a m´edia e o desvio padr˜ao de ˆK(·). O desenho mostra que esta distribui¸c˜ao normal e a fun¸c˜ao ˆK(·) s˜ao bastante distintas. Em particular, a discrepˆancia ´e grande tamb´em na cauda direita, o que ilustra o fato que a constru¸c˜ao de aproximador de cauda n˜ao pode contar com todos os pontos de amostra.
Propriedade 2: A cauda de uma fun¸c˜ao de distribui¸c˜ao F(·) `a direita de uma absissaupode ser parecida com parte de uma fun¸c˜ao, que nada tem a ver com as outras partes de F(·). Por´em, o valor de u pode ser t˜ao grande que haver´a pouqu´ıssimos pontos da amostra de F(·) que “vieram” de sua cauda `a direita de u. Conclui-se ent˜ao que outros pontos da amostra n˜ao poderiam ter uma forte influˆencia na inferˆencia sobre a forma desta cauda.
3 O que ´ e m´ etodo POT, o que pretendemos expor sobre ele e porque
Foi ressaltado em outras passagens que o m´etodo chamado POT – recorde:
“POT” ´e a abrevia¸c˜ao de ”Peaks Over Threshold--, o objeto de nossa ex- posi¸c˜ao, ´e uma abordagem espec´ıfica ao problema da estima¸c˜ao de cauda. Este problema foi formulado em(P1)na se¸c˜ao anterior, que tamb´em encarregou-se de explicar as dificudades intr´ınsecas ao problema que exigem a aplica¸c˜ao de m´etodos espec´ıficos para sua solu¸c˜ao. O m´etodo POT ´e um deles.
As pr´oximas se¸c˜oes apresentam e analisam o m´etodo. Infelizmente n˜ao foi poss´ıvel encontrarmos uma maneira sucinta e eficaz de constru¸c˜ao e jus- tifica¸c˜ao do m´etodo POT. (Talvez a inexistˆencia de tal caminho seja a raz˜ao principal da imensidade de equ´ıvocos nas suas aplicaco¸c˜oes). Em particular no nosso trabalho h´a constru¸c˜oes matem´aticas complicadas, que fomos obrigados a apresentar para falarmos do m´etodo em si. Para que o leitor n˜ao se perca nos argumentos descritos nas pr´oximas se¸c˜oes, decidimos antecip´a-los por uma apresenta¸c˜ao sucinta do m´etodo POT e da estrutura dos nossos futuros argu- mentos que justificam-o detalhadamente. Esta apresenta¸c˜ao ´e o conte´udo da presente se¸c˜ao.
Com o termo “m´etodo POT” estaremos nos referindo ao procedimento que executa as duas tarefas descritas abaixo, onde a ´unica informa¸c˜ao dispon´ıvel na execu¸c˜ao das tarefas ´e a amostrax1, . . . , xn, que proveio de uma fun¸c˜ao de distribui¸c˜ao F(·) desconhecida.
(a) Escolher um valoruopt, denominado limiar ´otimo, `a direita do qual ser´a es- timada a cauda da desconhecida fun¸c˜aoF(·). A escolha deuopt´e guiada por algumas propriedades deF(·) “extra´ıdas” com base em sua amostra, e tamb´em por considera¸c˜oes a respeito da eficiˆencia dos m´etodos es- tat´ısticos empregados no passo (b).
(b) Construir uma aproxima¸c˜ao para a cauda deF(·) `a direita deuopt, usando uma das seguintes fun¸c˜oes:
para todos α >0, 1− 1
(1 +x)α, definida no semi-eixo x≥0, (2) 1−e−x, definida no semi-eixo x≥0, (3) para todos γ >0, 1−(1−x)γ, definida no intervalo x∈[0,1].(4) Na constru¸c˜ao do aproximador ´e permitido esticar/esprimir a fun¸c˜ao
escolhida nas dire¸c˜oes vertical e horizontal, e desloc´a-la por qualquer vetor no plano euclidiano R2.
Note que o procedimento (a)-(b) foi modelado para lidar com as dificul- dades intr´ınsicas ao problema da estima¸c˜ao de cauda. De fato, no passo (a), o m´etodo preocupa-se com a identifica¸c˜ao do come¸co da cauda, e no passo (b), ele leva o problema de estima¸c˜ao ao campo de estat´ıstica param´etrica, uma vez que para execut´a-lo ´e preciso estimar os valores num´ericos dos parˆametros:
α ou γ, que indica qual das fun¸c˜oes da fam´ılia (2-3-4) ser´a usada (concor- damos que α= 0 ou γ= 0 aponta para a fun¸c˜ao (3));
as constantes de reescala ao longo dos eixos vertical e horizontal;
as coordenadas do vetor de deslocamento.
Aquele leitor que n˜ao se preocupar com a justificativa do porquˆe o pro- cedimento resulta em uma fun¸c˜ao-estimador de cauda, pode acompanhar a Se¸c˜ao 7, que apresenta uma das poss´ıveis estrat´egias de execu¸c˜ao de (a)-(b), e a Se¸c˜ao 8, que apresenta exemplos da aplica¸c˜ao desta estrat´egia.
Por´em, nosso texto se preocupa tamb´em com aqueles leitores que gostariam de entender
(i) porque o procedimento (a)-(b) ´e capaz de construir bom aproximador para cauda de uma fun¸c˜ao F(·) a partir de sua amostra;
(ii) se o procedimento pode ser aplicado a qualquerF(·).
Estas quest˜oes tˆem sua raz˜ao de existir – da´ı nossa preocupa¸c˜ao –, pois os aproximadores tˆem como base um conjunto de fun¸c˜oes muito simples: s˜ao ramos horizontais de hip´erboles (as fun¸c˜oes (2)), a fun¸c˜ao de distribui¸c˜ao ex- ponencial (a fun¸c˜ao (3)), e os ramos de par´abolas (as fun¸c˜oes (4)).
A justificativa do porquˆe as fun¸c˜oes (2-3-4) s˜ao capazes de gerar aproxi- madores de caudas ´e o que denominaremos por id´eia do m´etodo POT, e que ser´a apresentada na Se¸c˜ao 6. A id´eia decorre de um resultado provado por Pickands ([6]), que revela a rela¸c˜ao entre duas fam´ılias de fun¸c˜oes de dis- tribui¸c˜ao: a chamadaDistribui¸c˜oes de Valores Extremos e a chamada deDis- tribui¸c˜oes de Pareto generalizadas. O Teorema de Pickands esclarece que aque- las fun¸c˜oes de distribui¸c˜ao, cujas caudas podem ser satisfatoriamente aproxi- madas pelas distribui¸c˜oes de Pareto generalizadas, s˜ao precisamente as fun¸c˜oes
que se encontram nos dom´ınios de atra¸c˜ao das Distribui¸c˜oes de Valores Ex- tremos. Este teorema soluciona ent˜ao as duas d´uvidas principais que surgiram acima:
(i) o teorema justifica o procedimento (a)-(b), pois as fun¸c˜oes (2-3-4), que figuram nele, s˜ao as fun¸c˜oes-geradoras das distribui¸c˜oes de Pareto gen- eralizadas;5
(2) o teorema carateriza as fun¸c˜oes cujas caudas podem ser aproximadas pelo m´etodo POT.
Dada a importˆancia do Teorems de Pickands, optamos por apresent´a-lo, por´em, sem a demostra¸c˜ao. Para tal, precis´avamos introduzir as distribui¸c˜oes de Pareto generalizadas a apresentar o conceito de dom´ınio de atra¸c˜ao de uma distribui¸c˜ao de valores extremos. A primeira destas tarefas ser´a realizada na Se¸c˜ao 4, e a segunda na Se¸c˜ao 5. Notamos que a Se¸c˜ao 5 ´e uma sus- cinta exposi¸c˜ao da Teoria de Valores extremos, pois a explica¸c˜ao do conceito de dom´ınio de atra¸c˜ao de uma distribui¸c˜ao de valores extremos requer a in- trodu¸c˜ao de muitos outros conceitos e resultados b´asicos desta teoria. Depois das Se¸c˜oes “introdut´orias” 4 e 5 vir´a a Se¸c˜ao 6 que explicar´a a id´eia do m´etodo POT. Depois desta, voltaremos a nossa aten¸c˜ao para a execu¸c˜ao da id´eia do m´etodo, isto ´e, do procedimento (a)-(b). Esta id´eia pode ser feita de diver- sas maneiras. Uma delas, e a mais usada na atualidade, ser´a detalhadamente apresentada e discutida na Se¸c˜ao 7. O funcionamento desta abordagem em casos reais est´a exibida na Se¸c˜ao 8. A discuss˜ao sobre o m´etodo POT ser´a conclu´ıda na Se¸c˜ao 9, que ´e formada de avisos sobre “os equ´ıvocos que vocˆe poderia cometer ao explicar e/ou usar o m´etodo POT”, que n˜ao foram men- cionados e desvendados nas se¸c˜oes ateriores a esta. Depois desta se¸c˜ao, h´a se¸c˜ao de exerc´ıcios – ´util no caso em que o texto for usado como material did´atico –, depois temos ent˜ao o Apˆendice, que cont´em os programas de com- putacionais usados no tratamento de dados reais (apresentados na Se¸c˜ao 8).
Finalmente apresenta-se a se¸c˜ao com as referˆencias – onde s´o nos preocupamos com as principais, uma vez que as demais podem ser encontradas nas se¸c˜oes bibliogr´aficas das referˆencias mencionadas.
5Isso significa que cada distribui¸c˜ao de Pareto generalizada ´e igual af(x−ba ) para algum a >0,b∈Ref do conjunto (2-3-4); esta igualdade vale somente naqueles pontos onde os valores da distribui¸c˜ao s˜ao diferentes de 0 e 1.
4 O primeiro pilar do embasamento te´ orico do m´ etodo POT: a fam´ılia de distribui¸ c˜ oes de Pareto gener- alizadas
Conforme afirmamos acima, a id´eia do m´etodo POT surge da rela¸c˜ao entre a fam´ılia de fun¸c˜oes, chamadas distribui¸c˜oes de Pareto generalizadas, e as fun¸c˜oes que se encontram no dom´ınio de atra¸c˜ao das distribui¸c˜oes de valores extremos. A presente se¸c˜ao destina-se `a defini¸c˜ao das distribui¸c˜oes de Pareto generalizadas.
Chama-sedistribui¸c˜ao de Pareto generalizada(GPD6 devido a seu equiva- lente em Inglˆes “Generalized Pareto Distribution”) a fun¸c˜ao que tem uma das formas (10), (11), (12) apresentadas em seguida. As fun¸c˜oes das formas (10) e (11) foram estudadas por Pareto – da´ı o termo “distribui¸c˜oes de Pareto” no nome dado a elas. J´a a forma (12) pode ser vista como uma generaliza¸c˜ao das formas (10) e (11) – da´ı o acr´escimo do termo “generalizadas”.
Antecipando a defini¸c˜ao de uma GPD, notamos que a express˜ao desta fun¸c˜ao possui trˆes parˆametros, que ser˜ao denotados por ξ, β e s. No nosso ponto de vista a influˆencia desses parˆametros no formato da GPD ´e mais simples de ser entendida quando a constru¸c˜ao das GPDs ´e realizada em duas etapas: uma na qual contr´oi-se GPDs com β = 1 e s = 0 – tais GPDs s˜ao chamadasGPDs padr˜ao; outra onde mostra-se como as GPDs padr˜ao podem ser transformadas para se obter todas as outras poss´ıveis GPDs. Este caminho foi adotado na nossa apresenta¸c˜ao. A primeira etapa ser´a realizada na Sub- se¸c˜ao 4.1 e a segunda etapa na Sub-se¸c˜ao 4.2.
4.1 Distribui¸c˜oes Padr˜ao de Pareto generalizadas
As fun¸c˜oes chamadas distribui¸c˜oes padr˜ao de Pareto generalizadas7 (abrevi- adas porGPDs padr˜aono texto) distinguem-se uma da outra pelos diferentes valores de um ´unico parˆametro, que ser´a designado porξ, e que pode assumir qualquer valor real. A GPD padr˜ao com valor ξ > 0 tem a seguinte forma (veja Figura 5):
Gξ(x) =
0, parax <0,
1−(1 +ξx)−1/ξ, parax≥0.
esta f´ormula vale quandoξ >0
(5)
6Observe que abreviaremos “distribui¸c˜ao de Pareto generalizada” por GPD, enquanto que “distribui¸c˜oes de Pareto generalizadas” ser˜ao abreviadas por GPD’s.
7Standard generalized Pareto distributionsem Inglˆes.
A GPD padr˜ao com valor ξ= 0 tem a seguinte forma8 (veja Figura 5):
G0(x) =
0, parax <0, 1−e−x, parax≥0.
esta fun¸c˜ao
corresponde a ξ = 0
(6) A GPD padr˜ao com valor ξ <0 tem a seguinte forma (veja Figura 5):
Gξ(x) =
0, parax <0,
1−(1 +ξx)−1/ξ, parax∈[0,−1ξ], 1, parax >−1ξ.
esta f´ormula vale quando ξ <0
(7)
Quanto `as fun¸c˜oes de densidade das GPD’s padr˜ao, destacamos que elas ocupar˜ao papel secund´ario em nossas futuras exposi¸c˜oes. Apesar disso, de- cidimos destinar uma pequena parte do trabalho `as fun¸c˜oes de densidade. Na f´ormula (8) temos suas express˜oes anal´ıticas e nas Figuras 6 e 7 suas formas geom´etricas:
fξ(x) = (a fun¸c˜ao de densidade de Gξ(·)) = dGξ(x)
dx =
=
(1 +ξx)−1−1/ξ parax≥0, e 0 para outros x, quando ξ >0 e−x parax≥0, e 0 para outros x, quando ξ= 0
(1 +ξx)−1−1/ξ parax∈[0,−1/ξ], e 0 para outrosx, quando ξ <0 (8)
Coment´ario 3. Cada GPD padr˜ao ´e “parente” de uma hip´erbole, uma par´abola, ou uma fun¸c˜ao exponencial.
Casoξ >0, o gr´afico da GPD padr˜aoGξ(·) no semi-eixo [0; +∞) ´e apenas o ramo direito da hip´erbole 1/(x1/ξ) que foi refletido, deslocado e re-escalado para que a hip´erbole passasse pelo ponto (0,0) e se aproximasse do n´ıvel 1 quando x → ∞. Para aqueles interessados em entender como a reflex˜ao, o deslocamento e a re-escala s˜ao “codificados” na express˜ao deGξ(·), recomen- damos a leitura do Fato 1 da pr´oxima sub-se¸c˜ao (notamos que Exerc´ıcio 2 aborda este assunto).
8Nos coment´arios 3 e 4 h´a uma discuss˜ao detalhada a respeito desse caso especial, uma vez que aqui a express˜ao da distribui¸c˜ao,G0, n˜ao cont´em explicitamente o parˆametroξ.
0 0.5 1 2 4 1
xi=−4 xi=−2
xi=−1 xi=−1/2 xi=−1/4
xi=0 xi=1 xi=2 xi=3
Figura 5: O formato da GPD padr˜ao com diversos valores do parˆametro ξ (veja o Coment´ario 3).
0 1 2 3 4 5 0
1
xi=0
xi=1
xi=3
Figura 6: Fun¸c˜oes de densidade de GPD’s padr˜ao comξ≥0.
0 0.5 1 1.5 2 4 5 0
xi=−4 xi=−2
xi=−1
xi=−2/3 xi=−1/2 xi=−1/4
Figura 7: Fun¸c˜oes de densidade de GPDs padr˜ao comξ <0.
No caso ξ = 0, a correspondente GPD padr˜ao ´e exatamente a fun¸c˜ao de distribui¸c˜ao exponencial de parˆametro 1. Lembramos ao leitor a nomenclatura comumente usada para distribui¸c˜oes exponenciais: A fun¸c˜ao que vale 0 para x < 0, e vale 1−e−λx para x ≥ 0, denomina-se “distribui¸c˜ao exponencial de parˆametro λ”. Quando λ = 1, esta fun¸c˜ao chama-se simplesmente “dis- tribui¸c˜ao exponencial” – termo que usaremos. Apesar disso alguns autores preferem usar o nome “distribui¸c˜ao exponencial padr˜ao” quandoλ= 1.
O caso ξ <0 ´e mais “complexo” que os casos ξ >0 e ξ = 0, uma vez que a forma de Gξ(·) ´e radicalmente transformada em conseq¨uˆencia da passagem do valor deξde 0 a−∞. A Figura 5 ilustra o caso−1< ξ <0, onde a fun¸c˜ao Gξ(·) comporta-se no intervalo [0,−1/ξ] como fun¸c˜ao-potˆencia de x, isto ´e, comoxaparaa >0. Ainda neste caso,Gξ(·) aproxima-se suavemente do n´ıvel 1, o que significa que sua derivada vale 0 no ponto onde ela toca o n´ıvel 1.
Esta propriedade da derivada est´a ilustrada na Figura 7. No casoξ =−1, a correspondente GPD padr˜ao cresce linearmente entre as abcissas 0 e 1, ali a GPD padr˜ao apresenta “quebra” no ponto onde toca o n´ıvel 1 (veja Figura 5).
Finalmente, no casoξ <−1, a GPD padr˜ao se comporta como uma hip´erbole no intervalo [0;−1/ξ] (ou seja, como xa paraa < 0). Neste caso tamb´em h´a
“quebra” do gr´afico da fun¸c˜ao no ponto em que o gr´afico toca o n´ıvel 1 (veja Figura 5).
Observemos ainda que no casoξ <0 a fun¸c˜ao de densidade pode apresentar cinco padr˜oes diferentes, apresentados na Figura 7.
Coment´ario 4. Depois do Coment´ario 3 esclarecer que a GPD padr˜ao correpon- dente ao valor 0 para o parˆametroξ´e simplesmente a distribui¸c˜ao exponencial, qualquer leitor faria a seguinte pergunta: “Por que `a distribui¸c˜ao exponencial foi atribuido valor 0 para o parˆametroξ? Ora, n˜ao h´a “0” ou “ξ” na f´ormula desta fun¸c˜ao de distribui¸c˜ao!” O presente coment´ario responde esta pergunta.
Acontece que foi necess´ario colocar a fun¸c˜ao de distribui¸c˜ao exponencial no mesmo “saco” onde ficam as fun¸c˜oes do tipo (5) e (7). A raz˜ao desta necessidade ´e o fato de tanto estas fun¸c˜oes quando a da distribui¸c˜ao expo- nencial servirem – do ponto de vista do m´etodo POT – para a aproxima¸c˜ao de caudas (este fato ser´a formalizado e discutido em detalhes na Se¸c˜ao 6).
Pela mesma raz˜ao, era desej´avel indexar todas as fun¸c˜oes deste “saco”. A indexa¸c˜ao das fun¸c˜oes do tipo (5) e (7) ´e natural: o ´ındice de qualquer uma destas fun¸c˜oes ´e seu pr´oprio valor do parˆametro ξ. Com isto o valor 0 para o parˆametroξ torna-se livre (simplesmente porque n˜ao podemos terξ= 0 na express˜ao 1−(1 +ξx)−1/ξ das f´ormulas (5) e (7)). Este valor livre foi ent˜ao
atribu´ıdo ao novo membro do “saco”, isto ´e, `a distribui¸c˜ao exponencial. Note que esta atribui¸c˜ao ´e puramente semˆantica, pois, de fato, n˜ao h´aξna f´ormula da distribui¸c˜ao exponencial. Em palavras simples, a “atribui¸c˜ao semˆantica”
se traduz no seguinte acordo: se eu lhe pedir a GPD padr˜ao correspondente, por exemplo, a ξ= 2, sua resposta ser´a: “1−(1 + 2x)−1/2”, enquanto que se eu lhe pedir a GPD padr˜ao correspondente a ξ = 0, sua resposta ser´a: “´e a fun¸c˜ao de distribui¸c˜ao exponencial, ou seja, 1−e−x”.
O leitor, que concordou com a l´ogica dos argumentos do par´agrafo ante- rior, pode agora argumentar: “S˜ao, na verdade, trˆes valores deξ que n˜ao s˜ao
“aproveitados” para a indexa¸c˜ao das fun¸c˜oes do tipo (5) e (7); estes s˜ao 0,∞e
−∞. Ent˜ao h´a raz˜ao para que seja 0 e n˜ao∞ou−∞o ´ındice atribu´ıdo `a dis- tribui¸c˜ao exponencial?”Sim, existe. Esta raz˜ao ´e o fato da fun¸c˜ao exponencial ser o limite das fun¸c˜oes 1−(1 +ξx)−1/ξ conforme ξ→0 (veja Exerc´ıcio 6).
4.2 Distribui¸c˜oes de Pareto generalizadas
Como foi dito, o m´etodo POT constr´oi aproxima¸c˜oes para a cauda de certas distribui¸c˜oes. At´e aqui a impress˜ao ´e de que essas aproxima¸c˜oes s˜ao realizadas pelas GPDs padr˜ao, mas isso ´e incorreto. ´E da fam´ılia das distribui¸c˜oes de Pareto generalizadas (GPDs), e n˜ao da fam´ılia de GPDs padr˜ao, que o m´etodo POT realmente precisa. As GPDs ser˜ao constru´ıdas nesta sub-se¸c˜ao a partir das GPDs padr˜ao e, para que a essˆencia desta constru¸c˜ao fique bem clara, come¸caremos com dois fatos bem conhecidos.
Fato 1. Sejaf(x), x∈R, uma fun¸c˜ao arbitr´aria qualquer,decduas constantes quaisquer, sendo quec >0. Construiremos uma nova fun¸c˜ao g(·) via g(x) = f x−dc
, x∈R.
O objetivo do presente coment´ario ´e apresentar o seguinte fato: o gr´afico da fun¸c˜aog(·) pode ser obtido do gr´afico da fun¸c˜aof(·) via as duas transforma¸c˜oes (veja na Figura 8 estas transforma¸c˜oes para o caso particular quandof(x) = ex):
(1) esticarcvezes o gr´afico de f(·) ao longo do eixo x;
(2) deslocar pord unidades `a direita o gr´afico obtido no ´ıtem anterior.
Que (1)-(2) de fato transformamf(·) emg(·) pode ser justificado da seguinte maneira: Escolha um ponto (x, y) no gr´afico de f(·) e pergunte: qual deve ser xnovo para que g(xnovo) =y? Suponha, para facilitar a conta, que f(·) ´e uma fun¸c˜ao um-a-um. Ent˜ao vale que: g(xnovo) =y ⇔ f xnovoc−d
= y ⇔
x xnovo 3
3
~ ~
3f(x)
f(x/2)
f((x−3)/2)
Figura 8: Esta figura ilustra o conte´udo do Fato 1 para o caso particular em que f(x) =exe as constantesc edvalem 2 e 3, respectivamente. O gr´afico def(x/2) ´e obtido do gr´afico def(x) esticando este 2 (duas) vezes na dire¸c˜ao horizontal. Por sua vez o gr´afico def x−23
´e obtido do gr´afico de f(x/2) pelo deslocamento horizontal de 3 (trˆes) unidades.
f xnovoc−d
= f(x) ⇔ xnovo = c·x+d. A ´ultima igualdade diz ent˜ao que xnovo ´e obtido quando x ´e multiplicado por c e acrescenta-se d ao resultado da multiplica¸c˜ao. Isto justifica que (1)-(2) transformam f(·) em g(·) (veja Figura 8).
Fato 2. Seja X uma vari´avel aleat´oria arbitr´aria. Para duas constantes ar- bitr´ariosd e c > 0, defina uma nova vari´avel aleat´oria Y =cX +d. Designe porFX(·) eFY(·) as fun¸c˜oes de distribui¸c˜ao de X e deY, respectivamente.
Segue das constru¸c˜oes e defini¸c˜oes do par´agrafo acima que FY(x) =IP[Y ≤x] =IP[cX +d≤x] =IP
X ≤ x−dc
=
=FX x−dc
, ∀x∈R. (9)
A rela¸c˜ao (9) juntamente com o Fato 1 sustenta que se a fun¸c˜ao de dis- tribui¸c˜ao de uma vari´avel aleat´oria X for transformada via os passos (1)-(2) do Fato 1, o resultado ser´a uma nova fun¸c˜ao de distribui¸c˜ao. Ainda mais, se designarmos porY a vari´avel aleat´oria distribuida conforme esta nova fun¸c˜ao de distribui¸c˜ao,Y e X se relacionam via Y =cX +d. Fim do Fato 2 Agora passaremos a decrever a fam´ılia dedistribui¸c˜oes de Pareto general- izadas, (abreviadas porGPD’s). Neste caso a distin¸c˜ao entre as GPD’s ´e feita por trˆes parˆametros, ξ, β e s, sendo que ξ e s podem assumir qualquer valor real eβ apenas valores reais positivos. A GPD comξ >0 tem a forma:
Gξ,β,s(x) = (
1−
1 +ξx−sβ −1/ξ
, parax≥s,
0, parax < s,
esta vale quando ξ >0
(10) enquanto que a GPD comξ= 0 ´e dada por:
G0,β,s(x) = (
1−e−x−sβ , parax≥s, 0, parax < s,
esta
corresponde a ξ= 0
(11) finalmente a GPD que corresponde aξ <0:
Gξ,β,s(x) =
0, parax < s,
1−(1 +ξx−sβ )−1/ξ, parax∈[s, s−βξ],
1, parax > s−βξ,
esta f´ormula vale quando ξ <0
(12) A transforma¸c˜ao descrita nos passos (1)-(2) do Fato 1 deixa claro que qualquer GPD com parˆametros ξ, β e s ´e obtida da GPD padr˜ao de mesmo valor ξ, com c = β e d = s, ou, especificamente falando, o gr´afico da GPD com parˆametros ξ, β e s ´e o gr´afico da GPD padr˜ao com parˆametro ξ ap´os este ser esticadoβ vezes ao longo do eixo xe deslocado na dire¸c˜ao horizontal por s unidades. Este fato justifica os nomes atribu´ıdos aos parˆametros β e s: o parˆametro β chama-se parˆametro de escala, enquanto o parˆametro s
´e o parˆametro de deslocamento ou de loca¸c˜ao. O parˆametro ξ leva o nome
´ındice de caudaou parˆametro de forma.9 Este ´ultimo talvez n˜ao seja o nome mais adequado, pois pode insinuar que a forma da distribui¸c˜aoGξ,β,s depende somente deξ. De fato este nome tem origem na rela¸c˜ao entre as GPD’s e as distribui¸c˜oes de valores extremos, rela¸c˜ao que ser´a discutida na Sub-se¸c˜ao 6.5, onde o nomeparˆametro de formaser´a justificado.
A rela¸c˜ao entre a GPD com parˆametrosξ, β ese a GPD padr˜ao de mesmo parˆametro ξ pode ser vista, com a ajuda do conte´udo do Fato 2, em termos da rela¸c˜ao entre as vari´aveis aleat´orias correspondentes a estas distribui¸c˜oes:
considerando Y uma vari´avel aleat´oria com distribui¸c˜ao Gξ,β,s(·) e X uma vari´avel aleat´oria com distribui¸c˜aoGξ(·), ent˜aoX eY s˜ao tais queY =βX+s.
Esta rela¸c˜ao pode ser ´util a quem costuma pensar na fun¸c˜ao de distribui¸c˜ao em termos da vari´avel aleat´oria que possui tal distribui¸c˜ao. A rela¸c˜ao obtida diz que se tomarmos X distribu´ıda conforme uma GPD padr˜ao com parˆametro ξ, multiplicarmos esta por β e acrescentarmos s, ent˜ao a vari´avel aleat´oria resultante ter´a distribui¸c˜ao GPD com parˆametrosξ, β es.
4.3 Caudas finitas e infinitas e sua rela¸c˜ao com a exposi¸c˜ao Na maior parte da exposi¸c˜ao a seguir, sobre o funcionamento do m´etodo POT para solu¸c˜ao do problema de estima¸c˜ao de cauda de uma distribui¸c˜ao F(·), assumiremos que a cauda da distribui¸c˜ao desconhecida, F(·), seja infinita.
Este pressuposto e suas conseq¨uˆencias ser˜ao cuidadosamente analisados na presente sub-se¸c˜ao.
O supreendente surgimento da discuss˜ao de finitude/infinitude de caudas se¸c˜ao destinada `a constru¸c˜ao de GPD’s tem duas justificativas: em primeiro lugar as GPD’s servir˜ao como exemplos ilustrativos para a explica¸c˜ao dos conceitos “cauda finita” e “cauda infinita”; em segundo lugar, esta discuss˜ao justificar´a porque as GPD’s com cauda infinita ter˜ao maior aten¸c˜ao que as de cauda finita em nossa apresenta¸c˜ao.
Come¸caremos nossos exposi¸c˜ao com o esclarecimento dos conceitos “cauda finita” e “cauda infinita” de uma distribui¸c˜ao.
A palavra “cauda” possui duas interpreta¸c˜oes. A primeira ´e aquela expli- cada na Se¸c˜ao 2: a cauda de F(·) `a direita de u ´e a parte do seu gr´afico ´a direita da abcissau. Se aceitarmos esta interpreta¸c˜ao, ent˜ao a cauda de qual- quer fun¸c˜ao de distribui¸c˜ao s´o pode ser infinita, visto que o gr´afico de uma fun¸c˜ao de distribui¸c˜ao nunca “termina”. A outra interpreta¸c˜ao considera que
9Shape parameter em Inglˆes.
a cauda deF(·) `a direita de u´e formada pelos pontos do seu gr´afico ´a direita da abcissau que n˜ao pertencem `a reta horizontal y= 1. ´E esta interpreta¸c˜ao que deve ter-se em mente quando dissermos “cauda finita” ou “cauda infinita”.
Vejamos dois exemplos.
Observe a fun¸c˜aoGξ(·) comξ =−1/4 apresentada na Figura 5. Ela “toca”
o n´ıvel 1 no ponto x = 4 e, ap´os isso, ´e sempre igual a 1. Neste caso diz-se que a fun¸c˜ao de distribui¸c˜ao tem cauda direita finita. Usaremos o termo mais curto cauda finita, pois em todo o trabalho analisaremos somente caudas `a direita. Para facilitar express˜oes formais, introduziremos o s´ımbolo xF, que designa ofim da cauda da distribui¸c˜ao F(·), ou seja, a abscissa do ponto em que F(·) toca o n´ıvel 1. Por exemplo, na Figura 5, temos que xGξ = −1/ξ paraξ <0.
Considere agora a fun¸c˜ao da distribui¸c˜ao exponencial apresentada na Figura 5.
Ela nunca toca o n´ıvel 1 (simplesmente porque n˜ao existe x ≥ 0 tal que 1−e−x= 1). Neste caso a fun¸c˜ao de distribui¸c˜ao possui cauda direita infinita.
Usaremos o termo simplificado cauda infinita devido as raz˜oes j´a explicadas acima. A fim de aproveitar as mesmas f´ormulas tanto para fun¸c˜oes de cauda finita quanto para as de cauda infinita, assumiremos quexF ´e igual∞quando
F(·) possui cauda infinita. Fim do coment´ario.
Coment´ario 5. A cauda direita de uma fun¸c˜ao de distribui¸c˜ao tem rela¸c˜ao com o fato dos valores da vari´avel aleat´oria, que possui esta distribui¸c˜ao, serem limitados ou n˜ao: seF(·) possuir cauda direita finita, ent˜ao a vari´avel aleat´oria X, distribu´ıda conforme F(·), ser´a limitada por cima e o limite superior ser´a igual axF, ou seja, IP [X ≤xF] = 1; j´a se F(·) possuir cauda direita infinita, ent˜ao a vari´avel aleat´oriaX, distribu´ıda conformeF(·), n˜ao ser´a limitada por cima, o que significa que n˜ao existe um n´umero finitoM tal queIP [X ≤M] = 1.
Como dissemos no come¸co desta subse¸c˜ao, assumiremos o seguinte pressu- posto
Pressuposto 1: A cauda de F(·) ´e infinita.
Na presente sub-se¸c˜ao explicaremos as raz˜oes da aceita¸c˜ao deste pressuposto, al´em de revelaremos e discutirmos os aspectos relacionadas a esta aceita¸c˜ao, importantes para quem deseja usar o m´etodo POT na pr´atica.
Da aceita¸c˜ao do Pressuposto 1surgem diversas d´uvidas, das quais as trˆes seguintes s˜ao, ao nosso ver, as principais – elas ser˜ao cuidadosamente respon- didas no restante da presente sub-se¸c˜ao. As trˆes d´uvidas s˜ao:
(a) Na pr´atica ´e preciso aceitar cegamente o tipo de cauda de F(·) antes de aproximar esta cauda pelo POT, ou existem procedimentos que indicam se a cauda ´e finita ou infinita?
(b) Quais s˜ao as vantagens obtidas quando se assume o Pressuposto 1? H´a tamb´em desvantagens? Se sim, no que isto prejudica o leitor?
(c) Porque escolhemos trabalhar com a caso de cauda infinita e n˜ao com o caso cauda finita?
A resposta `a pergunta (a) ´e a mais f´acil. Se temos uma amostra de uma fun¸c˜ao de distribui¸c˜ao F(·) desconhecida, ent˜ao podemos inferir, a partir de uma amostra sua, se a cauda de F(·) ´e finita ou infinita. Esta tarefa ´e dele- gada `a atual Teoria de Valores Extremos, que fornece diversos procedimentos estat´ısticos que fazem esta inferˆencia. Observamos que alguns destes procedi- mentos fazem parte do pr´oprio m´etodo POT, isto ´e, h´a execu¸c˜oes do m´etodo que fornecem a aproxima¸c˜ao da cauda deF(·) juntamente com “sua” opini˜ao sobre finitude/infinitude; h´a tamb´em outros procedimentos n˜ao relacionados ao POT. Esta observa¸c˜ao pode ser ´util para quem for buscar na literatura pro- cedimentos de inferˆencia para o tipo de cauda. Os livros [3], [7] e [1] s˜ao fontes ricas para quem deseja conhecer e aplicar estes procedimentos. O Exerc´ıcio 5 fornece algumas id´eias que servem de base para a constru¸c˜ao de procedimentos que inferem sobre o tipo de cauda de uma fun¸c˜ao de distribui¸c˜ao desconhecida, a partir de sua amostra.
Quanto `a quest˜ao levantada em (b), uma de suas respostas diz respeito ao par´agrafo acima. Quando o Pressuposto 1 ´e assumido, v´arias p´aginas relativas aos procedimentos estat´ısticos mencionados naquele par´agrafo s˜ao evitadas. Um outro motivo para nossa aceita¸c˜ao vˆem da existˆencia de pe- quenas diferen¸cas na execu¸c˜ao do m´etodo POT dependendo de F(·) possuir cauda finita ou infinita. As diferen¸cas s˜ao pequenas, mas a inclus˜ao de am- bos os casos seria desgastante e repetitiva. Por isto optamos por um s´o caso, preferindo nos concentrar naquele ondeF(·) possui cauda infinita, o que n˜ao traz grandes preju´ızos aos que precisarem do m´etodo POT para aproximar cauda de distribui¸c˜oes com caudas finitas. As principais id´eias do m´etodo POT s˜ao as mesmas tanto no caso deF(·) possuir cauda finita quanto no caso deF(·) possuir cauda infinita. As diferen¸cas, como j´a hav´ıamos avisado, est˜ao somente nos procedimentos estat´ısticos empregados na execu¸c˜ao do m´etodo.
A ´ultima raz˜ao a ser considerada em (b), decorre do fato do m´etodo POT n˜ao usar GPD’s com o parˆametroξ negativo para aproximar a cauda deF(·) quando esta possui cauda infinita. Isto ficar´a claro na formula¸c˜ao do Resul-
tado de Pickands e na dedu¸c˜ao da id´eia do m´etodo a partir deste resultado (veja o Coment´ario 19 da Sub-se¸c˜ao 6.5). Este fato nos permite concentrar a aten¸c˜ao da futura exposi¸c˜ao nas GPDs de parˆametroξ n˜ao-negativo, ou, em outras palavras, nas GPD’s definidas por (5) e (6), ou, ainda, nas GPD’s com caudas infinitas. Dessa forma, o volume da nossa apresenta¸c˜ao ´e reduzido. As trˆes raz˜oes apresentadas acima respondem a quest˜ao (b), mas n˜ao podemos encerrar tranq¨uilamente a discuss˜ao, pois a ´ultima das raz˜oes leva geralmente
`a seguinte
falsa impress˜ao: a cauda da fun¸c˜ao-aproximadora ´e sempre infinita quando a cauda de fun¸c˜ao F(·), a ser aproximada, ´e infinita, e ´e sempre finita quando a cauda de F(·) ´e finita.
Vejamos o porquˆe dessa falsa impress˜ao.
A primeira fal´acia est´a na palavra “sempre”, que insinua que a afirma¸c˜ao vale para qualquer m´etodo de solu¸c˜ao do problema de aproxima¸c˜ao de cauda.
Gostar´ıamos de advertir que n˜ao pode-se fazer esta generaliza¸c˜ao. Estamos discutindo um m´etodo espec´ıfico, o m´etodo POT. Este tem suas particulari- dades. Outros m´etodos tˆem as suas.
Contudo o erro mais grave est´a na afirma¸c˜ao que relaciona o tipo da cauda da GPD usada para estimar a cauda de uma F(·) desconhecida e o tipo da cauda da pr´opria F(·). Ao falar desta rela¸c˜ao ´e necess´ario distinguir duas situa¸c˜oes. A primeira ´e aquela onde n˜ao se sabe nadaa priorisobre a cauda de F(·) e n˜ao se faz nenhum pressuposto a seu respeito. Neste caso ´e a amostra de F(·) que vai indicar – via algum procedimento estat´ıstico – que tipo de cauda F(·) possui. ´E claro que a amostra pode ser “at´ıpica” e/ou o procedimento pode falhar. Caso em que podem ocorrer inconsistˆencias: a cauda infinita de F(·) pode ser aproximada por uma fun¸c˜ao de cauda finita e vice-versa.
Entretanto, a “falsa impress˜ao” agora discutida refere-se n˜ao a esta situa¸c˜ao;
mas sim `aquela onde sabemos o tipo de cauda deF(·) e“informamos” esta ao m´etodo POT10. Qual seria ent˜ao o tipo da cauda da fun¸c˜ao-aproximadora da cauda deF(·) escolhida pelo m´etodo, dado que ele possui a informa¸c˜ao sobre o tipo da cauda deF(·)? A “falsa impress˜ao” responde equivocadamente esta pergunta. A resposta correta seria:11
Quem determina o tipo da cauda da fun¸c˜ao-aproximadora fornecida pelo m´etodo POT ´e a teoria que justifica o m´etodo. De acordo com
10Insistiremos neste caso motivados pela aceitac˜ao doPressuposto 1
11O Coment´ario 19 dar´a o embasamento te´orico a esta resposta.
esta teoria, se a cauda de F(·) for infinita ent˜ao a cauda da fun¸c˜ao- aproximador ser´a sempre infinita. J´a se a cauda de F(·) for finita, ent˜ao a fun¸c˜ao-aproximador ser´a uma GPD com cauda finita, ou a fun¸c˜ao exponencial, isto ´e , a GPD do formato (11); no segundo caso, a cauda da fun¸c˜ao-aproximador ´e infinita (pois a cauda da fun¸c˜ao de distribu¸c˜ao exponencial ´e infinita).
Coment´ario 6. Nosso leitor pode estranhar o fato de uma fun¸c˜ao de cauda in- finita ser uma boa aproxima¸c˜ao para a cauda finita de uma outra fun¸c˜ao. Aqui temos ent˜ao um exemplo que mostra esta possibilidade. Volte sua aten¸c˜ao `a Figura 5. Observe como s˜ao pr´oximas as GPDsG−1/4(·) e G0(·) no intervalo [0,4]. Isto deve convencer-lhe de que as GPDs G−1/100(·) e G0(·) ser˜ao ainda mais pr´oximas no intervalo [0,100]. No ponto x = 100 a fun¸c˜ao G−1/100(·) toca o n´ıvel 1, enquanto que o valor de G0(·) neste ponto ´e e−100. Isto sig- nifica que em qualquer ponto `a direita de x = 100 as duas fun¸c˜oes n˜ao se distanciam por mais dee−100. Portanto,G0(·) pode ser um bom aproximador paraG−1/100(·), apesar da cauda da fun¸c˜ao-aproximador ser infinita enquanto que a da fun¸c˜ao aproximada ´e finita. Fim do coment´ario.
Finalmente responderemos a pergunta (c). Observe a importˆancia desta pergunta: os argumentos acima indicam que para tornar a exposi¸c˜ao mais con- cisa poder´ıamos concentrar nossa aten¸c˜ao nas fun¸c˜oes de cauda finita ou nas fun¸c˜oes de cauda infinita. Por que optamos pelas segundas? A “preferˆencia”
pelas caudas infinitas deve-se `a combina¸c˜ao de dois fatores: o primeiro ´e que a maioria dos nossos leitores potenciais usar˜ao o m´etodo POT na estima¸c˜ao de caudas de distribui¸c˜oes de perdas de retornos de investimentos financeiros, ou de perdas decorrentes de sinistros de seguradora, ou de perdas causadas por falhas operacionais de um banco ou uma ind´ustria; o segundo fato reside na cren¸ca comum de que tais distribui¸c˜oes possuem cauda infinita. Isto ent˜ao responde `a pergunta (c), mas com um teor de insatisfa¸c˜ao: porque o segundo fato foi colocado como “cren¸ca”? Discutiremos agora.
Considere a vari´avel aleat´oria “retorno (digamos, di´ario, para t´ıtulo de exposi¸c˜ao) com sinal negativo de um investimento”. Observe que para que
retorno di´ario com sinal negativo = −log pre¸co de hoje
pre¸co de ontem (13) seja ilimitado por cima, o “ pre¸co de hoje”deve assumir um valor arbitrari- amente pequeno em rela¸c˜ao ao “pre¸co de ontem”. Se isto ocorre, de acordo