O problema da distribui¸c˜ao assint´otica de extremos

SejaX uma variável aleatória qualquer e sejaF(·) sua fun¸cão de distribui¸cão.

SejaX₁, X₂, . . .uma seqüência infinita de variáveis aleatórias , todas elas inde-pendentes entre si, onde cada possui a mesma distribui¸cão queX. Considere o seguinte problema:

(P5) Encontrar duas seqüências numéricas {c_n} e {d_n} tais que a seqüência de variáveis aleatórias

c⁻¹_n [max(X₁, . . . , X_n)−d_n], n= 1,2, . . . (20) convirja em distribui¸cão para alguma variável aleatória não degenerada.

Este é o problemada distribui¸cão assintótica de extremos.

Antes de analisar o problema, explicaremos os significados de “convergir em distribui¸cão” e “variável aleatória degenerada”.

SejamV eV₁, V₂, . . .variáveis aleatórias quaisquer. Diz-se que a seqüência {V_n, n≥1}converge em distribui¸cãoà variável aleatóriaV seF_V_n(·), a fun¸cão de distribui¸cão da variável aleatória V_n, converge conforme n → ∞ a F_V(·), a fun¸cão de distribui¸cão da variável aleatória V, em cada ponto x ∈ R onde F_V(x) é cont´ınua. Esta última restri¸cão, que limita a convergênica somente aos pontos de continuidade da fun¸cão-limite, pode parecer estranha a primeira vista, contudo ela não é uma restri¸cão, mas sim um al´ıvio. Sem ela muitas convergências úteis seriam “desclassificadas”, um aspecto que não discutiremos no nosso presente trabalho.

Muitas perguntas sobre o conceito de convergência em distribui¸cão serão es-clarecidas se você leitor, recordar o Teorema Central do Limite. Lembraremos este teorema para um caso espec´ıfico. Suponha que as variáveis aleatórias X1, X2, . . .representem os resultados dos lan¸camentos de uma moeda honesta de forma tal queX_i assuma o valor 1 caso oi-ésimo lan¸camento seja “cara”, e assuma 0 caso seja “coroa”. É óbvio, a partir desta constru¸cão, que estas variáveis aleatórias são independentes e identicamente ditribu´ıdas e que, por-tanto, se definirmosS_n=X₁+· · ·+X_n, as condi¸cões do Teorema Central do

Limite ser˜ao validadas, e o teorema nos garantir´a que S_n−IE[S_n]

pVar [S_n] converge em distribui¸cão à variável aleatória Z, (21) ondeZ denota variável aleatória Normal Padrão. Lembrando o significado de

“convergir em distribui¸cão” e lembrando que o valor de fun¸cão de distribui¸cão em qualquerx significa a probabilidade da sua variável aleatória asusmir val-ores menval-ores quex, conclu´ımos que o teorema alega que

(S_n−IE[S_n] pVar [S_n] ≤x

)

→IP {Z ≤x}, (22) para qualquer que seja x, pois, como se sabe, a fun¸cão de distribui¸cão da variável aleatória Normal Padrão é cont´ınua em todo x. Segue-se da rela¸cão (22) que sen for fixo e suficientemente grande, poderemos aproximar a prob-abilidade do lado esquerdo desta rela¸cão pela probprob-abilidade do lado dire-ito. Esta aproxima¸cão é o exemplo da principal aplica¸cão prática do Teo-rema Central do Limite: ele nos permite aproximar a probabilidade, que envolve variáveis aleatórias complicadas, pela probabilidade que envolve a variável aleatória Normal Padrão. De fato, suponha que queremos estimar a probabilidade de que emn= 100 lan¸camentos haverá no máximo 45 caras:

IP{S₁₀₀ ≤45}. A estimativa pode ser feita ent˜ao usando o Teorema Central do Limite e o fato de os valores deIE[S_n] e de Var [S_n] serem iguais a n/2 e an/4, respectivamente, via a rela¸c˜ao:

IP {S₁₀₀≤45} = IP

(S₁₀₀−IE[S₁₀₀]

pVar [S₁₀₀] ≤ 45−IE[S₁₀₀] pVar [S₁₀₀]

)

= IP

(S100−IE[S100]

pVar [S₁₀₀] ≤ 45−50 5

)

(23)

≈ IP{Z ≤ −1}= 0,15866

onde na última passagem usamos a tabela de valores da fun¸cão de distribui¸cão da variável aleatória Normal Padrão.

Nos argumentos do parágrafo acima chamamos a aten¸cão do leitor ao fato da convergência em distribui¸cão, quando vale, ser uma propriedade útil para estimar probablilidades que envolvam variáveis aleatórias complicadas, como, por exemplo, a variável aleatória S₁₀₀ analisada acima. Note a respeito

deste exemplo que de antemão sabemos que esta variável aleatória possui dis-tribui¸cão binomial (de parâmetros 100 e 1/2), e que portanto, o cálculo de IP{S₁₀₀ ≤45}poderia ter sido feito a partir desta distribui¸cão, sem a necessi-dade da ajuda do Teorema Central do Limite. É claro que se complicássemos um pouco o problema, lan¸cando um dado em vez de uma moeda, onde as faces dos lan¸camentos obtidos seriam as variáveis aleatóriasX1, X2, . . ., então o cálculo direto de IP {S₁₀₀ ≤45} seria imposs´ıvel, enquanto que o Teorema Central do Limite continuaria válido, fornecendo uma boa aproxima¸cão para esta probabilidade.

Devemos avisar os leitores de que na Teoria de Probabilidades existem diversos tipos de convergência, cada um deles com suas aplica¸cões: uma seqüência de variáveis aleatórias pode convergir a uma variável aleatória em probabilidade, pode convergir quase certamente, e pode convergir ainda de outras formas, em particular pode convergir em distribui¸cão – conceito que foi explicado acima e que, dentre todos os demais tipos de convergência, será o

unico relevante em nossa exposi¸c˜ao a seguir.

Voltando à defini¸cão de convergência em distribui¸cão, é totalmente natural que o leitor tenha se estranhando com fato de a defini¸cão deste conceito exigir a convergência somente nos pontos de continuidade da fun¸cão de distribui¸cão limite. Realmente não é óbvio que os pontos de discontinuidade possam ser

“omitidos”. Felizmente, as fun¸cões de distribui¸cão limite, que podem surgir na solu¸cão do problema da distribui¸cão assintótica de extremos, são todas cont´ınuas. Isto nos permite ocultar a discussão das razões que levaram a este estranho previlégio dado aos pontos de descontinuidade.

Por fim, apresentaremos o conceito de ditribui¸cão degenerada e expli-caremos porque esta foi rejeitada no enunciado do problema da distribui¸cão assintótica de extremos. Lembramos ao leitor que uma variável aleatória se chamadegenerada se ela é uma constante, isto é, se ela assume um único valor com probabilidade total igual a 1 – da´ı o termo “degenerada”. Uma fun¸cão de distribui¸cão é dita degenerada se sua variável aleatória correspondente for degenerada. Todas as fun¸cões de distribui¸cão degeneradas têm a mesma cara:

são fun¸cões-escada que possuem um único salto de tamanho 1 (um). De fato, se uma variável aleatória degenerada é igual a uma constante c, então sua fun¸cão de distribui¸cão vale 0 à esquerda de c e assume o valor 1 em c e à direta dec.

As fun¸cões de distribui¸cão degeneradas são geralmente inúteis quando as-sumem o papel da fun¸cão-limite em resultados assintóticos como aquele que

queremos deduzir para distribui¸cão de extremos. Exibiremos esta inutilidade com aquelas variáveis aleatórias para as quais exibimos o Teorema Central do Limite. É sabido que caso o denominador na expressão (21) do teorema fosse substituido porn,¹⁵ ter´ıamos que:

Sn−IE[Sn]

n converge em distribui¸c˜ao

à variável aleatória degenerada igual a 0. (24) Tentaremos usar este resultado para calcular aproximadamente a probabili-dadeIP {S100 ≤45}. Designando por F≡0(·) a fun¸cão de distribui¸cão degen-erada concentrada em 0, teremos, repetindo os cálculos de (23):

IP{S100≤45} = IP

S100−IE[S100]

100 ≤ 45−IE[S100] 100

= IP

S₁₀₀−IE[S₁₀₀]

100 ≤ 45−50 100

(25)

≈ F≡0(−0,05) = 0

E fácil ver que se puséssemos 55 em vez de 45, ter´ıamos resposta 1, e que,´ em geral, para qualquer que fosse o valor no lugar de 45, a resposta sempre seria ou 0 ou 1. Concorde tal aproxima¸cão é totalmente inútil, o que nos leva a admitir que não é interessante procurar constantes de deslocamento e renormaliza¸cão (como as dn e cn do problema da distribui¸cão assintôtica e extremos) que fa¸cam a distribui¸cão limite ser degenerada. Na verdade, se alguém estiver procurando por tais contantes, a resposta está dada: escolhendo um crescimento absurdamente rápido das constantes de normaliza¸cão é sempre poss´ıvel obrigar as variáveis aleatórias (20) convergirem em distribui¸cão para uma distribui¸cão degenerada.

Voltaremos do desvio dedicado à explica¸cão de conceitos “convergência em distribui¸cão” e “variável aleatória degenerada” para a via principal, isto

é, voltaremos ao enunciado (P5) do problema da distribui¸cão assintótica de extremos. Uma vez agora munidos com a compreensão dos conceitos desta-cados acima, podemos então enxergar o lado prático do problema: caso a distribui¸cão assintótica seja descoberta, esta pode servir para o cálculo aprox-imado de probabilidades do tipoIP [max(X₁, . . . , X_n)≤x]. Esta aproxima¸cão

15Observe que no Teorem Central de Limite este denominador é da ordem de √ n, pois Var[Sn] =nVar[X1] devido ao fato queX1, X2, . . .são variáveis aleatórias independentes e identicamente distribu´ıdas. A substitui¸cão de√

nporndiminui a variância de forma tal que o limite só pode ser uma variável aleatória degenerada.

seria baseada nas mesmas idéias que fizeram a distribui¸cão normal servir para a aproxima¸cão deIP[S₁₀₀≤45], partindo do Teorema Central do Limite (veja texto acima). Esta aproxima¸cão será exibida e discutida em detalhes na Sub-se¸cão 5.5. Notamos para nossos leitores que além da utilidade prática, o prob-lema(P5)apresenta interesse do ponto de vista do desenvolvimento teórico da Teoria de Probabilidade; sobre o que o leitor pode se informar melhor no livro [4].

0 5 10 15 20 25 30 35 40 45 50 55 60

0 0.25 0.5

0 5 10 15 20 25 30 35 40 45 50 55 60

0 0.25 0.5

0 5 10 15 20 25 30 35 40 45 50 55 60

0 0.25 0.5

Figura 13: Figuras que ilustram a propriedade (26). As figuras (a), (b), (c) apresentam densidades das distribui¸cões das variáveis aleatórias max{X1}, max{X1, . . . , X50}emax{X1, . . . , X500}, esbo¸cadas pelos histogramas das amostras correspondentes a estas variáveis. As amostras foram obtidas pelo computador, e a distribui¸cão de cadaX deste exemplo é lognormal.

O parágrafo acima respondeu – dentro das limita¸cões de um texto didático – do porquê se interessar pelo problema (P5). Há ainda outra pergunta tão

natural e básica como esta: “por que na expressão (20) deste problema a quantia max(X₁, . . . , X_n) é acompanhada pelas constantes c_n e d_n?”. Isto será esclarecido agora, e para tal consideremos o exemplo em que cada X_i possui distribui¸cão Lognormal. Isto siginifica que cada X_i é distribuida como e^Z, onde Z é variável aleatória normal padrão. Observe que é muito fácil simular um valor desta variável aleatória Lognormal: basta simular um valor z da variável aleatória Normal Padrão Z e calcular e^Z. Observe também que se formos simular um valor para cada uma das 50 variáveis aleatórias X1, . . . , X50 e escolhermos o máximo destes 50 valores, então este máximo pode ser visto como uma realiza¸cão da variável aleatória max{X₁, . . . , X₅₀}. Usamos este fato para simular 10.000.000 realiza¸cões independentes da variável aleatória max{X1, . . . , X50} e construir o histograma das realiza¸cões desta variável aleatória com base nestes 10.000.000 valores. Este histograma é ap-resentado na Figura 13(b). Devido aos argumentos da Teoria de Estat´ıstica, este histograma pode ser visto como uma aproxima¸cão da fun¸cão de densidade da distribui¸cão da variável aleatória max{X₁, . . . , X₅₀}. Pedimos então que você aceite esse argumento, e que também aceite os histogramas apresenta-dos em Figura 13(a) e Figura 13(c) como esbo¸cos das densidades das variáveis aleatórias max{X₁}e max{X₁, . . . , X₅₀₀}, respectivamente. A primeira destas

é igual à própriaX₁, e assim seu histograma tem como base a amostra original.

O histograma da segunda foi constru´ıdo da mesma maneira que o historgama de max{X₁, . . . , X₅₀}. Observe agora que na sequência (a)-(b)-(c) da Figura 13 os histogramas deslocam-se à direita e ficam cada vez mais dispersos. Isto ilus-tra um fenômento genérico t´ıpico para distribui¸cões concenilus-tradas no semi-eixo dos valores positivos e com cauda direita infinita – assim como é a distribui¸cão lognormal; este fenômeno é:

a fun¸c˜ao de densidade da distribui¸c˜ao de max{X₁, . . . , X_n}

desloca-se à direita e fica mais dispersa a medida quencresce. (26) Portanto, é lógico perguntar sobre a possibilidade de empurrar cada densidade

“de volta” à esquerda e a de contra´ı-la de maneira que o formato delas convirja, com o crescimento den, à densidade de uma distribui¸cão probabil´ıstica. Não

é lógico? Sim, e é justamente essa a pergunta que o problema de distribui¸cão assintótica de extremos(P5) faz! De fato: a constante dn em (20) empurra a distribui¸cão da variável aleatória max{X₁, . . . , X_n} à esquerda (caso d_n>0), enquanto que a constante c_n a contraic_n vezes (que são estes os “efeitos” das constantesdnecnsegue-se da explica¸cão do Comentário 2). A única diferen¸ca em rela¸cão a nossa exibi¸cão é que o problema (P5) lan¸ca suas questões sobre

a convergência de distribui¸cões, e não sobre as densidades – o que é mais cooreto do ponto de vista do rigor matemático. Pronto! Explicamos as razões do surgimento das constantes d_n e c_n em (20) na formula¸cão do problema da distribui¸cão assintótica de extremos. Só nos falta acrescentar, que, para algu-mas distribui¸cões deX’s, não se faz necessário deslocamento e/ou contra¸cão para que a seqüência de max{X1, . . . , Xn} convirja em distribui¸cão. Nestes casos é suficiente tomar d_n= 0 e c_n= 1.

No documento “Peaks-over-Threshold” na estimac ¸ ˜ ao de risco; uma exposic ¸˜ ao abragente, (páginas 46-52)