Justificativas at´e agora n˜ao fornecidas

A quem pedir justificativas sólidas e rigorosas para a aceita¸cão do Pressu-posto 4 a resposta será honesta: não há. Podemos somente apresentar alguns fatores a favor desta aceita¸cão.

Um fator que incentiva a aceita¸cão do Pressuposto 4. A grosso modo, o Pres-suposto 4 diz que a partir de um determinado valor U a cauda de F(·) é praticamente uma GPD reescalada e deslocada. Recusar o pressuposto impli-caria em admitir que a cauda deF(·) é uma GPD destorcida por uma fun¸cão Lde varia¸cão lenta (supomos aqui queF(·) está no dom´ınio de atra¸cão de uma EVD de Fréchet e usamos o resultado (40) que afirma que a cauda de F(·) tem esta forma). No entanto você não sabe nada sobre L, pois a informa¸cão de que esta possui varia¸cão lenta não diz nada a respeito da sua forma exata.

Isso lhe obriga a usar métodos de estat´ıstica não paramétrica para adivinhar – nem que seja aproximadamente – a verdadeira forma da cauda. Acontece que a estat´ıstica não paramétrica funciona bem com amostras grandes, que não é o presente caso, pois, conforme já dissemos, a quantidade de pontos da amostra procedentes da cauda é pequeno. Este problema é eliminado pelo Pressuposto 4, pois ele leva o problema da estima¸cão de cauda para o campo de estat´ıstica paramétrica: o problema da estima¸cão torna-se, basicamente, o problema da estimativa dos parâmetros da fun¸cãoG^∗_ξ,β(u),0(·).

Um outro fator que incentiva a aceita¸cão do Pressuposto 4. A recusa do Pres-suposto 4 leva por água abaixo toda a estratégia (A)-(C) tra¸cada na Sub-se¸cão 7.1. Tente inventar outra, no seu lugar, que produza algum estimador para a cauda. Você verá que para que esta funcione é inevitável assumir alguns pressupostos. Este fato as vezes leva algumas pessoas a sugerir que a melhor op¸cão para executar a idéia do método POT é seguir a demon-stra¸cão do Resultado de Pickands – uma sugestão l´ıcita decorrente do fato que este resultado é a base da idéia do método, e que ele não exige pressupos-tos adicionais, uma vez que foi derivado rigorosamente. Eis então a sugestão:

“Deixemos por um instante a questão de procura dos valores deu e de F(u) e imaginemos que eles são conhecidos. Ficamos então com o problema da estima¸cão de ξ e β(u). Lembremos que estes apareceram no Resultado de Pickands, e que portanto, a demostra¸cão deste deve conter a constru¸cão deξ e β(u). Porque então não usar esta constru¸cão para montar uma estratégia de estima¸cão destes parâmetros?” Eis a resposta: “Se a parte prática do método resolvesse aproveitar das constru¸cões da demostra¸cão do Resultado de Pickands para a estimativa dos parâmetrosξ e β(u), então seria dif´ıcil en-contrar a sa´ıda para o seguinte C´ırculo vicioso: por um lado as constru¸cões

fornecem ξ e β(·) só depois de serem informadas sobre o comportamento da cauda³⁰ de F(·), por outro lado o comportamento da cauda de F(·) só será revelado por seu aproximador,G^∗_ξ,β(u),0(·) depois que os parâmetros ξ e β(u) forem estimados.”

Então dada a dificuldade apresentada, assumiremos o Pressuposto 4. Isso significa (devido a interpreta¸cão do pressuposto dada no parágrafo imediata-mente depois de sua formula¸cão) que podemos aproximar a cauda de F(·) à direita de u, para qualquer u ≥U, por G^∗_ξ,β(u),0(·). Qual seria então o mel-hor valor de u? O Resultado de Pickands responde esta pergunta: “Quanto maior u, melhor é a precisão da aproxima¸cão.” Isto motivaria a tendência de aumentaru na constru¸cão da solu¸cão do problema de estima¸cão de cauda.

O empec´ılio porém, mora no fato de que este problema nos fornece apenas uma amostra de valores retiradas deF(·). Tendo em mente que os valores da amostra que excedemuserão aqueles que determinam o formato deG^∗_ξ,β(u),0(·), chega-se à conclusão de que o aumento excessivo do limiar diminuiria a pre-cisão da estimativa. De fato o aumento deuresulta na diminui¸cão do número de pontos da amostrax₁, . . . , x_n que ultrapassam u, e, conseqüentemente, na piora da precisão das estimativas dos parâmetros da fun¸cãoG^∗_ξ,β(u),0(·) obti-das com base nestes pontos. Da´ı a necessidade de estabelecer um critério para o valor ótimo de u. Na estratégia (A)-(C) tal valor foi denotado de uôpt e definido no ´ıtem(A). O que está nas entrelinhas daquela defini¸cão é o seguinte critério:

Pressuposto 5. O limiar ótimo, uôpt, isto é, o valor à direita do qual a cauda de F(·) será aproximada pela estratégia (A)-(C), é a estimativa de U (do Pressuposto 4), isto é, a estimativa do menor valor que não excede a amostra, à direta do qual a cauda de F(·) e sua fun¸cão aproximador G^∗_ξ,β(u),0(·) são praticamente idênticas.

Este critério foi chamado de “pressuposto” por não haver justificativas rig-orosas para tal escolha deuôpt a não ser o bom senso.

Reescreveremos agora o Pressuposto 4 da maneira mais cômoda para a aplica¸cão do procedimento estat´ıstico que estabelecerá o valor deuôpt(observe

30Para entender porquê ξ depende do comportamento da cauda de F(·), recorde que ξ depende do parâmetro αvia rela¸cão (56), e queαcorresponde a EVD em cujo dom´ınio de atra¸cão encontra-seF(·). Relembre também que este dom´ınio é determinado pelo compor-tamento da cauda deF(·) – sobre isto versa o ´ıtem (IV) da Sub-se¸cão 5.4. Já para entender porquêβ(·) depende do comportamento da cauda deF(·) é só reler o Comentário 16.

que o Pressuposto 5 nos obriga a estimar U, logo a tamb´em empregar um m´etodo estat´ıstico).

Pressuposto 4 reformulado. Existe um limiarU satisfazendo min{x₁, . . . , x_n} ≤U <max{x₁, . . . , x_n},

tal que para qualqueru≥U a fun¸cão de distribui¸cão de excessos acima de u, F_u(·), é tão próxima de sua fun¸cão-aproximador G_ξ,β(u),0(·) que os excessos dos pontos da amostra x₁, . . . , x_n que ultrapassamupodem ser considerados como se fossem uma amostra gerada porG_ξ,β(u),0(·).

O problema agora se reduz em estimar o valor de U com base na amostra x₁, . . . , x_n retirada de F(·). Recordamos que o estimador a ser calculado é denotado poruôpt e chama-se limiar ótimo ouvalor ótimo do limiar. A nossa solu¸cão para este problema baseia-se no Fato apresentado na Sub-se¸cão 7.2.

Combinando o Pressuposto 4-reformulado com a Propriedade decorrente deste Fato, deduzimos que a fun¸cão da média de excessos deF_u(·) é linear para todo u≥U. Esta cnclusão e o fato da fun¸cão da média amostral de excessos servir como aproxima¸cão para a fun¸cão de média de excessos nos sugere o seguinte

Procedimento-de-três-etapas para identifica¸cão do limiar ótimo uôpt.

Para cadauentre min{x₁, . . . , x_n}e max{x₁, . . . , x_n}execute o seguinte procedimento (a)-(b):

(a) Extrair da amostra x₁, . . . , x_n os valores que são estritamente maiores que u, e formar a nova amostra de seus excessos acima de u. Para a continuidade da exposi¸cão, introduzimos as nota¸cões: N(u), que denota a quantidade de excedentes da amostra acima deu, e

y₁^(u), . . . , y_N^(u)_(u) (104) o conjunto ordenado dos excessos. (O super-´ındice “(u)” junto a cada y ´e necess´ario para indicar que a amostra (104) muda de acordo com u.

Já a ordena¸cão da amostra (104) é o que facilitará nossa argumenta¸cão abaixo.)

(b)Construir a fun¸cão ê_u(v),v≥0, seguindo a fórmula:

ˆ e_u(v) =

sobre todos osy^(u)_i ’s maiores quev

y_i^(u)−v

quantidade dey_i^(u)’s que s˜ao maiores quev , (105) para 0≤v≤max{x₁, . . . , x_m} −u,

e testar se esta fun¸c˜ao ´e linear em v.

OProcedimentoacima foi chamado dede-três-etapascom o objetivo de dsit-ingü´ı-lo doProcedimentoda Sub-se¸cão 7.2. A diferen¸ca entre os nomes enfatiza a diferen¸ca essencial entre estes dois procedimentos: o que foi definido a pouco vem deuau; para cadauele constrói e analisa sua fun¸cão da média amostral de excessos, e determinauôpt como o menor valor deupara o qual sua fun¸cão se julga apresentar crescimento linear. Já o Procedimento da Sub-se¸cão 7.2 constrói uma única fun¸cão da média amostral de excessos e determina uôpt como a menor abcissa à direita da qual esta fun¸cão apresenta crescimento lin-ear. Bem, entre os dois, oProcedimento de-três-etapasé que foi embasado pelo argumento que precede sua formula¸cão. Então a nossa obriga¸cão é mostrar que oProcedimento de-três-etapase oProcedimentoda Sub-se¸cão 7.2 produzem o mesmouôpt. A demonstra¸cão está contida no parágrafo abaixo.

Para facilitar nossos argumentos, assumiremos que x₁, . . . , x_n designa a amostra ordenada e sem repeti¸c˜oes, ou seja, temos x₁ < x₂ < · · · < x_n−1 <

x_n. Recorde que as amostras (104) também são ordenadas por defini¸cão, e que não apresentam repeti¸cões, dado que elas provêm da amostrax₁, . . . , x_n. Compararemos agora a fun¸cão ê(·) e as fun¸cões ê_u(·). O que pode obscurecer um pouco a compreen¸cão de nossos argumentos é que u designa a variável livre da fun¸cão ê(·) e designa um parâmetro com valor fixo no caso de ê_u(·);

a variável livre desta última fun¸cão foi denotada por v. Com o objetivo de eliminar a confusão, designaremos por t a variável livre em ambos os casos.

Dessa forma a expressão para ê(·) torna -se (usamos a expressão (91) de ê(·) e substitu´ımos nelax_(i) porx_i, o que é leg´ıtimo já que assumimos que a amostra x₁, . . . , x_né ordenada):

ˆ e(t) =

( 1 n−k

i=k+1

x_i )

−t, parat∈[x_k, x_k+1), ek = 1, . . . , n−1. (106) Agora tomaremos u = x₁ e aplicaremos à expressão (105) o argumento que t´ınhamos aplicando para derivar (91) de (86). O resultado será:

ˆ e_x₁(t) =

( 1 n−k

i=k+1

(x_i−x₁) )

−t= ( 1

n−k Xn

i=k+1

x_i )

−x₁−t, (107) parat∈[x_k−x₁, x_k+1−x₁), e k= 2, . . . , n−1.

Comparando (106) com (107) é fácil perceber que o gráfico de ê(·) à direita de x₁ é congruente ao gráfico de ê_x₁(·) à direita de 0. A demostra¸cão desta conclusão aplica-se também ao caso em que u é igual ao qualquer ponto da amostrax₁, . . . , x_n. Portanto tem-se que:

o gráfico de ê(·) à direita de qualquer pontox_i da amostra

x1, . . . , xné congruente ao gráfico de êx_i(·) à direita de 0 (108) Isto prova queuôpt determinado peloProcedimento-de-três-etapascoincide com uôpt determinado pelo Procedimentoapresentado na Sub-se¸cão 7.2.

8 Exemplos de aplica¸ c˜ ao do m´ etodo POT

Nesta se¸cão exibiremos o funcionamento do método POT para diversos con-juntos de dados. Um desses concon-juntos – aquele tratado na Sub-se¸cão 8.3 – provêm de um caso real. O tratamento deste conjunto pelo método POT fornece uma resposta não muito precisa, o que ocorre freqüentemente nos casos reias. Este fato precisa ser explicado. Para que possamos expôr e discutir suas razões, analizaremos o funcionamento do método POT em conjuntos de dados artificiais, criados a partir de fun¸cões de distribui¸cão adequadamente escolhi-das. As análises destes conjuntos formam Sub-se¸cões 8.1 e 8.2, que antecipam, por razões didáticas, a Sub-se¸cão 8.3, que trata o caso real.

8.1 Aplica¸cão do método POT para amostras geradas das fun¸cões

No documento “Peaks-over-Threshold” na estimac ¸ ˜ ao de risco; uma exposic ¸˜ ao abragente, (páginas 106-112)