BOOTSTRAP APLICADO À AVALIAÇÃO DE INCERTEZAS ESTATÍSTICAS NO PROGNÓSTICO DE QUANTIS EXTREMOS DE PRECIPITAÇÃO.

(1)

BOOTSTRAP APLICADO À AVALIAÇÃO DE INCERTEZAS ESTATÍSTICAS NO PROGNÓSTICO DE QUANTIS EXTREMOS DE PRECIPITAÇÃO.

Paulo S. Lucio*1 , Ismael V. Leandro1, Tiago P. de Paula1

Resumo: Métodos de Bootstrap são métodos computacionais intensivos de análise estatística que

usa simulação para calcular erros-padrão e intervalos de confiança. Os métodos são aplicados à qualquer nível de modelagem, e assim podem ser usados tanto na análise paramétrica quanto na não paramétrica. Este manuscrito faz uma descrição do procedimento Bootstrap e mostra a sua aplicação à avaliação de incertezas estatísticas de amostragem na análise de índices de precipitação de séries temporais mensais e sazonais. Especificamente, o trabalho concentrou-se nas incertezas dos quantis (fractis) da distribuição de probalididades de uma série temporal. O procedimento permite estimar o erro-padrão do valores médios ou modais dos decis e um intervalo de confiança para esses parâmetros. Esta análise pode ser entendida a quantis mais (menos) discretizados, por exemplo, aos percentis. Ilustra-se a técnica Bootstrap através de estudos de casos reais para a série de precipitação no estado do Rio Grande do Sul (RS) - Brasil.

Abstract: Bootstrap methods are computer-intensive methods of statistical analysis that use

simulation to calculate standard errors, confidence intervals and significance tests. The methods apply for any level of modeling, and so can be used for fully parametric, semiparametric, and completely nonparametric analysis. This manuscript describes the Bootstrap technique and shows its application in the evaluation of sampling statistical uncertainties in the analysis of the precipitation indices associated to monthly and seasonal time series. Specifically, the work is concentrated in the evaluation of the quantile uncertainties related to the most probable value of the deciles distribution of a random time series. The procedure allows us to estimate the standard error of the mean or the most probable values (mode) and a confidence interval for these parameters. This analysis can be extended to more (less) discretized quantiles, e.g., the percentiles. The Bootstrap technique is illustrated by means of some real case studies of precipitation through the Rio Grande do Sul (RS) - Brazil.

Palavras-chave: intervalo de confiança, reamostragem, erro-padrão. INTRODUÇÃO

Em muitos problemas de climatologia, os valores relevantes de uma determinada resposta ou variável aleatória são os parâmetros de uma distribuição de probabilidades. Na análise de séries de precipitação para a caracterização de secas ou enchentes, pode ser de interesse as respostas a partir das quais podemos identificar situações extremas. Na avaliação da distribuição de probabilidades de valores acumulados mensais ou sazonais de precipitação seria necessário um conjunto de dados com os valores observados, durante no mínimo 30 anos. No caso da análises de curto prazo (horário ou diário) realizadas em algumas estações meteorológicas, o ideal seria processar simulações aleatórias independentes com o tempo de duração da análise de curto prazo (proposta de um gerador estocástico de séries sintéticas de dados climáticos) e tomar o valor acumulado obtido em cada uma

1

Instituto Nacional de Meteorologia (INMET) – Coordenação de Desenvolvimento e Pesquisa (CDP) Eixo Monumental Sul – Via S1 – Setor Sudoeste

70680-900 – Brasília DF - Brasil e-mail*: paulo.lucio@inmet.gov.br

(2)

delas para formar uma amostra da população dos totais mensais de precipitação e proceder a um ajuste da distribuição de probabilidades correspondente.

Na prática, dados de precipitação não constituem uma amostragem significativa para se proceder da forma acima mencionada. Um dos desafios da estatística, uma vez que na prática em meteorologia, trabalhamos com amostras finitas da variável aleatória, é o processo conhecido como inferência estatística, que tenta determinar a precisão de estimativas de parâmetros estatísticos obtidas a partir de uma dada amostra ou conjunto de dados. Existem na literatura procedimentos teóricos para avaliação de incertezas associadas a vários parâmetros estatísticos de uma amostra. No entanto, no que tange aos parâmetros de ordem, como os quantis, mínimos e máximos, as expressões analíticas normalmente tornam-se bastante complicadas.

Efron (1979) propôs uma técnica de simulação numérica chamada Bootstrap para avaliar tais incertezas. O Bootstrap é um procedimento robusto de simulação estatística (SSP) para atribuir medidas de precisão a estimativas de parâmetros estatísticos. Um dos atrativos deste método é que ele consegue responder muitas questões estatísticas reais sem termos que lançar mão de fórmulas matemáticas complexas.

Dada uma estimativa de um determinado parâmetro estatístico, calculado a partir de uma amostra de dados, dois dos objetivos principais do Bootstrap são: (a) estimar o erro-padrão da referida estimativa e (b) estimar um intervalo de confiança apropriado. Neste trabalho propomos fazer uma descrição sucinta da técnica Bootstrap e mostrar a sua aplicação à avaliação de incertezas estatísticas de amostragem na análise de séries mensais de precipitação. Especificamente, o trabalho concentrou-se nas incertezas da distribuição empírica dos percentis extremos das séries temporais. Ilustra-se esta técnica através de estudos de casos reais para o estado do Rio Grande do Sul (RS).

REAMOSTRAGEM BOOTSTRAP

Os conceitos e a teoria apresentados nesta sessão baseiam-se em Efron e Tibshirani (1993). A inferência estatística procura estabelecer as propriedades da população a partir da análise de uma amostra aleatória retirada da mesma. Os problemas de inferência estatística consistem, portanto, em estimar algum aspecto da distribuição de probabilidade da população com base numa amostra aleatória da mesma. Neste estudo, pode ser considerado a função probabilidades acumulada ou qualquer outra descrição completa do comportamento probabilístico da variável aleatória em questão. O método Bootstrap

F F

2

é um procedimento computacional concebido para fornecer uma medida do nível de precisão de uma inferência estatística.

A idéia básica do método Bootstrap é muito simples. Dados uma amostra de uma população, um estimador de um determinado parâmetro da população obtido através da amostra e θˆ θ

(3)

admitindo-se que não se conhece a distribuição da população ou do estimador, levantam-se as questões seguintes: Como podemos avaliar a qualidade do estimador, construir testes de hipóteses e determinar os intervalos de confiança (IC) para o parâmetro?

A técnica Bootstrap pode ser empregada para construir ICs para um parâmetro ou uma característica, θ (escalar), da populaçãoθ =t(F) - esta notação enfatiza que o valor do parâmetro θ é obtido aplicando algum procedimento de avaliação numérica à função de distribuição . Ainda que seja desconhecida, a forma de

F

F θ=t(F) fornece o mapeamento funcional que tem como entrada e como saída. É importante observar que, se a única informação disponível sobre provém da amostra , a qualidade do estimador de

F

θ F

X θ =t(F) não pode ser melhorada no sentido assintótico usual da teoria estatística. Portanto, o estimador plug-in - o princípio plug-in é um método simples para estimar parâmetros a partir de amostras. Por este princípio, a estimativa do parâmetro é feita aplicando-se o mesmo procedimento de avaliação numérica à função de distribuição empírica - será o melhor estimador (mínima variância) do parâmetro θ . A técnica de reamostragem Bootstrap permite precisamente usar uma amostra para estimar a quantidade de interesse através de uma estatística e avaliar também as propriedades da distribuição dessa estatística, ou seja fornecem também estimativas para a distribuição, viés, desvio-padrão e ICs da estatística.

A hipótese fundamental subjacente à técnica Bootstrap de reamostragem é de que a amostra observada deve ser representativa da população (conjunto de experiências ou realizações) sob estudo. Desta forma, na terminologia “bootstrapping” as amostras aleatórias construídas a partir da população finita correspondem a amostrar com reposição a partir do conjunto . Atentemos ao fato de que não é um novo conjunto de dados, mas sim uma versão reamostrada, de . A cada conjunto de dados Bootstrap corresponderá uma replicação Bootstrap de θ . No processo de estimação usam-se uma estatística como estimador de

cuja qualidade deve ser avaliada considerando as seguintes medidas: R n X ,..., X X= ₁ *R *1 * X ,..., X X = n X ,..., X X= 1 ˆ _T(X) θ(F) Erro ≡ T(X)−θ(F),

Erro Sistemático ≡ Bias_F(T)=E_F(T)−θ(F),

Responsável pelos Erros Aleatórios ≡ Var_F(T)=E_F(T2(X))−E2_F(T(X)).

Observe que o método Bootstrap tem uma grande vantagem com relação aos métodos tradicionais, quando usado no modo não paramétrico, ele dispensa a necessidade do analista fazer hipóteses sobre o tipo de distribuição da população envolvida.

2

(4)

INTERVALO DE CONFIANÇA BOOTSTRAP

Estimar ICs tem sido uma das ênfases principais dos trabalhos teóricos sobre Bootstrap. O intervalo percentílico 1-2α é definido pelos percentis α e 1− de uma determinada distribuição α empírica. O IC refere-se à situação ideal (assintótica) do Bootstrap na qual o número de replicações Bootstrap é “infinito”. Na prática, devemos usar algum número finito R de replicações. São gerados, portanto, R conjuntos independentes de dados Bootstrap e são calculadas as replicações Bootstrap e o percentil % da distribuição Bootstrap pode ser associado ao correspondente -ésimo percentil empírico obtido através da lista ordenada das R replicações. Se a distribuição Bootstrap for aproximadamente Normal, os intervalos Normal padrão e percentílico serão aproximadamente iguais. Todavia, para pequenas amostras de dados podemos ter distribuições que se afastem bastante da Normal, neste caso, os intervalos Normal padrão e percentílico serão diferentes e o segundo produzirá um IC geralmente mais apropriado.

α 100 α

100

Para cada amostra Bootstrap calculamos o valor da estatística de interesse, a qual denotamos por . Assim, podemos usar a distribuição empírica de como uma aproximação para a verdadeira distribuição da estatística , e portanto fazer inferência sobre o parâmetro de interesse (princípio plug-in). Seja a função distribuição acumulada de , . O intervalo de confiança Bootstrap percentílico de nível é calculado como

. Na prática, gera-se R amostras Bootstrap independentes e estima-se para cada uma delas. Os limites inferior e superior do intervalo percentílico são dados por:

, onde é o -ésimo valor ordenado das replicações Observemos que o intervalo percentílico , com nível de confiança , é obtido diretamente das replicações.

( )

b Fˆ∗ Fˆ∗

( )

b Fˆ ) (x G∗ Fˆ∗ G∗(x)=P∗[Fˆ∗ ≤x] 2α -1 )] 1 ( ; ) ( [G∗−1 α G∗−1 −α Fˆ∗ ] ˆ , ˆ [F_R∗(α) F_R∗(1−α) Fˆ_R∗(α) Rα Fˆ_R∗(b). 2α -1

Para melhorar a precisão obtida com o método percentílico utilizamos o procedimento denominado BCa (Bias-Corrected and accelerated). De acordo com Efron e Tibshirani (1993), o BCa fornece limites de confiança mais precisos e é preferível na prática. Os percentis usados dependem de dois números chamados aceleração (refere-se à taxa de variação do erro-padrão em relação ao verdadeiro valor do parâmetro) e correção do viés.

ESTUDO DE CASO - ANÁLISE DOS QUANTIS DE PRECIPITAÇÃO NO RS

Muitas medidas que sintetizam as propriedades do conjunto de dados usam os chamados quantis ou fractis. Estes termos são essencialmente equivalentes ao termo percentil, que é uma medida da posição relativa (separatriz) de uma unidade observacional em relação a todas as outras. Para a identificação dos cenários pluviométricos no Rio Grande do Sul foram inicialmente estabelecidos, para cada posto pluviométrico, o total de precipitação registrado nos três meses função das observações pela distribuição empírica dos dados, baseado em uma amostra de tamanho finito.

(5)

setembro-outubro-novenbro (SON) consecutivos considerados os mais chuvosos de cada ano hidrológico completo. Para atender à grande variabilidade interanual da precipitação este manuscrito contempla três diferentes cenários pluviométricos (Tab.1): "anos secos" aqueles em que o total de precipitação foi igual ou menor que o valor correspondente a probabilidade de 15% (valores abaixo de 5% são considerados eventos extremos de seca severa); "anos chuvosos" aqueles cujo total de precipitação acumulado é superior ao valor correspondente à probabilidade de 85% (valores acima de 95% são considerados extremos de chuva abundante); "anos regulares" aqueles não classificados nas categorias anteriores.

Tab.1: Caracterização climatológica empírica e “bootstrapping” dos percentis da precipitação acumulada (mm) nos

meses de setembro-outubro-novembro (SON) nas estações meteorológicas, sob estudo, no Rio Grande do Sul. Cidade Estação pˆ(15%)

R

pˆ (15%)bootstrapping pˆ(85%) pˆ_R(85%)bootstrapping

IRAÍ 83881 99,97 100,64 254,63 241,90 SÃO LUIZ GONZAGA 83907 82,49 84,29 269,15 270,56 CRUZ ALTA 83912 83,65 89,93 272,84 273,58 PASSO FUNDO 83914 91,93 93,49 276,67 279,58 BOM JESUS 83919 73,40 72,85 231,35 235,94 URUGUAIANA 83927 54,17 53,50 206,11 202,95 SANTA MARIA 83936 58,12 55,99 233,0 231,80 CAXIAS DO SUL 83942 85,86 83,95 245,59 245,87 TORRES 83948 59,58 59,77 202,28 203,51 ENCRUZILHADAS DO SUL 83964 63,04 62,54 212,0 216,20 PORTO ALEGRE 83967 56,02 55,61 192,90 192,18 BAGÉ 83980 61,71 61,78 190,89 189,03 RIO GRANDE 83995 46,33 46,88 160,11 159,48 SANTA VITÓRIA DO PALMAR 83997 40,98 41,74 153,44 155,71

Fig.1: Regime percentílico “bootstrapping” (referente à Tab.1) da precipitação acumulada no Rio Grande do Sul.

CONCLUSÕES E PERSPECTIVAS

Apresentamos estudos de casos do Bootstrap não-paramétrico para a precipitação em estações meteorológicas do Rio Grande do Sul - Brasil. Os parâmetros de interesse escolhidos foram os quantis da distribuição de da série temporal mensal. Para estimar o intervalo de confiança (IC) Bootstrap ao nível de confiança 95%, foi usado o intervalo baseado no método BCa, que corrige algumas deficiências do intervalo percentil (Tab.2). Os ICs fornecem informações que são necessárias ao prognóstico climático. Um trabalho futuro envolvendo algum outro parâmetro

(6)

estatístico da distribuição de probabilidades de extremos da precipitação poderia fornecer dados adicionais de relevância. Como extremos são eventos raros, a utilização de Bootstrap é uma alternativa para construir ICs que têm uma melhor performance que os intervalos obtidos através da teoria assintótica Normal.

Tab.2: Limites de confiança do Effron (BCa). Caracterização climatológica “bootstrapping” dos ICs referentes aos

percentis caudais de precipitação acumulada (mm) de SON nas estações meteorológicas do Rio Grande do Sul.

R

pˆ (15%)bootstrapping pˆR(85%)bootstrapping

Cidade Estação 2,5% 97,5% 2,5% 97,5% IRAÍ 83881 91,34 106,08 230,60 290,90 SÃO LUIZ GONZAGA 83907 68,80 90,57 237,60 288,52 CRUZ ALTA 83912 52,86 89,60 236,40 292,82 PASSO FUNDO 83914 74,60 113,95 240,00 303,85 BOM JESUS 83919 63,40 89,41 191,85 243,82 URUGUAIANA 83927 44,60 68,90 182,60 245,34 SANTA MARIA 83936 47,76 82,31 217,30 253,60 CAXIAS DO SUL 83942 69,51 103,08 220,92 270,26 TORRES 83948 51,70 73,37 178,19 213,74 ENCRUZILHADAS DO SUL 83964 54,20 74,08 179,70 234,56 PORTO ALEGRE 83967 50,18 67,10 167,80 228,60 BAGÉ 83980 48,62 67,20 177,89 224,33 RIO GRANDE 83995 39,31 54,40 144,90 182,60 SANTA VITÓRIA DO PALMAR 83997 27,72 49,75 133,36 166,10

Fig.2: Regime IC percentílico “bootstrapping” (referente à Tab.2) da precipitação acumulada no Rio Grande do Sul.

REFERÊNCIAS BIBLIOGRÁFICAS

Dudewicz, E. J. and Mishra, S. N. (1988). Modern Mathematical Statistics. New York: John Willey & Sons.

Efron, B. (1979). Bootstrap methods: another look at the jackknife. The Annals of Statistics, 7, 1-26. Efron, B., Tibshirani, R. J., (1993). An Introduction to the Bootstrap. New York: Chapman and Hall.

(7)

Gibbs, W. J., Maher, J. V., (1967). Rainfall deciles as drought indicators. Bureau of Meteorology, Bulletin 48, Commonwealth of Australia, Melbourne.