DETERMINAÇÃO DAS QUANTIDADES PRECIPITADAS

CAPÍTULO II - DESCRIÇÃO DO MODELO ADOTADO

2.2 DETERMINAÇÃO DAS QUANTIDADES PRECIPITADAS

Da mesma forma que em Wilks (1998), a distribuição estatística utilizada para o cálculo das alturas precipitadas nos dias considerados chuvosos, é a exponencial mista a três parâmetros. Segundo Wilks (2006, p. 109) alguns mecanismos físicos apresentam mais de um processo gerador, fazendo com que sua representação por uma distribuição estatística simples seja incompleta. Por isso, distribuições mistas trazem um bom grau de flexibilidade aos modelos, refletindo diretamente nos resultados a serem obtidos.

No caso da distribuição exponencial mista a três parâmetros utilizada neste trabalho, a função densidade de probabilidades é dada por:

[ ] ( ) ^{( )} _{( )} _{( )} ^{( )} _{( )} ^{( )} _{( )} ^{( )}

Por sua vez, a função de probabilidades acumulada é expressa por:

[ ] ( )

^{( )}

[ ] ( ) ( ) ( ) ( )

Onde R representa a variável aleatória, r representa o valor assumido pela variável aleatória (quantidade de chuva propriamente dita) e α^, β1^e β2 representam os parâmetros. Todo o conjunto de incógnitas está atrelado a uma localidade específica k.

Essa distribuição mista pode ser encarada também como a soma de duas funções exponenciais simples (a um parâmetro) intermediadas por um fator de probabilidade. A redução da equação (2.7) para uma distribuição exponencial simples pode acontecer quando β₁ =β₂, α =0^ouα =1^.

Wilks (2006, p. 109) exemplifica a aplicação física de uma distribuição mista para o caso do estudo de temperaturas em uma cidade. Em anos normais a função é representada pela média β₁; já em anos com a influência do fenômeno El Niño, a função é representada pela média β₂. A probabilidade de ocorrência de anos normais ou anos de El Nino é representada pelo parâmetro α. No caso de precipitações, as médias β₁^eβ2 podem ser associadas à menor ou maior quantidade de chuva em um determinado dia. Por esse motivo, na geração da quantidade de chuva em um dia específico, somente uma das médias estimadas é utilizada.

Da mesma forma que na função densidade de probabilidade, as propriedades estatísticas da função mista também dependem do parâmetro probabilístico α^{. Assim,} a média e a variância são expressas por:

( )

1 1

.µ α µ

µ = + − (2.9)

( ) ( )(

1 2

)

2 2 2

2 α.σ 1 α .σ α.1 α .µ µ

σ = + − + − − (2.10)

O método para estimação dos parâmetros da distribuição probabilística em questão foi escolhido com base no grande número de estudos existentes. É usado o Método da Máxima Verossimilhança (descrito na seção 1.4.3.3), citado por vários autores como sendo o de melhor desempenho assintótico, quando comparado a outros métodos (Cramér, 1974, p. 498; Foufoula-Georgiou e Lettenmaier, 1987; Thom, 1958 apud Botelho e Morais, 1999; Grondona et al., 2000). Entretanto, a determinação das estimativas dos parâmetros para a distribuição exponencial mista não se dá de forma direta. A justificativa é mostrada a seguir, na montagem das equações de verossimilhança:

( ) ( )

estimação, de preferência baseado no conceito da Máxima Verossimilhança.

A solução encontrada está na aplicação da técnica do algoritmo EM, cujo artigo original foi escrito por Dempster, Laird e Rubin (1977). Além de tornar possível a estimação dos parâmetros necessários, essa técnica é extremamente conveniente, pois sua formulação foi escrita de forma que eventuais dados faltantes nas séries não atrapalhem o resultado final da estimação (Wilks, 2006, p. 117). Esse fato torna atraente a utilização do método, pois a região de interesse do presente estudo possui séries históricas com a presença de falhas nos registros (ver seção 3.2).

É importante dizer que o algoritmo EM não foi desenvolvido exclusivamente para a estimação de parâmetros de distribuições probabilísticas. Wilks (2006, p. 117, tradução do autor) ressalta também que o termo “algoritmo” não é o mais apropriado para esse método, haja vista que não se trata de um procedimento objetivo, mas de uma “aproximação conceitual que necessita ser moldada a problemas particulares”.

Portanto ele pode ser construído para um problema cujo objetivo seja a estimação de parâmetros através do Método da Máxima Verossimilhança.

O algoritmo consiste em um procedimento interativo com duas fases distintas:

Expectância e Maximização. A primeira fase, ou Expectância, calcula as n probabilidades condicionais atreladas à distribuição exponencial mista e a cada uma das observações:

( ) _{( ) (} ^{( ) (} ₎ _[ _{( )} _{] (} ⁾ ₎

ⁱ ⁿ atualização do parâmetro de probabilidades α é então obtida:

( ) ∑ ( )

A segunda fase, ou Maximização, nada mais é do que a aplicação do conceito da Máxima Verossimilhança, na qual as primeiras atualizações dos parâmetros β₁^eβ2

são calculadas: convergência. A verificação é feita calculando-se a equação de log-verossimilhança (2.12) após cada atualização de parâmetros. Adotou-se como critério de parada uma diferença de 10^-4 entre a penúltima e a última funções calculadas.

Ainda segundo Wilks (2006, p. 119) a atribuição inicial de valores não necessita boa precisão, pois o Algoritmo EM busca a conversão independentemente do valor inicial. Entretanto, no intuito de otimizar o desempenho e a utilização do modelo construído nessa dissertação, optou-se por automatizar inclusive os palpites iniciais dos parâmetros. Para isso, é utilizado o estudo de Rider (1961), no qual são deduzidas as equações para a estimação dos parâmetros da distribuição exponencial mista através do Método dos Momentos. De acordo com a definição apresentada na seção 1.4.3.3, é necessário a resolução de um sistema de três equações:

( ) ( ) [ ( ) ] ( )

entre as equações (2.16), chega-se a:

(

²^.

)

^{( ) (}

²^. ³^. ^.

^{) ( )}

^. ³^. ²^. ⁰

Uma vez estimados os parâmetros da distribuição para uma dada localidade, só resta a geração da altura de chuva. O objetivo passa a ser a determinação da variável aleatória ^R

( )

^k correspondente à função probabilística em questão. Como o que se busca é a geração aleatória de valores que sigam a distribuição exponencial para compor a série sintética, o método utilizado é o mesmo da geração de variáveis aleatórias com distribuições específicas, utilizando-se da inversão da função densidade de probabilidades acumulada. É o Método da Inversão apresentado na seção 1.4.1 e que Wilks (2006, p. 123) descreve para a distribuição exponencial:

[ ( ) ] [ ( ) ] ( ) ( ) ( )

modo, pode-se dizer que a distribuição exponencial mista a três parâmetros se reduz a uma exponencial simples a um parâmetro, no cálculo final da altura precipitada.

Para melhor entendimento do método da inversão aplicado à distribuição exponencial simples, a dedução em (2.19) pode ser visualizada graficamente na figura 7. Assim, para gerar uma variável aleatória com distribuição específica (X_i), é necessária a geração de uma variável aleatória uniformemente distribuída no intervalo (0,1] (u_i) e inverter a função densidade de probabilidade acumulada (2.19), substituindo o valor gerado na função resultante.

Wilks (1998) apresenta o resultado dessa inversão aplicada à distribuição exponencial. As alturas das chuvas são determinadas a partir da equação (2.20):

( ) ( ) ( )

i k r k v

r = _min −β .ln (2.20)

onde r_min representa a quantidade mínima de precipitação para um dia ser considerado chuvoso e v_i é um número aleatório uniformemente distribuído no intervalo (0,1]. A escolha entre as médias β₁^eβ2 é feita a partir da geração de outro número aleatório uniforme (u_i). Caso ui ≤α, a média β₁ é escolhida; se ui >α , a média escolhida é a

β2^.

FIGURA 7 – OBTENÇÃO DE VARIÁVEIS ALEATÓRIAS COM DISTRIBUIÇÕES ESPECÍFICAS PELO MÉTODO DA INVERSÃO.

Completa-se o modelo de geração a partir da equação (2.21):

( )

^k ^X

( ) ( )

^k ^r ^k

Y_i = _i . _i (2.21)

onde ^Xi

( )

^k assume os valores 0 ou 1, dependendo dos resultados do procedimento de ocorrências, explicado na seção 2.1.

Como dito anteriormente, apesar de adotada a distribuição exponencial mista para a representação das quantidades precipitadas, seu desempenho na região de interesse deste trabalho é uma incógnita. Por esse motivo, é realizada uma análise de adequação dos ajustes, independente do resto do estudo. Da mesma forma que na comparada com a distribuição gama a dois parâmetros, outra distribuição amplamente utilizada pelos pesquisadores da área (ver Capítulo I). Os parâmetros da distribuição

acima citados. Para os ajustes, os níveis probabilísticos seguem a tradicional equação

onde i representa a observação corrente e n o número total de elementos da amostra.

Ao analisar as duas curvas construídas (exponencial mista e gama), o melhor ajuste deverá ser aquele cuja curva mais se aproxime da distribuição empírica.

O segundo gráfico é uma comparação direta entre probabilidades. Também conhecido como gráfico Probabilidade-Probabilidade, ou ainda P-P plot (Wilks, 2006, p.

114), esta representação computa os níveis probabilísticos teóricos (novamente utilizando-se a equação 2.24) como função das distribuições que estão sob análise. O resultado é um gráfico com eixos de mesma dimensão (0<i<1), cujo melhor ajuste é aquele que se aproxima da linha diagonal 1:1.

Após as verificações visuais, as qualidades dos ajustes dos modelos probabilísticos são avaliadas formalmente, através do emprego de dois testes clássicos:

Qui-quadrado (χ²) e Kolmogorov-Smirnov. Ambos são amplamente utilizados na literatura justamente para verificação do ajuste de uma distribuição probabilística sobre determinado grupo de dados. As hipóteses em questão, para os dois testes, são as

O teste do Qui-quadrado (χ²) baseia-se na separação dos dados em classes e comparação entre os valores observados e esperados em cada classe. Sua estatística é calculada de acordo com a equação (2.24) (Kite, 1977):

( )

Diz-se que a equação (2.25) segue uma distribuição qui-quadrado com k−1 graus de liberdade, onde O_j é o número de eventos observados na classe j e E_j o número de eventos esperados na mesma classe, de acordo com a distribuição probabilística

teórica em teste; k é o número de classes utilizado. O veredicto será conhecido através da comparação entre o resultado da equação (2.26) e o valor de χ² tabelado (nível de confiança α ^ek−1 graus de liberdade). Caso χ_calc² ≤χ² a hipótese nula é aceita e o modelo probabilístico é considerado adequado. Vale lembrar que o teste qui-quadrado é unilateral, pois a estatística calculada está limitada a valores positivos pelo numerador da equação (2.25).

A definição do número de classes nas quais os dados serão divididos é subjetiva; Wilks (2006, p. 147) escreve que classes com números de eventos reduzidos devem ser evitadas. Para a realização do teste nesta dissertação, o número de classes foi calculado de acordo com formulação de Kite (1977, p. 159):

S X

Classes 2 .







 −

= γ

γ χ

(2.26) onde X ,S e γ são, respectivamente, média, desvio padrão e coeficiente de assimetria da amostra; χ² é o valor do qui-quadrado tabelado para nível de confiança P e 8 γ² graus de liberdade.

De acordo com Kite (1977, p. 160) e Wilks (2006, p 146), a divisão da amostra em classes, principalmente quando se trabalha com distribuições probabilísticas contínuas, pode causar uma indesejada perda de informações. Assim, os autores recomendam a aplicação de um segundo teste: Kolmogorov-Smirnov. De formulação simples, ele procura o maior desvio presente entre as distribuições teórica e empírica.

Esses desvios, ou diferenças, são calculados para cada elemento da amostra através da equação (2.27):

( )

ⁱ ^F

( )

F máx

D_n = _X − _X (2.27)

na qual ^FX

( )

ⁱ é a função densidade de probabilidades acumulada empírica (calculada de acordo com a equação 2.24) e ^FX

( )

^x é a função densidade de probabilidades acumulada teórica; D_n é a máxima diferença encontrada. Quando comparada a um valor crítico (D_crit) o veredicto de teste é conhecido. Existem tabelas para diversos valores críticos de D_crit; como estes dependem do número de elementos da amostra

(diferentes em cada posto pluviométrico) optou-se neste trabalho em utilizar uma equação genérica, proposta por Stephens (1974 apud Wilks, 2006, p. 148):

n n

D_crit K

. 11 , 0 12 ,

0 +

= + ^α

(2.28) onde K_α assume 1,224; 1,358 ou 1,628; para níveis de confiança de 90%, 95% e 99%

respectivamente e n é o número de elementos da amostra. A hipótese nula é aceita se

crit

n D

D ≤ .

Espera-se que essas quatro análises, juntamente com a aplicação dos critérios AIC e BIC, possam fornecer uma melhor noção do desempenho do modelo de geração utilizado, quando aplicado a presente área de estudo.

No documento UNIVERSIDADE FEDERAL DO PARANÁ DANIEL HENRIQUE MARCO DETZEL GERAÇÃO DE SÉRIES SINTÉTICAS DE PRECIPITAÇÃO CURITIBA 2009 (páginas 68-77)

DETERMINAÇÃO DAS QUANTIDADES PRECIPITADAS

CAPÍTULO II - DESCRIÇÃO DO MODELO ADOTADO

2.2 DETERMINAÇÃO DAS QUANTIDADES PRECIPITADAS

[ ] ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

[ ] ( )

[ ] ( ) ( ) ( ) ( )

( )

( ) ( )(

)

( ) ( )

( ) ( ) ( ( ) ( ) [ ( ) ] ( ) )

( ) ∑ ( )

( ) ( ) [ ( ) ] ( )

(

)

( ) (

) ( )

( )

[ ( ) ] [ ( ) ] ( ) ( ) ( )

( ) ( ) ( )

( )

( ) ( )

( )

( )

( )

( )

( )

( )

[ ] ( ) ^{( )} _{( )} _{( )} ^{( )} _{( )} ^{( )} _{( )} ^{( )}

( ) _{( ) (} ^{( ) (} ₎ _[ _{( )} _{] (} ⁾ ₎

^{( ) (}

^{) ( )}