• Nenhum resultado encontrado

O desempenho do modelo VPDL foi avaliado a partir de medidas de avaliação de previsão não probabilística de variáveis contínuas e discretas, ou medidas de regressão e de classificação.

As medidas de regressão são calculadas em função do erro entre o valor de refletividade observado e previsto pelo modelo. As medidas de classificação foram calculadas em considerando uma classificação binária (0 ou 1) em cada pixel, i.e., não chuva e chuva, onde a classe positiva (chuva) foi definida a partir de um limiar sobre o valor de refletividade. As medidas de classificação foram calculadas apenas na Fase 3 e as medidas de regressão foram aplicadas nas três fases. Além disso, na Fase 3, o desempenho do modelo VPDL é avaliado em três casos de chuva em comparação ao modelo de nowcasting de precipitação ENCAST.

As medidas de regressão foram calculadas por imagem dos conjuntos de teste e depois foram feitas médias por período analisado, de acordo com a Fase do trabalho. Já no caso das medidas de classificação, os erros e acertos foram acumulados por período e as estatísticas foram calculadas sobre esses valores.

61 5.3.1 Medidas de Regressão

As 4 estatísticas para avaliação do erro de predição das imagens geradas são definidas abaixo, onde y é a imagem observada e y’ é a imagem prevista. Destaca-se que essas estatísticas foram calculadas entre os resultados do modelo VPDL entre o conjunto de teste da Fase especificada (1, 2 ou 3) e as imagens de refletividade observadas correspondentes:

1. Raiz do Erro Médio Quadrático (REMQ): medida comum em problemas de regressão (WILKS, 2006). Quantifica o erro médio de previsão a partir do quadrado da diferença entre o valor observado e o valor previsto. É sensível a erros grandes e outliers.

√ ∑

5.13

onde N é o número total de pixels da imagem.

2. Erro Médio Absoluto (EMA): similar ao EMQ, esta medida quantifica o erro absoluto de previsão a partir do valor absoluto da diferença. Seu valor aumenta linearmente conforme as discrepâncias entre a previsão e a observação aumentam.

∑ | |

5.14

3. Índice de similaridade estrutural (SSIM, sigla em inglês para Structural SIMilarity index): esta é uma medida objetiva de avaliação da qualidade da imagem percebida pelo olho humano. Este índice compara as estruturas da imagem observada (y) com a imagem prevista (y’) nos seguintes aspectos: brilho, contraste e estrutura (WANG et al., 2003, 2004). O intervalo de valores possíveis vai de -1 a 1, onde o melhor valor é 1.

5.15

onde C1 e C2 são constantes, μy é a média dos valores dos pixels da imagem, σy é o desvio padrão e σyy’ é a covariância, calculados a partir das equações abaixo:

5.16 ( ∑( ) ) 5.17

62

5.18

No presente trabalho, o índice SSIM é calculado com as mesmas constantes definidas arbitrariamente em WANG et al. (2004), a partir de uma função gaussiana simétrica com 1,5 de desvio padrão em uma região de tamanho 11x11 pixels que se move pixel a pixel, e C1 = 0,01 e C2 = 0,03. Para a imagem inteira deve ser calculada a média dos valores obtidos de SSIM em todas as regiões (MSSIM).

5.19

onde M é o número de regiões em uma imagem.

De acordo com WANG et al. (2003), SSIM pode ser usado como função de otimização em sistemas de processamentos de imagens. TRAN e SONG (2019) (seção 2.2) utilizaram esse índice para treinar um modelo de DL para nowcasting de precipitação.

4. Razão entre o pico do sinal e o ruído (Peak Signal to Noise Ratio – PSNR): avalia a qualidade da imagem prevista (y’) em relação à imagem observada (y), quanto à presença de ruído. Esta é uma medida bastante utilizada para avaliar a qualidade de imagens comprimidas. O valor de PSNR varia tipicamente em torno de 20 e 40 dB, e quanto maior PSNR melhor é a qualidade da imagem gerada. No entanto, só se pode afirmar quanto à qualidade da imagem a partir da comparação entre dois valores de PSNR para diferentes imagens.

5.20

onde 255 é o valor máximo do pixel para uma imagem de 8 bit/pixel. 5.3.2 Medidas de classificação

Estas estatísticas foram calculadas apenas na Fase 3 entre: os resultados do modelo VPDL sobre o conjunto de teste (ano de 2018) e as imagens de refletividade observadas e; os resultados do modelo de nowcasting de precipitação ENCAST e as imagens de refletividade observadas.

Sistemas de nowcasting de precipitação só podem ser comparados se forem desenvolvidos com os mesmos propósitos (WILSON et al., 1998). No caso, o modelo ENCAST se aplica tanto a precipitação convectiva quanto estratiforme (SELEX, 2017) e é esperado que o modelo VPDL se aplique a ambos os tipos de precipitação, pois ele foi treinado sem distinção entre os padrões de precipitação.

63 Baseado na Relação Z-R utilizada pelo modelo ENCAST (z=300R1,4), o limiar de 20 dBZ, que equivale a aproximadamente 0,5 mm/h (Tabela 3.2), foi considerado para representar pixels de chuva nas imagens de radar. Esse limiar também é utilizado para comparação com a previsão de precipitação do ENCAST.

Para avaliação do modelo VPDL, os valores dos pixels foram convertidos em valores binários {0,1} (i.e. não/sim) usando os limiares de refletividade (definidos abaixo) para os campos de refletividade (em dBZ) observados e previstos pelo modelo VPDL. Também foi definido um limiar de precipitação (em mm/h) para as previsões do ENCAST, para avaliar os resultados do modelo VPDL contra os resultados do ENCAST. Valores menores ou iguais aos limiares foram convertidos em 0, e valores maiores que os limiares foram convertidos em 1. A seguir são definidos os pares de limiares aplicados à observação e à previsão para avaliar o desempenho do modelo:

 1 dBZ para refletividade observada e prevista pelo modelo VPDL;

 10 dBZ para refletividade prevista pelo modelo VPDL e 20 dBZ para refletividade observada (a escolha desses limiares é discutida na seção 6.3, devido à nitidez das imagens geradas, Figura 6.5). Esses valores são comparados com as previsões do ENCAST;

 1 mm/h para precipitação prevista pelo ENCAST e 20 dBZ para refletividade observada.

Na Fase 3, as estatísticas de verificação categóricas foram calculadas para até 150 min de previsão em todo o conjunto de teste (ano de 2018) e por trimestre representativo das estações do ano - verão (JFM26), outono (AMJ), inverno (JAS) e primavera (OND), totalizando cinco subconjuntos. As datas dos três casos de chuva comparados com o ENCAST são: 31/07/2018, 05/12/2018 e 22/12/2018. Destaca-se que não foi utilizado como entrada do modelo nenhuma informação quanto a calendário, apenas as imagens em sequência. A avaliação por estação do ano foi feita somente para validar o modelo em períodos mais homogêneos do que um ano inteiro. No Apêndice 1 são apresentados mapas de refletividade acumulada por período utilizado/analisado: treinamento, validação, teste, JFM, AMJ, JAS, OND.

26

Em algumas análises os dados foram divididos em estações do ano, para agrupar por períodos com características semelhantes. Foi usado o trimestre JFM representativo do verão, em vez de DJF, para que o período estivesse em ordem cronológica e possuísse os 3 meses completos. Os outros períodos foram separados seguindo a sequência. Isso é possível, pois a região de estudo não apresenta as 4 estações bem definidas.

64 Os eventos de acerto e erro da previsão por imagem, pixel a pixel, foram acumulados em matrizes de confusão27 por período analisado (Tabela 5.5), com base nos limiares definidos acima, para os subconjuntos e casos de chuva selecionados. As estatísticas de cada subconjunto/caso analisado foram calculadas a partir dessas matrizes de confusão.

Na análise dos resultados, pixels com e sem refletividade são denominados como pixels com chuva (CC) e sem chuva (SC), respectivamente. Na Tabela 5.5, um pixel positivo (SIM), previsto ou observado, corresponde a pixel CC (refletividade maior que o limiar) e um pixel negativo (NÃO), previsto ou observado, corresponde a pixel SC (refletividade menor ou igual ao limiar). As medidas de classificação são calculadas a partir da matriz de confusão (Tabela 5.5) onde:

VP: corresponde ao número de pixels positivos (sim) observados que foram corretamente previstos;

FP: corresponde ao número de pixels negativos observados (não), que foram erroneamente previstos;

FN: corresponde ao número de pixels positivos observados, mas que não foram previstos;

VN: corresponde ao número de pixels negativos observados que foram corretamente previstos como negativos.

Tabela 5.5: Matriz de confusão

Observado

SIM NÃO

Previsto

SIM VP FP

NÃO FN VN

As seguintes medidas de avaliação foram calculadas:

1) Probabilidade de Detecção (POD, sigla em inglês para Probability Of Detection) ou Recall: fração de pixels positivos observados que foram corretamente previstos. O intervalo de valores possíveis vai de 0 a 1, onde o melhor valor é 1 e o pior é 0.

27

Um tipo de tabela de contingência 2 x 2, que mostra a relação entre a classe prevista e observada (Wilks, 2006).

65

5.21

2) Razão de Falso Alarme (FAR, sigla em inglês para False Alarm Ratio): fração de pixels previstos positivos, mas que não ocorreram. O intervalo de valores possíveis vai de 0 a 1, onde o melhor valor é 0 e o pior é 1.

5.22

3) Probabilidade de Falsa Detecção (POFD, sigla em inglês para Probability Of False Detection) ou probabilidade de falso alarme: fração de pixels negativos observados que foram erroneamente previstos como positivos. O intervalo de valores possíveis vai de 0 a 1, onde o melhor valor é 0 e o pior é 1.

5.23

4) BIAS ou viés: razão entre o número de pixels positivos previstos e o número de pixels positivos observados. Indica em quantas vezes o número de pixels positivos previstos supera o número de pixels observados (WILKS, 2006). Uma previsão sem viés apresenta BIAS = 1, BIAS > 1 indica excesso de valores previstos positivos e BIAS < 1 indica valores previstos insuficientes.

5.24

5) Índice Crítico de Sucesso (CSI, sigla em inglês para Critical Success Index) também conhecido como Threat Score: razão de pixels positivos observados e corretamente previstos pelo número total de pixels positivos previstos ou necessários. O CSI é uma alternativa a POD quando o pixel positivo ocorre substancialmente menos que o pixel negativo (WILKS, 2006). O CSI depende da proporção de VN frente ao número total de casos (SCHAEFER, 1990). O intervalo de valores possíveis vai de 0 a 1, onde o melhor valor é 1 e o pior é 0.

5.25

5.26

6) Equitable Threat Score (ETS) ou Gilbert Threat Score: é um skill score baseado no CSI (SCHAEFER, 1990; WILKS, 2006). O ETS quantifica o melhoramento da previsão frente a uma previsão aleatória. O CSI e o ETS são geralmente utilizados na avaliação de previsão quantitativa de precipitação (HAMILL, 1999; SHARIFI et al., 2016; WANG, 2014). O intervalo de valores possíveis vai de -1/3 a 1, onde o melhor valor possível é 1 e 0 indica falta de habilidade.

66

5.27

5.28

Diferentemente de CSI, ETS depende diretamente de VN devido a R. A frequência de pixels positivos observados ⁄ determina o quanto ETS e CSI são próximos, assim, conforme o pixel positivo se torna mais raro, ETS se aproxima de CSI (SCHAEFER, 1990).

CSI e ETS são utilizados normalmente para avaliar a previsão quantitativa de precipitação (HAMILL, 1999; SHARIFI et al., 2016; WANG, 2014). Além das estatísticas de verificação numérica, uma análise subjetiva das imagens deve ser feita para certificar visualmente a qualidade dos resultados.

Documentos relacionados